La influencia de los sistemas complementarios de seguridad (EPO y PCI) en la disponibilidad de un data center.
"Pregúntale al EPO"
Recuerdo perfectamente (creo que ya lo he comentado en alguna otra ocasión) aquella vez en la que en una conversación con Ken Brill (fundador de Uptime Institute y, tristemente, fallecido hace unos años), le pregunté cuál era la razón por la que el nivel de disponibilidad de un Tier IV era de sólo cuatro nueves y medio, es decir 99,995, lo que equivale a un tiempo de interrupción de casi media hora al año (algo a todas luces inaceptable en un entorno de misión crítica con alto nivel de exigencia). Su respuesta fue breve y concisa: “Pregúntale al EPO”, contestó.
Efectivamente, el valor 99,995 significaba que la media entre todos los Tier IV arrojaba ese bajo nivel a pesar de que una topología como esa se encuentra dotada de amplios niveles de redundancia que ofrecen muchas garantías, tanto en lo respecta a su mantenibilidad concurrente, como a su tolerancia a fallos. Y, sin embargo, en los centros en cuestión se producían “ceros”, muchas veces por razones ajenas a las del funcionamiento de sus componentes principales, motivadas por la intervención de ciertos elementos complementarios, como pueden ser el EPO (Emergency Power Off, o seta de emergencia) y la PCI (protección contra incendios).
“El EPO es el sistema de seguridad que más inseguridad provoca” era otra de las frases de Ken que más se me quedó grabada y está en la base misma de lo que estoy intentando relatar. No todas las instalaciones lo llevan, pero sí aquellas donde la legislación local lo prescribe de forma imperativa (en USA mismo, hay ciertos estados donde sí y otros donde no).
Independientemente de la vía normativa, y si no hay manera de evitar su colocación, la evolución de los EPO ha ido por la línea de evitar los accionamientos fortuitos, mediante su colocación en zonas exclusivas donde no exista el riesgo de confundirlos con otros mecanismos, o dotándolos de características que hagan más difícil una actuación involuntaria como pueden ser la colocación de cubiertas protectoras, accionamientos con retroceso o con giro y, entre los más recientes, aquellos para cuyo accionamiento es necesario activar dos unidades de forma simultánea.
Pero hay otro sistema de seguridad que constituye también una amenaza para estos entornos y que, por lo visto últimamente, tiene unos índices de negativa influencia superiores a los del EPO. Se trata de la protección contra incendios. No pretendo entrar en detalles, entre otras cosas porque no es una especialidad que domine, pero sí quiero resaltar el hecho de que varias de las incidencias más sonadas de los últimos tiempos, y que han sido publicadas por la prensa internacional, han tenido que ver con la actuación de la PCI y su repercusión en el resto del sistema.
Es relativamente reciente la noticia de la paralización de ciertas emisiones de televisión en el Reino Unido, que afectaron a una serie de canales, así como otras cuantas ocurridas en los últimos años en usuarios tan conocidos como Amazon, Microsoft, ING, etc.
Y, curiosamente, al analizar en su conjunto la información existente sobre todos estos casos, se puede extraer la conclusión de que la vía por la que se manifiesta el riesgo de intervención no deseada de la PCI viene por tres caminos.
- El primero, cuando se interviene de forma directa parando el sistema de enfriamiento, sobre todo si se trata de entornos de alta densidad, donde los tiempos de inercia térmica son muy cortos.
- El segundo, motivado por intervenciones de mantenimiento, modificación o simples pruebas de funcionamiento sobre el sistema de PCI.
- Y el tercero, cuando la propia actuación del sistema de extinción provoca daños en los componentes más sensibles de la parte IT.
La última de las referencias publicadas sobre esto habla de cómo la onda producida en las boquillas, en la descarga del gas extintor, afecta a los discos duros y ofrece una relación varios data centers donde se han producido circunstancias similares. Y resulta curioso observar cómo una amenaza como esta, de la que se lleva hablando ya varios años, parece que, o resulta nueva para muchos, o las cosas que se escriben sobre los riesgos caen en saco roto siendo muy cierta esa realidad por la cual cuando se exponen amenazas, el común de los mortales se piensa que eso no va con ellos, y que siempre es problema de otros.
Hasta que llega el lobo.