Política de Cookies
Utilizamos cookies propias y de terceros para mejorar tu accesibilidad, personalizar y analizar tu navegación. Al continuar navegando consideramos que aceptas su instalación. Puedes cambiar la configuración u obtener más información en nuestra
(+ info)

Aceptar

PQC

Otro caso sonado de caída de Data Center

POSTED BY Garcerán Rojas 12 de noviembre de 2017

Millones de webs de toda Europa están sufriendo caídas este jueves por la mañana. La razón está en una incidencia que ha sufrido OVH, un proveedor de alojamiento web y telecomunicaciones francés, y que por ende ha afectado a todas las páginas que tiene alojadas en sus infraestructuras.

La propia OVH ha reconocido a través de las redes sociales que se trata de un problema en el balanceador de carga y que todo su equipo trabaja ya para solucionarlo y reestablecer el acceso a los servicios que afectan a toda Europa. (fuente: Diario de Mallorca)

Bueno, ya tenemos otro caso para comentar, y lo cierto es que, una vez más, nos encontramos con el mismo patrón de funcionamiento. Quizá, en este caso de OVH, y a diferencia de otros, la organización ha ofrecido con una cierta celeridad una explicación verosímil. En el caso reciente de British Airways, los primeros datos apuntaban hacia una interpretación que publiqué en su momento en dos capítulos ( Otra vez lo eléctrico en el ojo del huracán Parte 1 | Otra vez lo eléctrico en el ojo del huracán Parte 2 ) pero que luego derivaron hacia una explicación oficial de un, bastante improbable, error humano.

Los tres data center de OVH afectados (el 1, el 2 y el 4) se encuentran ubicados en Estrasburgo y la explicación de suceso, ofrecida por el fundador de la organización, Octave Klaba, no deja lugar a dudas. Todo parte de una falta en la acometida de alta tensión, común para todos los centros y realizada por doble línea pero, incomprensiblemente, compartiendo un mismo interruptor de protección. 

Ante la presencia del defecto, el interruptor respondió adecuadamente dejando sin suministro al conjunto de los centros. Es decir, hasta ahora, igual que si hubiese sido una simple pérdida de suministro de compañía por cualquiera de las razones más habituales. 

A partir de esta situación, le toca entrar en escena al sistema de respaldo mediante grupos electrógenos y es aquí cuando el asunto empieza a torcerse. Tal como se explica en la nota de la compañía, existen dos bloques de grupos electrógenos. El primero con una redundancia de N+1 para los centros 1 y 4 y el otro, con idéntica topología, para el centro 2. Por la razón que fuere, ninguno de los bloques arranca y el sistema agota la autonomía de los UPSs hasta producirse el correspondiente cero.

Otros datos ofrecidos por la compañía indican que:

  • El suceso se produjo a las 7:23 AM del jueves día nueve.
  • A las 7:50 se formó un gabinete de crisis.
  • Los grupos no se arrancaron hasta las 10 AM, es decir, tras más de dos horas y media.
  • El servicio comenzó a reestablecerse de forma paulatina, a partir de las 10:58. 
  • El último ensayo en carga data de Mayo de 2017, siendo los ensayos más frecuentes los que se efectúan sin carga .

Por último, las medidas que se anuncian como respuesta al suceso van solamente en la vía de independizar las líneas de suministro, separar el centro 2 del 1 y del 4, volcar las cargas de 1 y 4 al 3 y, una vez hecha la migración, cerrarlos. 

Francia, al igual que UK cuando el caso de British Airways, es un país con una teórica primacía en aspectos técnicos y organizativos pero, como dice la popular sentencia, “en todas partes cuecen habas”. 
 

El tema aquí es que: 

  • No hubo un equipo de mantenimiento en conducción capaz de revertir la situación y arrancar de forma “manual” los grupos.
  • Se tardó más de dos horas y media en hacerlo.
  • El fallo es común para los dos bloques de grupos por lo que se intuye que existe un PSF muy claro.
  • El último ensayo en carga fue hace 6 meses.
  • Sí que se reiteran unos arranques sin carga que no sirven para gran cosa.

La existencia de puntos singulares de fallo es muy habitual en los data centers, incluso en aquellos dotados de topologías ampliamente redundadas. Y muchos de ellos son desconocidos por el usuario, algunos por ser tan evidentes que es imposible que quien está muy cerca de la instalación los pueda ver (el efecto mismo de mirar un cuadro a una corta distancia) y otros porque, simplemente, no se encuentran al alcance de su conocimiento.

La realización de assessment periódicos es una práctica inherente a los procesos de mejora continua. Durante su desarrollo se identifican habitualmente riesgos como los que luego conducen a situaciones similares a la descrita en estas líneas. Sin embargo, enfrente se halla el conocido como “efecto Narciso”, esa forma de pensar que lleva al usuario a creer que su data center es el más alto, el más rubio y el más guapo y que, por lo tanto, no hay nada que analizar sobre el mismo.

Llevamos muchos años estudiando causas de caídas de data centers y desarrollando assessments en este tipo de entornos críticos y la responsabilidad de los grupos electrógenos como causa última del fallo es extraordinariamente alta.

Una de las frases favoritas del difunto Ken Brill era aquella de que “el EPO es el sistema de seguridad que más inseguridad provoca”, pero si llega a vivir unos años más (todos lo hubiésemos agradecido) probablemente la frase seguiría como tal pero con sujeto cambiado.

En el artículo sobre el suceso de British Airways de hace unos pocos meses terminé afirmando lo siguiente: “No han pasado ni 9 meses de una de las últimas y sonadas caídas de data center, en concreto la de Delta Airlines, donde el sistema de respaldo también se había tomado unos días para asuntos propios. Las aerolíneas están que lo tiran” 

Bueno, pues parece que no sólo son las aerolíneas las que lo tiran, sino que existe un contagioso virus que ataca por doquier. Y los assessment especializados esperando a ser llamados. Ciertamente curioso de observar. 
 

 

 

Garcerán Rojas