Política de Cookies
Utilizamos cookies propias y de terceros para mejorar tu accesibilidad, personalizar y analizar tu navegación. Al continuar navegando consideramos que aceptas su instalación. Puedes cambiar la configuración u obtener más información en nuestra
(+ info)

Aceptar

PQC

Caída del data center de Yandex, el “Google ruso”

POSTED BY Garcerán Rojas 13 de April de 2025

¿Fallo imprevisto o respaldo mal dimensionado? Comentamos las explicaciones sobre el informe publicado.

Suelo estar atento a las noticias que se publican sobre caídas de data centers y, cuando esto sucede, comentar las explicaciones ofrecidas en cada caso o intentar aportar una explicación coherente a los hechos en caso de que los argumentos originales no hayan resultado del todo verosímiles.

El caso es que entre las últimas noticias del sector se encuentra la de la caída del centro de datos de Yandex (el conocido como Google ruso) que afectó seriamente a su región Cloud localizada en el área de Moscú.

El titular reza como sigue “El data center de Yandex experimenta una importante caída motivada por su subestación de soporte”, para añadir que se trata del primer suceso de estas características que les ocurre en 15 años

Como siempre en estos casos, mi primer interés es el de conocer si el titular tiene que ver con la realidad o si, como en tantas otras ocasiones, juega un poco al despiste siguiendo el manual para situaciones críticas (ver “Las réplicas”).

Y la primera consideración es la de siempre, es decir, si falla el sistema de alimentación principal, ¿qué ocurre con el de respaldo? Ya verás tú cómo vamos a estar en un escenario muy similar al de ocasiones precedentes (ver “Caídas de data center ocasionadas por la alimentación eléctrica”)

Pues bien, puestos a analizar las explicaciones que se han ofrecido, lo que queda claro es que el fallo en la subestación se produjo de forma que afectó a las dos líneas de suministro al centro, lo cual no había ocurrido jamás con anterioridad, pero que, en principio, en un data center normal tampoco debería suponer una repercusión a tener en cuenta ya que para eso se dimensionan los sistemas de respaldo mediante grupos electrógenos e, incluso, si estos llegasen a tener algún tipo de problema, la creación de zonas de disponibilidad (como es el caso en cuestión) permitiría el trasvase de las cargas de trabajo desde el centro siniestrado hacia los otros asociados a él.

Sin embargo, el suceso de Yandex, según la descripción extraída de la letra pequeña de un informe que rezuma excesiva pedagogía, es que los grupos no es que no hayan funcionado, sino que alimentaban sólo una parte del sistema (circuitos de seguridad y de control), mientras que, por el lado IT, no todas las cargas estaban conectadas de forma que pudiesen verse integradas dentro de la zona de disponibilidad.

Este informe me recuerda otras situaciones donde la parte afectada se viene arriba y empieza a dar lecciones sobre la materia (ver “Primeras conclusiones del incendio en OVH. Fuego en la nube 5”.)

Son, en cierta medida, reminiscencias del “Maestro Ciruela, que no sabía leer y puso Escuela”.

Garcerán Rojas