Política de Cookies
Utilizamos cookies propias y de terceros para mejorar tu accesibilidad, personalizar y analizar tu navegación. Al continuar navegando consideramos que aceptas su instalación. Puedes cambiar la configuración u obtener más información en nuestra
(+ info)

Aceptar

PQC

¡Este huracán sin ojo que lo gobierne! Nueva caída de data center de primer nivel

POSTED BY Garcerán Rojas 16 de abril de 2018

"¡Otra vez lo eléctrico en el ojo del huracán!" Así titulamos el comentario tras la caída de British Airways en mayo de 2017 y parece que, tras el más cercano suceso de OVH en Estrasburgo, esa disciplina se resiste a abandonar esa comprometida posición.

Normalmente, en cuanto me llega la noticia de una nueva caída de data center, máxime si es sonada, es decir, perteneciente al grupo de los de teórico primer nivel (OVH, Amazon, Microsoft, British, Delta, etc.), suelo lanzar una primera hipótesis sobre las razones del suceso que, por lo general, suele acercarse bastante a una realidad que, tarde o temprano, se acaba conociendo.

Si, además, el data center en cuestión, como sucede en el caso de ahora de Claro en Liray, está dotado de una certificación que le coloca en vanguardia en cuanto al nivel de exigencia, pues el tema resulta aún más inquietante y, por ello, atractivo para el analista.

Sin embargo, en esta ocasión he contenido el primer impulso y he esperado unos días, lo cual me ha permitido observar las reacciones y analizar distintos puntos de vista publicados o comentados en el sector.

Salvando los primeros, y generalmente poco documentados, comentarios en twitter que siguen asociando los niveles III y IV de Tier con alimentaciones redundantes de compañía eléctrica (¡mira que llevamos años con esa insistencia!), las distintas publicaciones dibujan un escenario como el siguiente:

  1. Día 26 de marzo. Se registra una pérdida de servicio en ciertas actividades de empresas como el Banco de Santander, Transbank y otras, sin que inicialmente se identifique dónde ha estado el problema.
  2. Se localiza el foco en una caída en el data center de Claro en Liray
  3. Se informa que, por caída de un poste a consecuencia del choque de un camión, se produjo un corte de suministro en la zona de Lampa donde está situado el data center en cuestión.

Es decir, el hecho puro y duro es que se pierde el suministro externo y el servicio del data center se interrumpe, así, sin más, como si la instalación de respaldo, para la cual se ha destinado una imponente inversión y un elevado nivel de redundancia, incluso con certificación internacional de alto nivel (al menos por lo que cuesta), no sirviese para nada.

Entonces es cuando hay que entrar en los detalles del asunto y aquí hay, de momento, una doble interpretación (recordar aquí que estamos en todo momento en el terreno de los supuestos). Por un lado, la que echa las culpas directamente a las baterías de los UPSs supuestamente incapaces de atender el servicio en emergencia antes de la entrada de los grupos. Por otro, la que apunta hacia el automatismo de trasferencia entre red y grupos que no permitió el arranque de éstos, produciéndose la descarga completa de las baterías antes de poder identificar el porqué del no funcionamiento del sistema de transferencia y, lo que es peor, sin poder actuar de forma manual para conseguirlo.

La primera de las explicaciones se me antoja complicada de aceptar, habida cuenta del nivel de redundancia del centro. Para que se produzca la caída, tendrían que fallar al mismo tiempo las baterías de las dos ramas independientes (aunque con alguna excepción, normalmente todo Tier III dispone de esta topología) y eso, si no imposible, sí que me parece poco probable.

Por el contrario, la versión segunda entra bastante más de lleno en el terreno de lo verosímil, siendo, en tal caso, la misma historia de siempre (o casi), es decir, ¡otra de gambas! Es probable, incluso, que el fallo inicial que desencadena el proceso no haya sido, ni siquiera, simulado en los ensayos para la certificación.

Lo que se demuestra, una vez más, con esto, es que de nada sirve el Tier III ni los Tier IV ni el Tier V++ si está del Señor que las cosas vayan por el camino equivocado. Probablemente, la explicación real sea más complicada, con algún que otro planeta más alineado, pero eso está aún por conocer.

Por otra parte, no tengo ni la información ni la osadía de valorar si los procedimientos que se llevan a cabo en la instalación son los correctos, si el personal está debidamente entrenado o si el mantenimiento está al nivel requerido, pero en caso de que alguna de las dos alternativas descritas sea la causa de la caída, nos lleva indefectiblemente a poner esas actividades en el punto de mira.

Hechos como este tienen una elevada repercusión, a veces directamente económica, otras veces social y, en muchas ocasiones. de ambos tipos. Ante el presente suceso, se han movilizado todas las fuerzas vivas.

“Espero que se conduzca las investigaciones para determinar lo que realmente sucedió y que se tomen las medidas para que esto no vuelva a ocurrir. (Felipe Larraín. Ministro de Hacienda)

“Nosotros respetamos los acuerdos de confidencialidad con nuestros clientes y, además, por razones de seguridad de nuestros servicios, no podemos entregar públicamente información”  (Empresa Claro)

“La situación ocurrida en este caso confirma la preocupación del Banco Central por promover una mayor diversificación en el mercado de operación de las tarjetas de pagos” (Ente Rector del Banco)

“El ideal es que haya más redes, con tal de que los comercios tengan más alternativa. Que tengan dos o tres redes conectadas, de modo que si se cae una pueden usar la otra”  (Javier Etcheberry. Dueño de Multicaja)

Con fecha 19 de marzo escribí un artículo para la revista Data Center Market, titulado “Realidades, Tendencias y Previsiones”, donde se decía: “la predicción para el futuro inmediato ….. nos presenta un escenario donde habrá más caídas, algunas de ellas ciertamente sonadas”. Pues bien, sólo 9 días más tarde, ya hemos tenido la primera.

Como siempre ante estas situaciones, me mantengo a la espera de mayor detalle en la información para poder sacar conclusiones que arrojen una luz que pueda resultar instructiva para todos. Y si las explicaciones son distintas de las, hasta ahora, publicadas, pues me trago mis palabras y santas pascuas.

Pero, en cualquier caso, ya ven, otra vez lo eléctrico en el ojo del huracán. De este huracán sin ojo que lo gobierne….., ni este jueves ni este viernes, ni el miércoles que vendrá (Sabina dixit, más o menos)

 

Garcerán Rojas