Política de Cookies
Utilizamos cookies propias y de terceros para mejorar tu accesibilidad, personalizar y analizar tu navegación. Al continuar navegando consideramos que aceptas su instalación. Puedes cambiar la configuración u obtener más información en nuestra
(+ info)

Aceptar

PQC

Otra vez lo eléctrico en el ojo del huracán

POSTED BY Garcerán Rojas 01 de June de 2017

El pasado sábado día 27 como ya es sobradamente conocido, se produjo una caída en el data center de British Airways. Las noticias daban titulares a cual más caótico:

“Un gigantesco fallo global del sistema informático, que repercutió en toda su red mundial”, “75.000 pasajeros afectados y pérdidas superiores a los 100 M€”, y así unos cuantos más.

La primera reacción de la Compañía fue disculparse ante sus clientes (We apologize for the current IT systems outage. We are working to resolve the problem as quickly as possible) y la explicación, un fallo en el suministro eléctrico. La promesa de recuperación del servicio, algo inquietante. ”Incluso aunque el servicio se restablezca rápidamente, lo que es muy incierto, los trastornos pueden durar varios días. El efecto es masivo”.

Estuve tentado de dar un primer pronóstico sobre el suceso, pero no lo hice de forma inmediata, ya que los datos eran muy escasos y las posibilidades de meter la pata muy altas. Ese vaticinio habría ido, sin duda, a apuntar hacia los sistemas de respaldo como causa última de la caída, para no desviarnos mucho del tema que ha supuesto un denominador común en las últimas grandes caídas de data centers.

Desde BA, para el lunes ya había una explicación algo más explícita, aunque bastante inverosímil.

"un aumento excepcional de energía" que fue tan fuerte que dejó invalidado el sistema de apoyo”

Han pasado sólo un par de días más, y parece que los datos ofrecen un poco más de información, aunque la Compañía sigue la investigación. Resulta que, además de la pérdida del suministro, parece que ha habido un daño material en un determinado número de servidores.

“La enorme falla en los sistemas informáticos que dejó sin poder viajar a 75.000 pasajeros de British Airways se produjo tras un daño en los servidores por un cortocircuito, dijo la aerolínea el miércoles

Si bien se produjo una falla de alimentación eléctrica en un centro de datos cerca del aeropuerto Heathrow de Londres, dijo la empresa, el daño en los sistemas informáticos se produjo por un fuerte aumento en la tensión una vez que se restableció la electricidad

No fue un problema informático, fue un problema de alimentación eléctrica.

Hubo una pérdida total de energía en el centro de datos y la energía regresó de manera incontrolada, causando daños físicos a los servidores informáticos”

Pues bien, al final es una pena que no escribiese el mismo sábado el pronóstico de los grupos de emergencia porque, al final, estos van a estar directamente implicados en el suceso.

La explicación del subidón de energía es muy periodística y no obedece a la realidad, como la mayoría de los comentarios expuestos, aunque no deja de tener algo de relación con el proceso.

Con las reservas oportunas por no tener verificadas las fuentes y por, obviamente, no conocer ni un pimiento de la instalación en cuestión, el proceso estaría por asegurar que se desarrolló de la forma siguiente:

  1. Pérdida de alimentación de red de Compañía por la razón que sea
  2. Alimentación de los equipos IT desde UPSs a la espera de la entrada del suministro de respaldo (grupos electrógenos)
  3. Suministro de respaldo de vacaciones
  4. Fin de la autonomía de las baterías de los UPSs
  5. Circuito de red establecido, aunque sin tensión, y conexión directa a cargas IT a través de los circuitos de bypass de los UPSs
  6. Vuelta de red con una sucesión de frentes de onda asociados a sobretensiones con frentes escarpados
  7. Protección a sobretensiones inexistente o mal dimensionada
  8. Deterioro físico de equipos

Si esta descripción coincide con los hechos, que no andará muy lejos, se trata de una evolución “de libro”, que ya ha sucedido en otras ocasiones y lugares y cuya prevención debe estar contemplada en los criterios de diseño y de operación. Lo único que necesita el usuario es estar bien asesorado.

Claro, que como el presidente ejecutivo es español, es probable que pueda desviarse algún palo por esa vía. Pero lo más bonito de todo, yo lo calificaría de excelso, es la salida del sindicato GMB, relacionando el fallo con la externalización de los servicios informáticos. Afirmación inmejorable que, de forma interesada confunde el voltio con el Megabyte y más propia de tipos como Benny Hill o Mr. Bean.

Por otra parte, y aprovechando el ciclón, se está acusando, desde ciertos foros, de obsoletos a los data centers de BA. Probablemente no sea así y se trate, una vez más, de un tema absolutamente eléctrico, conocido por quienes estamos a fondo en esto y tratado de forma muy superficial por toda esa caterva de expertos de toda la vida pero de nuevo cuño que pulula por este sector de nuestras entretelas.

No han pasado ni 9 meses de una de las últimas y sonadas caídas de data center, en concreto la de Delta Airlines, donde el sistema de respaldo también se había tomado unos días para asuntos propios. Las aerolíneas están que lo tiran.

Garcerán Rojas