¿Zonas de disponibilidad o todo lo contrario? La última caída de Amazon
La noticia saltó a los medios hace unos pocos días y tiene por protagonistas a los data centers de Amazon Web Services que llevan unas últimas semanas con una serie de fallos sucesivos.
El último de los cuales se ha producido por la caída en la alimentación eléctrica de uno de los centros que componía una zona de disponibilidad con, al menos, otros dos.
Ya hemos comentado en varias ocasiones las nuevas tendencias que se observan en el universo data center, en su relación con la continuidad del servicio, y una de las más recurrentes es el concepto de resiliencia híbrida y su derivada inmediata en forma de zonas de disponibilidad.
Las zonas de disponibilidad, lanzadas, como idea primero y como solución concreta un tiempo después, han sido planteadas por empresas como Amazon o Microsoft como respuesta a la creciente demanda de continuidad en el servicio. Habida cuenta que las necesidades de la parte IT en forma de un número de nueves superior a 6, no pueden ser resueltas exclusivamente por una parte electromecánica de soporte que, en sus mejores cifras, apenas alcanza los 5 (la media de disponibilidad para un Tier IV es 99,995), la búsqueda de soluciones en base a redundancias IT ha puesto de moda la citada resiliencia híbrida.
Así, al establecer zonas de disponibilidad garantizadas por la presencia de ternas de data centers, se posibilita una menor dotación de recursos electromecánicos en cada uno de ellos, ya que una pérdida de uno quedaría siempre sostenida por los otros dos. Y así se están construyendo y operando los centros desde hace unos años, tanto en esas organizaciones como en otras.
Pero una cosa es la teoría y otra, bien distinta, la práctica. Hemos comentado muchas veces, con ocasión del análisis de otras caídas de data centers, que las redundancias IT que se suponen para un sistema dado rara vez se ensayan y que el factor sorpresa cuando se produce el fallo de verdad, y el servicio tiene que demostrar su capacidad de soporte, resulta francamente elevado en lo negativo (ver los casos de Microsoft en San Antonio o el reciente de OVH en uno de sus DC de USA).
Antes de nada, decir que las opiniones vertidas a continuación, lo son sobre la base de las notas de prensa que se han publicado sobre los hechos que, a su vez, recogen los sucesivos comunicados ofrecidos por AWS.
El primero de ellos indicaba que se había producido una “pérdida de energía dentro de un solo centro de datos dentro de una única zona de disponibilidad (USE1-AZ4) en la región US-EAST-1". "Estamos investigando un aumento en las fallas lanzadas de EC2 y problemas de conectividad de red para algunas instancias en una única zona de disponibilidad".
Para, a continuación, precisar que: "Esto está afectando la disponibilidad y la conectividad a las instancias EC2 que son parte del centro de datos afectado dentro de la Zona de disponibilidad afectada". ”También estamos experimentando tasas de error elevadas de la API RunInstance para lanzamientos dentro de la zona de disponibilidad afectada. La conectividad y la alimentación a otros centros de datos dentro de la zona de disponibilidad afectada, u otras zonas de disponibilidad dentro de la región no se ven afectadas por este problema, pero le recomendamos que no se aleje de la zona de disponibilidad afectada (USE1-AZ4) si son capaces de hacerlo. Continuamos trabajando para abordar el problema y restaurar la energía dentro del centro de datos afectado.
En una comunicación posterior “Ahora hemos restaurado la energía a todas las instancias y dispositivos de red dentro del centro de datos afectado y estamos viendo la recuperación para la mayoría de las instancias EC2 y volúmenes de EBS dentro de la zona de disponibilidad afectada. La conectividad de red dentro de la zona de disponibilidad afectada también ha vuelto a niveles normales”.
De las afirmaciones anteriores, se puede desprender una conclusión muy directa
Y es el hecho de que la zona de disponibilidad ha sido afectada y los servicios, teóricamente cubiertos con esa garantía, han quedado interrumpidos o restringidos. El fallo en un solo data center ha tenido consecuencias directas en el servicio global, precisamente lo que pretende impedir la resiliencia basada en zonas de disponibilidad.
Llevamos tiempo intentando acercar la parte electromecánica a la parte de TI (o viceversa) y cada vez es más perentorio continuar con ese proceso, entre otras cosas para que se adquieran hábitos similares, sobre todo en materia de pruebas y ensayos.
Si, debido a las limitaciones de la parte E&M, lo suyo es complementar la resiliencia global con una buena base de respaldo TI, lo que no puede ser es que la prueba de que el sistema no va se produzca precisamente cuando es absolutamente necesario que vaya.
No sé por qué me da, pero creo que las redundancias por la parte de TI nos van a dar bastante que hablar en próximas fechas. Al paso que va la burra, tendremos que fundar el DOWNTIME INSTITUTE. Y si no, al tiempo.