Algunos clientes de Microsoft Azure en el norte de Europa tuvieron problemas para conectarse o administrar sus recursos cloud el 29 de septiembre, debido a una caída de 7 horas de duración.

La razón de la inactividad fue una descarga inesperada de gas inerte para la extinción de incendios durante un mantenimiento rutinario en un centro de datos de Microsoft en Europa, lo que ocasionó una serie de incidentes.

En su página de informes de Azure, Microsoft explicó que después de que se descargara el gas, esto provocó que las unidades de manejo del aire dejaran de funcionar automáticamente, lo que a su vez causó que la temperatura ambiente subiera –lo que originó que algunos sistemas se apagaran de forma automática.

"Durante un mantenimiento periódico del sistema de extinción de incendios, se produjo una descarga inesperada de un agente inerte. Cuando se activó la extinción, se inició el cierre automático de las unidades de manejo del aire (AHU), diseñado para contención y seguridad”.

“Mientras se reafirmaron las condiciones en el centro de datos y se reiniciaron las AHU, la temperatura ambiente en áreas aisladas de la zona de extinción impactada se elevó por encima de los parámetros operacionales normales", informó la compañía.

"Algunos sistemas en la zona de impacto realizaron paradas automáticas o reinicios originados por la monitorización interna de la salud térmica para evitar el sobrecalentamiento de esos sistemas. La descarga del gas inerte se conoció de inmediato y en los siguientes 35 minutos se recuperaron todas las AHU y la temperatura ambiente volvió a los niveles operacionales normales".

Microsoft continuó: "Debido a la naturaleza del evento anterior y a la variación en las condiciones térmicas en áreas aisladas de la zona de supresión impactada, algunos servidores y recursos de almacenamiento no se cerraron de manera controlada. Como resultado, se requirió tiempo adicional para solucionar y recuperar los recursos afectados".

La compañía pidió disculpas a los afectados y dijo que estaba tomando medidas para asegurar que no ocurrieran de nuevo incidentes similares, incluyendo la realización de análisis de mantenimiento del sistema de supresión para averiguar por qué el gas fue descargado en primer lugar.