Uma falha no sistema de distribuição elétrica em um data center da Microsoft levou a uma interrupção de duas horas quando a empresa tentou substituir a energia da rede pública por seus geradores de apoio.

Em um relatório do incidente publicado nessa semana, a empresa disse que um “problema de energia” prejudicou um subconjunto de clientes em uma única Zona de Disponibilidade na região da Europa Ocidental, na Holanda, entre 7h31 e 9h15 (hora local) em 20 de outubro de 2023. Os serviços da Azure, incluindo o App Service, Cosmos DB, SQL DB, Storage e Virtual Machines, foram afetados.

A Microsoft disse que detectou “instabilidade” na rede elétrica da concessionária ao verificar quedas/aumentos de tensão em um de seus data centers dentro da Zona de Disponibilidade AZ-01.

Por conta disso, a empresa decidiu transferir a carga da rede a geradores de reserva, mas um problema na inicialização do gerador causou a interrupção de alguns racks.

“Durante esse processo, ocorreu uma falha crítica em uma seção do sistema de distribuição elétrica, impedindo que 10% de nossos geradores fosse carregados. Essa falha desligou o sistema de distribuição principal e deixou inacessível o sistema redundante. Essa falha fez com que aproximadamente 1% de nossos racks de servidores na Zona de Disponibilidade perdessem energia”.

A empresa não detalhou a natureza e causa da falha de distribuição.

Com a estabilização da rede, a empresa voltou a utilizar a energia elétrica e desligou os geradores.

“No total, cinco unidades de escala de armazenamento foram impactadas por esse incidente. Após a restauração da energia, quatro se recuperaram completamente às 09h10 (hora local), e a quinta precisou ter seu hardware examinado e substituições de peças em aproximadamente 5% de seus nodos de armazenamento”, disse a empresa no relatório do incidente. “Como resultado, demorou mais para restaurar a disponibilidade de 1% das contas de armazenamento, com impacto posterior aos clientes e serviços que dependem dessa unidade final de escala de armazenamento. Às 14h30, todas as contas de armazenamento, com exceção de algumas, foram restauradas e às 17h10 foi concluída a restauração completa”.

A Microsoft disse que publicará um segundo relatório de impacto nas próximas semanas com detalhes e aprendizados adicionais – incluindo itens de reparo relacionados ao evento e quaisquer itens de reparo em potencial a serviços downstream para que se recuperem de casos como esse mais rapidamente.

A região Azure da Europa Ocidental entrou em funcionamento em 2010, em que três Zonas de Disponibilidade operam.

No final de agosto, uma queda no setor de serviços públicos na Austrália levou a uma interrupção no data center da Microsoft em Sydney. Os chillers foram desligados durante uma tempestade e não reiniciaram automaticamente, causando uma interrupção.