Google ha informado que el centro de datos que aloja una de sus regiones en la nube de Londres sufrió "un fallo simultáneo de múltiples sistemas de enfriamiento redundantes" durante la reciente ola de calor récord del Reino Unido.

Google, Oracle y Guy's and St Thomas' NHS Foundation Trust , con sede en Londres, experimentaron interrupciones durante la ola de calor que hizo que las temperaturas se dispararan a un récord de 40ºC.

“El martes 19 de julio de 2022 a las 06:33 EE. UU./Pacífico, un fallo simultáneo de múltiples sistemas de enfriamiento redundantes en uno de los centros de datos que aloja la zona europe-west2-a afectó a múltiples servicios de Google Cloud. Esto resultó en que algunos clientes experimentaran la falta de disponibilidad del servicio para los productos afectados”, dijo Google en una actualización reciente del informe de incidentes .

“A nuestros clientes cuyos negocios se vieron afectados durante esta interrupción, nos disculpamos sinceramente. Este no es el nivel de calidad y confiabilidad que nos esforzamos por ofrecerle, y estamos tomando medidas inmediatas (detalladas en la sección Remediación y prevención a continuación) para mejorar la resiliencia de la región”.

Google dijo que durante la reciente ola de calor en el Reino Unido, uno de los centros de datos que alberga la zona europe-west2-a no pudo mantener una temperatura de funcionamiento segura debido a la falla de enfriamiento combinada con las temperaturas extremas del exterior, por lo que cerró la instalación para evitar más daño.

La compañía no reveló la naturaleza de la falla, pero dijo que sus ingenieros están realizando un análisis del sistema que desencadenó este incidente y auditarán los estándares y los equipos del sistema de enfriamiento en los centros de datos que albergan Google Cloud en todo el mundo.

“Apagamos esta parte de la zona para evitar una interrupción aún más prolongada o daños a las máquinas. Esto provocó una falla parcial de la capacidad en esa zona, lo que provocó degradación del servicio y problemas de red para un subconjunto de clientes”.

La compañía dijo que varios servicios regionales de Google Cloud experimentaron un impacto durante este incidente debido a que su equipo "modificó inadvertidamente el enrutamiento del tráfico" para los servicios internos para evitar las tres zonas en la región europe-west2, en lugar de solo la europe-west2 afectada.

Los servicios de almacenamiento regionales, incluidos GCS y BigQuery, replican los datos de los clientes en varias zonas. Debido al cambio de enrutamiento de tráfico regional, no pudieron acceder a ninguna réplica para una cantidad de objetos de almacenamiento e impidieron que los clientes leyeran estos objetos mientras el error de enrutamiento estaba vigente.

Como resultado del incidente, Google dijo que investigaría y desarrollaría "métodos más avanzados" para disminuir progresivamente la carga térmica dentro de un solo espacio de centro de datos, reduciendo la probabilidad de que se requiera un apagado completo.