AWS culpa a la "actividad automatizada" de la interrupción que desencadenó un "comportamiento inesperado" en toda su red

Amazon Web Services ha detallado por qué su región de nube US-East-1 sufrió una interrupción grave el 7 de diciembre.

AWS ha dicho que utiliza una red interna para alojar servicios fundamentales que incluyen monitoreo, DNS interno, servicios de autorización y partes del plano de control EC2. Esta red colapsó debido a un comportamiento inesperado de los sistemas automatizados.

En un informe posterior, la compañía dijo que la red interna está conectada con múltiples dispositivos de red aislados geográficamente que brindan enrutamiento adicional y traducción de direcciones de red que permiten que los servicios de AWS se comuniquen entre la red interna y la red principal de AWS.

"A las 7:30 a. M. PST, una actividad automatizada para escalar la capacidad de uno de los servicios de AWS alojados en la red principal de AWS desencadenó un comportamiento inesperado de una gran cantidad de clientes dentro de la red interna", dijo la compañía en el informe. "Esto dio como resultado un gran aumento de la actividad de conexión que hizo colapsar los dispositivos de red entre la red interna y la red principal de AWS, lo que provocó retrasos en la comunicación entre estas redes. Estos retrasos aumentaron la latencia y los errores de los servicios que se comunican entre estas redes, lo que resultó en incluso más intentos y reintentos de conexión. Esto provocó una congestión persistente y problemas de rendimiento en los dispositivos que conectan las dos redes".

La congestión también rompió el monitoreo en tiempo real, lo que dificultaba que los equipos de operaciones internas entendieran lo que estaba sucediendo, razón por la cual los empleados en ese momento pensaron que podría ser un ataque externo. "Los operadores, en cambio, se basaron en los registros para comprender lo que estaba sucediendo e inicialmente identificaron errores de DNS internos elevados", dijo la compañía. "Debido a que el DNS interno es fundamental para todos los servicios y se creía que este tráfico contribuía a la congestión, los equipos se centraron en alejar el tráfico de DNS interno de las rutas de red congestionadas. A las 9:28 a. M. PST, el equipo completó este trabajo y los errores de resolución de DNS se recuperaron por completo".

Esto mejoró las cosas, pero no las resolvió. Fueron necesarios hasta las 2:22 p.m. PST para que los dispositivos de red se recuperaran por completo después de varias acciones correctivas.

"Hemos llevado a cabo varias acciones para evitar que este evento vuelva a ocurrir", dijo Amazon. "Inmediatamente inhabilitamos las actividades de escalado que desencadenaron este evento y no las reanudaremos hasta que hayamos implementado todas las ajustes. Nuestros sistemas se escalan adecuadamente para que no necesitemos reanudar estas actividades a corto plazo".

La empresa se disculpó por el apagón y por la falta de comunicación durante el evento; y culpó a no actualizar su Panel de estado del servicio debido a su incapacidad para usar sus sistemas de monitoreo.

"Esperamos lanzar una nueva versión de nuestro Service Health Dashboard a principios del próximo año que facilitará la comprensión del impacto del servicio y una nueva arquitectura del sistema de soporte que se ejecuta activamente en varias regiones de AWS para garantizar que no tengamos retrasos en la comunicación con los clientes. ", dijo la empresa.

La interrupción eliminó todo, desde Disney + hasta Tinder y la propia red de logística de almacén de Amazon.

AWS culpa a la "actividad automatizada" de la interrupción que desencadenó un "comportamiento inesperado" en toda su red

Etiquetas