La prensa lo califica como una pifia informática pero lo que se ha transmitido es que, en realidad, se ha tratado de un corte de energía en Atlanta donde la compañía tiene su centro de operaciones.
Según la información disponible, los hechos comienzan a las 2:30 con una pérdida de alimentación eléctrica en el centro principal de operaciones en Atlanta y, ya desde las 5 de la mañana la Compañía anuncia que se esperan retrasos en sus vuelos del día.
Sin embargo, a medida que avanzan las horas, los retrasos se convierten directamente en cancelaciones que llegan a las cifras indicadas (en la radio, sobre las 14 horas de aquí, era que se trataba de más de 1000 vuelos los cancelados hasta esa hora).
Según la versión oficial, ante la pérdida de suministro eléctrico, los sistemas informáticos no conmutaron al suministro de respaldo, por lo que el data center perdió su alimentación, provocando lo que conocemos como un cero.
“Following the power loss, some critical systems and network equipment didn’t switch over to Delta’s backup systems”.
Otras fuentes están hablando de un incendio producido en labores de mantenimiento, a esa hora, sobre el sistema de conmutación entre red y grupo
“Routine scheduled switch to the backup generator this morning at 2:30am caused a fire that destroyed both the backup and the primary”.
Independientemente de por dónde vayan los tiros, lo que sí es cierto es que, una vez más, el sistema automático de transferencia entre redes está en el origen de una caída de un centro importante, aunque, del análisis de los primeros datos, y si la caída es tal como se cita, las redundancias en el sistema no han de ser muy amplia, es decir, la topología de diseño bastante limitada, lo que no concuerda mucho con la importancia del servicio que se ofrece y con las consecuencias económicas de un fallo como el presente.
En las estadísticas de caídas de data centers que maneja PQC, más de la mitad de las últimas 20 tienen que ver con sucesos similares al descrito, por lo que este caso particular no hace sino reforzar la proporción.
En los próximos días veremos si la compañía ofrece más información que nos aclare la situación ya que, habitualmente, en este tipo de sucesos las primeras explicaciones suelen ser para “salir del paso”. ¿Fue una pérdida de alimentación en la línea de llegada lo que inició el proceso, o fue una operación de mantenimiento? ¿Se realizaban pruebas periódicas y en carga con los sistemas de respaldo? ¿Cuál era la topología de diseño?
Permaneceremos atentos, aunque sólo sea para ampliar la culturilla general sobre este sector de nuestras entretelas.