¿Están llevando las cargas de trabajo de alta potencia a los centros de datos al límite?

Por Neil Miller, director de ingeniería de soluciones de Cisco ThousandEyes

Durante la segunda mitad de 2023, observamos un número cada vez mayor de interrupciones en los centros de datos causadas por fallas de las plantas. Este aumento de protagonismo es, cuanto menos, inusual.

El diseño del centro de datos se ha perfeccionado y optimizado considerablemente durante la última década. Las instalaciones han crecido en tamaño para atender a los hyperscalers, en complejidad para actuar como puntos de interconexión para una amplia gama de servicios en la nube y operadores de fibra, y en número para atender la mayor demanda de espacio técnico.

La planta utilizada para ejecutar los centros de datos a menudo se implementa con niveles de redundancia 2N o superiores para garantizar que se cumplan las métricas de disponibilidad y tiempo de actividad. Si bien ha habido casos de grupos electrógenos que no pudieron arrancar y asumir la carga de producción en situaciones en las que era necesario, estos casos han ido disminuyendo a medida que los operadores realizaron pruebas más exhaustivas y periódicas de sus sistemas redundantes.

En ese contexto, puede resultar algo sorprendente ver que las fallas de las plantas se atribuyen cada vez más a la causa de interrupciones en los centros de datos que, a su vez, provocan la pérdida de servicios y aplicaciones en la nube que utilizan servidores que se agotan en estas instalaciones.

Pero hay varias explicaciones plausibles para el aumento de estos fallos en las plantas.

Condiciones exteriores

El clima es una explicación obvia: los cortes de energía en las instalaciones durante el año pasado a menudo han coincidido con eventos climáticos extremos como calor o tormentas.

En épocas de calor extremo, generalmente hay presión sobre las redes eléctricas; para los operadores de centros de datos, eso puede traducirse en fluctuaciones en la calidad de la energía, como sobretensiones y caídas de tensión, y una posible necesidad de generar parte de su propia energía utilizando una planta en el sitio para facilitar el suministro y continuar dando servicio a los equipos de TI. La planta de refrigeración también tiene que trabajar más para mantener las temperaturas dentro de un rango seguro específico.

Las tormentas, por otro lado, plantean un conjunto diferente de problemas. Los rayos pueden provocar la caída de una subestación en el sitio y de una o más fuentes de alimentación. También ha habido casos en los que el granizo o las fuertes lluvias provocaron la entrada de agua en el espacio técnico, dañando los equipos y provocando un cortocircuito en la planta de distribución de energía en la zona afectada.

Demandas de alta potencia

Si bien las condiciones climáticas explican algunas interrupciones en los centros de datos, otras parecen ser el resultado de un fenómeno diferente: el aumento de cargas de trabajo basadas en datos y con uso intensivo de computación que se procesan en estos sitios. Para los sitios más antiguos, estas cargas de trabajo están llevando las densidades de racks mucho más allá de las especificaciones existentes, lo que lleva a un aumento en el número de instalaciones de este tipo que se someten a proyectos de actualización y reemplazo de enfriadores y otras plantas.

Algunos operadores están respondiendo separando las cargas de trabajo intensivas para ejecutarlas en sitios más pequeños, especialmente diseñados y de alta densidad. Anteriormente, en instalaciones de coubicación más grandes, las cargas de trabajo intensivas se ejecutaban en salas designadas o salas de datos que atendían densidades de equipos de rack más altas. Las densidades de rack típicas tradicionalmente alcanzan un máximo de aproximadamente 7 kW, con zonas de alta densidad que atienden racks de hasta 50 kW. Pero en el entorno actual basado en datos, los racks ya no alcanzan densidades máximas de 50 kW: algunos están avanzando hacia densidades extremas de más de 200 kW por rack.

Es claramente desaconsejable pedir a instalaciones de colocación más antiguas o más generales que admitan este tipo de cargas de trabajo informáticas intensivas. Tiene más sentido alojarlos en instalaciones especialmente diseñadas para hacer una cosa bien: satisfacer necesidades informáticas extremas, al contar con el espacio técnico y la planta adecuados.

Sin embargo, concentrar cargas de trabajo intensivas en un espacio reducido tampoco es garantía de tiempo de actividad. Tener cargas de trabajo intensivas funcionando en paralelo ejerce más presión sobre los operadores de las instalaciones para garantizar el tiempo de actividad manteniendo la planta en funcionamiento. Dichos entornos contienen una densidad de equipos que serán más sensibles a ligeros cambios en la disponibilidad de energía o la capacidad de enfriamiento, y cualquier falla podría degradar o dañar la capacidad informática que impulsa las decisiones basadas en datos para algunas de las infraestructuras críticas del mundo.

Codificando con cuidado

Otra posible explicación del aumento de las fallas en los centros de datos se debe a que la infraestructura se está alejando de sus consumidores. Las decisiones arquitectónicas de las aplicaciones se producen de forma aislada, sin necesariamente una buena comprensión de los requisitos de infraestructura subyacentes.

Esto se debe a que la elevación de la plataforma como servicio (PaaS) y la arquitectura sin servidor significa que los desarrolladores pueden centrarse en la creación de código; no necesariamente necesitan comprender los entresijos de la infraestructura subyacente, incluido cómo limitar la intensidad del procesamiento que el código de su aplicación requiere para funcionar.

Además, las aplicaciones ahora suelen utilizar a terceros para completar funciones a través de API. Esto descarga más demanda de procesamiento a otras partes y depende de que esas partes también utilicen eficientemente la infraestructura subyacente. Un código ineficiente significa un uso subóptimo de la infraestructura. Multiplique eso por la cantidad de aplicaciones que llaman hogar a un centro de datos en particular, y está claro que esto puede estar ejerciendo una presión indebida sobre la planta del centro de datos para satisfacer las mayores demandas de procesamiento.

Mejorando la línea de visión

En el entorno actual, para evitar llevarse una sorpresa, es crucial tener la capacidad de detectar cualquier degradación que ocurra en los centros de datos de los que depende un servicio o aplicación en la nube. Esto no sólo es importante para garantizar el tiempo de actividad inmediato, sino también para mejorar el servicio en la nube o el diseño de la aplicación al reducir la dependencia de un único centro de datos.

Para garantizar una experiencia de usuario perfecta, los operadores de servicios en la nube y aplicaciones basadas en web deben poder comprender todo lo que los sustenta. Es probable que eso incluya una consideración adicional de la infraestructura subyacente, incluida su ubicación física (centro de datos) y las capacidades de ese centro de datos en términos de su diseño y planta redundante.