Por Jabari Williams-George, analista de investigación en el Uptime Institute


El aumento constante de los niveles de potencia de los servidores es una de las principales tendencias de los centros de datos de los últimos 10 años y una que Uptime Intelligence ha analizado periódicamente.

La interacción de fuerzas subyacentes que impulsan esta escalada es compleja, pero el efecto neto es claro: con cada nueva generación de tecnología de semiconductores, el silicio para servidores está acercando los equipos de refrigeración por aire a sus límites operativos.

Las directrices térmicas de 2021 del organismo normativo de la industria ASHRAE advirtieron sobre restricciones de temperatura para algunos servidores futuros. Más recientemente, otro catalizador de este creciente consumo de energía son los esfuerzos continuos de la industria para entrenar grandes modelos de aprendizaje automático, encabezados por aplicaciones de IA generativa.

Estos desarrollos, una vez más, han puesto en primer plano la cuestión de los racks de alta potencia y con ello un renovado interés en los beneficios de la refrigeración líquida directa (DLC) en los centros de datos. Existe una importante oportunidad de maximizar la potencia informática utilizando DLC, tanto en términos de capacidad de TI como de rendimiento absoluto del servidor.

Pero también hay que considerar los inconvenientes asociados con la implementación de refrigeración líquida en las principales instalaciones de centros de datos. Una preocupación importante es el requisito común de conectar los sistemas DLC al suministro de agua de una instalación. Esto puede hacer que la instalación y el mantenimiento sean más costosos y complejos, lo que hace que el DLC no sea un motor de arranque para muchos operadores que ya cuentan con un sistema de refrigeración por aire eficaz.

Esta es una falsa dicotomía. Un número creciente de diseños de DLC han evolucionado para ofrecer la opción de utilizar aire, en lugar de agua de la instalación, para eliminar el calor. Estos sistemas DLC asistidos por aire ofrecen un equilibrio entre rendimiento y facilidad de implementación/operación que muchos operadores pueden encontrar atractivo.

Los hyperscalers mejoran la infraestructura de IA con DLC asistido por aire

Para obtener una validación reciente del enfoque DLC asistido por aire, consulte el anuncio de Microsoft en noviembre de 2023 sobre su nuevo hardware Azure AI. El gigante tecnológico ha implementado su acelerador de IA personalizado (Maia) y su procesador principal (Cobalt) en grandes bastidores refrigerados por líquido no estándar para gestionar mejor sus cargas de trabajo de Azure AI.

Si bien el hardware de IA puede ser más voluminoso y consumir más energía, se puede integrar hardware similar de otros fabricantes (como la versión refrigerada por aire del Grace Hopper Superchip de Nvidia) en bastidores estándar.

Entonces, ¿por qué los hyperscalers eligen estas personalizaciones? Todo se reduce a la gestión térmica para el rendimiento informático: la refrigeración líquida elimina la necesidad de grandes disipadores de calor y ventiladores para enfriar el silicio de alta potencia. Esto significa un chasis más compacto y menos energía desperdiciada por los ventiladores del servidor. El resultado es un mayor rendimiento para el mismo espacio que ocupa el centro de datos y la misma capacidad de energía.

El rack personalizado de Microsoft incorpora DLC a través de un circuito cerrado entre placas frías conectadas directamente a los componentes más calientes del servidor y la unidad de rechazo de calor adyacente, a la que llaman " sidekick". Es importante destacar que el sistema DLC a nivel de bastidor es una estructura independiente. No hay conexiones de fontanería externas al rack, pero el fluido caliente pasa a través de un intercambiador de calor en el sidekick donde los ventiladores rechazan el aire caliente al espacio en blanco. El Open Compute Project (OCP) se refiere a esta categoría de refrigeración líquida como "asistida por aire".

Hay varios factores a considerar al seleccionar esta implementación de DLC en lugar de opciones refrigeradas por agua:

  • Muchas instalaciones no cuentan con sistemas de agua enfriada, sino que dependen de grandes economizadores de aire. Las modificaciones de la infraestructura para modernizar los centros de datos para admitir conexiones de agua podrían ser costosas y disruptivas.
  • Incluso si hay agua en la instalación, se necesitarían equipos adicionales y una extensa red de fontanería para conectar muchos bastidores o unidades de distribución de refrigerante (CDU) de múltiples bastidores y para distribuir el refrigerante entre los bastidores. Esto también crea necesidades de mantenimiento adicionales y aumenta el peso estructural.
  • Un diseño independiente asistido por aire es más fácil de implementar en instalaciones de colocación. Esta es una consideración potencialmente importante para cualquier organización que desee implementar una infraestructura de TI estandarizada en toda su superficie, ya sea local o ubicada.

El DLC asistido por aire conlleva algunos compromisos, principalmente el rendimiento y la eficiencia general de rechazo del calor. Los intercambiadores de calor líquido-aire requieren una mayor superficie y, como resultado, un espacio de rack más grande para proporcionar la misma capacidad de enfriamiento. Sin embargo, las temperaturas del circuito de refrigerante se pueden elevar para una transferencia de calor más efectiva modulando el caudal. Además, debido a que el sistema utiliza la infraestructura de enfriamiento de aire de las instalaciones existentes, no existe la opción de elevar las temperaturas para optimizar el enfriamiento gratuito, ni la posibilidad de funcionar a temperaturas de refrigerante muy bajas para lograr el máximo rendimiento del silicio.

A pesar de estos compromisos, el DLC asistido por aire aborda la cuestión clave en la sala de datos: eliminar grandes concentraciones de calor de la superficie del silicio de alto rendimiento. El DLC asistido por aire permite a los operadores de centros de datos aprovechar la mayor parte del rendimiento de refrigeración y los beneficios de eficiencia de TI del DLC sin la necesidad de conexiones de agua en las instalaciones.

Una opción de DLC a considerar para la mayoría de los operadores de centros de datos

Las decisiones de ingeniería de Microsoft llaman la atención y validan el DLC asistido por aire. El enfoque ya ha ido ganando popularidad como método a corto y medio plazo para adoptar refrigeración líquida, aunque no necesariamente requiere hardware personalizado.

Existen múltiples oportunidades asociadas con la adopción de DLC asistido por aire:

  • Flexibilidad de instalación: Los proveedores de equipos establecidos (como Motivair, Schneider Electric, Stulz y Vertiv, entre otros) ofrecen sistemas DLC asistidos por aire que se pueden instalar en bastidores estándar, lo que brinda flexibilidad en la instalación. El sistema puede ubicarse dentro o fuera del bastidor, transferirse entre bastidores, desconectarse para mantenimiento o actualizaciones y, por lo general, es independiente del proveedor del bastidor. Debido a que estos sistemas se han desarrollado comercialmente, las tuberías de refrigerante asociadas generalmente se integran fácilmente con colectores estandarizados y acoplamientos de desconexión rápida. Esta flexibilidad de instalación significa que los operadores empresariales y de colocación pueden probar la integración de refrigeración líquida a pequeña escala (tan solo un servidor en un rack) antes de considerar una implementación más amplia.
  • Densificación y más capacidad en instalaciones heredadas: a medida que aumentan las implementaciones, la potencia informática se densifica en menos bastidores, lo que libera espacio en blanco. El DLC asistido por aire facilita la implementación de un programa de densificación a escala en centros de datos heredados, incluso aquellos sin agua en las instalaciones. Esto se debe a que el sistema puede ayudar a gestionar racks de alta densidad al aliviar la presión de los controladores de aire de la sala de computadoras que necesitan suministrar aire frío. Una CDU enfriada por aire, por ejemplo, elimina el calor de los componentes electrónicos del servidor de alta potencia, como procesadores, aceleradores y bancos de memoria, e intercambia calor sobre una superficie mayor en comparación con los disipadores de calor del servidor. Esto hace que la transferencia de calor sea más eficaz y más fácil de manejar en los sistemas de refrigeración por aire.

La instalación aún necesita operar dentro de las limitaciones del suministro total de energía y la capacidad total de enfriamiento, sin importar qué equipo operen en su espacio en blanco. Los primeros en adoptar DLC se están dando cuenta de que no pueden aprovechar los metros cuadrados recuperados sin un mayor suministro de energía de la red local (o generación de energía en el sitio en el futuro si la red es limitada) y una distribución de energía mejorada. La densificación con sistemas DLC asistidos por aire junto con actualizaciones de equipos de energía crea una oportunidad para que los operadores de centros de datos amplíen la capacidad informática dentro del mismo espacio que ocupa el edificio. Incluso sin estas actualizaciones, la reducción de la potencia de los ventiladores del servidor, un componente parásito en la carga de TI, permitirá una mayor capacidad informática dentro del mismo ámbito de energía.

  • Experiencia en construcción: comprender la refrigeración líquida a nivel de rack es un requisito previo para embarcarse en un sistema de reutilización de calor. Los operadores que enfrentan nuevas presiones regulatorias deben adquirir experiencia en la operación de racks refrigerados por líquido, antes de invertir en sistemas de distribución de fluidos más grandes. Aunque tanto Google como Microsoft continúan operando instalaciones heredadas refrigeradas por aire, sus centros de datos más nuevos en Europa (como el sitio Kirkkonummi de Microsoft en Finlandia) emplean la reutilización del calor y utilizan energía renovable.

Por supuesto, existen desafíos con las implementaciones de DLC asistido por aire:

  • Fluctuaciones de temperatura: para los intercambiadores de calor líquido-aire, un desafío es lograr temperaturas de aproximación óptimas porque tanto la velocidad como la temperatura del aire que se mueve a través del intercambiador de calor son críticas. En determinadas condiciones, es posible que se requiera potencia adicional del ventilador para enfriar adecuadamente el líquido caliente. Un aumento significativo de la temperatura puede provocar efectos en cascada en la transferencia de calor en el intercambiador de calor DLC enfriado por aire, lo que requiere más potencia del compresor o uso de agua para enfriar aún más el aire en la sala de datos.
  • Resiliencia: la falta común de redundancia en los circuitos de refrigerante de acoplamiento cerrado significa que si falla un componente del circuito de líquido, hay una pérdida inmediata de enfriamiento en el componente de TI asociado. Si se produce una fuga, el impacto puede ser peor en forma de daños al hardware de TI. La refrigeración líquida agrega varios componentes al bastidor que deben recibir mantenimiento para garantizar el tiempo de actividad. Los operadores deben asegurarse de que el personal esté capacitado para gestionar estas nuevas responsabilidades. Las consideraciones de resiliencia son un trabajo en progreso para todos los tipos de DLC, pero es menos probable que los sistemas asistidos por aire se diseñen teniendo en cuenta el mantenimiento simultáneo o la tolerancia a fallas.
  • Espacio y huella del rack: Los intercambiadores de calor líquido-aire deben ser más grandes que sus homólogos líquido-líquido para tener la misma capacidad y, por lo tanto, ocupan relativamente más espacio. Las CDU más pequeñas, integradas en bastidor y asistidas por aire, ocuparán un valioso espacio en el bastidor.

Además de sus limitaciones en la distribución de fluidos, los sistemas DLC asistidos por aire posiblemente exigen más la entrega de energía que los sistemas enfriados por agua debido al uso de ventiladores. Las salas de datos pueden estar repletas de densidades de racks cada vez mayores, pero es necesario que haya una infraestructura eléctrica para soportar las cargas. Es posible que se requieran importantes actualizaciones de cableado y barras colectoras (barras metálicas utilizadas para transportar corriente) dependiendo del consumo de energía del rack. Esto puede implicar el uso de voltajes de distribución más altos (trifásicos de 400 V a 480 V) y disyuntores de mayor capacidad (por ejemplo, 60 A), así como circuitos adicionales al bastidor. OCP y Open19 recomiendan un cambio de distribución de energía en rack de 12 V a 48 V para mejorar la eficiencia. A medida que los operadores implementan nuevas tecnologías de servidores, deben asegurarse de que se puedan cumplir estos requisitos eléctricos.

Panorama

La decisión de Microsoft de adoptar un sistema de refrigeración líquida de circuito cerrado hecho a medida, evitando al mismo tiempo los ecosistemas de hardware estándar, refleja un movimiento estratégico para equilibrar la eficiencia térmica con las limitaciones de la infraestructura existente. Este enfoque no solo aborda los desafíos térmicos inmediatos que plantean las cargas de trabajo de aprendizaje automático/IA de alto rendimiento, sino que también sienta un precedente para la industria. Ilustra la viabilidad y los beneficios de adoptar soluciones de refrigeración líquida a escala y velocidad, incluso dentro de las limitaciones de los centros de datos modernizados.

Para otros operadores de centros de datos, la medida de Microsoft ofrece ejemplos tanto de las oportunidades disponibles como de los obstáculos que hay que superar. La creciente popularidad de las soluciones complementarias ofrece un camino práctico para que los centros de datos realicen la transición hacia métodos de refrigeración más eficientes (particularmente cuando se tiene en cuenta la potencia de los ventiladores de TI) sin grandes revisiones de la infraestructura. Estas soluciones se pueden adoptar de forma incremental para permitir escalabilidad y flexibilidad.

Sin embargo, no se deben subestimar los desafíos del intercambio de calor óptimo, la necesidad de una mejor distribución de energía y los riesgos asociados con los sistemas de refrigeración líquida. Una planificación minuciosa para lograr flexibilidad ante la expectativa de tendencias inciertas en energía y enfriamiento de TI, la inversión en la exploración de técnicas de instalación adicionales y la capacitación necesaria del personal son esenciales para superar con éxito estas complejidades.