A Inteligência Artificial chegou, e chegou para ficar. "Cada indústria se tornará uma indústria de tecnologia", segundo o fundador e CEO da NVIDIA, Jensen Huang.

Os casos de uso para IA são literalmente ilimitados, de inovações de vanguarda na medicina até prevenção de fraudes de alta precisão. A IA já está transformando as nossas vidas, assim como está transformando cada um dos setores da economia. Ela está também começando a transformar fundamentalmente a infraestrutura dos data centers.

As cargas de trabalho da IA estão impulsionando mudanças expressivas em como alimentamos e refrigeramos os dados processados como parte da computação de alta performance (HPC). Um rack de TI normal costumava rodar cargas de trabalho de 5 a 10 quilowatts (kW) e os racks rodando cargas maiores do que 20 kW eram considerados de alta densidade - uma ocorrência rara fora de aplicações muito específicas e com um alcance pequeno.

A TI está sendo acelerada com GPUs que possam dar suporte às necessidades de computação dos modelos de IA, e esses chips de IA podem demandar ao redor de cinco vezes mais energia e cinco vezes mais capacidade de refrigeração no mesmo espaço do que um servidor tradicional.

Mark Zuckerberg anunciou que até o final de 2024, a Meta gastará bilhões para implementar 350.000 H100 GPUs da NVIDIA. As densidades dos racks de 40 kW por rack estão agora no limite inferior do que é necessário para facilitar as implementações de TI, com densidades de racks ultrapassando 100 kW por rack se tornando um lugar comum e em grande escala em um futuro próximo.

Isso demandará grandes aumentos de capacidade em todo o trem de força, da rede elétrica aos chips em cada rack. Introduzir tecnologias de refrigeração líquida no espaço de produção do data center e, eventualmente, nas salas de servidores empresariais será um requisito para a maioria das implementações, já que os métodos tradicionais de refrigeração não conseguirão lidar com o calor gerado pelas GPUs rodando cálculos de IA. Os investimentos para atualizar a infraestrutura necessária para alimentar e refrigerar o hardware da IA são substanciais e é essencial navegar por esses novos desafios do design.

A transição para alta densidade

A transição para a computação acelerada não acontecerá do dia para a noite. Os projetistas de data centers e de sala de servidores precisam buscar formas para tornar as infraestruturas de energia e de refrigeração preparadas para o futuro, considerando o crescimento futuro de suas cargas de trabalho.

Levar alimentação suficiente para cada rack requer upgrades da rede até o rack. No espaço de produção (white space) especificamente, isso provavelmente significa barramento blindado de alta intensidade de corrente, ou amperagem, e rack PDUs de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware rodando cargas de trabalho de IA, duas tecnologias de refrigeração líquida estão surgindo como as principais opções:

  1. Refrigeração líquida direta no chip: placas frias ficam em cima dos componentes que geram calor (normalmente chips como CPUs e GPUs) para remover o calor. Fluido bombeado em uma fase ou duas fases removem o calor da placa fria e o liberam para fora do data center, trocando calor - mas não fluidos - com o chip. Isso pode remover entre 70 e 75% do calor gerado pelos equipamentos no rack, deixando de 25 a 30% que precisarão ser removidas pelos sistemas de refrigeração a ar.
  2. Trocador de calor de porta traseira: trocadores de calor ativos ou passivos substituem a porta traseira do rack de TI com serpentinas trocadoras de calor através das quais o fluido absorve o calor produzido no rack. Esses sistemas são muitas vezes combinados com outros sistemas de refrigeração como uma estratégia para manter a neutralidade da sala ou como um design de transição ao começar a jornada para a refrigeração líquida.

Embora a refrigeração líquida direta ao chip ofereça uma capacidade de refrigeração com densidade significativamente maior do que o ar, é importante observar que ainda há excesso de calor que as placas frias não podem capturar. Esse calor será rejeitado para a sala de dados a não ser que seja confinado e removido de outras maneiras, como trocadores de calor de porta traseira ou refrigeração do ar da sala.