O aumento constante dos níveis de energia do servidor é uma das principais tendências dos Data Centers nos últimos 10 anos e que a Uptime Intelligence tem discutido regularmente.

A interação das forças subjacentes que impulsionam essa escalada é complexa, mas o efeito líquido é claro: a cada nova geração de tecnologia de semicondutores, o silício do servidor está empurrando o equipamento de resfriamento de ar para perto de seus limites operacionais.

As diretrizes térmicas de 2021 do órgão da indústria de definição de padrões ASHRAE alertaram sobre restrições de temperatura para alguns servidores futuros. Mais recentemente, outro catalisador para esse aumento do consumo de energia são os esforços contínuos da indústria no treinamento de grandes modelos de aprendizado de máquina, liderados por aplicações generativas de IA.

Esses desenvolvimentos, mais uma vez, trouxeram à tona a questão dos racks de alta potência e, com ela, um interesse renovado nos benefícios do resfriamento líquido direto (DLC) em Data Centers. Há uma oportunidade significativa de maximizar o poder de computação usando DLC, tanto em termos de capacidade de TI quanto de desempenho total do servidor.

Mas também há desvantagens associadas à implementação de refrigeração líquida em instalações de Data Center convencionais a serem consideradas. Uma grande preocupação é o requisito comum de conectar sistemas DLC ao abastecimento de água de uma instalação. Isso pode tornar a instalação e a manutenção mais caras e complexas, tornando o DLC um obstáculo para muitos operadores que já possuem um sistema de resfriamento de ar eficaz.

É uma falsa dicotomia. Um número crescente de designs de DLC evoluiu para oferecer a opção de usar ar, em vez de água da instalação, para remover o calor. Esses sistemas DLC assistidos por ar oferecem uma compensação entre desempenho e facilidade de implementação/operação que muitos operadores podem achar atraente.

Hiperescalas atualizam a infraestrutura de IA com DLC assistido por ar

Para uma validação recente da abordagem de DLC assistida por ar, consulte o anúncio da Microsoft em novembro de 2023 sobre seu novo hardware de IA do Azure. A gigante da tecnologia implementou seu acelerador de IA (Maia) e processador principal (Cobalt) sob medida em grandes racks refrigerados a líquido não padrão para gerenciar melhor suas cargas de trabalho de IA do Azure.

Embora o hardware de IA possa ser mais volumoso e consumir mais energia, hardware semelhante de outros fabricantes (como a versão refrigerada a ar do Grace Hopper Superchip da Nvidia) pode ser integrado em racks padrão.

Por que, então, os hiperescalas estão escolhendo essas personalizações? Tudo se resume ao gerenciamento térmico para desempenho de computação: o resfriamento líquido elimina a necessidade de grandes dissipadores de calor e ventiladores para resfriar o silício de alta potência. Isso significa um chassi mais compacto e menos energia desperdiçada por ventiladores de servidor. O resultado é mais desempenho para o mesmo espaço ocupado pelo Data Center e a mesma capacidade de energia.

O rack personalizado da Microsoft incorpora DLC por meio de um circuito fechado entre placas frias diretamente conectadas aos componentes mais quentes do servidor e a unidade de rejeição de calor adjacente, que eles chamam de “ajudante”. É importante ressaltar que o sistema DLC no nível do rack é uma estrutura autônoma. Não há conexões de encanamento externas ao rack, mas o fluido quente passa por um trocador de calor no ajudante, onde os ventiladores rejeitam o ar quente para o espaço em branco. O Open Compute Project (OCP) refere-se a essa categoria de resfriamento líquido como “assistida por ar”.

Há vários fatores a serem considerados ao selecionar esta implementação de DLC em vez de opções refrigeradas a água:

  • Muitas instalações não possuem sistemas de água gelada, mas dependem de grandes economizadores de ar. As modificações de infraestrutura para modernizar Data Centers para suportar conexões de água podem ser caras e disruptivas.
  • Mesmo que haja água nas instalações, equipamentos adicionais e uma extensa rede de encanamento seriam necessários para conectar muitos racks e unidades de distribuição de refrigerante (CDUs) com vários racks e distribuir o refrigerante entre os racks. Isso também cria necessidades adicionais de manutenção e aumenta o peso estrutural.
  • Um projeto autônomo assistido por ar é mais fácil de implementar em instalações de colocation. Essa é uma consideração potencialmente importante para qualquer organização que queira implementar uma infraestrutura de TI padronizada em toda a sua área de cobertura, seja ela local ou colocada.

O DLC assistido por ar vem com alguns compromissos, principalmente desempenho e eficiência geral de rejeição de calor. Os trocadores de calor líquido-ar exigem uma área de superfície maior e, como resultado, uma área ocupada pelo rack para fornecer a mesma capacidade de resfriamento. As temperaturas do circuito de refrigeração, no entanto, podem ser elevadas para uma transferência de calor mais eficaz, modulando a taxa de fluxo. Além disso, como o sistema usa a infraestrutura de resfriamento a ar existente nas instalações, não há a opção de elevar as temperaturas para otimizar o resfriamento gratuito, nem a possibilidade de funcionar em temperaturas de refrigeração muito baixas para desempenho máximo de silício.

Apesar desses compromissos, o DLC assistido por ar aborda a questão essencial no Data Hall: remover grandes concentrações de calor da superfície do silício de alto desempenho. O DLC assistido por ar permite que os operadores de Data Center aproveitem a maior parte dos benefícios de desempenho de resfriamento e eficiência de TI do DLC sem a necessidade de conexões de água nas instalações.

Uma opção de DLC a ser considerada para a maioria dos operadores de Data Center

As decisões de engenharia da Microsoft chamam a atenção e validam o DLC assistido por ar. A abordagem já vem ganhando popularidade como um método de curto a médio prazo de adoção de refrigeração líquida, embora não exija necessariamente hardware personalizado.

Existem várias oportunidades associadas à adoção de DLC assistido por ar:

  • Flexibilidade de instalação: Fornecedores de equipamentos estabelecidos (como Motivair, Schneider Electric, Stulz e Vertiv, entre outros) oferecem sistemas DLC assistidos por ar que podem ser instalados em racks padrão, proporcionando flexibilidade na instalação. O sistema pode estar localizado dentro ou fora do rack, transferido entre racks, desconectado para manutenção ou atualizações e geralmente é independente do fornecedor do rack. Como esses sistemas foram desenvolvidos comercialmente, o encanamento de refrigerante associado normalmente se integra facilmente a coletores padronizados e acoplamentos de desconexão rápida. Essa flexibilidade de instalação significa que os operadores corporativos e de colocation podem testar a integração de refrigeração líquida em pequena escala - apenas um servidor em um rack - antes de considerar uma implementação mais ampla.
  • Densificação e mais capacidade em instalações legadas: à medida que as implementações aumentam, o poder de computação é densificado em menos racks, liberando espaço em branco. O DLC assistido por ar facilita a implementação de um programa de densificação em escala em Data Centers legados, mesmo aqueles sem água nas instalações. Isso ocorre porque o sistema pode ajudar a gerenciar racks de alta densidade, aliviando a pressão dos manipuladores de ar da sala de computadores que precisam fornecer ar frio. Uma CDU refrigerada a ar, por exemplo, remove o calor de eletrônicos de servidor de alta potência, como processadores, aceleradores e bancos de memória, e troca calor em uma área de superfície maior em comparação com os dissipadores de calor do servidor. Isso torna a transferência de calor mais eficaz e fácil de manusear para sistemas de resfriamento a ar.

A instalação ainda precisa operar dentro das restrições de fornecimento de energia total e capacidade total de resfriamento, independentemente do equipamento que operam em seu espaço em branco. Os primeiros usuários do DLC estão percebendo que não podem tirar proveito de qualquer metragem quadrada recuperada, sem aumentar o fornecimento de energia da rede local (ou geração de energia no local no futuro, se a rede for limitante) e distribuição de energia atualizada. A densificação com sistemas DLC assistidos por ar, juntamente com atualizações de equipamentos de energia, cria uma oportunidade para os operadores de Data Center expandirem a capacidade de computação dentro da mesma área ocupada pelo edifício. Mesmo sem essas atualizações, a redução da energia do ventilador do servidor, um componente parasita na carga de TI, permitirá maior capacidade de computação dentro do mesmo envelope de energia.

  • Experiência de construção: Compreender o resfriamento líquido no nível do rack é um pré-requisito para embarcar em um sistema de reutilização de calor. Os operadores que enfrentam novas pressões regulatórias devem ganhar experiência com a operação de racks refrigerados a líquido, antes de investir em sistemas maiores de distribuição de fluidos. Embora o Google e a Microsoft continuem a operar instalações legadas refrigeradas a ar, seus Data Centers mais recentes na Europa (como o site Kirkkonummi da Microsoft na Finlândia) empregam reutilização de calor e usam energia renovável.

Existem, é claro, desafios com implantações de DLC assistidas por ar:

  • Flutuações de temperatura: Para trocadores de calor líquido-ar, um desafio é alcançar temperaturas de aproximação ideais, porque tanto a velocidade quanto a temperatura do ar que se move através do trocador de calor são críticas. Sob certas condições, pode ser necessária energia adicional do ventilador para resfriar o líquido quente adequadamente. Um aumento significativo na temperatura pode levar a impactos em cascata na transferência de calor no trocador de calor DLC refrigerado a ar, exigindo mais energia do compressor e uso de água para resfriar ainda mais o ar no Data hall.
  • Resiliência: A falta comum de redundância em loops de refrigeração acoplados significa que, se um componente de loop de líquido falhar, haverá uma perda imediata de resfriamento para o componente de TI associado. Se ocorrer um vazamento, o impacto pode ser pior na forma de danos ao hardware de TI. O resfriamento líquido adiciona vários componentes ao rack que devem ser mantidos para garantir o tempo de atividade. Os operadores precisam garantir que a equipe seja treinada para gerenciar essas novas responsabilidades. As considerações de resiliência são um trabalho em andamento para todos os tipos de DLC, mas os sistemas assistidos por ar têm menos probabilidade de serem projetados com manutenção simultânea e tolerância a falhas em mente.
  • Espaço e pegada em rack. Os trocadores de calor líquido-ar precisam ser maiores do que seus equivalentes líquido-líquido para a mesma capacidade e, portanto, ocupam relativamente mais espaço. CDUs menores, integradas ao rack e assistidas por ar ocuparão um espaço valioso no rack.

Além de suas limitações na distribuição de fluidos, os sistemas DLC assistidos por ar indiscutivelmente sobrecarregam o fornecimento de energia mais do que os sistemas refrigerados a água devido ao uso de ventiladores. Os Data Halls podem estar abarrotados com densidades de rack cada vez maiores, mas é necessário que haja infraestrutura elétrica para suportar as cargas. Atualizações significativas de cabeamento e barramento (barras de metal usadas para transportar corrente) podem ser necessárias, dependendo do consumo de energia do rack. Isso pode envolver o uso de tensões de distribuição mais altas (trifásicas de 400 V a 480 V) e disjuntores de classificação mais alta (por exemplo, 60 A), bem como circuitos adicionais para o rack. OCP e Open19 recomendam uma mudança de 12V para 48V em rack à medida que as operadoras implementam novas tecnologias de servidor, elas precisam garantir que esses requisitos elétricos possam ser atendidos.

Perspectiva

A decisão da Microsoft de adotar um sistema de refrigeração líquida de circuito fechado sob medida, evitando ecossistemas de hardware padrão, reflete um movimento estratégico para equilibrar a eficiência térmica com as restrições da infraestrutura existente. Essa abordagem não apenas aborda os desafios térmicos imediatos impostos por cargas de trabalho de IA/aprendizado de máquina de alto desempenho, mas também estabelece um precedente para o setor. Ele ilustra a viabilidade e os benefícios da adoção de soluções de refrigeração líquida em escala e velocidade, mesmo dentro das limitações dos Data Centers adaptados.

Para outros operadores de Data Center, a mudança da Microsoft oferece exemplos das oportunidades disponíveis e dos obstáculos a serem superados. A crescente popularidade das soluções sidekick oferece um caminho prático para os Data Centers fazerem a transição para métodos de resfriamento mais eficientes (especialmente quando a potência do ventilador de TI é levada em consideração) sem extensas revisões de infraestrutura. Essas soluções podem ser adotadas de forma incremental, para permitir escalabilidade e flexibilidade.

No entanto, os desafios da troca de calor ideal, a necessidade de distribuição aprimorada de energia e os riscos associados aos sistemas de refrigeração líquida não devem ser subestimados. O planejamento completo da flexibilidade na expectativa de tendências incertas de energia e resfriamento de TI, o investimento na exploração de técnicas adicionais de instalações e o treinamento necessário da equipe são essenciais para navegar com sucesso por essas complexidades.