Os Data Centers sempre foram ambientes altamente estáveis e resolutos. Essas instalações são feitas para se preparar contra mudanças que podem prejudicar a TI – mas a busca raivosa pela IA cria uma desconexão fundamental entre o que os Data Centers foram e o que devem se tornar. As aplicações de IA de hoje e seus requisitos dinâmicos estão reintroduzindo à força a mudança no ambiente do Data Center.

Data Centers – até agora

Cargas de base estáveis têm sido a base da operação dos Data Centers. Mesmo com mais filtros de TI, as cargas de energia aumentam lenta e uniformemente, permitindo energia, espaço e resfriamento relativamente invariáveis e estáveis 24 horas por dia, 7 dias por semana, 365 dias por ano.

Faz sentido por que nossos sistemas de energia e resfriamento foram projetados e configurados para suportar o consumo contínuo e uniforme.

Por natureza, a IA está quebrando o molde que criamos. Quando os trabalhos são lançados, os níveis de energia mudam radicalmente, aumentando enormemente. Uma carga de 600-700kW pode se tornar mais de um megawatt em um instante, durando dias nesse nível de consumo antes de cair repentinamente.

Claro, isso muda o resfriamento e a carga de calor, tornando a IA um desafio multifacetado. O Goldman Sachs relata que 47 GW de capacidade incremental de geração de energia serão necessários para suportar o crescimento da demanda de energia dos Data Centers dos EUA até 2030, e as demandas estão aumentando. Do ponto de vista da estrutura básica, este é provavelmente o maior item na pauta de qualquer Data Center de IA.

No entanto, a densidade de potência também é um desafio importante da IA. Os clientes de IA já querem implementar inicialmente de 50 a 60 kW por gabinete, mas dentro de seis meses, eles vão querer 100 kW por rack. Essa taxa de evolução joga significativamente contra os ambientes de Data Center estáveis dos quais dependemos há muito tempo. Construir esse nível de densidade (e atender à carga de calor) é muito complicado – mas alcançar a elasticidade necessária para a IA é fundamental. Os Data Centers de hoje simplesmente não são construídos para isso.

É aqui que nos encontramos hoje como indústria. Diante desses desafios, os operadores estão se esforçando para modernizar os data halls (ou estabelecer novas construções) para dar suporte às soluções de refrigeração líquida e à infraestrutura densa necessária hoje e amanhã.

Analisando o problema

Durante quase uma década, todos nós nos sentamos na faixa de gabinetes de 5 a 10 kW. Alguns gabinetes podem ter sido rotulados como 'gabinete HPC' e podem consumir 50kW. Ainda assim, essas instâncias costumavam ser especializadas e isoladas do ambiente maior para que o calor pudesse ser contido. Essas implementações de HPC foram, até recentemente, a exceção, não a regra.

Agora, todos os racks do seu Data Center estarão no nível desses racks HPC antes especializados. De repente, as operações e planos que os apoiam não são tão simples.

À medida que as densidades padrão aumentam significativamente, os principais culpados por atrasar os Data Centers ou impulsioná-los para a prontidão para IA são as redes de energia e as capacidades do sistema de resfriamento. Sem mencionar que, com implementações de IA, cada nanossegundo é importante para a conectividade do cluster.

Os gabinetes precisam ser densamente compactados para ajudar no desempenho de computação no Data hall, bem como dentro de cada gabinete. Não podemos mais nos dar ao luxo de distribuir a carga e segmentar gabinetes. É dessa maneira que a criação de verdadeiros Data Centers de IA não é apenas abrangente – é complexa.

Sobre o resfriamento, os Data Centers foram tradicionalmente projetados assumindo um nível máximo de kW por gabinete e volume de troca de ar necessário que já superamos. Não estamos mais brincando no campo de 'enormes salas de dados com armários esparsos', tornando os projetos tradicionais de resfriamento de ar totalmente inadequados para os clusters densos e agrupados da IA.

Claro, nada disso é novidade para a maioria das operadoras. Muitos já estão buscando ativamente a mudança. Infelizmente, o problema que muitos ainda não conhecem (ou talvez não aceitem) é o nível de mudança verdadeiramente radical necessário não apenas para encontrar a IA onde ela está agora, mas também para onde ela precisa ir.

Por que mesmo as soluções específicas criadas não estão funcionando

Alguns fornecedores de colocation assumem que podem se reinventar para a IA simplesmente solicitando um sistema de refrigeração líquida e colocando-o no final da fila. Infelizmente, isso é como um band-aid sobre um buraco de bala.

Há uma série de razões pelas quais mesmo novos investimentos em infraestrutura, retrofits e adições não estão ajudando a reduzir a IA. Primeiro, há o desafio que conhecemos muito bem: problemas na rede de suprimentos. Os prazos de entrega dos sistemas de refrigeração líquida são tão longos que, entre o pedido e a implementação, os Data Centers estão ainda mais atrasados do que quando começaram. O crescimento da IA está superando a velocidade de implantação.

Além disso, graças à alta demanda de IA por tecnologia de refrigeração líquida, a Vertiv registrou um aumento de 60% nos pedidos orgânicos no 1º trimestre de 2024 em comparação com o primeiro trimestre de 2023. Se um fornecedor de Data Center tiver que trazer líquido para o rack, ele perderá terreno todos os dias, esperando atrás de hiperescalas.

Implementar com redundância e resiliência suficientes é o outro lado dessa moeda. Depois de ter os sistemas necessários, eles não podem ser colocados em qualquer lugar. A primeira reação de alguns operadores é colocar um chiller em linha com um circuito de distribuição de água. Mas o que acontece se um componente do loop cair? De repente, um Data Center tem um único ponto de falha inaceitável. Fornecer capacidade de manutenção e resiliência simultâneas, mesmo que um componente ou tubo quebre, é fundamental, mas a redundância é mais complicada agora do que nunca.

Os Data Centers agora devem lidar com a água pressurizada que flui ao redor dos equipamentos de TI. Se a água estiver indo para o rack, os operadores devem ter prevenção de vazamento e planejamento de emergência impecáveis. Como é o processo de recuperação e qual será o impacto a jusante? Mesmo nessas perguntas iniciais, vemos que estar preparado para a IA é muito mais complicado, holístico e com visão de futuro do que apenas colocar os sistemas em prática.

Na velocidade de transformação necessária da IA, os custos de oportunidade da consciência podem fazer com que muitos operadores pulem etapas. Mas isso não torna um Data Center de IA, cria um passivo.

Felizmente, o mercado de soluções de Data Center de IA está amadurecendo. Por exemplo, os sistemas de resfriamento de água do data hall que funcionam sob vácuo ajudam no lado da resiliência e recuperação, evitando desligamentos se ocorrerem problemas. No entanto, muitos operadores nem estão pensando na preparação da IA nesse nível de detalhes e previsão necessários – e não estão desafiando as suposições de longa Data que deveriam estar.

Mudando nosso paradigma

Por trás desses desafios, as cargas de trabalho altamente dinâmicas e as densidades crescentes da IA estão apenas tornando a corrida mais rápida e a pressão mais substancial. Na verdade, a IA está forçando a indústria a construir não apenas na realidade, mas na especulação.

Do ponto de vista do investimento de capital, os Data Centers de hoje devem ser viáveis nas próximas décadas. Então, quão escaláveis devem (ou podem) ser? Quantos nodos agrupados em quantos clusters agrupados em quão densa de uma área podemos alcançar com o mercado atual e os limites tecnológicos? Em última análise, os retrofits contínuos precisam ser facilitados para deixar espaço para mudanças dinâmicas – e isso ainda não é uma realidade confortável para os Data Centers.

Aspectos operacionais, como recuperação de desastres, apenas aumentam a tensão apresentada por requisitos reais e previstos. Com todas essas considerações em mãos, os operadores são forçados a dar saltos quânticos sem perder nenhum detalhe. É como tentar acertar um alvo enquanto dirige através dele em velocidades da Indy 500.

Nesse desafio, a modularidade se tornou um trunfo – mas não é suficiente. Além de uma mudança operacional e mesmo física, precisamos de uma mudança filosófica na forma como vemos o problema e a solução.

Até hoje, operamos com a perspectiva de ter uma quantidade X de espaço fixo para o qual podemos trazer uma quantidade Y de capacidade de resfriamento e energia. A IA exige que vivamos esse problema de cabeça para baixo.

Podemos concordar que é muito melhor desperdiçar espaço do que enfiar energia e resfriamento, então nossa filosofia de construção de longa data é retrógrada. Vamos inverter a equação: se um operador precisa ter certeza de que um projeto pode lidar com cinco vezes sua potência atual e densidade de resfriamento, como o espaço de implementação inicial precisa se adequar a isso? Além disso, como o espaço pode permitir que o equipamento seja facilmente puxado e substituído sem sacrificar a integridade do edifício no processo?

Agora, estamos começando a ver como podemos nos afastar da ideia de um edifício fixo e vedado e, ao mesmo tempo, tornar as operações de TI ainda mais avançadas. Isso permite que os Data Centers preservem os investimentos iniciais de capital e tornem a rotatividade de capital muito mais viável e incremental para apoiar a lucratividade diante da mudança.

Não se preocupe – não é só você

Deixar de reconhecer o escopo da interrupção da IA está impedindo muitos operadores. Mas, como indústria, temos que compartilhar a culpa: ainda não estamos projetando soluções de sistema completo que ajudem os operadores a resolver esses problemas.

De OEMs a empresas de semicondutores e além, manter a lucratividade preservando a semelhança do produto é um obstáculo que todos devemos concordar em superar – mas isso é uma discussão para outro dia.

Em última análise, as soluções e os parceiros certos podem fazer uma grande diferença na navegação em um mercado complexo ou teimoso. Ao procurar os sistemas de refrigeração líquida e as soluções holísticas necessárias para a IA, concentre-se em sistemas prontamente expansíveis. Ao adquirir soluções, procure modularidade, resiliência, flexibilidade e escalabilidade – e não confie em fornecedores que afirmam conhecer o futuro completamente.

A capacidade de se adaptar de forma abrangente, mantendo a TI operacionalmente segura e estável, será o básico de qualquer Data Center no futuro próximo. Esse é o ponto a partir do qual as negociações complexas de IA no ambiente do Data Center devem começar.

Mais sobre a Nautilus