O novo e moderno Data Center não é apenas uma expansão de um Data Center existente. Em muitos casos, adicionar recursos de IA a uma empresa requer um planejamento preciso e um novo começo. Simplesmente adicionar um novo servidor otimizado para GPU a uma infraestrutura existente não fornecerá os resultados que as organizações exigem. As fábricas de IA produzem conhecimento a partir de dados existentes e exigem um novo pensamento para obter os melhores resultados.

Mentalidade de nível de rack

No passado, servidores individuais eram adicionados a um conjunto existente de sistemas em um rack com base em alguns recursos (velocidade da CPU, GHz da CPU, quantidade de memória e uma escolha de GPU).

Com o tempo, essa construção de Data Center levou a um rack contendo muitos sistemas diferentes para diferentes cargas de trabalho, com cada servidor basicamente independente. Embora alguns aplicações tenham sido projetadas para serem executadas em vários servidores (HPC), isso incluiu um conhecimento dos protocolos de rede, software adicional e atrasos enquanto os sistemas estavam se comunicando.

A nova maneira de pensar é que o “rack é o novo servidor” permite que os operadores de Data Center criem uma solução escalável pensando no nível do rack.

Dentro de um rack, uma solução inteira para treinamento de IA pode ser independente, com expansão para maiores necessidades de desempenho prontamente disponíveis.

Um único rack pode conter até oito servidores, cada um com oito GPUs interconectadas. Em seguida, cada GPU pode se comunicar com muitas outras GPUs localizadas no rack, pois os switches podem estar contidos no rack. A mesma comunicação pode ser configurada entre racks para escalar além de um único rack, permitindo que um único aplicativo use milhares de GPUs.

Dentro de uma fábrica de IA, diferentes GPUs podem ser usadas. Nem todos os aplicativos ou seus SLAs acordados exigem as GPUs mais rápidas do mercado atualmente. GPUs menos potentes podem ser totalmente adequadas para muitos ambientes e normalmente consomem menos eletricidade.

Além disso, esses servidores muito densos com GPUs requerem refrigeração líquida, o que é ideal se a unidade de distribuição de refrigerante (CDU) também estiver localizada dentro do rack, o que reduz o comprimento da mangueira.

A montagem e o teste de clusters inteiros são importantes para o rápido surgimento de uma nova fábrica de IA. A capacidade de um único fornecedor de testar todos os componentes que entram em uma fábrica de IA de acordo com os requisitos dos clientes reduz a chance de problemas ao instalar os diferentes componentes pela primeira vez no local do cliente.

unnamed_1_LGCKXF0.width-358
Solução de IA plug-and-play refrigerada a líquido – Supermicro

A integração L12 (cluster) não apenas testa os componentes de hardware e rede, mas também testa o ambiente de software em execução em todo o cluster, não apenas em um único servidor.

Saiba mais sobre a integração em escala de rack.

Refrigeração líquida

As últimas gerações de CPUs e GPUs estão empurrando os servidores para o resfriamento líquido. A capacidade de ar forçado para resfriar servidores que em breve excederão 10kW está se tornando mais difícil a cada nova tecnologia de CPU e GPU.

Os racks agora estão se aproximando de sistemas de alojamento que, no total, requerem cerca de 100 kW de potência e, portanto, o calor a ser removido do sistema para mantê-lo funcionando no desempenho designado. Adote o resfriamento líquido, que está se tornando mais popular, especialmente para ambientes de IA e HPC, onde se espera que as CPUs e GPUs funcionem em velocidade total (ou aumentada) continuamente. O resfriamento líquido tem a capacidade de remover centenas de vezes mais calor do que o ar, ao mesmo tempo em que reduz os requisitos de infraestrutura de resfriamento do Data Center.

Saiba mais sobre o resfriamento líquido do Data Center.

Ao contrário do que muitos acreditam, um Data Center refrigerado a líquido não custa mais para construir do que um Data Center refrigerado a ar e, por meio de um OPEX mais baixo (PUE é reduzido), a economia será aparente por anos após a construção. Os benefícios de um Data Center refrigerado a líquido podem ser resumidos:

  1. Menor eficácia no uso de energia (PUE) – há menos energia sendo usada fora dos servidores, armazenamento e infraestrutura de rede
  2. Mais poder de computação – com consumo de energia reduzido (menor PUE), mais servidores podem ser instalados dentro do mesmo orçamento para uma determinada energia de entrada para o Data Center
  3. Computação mais rápida – O resfriamento líquido pode permitir que a CPU funcione em sua taxa de “aumento” por mais tempo, pois as CPUs podem ser mantidas mais frias, portanto, sem estrangulamento

Uma solução inteira de refrigeração líquida precisa ter placas frias que substituam os dissipadores de calor que ficam em cima das CPUs e GPUs. Os kits de mangueiras são necessários para levar o líquido frio ao hardware certo e removê-lo do mesmo hardware.

Os coletores de distribuição de refrigerante fornecem o fluido frio aos servidores e retornam o líquido quente às unidades de distribuição de refrigerante (CDU). A CDU então envia o líquido quente para uma torre de resfriamento ou água para trazer a temperatura do fluido de volta para onde ele pode ser enviado aos servidores.

Resumo

Uma nova fábrica de IA é diferente de um Data Center existente. Com servidores high-end contendo várias GPUs, um rack se torna a unidade base para expansão adicional. Em seguida, essas unidades básicas podem ser dimensionadas para Data Centers inteiros, com cada GPU conectada diretamente a outras GPUs para uma máquina de treinamento de IA maciçamente paralela. O resfriamento líquido é fundamental para esses servidores altamente densos, pois o TDP das CPUs e GPUs continua a aumentar.

Saiba mais sobre as soluções de refrigeração líquida da Supermicro

Mais sobre a Supermicro

supermicro software - defined storage

Supermicro Software-Defined Storage

Store your most important assets on flexible, scalable, and cost-effective storage solutions that overcome the limitations of traditional storage appliances.