Se você tiver a sorte de conseguir milhares de GPUs e um Data Center com energia e resfriamento suficientes para suportá-las, sua dor de cabeça acabou de começar.

As cargas de trabalho de IA e aprendizado de máquina exigem que essas GPUs sejam conectadas usando uma rede densa e adaptável, que também conecta CPU, memória e armazenamento.

O menor gargalo pode impactar um sistema e levar a problemas e desempenho lento durante todo o processo de treinamento. Mas com inúmeros nodos interconectados, é fácil para o tráfego se acumular.

A gigante de chips Broadcom espera que parte da solução para o problema possa estar na IA e no próprio software. Seu novo silício de comutação Trident 5-X12 será o primeiro a usar o mecanismo de inferência de rede neural NetGNT on-chip da empresa, que visa melhorar as redes em tempo real.

O NetGNT (Networking General-purpose Neural-network Traffic-analyzer) é “de uso geral”, disse Robin Grinley, principal PLM da empresa no grupo de comutação central da Broadcom, à DCD. “Não tem uma função específica; ele é projetado para muitos casos de uso diferentes”, diz Grinley.

A pequena rede neural fica paralela ao fluxo normal de processamento de pacotes, em que o cliente coloca uma série de regras estáticas no chip (políticas de descarte, políticas de encaminhamento, intervalos de IP e assim por diante).

“Em comparação, o NetGNT tem memória, o que significa que procura padrões”, diz Grinley. “São padrões no espaço, em diferentes portas do chip e no tempo. Então, à medida que os fluxos passam pelo chip e vários eventos ocorrem, você pode procurar padrões de nível superior que não são realmente detectáveis por um conjunto estático de regras que foram programadas nessas tabelas de baixo nível”.

Um cliente poderia treinar a rede neural em ataques DDoS anteriores para ajudá-lo a identificar um evento semelhante no futuro.

“Agora, a ação pode ser local no chip, pode ser normal. Quando se vê um desses fluxos DDoS iniciando, ele interrompe o fluxo e descarta o pacote. Ao mesmo tempo, você também pode fazer coisas como criar uma notificação quando ela o identificar pela primeira vez e enviá-la para o Centro de Operações de Rede”.

As execuções de IA e ML às vezes podem experimentar um evento de incast, em que o número de servidores de armazenamento enviando dados para um cliente excede a capacidade de um switch Ethernet para buffer de pacotes, o que pode causar perda significativa de pacotes.

“Você pode detectar isso: se houver um acúmulo do buffer devido a uma infusão, você pode ler essa assinatura e dizer: 'Ok, posso tomar uma ação muito rápida para iniciar a pressão de volta, talvez alguns desses fluxos, ou fazer outra coisa'”, disse Grinley. “Em uma carga de trabalho de IA/ML, ela é feita em fases, e você tem apenas alguns milissegundos entre as fases. Você não tem tempo para envolver o software no ciclo e tentar tomar algumas decisões sobre o que fazer”.

Com o NetGNT rodando em paralelo, “não há nenhum software no circuito que, quanto mais complexo for o processamento de pacotes, mais tempo ele levará. Quer o NetGNT esteja ligado ou desligado, a latência de qualquer pacote que passe pelo nosso chip é a mesma”.

Considerando os requisitos exclusivos de diferentes redes, é importante notar que o NetGNT não funciona imediatamente. “A única coisa que fornecemos aqui é o modelo de hardware: quantos neurônios? Como eles estão conectados? Quais são os grandes pesos, etc?”.

O resto, o cliente tem que treinar no modelo. “Alguém tem que ir ver grandes quantidades de dados de rastreamento de pacotes – aqui está minha rede quando está funcionando bem; isso é o que eu quero rastrear, incast, negação de serviço, algum outro evento de segurança, o que for”, disse Grinley.

“Algum arquiteto de rede tem que passar por todos esses enormes pacotes de dados de rastreamento e marcá-los. Em seguida, ele alimenta todos esses dados de treinamento em um algoritmo de treinamento supervisionado e gera os pesos que vão para o nosso mecanismo de rede neural”.

Isso significa que a precisão do sistema depende, em certa medida, da qualidade dos dados, da duração do treinamento e da habilidade da pessoa que rotula e treina seu sistema.

“Eles provavelmente terão que contratar alguns especialistas em IA e ML que saibam como executá-lo e, em seguida, executá-lo na nuvem e em qualquer lugar”, disse Grinley. Cabe também ao cliente a frequência com que treina o sistema.

“Você pode recarregá-lo enquanto o chip está funcionando”, acrescentou. “Assim, eles podem recarregá-lo diariamente, se quiserem, mas o tempo de treinamento geralmente é da ordem de alguns dias a uma semana”.

Além do NetGNT, a Broadcom pretende ajudar a reduzir gargalos com o “roteamento cognitivo”, que foi implementado pela primeira vez com o Tomahawk-5. “Se você estiver usando o Trident-5 como Tor e Tomahawk-5 como estrutura, esses recursos operam juntos”, disse Grinley.

Em produtos mais antigos, o balanceamento dinâmico de carga era limitado apenas ao chip. O congestionamento foi detectado e o fluxo foi movido de forma autônoma para um link com menos carga. “Agora, isso funciona bem no chip”, disse Grinley. “Mas se você descer três ou quatro saltos na rede, é possível que a nova rota escolhida esteja congestionada em outro lugar”.

A plataforma está tentando gerenciar o balanceamento de carga global, disse ele. “Esses chips, quando detectam congestionamento, podem enviar notificações tanto para baixo quanto para cima, e permitem que todos os chips operem com uma visão global do congestionamento e sejam capazes de lidar com ele”.

Isso é executado em núcleos Arm integrados no chip, porque “não é algo que você pode esperar da CPU host”.

À medida que o sistema se desenvolve e a computação no chip melhora, Grinley vê seus vários esforços convergindo. “O NetGNT poderia passar para a versão dois do roteamento cognitivo, algum novo esquema de balanceamento de carga e algum esquema de telemetria engenhoso.

“Depois de ter esse pequeno mecanismo de inferência instalado, você pode conectá-lo para melhorar o desempenho, a segurança e a otimização da rede. Acho que descobriremos muito mais casos de uso com o passar do tempo”.