À medida que os grandes modelos de linguagem (LLMs) e outros sistemas de IA generativa continuam sendo a carga de trabalho necessária, os Data Centers se adaptaram para suportar implementações de dezenas de milhares de GPUs para executar modelos de treinamento e inferência.
A Nvidia continua sendo a líder na corrida de treinamento, com suas GPUs de ponta dominando o mercado. Mas, à medida que o mercado de IA generativa amadurece, o tamanho dos modelos e como eles são inferidos podem mudar.
“Estamos naquela parte do ciclo de hype em que ser capaz de dizer 'o modelo tem centenas de bilhões de parâmetros que levaram meses para treinar e exigiram o valor de energia de uma cidade para fazê-lo' é visto como realmente uma coisa boa agora”, disse o diretor de produtos da Ampere, Jeff Wittich, à DCD.
“Mas estamos perdendo o ponto disso, que é o ângulo da eficiência. Se foi isso que foi preciso, foi a maneira certa de fazer modelagem?”.
Wittich faz parte de uma série de figuras da indústria que acreditam que o futuro não consistirá apenas nesses megamodelos, mas também em inúmeros sistemas menores que são altamente especializados: “Se você tem uma IA que está ajudando as pessoas a escrever código, ela precisa saber a receita do suflê?”.
Essa versão do amanhã seria lucrativa para a Ampere, que desenvolve CPUs baseadas em Arm de alto desempenho. “Ainda hoje, você pode executar muitos modelos de LLM em algo que é mais eficiente”, disse ele.
“Você poderia executá-los em CPUs, mas as pessoas simplesmente não fazem porque construíram clusters de treinamento gigantescos com GPUs e depois os usaram para treinar e inferir os modelos”.
Parte do problema é a velocidade com que o mercado está se movendo atualmente, com a IA generativa sendo ainda um setor nascente com muito por lutar. As GPUs da Nvidia - se você puder obtê-las - têm um desempenho fantástico e uma biblioteca de software profunda para suportar o desenvolvimento rápido.
“É apenas 'jogar o material de maior potência que pudermos, para sermos os mais rápidos e os maiores”, disse Wittich. “Mas é isso que vai voltar para nos assombrar. É tão faminto de energia, e é tão caro fazer isso que, quando isso começar a importar, isso pode ser a condenação, pelo menos no curto prazo”.
As GPUs ainda estarão no centro do treinamento, especialmente com os modelos maiores, disse Wittich, mas questiona se elas eram realmente o chip ideal para inferência. “As pessoas estão indo e construindo as mesmas coisas para a fase de inferência, quando não precisam, porque há uma solução mais eficiente para elas usarem”, disse ele.
“Temos trabalhado com a empresa parceira Wallaroo.AI na inferência baseada em CPU, otimizando os modelos para isso e, em seguida, dimensionando - e eles podem obter algumas vezes mais taxa de transferência de resultados de inferência na mesma latência sem consumir mais energia”.
Tomando o modelo de reconhecimento de fala generativo Whisper da OpenAI como exemplo, a Ampere afirma que sua CPU Altra de 128 núcleos consome 3,6 vezes menos energia por inferência do que o A10 da Nvidia (é claro, o A100 mais caro e faminto por energia tem estatísticas melhores do que o A10).
A inferência de alta pegada de memória provavelmente permanecerá melhor em GPUs, mas Wittich acredita que a maioria dos modelos será mais adequada para CPUs. A equipe de IA da empresa desenvolveu a biblioteca de software AI-O para ajudar as empresas a mudar o código de GPUs para CPUs.
Os desenvolvedores de CPU também estão lentamente tomando emprestado de GPUs. A Ampere - assim como a Intel, AMD e outras - integraram cada vez mais funções de computação de IA em seu hardware.
“Quando você olha para o design do Ampere One, fizemos coisas específicas no nível microarquitetônico que melhoram o desempenho de inferência”, disse Wittich, apontando para a aquisição da empresa de IA OnSpecta em 2021. “A IA é uma dessas coisas muito especializadas anos atrás e que acabam se tornando de interesse geral”.
No entanto, sempre há compensações no design: “Se um bloco é incluído, ele está roubando recursos de área, energia e validação”.
Ele acrescentou: “Se algo é usado 80-90% do tempo, é isso que eu quero em cada uma de nossas CPUs. Se for de 20 a 30% do tempo, posso criar variações de produto que me permitam incorporar isso quando for necessário”.
“Você não quer um monte de aceleradores esotéricos na CPU que estão sempre atraindo energia e sempre consumindo área”.
Claro, GPUs e CPUs não são a única alternativa, com vários fornecedores de chips desenvolvendo chips de inferência dedicados que possuem inferência competitiva e estatísticas de consumo de energia.
Aqui, Wittich contrapõe com a outra questão das bolhas da indústria: que elas costumam estourar.
“Muitos dos chips de inferência de IA que estão por aí são realmente bons em um tipo de rede e um tipo de modelo”, disse ele. “Quanto mais especializado você fica, geralmente você fica melhor”.
“Mas o problema é que é melhor você ter adivinhado corretamente e estar bastante confiante de que a coisa em que você é muito, muito bom é o que será importante daqui a alguns anos”.
Se a IA generativa der uma guinada dramática nas arquiteturas de modelo atuais, ou toda a indústria entrar em colapso (ou, talvez, se aglutinar em torno apenas da OpenAI), então você pode ficar tranquilo.
Quando o Bitcoin perdeu valor, os mineradores ficaram com milhares de ASICs altamente especializados que eram inúteis em qualquer outra tarefa. Muitas das sobras foram simplesmente destruídas e enviadas para aterros sanitários.
Os mineradores de Ethereum, por outro lado, dependiam principalmente de GPUs. Vários fornecedores, como a CoreWeave, mudaram com sucesso seus negócios para a atual onda de IA.
As CPUs são inerentemente de propósito geral, o que significa que uma empresa não precisa apostar tudo em um modelo de negócios específico. “Sabemos que a demanda geral de computação vai crescer nos próximos dois anos, seja inferência, demanda de banco de dados, cargas de trabalho de mídia e qualquer outra coisa”, disse Wittich.
“Você está seguro, independentemente do que acontecer depois de sair da fase de boom”.