A inteligência artificial generativa parece estar prestes a mudar a forma como trabalhamos, criamos e vivemos. Governos, empresas e indivíduos estão todos lidando com o que isso significa para a economia e nossa espécie, mas lutamos porque simplesmente não sabemos do que a IA será capaz, nem os custos e benefícios de aplicá-la.

Por trás dessa transformação, há uma história mais profunda, de grandes mudanças nas arquiteturas de computação, nas topologias de redes e no design de data centers. Implementar os enormes recursos de computação que esses sistemas requerem poderia mudar a indústria da nuvem e colocar o setor tradicional de supercomputação em risco.

Para entender o que esse momento significa e o que pode estar por vir, a DCD passou quatro meses conversando com quase duas dezenas de pesquisadores em IA, especialistas em semicondutores, especialistas em redes, operadores de nuvem, visionários de supercomputação e líderes de data center.

Essa história começa com os modelos, os algoritmos que determinam fundamentalmente como um sistema de IA funciona. Analisamos como eles são criados e como podem se expandir. Em operação, examinamos os dois requisitos principais de treinamento e inferência, e os chamados "modelos de base" aos quais as empresas e usuários têm acesso. Também perguntamos o que o futuro reserva para o desenvolvimento de IA de código aberto.

A partir daí, nos voltamos para o mundo dos supercomputadores, entendendo o uso deles hoje em dia e por que a inteligência artificial generativa pode revolucionar o setor tradicional de computação de alto desempenho (HPC). Em seguida, conversamos com os três gigantes da hiperscala que construíram supercomputadores de IA gigantescos na nuvem.

Depois, voltamos nossa atenção para os chips, onde a Nvidia lidera com seus processadores de GPU que impulsionam as máquinas de IA. Conversamos com sete empresas que estão tentando desafiar a Nvidia - e em seguida, ouvimos o chefe dos centros de dados e IA da Nvidia para entender por que desbancar o líder será tão difícil.

Mas a história da computação não faz sentido sem entender as redes, então conversamos com o Google sobre uma tentativa audaciosa de reformular a forma como os racks são conectados.

Por fim, aprendemos o que tudo isso significa para o data center. Do CEO da Digital Realty ao CEO da DE-CIX, ouvimos aqueles que estão prontos para construir a infraestrutura do futuro.

Criando um modelo

Nossa jornada nesta indústria começa com o modelo. Em 2017, o Google publicou o artigo "Attention is All You Need", que introduziu o modelo transformer, permitindo uma paralelização significativamente maior e reduzindo o tempo de treinamento das IAs.

Isso desencadeou um boom no desenvolvimento, com modelos de IA generativa construídos a partir de transformers. Esses sistemas, como o modelo de linguagem grande (LLM) GPT-4 da OpenAI, são conhecidos como modelos de base, nos quais uma empresa desenvolve um modelo pré-treinado para que outros o utilizem.

"O modelo é uma combinação de muitos dados e muito poder computacional", disse Rishi Bommasani, co-fundador do Center for Research on Foundation Models da Stanford e autor principal de um artigo seminal que define esses modelos, em entrevista à DCD. "Uma vez que você tenha um modelo de base, é possível adaptá-lo para uma ampla variedade de aplicações posteriores", explicou ele.

Cada modelo de base é diferente, e os custos para treiná-los podem variar bastante. Mas duas coisas são claras: as empresas que estão construindo os modelos mais avançados não são transparentes sobre como os treinam, e ninguém sabe quão grandes esses modelos podem se tornar.

As leis de dimensionamento são uma área de pesquisa em andamento, que tenta encontrar o equilíbrio ideal entre o tamanho do modelo, a quantidade de dados e os recursos computacionais disponíveis.

Criando um Chinchilla

"As relações de dimensionamento com o tamanho do modelo e o poder computacional são especialmente misteriosas", observou um artigo de 2020 de Jared Kaplan, da OpenAI, descrevendo a relação de lei de potência entre o tamanho do modelo, o tamanho do conjunto de dados e o poder computacional usado para o treinamento.

À medida que cada fator aumenta, o desempenho geral do modelo de linguagem grande também aumenta.

Essa teoria levou a modelos cada vez maiores, com contagens de parâmetros (os valores que um modelo pode alterar à medida que aprende) e mais tokens (as unidades de texto que o modelo processa, essencialmente os dados) em crescimento. Otimizar esses parâmetros envolve a multiplicação de conjuntos de números, ou matrizes, o que requer muita computação e, consequentemente, clusters de computação maiores.

Esse artigo foi substituído em 2022 por uma nova abordagem da DeepMind, subsidiária do Google, conhecida como "leis de dimensionamento Chinchilla", que mais uma vez tentou encontrar o tamanho ideal de parâmetros e tokens para treinar um modelo de linguagem grande dentro de um determinado orçamento computacional. Descobriu-se que os modelos da época eram excessivamente dimensionados em termos de parâmetros em relação aos tokens.

Enquanto o artigo de Kaplan afirmava que um aumento de 5,5 vezes no tamanho do modelo deveria ser acompanhado por um aumento de 1,8 vezes no número de tokens, o Chinchilla descobriu que os tamanhos de parâmetros e tokens devem ser escalados em proporções iguais.

A subsidiária do Google treinou o modelo Chinchilla, com 67 bilhões de parâmetros, com base nessa abordagem de otimização de computação, usando a mesma quantidade de orçamento computacional de um modelo anterior, o Gopher, com 280 bilhões de parâmetros, mas com quatro vezes mais dados. Testes mostraram que ele foi capaz de superar o Gopher, bem como outros modelos comparáveis, e usou quatro vezes menos computação para ajuste fino e inferência.

De forma crucial, sob o novo paradigma, a DeepMind descobriu que o Gopher, que já tinha um orçamento de computação massivo, teria se beneficiado de mais computação usada em 17,2 vezes mais dados.

Enquanto isso, um modelo ótimo de um trilhão de parâmetros deveria usar cerca de 221,3 vezes mais orçamento de computação para os dados maiores, empurrando os limites do que é possível hoje. Isso não quer dizer que não seja possível treinar um modelo de um trilhão de parâmetros (de fato, o próprio Google já o fez), apenas significa que a mesma computação poderia ter sido usada para treinar um modelo menor com melhores resultados.

Com base nas descobertas do Chinchilla, a empresa de pesquisa de semicondutores SemiAnalysis calculou que os custos aproximados de computação para treinar um modelo de um trilhão de parâmetros nas placas Nvidia A100 seriam de US$ 308 milhões ao longo de três meses, sem incluir o pré-processamento, a restauração de falhas e outros custos.

Levando as coisas ainda mais adiante, o Chinchilla descobriu que um modelo ótimo de 10 trilhões de parâmetros usaria cerca de 22.515,9 vezes mais dados e computação do que o modelo ótimo do Gopher. Treinar um sistema desse tipo custaria US$ 28,9 bilhões ao longo de dois anos, segundo a SemiAnalysis, embora os custos tenham melhorado com o lançamento das placas de vídeo mais avançadas da Nvidia, as H100.

Entende-se que a OpenAI, a Anthropic e outras empresas nesse campo tenham mudado a forma como otimizam a computação desde a publicação do artigo, aproximando-se desse tipo de abordagem, embora o Chinchilla não seja isento de críticas.

À medida que essas empresas buscam construir a próxima geração de modelos e esperam mostrar melhorias drásticas em um campo competitivo, elas serão obrigadas a lançar clusters de data centers cada vez maiores para enfrentar o desafio. Estimativas do setor colocam os custos de treinamento do GPT-4 em até 100 vezes mais do que o GPT-3.5.

A OpenAI não respondeu aos pedidos de comentários. A Anthropic se recusou a comentar, mas sugeriu que falássemos com a Epoch AI Research, que estuda o avanço desses modelos, sobre o futuro do dimensionamento computacional.

"O modelo mais caro em que podemos calcular razoavelmente o custo de treinamento é o Minerva da Google (540 bilhões de parâmetros)", disse Jaime Sevilla, diretor da Epoch. "Estimamos que tenha custado cerca de US$ 3 milhões para treinar em seus data centers internos. Mas você precisa treiná-lo várias vezes para encontrar um modelo promissor, então é mais algo como US$ 10 milhões."

No uso, esse modelo também pode precisar ser retreinado com frequência, para aproveitar os dados coletados desse uso ou para manter uma compreensão dos eventos recentes.

"Podemos raciocinar sobre o quão rapidamente as necessidades de computação vêm aumentando até agora e tentar extrapolar isso para pensar o quão caro será daqui a 10 anos", disse Sevilla. "E parece que a tendência geral de aumento de custos aumenta em um fator de 10 a cada dois anos. Para os principais modelos, parece que está diminuindo, então aumenta em um fator de 10 a cada cinco anos."

Tentar prever para onde isso levará é um exercício incerto. "Parece que em 10 anos, se essa tendência atual continuar - o que é uma grande incerteza -, custará algo entre US$ 3 bilhões e US$ 3 trilhões para todos os treinamentos necessários para desenvolver um modelo", explicou Sevilla.

"Isso faz uma grande diferença, pois o primeiro valor é algo que empresas como a Microsoft podem se dar ao luxo de fazer. E então elas não poderão ir além, a menos que gerem receitas para justificar investimentos maiores."

Desde que falamos com Sevilla, o Techcrunch informou que a Anthropic agora planeja desenvolver um único modelo ao custo de US$ 1 bilhão.

O que inferir da inferência

Esses modelos, grandes e pequenos, terão que ser realmente utilizados. Esse é o processo de inferência - que requer significativamente menos recursos computacionais do que o treinamento em uma base de uso por uso, mas consumirá muito mais recursos computacionais no geral, já que várias instâncias de uma IA treinada serão implantadas para realizar a mesma tarefa em muitos lugares.

O chatbot de IA do Bing da Microsoft (baseado no GPT-4), por exemplo, só precisou ser treinado algumas vezes (e é retreinado em uma cadência desconhecida), mas é usado por milhões de pessoas diariamente.

"O Chinchilla e o Kaplan são realmente ótimos artigos, mas estão focados em como otimizar o treinamento", explicou Finbarr Timbers, ex-pesquisador da DeepMind. "Eles não levam em consideração os custos da inferência, mas isso vai simplesmente ser muito maior do que o valor gasto no treinamento desses modelos."

Timbers, que ingressou na empresa de imagens de IA generativa Midjourney (que foi usada para ilustrar este artigo) após nossa entrevista, acrescentou: "Como engenheiro que tenta otimizar os custos de inferência, tornar o modelo maior é pior em todos os aspectos, exceto o desempenho. É esse mal necessário que você faz."

"Se você olhar o artigo do GPT-4, pode tornar o modelo mais profundo para melhorá-lo. Mas a questão é que isso o torna muito mais lento, consome muita mais memória e simplesmente o torna mais difícil de lidar em todos os aspectos. Mas é a única coisa que você pode fazer para melhorar o modelo."

Será difícil acompanhar como a inferência se escala, porque o setor está se tornando menos transparente, à medida que os principais players são absorvidos pelas gigantes de tecnologia. A OpenAI começou como uma empresa sem fins lucrativos e agora é uma empresa com fins lucrativos vinculada à Microsoft, que investiu bilhões na empresa. Outro player líder, a DeepMind, foi adquirida pelo Google em 2014.

Publicamente, não existem leis de dimensionamento semelhantes às do Chinchilla para inferência que mostrem designs de modelos ótimos ou prevejam como ela se desenvolverá.

A inferência não era uma prioridade das abordagens anteriores, pois os modelos eram principalmente desenvolvidos como ferramentas protótipo para pesquisa interna. Agora, eles estão começando a ser usados por milhões de pessoas, e isso está se tornando uma preocupação primordial.

"À medida que levamos em consideração os custos da inferência, surgirão novas leis de dimensionamento que dirão que você deve alocar muito menos para o tamanho do modelo, porque isso aumentará os custos da inferência", acredita Bommasani. "A parte difícil é que você não controla totalmente a inferência, porque não sabe quanto demanda terá."

Também nem todo dimensionamento ocorrerá de forma uniforme.

Os modelos de linguagem grandes, como o próprio nome sugere, são bastante grandes. "Em texto, temos modelos com 500 bilhões de parâmetros ou mais", disse Bommasani. Mas isso não precisa ser o caso para todos os tipos de IA generativa, explicou ele.

"Na visão, acabamos de receber um artigo recente do Google com modelos com 20 bilhões de parâmetros. Coisas como a Difusão Estável estão na faixa de bilhões de parâmetros, portanto, é quase 100 vezes menor do que os modelos de linguagem grandes. Tenho certeza de que continuaremos dimensionando as coisas, mas é mais uma questão de onde escalaremos e como faremos isso."

Isso pode levar a uma diversificação na forma como os modelos são criados. "No momento, há muita homogeneidade porque é um estágio inicial", disse ele, com a maioria das empresas e pesquisadores simplesmente seguindo e copiando o líder, mas ele tem esperança de que, à medida que atingirmos os limites de computação, novas abordagens e truques serão encontrados.

"No momento, as estratégias são bastante rudimentares, no sentido de que é apenas 'usar mais computação' e não há nada intelectualmente complicado nisso", disse ele. "Você tem uma receita que funciona e, mais ou menos, apenas executa a mesma receita com mais computação, e então ela melhora de forma bastante previsível."

À medida que a economia acompanha os modelos, eles podem acabar mudando para focar nas necessidades de seus casos de uso. Os motores de busca são projetados para uso intenso e frequente, portanto, os custos de inferência dominarão e se tornarão o fator principal para o desenvolvimento de um modelo.

Mantendo isso esparso

Como parte do esforço para reduzir os custos de inferência, também é importante mencionar a esparsidade - o esforço de remover o máximo possível de parâmetros desnecessários de um modelo sem afetar sua precisão. Fora dos modelos de linguagem grandes, os pesquisadores conseguiram remover até 95% dos pesos em uma rede neural sem impactar significativamente a precisão.

No entanto, a pesquisa em esparsidade ainda está em estágios iniciais, e o que funciona em um modelo nem sempre funciona em outro. Igualmente importante é a poda, onde o consumo de memória de um modelo pode ser reduzido drasticamente, novamente com um impacto marginal na precisão.

Em seguida, há a mistura de especialistas (MoE), onde o modelo não reutiliza os mesmos parâmetros para todas as entradas, como é típico no aprendizado profundo. Em vez disso, os modelos MoE selecionam parâmetros diferentes para cada exemplo recebido, escolhendo os melhores parâmetros para a tarefa com um custo computacional constante, incorporando pequenas redes especializadas dentro da rede mais ampla.

"No entanto, apesar de vários sucessos notáveis do MoE, a adoção generalizada tem sido prejudicada pela complexidade, custos de comunicação e instabilidade no treinamento", observaram pesquisadores do Google em um artigo de 2022, onde eles delinearam uma nova abordagem que resolveu alguns desses problemas. No entanto, a empresa ainda não o implantou em seus principais modelos, e o tamanho e o número ideais de especialistas a serem incorporados em um modelo ainda estão sendo estudados.

Rumores circulam de que o GPT-4 usa MoEs, mas ninguém fora da empresa realmente sabe ao certo. Alguns dos modelos tecnicamente maiores da China se aproveitam disso, mas não são muito performáticos.

Dylan Patel, analista-chefe da SemiAnalysis, acredita que 2023 será o "ano do MoE", à medida que as abordagens atuais sobrecarregam a capacidade da infraestrutura computacional atual. No entanto, ele terá seu próprio impacto, disse ele ao DCD: "Os MoEs realmente levam a um crescimento maior de memória em comparação com o crescimento de computação", já que as contagens de parâmetros precisam aumentar para os especialistas adicionais.

Mas, segundo ele, não importa qual abordagem essas empresas adotem para melhorar a eficiência do treinamento e da inferência, "seria tolice dizer 'ei, com todas essas eficiências, estamos satisfeitos com a escala atual'".

Em vez disso, "as grandes empresas continuarão a escalar, escalar e escalar. Se você obtém uma melhoria de 10 vezes na eficiência, dada a importância disso, por que não aumentar sua computação em 20 vezes?"

Onde isso termina?

À medida que a escala gera mais escala, é difícil ver um limite para o tamanho dos LLMs e modelos multimodais, que podem lidar com várias formas de dados, como texto, som e imagens.

Em algum momento, ficaremos sem dados novos para fornecer a eles, o que pode nos levar a alimentá-los com sua própria produção. Também podemos ficar sem capacidade computacional. Ou podemos atingir limitações fundamentais nas leis de dimensionamento que ainda não concebemos.

Para a humanidade, a questão de onde termina o dimensionamento pode ser crucial para o futuro de nossa espécie.

"Se as leis de dimensionamento continuarem indefinidamente, haverá um ponto em que esses modelos se tornarão mais capazes do que os seres humanos em praticamente todas as tarefas cognitivas", disse Shivanshu Purohit, chefe de engenharia da EleutherAI e pesquisador de engenharia na Stability AI.

"Então você tem uma entidade que pode pensar um trilhão de vezes mais rápido que você e é mais inteligente que você. Se ela pode planejar melhor do que você e não tem os mesmos objetivos que você..."

Isso está longe de ser garantido. "As expectativas das pessoas aumentaram tão rapidamente que pode haver um ponto em que esses modelos não consigam atender a essas expectativas", disse Purohit.

Purohit é um pesquisador de "alinhamento", estudando como direcionar os sistemas de IA para os objetivos e interesses pretendidos por seus criadores, então ele diz que um limite para o dimensionamento "seria um bom resultado para mim. Mas o cético em mim diz que talvez eles possam continuar entregando, o que é uma má notícia."

Quentin Anthony, colega da EleutherAI, está menos preocupado imediatamente. Ele diz que o crescimento geralmente tem limites, fazendo uma analogia com o desenvolvimento humano: "Se meu filho continuar crescendo nesse ritmo, ele estará na NBA em cinco anos!"

Ele disse: "Definitivamente estamos nessa fase de criança com esses modelos. Não acho que devemos começar a planejar a NBA. Claro, devemos pensar 'pode acontecer em algum momento', mas veremos quando o crescimento parar."

Purohit discorda. "Acho que estou no extremo oposto disso. Existe um ditado que diz que o cara que dorme com um facão está errado todas as noites, exceto uma."