Como a Microsoft ganha

O recente drama da OpenAI deixou algo muito claro: a Microsoft está no controle.

Na startup de IA mais promissora do mundo, os funcionários sabem que têm um emprego e recursos na Microsoft, se quiserem. Mesmo que permaneçam, eles trabalharão em hardware de nuvem da Microsoft, desenvolvendo produtos para o software de nuvem da Microsoft, que contribuem para os resultados da Microsoft, tudo para uma empresa de propriedade parcial da Microsoft.

O golpe e a revolta na OpenAI mostraram que a grande maioria da equipe da empresa prefere esse arranjo a um de independência sem fins lucrativos, marcando mais uma vitória para a empresa de Redmond.

Mas a OpenAI é apenas uma pequena parte da história da Microsoft, e como ela se reinventou como a empresa mais empolgante no espaço de nuvem e Data Center.

Na semana passada, a empresa revelou que está operando o terceiro supercomputador mais poderoso do mundo (com exceção de alguns sistemas chineses secretos). O sistema Eagle entrou no ranking Top500 como o supercomputador mais rápido já operado por uma corporação privada.

O sistema de 561 petaflops, projetado para treinar modelos de linguagem grandes para IA generativa, é construído a partir de máquinas virtuais ND H100 v5 disponíveis publicamente em um único ramo da grande árvore NDR InfiniBand de 400G.

“O Eagle é provavelmente a maior instalação de H100 e NDR InfiniBand no planeta”, escreveu o pesquisador de supercomputação da Microsoft e ex-funcionário da NERSC Glenn K. Lockwood em um blog pessoal.

“Isso não apenas sinaliza que é financeiramente viável defender um supercomputador líder em pesquisa e desenvolvimento gerador de lucro, mas a indústria agora está disposta a assumir o alto risco de implantar sistemas usando tecnologia não testada se puder dar a eles uma vantagem pioneira”.

A Microsoft fez uma série de contratações de computação de alto desempenho nos últimos anos – além de Lockwood, trouxe o CTO da Cray, Steve Scott, e o chefe dos esforços de superescala da Cray, Dr. Dan Ernst, entre outros. Dos 50 principais supercomputadores, seis são operados pela Microsoft.

“A supercomputação é a próxima onda de hiperescala, em algum aspecto, e você tem que repensar completamente seus processos, seja como você adquire capacidade, como você vai validá-la, como você a dimensiona e como você vai repará-la”, disse Nidhi Chappell, GM da Microsoft para IA do Azure, à DCD no início deste ano.

A empresa fez essa aposta antes da atual onda de IA generativa, dando-lhe uma vantagem fundamental. “Você não constrói a infraestrutura do ChatGPT do zero”, continuou Chappell.

“Temos um histórico de construção de supercomputadores que nos permitiu construir a próxima geração. E houve muitos aprendizados sobre a infraestrutura que usamos para o ChatGPT, sobre como você passa de um hiperescala para um hiperescala de supercomputação”.

A Microsoft continuará a construir enormes supercomputadores baseados em GPU da Nvidia e, no próximo ano, planeja implantar a GPU MI300X da AMD em escala.

“Mesmo olhando apenas para o roteiro em que estou trabalhando agora, é incrível, a escala é sem precedentes”, disse Chappell. “E é muito necessário”.

Apenas um dia depois de a empresa estrear o Eagle, ela também revelou os frutos de outro projeto de longa gestação: o Azure Maia 100. O primeiro de uma nova família de chips de IA internos, o acelerador possui benchmarks impressionantes e pode ajudar a fornecer pelo menos alguma concorrência para a Nvidia.

“Os FLOPS deste chip esmagam completamente o TPUv5 (Viperfish) do Google, bem como os chips Trainium/Inferentia2 da Amazon. Surpreendentemente, nem está tão longe do H100 da Nvidia e do MI300X da AMD nesse departamento”, escreveram Dylan Patel e Myron Xie, da SemiAnalysis. No entanto, “a especificação mais relevante aqui é a largura de banda de memória em 1,6 TB/s. Isso ainda esmaga o Trainium/Inferentia2, mas é menos largura de banda de memória do que até mesmo o TPUv5, quanto mais o H100 e o MI300X”.

Por ser um produto de primeira geração, ele tem um desempenho muito melhor do que muitos esperavam.

Mas o chip é apenas parte do pacote. Em seu anúncio, a Microsoft fez questão de destacar que sua verdadeira vantagem está na amplitude de suas operações.

“A Microsoft está construindo a infraestrutura para apoiar a inovação em IA e estamos reimaginando todos os aspectos de nossos Data Centers para atender às necessidades de nossos clientes”, disse Scott Guthrie, vice-presidente executivo do Grupo de Nuvem e IA da Microsoft.

“Na escala em que operamos, é importante otimizarmos e integrarmos todas as camadas da infraestrutura para maximizar o desempenho, diversificar nossa cadeia de suprimentos e oferecer aos clientes opções de infraestrutura”.

O chip só estará disponível em um rack personalizado refrigerado a líquido, com a Microsoft mostrando disposição para contrariar as convenções e desenvolver racks extraordinariamente largos.

E está fazendo tudo isso em escala de produção.

Apenas nas últimas quatro semanas, a Microsoft adquiriu 580 acres nas proximidades de Columbus, Ohio, juntamente com mais 1.030 acres em seu campus Mount Pleasant em Wisconsin. Também entrou com um pedido de um novo campus de Data Center em Des Moines, Iowa, disse que gastará 500 milhões de dólares (2,5 bilhões de reais) em expansão no leste do Canadá, 1 bilhão de dólares (5 bilhões de reais) na Geórgia e 5 bilhões de dólares australianos (16 bilhões de reais) na Austrália.

Também lançou silenciosamente sua região de nuvem israelense, com mais de 60 dessas regiões em todo o mundo.

A Microsoft está planejando gastar cerca de 50 bilhões de dólares (246 bilhões de reais) por ano em Data Centers (incluindo o hardware dentro deles), uma construção sem precedentes que terá um impacto de longo alcance no setor.

No curto prazo, ela mostrou não ter problemas em depender de outros fornecedores à medida que sua construção (e as redes de suprimentos da Nvidia) se recuperam – assinando acordos com a CoreWeave e a Oracle para usar sua computação.

Ao mesmo tempo, a Microsoft está olhando para além, reforçando sua equipe de pesquisa de Data Center agressivamente. A DCD foi a primeira a relatar seus esforços para construir robôs de Data Center e seus planos de desenvolver uma estratégia global de pequenos reatores modulares e microrreatores para alimentar Data Centers em meio à crise de rede.

Quando se trata de armazenamento de longo prazo, a Microsoft também parece estar na liderança – seu esforço Project Silica pode armazenar 7 TB em vidro de sílica fundido que dura 10.000 anos. Se puder ser comercializado, reduziria drasticamente o uso de energia do armazenamento refrigerado e reduziria a dependência de metais raros.

“Os discos rígidos estão definhando, tivemos tão pouco aumento de capacidade nos últimos cinco anos; a fita está sofrendo”, disse o Dr. Ant Rowstron à DCD em 2022. “Há cada vez mais dados sendo produzidos, e tentar armazená-los de forma sustentável é um desafio para a humanidade”.

Em outro movimento de longo prazo, a empresa também saltou à frente do mercado de captura de carbono. A medida é controversa – a captura de carbono não é um substituto para reduzir as emissões, é difícil de rastrear e pode usar energia renovável que, de outra forma, substituiria os combustíveis fósseis – mas foi totalmente adotada pela Microsoft.

Para citar apenas alguns: a Microsoft pagou à ClimeWorks para remover 11.400 toneladas métricas de carbono, à Running Tide para remover 12.000 toneladas, à Carbon Streaming para remover 10.000 toneladas anualmente e à Heirloom para remover cerca de 300.000 toneladas. Também patenteou a ideia de executar a captura de carbono em locais de Data Center.

Vale reiterar que se trata de uma gota no oceano em comparação com as emissões da empresa, ou a quantidade necessária para colocar o planeta de volta nos trilhos. Outros esforços da Microsoft, como a compra de florestas, também saíram pela culatra depois que elas queimaram durante incêndios florestais exacerbados pelas mudanças climáticas.

Mas a empresa ainda está muito à frente de seus concorrentes em financiamento e experimentação com esforços de captura, e espera melhorar os padrões de contabilidade de carbono com seus esforços com a Carbon Call e seu investimento na FlexiDAO (ao lado do Google).

A Microsoft terá que provar que sua mais recente expansão de IA não interromperá seus planos de energia sustentável, e não está claro se haverá PPAs 24x7 suficientes para igualar essa expansão de 50 bilhões de dólares por ano (assim como o resto da indústria e outros setores). O uso de água do Data Center da empresa aumentou 34% em meio ao boom da IA.

No entanto, o que está claro é que a Microsoft abordará o problema com recursos e uma velocidade que é rara para uma empresa de sua escala. Acabou o gigante dependente do Windows que dorme feliz sobre os louros.

“Apesar do potencial dos últimos dias para nos distrair, tanto os cientistas e engenheiros da Microsoft quanto da OpenAl têm trabalhado com urgência inabalável”, disse o CTO e vice-presidente executivo de IA da Microsoft, Kevin Scott, em um memorando interno publicado pelo The Verge.

“Desde sexta-feira, o Azure implantou uma nova computação Al, nossa recém-formada organização MSR Al Frontiers publicou sua nova pesquisa de ponta Orca 2, e a OpenAl continuou a enviar produtos como os novos recursos de voz no ChatGPT que foram lançados ontem. Qualquer uma dessas coisas por si só já seria uma enorme realização para equipes normais”.

“Três dessas conquistas em uma semana, com um grande feriado nos EUA e com uma enorme quantidade de barulho ao nosso redor, diz muito sobre o compromisso, foco e senso de urgência que todos têm”.

Enquanto os outros hiperescalas também estão gastando prodigiosamente e têm equipes de pesquisadores brilhantes, é difícil ver esse mesmo nível de urgência em toda a empresa.

Enquanto a indústria surfa na onda da IA generativa, a Microsoft saiu na frente – e não mostra sinais de desaceleração.

Como a Microsoft ganha

Mais sobre Canal Cloud & Hybrid IT

IBM e American Tower se unem em solução de nuvem para Edge

80% dos órgãos públicos esperam aumentar seus investimentos em tecnologias de IA no próximo ano

Episode O enfoque híbrido: operar em um ambiente multicloud. Episódio 3

Tags