Pesquisadores da Universidade de Michigan relataram que podem reduzir o consumo de energia do treinamento de IA em até 75%.

Os modelos de aprendizado profundo e MLL podem ser treinados de maneira mais eficiente sem a necessidade de alterações de hardware, o que reduz o consumo de energia, de acordo com o grupo ML.Energy de Michigan, que apresentou o framework de otimização de energia Zeus no Simpósio USENIX 2023 sobre Design e Sistemas de Rede.

As aplicações de inteligência artificial, como GPT-3 e GPT-4 da OpenAI, estão cada vez mais exigindo infraestrutura de data centers, enquanto seu consumo de energia é amplamente ignorado e não divulgado. O grupo ML.Energy acredita que o uso de energia da IA deve ser exposto e discutido de forma mais aberta para incentivar a otimização.

"Em escalas extremas, treinar o modelo GPT-3 apenas uma vez consome 1287 MWh, o suficiente para abastecer uma residência americana média por 120 anos", disse Mosharaf Chowdhury, professor associado de Engenharia Elétrica e de Computação.

Os modelos de aprendizado profundo já são amplamente utilizados para a geração de imagens, assim como para chatbots expressivos e sistemas de recomendação para serviços como Netflix, Tik Tok e Amazon. Uma recente análise da DCD sobre a evolução do hardware de IA revelou que as demandas de energia estão aumentando rapidamente.

"O trabalho existente se concentra principalmente em otimizar o treinamento de aprendizado profundo para uma conclusão mais rápida, muitas vezes sem considerar o impacto na eficiência energética", disse Jae-Won Chung, estudante de doutorado em informática e engenharia e coautor do estudo. "Descobrimos que a energia que investimos nas GPUs está tendo retornos decrescentes, o que nos permite reduzir significativamente o consumo de energia, com uma desaceleração relativamente pequena".

As técnicas de aprendizado profundo usam redes neurais artificiais multicamadas, também conhecidas como redes neurais profundas (DNN). Esses são modelos complexos, que são alimentados com conjuntos de dados massivos. Cerca de 70% da energia no treinamento de IA é gasta dentro das unidades de processamento gráfico (GPU).

Zeus dá aos pesquisadores de IA duas "alavancas" de software. Uma define um limite de potência da GPU, reduzindo o uso de energia da GPU e desacelerando o treinamento até que a configuração seja ajustada novamente. A outra alavanca controla o parâmetro do tamanho do lote, a quantidade de dados que o modelo assimila antes de se reconstruir. Os pesquisadores de IA frequentemente usam lotes grandes para reduzir o tempo de treinamento, mas isso aumenta o consumo de energia.

Devido ao fato de que o Zeus pode ajustar cada uma dessas configurações em tempo real, os pesquisadores podem encontrar o melhor ponto de equilíbrio, onde o uso de energia é minimizado com o menor impacto possível no tempo de treinamento. O software se conecta diretamente aos fluxos de trabalho existentes e foi criado para várias tarefas de aprendizado de máquina e GPU.

Nos testes, a equipe do ML.Energy testou todas as combinações possíveis dos dois parâmetros para encontrar a melhor combinação. Na prática, esse nível de minúcia não será necessário.

"Felizmente, as empresas treinam o mesmo DNN uma e outra vez com dados mais recentes, a cada hora. Podemos aprender sobre como o DNN se comporta observando essas recorrências", disse Jie You, um recém-graduado em doutorado em informática e engenharia e principal coautor do estudo.

A equipe também criou o Chase, uma camada superior de software que ajusta os parâmetros do Zeus de acordo com a energia disponível. Quando o sistema funciona com baixa intensidade de carbono, o Chase faz com que a velocidade seja a prioridade. Quando a intensidade de carbono é maior, ele volta a uma maior eficiência em detrimento da velocidade. O Chase será apresentado em 4 de maio no Workshop da Conferência Internacional sobre Representações de Aprendizagem.

"Nem sempre é possível migrar facilmente trabalhos de treinamento de DNN para outras localizações devido ao grande tamanho dos conjuntos de dados ou regulamentos de dados", disse Zhenning Yang, estudante de mestrado em informática e engenharia. "Adiar trabalhos de treinamento para horários mais ecológicos também pode não ser uma opção, já que os DNNs precisam ser treinados com os dados mais atualizados e implementados rapidamente em produção para alcançar a maior precisão.

"Nosso objetivo é projetar e implementar soluções que não entrem em conflito com essas limitações realistas, ao mesmo tempo em que reduzimos a pegada de carbono do treinamento de DNNs".