Meta ha compartido los detalles del hardware, la red, el almacenamiento, el diseño, el rendimiento y el software que componen sus dos nuevos clusters de escala de centro de datos con 24.000 GPU que la empresa está utilizando para entrenar su modelo de IA de lenguaje grande Llama 3.

Los nuevos clusters de entrenamiento se basan en el SuperCluster de Investigación de IA (RSC) de Meta, que fue presentado en 2022. Desarrollados para apoyar la investigación y desarrollo de IA en áreas como procesamiento de lenguaje natural, reconocimiento de voz y generación de imágenes, los clusters recientemente anunciados contienen ambos 24.576 Nvidia Tensor Core H100 GPU. Este es un aumento significativo respecto a los clusters originales, que contenían 16.000 Nvidia A100 GPU.

Meta dijo que este aumento permite que los clusters soporten modelos más grandes y complejos que el RSC, allanando el camino para avances en el desarrollo de productos de IA generativa.

Para fines de 2024, la compañía tiene como objetivo expandir su infraestructura para incluir 350.000 Nvidia H100 como parte de un portafolio que contará con una potencia de cómputo equivalente a casi 600.000 H100s.

Ambas soluciones interconectan puntos finales de 400 Gbps, pero Meta ha construido uno con una solución de tejido de red de acceso directo a memoria remota (RDMA) sobre Ethernet convergido (RoCE) basada en Arista 7800 con interruptores de bastidor OCP Wedge400 y Minipack2. El otro cluster presenta un tejido InfiniBand Nvidia Quantum2.

Meta dijo que también está continuando evolucionando su marco de trabajo de IA PyTorch para hacerlo listo para cientos de miles de entrenamientos de GPU.

En una publicación de blog coescrita por Kevin Lee, gerente de programa técnico; Adi Gangidi, ingeniero de red de producción; y Mathew Oldham, director, ingeniería de producción, la compañía dijo que mantiene su compromiso con la innovación abierta en software y hardware de IA y ha lanzado la Alianza de IA en un esfuerzo por construir un ecosistema abierto que aporte "transparencia, escrutinio y confianza al desarrollo de IA y conduzca a innovaciones de las que todos puedan beneficiarse, construidas con seguridad y responsabilidad como prioridad principal".