El propietario de Facebook, Meta, ha compartido un diseño de plataforma de IA en la cumbre Open Compute Platform (OCP), donde los jugadores de hiperescala ofrecen diseños de hardware de código abierto que ahorran costos para que todos los usen.

Meta mostró la plataforma Grand Teton AI, junto con una nueva implementación del estándar Open Rack v3 de OCP y un nuevo sistema de almacenamiento HDD.

La OCP también aprovechó su cumbre para anunciar que apoya la sostenibilidad.

"A medida que los modelos de IA se vuelvan cada vez más sofisticados, también lo harán sus cargas de trabajo asociadas", dijo el vicepresidente de ingeniería de Meta, Alexis Bjorlin, en un anuncio de publicación de blog. La plataforma de hardware de IA basada en GPU Grand Teton tiene cuatro veces el ancho de banda de su predecesor Zion y viene en un solo chasis integrado, mientras que Zion estaba empaquetado en múltiples subsistemas.

"La plataforma Zion de la generación anterior consta de tres cajas: un nodo principal de CPU, un sistema de sincronización de interruptores y un sistema de GPU, y requiere cableado externo para conectar todo", dice Bjorlin. "Grand Teton integra esto en un solo chasis con interfaces de alimentación, control, computación y estructura totalmente integradas para un mejor rendimiento general, integridad de la señal y rendimiento térmico".

Open Rack V3: ¿vale la pena la espera?

Open Rack V3 se anunció en 2019 , lo que permite barras colectoras de CC y refrigeración líquida, y los últimos racks de Meta implementan y mejoran esto. El estante de alimentación se puede instalar en cualquier lugar del rack, con varios estantes en una sola barra colectora, por lo que las densidades de potencia pueden llegar a 30 kW por rack. La distribución de energía de 48 V permitida en ORV3 admitirá hardware de inteligencia artificial que consume mucha energía, como Grand Teton.

Facebook actualizó la unidad de respaldo de batería, de modo que cada estante puede continuar funcionando durante cuatro minutos si se interrumpe la energía, en comparación con el límite anterior de 90 segundos. La unidad se puede instalar de manera flexible y admite 15kW; se pueden instalar dos para esos racks de 30kW.

Los observadores de racks pueden sentir que ha pasado mucho tiempo entre el anuncio y la entrega de algunas de estas características, pero Bjorlin dice que esto es inherente al proceso OCP de código abierto liderado por la comunidad, y valdrá la pena esperar.

"Meta optó por desarrollar casi todos los componentes del diseño ORV3 a través de OCP desde el principio", explica. "Si bien un diseño dirigido por ecosistemas puede resultar en un proceso de diseño más largo que el de un diseño interno tradicional, el producto final es una solución de infraestructura holística que se puede implementar a escala con mayor flexibilidad, interoperabilidad total de proveedores y un proveedor diverso. ecosistema."

Con el aumento de los niveles de potencia, ORV3 permite múltiples opciones de refrigeración líquida, incluida la refrigeración líquida asistida por aire (AALC) y la refrigeración por agua de la instalación, donde los bastidores se conectan a un sistema de circulación.

ORV3 ahora incluye una opción para un conector de "acoplamiento ciego" rápido y sin goteo, que surgió del grupo de interfaces ORV3 Blind Mate que Meta estableció en 2020. Esto permite que el equipo de TI se conecte al colector de líquido sin goteos, para servicio más fácil. la especificación estándar de OCP cubre los requisitos de conectores, colectores y mangueras y tuberías.

Bjorlin insinúa que la refrigeración líquida tendrá que generalizarse más en Meta: "Puede que se pregunte, ¿por qué Meta está tan centrada en todas estas áreas? La tendencia de aumento de potencia que estamos viendo y la necesidad de avances en la refrigeración líquida nos obligan a pensar de manera diferente sobre todos los elementos de nuestra plataforma, rack y energía, y diseño del centro de datos".