Existe cierto debate sobre lo que se puede contar como la primera supercomputadora, pero es posible que pronto veamos la última.

Las supercomputadoras son instalaciones únicas que brindan un poder de cómputo excepcional. Sobre esa base, las primeras computadoras programables del mundo en la década de 1940 podrían describirse como supercomputadoras: no solo eran excepcionales, eran únicas.

Según los estándares actuales, el rendimiento de la ENIAC de 1945 fue menos que "super". Los 40 gabinetes de 2,7 metros de la máquina de 450 metros cuadrados, ubicados en la Universidad de Pensilvania, contenían más de 18.000 tubos de vacío y 1.500 relés, así como cientos de miles de resistencias, capacitores e inductores.

Era capaz de realizar 5.000 cálculos por segundo, y su entonces considerable consumo de energía de 160 kW incluso provocó apagones en Filadelfia.

Luego está el CDC 6600 de Control Data, visto por muchos como la primera supercomputadora. Tenía otros sistemas contra los que competir cuando se lanzó en 1964 y triplicaba el rendimiento del poseedor del récord anterior, el IBM 3070.

En las décadas que siguieron, la potencia aumentó en órdenes de magnitud desde los ahora insignificantes tres megaflops de la máquina CDC.

Durante sus primeras décadas, el campo estuvo dirigido por Seymour Cray, quien dejó Control Data después de construir el CDC 6600 para formar Cray Research, que ahora es la división de supercomputadoras de HPE.

Las supercomputadoras han consumido enormes sumas de dinero y años de investigación y, a pesar de los esfuerzos por maximizar la eficiencia energética, las demandas de energía de la computación de alto rendimiento (HPC) han seguido creciendo.

Este año, la industria de HPC alcanzó oficialmente un hito importante: Frontier rompió la barrera de la exaescala, lo que significa un sistema que es capaz de al menos mil millones (1018) de operaciones por segundo, un objetivo que se cree que China ha alcanzado en secreto.

Ese rendimiento es 300.000 billones de veces (3x108) el del CDC 6600.

El sistema Frontier, en Oak Ridge Leadership Computing Facility en Tennessee, costó 600 millones de dólates y usa 30MW de energía, más que muchos centros de datos.

Si bien representa el pináculo de los logros informáticos, no está claro si representa el futuro.

Último de su tipo

"La HPC de liderazgo parece estar involucrada en una política arriesgada insostenible, mientras que la HPC de gama media está teniendo su valor completamente socavado por los proveedores de la nube", dijo Glenn K. Lockwood, arquitecto de almacenamiento en el Centro Nacional de Computación Científica de Investigación de Energía (NERSC, por sus siglas en inglés), en una publicación de blog que anuncia su resignación.

"Con la trayectoria actual, el costo de construir un nuevo centro de datos y una amplia infraestructura de energía y enfriamiento para cada nueva supercomputadora de liderazgo se volverá prohibitivo muy pronto. Supongo que todos los centros de datos de 50-60MW que se están construyendo para las supercomputadoras de exaescala será el último de su tipo, y que no habrá apetito público para seguir duplicando".

Se fue para unirse a Microsoft.

Ese destino, y el momento de su partida, bien pueden ser significativos para el sector de HPC.

Si bien las supercomputadoras se han vuelto más grandes, más rápidas y más potentes, también tienen mucha más demanda.

Ya no se limita a los gobiernos, las universidades de investigación y las corporaciones más adineradas, la computación de alto rendimiento (HPC) se está convirtiendo en una herramienta poderosa para las empresas comerciales y para cualquier otra persona que pueda pagarla.

Pero si bien todos quieren HPC, no todos pueden pagar las prohibitivas facturas de energía, construcción y hardware de TI de las supercomputadoras dedicadas. Están recurriendo a HPC en la nube.

Surge HPC en la nube

En muchos sentidos, HPC nunca ha sido tan grande como lo es hoy. Pero eso es solo si amplía el alcance más allá de las instalaciones independientes que han venido de los CDC a Frontier.

El hecho es que ya no necesita una instalación de HPC dedicada para ejecutar este tipo de aplicaciones, ya que los proveedores de la nube ahora ofrecen servicios de HPC que los usuarios pueden alquilar, lo que permite clústeres de HPC temporales que se activan cuando es necesario.

Esos proveedores, como veremos, incluyen el nuevo empleador de Glenn Lockwood, Microsoft, así como los otros gigantes de la nube Amazon Web Services (AWS) y Google.

El año pasado, YellowDog creó una enorme supercomputadora distribuida en AWS, reuniendo 3,2 millones de vCPU (CPU virtuales) durante siete horas para analizar y evaluar 337 compuestos médicos potenciales para OMass Therapeutics.

Fue un momento significativo, porque el esfuerzo le valió a la máquina temporal el puesto 136 en el Top500, una lista de las supercomputadoras más rápidas del mundo. Logró un rendimiento de 1,93 petaflops (1,93x1015 pFlops), que es aproximadamente 1/500 de los exaflops obtenidos con tanto esfuerzo de la máquina Frontier.

En lugar de enviar una carga de trabajo a un centro de supercomputación, para que aparezca en una lista de espera para su turno, Yellow Dog y OMass optaron por la HPC en la nube, donde la capacidad parece estar lista y esperando según demanda, siempre que se pueda pagar.

Las cargas de trabajo más grandes y tradicionales también se están moviendo hacia las supercomputadoras en la nube. Uno de los más significativos es el Met Office del Reino Unido, que este año adjudicó un contrato de mil millones de dólares para una supercomputadora de 60 petaflops para análisis meteorológico.

Este desempeño podría ubicarlo entre los diez primeros de la lista Top500 y, sin embargo, el plan de Met Office hace uso de la nube. El contrato se ha ido a Microsoft Azure, que se asoció con HPE Cray.

Pero no es una máquina ad hoc como el esfuerzo de Yellow Dog. Esto está en algún lugar entre una supercomputadora dedicada y una oferta en la nube.

¿Proveedores de HPC en la nube lo mejor de ambos mundos?

Los trabajos de HPC de Met Office se ejecutarán en las instalaciones de la nube de Microsoft Azure, a las que nadie más puede acceder, y se combinan con amplios sistemas locales de HPE Cray.

“Microsoft está alojando las múltiples supercomputadoras que subyacen a este servicio en salas dedicadas dentro de los centros de datos de Microsoft que han sido diseñadas y optimizadas para estas supercomputadoras, en lugar de un alojamiento genérico en la nube”, dijo Microsoft a DCD en un comunicado.

“Esto incluye configuraciones de energía, enfriamiento y redes ajustadas a las necesidades del programa, incluida la eficiencia energética y la resiliencia operativa. Por lo tanto, las supercomputadoras están alojadas dentro de una instalación de supercomputación de Microsoft 'dedicada' para este proyecto.

“Sin embargo, esa instalación de supercomputación se encuentra dentro de un centro de datos en la nube general. Esto trae lo mejor de ambos mundos: la naturaleza de costo optimizado de un centro de datos de supercomputación especialmente diseñado junto con las oportunidades ágiles que ofrece la integración con las capacidades de la nube de Microsoft Azure”.

Microsoft hace un lanzamiento fuerte, y uno que ha convencido a muchos en la industria, como lo dejan claro los movimientos de personal significativo.

Cuando HPE adquirió la histórica empresa de supercomputación Cray por 1300 millones de dólares en 2019, una cantidad notable de empleados senior se fueron para unirse a Microsoft, incluido el CTO Steve Scott y el pionero de la exaescala, el Dr. Daniel Ernst. Otros también han dejado la compañía por nuevos pastos, incluido el director ejecutivo Pete Ungaro y el ingeniero de software sénior David Greene.

Una gran fuerza impulsora para Met Office fue la integración potencial de Microsoft con la computación en la nube. La supercomputadora Met Office es, en esencia, una supercomputadora local alojada en un centro de datos de Microsoft. Tiene sus propias capacidades de almacenamiento, mientras que también está a punto de aprovechar las que ofrece la nube.

Sin embargo, esta es una decisión que nació de la necesidad y que veremos tomar cada vez más, según Spencer Lamb, director de operaciones de Kao Data, un proveedor de hiperescala que aloja infraestructura HPC desde un campus en Harlow , al norte de Londres.

“Es cómo avanzarán las cosas y cómo sucederán las cosas porque, en última instancia, Met Office y otras organizaciones de su tipo no pueden construir un centro de datos de 20MW en su campus actual.

“Pueden ir y utilizar una instalación de colocación e ir y comprar la infraestructura informática y hacerlo de esa manera. O bien, pueden externalizarlo a alguien como Microsoft”.

Cambridge-1 Nvidia 3.jpg
– Nvidia

El campo de la HPC se ha vuelto tan colaborativo que existen fuertes temores de que la investigación del Reino Unido se quede atrás desde que el país se separó de la Unión Europea, que tiene fuertes iniciativas compartidas de supercomputación.

Sin una asociación con la UE, el Reino Unido al menos necesita organizar sus propias acciones, según la Oficina Gubernamental para la Ciencia, que publicó una revisión de la computación a gran escala, 'La computación a gran escala: el caso de una mayor coordinación en el Reino Unido'.

El informe pedía una única hoja de ruta nacional unificada y una dirección política en torno a sus capacidades de supercomputación con el fin de aumentar las capacidades de investigación y alcanzar la meta de una supercomputadora de exaescala de 20MW para la nación en la década de 2020.

Si bien es un objetivo noble, existen dudas sobre la practicidad de construir estas instalaciones. Como se indica en el informe: “Un solo sistema de exaescala en el rango de 40MW consumiría aproximadamente el 0,1 por ciento del suministro eléctrico actual del Reino Unido, el equivalente al consumo doméstico de 94.000 viviendas.” Incluso con la meta de 20MW, el impacto es significativo.

Esa potencia tiene que venir de alguna parte, y el costo de la energía de los centros de datos corre el riesgo de convertirse en un problema político. Irlanda, Singapur y Ámsterdam impusieron moratorias de facto, seguidas de regulaciones estrictas, y las redes incluso tienen dificultades para satisfacer la demanda en el centro de centros de datos más grande del mundo en el norte de Virginia.

La Autoridad del Gran Londres (GLA, por sus siglas en inglés) emitió una advertencia de que los proyectos de energía del centro de datos en el oeste de Londres han anexado tanta capacidad de energía eléctrica que es posible que los futuros proyectos de construcción de viviendas grandes no puedan obtener conexiones.

Si HPC se puede alojar en centros de datos que ya tienen la capacidad, sin mencionar la tecnología y el equipo de enfriamiento necesarios, el problema de la supercomputación podría volverse mucho más simple.

¿Otra forma de HPC: colocación?

La HPC basada en la nube es una opción, pero existe otra alternativa: la colocación, donde el cliente posee el hardware, pero lo coloca en un espacio compartido.

Hacer girar HPC bajo demanda en la nube puede ser una opción simple, pero sus costos pueden volverse grandes e incontrolables, advierte Kao Data.

En un documento técnico, el proveedor del norte de Londres compara el costo de HPC en la nube con el costo de comprar el hardware usted mismo y alojarlo en una instalación de colocación, y calcula que la nube podría costar 20 veces más.

“Para la instalación de colocación, el costo de una máquina [Nvidia] DGX-1 y su almacenamiento más conmutación es del orden de 238.372 dólares. Si redondea eso hacia arriba y lo deprecia usando un método de línea recta durante dos años, son 10.000 dólares por mes. Luego, agregue 10 kilovatios de energía y alquiler de colocación, lo que significan otros 2.000 dólares por mes más o menos.

“En AWS, una instancia equivalente a DGX-1, p3dn.24xlarge, cuesta 273.470 dólares por año bajo demanda y 160.308 en un contrato de instancia reservada de un año. De forma similar, Microsoft Azure cobra alrededor de un 30% menos por una instancia equivalente, pero AWS es la piedra angular en la nube pública. Agregar los servicios de almacenamiento de AWS para impulsar las cargas de trabajo de IA, y alquilar esta capacidad durante dos años cuesta alrededor de un millón de dólares”.

Entonces, ¿la Met Office se quemó? Probablemente no, ya que el acuerdo de Met Office se adjudicó a Microsoft después de una larga licitación pública (que fue impugnada por Atos en los tribunales). Es un trato a largo plazo, con mejores términos financieros que el alquiler de instancias por hora.

Kao's Lamb espera ofrecer un espacio para aquellos que todavía quieren su propia infraestructura HPC, sin la molestia de construir un almacén y encontrar energía y refrigeración. “Nos propusimos estar en algún lugar donde puedan colocar estos sistemas y confiar en que se cuidarán de la forma en que se necesita”, dijo.

“Entonces pueden entrar y hacer su investigación, en lugar de tratar de construir centros de datos dentro de su propio campus, que en última instancia es algo en lo que no son muy buenos porque no son expertos en ese campo.

“A medida que estos sistemas crecen en tamaño y escala, poder construir un centro de datos para albergar una supercomputadora que consume mucha energía se vuelve cada vez más desafiante. Pueden comprar una supercomputadora en un período de meses, pero probablemente llevará de dos a tres años construir un centro de datos a su alrededor”.

El campus de Harlow de Kao proporciona 8,8 MW de carga de TI en un solo edificio, y habrá cuatro edificios en el campus una vez que esté completamente terminado.

El campo de HPC siempre ha ampliado los límites de la tecnología, por lo que Kao promete opciones más avanzadas que las ofertas de colocación estándar, incluida la refrigeración líquida que se ha convertido en una prioridad en las clasificaciones más altas del Top500.

“Debido a la naturaleza de alta potencia de los sistemas, en lo que estamos trabajando en este momento es llevar un refrigerante de agua al chip. Por lo tanto, hay una combinación de enfriamiento por aire tradicional, además de brindar enfriamiento directo a la tecnología también. Ese enfoque híbrido es algo que vemos como el futuro y es necesario para una organización como la nuestra con las ambiciones que tenemos”.

La compañía obtuvo una victoria temprana con Nvidia, que quería una supercomputadora en el Reino Unido, nominalmente para ayudar con la investigación de atención médica, pero también como parte de su fallido esfuerzo de cabildeo para obtener la aprobación del gobierno que le permitiera adquirir Arm, con sede en Cambridge.

Cambridge-1 era la supercomputadora más rápida del Reino Unido cuando se lanzó en 2019, pero desde entonces ha sido superada por el sistema interno Archer2 de la Universidad de Edimburgo.

Comparación mundial

Sin embargo, vale la pena no leer demasiado sobre el microcosmos que es el Reino Unido, donde unos pocos petaflops se cuentan como un gran problema.

Para obtener una visión más global, Jerry Blair, cofundador y vicepresidente sénior de ventas estratégicas del proveedor de centros de datos de EE. UU. DataBank, así como el vicepresidente sénior de servicios gestionados de la empresa, Jeremy Pease.

"Estamos viendo gabinetes de mayor densidad", dice Blair. Ha tomado mucho tiempo para que el promedio comience a subir por encima de 5-6kW por gabinete, pero durante el último año o dos, los conjuntos de chips han llegado a un punto de precio ahora en el que pueden poner tantos chips en un gabinete que ahora requiere más energía.

“Estamos viendo muchas más solicitudes de más de 10 kW y hasta 20 kW de capacidad para entregar a un gabinete e incluso más que eso. En varios casos en los que estamos trabajando hasta 50kW en un gabinete”.

A medida que las densidades comienzan a alcanzar este nivel, los centros de datos deben diseñarse específicamente para gestionar los requisitos de refrigeración. DataBank ha optado por puertas traseras de gabinetes enfriadas por agua que llevan agua fría directamente a la CDU (unidad de distribución de enfriamiento) en el gabinete.

Pero lo que quizás sea más importante para DataBank ha sido darse cuenta de que muchos más clientes tienen necesidades de HPC que nunca.

“Estamos viendo mucho más uso de GPU en una alta densidad que yo llamaría HPC o supercomputación. Lo estamos viendo en las universidades, y en realidad lo estamos viendo en muchos clientes empresariales estándar”, continúa Blair.

“No están poniendo todo en esa densidad, pero si tienen 100 gabinetes que son gabinetes de 5kW a 10kW, pueden tener cinco gabinetes que son gabinetes de 25kW a 50kW, que están más basados ​​en GPU, para proyectos particulares en los que estoy trabajando.”

Es por esto, así como por los problemas de la cadena de suministro, que DataBank está viendo la necesidad de un enfoque diferente para brindar servicios de HPC a los clientes y está introduciendo un producto completo.

“Estamos en esta dinámica en la que el equipo es difícil de conseguir, y el equipo de red es una de las cosas más difíciles de conseguir y puede tener plazos de entrega de nueve a 12 meses solo para poder obtener el equipo de red que puede ejecutar todo ese equipo”, explica Pease.

“Es por eso que estamos lanzando nuestros productos bare metal, que están destinados a tener capacidades de GPU, donde en realidad tenemos este material almacenado y listo para usar, tenemos el equipo y el equipo de red en su lugar e instalaciones centrales donde podemos administrarlo.

“Con el equipo que tenemos, podemos obtener conjuntos de chips de gama alta, como los conjuntos de chips GPU que pueden llegar tan alto como quieran. Si quieren ir a 50kW por rack, tenemos los conjuntos de chips que pueden permitir eso, tenemos los procesadores, tenemos los núcleos, tenemos la RAM”, dice Pease.

“A menos que estén hablando de algo de gama súper alta con una configuración especial muy especial, deberíamos poder administrar eso dentro de los conjuntos de chips que tenemos en el lado de la GPU”.

Son esos proyectos de 'súper alta gama' los que son el problema. Con la variedad de opciones ahora disponibles, no tiene sentido que muchos recurran a centros de supercomputación dedicados para ejecutar su carga de trabajo de HPC, pero cuando se trata de esos casos de uso específicos, como Met Office, construir estas instalaciones a escala se vuelve un problema real.

Demandas de energía descontroladas de los HPC

Ya sea que se encuentren en instalaciones especialmente diseñadas, en edificios de colocación o en la atmósfera enrarecida de la nube, todos estos petaflops deben ejecutarse en hardware que requiera energía y refrigeración.

Dondequiera que esté ubicado, HPC necesitará una consideración cuidadosa de la energía que utiliza y el costo para el planeta (y el bolsillo de su propietario).

Como lo expresó el anuncio de la Met Office de Microsoft: “También existe una necesidad prudente de minimizar esos costos donde sea práctico, tanto en términos de dinero como, quizás de manera más crítica, en términos de sostenibilidad ambiental.

“Por esta razón, Met Office y Microsoft, quienes tienen compromisos de larga duración con la responsabilidad ambiental, han trabajado para garantizar que este servicio de supercomputación sea lo más sostenible posible desde el punto de vista ambiental”.

Microsoft y Met Office parecen depender de PPA de energía renovable (acuerdos de compra de energía) donde el consumidor de TI paga la generación de energía al por mayor.

Pero, a medida que la demanda de estas supercomputadoras más grandes y poderosas continúa creciendo, hay muchas formas de controlar el uso de energía y abordar la sostenibilidad.

Cuando se le preguntó sobre este problema, Bill Magro, tecnólogo jefe de HPC en Google, le dijo a DCD que la nube era la solución lógica para una HPC más ecológica.

“La demanda de cómputo HPC parece insaciable y el consumo de energía asociado con esa demanda sigue aumentando. Al mismo tiempo, la industria de HPC ha adoptado el paralelismo a través de CPU, GPU y TPU de múltiples núcleos. Este paralelismo permite una eficiencia cada vez mayor, medida en rendimiento/vatio”, dice.

“Una de las mejores maneras de minimizar la huella ambiental de la computación es a través de centros de datos altamente eficientes y altamente utilizados, alimentados por energía limpia”, agregó, haciendo un lanzamiento para los PPA de energía renovable de Google y la igualación de energía.

Cuando se le preguntó si existe un límite superior a lo que podemos potenciar de manera factible, Magro, como todos los que preguntamos, tenía poco que ofrecer.

Aurora
– US Department of Energy

Hasta cierto punto, podemos esperar la “ley de rendimientos acelerados” (término de Ray Kurzweil para la forma en que algunas tecnologías parecen mejorar exponencialmente). Quizás a medida que el poder y las capacidades de las supercomputadoras continúen creciendo, nuestra capacidad para hacerlas más eficientes y producir energía renovable seguirá el ritmo.

Hasta entonces, estas instalaciones estarán limitadas por lo que Magro denominó 'la envolvente de energía disponible'.

¿Adiós a todo el HPC en las instalaciones?

Es demasiado pronto para declarar el final de la supercomputadora independiente, al igual que el centro de datos empresarial ha superado la mayoría de las predicciones. Pero ya no es la opción obvia para las empresas y los investigadores que necesitan acceso a los recursos de HPC: la nube ofrece un acceso fácil, con posibles beneficios de sostenibilidad.

Para otras implementaciones, la colocación y el hardware completo pueden satisfacer la necesidad, siempre que la instalación pueda satisfacer las crecientes demandas de energía y refrigeración.

Eso deja los sistemas de 'liderazgo', como Frontier, que capturan los titulares y están a la vanguardia de lo que es posible en la industria.

"Puede colocar un sistema Cray EX completo, idéntico al que podría encontrar en NERSC u OLCF, dentro de Azure hoy en día y evitar todo ese lío oneroso de construir un centro de datos de 50 MW", dijo Lockwood en su publicación de renuncia.

¿Por qué, preguntó, debería el Departamento de Energía gastar miles de millones en la próxima ola de gigantescas supercomputadoras? Las agencias gubernamentales ya han comenzado a cambiar las cargas de trabajo tradicionales a la nube, reduciendo las carteras de centros de datos en expansión que se consideraban ineficientes y costosas.

"Todo eso dicho", admitió. "El DOE ha logrado cosas más extrañas en el pasado, y todavía tiene un grupo de personas talentosas para sacar lo mejor de lo que depara el futuro".