Desde que el hombre miró por primera vez a los cielos, hemos tratado de comprender el cosmos.

Pero mirar hacia afuera es solo una forma de ayudar a comprender el universo. Otra respuesta se encuentra dentro, en las simulaciones altamente detalladas que ahora son posibles gracias a los profundos avances en microprocesadores y décadas de inversión en computación de alto rendimiento (HPC).

En el norte de Inglaterra, una de esas supercomputadoras espera hacer su parte para presentar una historia del universo con un detalle sin precedentes, brindando nuevos conocimientos sobre cómo llegamos a ser.

A principios de este año, cuando el Reino Unido sufrió una ola de calor sin precedentes causada por el cambio climático, DCD visitó el centro de datos de la Universidad de Durham en el Instituto de Cosmología Computacional (ICC) y aprendió sobre su sistema más poderoso, el Cosma-8.

Cosma-8 es parte del programa de investigación distribuida usando computación avanzada (DiRAC) del gobierno del Reino Unido, que está formado por cinco supercomputadoras en todo el país, cada una de las cuales tiene una característica única específica.

En el caso del sistema Durham, ese factor diferenciador es su impresionante cantidad de memoria de acceso aleatorio (RAM).

"Para el sistema completo, tenemos 360 nodos, 46.000 núcleos y, lo que es más importante para nosotros, un terabyte de RAM por nodo, eso es mucha RAM", dijo el Dr. Alastair Basden, director del servicio Cosma.

Dos nodos en el sistema van aún más lejos, acumulando 4 TB de RAM por nodo. "Estos son para cargas de trabajo que no se escalan tan bien en múltiples nodos. Por lo tanto, cosas como acceder a grandes conjuntos de datos y códigos que no están muy bien paralelizados", dijo el Dr. Basden.

Esta enorme cantidad de RAM permite abordar problemas científicos específicos que de otro modo no serían posibles en las supercomputadoras convencionales.

Pero más sobre eso más adelante, primero un resumen rápido de las otras especificaciones del sistema: cuenta con dos procesadores AMD Epyc 7H12 de 280 W por nodo con una frecuencia de reloj base de 2,6 GHz y 64 núcleos, instalados en un chasis de la serie C de Dell Cloud Service con un formato de 2U. También tiene seis petabytes de almacenamiento Lustre, alojados en 10 servidores que tienen sus propias dos CPU y 1 TB de RAM.

La supercomputadora utiliza enfriamiento directo al chip y una CDU CoolIT.

Dr. Azadeh Fattahi
– Sebastian Moss

Puede notar una clara falta de GPU, a pesar de su utilidad en una serie de otros sistemas basados ​​en simulación.

"Básicamente, los códigos que estamos haciendo no coinciden bien con las GPU. Se están realizando esfuerzos para transferir estos códigos a la GPU, pero la mejora que puede obtener en el rendimiento es un factor pequeño en lugar de grande", dijo el Dr. Basden.

Sin embargo, el centro de datos alberga un clúster de dos nodos financiado como parte de los esfuerzos de exaescala Excalibur del Reino Unido que tiene seis GPU AMD MI100. "Las GPU MI200 deberían seguir en breve", agregó el investigador.

Cosma-8, sin embargo, no tiene planes para las GPU, sino que apunta a llevar las CPU y la RAM al límite, totalmente conectadas por una estructura PCIe-4. “Aunque nuestro sistema no es tan grande como muchos de los sistemas más grandes, debido a que tenemos esta RAM más alta por nodo, en realidad podemos hacer mejor ciertas cargas de trabajo”, dijo el Dr. Basden.

Un ejemplo es la simulación MillenniumTNG-XXL, que tiene como objetivo encapsular la estructura a gran escala del universo a lo largo de 10 mil millones de años luz. “Es básicamente la simulación más grande de su tipo que se puede realizar en cualquier parte del mundo”, dijo el Dr. Basden.

"Así que esto es 10,240 3 partículas de materia oscura, esto es un billón de regímenes de partículas, un gran avance con respecto a cualquier simulación anterior", dijo, "Puedes comenzar a ver dentro de las simulaciones que en realidad construyen galaxias espirales y cosas así, todo desde la física que ponemos”.

La simulación toma datos de telescopios, satélites y el Instrumento espectroscópico de energía oscura (DESI) para ver "qué tan bien podemos hacer coincidir lo que obtenemos en nuestro simulador con lo que realmente se ve en el cielo", explicó el Dr. Basden. "Eso nos dice más sobre la materia oscura".

La simulación MillenniumTNG-XXL comenzó en julio del año pasado y consumió una gran cantidad de recursos informáticos. “Perdimos alrededor de 60 millones de horas de CPU en eso”, dijo el Dr. Basden.

“Una gran cantidad de memoria por nodo es absolutamente esencial. Los códigos HPC no siempre se escalan de manera eficiente, por lo que cuantos más nodos use, más bajará su escala. Su simulación tardaría más y más en ejecutarse hasta llegar a un punto sin retorno. Así que no hubiera sido posible sin una máquina diseñada específicamente para esto".

El Dr. Azadeh Fattahi es uno de los investigadores que intenta aprovechar los talentos únicos de la máquina para comprender la importancia de la materia oscura en la formación y evolución del universo.

"En realidad, hay más materia oscura que cosas normales en el universo", dijo el profesor asistente de UKRI FLF en el departamento de física de Durham.

"La materia normal, que es de lo que están hechas las galaxias, junto con el Sistema Solar, los planetas, nosotros, todo en el universo que podemos observar, básicamente, incluye solo una pequeña porción de la materia y la energía en el universo".

Cosma-8 flash supercomputer
– Sebastian Moss

La materia visible constituye solo el 0,5 por ciento del universo, con la materia oscura en el 30,1 por ciento. El 69,4 por ciento final es energía oscura.

Comprender cómo interactúan estas fuerzas requiere una enorme potencia informática. “Los esfuerzos anteriores solo observaron la distribución de la materia oscura e ignoraron los sistemas más complejos”, dijo el Dr. Fattahi.

“Pero queremos incluir fenómenos más complejos en los modelos que estamos usando”, explicó. “Ahora, en Cosma-8, básicamente podemos ejecutar una simulación hidrodinámica completa, lo que significa que incluimos todos los procedimientos complejos como piscinas de gas, estrellas que se forman y explotan en una supernova, así como agujeros negros supermasivos”.

Uno de los proyectos emblemáticos de Cosma-8 es el estudio 'Simulaciones de estructuras a gran escala totalmente hidroeléctricas con mapeo de todo el cielo para la interpretación de las observaciones de próxima generación', o, como se le conoce más comúnmente, la simulación FLAMINGO.

“FLAMINGO está a la vanguardia”, dijo el Dr. Fattahi. “MillenniumTNG-XXL es un volumen ligeramente mayor, pero no tiene hidrodinámica. Comparado con todo lo que se ha hecho con hidrodinámica, es el más grande del mundo”.

El universo simulado de FLAMINGO tiene aproximadamente 8 mil millones de años luz, con 5000 3 elementos de materia oscura y 5000 3 de gas. “Esta es la mayor cantidad de elementos de resolución que se han ejecutado en una simulación híbrida en cualquier parte del mundo”, dijo. Se necesitó la mayor parte de Cosma-8 trabajando durante 38 días seguidos para terminar.

El equipo del Dr. Fattahi usa estos modelos gigantes para luego hacer zoom para trabajar a una escala comparativamente más pequeña, operando "simplemente" a nivel galáctico. Al elegir una porción más pequeña de espacio, puede enfocar el poder computacional mientras mantiene el resto del universo en una resolución más baja.

“Resulta que las galaxias pequeñas tienen mucha materia oscura, son las galaxias oscuras más densas en materia oscura del universo. La pregunta que deriva de mi investigación es qué podemos aprender de las estructuras a pequeña escala sobre la naturaleza de la materia oscura, que es una pregunta fundamental en física”.

Incluso en estas simulaciones más pequeñas, la escala sigue siendo inmensa. Los astrónomos usan la masa solar como unidad de medida, con una masa solar igual a la de nuestro sol. “La resolución objetivo es de aproximadamente 10 4 de masa solar”, dijo el Dr. Fattahi. “FLAMINGO tiene una resolución de 10 8 .”

Una vez más, esta simulación no habría funcionado sin tal cantidad de RAM, argumentó el Dr. Fattahi. “Si repasamos demasiadas conexiones, las líneas se vuelven bastante lentas, por lo que tenemos que ajustar estas simulaciones en la menor cantidad de nodos posible”, dijo. “El TB por nodo nos permitió encajarlo en un par de nodos y luego pudimos ejecutar muchos de ellos en paralelo. Ahí es donde reside el poder de Cosma-8”.

Cosma-8 cooling
– Sebastian Moss

La esperanza es hacerlo más potente cuando llegue más dinero. No se conoce la hoja de ruta exacta para esa nueva financiación: cuando visitamos las instalaciones, el gobierno del Reino Unido estaba en crisis, y mientras se imprime este artículo, está en un turbulencia diferente, pero el Dr. Basden confía en que está en camino.

Cosma-8 fue financiado bajo DiRAC II, con la comunidad científica construyendo un caso para DiRAC III. "Se lo planteamos al gobierno", dijo el Dr. Basden. “Dijeron 'fantástico, pero no hay financiación'.

“Año tras año, estamos esperando este dinero. Finalmente, a fines de 2020 dijeron 'puedes tener parte de los fondos de DiRAC III, pero no todos'. Todavía estamos esperando el resto, con suerte llegará este año, tal vez el próximo”.

Cuando llegue el dinero, y cuánto reciban, se definirá la fase dos del sistema. Es probable que el almacenamiento Lustre se duplique y probablemente use procesadores AMD Milan.

"Dependiendo de las escalas de tiempo, podríamos obtener algunas CPU Genoa [AMD], donde creemos que podríamos llegar a 6 TB de RAM por nodo", dijo el Dr. Basden. "Y tenemos casos de uso para ello".

Cuando eso suceda, el centro de datos se configurará para una reorganización. La sala de datos alberga actualmente Cosma-6, -7 y -8 (con -5 en una sala adyacente), pero está al máximo de su capacidad.

Cosma-8 Spectra
– Sebastian Moss

"Cosmos-6 se retirará. Su hardware data de 2012 y nos llegó de segunda mano en 2016".

Cada sistema consume alrededor de 200 kW para computación en un día estándar, con alrededor de un 10 por ciento más para las demandas de refrigeración.

"A veces puede haber grandes cargas de trabajo y llega a alrededor de 900kW; nuestra alimentación total a la sala es de 1MW. Así que nos estamos acercando a donde no nos gustaría tener mucho más equipo sin retirar cosas. Ayer vimos un 90 por ciento carga."

El más caluroso registrado en UK, afectó a los centros de datos de todo el Reino Unido. Hizo caer las instalaciones de Google y Oracle, pero las supercomputadoras Cosma funcionaron imperturbables, dijo el Dr. Basden con orgullo.

"Sobrevivimos a la temperatura más alta", dijo. "La mayor parte del tiempo usamos aire acondicionado gratuito, pero días como ese usamos un enfriador activo. Eso significa que la mayor parte del año tenemos un PUE (efectividad de utilización de energía) que es de aproximadamente 1.1, que es bastante bueno, y luego puede llegar hasta alrededor de 1,4".

Sin embargo, no siempre ha sido fácil, admitió. "Durante el último año más o menos, el generador no se estaba activando, por lo que si la red se había caído, solo teníamos una hora en el UPS. Afortunadamente, eso no sucedió".

El generador ahora está reparado, pero aún existe otro riesgo: "Los enfriadores no están en el UPS, por lo que si se corta la energía, el UPS se hará cargo de la computación y el generador tendrá que reactivar los enfriadores", dijo.

Cosma-8 supercomputer
– Sebastian Moss

"Eso no siempre sucede. Una vez que estaba sentado en la sala de datos y los enfriadores se apagaron cuando estábamos probando cosas", recordó. "Era como una rana en agua hirviendo. Estaba sentado allí calentándome un poco más y más. Hacía bastante calor, y yo estaba como 'chicos, ¿qué está pasando?' Se había disparado un disyuntor".

Parte de esa falta de redundancia perfecta se debe a los requisitos: a diferencia de un proveedor comercial que no puede fallar, las supercomputadoras de investigación pueden ser más indulgentes con el tiempo de inactividad (por ejemplo, tiene tres cortes de mantenimiento de varios días al año), por lo que es mejor que las universidades gasten el dinero en más cómputo que más redundancia.

Otro problema es la ubicación: las salas de datos se encuentran dentro del Instituto de Cosmología Computacional, un edificio más grande construido para estudiantes e investigadores.

En el futuro, cuando planeen pasar a la próxima clase de computación, la exaescala, tendrán que buscar en otra parte. "Vamos a necesitar construir un nuevo centro de datos para ello", dijo.

El único sistema oficial de exaescala actualmente es la supercomputadora Frontier de los EE. UU., que tiene un consumo máximo de energía de 40 MW (pero generalmente está más cerca de los 20 MW). Sin embargo, para cuando el gobierno del Reino Unido financie dicho sistema, los avances habrán reducido esa carga de energía.

Para entonces, también podríamos tener una mejor comprensión de cómo funciona el universo, y los científicos de todo el mundo ya están recurriendo a las simulaciones construidas en Cosma-8 para ayudar a descifrar las complejidades de nuestro cosmos.