Las supercomputadoras se implementan en todo el mundo para resolver algunos de los mayores desafíos que enfrenta la humanidad. Estas máquinas del tamaño de una habitación, millones de veces más potentes que cualquier computadora portátil, son capaces de realizar hazañas computacionales vertiginosamente rápidas. Estos gigantes alguna vez estuvieron exclusivamente a disposición de organizaciones como grandes laboratorios gubernamentales, la NASA y la élite más alta de jugadores en sectores verticales como manufactura, finanzas, petróleo y gas y aeroespacial. Pero ahora se están produciendo cambios en la forma en que se diseñan y construyen las supercomputadoras, lo que las abre a una nueva gama de casos de uso. Beneficiándonos de una nueva generación de potencia de procesamiento y redes ultrarrápidas, estamos entrando en una era nueva y quizás la más democratizada de la informática de alto rendimiento (HPC).

Las unidades de procesamiento de gráficos (GPU) están reemplazando a las unidades de procesamiento central (CPU) para el procesamiento, lo que resulta en un rendimiento computacional significativamente mayor. Los sistemas basados ​​en GPU ofrecen un espacio más pequeño que los sistemas HPC heredados, y también operan con mayor eficiencia y tienen un costo operativo más bajo.

Pero a medida que aumenta la potencia informática, también lo hace la demanda de un rendimiento máximo de datos. InfiniBand, un estándar de red comúnmente utilizado en el mundo de HPC, satisface esta necesidad de alto rendimiento y muy baja latencia.

Un ecosistema de apoyo fuerte es otro factor que debe considerarse como una señal segura de democratización. Con más de 600 aplicaciones HPC que ahora aprovechan las GPU y las redes InfiniBand para acelerar el rendimiento, la adopción sigue siendo sólida en el ámbito empresarial y de la investigación.

AIgrowth.width-358.png
– GettyImages

Pioneros en la próxima generación de IA

Otro uso emergente de este poder de procesamiento cada vez más accesible radica en habilitar la inteligencia artificial. Existe una tendencia hacia el uso de modelos masivos de IA, y eso está cambiando la forma en que se construye la IA.

Microsoft, por ejemplo, es un pionero en IA y utiliza tanto GPU como InfiniBand a escala. Al utilizar supercomputación de última generación en su plataforma Azure para impulsar una nueva clase de modelos a gran escala, Microsoft está habilitando una generación completamente nueva de IA. Al utilizar cantidades masivas de datos, estos modelos a gran escala solo necesitan entrenarse una vez. Luego, los modelos se pueden ajustar para diferentes tareas y dominios con conjuntos de datos y recursos mucho más pequeños.

La importancia de medir el desempeño

A medida que se amplían los casos de uso de HPC, se están construyendo más supercomputadoras con especificaciones más rápidas y potentes. Sigue siendo tan importante como siempre entender cómo se comparan las diferentes máquinas HPC entre sí. De ahí la importancia del proyecto TOP500 que clasifica y detalla los 500 sistemas informáticos no distribuidos más potentes del mundo. El proyecto comenzó en 1993 y todavía publica una lista actualizada de supercomputadoras dos veces al año, que ahora incluye una gama mucho mayor de máquinas que en sus primeros días.

El valor del proyecto TOP500 radica en proporcionar una base confiable para rastrear y detectar tendencias en la computación de alto rendimiento. Pero consideremos por un momento los puntos de referencia que se utilizan para cuantificar la HPC.

Históricamente, el más importante de ellos ha sido el punto de referencia HPL de larga data. HPL es una implementación portátil de Linpack Benchmark de alto rendimiento. Se utiliza como referencia para proporcionar datos para el TOP500 y es una herramienta clave en el ranking de supercomputadoras a nivel mundial. Sin embargo, solo mide la potencia de cálculo en forma de flops.

El benchmark HPCG (High Performance Conjugate Gradients) se creó como una alternativa, que ofrece otra métrica para clasificar los sistemas HPC y pretende ser un complemento del HPL. Sin embargo, no está integrado en el ranking TOP500.

Como ya hemos visto, la inteligencia artificial es ahora una parte clave del panorama de HPC, por lo que algunos consideran un nuevo y más adecuado punto de referencia como un reconocimiento necesario de esta tendencia.

Una nueva métrica para los sistemas HPC modernos

MLPerf es un nuevo tipo de organización de evaluación comparativa. Justo en línea con la era de la supercomputación de IA, su misión es crear puntos de referencia justos y útiles para medir el rendimiento de la formación y la inferencia del hardware, software y servicios de aprendizaje automático (ML). Su creciente aceptación la convierte en una herramienta útil para investigadores, desarrolladores, fabricantes de hardware, constructores de marcos de aprendizaje automático, proveedores de servicios en la nube, proveedores de aplicaciones y, por supuesto, usuarios finales.

Sus objetivos giran en torno a acelerar el progreso del aprendizaje automático a través de una medición justa y útil para servir a las comunidades comerciales y de investigación. También busca permitir una base más equitativa para la comparación de sistemas competidores, al tiempo que fomenta la innovación. Quizás la parte de su ética que más lo distingue de otros puntos de referencia de HPC es su compromiso de mantener asequible la evaluación comparativa para que todos puedan participar. MLPerf está respaldado por organizaciones como Amazon, Baidu, Facebook, Google, Harvard, Intel, Microsoft y Stanford, y está en constante evolución para seguir siendo relevante a medida que la IA evoluciona.

Los sistemas de HPC e IA más grandes de la actualidad no solo están abordando nuevos métodos de cargas de trabajo HPC tradicionales a través de GPU con redes InfiniBand, sino que también están habilitando una nueva ola de sistemas de recomendación y aplicaciones de IA conversacionales, mientras que otros impulsan la búsqueda de una medicina personalizada y de precisión . Mientras tanto, nos estamos moviendo más allá de los sistemas tradicionales basados ​​en CPU que solían dominar el mundo de la investigación de HPC. La informática en el nivel superior ya no es el dominio exclusivo de una élite.


Por Scot Schultz, Director sénior de HPC / Computación técnica, unidad de negocio de redes de Nvidia