Cada pocos años, la infraestructura digital experimenta una transformación inesperada pero repentina.

A principios de los 90, vimos el crecimiento de la World Wide Web y el modelo cliente-servidor de computación distribuida que resultó en lo que hoy conocemos como la nube. En cinco años, el mercado dio un vuelco. Luego vino Linux: los proveedores de la nube aumentaron sus ofertas para admitir servicios adicionales y crearon marcos que podrían abstraer el hardware subyacente, lo que a su vez aceleró la innovación. La nube, que inicialmente se pensó como un concepto demasiado exagerado, fue rápidamente adoptado por los motores inteligentes y se ha convertido en una fuerza masiva para la disrupción.

Los proveedores de la nube han podido recopilar datos de telemetría para obtener información sobre las cargas de trabajo más populares que, a su vez, conducen a optimizaciones de chips para cargas de trabajo o KPI particulares. AWS quizás ha ido más lejos con Nitro, un subsistema de red / almacenamiento / seguridad de cosecha propia, su procesador de aprendizaje automático Inferentia y Graviton2, su procesador de aplicaciones de uso general dentro de instancias adoptadas por Twitter, Snap y Coinbase, entre otros. Google ha desarrollado TPU como un acelerador para el aprendizaje automático de redes neuronales, y otros proveedores líderes en la nube están desarrollando ASIC para funciones como inteligencia artificial y seguridad.

El impulso hacia la verticalización del silicio en la infraestructura

Pero, ¿por qué los proveedores de la nube querrían emprender la tarea onerosa, lenta y costosa de construir e implementar semiconductores personalizados? Puede reducirse a dos fuertes motivos: el deseo de autonomía y la presión competitiva sobre cada componente del rendimiento entregado por dólar de TCO gastado. El TCO es un cálculo complejo que impulsa a quienes toman las decisiones en los centros de datos de hiperescala; aquí hablaremos de un componente del TCO, la energía.

Cuando se trata de autonomía, las empresas quieren un mejor control sobre sus hojas de ruta, costos, seguridad y cadenas de suministro. Es tan simple como eso. En tiempos difíciles, una mayor autonomía puede ayudar a una empresa a resistir impactos como la Covid-19, mientras que en los buenos tiempos constituye la base para la diferenciación. Una empresa rara vez es una isla (la integración vertical ha resultado ser demasiado costosa y complicada en todo, desde cañones hasta escáneres CAT), pero continuamente investigan su cartera de compra / construcción para encontrar una combinación óptima.

Un enfoque "personalizado, pero no completamente" del silicio permite a los diseñadores eliminar características con posibles compensaciones de rendimiento (como el subproceso múltiple) mientras mantienen un pie en el ecosistema más grande. El tamaño de las operaciones de hiperescala, el impacto económico que producen las pequeñas mejoras a escala, el movimiento de software nativo de la nube que puede admitir hardware diverso y la mayor disponibilidad de herramientas y tecnología para desarrollar el diseño de chips internos se han combinado de manera significativa para hacer de la diversidad del silicio una fuerza una vez más. Además, el aumento de la fabricación de silicio de terceros y los proveedores de IP de silicio ayudan a reducir drásticamente los costos de transacción para llevar nuevos diseños al mercado.

Para las empresas más pequeñas, la buena noticia es que el genio de la personalización está fuera de la botella. Los diseñadores de chips independientes están desarrollando variantes de procesadores basados ​​en la nube con diferentes diseños, recuento de núcleos, tamaño de caché, velocidad, ancho de banda de memoria, E / S y otros factores para servir a un mercado más amplio más allá de aquellos que pueden hacerlo ellos mismos. Los proveedores de servicios de los hiperescaladores más grandes de la actualidad también crearán nichos con instancias optimizadas para el rendimiento, los costos y / o la ubicación. La personalización a un nivel básico de tecnología será para todos.

Todos los caminos conducen de regreso a la energía

La personalización también se convertirá en una de las principales herramientas para contrarrestar otro factor clave, el componente energético del TCO, al igual que la integración a nivel de chip al combinar diversos componentes de silicio. La energía puede representar el 40 por ciento o más del costo operativo de un centro de datos, pero la energía y el calor también pueden aumentar los costos de capital, los bienes raíces y el mantenimiento. A su vez, esos costos más altos ejercen presión sobre las ganancias y la satisfacción del cliente, y la innovación se ralentiza. Los centros de datos de hiperescala también se enfrentan a la presión de controlar mejor su consumo de agua y energía. Ciudades como Ámsterdam y Pekín han impuesto límites estrictos al tamaño del centro de datos y al consumo de energía. Si la autonomía se trata de lo que quieres hacer, la ecuación de energía se trata de lo que necesitas hacer.

En la década de 2010, la eficiencia energética y el rendimiento por vatio fueron héroes olvidados de la revolución de la nube. Las cargas de trabajo del centro de datos y el tráfico de Internet crecieron 8 y 12 veces respectivamente durante la década, pero el consumo de energía del centro de datos se mantuvo prácticamente estable.

Y parece que la década de 2020 seguirá siendo un desafío. La Ley de Moore ofrece rendimientos decrecientes y se han cosechado muchas de las ganancias que se pueden lograr con la consolidación, la virtualización y el enfriamiento. Mientras tanto, las cargas de trabajo del centro de datos y el tráfico de Internet están creciendo aún más rápido con videoconferencias, transmisión de medios e inteligencia artificial. Applied Materials predice que el consumo de energía del centro de datos podría crecer del dos por ciento del consumo mundial de electricidad al 15 por ciento para 2025 sin innovaciones significativas. Un mayor consumo de energía podría aumentar los costos operativos, los requisitos de capital y, en última instancia, el costo de los servicios en la nube, lo que a su vez podría frenar la adopción.

La ecuación energética es aún más desafiante para los desarrolladores de tecnología 5G y Edge, quienes tendrán que lidiar con parámetros de rendimiento, potencia y precio aún más restrictivos.

La buena noticia es que la diversidad de silicio se está enfrentando a este desafío. La combinación de CPU con NPU puede reducir el consumo de energía para ejecutar cálculos de inferencia, allanando el camino para ejecutar más operaciones de IA en dispositivos individuales en lugar de en la nube. Sin mencionar que AWS dice que el procesador Graviton2 ofrece un rendimiento 3 veces mejor por vatio que los procesadores tradicionales.

A medida que avanza la década, la diversidad proliferará. Lo siguiente en el horizonte son los chiplets que unifican cientos, si no miles, de CPU, GPU, NPU, DPU con terabytes de SRAM y DRAM junto con interconexiones de alta velocidad en un SoC virtual. Los chiplets prometen mejorar drásticamente el rendimiento al combinar silicio semiconductor optimizado en un solo dispositivo, ya un costo mucho menor al eliminar muchos de los problemas de rendimiento y diseño que conlleva la producción de un semiconductor monolítico. También proporcionan una hoja de ruta más rápida para la adopción al permitir efectivamente que los elementos dispares dentro de un chiplet avancen a su propio ritmo natural. Un diseño basado en chiplet a escala de oblea podría consumir un kilovatio de potencia, pero será capaz de un rendimiento a nivel de petaflop y de gestionar exponencialmente más tareas que los procesadores actuales.

Y, por supuesto, habrá avances inesperados en el camino. No podemos predecir exactamente cómo se desarrollará la hoja de ruta, pero la próxima década será una época fascinante en lo que respecta a la innovación del núcleo del silicio.


Por Dermot O’Driscoll es vicepresidente de soluciones de productos, línea de negocio de infraestructura, Arm