En los últimos años, la supercomputación ha avanzado hacia la era de la exaescala, con máquinas capaces de realizar más de mil millones de operaciones por segundo. Sin embargo, este crecimiento exponencial también plantea un desafío energético significativo. Según un estudio ampliamente citado, para el año 2040, la computación podría requerir más energía de la que se produce actualmente en todo el mundo.
Afortunadamente, la comunidad de computación de alto rendimiento está redirigiendo su enfoque hacia no solo aumentar el rendimiento, sino también mejorar la eficiencia energética, incrementando el número de operaciones por vatio.
La semana pasada se publicaron los nuevos rankings de los Top500 supercomputadoras (las más potentes del mundo) y su contraparte Green500 (las más eficientes energéticamente). Los diez primeros lugares de las Top500 se mantuvieron casi sin cambios, liderados por la supercomputadora Frontier del Oak Ridge National Laboratory. La única novedad en el top 10 fue el sistema Alps del Swiss National Supercomputing Center, que se ubicó en el sexto lugar. Mientras tanto, Aurora del Argonne National Laboratory duplicó su tamaño, pero mantuvo su clasificación de segundo nivel.
Por otro lado, la lista Green500 vio nuevas incorporaciones en los tres primeros puestos, lo que sugiere que los sistemas de alto rendimiento más recientes están priorizando la eficiencia tanto como el poder bruto.
Encabezando la nueva lista Green500 se encuentra JEDI, el sistema prototipo del Jülich Supercomputing Center para su próxima supercomputadora JUPITER. Los puestos segundo y tercero fueron para Isambard AI de la Universidad de Bristol y la supercomputadora Helios de la organización polaca Cyfronet, respectivamente. En cuarto lugar se encuentra Henri de la Simons Foundation, el líder anterior.
Los tres primeros sistemas de la lista Green500 tienen algo en común: todos están construidos con los superchips Grace Hopper de Nvidia, una combinación de la GPU Hopper (H100) y la CPU Grace. Dion Harris, director de estrategia de mercado de centros de datos acelerados en Nvidia, destaca dos razones principales para la eficiencia de la arquitectura Grace Hopper. La primera es la CPU Grace, que se beneficia del conjunto de instrucciones ARM, conocido por su rendimiento energético superior. Además, incorpora una estructura de memoria llamada LPDDR5X, optimizada para la eficiencia energética.
La segunda ventaja es un interconector desarrollado recientemente entre la GPU Hopper y la CPU Grace. Esta conexión, que aprovecha la proximidad de la CPU y la GPU en una sola placa, logra un ancho de banda de 900 gigabits por segundo, aproximadamente siete veces más rápido que los interconectores PCIe gen5 más recientes. Esto permite que la GPU acceda rápidamente a la memoria de la CPU, lo cual es crucial para aplicaciones altamente paralelas como el entrenamiento de IA o las redes neuronales gráficas.
Aunque los tres sistemas principales usan Grace Hopper, JEDI lidera con una diferencia notable: 72.7 gigaflops por vatio, en comparación con los 68.8 gigaflops por vatio del subcampeón (y 65.4 gigaflops por vatio del campeón anterior). El equipo de JEDI atribuye su éxito a la manera en que han conectado sus chips, utilizando Quantum-2 InfiniBand de Nvidia en lugar del HPE Slingshot usado por los otros dos sistemas principales.
Además de usar el equipo más reciente de Nvidia, JEDI reduce costos energéticos con su sistema de refrigeración, que circula agua caliente en lugar de aire o agua fría para disipar el exceso de calor. «En condiciones meteorológicas normales, el exceso de calor puede ser gestionado por unidades de refrigeración gratuita sin necesidad de enfriamiento adicional con agua fría», dice Benedikt von St. Vieth, jefe de la división de computación de alto rendimiento en Jülich.
JUPITER utilizará la misma arquitectura que su prototipo JEDI, y von St. Vieth espera mantener gran parte de la eficiencia energética del prototipo, aunque a mayor escala, añade, se podría perder más energía en el tejido de interconexión.
Lo más crucial es el rendimiento de estos sistemas en tareas científicas reales, no solo en el benchmark Green500. «Fue realmente emocionante ver estos sistemas en línea», dice Harris de Nvidia, «pero más importante aún, estamos realmente emocionados de ver los resultados científicos que surgirán de estos sistemas, porque creo que [la eficiencia energética] tendrá más impacto en las aplicaciones que en el benchmark.»