Alibaba Cloud comunicó que su nuevo sistema de pooling, bautizado como Aegaeon, permitió reducir la cantidad de GPUs Nvidia necesarias para ejecutar modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés) en un 82%. Este avance, documentado en un paper revisado por pares presentado en el ACM Symposium on Operating Systems (SOSP) 2025, revela que, tras varios meses de pruebas en producción, el sistema permitió que apenas 213 GPUs desempeñaran el trabajo de 1,192, multiplicando así la capacidad efectiva de inferencia en la nube.

La empresa desarrolló Aegaeon como un scheduler de inferencia diseñado para maximizar la utilización de GPUs en entornos con demanda irregular o impredecible de diferentes modelos. En lugar de asignar una GPU a un solo modelo, Aegaeon virtualiza el acceso a la GPU a nivel de token, programando pequeños fragmentos de trabajo a lo largo de un pool compartido. De esta manera, una sola GPU —en este caso, el modelo H20 de Nvidia— puede atender varios LLMs simultáneamente, lo que aumenta la “goodput” (capacidad de salida efectiva) del sistema en hasta nueve veces respecto a arquitecturas tradicionales de tipo serverless como ServerlessLLM o MuxServe.

¿Cómo logró Alibaba aumentar la eficiencia?

  • Empaquetado de modelos: Aegaeon permite que varios modelos de inteligencia artificial —incluyendo LLMs de hasta 72 mil millones de parámetros— compartan una misma GPU, optimizando el uso de recursos.
  • Autoscalador a nivel de token: El sistema asigna dinámicamente potencia de cómputo según se genera la salida, en lugar de reservar recursos por anticipado para cada solicitud.
  • Implementación en entornos reales: Durante el periodo de pruebas, Alibaba Cloud logró atender decenas de modelos con solo una fracción de las GPUs que antes eran imprescindibles.

La eficiencia alcanzada es especialmente relevante en mercados donde la disponibilidad de GPUs de última generación es limitada —como China, que enfrenta restricciones de exportación de Estados Unidos— y donde el H20 de Nvidia es uno de los pocos aceleradores disponibles.

Detalles técnicos y consideraciones

El paper no especifica el tipo de infraestructura de red empleada en la prueba, pero Alibaba es conocida por desarrollar su propia tecnología eRDMA y mantener un entorno altamente optimizado para inferencia de inteligencia artificial. Esto sugiere que los resultados podrían estar condicionados a un stack de software y hardware propietario.

Aun así, la innovación podría despertar interés en otros hyperscalers (proveedores de nube a gran escala) que buscan sacar el máximo provecho de sus flotas de aceleradores ante la creciente demanda de inferencia.

Contexto y relevancia

La reducción del 82% en el uso de GPUs no solo supone un ahorro económico y energético significativo, sino que también alivia la presión sobre la escasez global de chips para inteligencia artificial. Además, este avance podría acelerar la adopción de LLMs en empresas y servicios que, hasta ahora, consideraban prohibitivos los costes de infraestructura.

La investigación fue liderada por científicos de Peking University y del área de infraestructura de Alibaba Group, incluyendo a Jingren Zhou, CTO de Alibaba Cloud. El estudio ya está disponible en formato abierto y se espera que inspire nuevas soluciones para la gestión eficiente de recursos en la era de los grandes modelos de lenguaje.

Conclusión

Aegaeon marca un hito en la optimización de la inferencia de inteligencia artificial, demostrando que, con innovación en software y gestión de recursos, es posible multiplicar la capacidad de las GPUs disponibles y reducir drásticamente la dependencia de hardware adicional. El reto ahora es trasladar estas mejoras a otros entornos y stacks tecnológicos, abriendo la puerta a una nueva era de eficiencia en la nube.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí