Nvidia ha dado un paso significativo en el ámbito de los modelos de mundo, una tecnología de inteligencia artificial que emula los modelos mentales que los humanos desarrollan de manera natural. Durante el CES 2025 en Las Vegas, la compañía anunció la disponibilidad de una nueva familia de modelos de mundo capaces de predecir y generar vídeos con conciencia física, denominados Cosmos World Foundation Models, o Cosmos WFMs.
Estos modelos, que pueden ser ajustados para aplicaciones específicas, están disponibles a través de la API de Nvidia, los catálogos de NGC, GitHub y la plataforma de desarrollo de inteligencia artificial Hugging Face. Según un comunicado de Nvidia, los Cosmos WFMs están diseñados para simulaciones basadas en física y generación de datos sintéticos, y pueden ser utilizados libremente bajo una licencia abierta que permite su uso comercial.
La familia Cosmos WFM se divide en tres categorías: Nano para aplicaciones de baja latencia y en tiempo real, Super para modelos de rendimiento base altamente eficientes, y Ultra para obtener la máxima calidad y fidelidad. Los modelos varían en tamaño desde 4 mil millones hasta 14 mil millones de parámetros, siendo Nano el más pequeño y Ultra el más grande. En inteligencia artificial, los parámetros son indicadores de la capacidad de resolución de problemas de un modelo, y generalmente, un mayor número de parámetros se traduce en un mejor rendimiento.
Además de los modelos Cosmos WFM, Nvidia ha lanzado un modelo de superresolución, un decodificador de vídeo optimizado para realidad aumentada, y modelos de salvaguarda para asegurar un uso responsable. Estos modelos, junto con otros de la familia Cosmos, fueron entrenados con 9,000 billones de tokens provenientes de 20 millones de horas de interacciones humanas reales y datos de entornos, industria, robótica y conducción. Sin embargo, Nvidia no ha revelado la procedencia exacta de estos datos, lo que ha suscitado controversias legales sobre el uso de vídeos de YouTube protegidos por derechos de autor.
Nvidia asegura que los modelos Cosmos no están diseñados para copiar o infringir obras protegidas, argumentando que el aprendizaje de Cosmos se asemeja al humano, utilizando datos de diversas fuentes públicas y privadas de manera consistente con la ley. Sin embargo, expertos en derechos de autor advierten que estas afirmaciones, basadas en la doctrina del uso justo, podrían no resistir el escrutinio judicial. La viabilidad de estas afirmaciones dependerá de cómo los tribunales interpreten el uso justo en el contexto del entrenamiento de inteligencia artificial.
Nvidia afirma que los modelos Cosmos WFM pueden generar datos sintéticos de alta calidad y controlables a partir de texto o fotogramas de vídeo, lo que facilita el entrenamiento de modelos para robótica, vehículos autónomos y más. Empresas como Waabi, Wayve, Foretellix y Uber ya han comenzado a implementar los Cosmos WFMs en diversos casos de uso, desde la búsqueda y curación de vídeos hasta la construcción de modelos de inteligencia artificial para vehículos autónomos. Sin embargo, es importante destacar que los modelos de mundo de Nvidia no son «de código abierto» en el sentido más estricto, ya que no proporcionan toda la información necesaria para recrearlos desde cero.