Google DeepMind ha lanzado Genie 3, el modelo de mundo más avanzado hasta la fecha, capaz de crear entornos interactivos dinámicos que los usuarios pueden navegar en tiempo real a 24 fotogramas por segundo con resolución 720p.

Un salto revolucionario en la simulación de mundos

Genie 3 representa un hito significativo en el desarrollo de modelos de mundo, sistemas de inteligencia artificial que pueden simular aspectos del mundo real utilizando su comprensión profunda de cómo funcionan los entornos. A diferencia de sus predecesores Genie 1 y Genie 2, esta nueva versión permite la interacción en tiempo real mientras mantiene una consistencia y realismo mejorados.

Lo más impresionante de Genie 3 es su capacidad para generar mundos completamente nuevos simplemente a partir de una descripción de texto. Los usuarios pueden escribir un prompt y el modelo creará un entorno interactivo completo que mantiene la consistencia durante varios minutos.

Capacidades técnicas extraordinarias

Interactividad en tiempo real sin precedentes

El modelo logra un alto grado de controlabilidad y respuesta inmediata que requirió importantes avances técnicos. Durante la generación auto-regresiva de cada frame, Genie 3 debe considerar toda la trayectoria generada previamente, que crece con el tiempo. Por ejemplo, si un usuario regresa a una ubicación después de un minuto, el modelo debe referenciar información relevante de ese momento anterior.

Consistencia ambiental de largo alcance

Una de las características más notables es la capacidad del modelo para mantener consistencia física durante varios minutos. A diferencia de otros métodos como NeRFs y Gaussian Splatting que dependen de representaciones 3D explícitas, los mundos generados por Genie 3 son mucho más dinámicos y ricos porque se crean frame por frame basándose en la descripción del mundo y las acciones del usuario.

La memoria visual del sistema se extiende hasta un minuto atrás, permitiendo que elementos como edificios, árboles y objetos permanezcan consistentes incluso cuando salen y vuelven a entrar en el campo de visión.

Diversidad de aplicaciones asombrosa

Genie 3 puede simular una variedad extraordinaria de entornos y escenarios:

Propiedades físicas del mundo

  • Fenómenos naturales como agua y iluminación
  • Interacciones ambientales complejas
  • Simulaciones de vehículos en terrenos difíciles
  • Condiciones climáticas extremas como huracanes

Simulación del mundo natural

  • Ecosistemas vibrantes con comportamientos animales
  • Vida vegetal intrincada
  • Jardines zen japoneses fotorrealistas
  • Paisajes submarinos con vida bioluminiscente

Animación y ficción

  • Escenarios fantásticos con criaturas adorables
  • Estilos artísticos como origami
  • Bosques encantados con casas en los árboles
  • Transformaciones surrealistas de paisajes

Exploración de ubicaciones históricas

  • Recreaciones detalladas de Venecia
  • El palacio de Knossos en Creta en su apogeo
  • La antigua Atenas con arquitectura griega
  • Ubicaciones reales como los Alpes y carreteras de montaña en India

Eventos de mundo programables

Una característica innovadora son los «promptable world events» (eventos de mundo programables), que permiten una forma más expresiva de interacción basada en texto. Los usuarios pueden alterar las condiciones climáticas, introducir nuevos objetos y personajes, mejorando la experiencia más allá de simples controles de navegación.

Esta capacidad amplía el rango de escenarios contrafácticos o de «qué pasaría si», que pueden ser utilizados por agentes que aprenden de la experiencia para manejar situaciones inesperadas.

Investigación en agentes embodied

Google DeepMind ha probado la compatibilidad de los mundos creados por Genie 3 con una versión reciente de su agente SIMA, un agente generalista para entornos virtuales 3D. En cada mundo, instruyeron al agente para perseguir objetivos distintos, que intenta lograr enviando acciones de navegación a Genie 3.

Dado que Genie 3 puede mantener consistencia, ahora es posible ejecutar secuencias más largas de acciones, logrando objetivos más complejos. Los investigadores esperan que esta tecnología desempeñe un papel crítico en el avance hacia la inteligencia artificial general (AGI).

Limitaciones actuales

A pesar de sus capacidades revolucionarias, Genie 3 tiene algunas limitaciones importantes:

  • Espacio de acción limitado: Aunque los eventos de mundo programables permiten una amplia gama de intervenciones ambientales, el rango de acciones que los agentes pueden realizar directamente está actualmente restringido
  • Interacción y simulación de otros agentes: Modelar con precisión interacciones complejas entre múltiples agentes independientes sigue siendo un desafío
  • Representación precisa de ubicaciones del mundo real: El modelo actualmente no puede simular ubicaciones reales con perfecta precisión geográfica
  • Renderizado de texto: El texto claro y legible solo se genera cuando se proporciona en la descripción del mundo de entrada
  • Duración limitada de interacción: El modelo puede soportar actualmente unos pocos minutos de interacción continua

Desarrollo responsable

Google DeepMind está comprometido con el desarrollo responsable desde el principio. Las innovaciones técnicas en Genie 3, particularmente sus capacidades abiertas y en tiempo real, introducen nuevos desafíos para la seguridad y responsabilidad.

La compañía está anunciando Genie 3 como una vista previa de investigación limitada, proporcionando acceso temprano a una pequeña cohorte de académicos y creadores. Este enfoque permite recopilar retroalimentación crucial y perspectivas interdisciplinarias mientras exploran esta nueva frontera.

Aplicaciones futuras prometedoras

Genie 3 podría crear nuevas oportunidades para educación y entrenamiento, ayudando a estudiantes a aprender y a expertos a ganar experiencia. No solo puede proporcionar un vasto espacio para entrenar agentes como robots y sistemas autónomos, sino que también hace posible evaluar el rendimiento de los agentes y explorar sus debilidades.

Este avance marca un momento significativo para los modelos de mundo, donde comenzarán a tener un impacto en muchas áreas tanto de la investigación en inteligencia artificial como de los medios generativos. Google DeepMind está explorando cómo hacer Genie 3 disponible para testers adicionales en el futuro, siempre manteniendo el desarrollo seguro y responsable para el beneficio de la humanidad.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí