La empresa china afirma que es el primer modelo open source diseñado específicamente para pipelines gráficos estándar, lo que lo hace compatible con motores de juegos, plataformas de realidad virtual y herramientas de simulación. El objetivo es ayudar a los creadores a pasar rápidamente del concepto al contenido 3D sin encontrar barreras propietarias.

Una característica revolucionaria: separación automática de objetos

Una funcionalidad clave del modelo es su capacidad para separar objetos dentro de una escena, permitiendo a los usuarios mover o editar elementos como automóviles, árboles o muebles de forma individual. El cielo también se aísla y puede utilizarse como fuente de iluminación dinámica para ayudar con el renderizado realista y las experiencias interactivas.

Comparativa visual del modelo HunyuanWorld 1.0, que convierte descripciones textuales en paisajes panorámicos. Muestra los textos de entrada, la imagen generada completa y vistas renderizadas desde distintos ángulos de la escena.

Tres panoramas generados con Hunyuan World Model 1.0 muestran cómo el modelo crea automáticamente escenas 3D inmersivas desde prompts de texto que pueden usarse en motores de juegos

Panoramas de 360 grados con exploración limitada

Hunyuan World Model 1.0 combina la generación de imágenes panorámicas con reconstrucción 3D jerárquica. Soporta dos tipos principales de entrada: texto-a-mundo e imagen-a-mundo. Las escenas generadas pueden exportarse como archivos mesh y, según Tencent, se integran sin problemas en workflows 3D estándar.

En la práctica, el modelo no produce mundos 3D completamente explorables como los de los videojuegos modernos. En su lugar, los usuarios obtienen panoramas interactivos de 360 grados. Pueden mirar alrededor y navegar hasta cierto punto, pero el movimiento libre está restringido. Para movimientos de cámara más avanzados o secuencias de video 3D más largas y consistentes, se requiere el complemento Voyager, como se detalla en un artículo de investigación reciente.

Aplicaciones versátiles y accesibilidad

Tencent ve estas visualizaciones como un punto de partida para VR, pero el modelo también es adecuado para una amplia gama de aplicaciones interactivas y creativas. Su interpretación de texto está diseñada para mapear descripciones complejas de escenas en espacios virtuales con precisión, y soporta varias técnicas de compresión y aceleración para entornos web y VR.

La arquitectura utiliza un enfoque generativo y semánticamente estratificado, produciendo escenas en una variedad de estilos para usos creativos y de diseño.

Disponibilidad y acceso

Hunyuan World Model 1.0 está disponible como código abierto en GitHub y Hugging Face. También hay disponible una demo interactiva en sceneTo3D, aunque el acceso requiere un login compatible con China.

Parte de una estrategia más amplia

El lanzamiento forma parte del impulso más amplio de Tencent hacia el código abierto en IA. Junto con Hunyuan World Model 1.0, la empresa ha lanzado:

  • Hunyuan3D 2.0 para generación de modelos 3D texturizados
  • HunyuanVideo para video impulsado por IA
  • Hunyuan-A13B, un modelo de lenguaje con razonamiento dinámico

Esta nueva herramienta representa un avance significativo en la democratización de la creación de contenido 3D, ofreciendo a desarrolladores y creadores una alternativa gratuita y poderosa para generar mundos virtuales directamente desde descripciones textuales.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí