VASA-1 utiliza algoritmos avanzados de procesamiento de imágenes y síntesis de voz para crear animaciones realistas de ‘caras parlantes’ a partir de fotografías estáticas. A través de esta tecnología, las personas podrán ver a sus seres queridos ‘hablar’ en videos familiares, dar vida a personajes de dibujos animados o incluso crear presentaciones empresariales más dinámicas.
Un reciente documento de investigación de Microsoft ha revelado el desarrollo de VASA-1, un modelo de inteligencia artificial capaz de convertir una simple foto de retrato y un archivo de audio en un video de una cara hablante con sincronización labial y movimientos de cabeza hiperrealistas. Este modelo, que aún se encuentra en fase de investigación y no está disponible para el público externo, ha demostrado un nivel de calidad y realismo impresionantes en sus videos de demostración.
La tecnología de sincronización labial y movimiento de cabeza no es nueva y ya ha sido implementada por empresas como Runway y Nvidia. Sin embargo, VASA-1 parece superar estas tecnologías en términos de calidad y realismo, minimizando los artefactos alrededor de la boca, un problema común en modelos anteriores. Esta aproximación a la animación dirigida por audio también guarda similitudes con el modelo VLOGGER AI de Google Research.
Microsoft ha descrito a VASA-1 como un nuevo marco para la creación de caras parlantes realistas, orientado especialmente a la animación de personajes virtuales. En los ejemplos proporcionados, todas las personas eran sintéticas, creadas usando DALL-E. Sin embargo, si el modelo puede animar una imagen de IA realista, también debería poder hacerlo con fotos reales.
En las demostraciones, se observa a personas hablando como si estuvieran siendo filmadas, con movimientos ligeramente entrecortados pero de apariencia natural. La sincronización labial es particularmente notable, con movimientos suaves y sin artefactos visibles en la zona de la boca.
Una de las características más destacadas de VASA-1 es su capacidad para trabajar con imágenes que no necesariamente están orientadas de frente. Puede manejar imágenes tomadas desde varias direcciones y posee un alto grado de control sobre la dirección de la mirada, la distancia de la cabeza e incluso la emoción, para dirigir la generación del video.
VASA-1 tiene múltiples aplicaciones potenciales, desde la sincronización labial avanzada en videojuegos, que podría mejorar significativamente la inmersión, hasta la creación de avatares virtuales para vídeos en redes sociales. Otra área de aplicación podría ser la producción cinematográfica basada en IA, permitiendo la creación de videos musicales más realistas con cantantes virtuales.
A pesar de ser solo una demostración de investigación, el equipo de Microsoft ha mencionado que no hay planes de lanzamiento público ni de disponibilidad para desarrolladores, lo que ha generado cierta decepción ante el potencial no explotado del modelo.