Meta anuncia un nuevo modelo de IA que puede generar video con sonido

Meta ha presentado Meta Movie Gen, una innovadora investigación en inteligencia artificial generativa que busca revolucionar la creación de contenido audiovisual. Este nuevo avance permite generar videos y sonidos personalizados a partir de entradas de texto, así como editar videos existentes y transformar imágenes personales en videos únicos. La empresa destaca que Movie Gen supera a otros modelos en el sector cuando es evaluado por humanos.

Este proyecto se enmarca dentro del continuo esfuerzo de Meta por compartir avances en inteligencia artificial con la comunidad. Su primer trabajo importante en este campo fue la serie de modelos Make-A-Scene, que permitió la creación de imágenes, videos, audios y animaciones 3D. Posteriormente, con la llegada de los modelos de difusión, desarrollaron Llama Image, que mejoró la generación de imágenes y videos, además de ofrecer herramientas de edición. Movie Gen representa una tercera ola de avances, integrando múltiples modalidades y permitiendo un control más preciso en la creación de contenido.

Aunque esta tecnología tiene muchas aplicaciones emocionantes, Meta deja claro que no pretende sustituir el trabajo de los artistas o animadores. La empresa busca proporcionar herramientas que permitan a las personas expresar su creatividad de maneras nuevas, abriendo oportunidades a quienes de otra forma no podrían acceder a ellas. Su visión a futuro es que cualquier persona pueda realizar sus propias creaciones artísticas en formato de video o audio de alta definición.

Movie Gen se presenta como la suite de modelos más avanzada para la narración visual, con cuatro capacidades clave: generación de video, generación personalizada de video, edición precisa de video y generación de audio. Estos modelos han sido entrenados con una combinación de conjuntos de datos licenciados y disponibles públicamente, ofreciendo un rendimiento técnico superior. Puedes consultar el paper desde aquí.

  1. Generación de video: A partir de un texto, Movie Gen usa un modelo optimizado para transformar texto en imágenes y videos de alta calidad. Este modelo, con 30 mil millones de parámetros, puede generar videos de hasta 16 segundos, a 16 fotogramas por segundo, y es capaz de gestionar el movimiento de objetos y cámaras de manera realista.
  2. Generación personalizada de video: Esta función combina una imagen de la persona con un texto para generar un video en el que el sujeto aparece, respetando tanto la identidad como el movimiento humano. Esto sitúa al modelo como el mejor en su categoría para la creación de videos personalizados.
  3. Edición de video: El modelo también permite la edición avanzada de videos, tomando como entrada tanto un video como un texto. Realiza modificaciones precisas, como añadir, eliminar o cambiar elementos de una escena, o realizar cambios más amplios como modificar el fondo o el estilo, todo ello manteniendo intacto el contenido original.
  4. Generación de audio: El modelo de audio, con 13 mil millones de parámetros, genera sonidos de alta calidad y fidelidad, sincronizados con el video. Esto incluye sonidos ambientales, efectos de sonido y música de fondo instrumental, con una técnica de extensión que permite generar audio coherente para videos de cualquier duración.

En cuanto a su desarrollo, Meta ha implementado varias innovaciones técnicas en la arquitectura del modelo, los objetivos de entrenamiento y la optimización de la inferencia. Los resultados de estos avances se evidencian en las evaluaciones A/B realizadas, donde humanos prefieren consistentemente los resultados de Movie Gen frente a otros modelos del sector.

    Si bien Meta Movie Gen tiene un gran potencial, sus desarrolladores reconocen que aún existen limitaciones. Planean seguir optimizando los tiempos de inferencia y mejorar la calidad del modelo en futuras iteraciones. Asimismo, Meta trabajará en colaboración con cineastas y creadores para integrar sus comentarios y asegurarse de que estas herramientas potencien su creatividad de manera significativa.

    Las últimas noticias en nuestro podcast semanal

    Comentarios

    No hay comentarios aún. ¿Por qué no comienzas el debate?

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.