Google lanza Veo 3, el modelo de IA más avanzado para crear videos con personas realistas, sonido sincronizado y música. Lo hemos probado a fondo.

Google acaba de dar un paso revolucionario en la generación de videos con inteligencia artificial. La semana pasada, la compañía presentó Veo 3, su modelo más avanzado de generación de video que puede crear clips de 8 segundos con efectos de sonido sincronizados y diálogos de audio, una primicia para las herramientas de IA de la empresa.

El modelo, que genera videos en resolución 720p basándose en descripciones de texto (llamadas «prompts») o imágenes fijas como entrada, representa lo que podría ser el generador de video para consumidores más capaz hasta la fecha, llevando la síntesis de video cerca de un punto donde se vuelve extremadamente difícil distinguir entre medios «auténticos» y generados por IA.

Flow: la nueva herramienta de cine con IA

Google también lanzó Flow, una herramienta online de creación cinematográfica con IA que combina Veo 3 con el generador de imágenes Imagen 4 de la compañía y el modelo de lenguaje Gemini, permitiendo a los creadores describir escenas en lenguaje natural y gestionar personajes, ubicaciones y estilos visuales en una interfaz web.

Ambas herramientas están ahora disponibles para suscriptores estadounidenses de Google AI Ultra, un plan que cuesta 250 dólares al mes y viene con 12.500 créditos. Los videos de Veo 3 cuestan 150 créditos por generación, permitiendo 83 videos en ese plan antes de agotarse. Créditos adicionales están disponibles al precio de 1 centavo por crédito en bloques de 25, 50 o 200 dólares. Esto equivale a aproximadamente 1,50 dólares por generación de video.

¿Cómo funciona Veo?

Como otros modelos modernos de generación de video, Veo 3 está construido sobre tecnología de difusión, el mismo enfoque que impulsa generadores de imágenes como Stable Diffusion y Flux. El proceso de entrenamiento funciona tomando videos reales y agregando progresivamente ruido hasta que se convierten en estática pura, luego enseña a una red neuronal a revertir este proceso paso a paso.

Durante la generación, Veo 3 comienza con ruido aleatorio y un prompt de texto, luego refina iterativamente ese ruido en un video coherente que coincide con la descripción.

DeepMind no revela exactamente de dónde obtuvo el contenido para entrenar Veo 3, pero YouTube es una fuerte posibilidad. Google es propietaria de YouTube, y DeepMind previamente le dijo a TechCrunch que los modelos de Google como Veo «pueden» estar entrenados con algún material de YouTube.

Un sistema de múltiples modelos

Es importante señalar que Veo 3 es un sistema compuesto por una serie de modelos de IA, incluyendo:

  • Un modelo de lenguaje grande (LLM) para interpretar prompts de usuario y asistir con la creación detallada de video
  • Un modelo de difusión de video para crear el video
  • Un modelo de generación de audio que aplica sonido al video

Medidas contra el mal uso

En un intento de prevenir el mal uso, DeepMind dice que está usando su tecnología de marca de agua propietaria, SynthID, para incrustar marcadores invisibles en los fotogramas que genera Veo 3. Estas marcas de agua persisten incluso cuando los videos son comprimidos o editados, ayudando potencialmente a las personas a identificar contenido generado por IA.

Google también censura ciertos prompts y salidas que violan el acuerdo de contenido de la compañía. Durante las pruebas, encontramos mensajes de «falla de generación» para videos que involucran material romántico y sexual, algunos tipos de violencia, menciones de ciertas propiedades de marcas registradas o con derechos de autor, algunos nombres de empresas, ciertas celebridades y algunos eventos históricos.

Poniendo Veo 3 a prueba

Quizás el mayor cambio con Veo 3 es la generación de audio integrada, aunque Meta previsualizó una capacidad similar de generación de audio con «Movie Gen» el pasado octubre, y los investigadores de IA han experimentado con usar IA para agregar bandas sonoras a videos silenciosos durante algún tiempo.

Nuevos prompts de audio

Veo 3 puede generar todo, desde sonidos de tráfico hasta música y diálogos de personajes, aunque nuestras pruebas tempranas revelan fallos ocasionales. Los espaguetis hacen sonidos crujientes cuando se comen, y en escenas con múltiples personas, el diálogo a veces proviene de la boca del personaje equivocado.

Pero en general, Veo 3 se siente como un cambio significativo en la calidad y coherencia de la síntesis de video sobre modelos de OpenAI, Runway, Minimax, Pika, Meta, Kling y Hunyuanvideo.

Ejemplos de generación

Los videos generados incluyen desde:

  • Un bárbaro musculoso hablando sobre equipos de televisión CRT:
  • Videos de fitness de los años 80 con modelos en mallas usando máscaras de hombre lobo
  • Comerciales de cerveza protagonizados por gatos
  • Entrevistas de noticias sobre diversos temas
  • Videos musicales en varios géneros

Intentos musicales

El generador de audio de Veo 3 puede crear música en varios géneros, aunque en la práctica, los resultados son típicamente simplistas. Aún así, es una nueva capacidad para los generadores de video de IA, incluyendo:

  • Música country de vaqueros de los años 50
  • Hair metal de los años 80
  • Jazz de los años 50 con cantantes de scat

Algunas fallas notables

Veo 3 de Google no es perfecto al sintetizar cada escenario debido a limitaciones de los datos de entrenamiento. Los generadores de video de IA siguen siendo fundamentalmente imitativos, haciendo predicciones basadas en patrones estadísticos en lugar de una verdadera comprensión de la física o cómo funciona el mundo.

Problemas comunes observados:

  • Confusión en diálogos: En escenas con múltiples personas, a veces confunde qué personaje está hablando
  • Partes del cuerpo imposibles: Morfos extraños y movimientos no plausibles
  • Problemas con conteo: Dificultad para mostrar números específicos con los dedos
  • Texto garbled: Los subtítulos a menudo aparecen distorsionados

La «singularidad cultural» se acerca

Ahora algunos podrían estar preocupados de que estemos en problemas como sociedad debido al potencial de engaño de este tipo de tecnología. Y hay una buena razón para preocuparse: la dieta de cultura pop estadounidense actualmente depende mucho de clips compartidos por extraños a través de redes sociales como TikTok, y ahora todo eso puede ser fácilmente falsificado.

Tales videos podrían ser (y fueron) manipulados antes a través de varios medios antes de Veo 3, pero ahora la barrera de entrada ha colapsado de requerir habilidades especializadas, software costoso y horas de trabajo meticuloso a simplemente escribir un prompt y esperar tres minutos.

El cambio fundamental

Lo que una vez requería un equipo de artistas de VFX o al menos al menos conocimientos intermedios de edición ahora está al alcance de cualquiera con una cuenta y unos pocos créditos. Esto marca un cambio profundo en el equilibrio entre producción profesional y amateur, poniendo herramientas antes reservadas a los grandes estudios en manos del usuario medio.

A medida que Veo 3 y herramientas similares se democratizan, también se plantea un desafío urgente: cómo discernir entre lo auténtico y lo generado. Aunque tecnologías como SynthID intentan mitigar el riesgo, la facilidad con la que se puede producir contenido hiperrealista amenaza con erosionar la confianza pública en los vídeos online, en un momento en el que la desinformación visual ya es un problema creciente.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí