Alibaba ha lanzado Qwen-Image-Edit, la versión especializada en edición del innovador modelo de generación de imágenes Qwen-Image que vio la luz a principios de este mes. Este nuevo modelo, construido sobre la base de 20 mil millones de parámetros de Qwen-Image, destaca por su capacidad excepcional en la edición precisa de textos, así como en la sofisticada edición de apariencia visual y semántica.

Edición multilingüe avanzada

El modelo soporta la edición de texto tanto en inglés como en chino, permitiendo a los usuarios agregar, eliminar o modificar texto dentro de las imágenes de manera fluida, mientras preserva el tamaño y estilo de fuente originales.

Más allá del texto, Qwen-Image-Edit admite edición detallada de la apariencia visual, como agregar, eliminar o alterar elementos visuales, manteniendo intactas regiones específicas de la imagen. También habilita edición semántica de alto nivel, incluyendo generación de personajes, rotación de objetos y transferencia de estilo, todo mientras mantiene la coherencia semántica y consistencia visual.

Rendimiento líder en la industria

El modelo alcanza rendimiento estado del arte (SOTA) a través de múltiples benchmarks, estableciéndose como un modelo fundacional poderoso para la edición de imágenes. Ahora está disponible como código abierto en Hugging Face, GitHub y la comunidad open-source ModelScope de Alibaba. Los usuarios también pueden experimentar con el modelo en Qwen Chat bajo la sección «Image Editing».

Capacidades excepcionales de renderizado de texto

Las extraordinarias capacidades de edición del modelo son posibles gracias a las poderosas capacidades de renderizado de texto de Qwen-Image. Con una comprensión profunda de estructuras lingüísticas complejas, Qwen-Image es capaz de producir resultados visualmente atractivos y semánticamente precisos, estableciéndose como un modelo líder en el campo.

Escaparate de una librería con un cartel que dice “New Arrivals This Week” y otro anuncio de “Author Meet And Greet on Saturday” con la foto de un autor. En la estantería se exhiben varios libros, incluyendo The Light Between Worlds, When Stars Are Scattered, The Silent Patient y The Night Circus, acompañados de un letrero que indica “Best-Selling Novels Here”.

A través de enfoques innovadores como ingeniería integral de datos, estrategias de aprendizaje progresivo, paradigmas mejorados de entrenamiento multitarea y optimización escalable de infraestructura, Qwen-Image ofrece precisión excepcional al renderizar texto intrincado dentro de imágenes generadas. Sobresale en escenarios desafiantes que involucran diseños de múltiples líneas, semántica a nivel de párrafo y detalles visuales de grano fino.

Ejemplo práctico

Un ejemplo de las capacidades del modelo puede verse en esta descripción: «Escaparate de librería. Un letrero muestra ‘New Arrivals This Week’. Abajo, una etiqueta de estante con el texto ‘Best-Selling Novels Here’. A un lado, un póster colorido anuncia ‘Author Meet And Greet on Saturday’ con un retrato central del autor. Hay cuatro libros en el estante: ‘The light between worlds’, ‘When stars are scattered’, ‘The silent patient’, ‘The night circus'».

Aplicaciones revolucionarias

Las capacidades de Qwen-Image-Edit incluyen:

  • Edición de texto precisa: Mantenimiento de fuentes y estilos originales
  • Restauración fotográfica: Eliminación o adición de objetos manteniendo coherencia visual
  • Edición semántica avanzada: Transformaciones complejas preservando la integridad de la imagen
  • Soporte multilingüe: Especialmente destacado en el renderizado de texto chino

Este lanzamiento representa un avance significativo en el campo de la inteligencia artificial aplicada a la edición de imágenes, ofreciendo herramientas profesionales accesibles tanto para desarrolladores como para usuarios finales a través de su disponibilidad en plataformas de código abierto.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí