La nueva herramienta de ChatGPT permite editar imágenes con simples comandos de texto, eliminando las barreras técnicas para manipular fotos de manera convincente
Durante la mayor parte de los aproximadamente 200 años de historia de la fotografía, alterar una foto de manera convincente requería un cuarto oscuro, experiencia en Photoshop o, como mínimo, una mano firme con tijeras y pegamento. El martes, OpenAI lanzó una herramienta que reduce todo el proceso a escribir una simple oración.

Aunque no es la primera empresa en hacerlo, OpenAI finalmente ha puesto a disposición pública su GPT Image 1.5, un modelo de síntesis de imágenes con IA que supuestamente genera imágenes hasta cuatro veces más rápido que su predecesor y cuesta aproximadamente 20% menos a través de la API.
La respuesta a Google Gemini
Mientras OpenAI había estado trabajando en un modelo conversacional de edición de imágenes desde GPT-4o en 2024, Google se adelantó al mercado en marzo con un prototipo público, que luego refinó en un popular modelo llamado Nano Banana (y posteriormente Nano Banana Pro). La respuesta entusiasta de la comunidad de IA al modelo de edición de imágenes de Google llamó la atención de OpenAI.
El momento del lanzamiento parece una respuesta directa a los avances técnicos de Google en IA, incluido un crecimiento masivo en la base de usuarios de chatbots. En particular, el modelo Nano Banana de Google se volvió popular en las redes sociales después de su lanzamiento en agosto, gracias a su capacidad para renderizar texto con relativa claridad y preservar rostros de manera consistente en las ediciones.
Tecnología «multimodal nativa»
GPT Image 1.5 es notable porque es un modelo de imagen «multimodal nativo», lo que significa que la generación de imágenes ocurre dentro de la misma red neuronal que procesa las indicaciones de lenguaje. En contraste, DALL-E 3, un generador de imágenes anterior de OpenAI anteriormente integrado en ChatGPT, utilizaba una técnica diferente llamada difusión para generar imágenes.
Este tipo de modelo más nuevo trata las imágenes y el texto como el mismo tipo de cosa: fragmentos de datos llamados «tokens» que deben predecirse, patrones que deben completarse. Si subes una foto de tu padre y escribes «ponlo en un esmoquin en una boda», el modelo procesa tus palabras y los píxeles de la imagen en un espacio unificado, luego genera nuevos píxeles de la misma manera que generaría la siguiente palabra en una oración.
Utilizando esta técnica, GPT Image 1.5 puede alterar la realidad visual más fácilmente que los modelos de imágenes de IA anteriores, cambiando la pose o posición de alguien, o renderizando una escena desde un ángulo ligeramente diferente, con grados variables de éxito.
Capacidades avanzadas de edición
El modelo puede:
- Remover objetos de las imágenes
- Cambiar estilos visuales
- Ajustar ropa y accesorios
- Refinar áreas específicas mientras preserva el parecido facial a través de ediciones sucesivas
- Mantener conversaciones sobre una fotografía, refinando y revisando igual que se haría con un borrador de email en ChatGPT
Fidji Simo, CEO de aplicaciones de OpenAI, escribió que la interfaz de chat de ChatGPT nunca fue diseñada para trabajo visual. «Crear y editar imágenes es un tipo diferente de tarea y merece un espacio construido para visuales», escribió Simo. Para eso, OpenAI introdujo un espacio dedicado de creación de imágenes en la barra lateral de ChatGPT con filtros preestablecidos e indicaciones trending.
La fricción sigue disminuyendo
GPT Image 1.5 no es perfecto. En pruebas breves, no siempre siguió muy bien las direcciones de las indicaciones. Pero cuando funciona, los resultados parecen más convincentes y detallados que el modelo de imagen multimodal anterior de OpenAI.
Es importante recordar que las barreras para la edición y manipulación realista de fotos siguen cayendo. Este tipo de manipulación de imágenes con IA sin esfuerzo, realista y fluida puede provocar una recalibración cultural de lo que significan las imágenes visuales para la sociedad.
Durante la mayor parte de la historia de la fotografía, una falsificación convincente requería habilidad, tiempo y recursos. Esas barreras hacían que la falsificación fuera lo suficientemente rara como para que pudiéramos tratar muchas fotografías como un proxy razonable de la verdad. Esa era ha terminado debido a la IA, pero GPT Image 1.5 parece eliminar aún más de la fricción restante.
Mejoras en renderizado de texto
El renderizado de texto ha sido una debilidad persistente en los generadores de imágenes que ha mejorado lentamente. OpenAI dice que GPT Image 1.5 puede manejar texto más denso y pequeño. La publicación del blog de la empresa incluye una demostración donde el modelo generó una imagen de un periódico con un artículo de varios párrafos, completo con titulares, firma, tablas de referencia y texto del cuerpo que permanece legible a nivel de párrafo.

Preocupaciones sobre el uso indebido
La capacidad de preservar el parecido facial a través de ediciones tiene una utilidad obvia para la edición legítima de fotos y un potencial igualmente obvio para el mal uso. Los generadores de imágenes ya se han usado para crear imágenes íntimas no consensuales y para hacerse pasar por personas reales.
Con esos peligros en mente, los generadores de imágenes de OpenAI siempre han incluido un filtro que generalmente bloquea salidas sexuales o violentas. Pero aún es posible crear imágenes embarazosas de personas sin su consentimiento mientras se evitan esos temas. La empresa dice que las imágenes generadas incluyen metadatos C2PA que las identifican como creadas por IA, aunque esos datos pueden eliminarse al volver a guardar el archivo.
El futuro de la generación de imágenes
OpenAI reconoció en su publicación de blog que el nuevo modelo aún tiene problemas, incluido el soporte limitado para ciertos estilos de dibujo y errores al generar imágenes que requieren precisión científica. Pero creen que mejorará con el tiempo. «Creemos que aún estamos al comienzo de lo que la generación de imágenes puede permitir», escribió la empresa.
Si los últimos tres años de progreso en síntesis de imágenes son una indicación, pueden estar en lo correcto. El modelo está ahora disponible para todos los usuarios de ChatGPT, representando otro paso hacia hacer que la manipulación de imágenes fotorrealistas sea un proceso casual que no requiere habilidades visuales particulares.








