Inicio Arte OpenAI lanza GPT Image 1.5, el nuevo generador de imágenes que hace...

Guerrero bárbaro musculoso con atuendo primitivo y arma en la mano, apoyando un brazo sobre un televisor antiguo de tubo con la pantalla mostrando estática, en una escena oscura y dramática que mezcla fantasía épica y tecnología retro.

OpenAI lanza GPT Image 1.5, el nuevo generador de imágenes que hace extremadamente fácil falsificar fotografías

Por

19 de diciembre de 2025

La nueva herramienta de ChatGPT permite editar imágenes con simples comandos de texto, eliminando las barreras técnicas para manipular fotos de manera convincente

Durante la mayor parte de los aproximadamente 200 años de historia de la fotografía, alterar una foto de manera convincente requería un cuarto oscuro, experiencia en Photoshop o, como mínimo, una mano firme con tijeras y pegamento. El martes, OpenAI lanzó una herramienta que reduce todo el proceso a escribir una simple oración.

Captura de pantalla de la interfaz de ChatGPT mostrando una imagen original de un edificio circular y su transformación en una nave extraterrestre flotando sobre un patio de ladrillo, con un rayo de luz azul proyectado hacia el suelo.

Aunque no es la primera empresa en hacerlo, OpenAI finalmente ha puesto a disposición pública su GPT Image 1.5, un modelo de síntesis de imágenes con IA que supuestamente genera imágenes hasta cuatro veces más rápido que su predecesor y cuesta aproximadamente 20% menos a través de la API.

La respuesta a Google Gemini

Mientras OpenAI había estado trabajando en un modelo conversacional de edición de imágenes desde GPT-4o en 2024, Google se adelantó al mercado en marzo con un prototipo público, que luego refinó en un popular modelo llamado Nano Banana (y posteriormente Nano Banana Pro). La respuesta entusiasta de la comunidad de IA al modelo de edición de imágenes de Google llamó la atención de OpenAI.

El momento del lanzamiento parece una respuesta directa a los avances técnicos de Google en IA, incluido un crecimiento masivo en la base de usuarios de chatbots. En particular, el modelo Nano Banana de Google se volvió popular en las redes sociales después de su lanzamiento en agosto, gracias a su capacidad para renderizar texto con relativa claridad y preservar rostros de manera consistente en las ediciones.

Tecnología «multimodal nativa»

GPT Image 1.5 es notable porque es un modelo de imagen «multimodal nativo», lo que significa que la generación de imágenes ocurre dentro de la misma red neuronal que procesa las indicaciones de lenguaje. En contraste, DALL-E 3, un generador de imágenes anterior de OpenAI anteriormente integrado en ChatGPT, utilizaba una técnica diferente llamada difusión para generar imágenes.

Este tipo de modelo más nuevo trata las imágenes y el texto como el mismo tipo de cosa: fragmentos de datos llamados «tokens» que deben predecirse, patrones que deben completarse. Si subes una foto de tu padre y escribes «ponlo en un esmoquin en una boda», el modelo procesa tus palabras y los píxeles de la imagen en un espacio unificado, luego genera nuevos píxeles de la misma manera que generaría la siguiente palabra en una oración.

Utilizando esta técnica, GPT Image 1.5 puede alterar la realidad visual más fácilmente que los modelos de imágenes de IA anteriores, cambiando la pose o posición de alguien, o renderizando una escena desde un ángulo ligeramente diferente, con grados variables de éxito.

Capacidades avanzadas de edición

El modelo puede:

Remover objetos de las imágenes
Cambiar estilos visuales
Ajustar ropa y accesorios
Refinar áreas específicas mientras preserva el parecido facial a través de ediciones sucesivas
Mantener conversaciones sobre una fotografía, refinando y revisando igual que se haría con un borrador de email en ChatGPT

Fidji Simo, CEO de aplicaciones de OpenAI, escribió que la interfaz de chat de ChatGPT nunca fue diseñada para trabajo visual. «Crear y editar imágenes es un tipo diferente de tarea y merece un espacio construido para visuales», escribió Simo. Para eso, OpenAI introdujo un espacio dedicado de creación de imágenes en la barra lateral de ChatGPT con filtros preestablecidos e indicaciones trending.

La fricción sigue disminuyendo

GPT Image 1.5 no es perfecto. En pruebas breves, no siempre siguió muy bien las direcciones de las indicaciones. Pero cuando funciona, los resultados parecen más convincentes y detallados que el modelo de imagen multimodal anterior de OpenAI.

Es importante recordar que las barreras para la edición y manipulación realista de fotos siguen cayendo. Este tipo de manipulación de imágenes con IA sin esfuerzo, realista y fluida puede provocar una recalibración cultural de lo que significan las imágenes visuales para la sociedad.

Durante la mayor parte de la historia de la fotografía, una falsificación convincente requería habilidad, tiempo y recursos. Esas barreras hacían que la falsificación fuera lo suficientemente rara como para que pudiéramos tratar muchas fotografías como un proxy razonable de la verdad. Esa era ha terminado debido a la IA, pero GPT Image 1.5 parece eliminar aún más de la fricción restante.

Mejoras en renderizado de texto

El renderizado de texto ha sido una debilidad persistente en los generadores de imágenes que ha mejorado lentamente. OpenAI dice que GPT Image 1.5 puede manejar texto más denso y pequeño. La publicación del blog de la empresa incluye una demostración donde el modelo generó una imagen de un periódico con un artículo de varios párrafos, completo con titulares, firma, tablas de referencia y texto del cuerpo que permanece legible a nivel de párrafo.

Periódico abierto sobre una mesa de madera con el titular ‘Introducing GPT-5.2’, mostrando un artículo informativo y una tabla de benchmarks que comparan el rendimiento del modelo en distintas tareas profesionales.

Preocupaciones sobre el uso indebido

La capacidad de preservar el parecido facial a través de ediciones tiene una utilidad obvia para la edición legítima de fotos y un potencial igualmente obvio para el mal uso. Los generadores de imágenes ya se han usado para crear imágenes íntimas no consensuales y para hacerse pasar por personas reales.

Con esos peligros en mente, los generadores de imágenes de OpenAI siempre han incluido un filtro que generalmente bloquea salidas sexuales o violentas. Pero aún es posible crear imágenes embarazosas de personas sin su consentimiento mientras se evitan esos temas. La empresa dice que las imágenes generadas incluyen metadatos C2PA que las identifican como creadas por IA, aunque esos datos pueden eliminarse al volver a guardar el archivo.

El futuro de la generación de imágenes

OpenAI reconoció en su publicación de blog que el nuevo modelo aún tiene problemas, incluido el soporte limitado para ciertos estilos de dibujo y errores al generar imágenes que requieren precisión científica. Pero creen que mejorará con el tiempo. «Creemos que aún estamos al comienzo de lo que la generación de imágenes puede permitir», escribió la empresa.

Si los últimos tres años de progreso en síntesis de imágenes son una indicación, pueden estar en lo correcto. El modelo está ahora disponible para todos los usuarios de ChatGPT, representando otro paso hacia hacer que la manipulación de imágenes fotorrealistas sea un proceso casual que no requiere habilidades visuales particulares.

Fuente

OpenAI lanza GPT Image 1.5, el nuevo generador de imágenes que hace extremadamente fácil falsificar fotografías

La nueva herramienta de ChatGPT permite editar imágenes con simples comandos de texto, eliminando las barreras técnicas para manipular fotos de manera convincente

La respuesta a Google Gemini

Tecnología «multimodal nativa»

Capacidades avanzadas de edición

La fricción sigue disminuyendo

Mejoras en renderizado de texto

Preocupaciones sobre el uso indebido

El futuro de la generación de imágenes

DEJA UNA RESPUESTA Cancelar respuesta

Incluso más noticias

La Fuerza Espacial de EE.UU. usa cartas estilo Magic para revelar...

Investigadores de UCSB desarrollan pantalla táctil que permite sentir las imágenes

Larian Studios usa IA generativa para Divinity pero promete no despedir...

CATEGORÍA POPULAR

Adobe ofrece su aplicación de pintura de forma gratuita para competir...

DeepSeek desarrolla un sistema de archivos Linux para un mejor rendimiento...

Detección temprana de cáncer cerebral, mascarillas inteligentes, carne de laboratorio, paseo...

Dispositivo blando robótico mejora la marcha de personas con enfermedad de...