La nueva herramienta promete automatizar tareas complejas de múltiples pasos, desde planificar citas hasta crear presentaciones corporativas

OpenAI está apostando fuerte por la tendencia más promocionada en inteligencia artificial: los agentes de IA, herramientas que van más allá de los chatbots tradicionales para completar tareas complejas y de múltiples pasos en nombre del usuario. La compañía presentó el jueves ChatGPT Agent, una herramienta que puede realizar trabajo utilizando su propia «computadora virtual».

Un modelo especializado para tareas complejas

En una demostración exclusiva, Yash Kumar y Isa Fulford —líder de producto e investigación de ChatGPT Agent, respectivamente— explicaron que la herramienta está impulsada por un nuevo modelo desarrollado específicamente para este producto. La compañía asegura que puede realizar tareas como revisar el calendario del usuario para informarle sobre próximas reuniones con clientes, planificar y comprar ingredientes para preparar un desayuno familiar, y crear presentaciones basadas en análisis de empresas competidoras.

El modelo detrás de ChatGPT Agent, que no tiene un nombre específico, fue entrenado en tareas complejas que requieren múltiples herramientas —como navegador de texto, navegador visual y terminal donde los usuarios pueden importar sus propios datos— mediante aprendizaje por refuerzo, la misma técnica utilizada para todos los modelos de razonamiento de OpenAI.

Combinando capacidades existentes

ChatGPT Agent combina las capacidades tanto de Operator como de Deep Research, dos herramientas de IA existentes de OpenAI. Para desarrollar esta nueva herramienta, la compañía fusionó los equipos detrás de ambos productos en un equipo unificado de entre 20 y 35 personas en producto e investigación.

Durante la demostración, Kumar y Fulford mostraron casos de uso potenciales, como pedirle que planifique una cita nocturna conectándose a Google Calendar para ver cuándo el usuario tiene una tarde libre, y luego consultando OpenTable para encontrar disponibilidad en ciertos tipos de restaurantes. También demostraron cómo un usuario podría interrumpir el proceso agregando otra categoría de restaurante para buscar.

Casos de uso prácticos

Fulford comentó que disfrutaba utilizarla para compras en línea porque la combinación de tecnologías detrás de Deep Research y Operator funcionaba mejor y era más exhaustiva que intentar el proceso usando solo Operator. Kumar mencionó que había comenzado a usar ChatGPT Agent para automatizar pequeñas partes de su vida, como solicitar estacionamiento de oficina en OpenAI cada jueves en lugar de llegar el lunes habiendo olvidado solicitarlo.

Kumar explicó que, dado que ChatGPT Agent tiene acceso a «una computadora completa» en lugar de solo un navegador, han «mejorado significativamente el conjunto de herramientas».

Velocidad versus capacidad

Según la demostración, la herramienta puede ser algo lenta. Cuando se le preguntó sobre la latencia, Kumar dijo que su equipo se enfoca más en «optimizar para tareas difíciles» y que los usuarios no están destinados a sentarse y observar trabajar a ChatGPT Agent.

«Incluso si toma 15 minutos, media hora, es una aceleración considerable comparado con el tiempo que te tomaría hacerlo», dijo Fulford, agregando que el equipo de búsqueda de OpenAI se enfoca más en casos de uso de baja latencia. «Es una de esas cosas donde puedes iniciar algo en segundo plano y luego regresar a ello».

Medidas de seguridad

Antes de que ChatGPT Agent haga cualquier cosa «irreversible», como enviar un email o hacer una reserva, solicita permiso primero, explicó Fulford.

Dado que el modelo detrás de la herramienta tiene capacidades aumentadas, OpenAI activó las salvaguardas que creó para «altas capacidades biológicas y químicas», aunque la compañía dijo que no tiene «evidencia directa de que el modelo pueda ayudar significativamente a un novato a crear daño biológico o químico severo» en forma de armas.

Restricciones financieras y modo vigilancia

Cuando se le preguntó si la herramienta puede realizar transacciones financieras, Kumar dijo que esas acciones han sido restringidas «por ahora», y que existe una protección adicional llamada Watch Mode: si un usuario navega a cierta categoría de páginas web, como sitios financieros, no debe alejarse de la pestaña que ChatGPT Agent está operando o la herramienta dejará de funcionar.

Disponibilidad y lanzamiento

OpenAI comenzará a implementar la herramienta hoy para usuarios Pro, Plus y Team —selecciona «agent mode» en el menú de herramientas o escribe «/agent» para acceder— y la compañía dice que la hará disponible para usuarios de ChatGPT Enterprise y Education más adelante este verano. Aún no hay cronograma de lanzamiento para el Área Económica Europea y Suiza.

La carrera por los agentes de IA

El concepto de agentes de IA ha sido una tendencia llamativa en la industria durante años. El ideal hacia el que trabajan los desarrolladores es algo como J.A.R.V.I.S. de Iron Man, una herramienta que puede realizar funciones laborales específicas, revisar calendarios para el mejor momento para programar un evento, comprar un regalo basado en las preferencias de un amigo, y más.

El término «agente de IA» se volvió más común para inversores y ejecutivos tecnológicos en 2023 y rápidamente ganó velocidad, especialmente después de que la empresa fintech Klarna anunciara en febrero de 2024 que en solo un mes de operación, su propio agente de IA había manejado dos tercios de sus chats de servicio al cliente —el equivalente a 700 trabajadores humanos de tiempo completo.

Competencia en el mercado

El debut de ChatGPT Agent de OpenAI sigue a su lanzamiento en enero de Operator, que la compañía promocionó como «un agente que puede ir a la web para realizar tareas por ti» ya que fue entrenado para manejar botones, campos de texto y más de internet.

También es parte de una tendencia más amplia en IA, ya que compañías grandes y pequeñas persiguen agentes de IA que capturarán la atención de los consumidores. En octubre pasado, Anthropic lanzó una herramienta similar llamada «Computer Use», que promocionó como una herramienta que podía usar una computadora de la misma manera que lo haría un humano para completar tareas.

Múltiples compañías de IA, incluyendo OpenAI, Google y Perplexity, también ofrecen una herramienta de IA que las tres han denominado Deep Research, denotando un agente de IA que puede escribir análisis e informes de investigación considerables sobre cualquier cosa que un usuario desee.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí