OpenAI ha presentado Operator, un agente de inteligencia artificial diseñado para realizar tareas en la web de manera autónoma. Utilizando su propio navegador, Operator puede interactuar con páginas web mediante acciones como escribir, hacer clic y desplazarse. Actualmente, se encuentra en una fase de vista previa de investigación, lo que implica que tiene ciertas limitaciones y evolucionará en función del feedback de los usuarios. Operator es uno de los primeros agentes de OpenAI, capaces de ejecutar tareas de forma independiente al recibir instrucciones específicas.
Este agente puede encargarse de una amplia variedad de tareas repetitivas en el navegador, como completar formularios, hacer pedidos de comestibles o incluso crear memes. La capacidad de utilizar las mismas interfaces y herramientas que los humanos emplean diariamente amplía la utilidad de la inteligencia artificial, permitiendo a las personas ahorrar tiempo en tareas cotidianas y ofreciendo nuevas oportunidades de interacción para las empresas. Para garantizar un lanzamiento seguro y progresivo, Operator está disponible inicialmente para usuarios Pro en Estados Unidos, con planes de expandirse a otros niveles de suscripción y de integrarse en ChatGPT en el futuro.
Operator funciona gracias a un nuevo modelo llamado Computer-Using Agent (CUA), que combina las capacidades de visión de GPT-4o con un razonamiento avanzado mediante aprendizaje por refuerzo. CUA está entrenado para interactuar con interfaces gráficas de usuario, permitiendo a Operator «ver» mediante capturas de pantalla e «interactuar» con un navegador sin necesidad de integraciones API personalizadas. Si encuentra desafíos o comete errores, Operator puede corregirse automáticamente, y si se queda atascado, devuelve el control al usuario para asegurar una experiencia fluida y colaborativa.
El ecosistema de Operator transforma la inteligencia artificial de una herramienta pasiva a un participante activo en el entorno digital. Colaboramos con empresas como DoorDash, Instacart y Uber para asegurar que Operator aborde necesidades reales mientras respeta las normas establecidas. Además, estamos explorando aplicaciones en el sector público para mejorar la accesibilidad y eficiencia de ciertos flujos de trabajo. Al lanzar Operator a una audiencia limitada inicialmente, buscamos aprender rápidamente y refinar sus capacidades basándonos en el feedback del mundo real, equilibrando la innovación con la confianza y la seguridad.
La seguridad y privacidad son prioridades para Operator, con tres capas de salvaguardas para prevenir abusos y asegurar que los usuarios mantengan el control. Operator está entrenado para pedir confirmación antes de realizar acciones significativas y para rechazar tareas sensibles. Además, hemos facilitado la gestión de la privacidad de los datos, permitiendo a los usuarios eliminar datos de navegación y conversaciones pasadas con un solo clic. También hemos implementado defensas contra sitios web adversarios que podrían intentar engañar a Operator mediante inyecciones de prompts o código malicioso.
Aunque Operator está diseñado con estas salvaguardas, sigue siendo una vista previa de investigación y está en constante mejora mediante pruebas rigurosas y feedback del mundo real. Actualmente, Operator enfrenta desafíos con interfaces complejas y su precisión y fiabilidad mejorarán con el tiempo gracias a las aportaciones de los usuarios. En el futuro, planeamos ampliar el acceso a Operator a más usuarios y mejorar sus capacidades para manejar flujos de trabajo más largos y complejos, integrando sus capacidades directamente en ChatGPT para una ejecución de tareas en tiempo real y asincrónica.