Google DeepMind ha presentado dos nuevos modelos de inteligencia artificial, diseñados para revolucionar la forma en que los robots interactúan con el mundo físico. Con el lanzamiento de Gemini Robotics, la compañía busca aumentar la capacidad de los robots para razonar y actuar de manera más inteligente.

Los nuevos modelos, que se basan en la tecnología de Google Gemini, fueron creados para integrar información multimodal, permitiendo que los robots comprendan y respondan a órdenes orales, visuales o escritas. Este avance se centra en la posibilidad de que los robots realicen tareas complejas, como se mostró en un vídeo de demostración donde un brazo robótico recoge una miniatura de baloncesto y la coloca en una red, siguiendo instrucciones simples. Según el ingeniero principal del proyecto, Kanishka Rao, este avance resalta la capacidad del robot para generalizar conceptos a partir de un entendimiento básico de un juego que nunca había visto antes.

Avances clave de Gemini Robotics

Carolina Parada, responsable de robótica en Google DeepMind, destacó que los nuevos modelos mejoran en tres áreas cruciales:

  • Generalización: La capacidad de un robot de aplicar conceptos aprendidos en un contexto a situaciones nuevas. Esto incluye adaptarse a cambios de color en los objetos o a diferentes maneras de formular instrucciones.

  • Adaptabilidad: Los robots pueden ajustarse a cambios en las instrucciones. En una de las demostraciones, un brazo robótico siguió un contenedor que se movía sobre la mesa, manteniendo su objetivo de colocar objetos en él.

  • Destreza: Los brazos robóticos demostraron habilidades delicadas, como plegar papel en formas de origami, aunque estas habilidades fueron desarrolladas dentro de un contexto altamente controlado y específico.

Introducción de la «razonamiento incorporado»

El segundo modelo, Gemini Robotics-ER (razonamiento incorporado), busca emular la intuición física que desarrollan los humanos con la experiencia. Parada mostró cómo el modelo podían determinar el punto ideal para agarrar una taza de café, enfocándose en el asa. Sin embargo, también subrayó que el entrenamiento centrado en humanos podría limitar su aplicabilidad en situaciones con diferentes propiedades físicas.

Enfoque en la seguridad robótica

El equipo de Gemini Robotics implementó un enfoque en capas para la seguridad. Esto incluye controles físicos para evitar colisiones y sistemas de «seguridad semántica» que evalúan las instrucciones y sus posibles consecuencias. Vikas Sindhwani, líder de seguridad robótica en el proyecto, comentó que DeepMind está publicando un nuevo conjunto de datos y el Asimov benchmark, destinado a evaluar las reglas del sentido común en el uso de los robots.

Asociaciones estratégicas

Desde diciembre, DeepMind ha estado colaborando con la empresa de robótica humanoide Apptronik, trabajando en el desarrollo de la próxima generación de robots. Además, los modelos estarán disponibles para un grupo selecto de «probadores de confianza», incluyendo compañías como Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. Con estos avances, Google DeepMind afirma que Gemini Robotics está preparado para liderar el camino hacia una nueva era de robots que son más inteligentes, adaptables y seguros en su interacción con el mundo físico.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí