La mayoría de los robots impulsados por IA utilizan cámaras para entender su entorno y aprender nuevas tareas. Sin embargo, entrenar robots con sonido se está convirtiendo en una práctica más accesible, ayudándolos a adaptarse a tareas y entornos donde la visibilidad es limitada.
Aunque la visión es importante, existen tareas cotidianas donde el sonido resulta más útil, como escuchar el chisporroteo de las cebollas en la sartén para saber si está a la temperatura correcta. Hasta ahora, entrenar robots con audio solo se había realizado en entornos de laboratorio altamente controlados, y estas técnicas habían quedado rezagadas frente a otros métodos de enseñanza de robots.
Investigadores del Laboratorio de Robótica e IA Incorporada de la Universidad de Stanford decidieron cambiar esto. Crearon un sistema para recolectar datos de audio, compuesto por una cámara GoPro y un agarre con un micrófono diseñado para filtrar el ruido de fondo. Los demostradores humanos usaron este agarre en diversas tareas domésticas, utilizando estos datos para enseñar a los brazos robóticos a ejecutar las tareas por sí mismos. Los nuevos algoritmos de entrenamiento ayudan a los robots a interpretar señales de audio para mejorar su rendimiento.
«Hasta ahora, los robots han estado entrenando con vídeos sin sonido», dice Zeyi Liu, estudiante de doctorado en Stanford y autor principal del estudio. «Pero hay muchos datos útiles en el audio».
Para probar la eficacia de los robots «escuchando», los investigadores eligieron cuatro tareas: voltear un bagel en una sartén, borrar una pizarra, unir dos tiras de velcro y verter dados de un vaso. En cada tarea, los sonidos proporcionan pistas que las cámaras o sensores táctiles no pueden captar, como saber si el borrador está en contacto adecuado con la pizarra o si el vaso contiene dados.
Después de demostrar cada tarea cientos de veces, el equipo comparó las tasas de éxito del entrenamiento con audio y solo con visión. Los resultados, publicados en un artículo en arXiv, mostraron mejoras significativas. En la prueba de los dados, el robot podía determinar el 27% de las veces si había dados en el vaso solo con visión, pero este porcentaje aumentó al 94% cuando se incluyó el sonido.
«Estamos facilitando el uso de audio recolectado ‘en el mundo real’, en lugar de estar restringidos a recolectarlo en el laboratorio, lo cual es más laborioso», comenta Shuran Song, directora del laboratorio.
El audio podría convertirse en una fuente de datos muy valiosa en la carrera por entrenar robots con IA. Los investigadores están enseñando a los robots más rápido que nunca mediante el aprendizaje por imitación, mostrando cientos de ejemplos de tareas en lugar de codificar cada una manualmente. Si se pudiera recolectar audio a gran escala, podría proporcionar a los robots un «sentido» completamente nuevo, ayudándolos a adaptarse rápidamente a entornos donde la visibilidad es limitada o inútil.
El audio presenta desafíos, como su utilidad limitada con objetos blandos o flexibles que no producen mucho sonido. Además, los robots tienen dificultades para filtrar el ruido de sus propios motores durante las tareas, ya que este ruido no está presente en los datos de entrenamiento producidos por humanos. Para solucionarlo, los investigadores agregaron sonidos de robots a los conjuntos de entrenamiento para que los robots aprendieran a ignorarlos.
El siguiente paso, según Liu, es mejorar los modelos con más datos, lo que podría implicar agregar más micrófonos, recolectar audio espacial e incorporar micrófonos en otros dispositivos de recolección de datos.