Nuevos auriculares con Inteligencia Artificial permiten escuchar a un interlocutor en medio de una multitud

Los auriculares con cancelación de ruido han avanzado significativamente en la creación de un entorno auditivo en blanco. Sin embargo, permitir que ciertos sonidos del entorno del usuario pasen a través de esta cancelación sigue siendo un desafío para los investigadores. La última edición de los AirPods Pro de Apple, por ejemplo, ajusta automáticamente los niveles de sonido para los usuarios, detectando cuándo están en una conversación, pero el usuario tiene poco control sobre a quién escuchar o cuándo ocurre esto.

Un equipo de la Universidad de Washington ha desarrollado un sistema de inteligencia artificial que permite a un usuario con auriculares mirar a una persona que está hablando durante tres a cinco segundos para «inscribirla». El sistema, llamado «Target Speech Hearing» (TSH), cancela todos los demás sonidos del entorno y reproduce solo la voz del hablante inscrito en tiempo real, incluso cuando el oyente se mueve por lugares ruidosos y ya no está frente al hablante.

El equipo presentó sus hallazgos el 14 de mayo en Honolulu, en la Conferencia ACM CHI sobre Factores Humanos en Sistemas de Computación. El código del dispositivo de prueba de concepto está disponible para que otros lo desarrollen. El sistema no está disponible comercialmente.

«Ahora tendemos a pensar en la IA como chatbots web que responden preguntas,» dijo Shyam Gollakota, autor principal y profesor en la Escuela de Ciencias e Ingeniería de Computación Paul G. Allen de la UW. «Pero en este proyecto, desarrollamos una IA para modificar la percepción auditiva de cualquier persona que use auriculares, según sus preferencias. Con nuestros dispositivos, ahora puedes escuchar claramente a un solo hablante, incluso si estás en un entorno ruidoso con mucha gente hablando.»

Para usar el sistema, una persona con auriculares estándar equipados con micrófonos presiona un botón mientras dirige su cabeza hacia alguien que está hablando. Las ondas sonoras de la voz de ese hablante deberían llegar a los micrófonos en ambos lados del auricular simultáneamente; hay un margen de error de 16 grados. Los auriculares envían esa señal a una computadora integrada, donde el software de aprendizaje automático del equipo aprende los patrones vocales del hablante deseado. El sistema se enfoca en la voz de ese hablante y continúa reproduciéndola al oyente, incluso mientras ambos se mueven. La capacidad del sistema para centrarse en la voz inscrita mejora a medida que el hablante sigue hablando, proporcionando más datos de entrenamiento al sistema.

El equipo probó su sistema en 21 sujetos, quienes calificaron la claridad de la voz del hablante inscrito casi el doble de alta que el audio sin filtrar en promedio.

Este trabajo se basa en la investigación previa del equipo sobre «audición semántica,» que permitía a los usuarios seleccionar clases de sonidos específicos, como aves o voces, que querían escuchar, cancelando otros sonidos del entorno.

Actualmente, el sistema TSH solo puede inscribir a un hablante a la vez y solo puede inscribir a un hablante cuando no hay otra voz fuerte proveniente de la misma dirección que la voz del hablante objetivo. Si un usuario no está satisfecho con la calidad del sonido, puede realizar otra inscripción en el hablante para mejorar la claridad.

El equipo está trabajando para expandir el sistema a auriculares internos y audífonos en el futuro.

Fuente

Las últimas noticias en nuestro podcast semanal

Comentarios

No hay comentarios aún. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.