Un avance en interfaces cerebro-computadora (BCI) marca una nueva era en la comunicación para personas con parálisis severa. Un equipo de investigadores de UC Berkeley y UC San Francisco ha desarrollado una tecnología que permite transmitir el habla de manera comprensible desde el cerebro en tiempo real.

Este avance resuelve un problema persistente en las neuroprótesis del habla: la latencia, es decir, el retraso entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido. Utilizando modelos de inteligencia artificial, los investigadores han creado un método de transmisión que sintetiza las señales cerebrales en habla audible casi en tiempo real.

Como se reportó en Nature Neuroscience, esta tecnología es un paso clave para habilitar la comunicación en personas que han perdido la capacidad de hablar, apoyada por el Instituto Nacional de la Sordera y otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de Salud.

Gopala Anumanchipalli, profesor asistente de Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley y co-investigador del estudio, comentó: “Nuestro enfoque de transmisión trae la misma capacidad rápida de decodificación del habla de dispositivos como Alexa y Siri a las neuroprótesis”. Gracias a un algoritmo similar, el equipo logró decodificar datos neurales y permitir, por primera vez, la transmisión de voz casi sincrónica, lo que resulta en una síntesis de habla más natural y fluida.

Edward Chang, neurocirujano en UCSF y co-principal investigador, destacó el potencial de esta tecnología para mejorar la calidad de vida de las personas con parálisis severa que afecta el habla. “Es emocionante que los avances más recientes en inteligencia artificial estén acelerando considerablemente el uso práctico de las BCI en un futuro cercano”, añadió.

Los investigadores demostraron que su enfoque también es efectivo con diferentes tipos de interfaces de detección cerebral, incluyendo arreglos de microelectrodos (MEAs) que penetran la superficie del cerebro, así como grabaciones no invasivas (sEMG) que utilizan sensores en la cara para medir la actividad muscular.

Decodificando datos neurales en habla

El funcionamiento de la neuroprótesis implica muestrear datos neurales del córtex motor, la parte del cerebro que controla la producción del habla, y utilizar inteligencia artificial para decodificar la función cerebral en habla. Cheol Jun Cho, co-líder del estudio y estudiante de doctorado en UC Berkeley, explicó que “interceptamos señales donde el pensamiento se traduce en articulación y en el medio de ese control motor”.

Para entrenar su algoritmo, los investigadores pidieron a su sujeto, Ann, que mirara un texto en la pantalla – como la frase «Hola, ¿cómo estás?» – y luego intentara hablar esa oración en silencio. Este proceso permitió crear un mapeo entre la actividad neural generada y la oración objetivo sin necesidad de que Ann vocalizara en ningún momento.

La falta de vocalización residual de Ann presentó un desafío porque no había un audio objetivo para mapear los datos neurales. Sin embargo, lograron utilizar inteligencia artificial para completar los detalles faltantes. “Usamos un modelo de texto a voz preentrenado para generar audio y simular un objetivo,” dijo Cho.

Un avance en la transmisión del habla en tiempo real

En estudios anteriores, los investigadores enfrentaron una latencia prolongada de aproximadamente 8 segundos para decodificar una sola oración. Con el nuevo enfoque de transmisión, se puede generar una salida audible casi en tiempo real mientras el sujeto intenta hablar.

“Podemos ver que, en relación con esa señal de intención, en menos de 1 segundo estamos generando el primer sonido,” explicó Anumanchipalli. “Y el dispositivo puede decodificar el habla continuamente, lo que permite que Ann siga hablando sin interrupciones.”

Este incremento en la velocidad no implicó una disminución en la precisión. El nuevo sistema mantuvo el mismo alto nivel de precisión en la decodificación que en el enfoque anterior. “Eso es prometedor,” afirmó Littlejohn, al mencionar que no se sabía si se podía transmitir habla inteligible desde el cerebro en tiempo real.

Además, los investigadores evaluaron la capacidad del modelo en tiempo real para sintetizar palabras no presentes en el vocabulario del conjunto de datos de entrenamiento, usando un conjunto de 26 palabras raras del alfabeto fonético NATO, como “Alpha” o “Bravo”. “Queríamos ver si podíamos generalizar a palabras no vistas y realmente decodificar los patrones de habla de Ann,” agregó.

Ann, quien también participó en el estudio de 2023, compartió su experiencia. “Transmitir síntesis era un modo de control volitivo más,” comentó. “Escuchar su propia voz en tiempo casi real aumentó su sentido de corporeidad.”

Direcciones futuras

Este último trabajo acerca a los investigadores a lograr un habla naturalista con dispositivos BCI, mientras sientan las bases para avances futuros.

“Este marco de prueba de concepto es un gran avance,” señaló Cho, quien se mostró optimista sobre la posibilidad de realizar mejoras continuas. “Desde el lado de la ingeniería, seguiremos empujando el algoritmo para ver cómo podemos generar habla de manera mejor y más rápida.”

Además, el equipo se enfoca en incorporar expressividad en la voz de salida, reflejando los cambios de tono, tono o volumen que ocurren durante el habla. Este esfuerzo busca abordar un problema de larga data en la síntesis de audio clásica y así cerrar la brecha hacia una naturalidad completamente completa.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí