Inicio » Ciencias » Basado en IA, una neuroprótesis cerebro-voz restaura el habla natural

Basado en IA, una neuroprótesis cerebro-voz restaura el habla natural

Desarrollado por dos universidades de California, un modelo basado en IA -se puede ver en un VIDEO- transmite voz inteligible desde el cerebro en tiempo real.

Marcando un gran avance en el campo de las interfaces cerebro-computadora (BCIs), un equipo de investigadores de UC Berkeley y UC San Francisco ha descubierto una forma de restaurar el habla naturalista para personas con parálisis severa.

Este trabajo resuelve el problema persistente de la latencia en las neuroprótesis del habla, el lapso de tiempo entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido.

Utilizando avances recientes en modelado basado en inteligencia artificial, los investigadores desarrollaron un método de transmisión que sintetiza señales cerebrales en voz audible casi en tiempo real.

Como se informó hoy en Nature Neuroscience , esta tecnología representa un paso crucial para facilitar la comunicación a las personas que han perdido la capacidad de hablar. El estudio cuenta con el apoyo del Instituto Nacional de la Sordera y Otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de la Salud.

“Nuestro enfoque de streaming incorpora la misma capacidad de decodificación rápida de voz de dispositivos como Alexa y Siri a las neuroprótesis”, afirmó Gopala Anumanchipalli, profesor adjunto Robert E. y Beverly A. Brooks de Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley y coinvestigador principal del estudio.

“Usando un algoritmo similar, descubrimos que podíamos decodificar datos neuronales y, por primera vez, permitir la transmisión de voz casi sincrónica. El resultado es una síntesis de voz más natural y fluida”.

“Esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de las personas que viven con parálisis grave que afecta el habla”, afirmó Edward Chang, neurocirujano de la UCSF y coinvestigador principal del estudio. Chang dirige un ensayo clínico en la UCSF cuyo objetivo es desarrollar tecnología de neuroprótesis del habla mediante conjuntos de electrodos de alta densidad que registran la actividad neuronal directamente desde la superficie cerebral.

“Es emocionante que los últimos avances en IA estén acelerando enormemente el uso práctico de las BCI en el mundo real en un futuro próximo”, concluyó.

Los investigadores también demostraron que su enfoque puede funcionar bien con una variedad de otras interfaces de detección cerebral, incluidas las matrices de microelectrodos (MEA) en las que los electrodos penetran la superficie del cerebro, o grabaciones no invasivas (sEMG) que utilizan sensores en la cara para medir la actividad muscular.

“Al demostrar una síntesis precisa de cerebro a voz en otros conjuntos de datos de habla silenciosa, demostramos que esta técnica no se limita a un tipo específico de dispositivo”, afirmó Kaylo Littlejohn, estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de UC Berkeley y coautora principal del estudio. “El mismo algoritmo puede utilizarse en diferentes modalidades, siempre que exista una buena señal”.

Descodificación de datos neuronales en voz

Según el coautor principal del estudio, Cheol Jun Cho, quien también es estudiante de doctorado en ingeniería eléctrica y ciencias de la computación en la UC Berkeley, la neuroprótesis funciona tomando muestras de datos neuronales de la corteza motora, la parte del cerebro que controla la producción del habla, y luego utiliza IA para decodificar la función cerebral en habla.

“Básicamente, interceptamos señales donde el pensamiento se traduce en articulación y en medio de ese control motor”, dijo. “Así que lo que decodificamos es después de que un pensamiento ha surgido, después de que hemos decidido qué decir, después de que hemos decidido qué palabras usar y cómo mover los músculos del tracto vocal”.

Para recolectar los datos necesarios para entrenar su algoritmo, los investigadores primero le pidieron a Ann, su sujeto, que mirara una indicación en la pantalla (como la frase: «Hola, ¿cómo estás?») y luego intentara decir esa oración en silencio.

“Esto nos proporcionó un mapeo entre las ventanas fragmentadas de actividad neuronal que ella genera y la oración objetivo que está tratando de decir, sin necesidad de vocalizar en ningún momento”, dijo Littlejohn.

Dado que Ann no tiene vocalización residual, los investigadores no contaban con un audio objetivo, o salida, al que pudieran asignar los datos neuronales, la entrada. Resolvieron este desafío utilizando IA para completar los detalles faltantes.

“Usamos un modelo de texto a voz preentrenado para generar audio y simular un objetivo”, dijo Cho. “Y también usamos la voz de Ann antes de la lesión, así que al decodificar la salida, suena más parecida a la suya”.

Transmisión de voz casi en tiempo real

En su estudio previo sobre BCI , los investigadores tuvieron una larga latencia para la decodificación, de aproximadamente 8 segundos de retraso para una sola oración. Con el nuevo enfoque de transmisión, se puede generar una salida audible casi en tiempo real, mientras el sujeto intenta hablar.

Para medir la latencia, los investigadores emplearon métodos de detección de voz, que les permitieron identificar las señales cerebrales que indican el inicio de un intento de habla.

«Podemos ver que, en relación con esa señal de intención, en un segundo, estamos obteniendo el primer sonido», dijo Anumanchipalli. «Y el dispositivo puede decodificar el habla continuamente, para que Ann pueda seguir hablando sin interrupciones».

Esta mayor velocidad no se redujo en precisión. La interfaz más rápida ofreció el mismo alto nivel de precisión de decodificación que su enfoque anterior, sin transmisión.

«Es prometedor», dijo Littlejohn. «Antes, no se sabía si el habla inteligible podía transmitirse desde el cerebro en tiempo real».

Anumanchipalli añadió que los investigadores no siempre saben si los sistemas de IA a gran escala están aprendiendo y adaptándose, o simplemente identificando patrones y repitiendo partes de los datos de entrenamiento. Por ello, los investigadores también probaron la capacidad del modelo en tiempo real para sintetizar palabras que no formaban parte del vocabulario del conjunto de datos de entrenamiento; en este caso, 26 palabras raras del alfabeto fonético de la OTAN, como «Alpha», «Bravo», «Charlie», etc.

“Queríamos ver si podíamos generalizar a las palabras invisibles y decodificar realmente los patrones de habla de Ann”, dijo. “Descubrimos que nuestro modelo lo hace bien, lo que demuestra que efectivamente está aprendiendo los componentes básicos del sonido o la voz”.

Ann, quien también participó en el estudio de 2023, compartió con los investigadores cómo su experiencia con el nuevo enfoque de síntesis de transmisión se compara con el método de decodificación de texto a voz del estudio anterior.

“Ella transmitió que la síntesis en streaming era una modalidad con mayor control voluntario”, dijo Anumanchipalli. “Escuchar su propia voz casi en tiempo real aumentó su sensación de personificación”. 

Direcciones futuras

Este último trabajo acerca a los investigadores un paso más a lograr un habla naturalista con dispositivos BCI, al tiempo que sienta las bases para futuros avances.

“Este marco de prueba de concepto es todo un avance”, afirmó Cho. “Somos optimistas y creemos que ahora podremos lograr avances en todos los niveles. En el ámbito de la ingeniería, por ejemplo, seguiremos desarrollando el algoritmo para ver cómo podemos generar voz mejor y más rápido”.

Los investigadores también siguen centrados en aumentar la expresividad de la voz de salida para reflejar los cambios de tono, timbre o volumen que ocurren durante el habla, como cuando alguien está emocionado.

“Este es un trabajo en curso para intentar ver qué tan bien podemos decodificar estas características paralingüísticas a partir de la actividad cerebral”, dijo Littlejohn. “Este es un problema de larga data, incluso en los campos de la síntesis de audio clásica, y permitiría alcanzar un naturalismo completo y completo”.

Además del NIDCD, esta investigación recibió apoyo del Programa de Investigación y Desarrollo Moonshot de la Agencia de Ciencia y Tecnología de Japón, la Fundación Joan y Sandy Weill, Susan y Bill Oberndorf, Ron Conway, Graham y Christina Spencer, la Fundación William K. Bowes, Jr., los programas Rose Hills Innovator y UC Noyce Investigator, y la Fundación Nacional de Ciencias.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com