IA-SPEAK – Inteligencia Artificial para la Rehabilitación del Habla

Descripción general del proyecto

El proyecto IA-SPEAK se centra en el desarrollo de un sistema inteligente de asistencia integral dirigido a personas que han perdido la capacidad de comunicarse oralmente de manera normal como consecuencia de un Daño Cerebral Adquirido (DCA), enfermedades neurodegenerativas o procesos asociados al envejecimiento. Entre los trastornos de la comunicación más frecuentes tras un DCA se encuentra la disartria, una alteración de la capacidad motora de los órganos implicados en la articulación del habla. Aunque las personas afectadas pueden elaborar un discurso coherente y bien estructurado, la articulación deficiente dificulta la comprensión por parte de los interlocutores. Esta limitación conlleva importantes barreras en la comunicación cotidiana, repercutiendo de forma negativa tanto en la calidad de vida de los afectados como en su plena integración social.

El sistema propuesto integra dos componentes principales: por un lado, una plataforma de rehabilitación inteligente, diseñada para facilitar la mejora del habla desde el hogar mediante ejercicios personalizados y seguimiento remoto; y por otro, un dispositivo de traducción en tiempo real, capaz de transformar la voz no estándar de la persona usuaria en un discurso comprensible para cualquier interlocutor. De este modo, el sistema actúa como un “interprete personal” que descifra la intención comunicativa y la convierte en un mensaje claro y accesible.

La relevancia de este proyecto radica en la carencia actual de soluciones tecnológicas efectivas para este colectivo. La mayoría de las terapias de rehabilitación del habla requieren asistencia frecuente a centros especializados, lo que limita la accesibilidad y supone una elevada demanda de recursos sanitarios. Además, cuando los pacientes logran cierta recuperación, su habla suele seguir presentando dificultades de comprensión para terceros, lo que mantiene barreras significativas de comunicación y favorece el aislamiento social.

El proyecto se desarrollará con la participación de 100 personas con trastornos del habla en distintas fases de recuperación, en colaboración con los centros ADACEN y la Clínica Ubarmin. A lo largo del proceso, se recopilarán y analizarán muestras de voz para identificar patrones específicos de disartria y otras alteraciones de habla. Estos datos servirán como base para el diseño y entrenamiento de algoritmos de inteligencia artificial capaces de reconocer y traducir la forma particular de comunicación de cada persona.

Objetivos

El objetivo general de IA-Speak es diseñar, desarrollar y validar un sistema inteligente de asistencia integral y personalizada dirigido a personas con trastornos del habla derivados de daño cerebral. Este sistema busca reducir las barreras de comunicación a las que se enfrentan estos pacientes, facilitando su interacción cotidiana, promoviendo su integración social y contribuyendo de manera significativa a la mejora de su calidad de vida.

Con esta estrategia, IA-SPEAK aborda tanto la mejora de la capacidad de habla como la comunicación efectiva e inmediata en el día a día.

En este marco, se plantean los siguientes objetivos específicos:

Desarrollar metodologías ágiles de caracterización vocal, mediante sesiones breves entre logopedas y pacientes que permitan identificar patrones individuales de habla y adaptar tanto los procesos de rehabilitación como los algoritmos de traducción a las necesidades específicas de cada usuario.
Diseñar y validar algoritmos de traducción de voz en tiempo real, basados en técnicas de inteligencia artificial capaces de interpretar el habla no estándar y generar mensajes claros y comprensibles, preservando en lo posible la identidad vocal de la persona usuaria.
Integrar sistemas biométricos de verificación y reconocimiento facial, adaptados a voces no convencionales y complementados con el análisis de movimientos labiales y expresiones, con el fin de aumentar la precisión de la interpretación y enriquecer el proceso de rehabilitación.
Crear sistemas inteligentes de recomendación multimodal, que combinen información vocal, facial y contextual para proponer de manera automática ejercicios personalizados, ajustados a la evolución y necesidades concretas de cada paciente.
Desarrollar un dispositivo portátil, ligero y accesible, con autonomía suficiente para su uso diario, que incorpore criterios de durabilidad, resistencia y ergonomía, facilitando así su integración natural en la vida cotidiana de los usuarios.
Validar la solución completa con usuarios finales, a través de un piloto con 100 personas en distintas fases de recuperación, en colaboración con centros clínicos especializados, lo que permitirá evaluar su eficacia real y recopilar información para futuras mejoras.

Aportación de NAIR Center

Nair Center desempeña un papel clave liderando el desarrollo de componentes avanzados para el procesamiento de audio y la implementación de modelos de aprendizaje profundo orientados al reconocimiento y traducción de habla no estándar.

Su principal contribución es el diseño de la arquitectura de procesamiento de voz, que interpreta patrones variables y complejos mediante pipelines automatizados de preprocesamiento, aplicando filtrado, normalización y segmentación para optimizar la calidad de las señales. En este marco, desarrolla algoritmos de diarización avanzada, extracción de espectrogramas y coeficientes MFCC, lo que permite identificar particularidades de cada usuario y generar perfiles vocales personalizados que sustentan todo el sistema.

Una aportación destacada es el módulo de traducción de voz no estándar, estructurado en cuatro bloques interconectados: entrada de datos, transcripción, clonación y salida optimizada. La transcripción utiliza modelos como Whisper y WhisperX, ajustados con fine-tuning para aprender las particularidades de pronunciación de cada paciente, de forma similar a la adaptación a un nuevo acento o dialecto. El módulo de clonación de voz, basado en modelos como F5-TTS adaptados al español, genera audio sintético que conserva la identidad vocal del usuario con mayor claridad y comprensibilidad, garantizando autenticidad en la comunicación.

Finalmente, Nair Center aplica su experiencia en sistemas de recomendación multimodal, integrando análisis de voz, reconocimiento facial, perfil de usuario y progreso histórico. Con técnicas de aprendizaje por refuerzo profundo, el sistema sugiere en tiempo real ejercicios personalizados y adaptados a la evolución de cada paciente.

Socios

Financiación

El proyecto está financiado por Gobierno de Navarra.

Más proyectos