El objetivo general de IA-Speak es diseñar, desarrollar y validar un sistema inteligente de asistencia integral y personalizada dirigido a personas con trastornos del habla derivados de daño cerebral. Este sistema busca reducir las barreras de comunicación a las que se enfrentan estos pacientes, facilitando su interacción cotidiana, promoviendo su integración social y contribuyendo de manera significativa a la mejora de su calidad de vida.
Con esta estrategia, IA-SPEAK aborda tanto la mejora de la capacidad de habla como la comunicación efectiva e inmediata en el día a día.
En este marco, se plantean los siguientes objetivos específicos:
Nair Center desempeña un papel clave liderando el desarrollo de componentes avanzados para el procesamiento de audio y la implementación de modelos de aprendizaje profundo orientados al reconocimiento y traducción de habla no estándar.
Su principal contribución es el diseño de la arquitectura de procesamiento de voz, que interpreta patrones variables y complejos mediante pipelines automatizados de preprocesamiento, aplicando filtrado, normalización y segmentación para optimizar la calidad de las señales. En este marco, desarrolla algoritmos de diarización avanzada, extracción de espectrogramas y coeficientes MFCC, lo que permite identificar particularidades de cada usuario y generar perfiles vocales personalizados que sustentan todo el sistema.
Una aportación destacada es el módulo de traducción de voz no estándar, estructurado en cuatro bloques interconectados: entrada de datos, transcripción, clonación y salida optimizada. La transcripción utiliza modelos como Whisper y WhisperX, ajustados con fine-tuning para aprender las particularidades de pronunciación de cada paciente, de forma similar a la adaptación a un nuevo acento o dialecto. El módulo de clonación de voz, basado en modelos como F5-TTS adaptados al español, genera audio sintético que conserva la identidad vocal del usuario con mayor claridad y comprensibilidad, garantizando autenticidad en la comunicación.
Finalmente, Nair Center aplica su experiencia en sistemas de recomendación multimodal, integrando análisis de voz, reconocimiento facial, perfil de usuario y progreso histórico. Con técnicas de aprendizaje por refuerzo profundo, el sistema sugiere en tiempo real ejercicios personalizados y adaptados a la evolución de cada paciente.







El proyecto está financiado por Gobierno de Navarra.