Tesis doctoral de Nicolas Morales Mombiela
Esta tesis es un estudio teórico y experimental de reconocimiento automático de voz, robusto frente a distorsiones de canal, con particular atención a filtros que eliminan completamente partes del espectro de frecuencias en al señal. El autor presenta un modelo matemático del efecto que este tipo de distorsiones causa en la señal parametrizada, y propone algoritmos de compensación de la señal para solventar el desajuste que se crea entre modelos entrenados en condiciones ideales, y señales distorsionadas. También se realiza un interesante análisis de la correlación entre distintos elementos del vector de parámetros que fundamenta una modificación en los algoritmos de compensación. En la sección experimental se presenta un amplio catalogo de pruebas destinadas a evaluar la importancia de distintos aspectos de los algoritmos de compensación presentados. También se propone varios experimentos que recrean situaciones que podrían presentarse en aplicaciones practicas, como la posibilidad de que la señal de voz este afectada por diferentes limitaciones en banda desconocidas a -priori, la compensación de distorsiones para las que no existen datos de entrenamiento, la escasez de datos de entrenamiento, etc. En todos los casos, se comparan los resultados con otras técnicas de robustez habitualmente utilizadas (típicamente re-entrenamiento, y adaptación de modelos acústicos). Los resultados obtenidos con compensación de la señal, ofrecen grandes mejoras en al tasa de reconocimiento frente al caso de no compensación. El rendimiento es comparable al de las técnicas de modelos robustos, y su uso puede ser muy beneficiosos cuando se necesita una solución ligera (por ejemplo en sistemas portátiles, o con limitaciones en la capacidad de almacenamiento y computación), cuando los sistemas están sometidos a múltiples distorsiones, o cuando los datos de entrenamiento de cada una de las posibles distorsiones son escasos. Además, los algoritmos propuestos pueden ser combinado con los de modelos robustos para obtener aun mejores tasas de reconocimiento.
Datos académicos de la tesis doctoral «Robust speech recognition under band-limited channel and other channel distortions«
- Título de la tesis: Robust speech recognition under band-limited channel and other channel distortions
- Autor: Nicolas Morales Mombiela
- Universidad: Autónoma de Madrid
- Fecha de lectura de la tesis: 05/11/2007
Dirección y tribunal
- Director de la tesis
- Doroteo Torre Toledano
- Tribunal
- Presidente del tribunal: Luis alfonso Hernandez gomez
- carmen García mateo (vocal)
- john h.l Hansen (vocal)
- eduardo Lleida solano (vocal)