Tesis doctoral de Antonio Miguel Artiaga
Esta tesis estudia una serie de contribuciones al modelado acústico en reconocimiento de voz. Se consideran tres aspectosfundamentales: el proceso de extracción de características de la voz, las estructuras de variable oculta en los modelos y lasdistribuciones del proceso de emisión de observaciones. Estos aspectos han de considerarse de forma conjunta para conseguir buenasprestaciones a nivel acústico y construir sistemas que puedan ser robustos a distorsiones de ruido y capaces de adaptarse a múltiplessituaciones y locutores. Por lo tanto, se ha estructurado la tesis en tres partes.En lá primera parte, se describe el proceso de extracción de características y se presentan ciertas modificaciones para conseguircaracterísticas a partir de proyecciones locales en frecuencia. El objetivo de las características locales en frecuencia es evitar la altasensibilidad al ruido de ancho de banda estrecho que tienen las proyecciones en los sistemas de referencia. Además en la primeraparte se discuten algunos mecanismos para optimizar los conjuntos de características de voz gracias a dos métodos. El primeroconsiste en usar proyecciones lineales discriminativas, que permitan encontrar subespacios de menor tamaño, en los que se conservela separación de clases al máximo. El segundo método es la selección de características, cuyo objetivo es encontrar un subconjuntode características para el cual podamos obtener alguna propiedad deseada. El ejemplo que se presenta, está basado en la medida de lainformación mutua entre las características y etiquetas de clase y está orientado a reducir la sensibilidad al desajuste entre modelos ycondiciones ruidosas. Estas técnicas, además, son mejoradas introduciendo el concepto de reducción de errores, que se puedeconseguir usando técnicas de vectores soporte, similares a las utilizadas en la optimización «large margin».En la segunda parte de la tesis se propone una modificación de la estructura de variable oculta en los modelos de referencia.La modificación implica el añadido de una nueva variable oculta, para capturar parte de la variabilidad del problema que no erasatisfactoriamente resuelto por los modelos anteriores en situaciones de desajuste. Entonces, existe un nuevo grado de libertad en losmodelos que se basa en un conjunto de transformaciones de la señal de voz, conocidas a priori. El objetivo de las transformacionesde los modelos es inicialmente la técnica de la normalización del tracto vocal, que permite construir modelos capaces de adaptarse alocutores diferentes a los del entrenamiento o a pronunciaciones con problemas de dicción. Además, los modelos aumentados se hanprobado en otro tipo de aplicación, esta vez orientada a la compensación del ruido. En la tesis se muestra que el marco generalpresentado para estos modelos, basado en matrices de transformación lineal insertadas en la estructura de variable oculta aumentada,puede usarse para reducir el impacto en las prestaciones de las distorsiones del ruido y del canal.En la tercera parte se estudian dos modificaciones a la distribución del proceso de emisión de observaciones en los estados de losmodelos. La primera es el uso de distribuciones de gaussianas generalizadas, que han sido usadas anteriormente en otros tipos deaplicación. Se muestra cómo las gaussianas generalizadas pueden modelar con una precisión mayor las observaciones de voz, ya quetienen un parámetro de forma, que permite controlar la kurtosis de la distribución de una forma sencilla. En la tesis se muestra unmétodo para usar distribuciones multivariadas de este tipo y cómo incluirlas en mezclas de distribuciones u otras estructuras devariable oculta. Además, se muestra cómo realizar una rotación de los datos, de tal manera que podamos considerar las prestacionesde la distribución equivalentes a las de las gaussianas con matriz de covarianzas completa. El segundo tipo de distribución consisteen la cuantificación de los vectores de características y modelarlos con variables aleatorias discretas multivariadas. Ya que ladistribución conjunta no es asumible, se propone una técnica de factorización que completa técnicas previas. Las factorizaciones sebasan en grafos acícliclos con un número limitado de padres por nodo. En la tesis se muestra que los modelos son eficientes en costecomputacional, ancho de banda requerido y robustez al ruido, especialmente en condiciones de entrenamiento y reconocimiento con desajuste.
Datos académicos de la tesis doctoral «Acousting modeling advances for speech recognition«
- Título de la tesis: Acousting modeling advances for speech recognition
- Autor: Antonio Miguel Artiaga
- Universidad: Zaragoza
- Fecha de lectura de la tesis: 12/12/2008
Dirección y tribunal
- Director de la tesis
- Eduardo Lleida Solano
- Tribunal
- Presidente del tribunal: climent Nadeu camprubi
- Luis Buera rodriguez (vocal)
- José Carlos Segura luna (vocal)
- alfons Juan ciscar (vocal)