Advances in the application of support vector machines as probabilistic estimators for continuous automatic speech recognition

Tesis doctoral de Daniel Bolaños Alonso

En los últimos años, el número de aplicaciones que se benefician de técnicas de procesado del habla ha crecido significativamente. Este crecimiento ha estado motivado fundamentalmente por dos factores, la creación de nuevos servicios accesibles mediante la voz y el perfeccionamiento de las técnicas de procesado del habla. Sin embargo, mientras que la precisión de reconocimiento de sistemas del estado-del-arte es satisfactoria para numerosas aplicaciones en el mundo real, la reducción de las tasas de error de reconocimiento, especialmente en sistemas de habla continua y gran vocabulario atún permanece como un gran desafió. %&/Actualmente, un procedimiento de modelado generativo basado en la combinación de modelos ocultos de markov (mom) y modelos de mezcla de gausianas (mmg) se ha convertido en el estándar de facto en reconocimiento de voz. Los mom permiten modelar la dinámica temporal de la voz mientras que los mmg son usados para modelar la probabilidad de las observaciones (vectores de características extraídos del habla). Los parámetros de los mom pueden ser estimados siguiendo numerosos criterios diferentes. Mientras que originalmente la estimación basada en máxima probabilidad (emp) fue el criterio más ampliamente adoptado, el hecho de que se basa exclusivamente en una minimización del error empírico (mee) (es decir, minimizar los errores en los datos de entrenamiento) ha causado el florecimiento de una variedad de criterios de entrenamiento discriminativo que permiten una mejor generalización de los modelos y una solución mas cercana al problema de minimización de la tasa de error.%&/En este punto, se podría argumentar: ¿por qué molestarse en aprender la distribución subyacente de los datos (es decir, la probabilidad de las observaciones) utilizando modelos generativos y luego entrenarlos utilizando un criterio de modelado discriminativo si es posible aprender directamente los limites entre muestras pertenecientes a clases diferentes? Esta pregunta ha sido formulada muchas veces en la literatura y varios clasificadores discriminativos, siendo las redes neuronales artificiales (rna) el mas prominente, han sido empleados para construir sistemas de reconocimiento automático del habla (rah) que rinden de manera similar a sistemas mmg/mom.%&/Sin embargo, numerosas cuestiones han evitado que esos clasificadores reemplacen al paradigma mmg/mom como el estándar de modelado en sistemas de rah. Entre otras cuestiones, los clasificadores discriminativos tradicionales sufren de la misma falta de habilidad de generalización que tienen los mom entrenados bajo emp, es decir, producen sólo una minimización del error empírico, lo que típicamente resulta en una pobre generalización.%&/Por otro lado, las maquinas de soporte vectorial (msv) presentan claras ventajas respecto a los clasificadores discriminativos tradicionales. Las msv son una técnica reciente de aprendizaje supervisado basada en avances recientes en la teoría del aprendizaje estadístico. Las msv pertenecen a la familia de clasificadores de gran-margen y su principal característica es que minimizan simultáneamente el error de clasificación empírico (minimización del riesgo empírico) y maximizan el margen geométrico entre muestras de diferentes clases (minimización del riesgo estructural). La%&/minimización del riesgo estructural se basa en controlar el compromiso entre la complejidad de la función de decisión (capacidad del modelo) y los errores de clasificación en los datos de entrenamiento. Por esta razón, las msv son un procedimiento discriminativo de gran éxito que ha sido utilizado en numerosas tareas de reconocimiento de patrones.%&/En el caso del procesado del habla, las msv han mostrado un rendimiento superior comparado con técnicas discriminativas alternativas en tareas de clasificación como verificación de locutor y clasificación fonética. Sin embargo, el potencial de las msv para ser aplicadas a reconocimiento automático de habla continúa, donde la clasificación y segmentación de unidades léxicas necesita realizarse simultáneamente, no esta claro. Este trabajo de tesis esta enfocado a explorar la aplicabilidad de las msv al reconocimiento de habla continua en una arquitectura independiente. En esta tesis será presentado un método para utilizar las msv como estimadores probabilísticos de las probabilidades de emisión en un sistema de reconocimiento de habla continua. Mientras que la utilización de las msv en tareas de clasificación binaria es simple y directa, en el caso del rah hay un gran número de clases involucradas y es necesario entrenar en millones de vectores de características para lograr una precisión de reconocimiento satisfactoria. En este trabajo de tesis se ha propuesto e implementado un sistema de reconocimiento del habla bajo el paradigma msv/mom en el que las msv son utilizadas como estimadores de las probabilidades de emisión. Resultados experimentales muestran que el sistema propuesto supera a un sistema mmg/mom comparable en términos de precisión de reconocimiento. Sin embargo, este sistema presenta varias desventajas relacionadas con el número de parámetros y la escalabilidad. A este respecto, se han propuesto varias técnicas para minimizar dichas desventajas. Por un lado se ha introducido un algoritmo que reduce significativamente el número de clasificadores que han de evaluarse durante la decodificación sin que se haya causado impacto alguno en la precisión del reconocimiento. Por otro lado, se han propuesto y evaluado varias técnicas para reutilizar evaluaciones del kernel entre clasificadores durante la decodificación y para reducir los requerimientos de almacenamiento de los modelos acústicos. Adicionalmente, se ha mostrado experimentalmente que técnicas de resolución de msv recientemente propuestas en la literatura, exhiben tiempo de entrenamiento asintóticamente lineal con el número de muestras para la tarea de clasificación de vectores de características. Esto es particularmente interesante no solo para escalar el sistema msv/mom propuesto a conjuntos de datos más grandes, sino para un amplio rango de tareas de procesado del habla en las que las msv son entrenadas con millones de muestras.

 

Datos académicos de la tesis doctoral «Advances in the application of support vector machines as probabilistic estimators for continuous automatic speech recognition«

  • Título de la tesis:  Advances in the application of support vector machines as probabilistic estimators for continuous automatic speech recognition
  • Autor:  Daniel Bolaños Alonso
  • Universidad:  Autónoma de Madrid
  • Fecha de lectura de la tesis:  21/11/2008

 

Dirección y tribunal

  • Director de la tesis
    • Wayne Hinson Ward
  • Tribunal
    • Presidente del tribunal: Luis alfonso Hernandez gomez
    • ascensión Gallardo antolín (vocal)
    • ronald allan Cole (vocal)
    • doroteo Torre toledano (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio