Máquinas de vectores soporte para reconocimiento robusto de habla

Tesis doctoral de Rubén Solera Ureña

El objetivo de esta tesis doctoral es estudiar la viabilidad de la aplicación práctica de la máquina de vectores soporte (support vector machine, svm) en el campo del reconocimiento automático de habla (rah). Tanto la formulación teórica de esta herramienta como los resultados conseguidos en otros ámbitos han llevado a considerarla una opción apropiada para solventar algunos de los problemas presentes en los reconocedores actuales. En concreto, esta tesis dirige su atención al problema del reconocimiento robusto de habla en condiciones acústicas adversas. una primera línea de trabajo se centra en la etapa de modelado acústico de los reconocedores de habla, en la que los modelos de mezclas de gaussianas (gaussian mixture models, gmms) empleados tradicionalmente se sustituyen por una máquina de vectores soporte multiclase en su modalidad para clasificación (support vector classier, svc). Dada una cierta observación, esta svm se encarga de proporcionar la probabilidad a posteriori de cada una de las clases acústicas consideradas. Este sistema híbrido svm/hmm, usando un contexto acústico adecuado y un conjunto de datos de entrenamiento mucho menor que los sistemas convencionales, proporciona unas prestaciones competitivas a costa de una complejidad computacional mayor. con el objetivo de reducir dicha complejidad y lograr así que el reconocedor híbrido opere en tiempo real, se propone el uso de svms compactas entrenadas mediante un procedimiento de mínimos cuadrados ponderados (weighted least squares, wls). El método empleado permite fijar de antemano la complejidad de la máquina de vectores soporte imponiendo un modelo reducido sobre el vector de pesos que define el hiperplano de separación. De esta forma, es posible controlar el coste computacional en la etapa de reconocimiento sin que ello suponga una pérdida apreciable en las prestaciones del sistema. la segunda línea de trabajo en esta tesis se centra en la etapa de parametrización de la señal de voz de entrada. En este caso, se propone el uso de un método no paramétrico de estimación espectral basado en la máquina de vectores soporte para regresión (support vector regressor, svr), como etapa previa a la obtención de los coecientes cepstrales. La posibilidad de definir distintas regiones en la función de coste dependiendo de la magnitud del error confiere a la svr una mayor robustez en presencia de ruido no gaussiano e interferencias, situación relativamente común en el ámbito del reconocimiento automático de habla. Los resultados experimentales obtenidos reflejan una clara mejora respecto al método convencional de estimación espectral en determinadas condiciones. las propuestas que se describen en esta tesis doctoral se han evaluado en un marco experimental de reconocimiento de dígitos conectados en castellano, con una complejidad moderada. Esto ha facilitado el desarrollo de la fase experimental del trabajo, obteniéndose a la vez resultados significativos que avalan la viabilidad del uso en el campo del rah de los métodos presentados en esta tesis doctoral.

 

Datos académicos de la tesis doctoral «Máquinas de vectores soporte para reconocimiento robusto de habla«

  • Título de la tesis:  Máquinas de vectores soporte para reconocimiento robusto de habla
  • Autor:  Rubén Solera Ureña
  • Universidad:  Carlos III de Madrid
  • Fecha de lectura de la tesis:  22/09/2011

 

Dirección y tribunal

  • Director de la tesis
    • Fernando Díaz De María
  • Tribunal
    • Presidente del tribunal: Juan ramón Vidal romaní
    • Luis alfonso Hernandez gomez (vocal)
    • gustavo Camps valls (vocal)
    • Antonio José Rubio ayuso (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio