Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo

Tesis doctoral de Ascension Gallardo Antolin

El funcionamiento de los sistemas de reconocimiento automático del habla sufre degradaciones importantes cuando las condiciones acústicas de los datos de entrenamiento y los datos de test son muy diferentes. Esta situación es habitual en los sistemas de rah que funcionan en aplicaciones reales en las que la voz suele está contaminada por la presencia de ruido. en la presente tesis se ha analizado el comportamiento de un sistema de rah frente a tres tipos de distorsiones producidas por la presencia del canal telefónico y las debidas a la presencia de ruido de fondo. para el caso de variabilidad interlocutor, se ha investigado la integración del modelado acústico (y léxico) múltiple en un sistema de reconocimiento de arquitectura multimodular de gran vocabulario en entorno telefónico, en el que se ha hecho especial énfasis en dos aspectos fundamentales: mejorar la tasa de inclusión y no incrementar de forma desproporcionada los requerimientos del sistema en cuanto a su carga computacional y memoria. De entre todas las alternativas consideradas, la que produce tasas menores de error es aquella en la que se utilizan múltiples modelos acústicos por unidad y un único conjunto de costes léxicos. con respecto a la distorsión producida por el canal telefónico, se ha optado por la exploración de un conjunto de parametrizaciones robustas. En este ámbito, se ha analizado el funcionamiento de las técnicas de extracción de parámetros «clásicas» basadas en el análisis de fourier tanto en el dominio cepstral (parámetros mel-cepstrum), como en el dominio log-espectral (filtrado de log-energías) y su combinación con las técnicas de normalización de parámetros (cmn y sus variantes). Tomando como referencia este análisis, se han propuesto un conjunto de parametrizaciones alternativas a las anteriores basadas en la transformada ondicular en los mismos dominios. asimismo, se ha estudiado la posibilidad de combinación de

 

Datos académicos de la tesis doctoral «Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo«

  • Título de la tesis:  Reconocimiento de habla robusto frente a condiciones de ruido aditivo y convolutivo
  • Autor:  Ascension Gallardo Antolin
  • Universidad:  Politécnica de Madrid
  • Fecha de lectura de la tesis:  29/10/2002

 

Dirección y tribunal

  • Director de la tesis
    • José Manuel Pardo Muñoz
  • Tribunal
    • Presidente del tribunal: javier Ferreiros lópez
    • carmen García matero (vocal)
    • climent Nadeu camprubi (vocal)
    • joaquín Rodríguez gonzález (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio