Improved modelling for robust speech recognition.

Tesis doctoral de Pau Paches Leal

Una de las líneas seguidas en esta tesis es intentar conocer mejor nuevas estrategias para mejorar el reconocimiento del habla. En este trabajo, se presenta un nuevo algoritmo (mca) para compensar las inhomogeneidades en el dominio del espectro de modulación, que tiene cierto sentido perceptual y en el que se pueden representar las variaciones temporales de la señal. Mca es un procedimiento de máxima verosimilitud para la estimación automática de filtros en el espectro de modulación, de cara a compensar distorsiones en este dominio. dos bases de datos de propósito general, speechdat española y speechdat catalana, se usan en este trabajo. La modelización independiente de la tarea, que consiste en entrenar modelos fonéticos generales a partir de frases equilibradas fonéticamente, es la estrategia usada aquí. se lleva a cabo un estudio sobre las unidades prácticas para crear sistemas independientes de la tarea de tamaño mediano. Unidades más sencillas que hacen suposiciones simplificadoras sobre los efectos del contexto se comparan con los muy conocidos trifonemas. Métodos de ligadura de estados basados en árboles de decisión se usan ampliamente aquí para hacer entrenables las unidades dependientes del contexto usadas. Se efectúan dos estudios independientes, uno para un sistema de reconocimiento en castellano y el otro para un sistema de reconocimiento en catalán. un diccionario fonético se necesita para entrenar un sistema de reconocimiento basado en unidades subléxicas. La obtención de un diccionario fonético es muy costosa en tiempo. Un conversor automático grafema-fonema, segre, para la lengua catalana ha sido desarrollado en el marco de esta tesis y se ha usado para construir sistemas de reconocimiento en catalán para la base speechdat. La característica principal de este transcriptor es que las reglas de conversión no están fijas dentro del código del programa sino que s

 

Datos académicos de la tesis doctoral «Improved modelling for robust speech recognition.«

  • Título de la tesis:  Improved modelling for robust speech recognition.
  • Autor:  Pau Paches Leal
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  01/01/2000

 

Dirección y tribunal

  • Director de la tesis
    • Climent Nadeu Camprubi
  • Tribunal
    • Presidente del tribunal: José bernardo Mariño acebal
    • joaquim Llisterri boix (vocal)
    • horacio Rodríguez hontoria (vocal)
    • thierry Dutoit (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio