Tesis doctoral de Luis Javier Rodriguez Fuentes
En esta tesis se describe, en primer lugar, un nuevo esquema de anotación de fenómenos de habla espontánea, así como su aplicación a dos bases de datos, una de ellas ligada a una tarea y formada por diálogos hombre-máquina, y la otra completamente genérica y formada por diálogos naturales entre personas. Se ha estudiado y comparado la distribución de fenómenos en ambas bases de datos, su dependencia de la duración y de la identidad del hablante, así como la posibilidad de utilizar fenómenos acústicos, léxicos y pragmáticos para predecir la presencia de reformulaciones. A continuación se describen las características principales del sistema de reconocimiento del grfyth, dedicando una mayor extensión a los modelos acústicos y las alternativas de estimación. Se presentan resultados de decodificación acústico-fonética (daf) y de reconocimiento que muestran la degradación que experimentan los sistemas de reconocimiento frente al habla espontánea. Para reducir dicha degradación, en primer lugar se propone modelar explícitamente los fenómenos de tipo acústico. Esto conduce a reducciones sustanciales del error, de entre el 11 y el 13% en daf y de hasta el 20% en reconocimiento. por último se propone un algoritmo de clustering que trata de identificar automáticamente conjuntos de hablantes con características similares, de manera que sea posible, para cada señal de entrada, elegir el grupo de hablantes más afín, lo cual debería mejorar el rendimiento. Tanto el algortimo de clustering como la función de selección están basadas en un modelo acústico muy simple que, sin embargo, muestra una gran precisión y coherencia. Aunque los modelos de grupos de hablantes no mejoran el rendimiento de los modelos de género, tienen muchas posibilidades de éxito si se aplican sobre bases de datos lo bastante grandes, que permitan obtener estimaciones robustas de los modelos acústicos.
Datos académicos de la tesis doctoral «Estudio y modelizacion acustica del habla espontanea en dialogos hombre/maquina y entre personas«
- Título de la tesis: Estudio y modelizacion acustica del habla espontanea en dialogos hombre/maquina y entre personas
- Autor: Luis Javier Rodriguez Fuentes
- Universidad: País vasco/euskal herriko unibertsitatea
- Fecha de lectura de la tesis: 07/07/2004
Dirección y tribunal
- Director de la tesis
- María Ines Torres Barañano
- Tribunal
- Presidente del tribunal: José bernardo Mariño acebal
- eduardo Lleida solano (vocal)
- Francisco Casacuberta nolla (vocal)
- Antonio Moreno sandoval (vocal)