Tesis doctoral de Doroteo Torre Toledano
La tecnología del habla se basa en aprendizaje automático a partir de datos: por lo que es de especial interés el etiquetado fonético de las bases de datos habladas. En la tesis se combinan los modelos ocultos de markov así como técnicas específicas para realizar un segmentado y etiquetado de una base de datos de voz. Para ello se diseñan técnicas específicas como reglas de lógica borrosa, redes neuronales y modelos estadísticos sobre unas características específicas. el uso de estas técnicas mejora bastante la segmentación inicial propuesta por los modelos de markov lo que sugiere que las actuales características empleadas en el reconocimiento no sacan provecho de parte de la información presente en las fronteras fonéticas. el conjunto de técnicas propuestas se comparan con los de segmentación manual por dos etiquetadores expertos mediante la distribución de error completa, proponiendose una nueva figura de mérito del promedio de los porcentajes de fronteras correctas para un muestreo uniforme entre o y 100 ms. Los resultados que se obtienen es superior en todos los casos al 92%, claramente superior a todos los resultados propuestos hasta el momento en la bibliografía.
Datos académicos de la tesis doctoral «Segmentación y etiquetado fonético automáticos: un enfoque basado en modelos ocultos de markov y refinamiento posterior de las fronteras fonéticas«
- Título de la tesis: Segmentación y etiquetado fonético automáticos: un enfoque basado en modelos ocultos de markov y refinamiento posterior de las fronteras fonéticas
- Autor: Doroteo Torre Toledano
- Universidad: Politécnica de Madrid
- Fecha de lectura de la tesis: 15/02/2001
Dirección y tribunal
- Director de la tesis
- Luis Alfonso Hernandez Gomez
- Tribunal
- Presidente del tribunal: Juan Gómez mena
- carmen García mateo (vocal)
- María asunción Moreno bilbao (vocal)
- Díaz de María Fernando (vocal)