Síntesis de voz aplicada a la traducción voz a voz

Tesis doctoral de Pablo Daniel Aguero

Dentro de las tecnologías del habla, la conversión texto a voz consiste en la generación, por medios automáticos, de una voz artificial que genera idéntico sonido al producido por una persona al leer un texto en voz alta. Dentro del proceso de conversión texto a voz el módulo de prosodia es el que genera la información prosódica para poder producir la voz: frases entonativas, entonación de la oración, duración y energía de los fonemas, etc. La correcta generación de esta información repercutirá directamente en la naturalidad y expresividad del sistema. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrenamiento de modelos de generación de prosodia para la conversión texto a voz, y su aplicación en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de entonación, en esta tesis se estudiaron alternativas que combinan la parametrización y la generación del modelo de entonación en un todo integrado. Dicho enfoque ha resultado exitoso tanto en las evaluaciones objetivas como en las subjetivas. En lo referente al modelado de la duración se estudió la influencia de los factores segmentales y suprasegmentales en la duración de los fonemas. Con los resultados de este estudio se propusieron algoritmos que permiten combinar la información segmental y suprasegmental para realizar una predicción de la duración de los fonemas, tal como se propuso en otras publicaciones del tema en cuestión. Finalmente, también se realizó un análisis de diversos modelos de junturas terminales usando tanto palabras como grupos acentuales: árboles de clasificación (cart), modelos de lenguaje (lm) y transductores de estados finitos (fst). La utilización del mismo conjunto de datos para los experimentos permitió obtener conclusiones relevantes sobre las diferencias de los diferentes modelos. Uno de los objetivos de esta tesis era mejorar la naturalidad, expresividad y consistencia con el estilo del hablante fuente de la conversión texto a voz utilizando la prosodia del hablante fuente disponible en el proceso de traducción voz a voz como información adicional. Por ello se han desarrollado una serie de algoritmos para la generación de la prosodia que permiten la integración de la información adicional en la predicción de la entonación, la duración de los fonemas y la ubicación de junturas terminales. En ese sentido esta tesis exploró diferentes enfoques para la transferencia de la entonación de un idioma a otro. Se decidió la utilización de un enfoque de agrupamiento automático que permite encontrar un cierto número de tipos de movimientos tonales relacionados en los dos idiomas sin utilizar ninguna suposición acerca de su número. De esta manera, es posible utilizar esta codificación para el modelado de la entonación del idioma destino. Los resultados experimentales demostraron la mejora introducida, que es importante en idiomas cercanos, tales como el español y el catalán. Si bien se decidió no realizar una transferencia de la duración segmental entre idiomas, en esta tesis se propuso transferir el ritmo del idioma origen al destino. Para ello se propuso un método que combina la transferencia del ritmo y la sincronización entre audios. Este último aspecto fue considerado debido al uso de la tecnología de traducción voz a voz en conjunción con video. Por último, en esta tesis también se propuso una técnica de transferencia de pausas en el marco de la traducción voz a voz, mediante la utilización de información sobre alineamiento. El estudio de los datos de entrenamiento arrojó como resultado la ventaja del uso de las tuplas para dicha tarea. Para compensar aquellas pausas que no pueden ser transferidas, estas se predicen utilizando algoritmos convencionales (cart, cart+lm, fst), teniendo en cuenta las pausas ya predichas mediante la transferencia de pausas entre idiomas.

 

Datos académicos de la tesis doctoral «Síntesis de voz aplicada a la traducción voz a voz«

  • Título de la tesis:  Síntesis de voz aplicada a la traducción voz a voz
  • Autor:  Pablo Daniel Aguero
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  23/10/2012

 

Dirección y tribunal

  • Director de la tesis
    • Antonio Bonafonte Cávez
  • Tribunal
    • Presidente del tribunal: María asunción Moreno bilbao
    • david Escudero mancebo (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio