Síntesis multilocutor aplicando técnicas de conversión de hablante

Tesis doctoral de Juan a María Gutiérrez Arriola

Las técnicas de conversión de locutor transforman la señal de voz pronunciada por una persona para que sea percibida como si la hubiera dicho otra persona. Se denomina locutor fuente al hablante inicial y locutor deseado a la identidad que se pretende obtener. Tradicionalmente la transformación se aplica al habla natural o al habla sintética como un procesado posterior a la síntesis. El objetivo de esta tesis es estudiar las técnicas propuestas hasta el momento e incorporarlas en un sistema de síntesis de voz. Por ello es necesario conocer a fondo el método de síntesis a utilizar y estudiar y desarrollar la técnica que mejor se adapte a sus características. se han estudiado dos propuestas de sintetizador: 1. Sintetizador de formantes que concatena unidades parametrizadas. En este caso los parámetros que se utilizan para la síntesis son las cinco primeros formantes y cuatro parámetros de fuente glotal del modelo lf (lijencrants & fant). 2. El segundo de los sintetizadores es un sintetizador lp (linear prediction) que concatena unidades codificadas. El modelo de fuente utilizado es un polinomio de sexto orden para modelar la integral del residuo y un filtro posterior para añadir riqueza frecuencial a la señal. en ambos casos se han desarrollado o modificado las herramientas necesarias para realizar el análisis de 455 unidades correspondientes a cuatro locutores: dos hombres y dos mujeres. las técnicas de conversión utilizadas son: 1. Para el sintetizador por formantes se aplica una transformación lineal para convertir los cinco primeros formantes y copiamos los parámetros del modelo lf del locutor deseado. 2. En el caso del sintetizador lp la técnica de transformación empleada es la del mapeado de codebooks para acercar lo máximo los coeficientes lpc (linear prediction coefficients) del locutor base a los del locutor deseado y en este caso se mantiene la fuente del locutor base. se ha estudiado la relevancia de los parámetros utilizados en la síntesis por formantes en cuanto a la identidad del locutor se refiere. La conclusión de dicho estudio nos indica que la información sobre la identidad del locutor está repartida entre todos los parámetros analizados siendo los más relevantes la frecuencia fundamental, fo, y las frecuencias formánticas. se ha modificado la fuente del sintetizador lp para favorecer la transformación del locutor. Se ha comprobado que el modelo de fuente propuesto mantiene una calidad equivalente al sintetizador que utiliza las unidades codificadas celp. se han realizado pruebas objetivas y subjetivas para evaluar la capacidad de transformar el hablante y la calidad de la voz sintetizada. Se demuestra que las técnicas empleadas son eficientes a la hora de cambiar la identidad del locutor pero también se observa una degradación de la calidad de la voz.

 

Datos académicos de la tesis doctoral «Síntesis multilocutor aplicando técnicas de conversión de hablante«

  • Título de la tesis:  Síntesis multilocutor aplicando técnicas de conversión de hablante
  • Autor:  Juan a María Gutiérrez Arriola
  • Universidad:  Politécnica de Madrid
  • Fecha de lectura de la tesis:  23/06/2008

 

Dirección y tribunal

  • Director de la tesis
    • José Manuel Pardo Muñoz
  • Tribunal
    • Presidente del tribunal: pedro Gómez vilda
    • Antonio Bonafonte cávez (vocal)
    • joaquin Gonzalez rodriguez (vocal)
    • eduardo Rodríguez banga (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio