Modelado de la cualidad de la voz para la síntesis del habla expresiva

Tesis doctoral de Carlos Manuel Monzo Sánchez

Esta tesis se realiza dentro del marco de trabajo existente en el grupo de investigación grup de recerca en tecnologies média (gtm) de enginyeria i arquitectura la salle, con el objetivo de dotar de mayor naturalidad a la interacción hombre-máquina. Para ello nos basamos en las limitaciones de la tecnología empleada hasta el momento, detectando puntos de mejora en los que poder aportar soluciones. Debido a que la naturalidad del habla está íntimamente relacionada con la expresividad que esta puede transmitir, estos puntos de mejora se centran en la capacidad de trabajar con emociones o estilos de habla expresivos en general. el objetivo último de esta tesis es la generación de estilos de habla expresivos en el ámbito de sistemas de conversión de texto en habla (cth) orientados a la síntesis del habla expresiva (she), siendo posible transmitir un mensaje oral con una cierta expresividad que el oyente sea capaz de percibir e interpretar correctamente. No obstante, este objetivo implica diferentes metas intermedias: conocer las opciones de parametrización existentes, entender cada uno de los parámetros, detectar los pros y contras de su utilización, descubrir las relaciones existentes entre ellos y los estilos de habla expresivos y, finalmente, llevar a cabo la síntesis del habla expresiva. El propio proceso de síntesis implica un trabajo previo en reconocimiento de emociones, que en sí mismo podría ser una línea completa de investigación, ya que muestra la viabilidad de usar los parámetros seleccionados en la discriminación de estos y aporta el conocimiento necesario para extraer los modelos que pueden ser usados durante el proceso de síntesis. la búsqueda del incremento de la naturalidad ha implicado una mejor caracterización del habla emocional o expresiva, con lo que para ello se ha investigado en parametrizaciones que pudieran llevar a cabo este cometido. Estos son los parámetros de cualidad de la voz -voice quality- (voq), que presentan como característica principal que son capaces de caracterizar individualmente el habla, identificando cada uno de los factores que hacen que sea única. Los beneficios potenciales, que este tipo de parametrización puede aportar a la interacción natural, son de dos clases: el reconocimiento y la síntesis de estilos de habla expresivos. La propuesta de la parametrización de voq no pretende sustituir a la ya empleada prosodia, sino todo lo contrario, trabajar conjuntamente con ella para mejorar los resultados obtenidos hasta el momento. una vez realizada la selección de los parámetros se plantea el modelado de la voq, es decir, la metodología de análisis y de modificación de forma que cada uno de ellos pueda ser extraído a partir de la señal de voz y posteriormente modificado durante la síntesis. Asimismo, se proponen variaciones para los parámetros implicados y tradicionalmente utilizados, adaptando su definición al contexto del habla expresiva. a partir de aquí se pasa a trabajar en las relaciones existentes con los estilos de habla expresivos, presentando finalmente la metodología de transformación de estos últimos, mediante la modificación conjunta de voq y prosodia, para la she en un sistema de cth.

 

Datos académicos de la tesis doctoral «Modelado de la cualidad de la voz para la síntesis del habla expresiva«

  • Título de la tesis:  Modelado de la cualidad de la voz para la síntesis del habla expresiva
  • Autor:  Carlos Manuel Monzo Sánchez
  • Universidad:  Ramón llull
  • Fecha de lectura de la tesis:  14/07/2010

 

Dirección y tribunal

  • Director de la tesis
    • Joan Claudi Socoró Carrié
  • Tribunal
    • Presidente del tribunal: angel Rodriguez bravo
    • Juan Manuel Montero martínez (vocal)
    • Juan ignacio Godino llorente (vocal)
    • José Antonio Morán moreno (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio