Aportaciones al reconocimiento de locutores para su integración en la inteligencia ambiental

Tesis doctoral de Maider Zamalloa Aquizu

La tesis aborda aspectos científico-tecnológicos del reconocimiento de personas mediante la voz y su aplicación en tareas de verificación, identificación y seguimiento. El estudio está motivado principalmente por el interés en la adecuación de este tipo de sistemas a entornos de inteligencia ambiental (ami), entornos que disponen de dispositivos electrónicos (de capacidad computacional limitada) que permiten detectar la presencia de usuarios y adaptarse a sus necesidades de forma transparente. El primer aspecto abordado tiene como objetivo ahorrar esfuerzo computacional con una baja degradación o incluso una mejora del rendimiento del sistema. Para ello se han estudiado diferentes metodologías de reducción de dimensionalidad de la representación acústica de las señales. Como aportación a las metodologías básicas de modelado del locutor, se ha propuesto una nueva aproximación, denominada modelo superficial de fuente, que se estima a partir de la propia señal a evaluar y trata de representar la fuente de la señal con objeto de mejorar la robustez de los sistemas ante señales con fuentes no modeladas. Por otro lado, se ha propuesto y evaluado un sistema de seguimiento de locutores continuo, de baja latencia, para su aplicación en un hogar inteligente. El sistema propuesto sigue un algoritmo muy sencillo: la segmentación y la detección de la señal de entrada se realizan de forma conjunta mediante la definición de segmentos de longitud fija, y los locutores objetivo se modelan mediante mezclas de gaussianas estimadas mediante adaptación bayesiana de un modelo acústico universal. Desde un punto de vista práctico, se ha considerado el desarrollo de aplicaciones según la especificación soa (service oriented architecture), estándar que define un marco muy apropiado para proporcionar movilidad e interoperabilidad a las aplicaciones. Se ha desarrollado una aplicación de seguimiento de locutores, denominada amispeaker, bajo soa, que implementa el sistema continuo propuesto. Por último, la tesis ha requerido el estudio y desarrollo de las infraestructuras necesarias para la evaluación de sistemas de identificación, verificación y seguimiento de locutores. Entre ellas, tienen especial importancia la base de datos ami (utilizada para evaluar los sistemas de seguimiento del locutor) y especialmente las bases de datos ligadas a las campañas de evaluación de sistemas de reconocimiento de locutores organizadas por el nist desde 1996. El estudio realizado sobre los conjuntos experimentales del nist ha permitido la publicación de resultados homologables a los de otros grupos de investigación nacionales e internacionales, e incluso participar en la campaña de evaluación organizada por el nist en 2008.

 

Datos académicos de la tesis doctoral «Aportaciones al reconocimiento de locutores para su integración en la inteligencia ambiental«

  • Título de la tesis:  Aportaciones al reconocimiento de locutores para su integración en la inteligencia ambiental
  • Autor:  Maider Zamalloa Aquizu
  • Universidad:  País vasco/euskal herriko unibertsitatea
  • Fecha de lectura de la tesis:  21/09/2010

 

Dirección y tribunal

  • Director de la tesis
    • Luis Javier Rodriguez Fuentes
  • Tribunal
    • Presidente del tribunal: eduardo Lleida solano
    • daniel Ramos castro (vocal)
    • carmen García mateo (vocal)
    • alfonso Ortega gimenez (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio