Speaker diarization and tracking in multiple-sensor environments

Tesis doctoral de Jorge Luque Serrano

Esta tesis resume el trabajo realizado en en el área de reconocimiento de hablantes en condiciones reales tales como reuniones en salas, en conversaciones de calidad telefónica y en el dominio de programas de tv y radio. El principal objetivo se centra en la detección automática y clasificación de hablantes en una sala inteligente. El reconocimiento automático del hablante se define como el uso de una máquina para identificar a un individuo a través de su voz. El objetivo es el procesamiento de la señal acústica para convertirla en descripciones simbólicas que se correspondan con las identidades de los hablantes. Durante los últimos años, el reconocimiento del hablante en situaciones reales ha atraído una sustancial atención de los investigadores convirtiéndose en una de las tecnologías del habla capaz de aportar calidad, o enriquecer, las transcripciones de grabaciones de audio. En condiciones reales y en concreto, la actividad humana que tiene lugar en salas de reuniones o clases docentes, comparada con la de otros dominios exhibe una mayor complejidad y es un problema arduo debido a la espontaneidad del habla, los efectos reververantes, la presencia de solapamientos entre locutores, la configuración de la sala y la varibilidad de canal o la gran cantidad de eventos acústicos, tanto producidos por las personas como por objetos. Es evidente que discernir tanto la identidad del hablante como su posición en tiempo puede ayudar a describir la actividad y proporcionar el conocimiento y percepción de la situación por parte de la máquina. En el inicio se busca la mejora de los sistemas tradicionales de modelado para las tareas de identificación y verificación, basados en modelos de mezcla de gaussianas, a través de estrategias de decisión múltiple y procesamiento multi-canal en salas inteligentes. El estudio se centra en técnicas de variabilidad del hablante y de canal tales como adaptación maximum a posteriori, proyecciones nuisance attribute, análisis factorial, o normalización de puntuaciones; intentando encontrar estrategias para atacar dicha problemática. Además, se describe un original método para la tarea de verificación del hablante que utiliza características adaptadas a través de un reconocedor automático del habla. Una segunda línea de investigación se relaciona con la detección automática en audio de múltiples hablantes, dónde tanto su número y sus identidades son desconocidas de antemano. En ella se desarrollan y adaptan algunas de las anteriores técnicas a un sistema estándard de diarización basado en modelos ocultos de markov y clustering jerárquico aglomerado de los datos. Evaluamos la aplicación de la dinámica dada por características basadas en retardos entre sensores (tdoa) con intención de mejorar el clustering o la detección y tratamiento de los solapamientos entre hablantes; evaluamos el impacto y las sinergias creadas con tecnologías como la detección del habla y la detección de eventos acústicos, integrándolas con el diarizador y se propone un nuevo método basado en clustering espectral. Además se adapta el sistema de diarización tanto para el procesamiento de programas de radio y televisión como para el seguimiento de locutores específicos. A lo largo del trabajo se resalta la fusión y combinación con las modalidades de vídeo e imagen, tanto en diarización como en seguimiento de hablantes. Técnicas basadas en ponderación según acierto o en filtros de partículas se proponen para combinar puntuaciones y probabilidades generadas por cada modalidad. Esta tesis se realizó en el contexto de varios proyectos internacionales y nacionales, entre los que se encuentra el proyecto europeo chil y el proyecto catalán tecnoparla; y en la participacion en evaluaciones de tecnología como clear, nist rich transcription (rt), nist speaker recognition evaluation (sre) y la evaluación española albayzin en seguimiento

 

Datos académicos de la tesis doctoral «Speaker diarization and tracking in multiple-sensor environments«

  • Título de la tesis:  Speaker diarization and tracking in multiple-sensor environments
  • Autor:  Jorge Luque Serrano
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  21/12/2012

 

Dirección y tribunal

  • Director de la tesis
    • Francisco Javier Hernando Pericas
  • Tribunal
    • Presidente del tribunal: javier Rodríguez saeta
    • roberto Barra chicote (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio