Tesis doctoral de Rupayan Chakraborty
El análisis automático de escenas acústicas es una tarea compleja que requiere unas cuantas funcionalidades: detección (tiempo), localización (espacio), separación, reconocimiento, etc. Esta tesis se enfoca tanto hacia la detección de eventos acústicos (aed) como la localización de fuentes acústicas (asl), en el caso en que en una sala puedan coexistir diversas fuentes acústicas simultáneamente. En concreto, el trabajo de experimentación se lleva a cabo en un escenario de sala de reuniones. el núcleo del trabajo de la tesis radica en un planteamiento eficiente en términos de cálculo que se basa en tres etapas de procesamiento. En la primera, se utiliza un conjunto de conformadores de haz para llevar a cabo diversas separaciones parciales de señales, usando múltiples configuraciones lineales de micrófonos colocadas arbitrariamente, cada una compuesta de un número pequeño de micrófonos. En la segunda etapa, cada una de las salidas de los conformadores pasa por un clasificador, el cual tiene modelos de todas las clases consideradas. Y entonces, en la tercera etapa, las puntuaciones del clasificador, ya sean intra o inter-configuración, se combinan con un criterio probabilístico (como map) o con una técnica de fusión con aprendizaje automático (la integral difusa (fi), en los experimentos). el esquema de procesamiento mencionado se aplica en esta tesis a un conjunto de problemas de complejidad creciente, que quedan definidos por las suposiciones que se hacen en relación a las identidades (más los tiempos de inicio y final) y / o las posiciones de los sonidos. En efecto, el informe de la tesis comienza con el problema de la asignación sin ambigí¼edad de las identidades a las posiciones, continúa con aed (suponiendo las posiciones) y asl (suponiendo las identidades), y termina con la integración de aed y asl en un sistema único que no necesita hacer ninguna suposición respecto a las identidades o las posiciones. los experimentos tienen lugar en un escenario de sala de reuniones, donde hay dos fuentes superpuestas en el tiempo; una es siempre habla y la otra es un evento acústico de entre un conjunto predefinido. Se usan dos bases de datos diferentes, una se ha producido mezclando señales registradas realmente en la sala inteligente de la upc, y la otra consiste en señales de sonidos solapados grabados directamente en la sala y de una manera más bien espontánea. Se observa de los resultados experimentales con una sola configuración que el sistema propuesto de detección se comporta mejor que el sistema basado en modelos o el sistema basado en separación ciega de fuentes. Además, tanto la combinación basada en la regla producto como la fusión basada en fi de las puntuaciones obtenidas de los múltiples arrays mejoran aún más la precisión. Por otra parte, la asignación posterior de posiciones tiene lugar con una tasa de error muy pequeña. en relación con asl y suponiendo una salida del sistema aed, las prestaciones de localización del sistema propuesto para una sola fuente son ligeramente mejores que las del sistema srp-phat trabajando en modo evento, e incluso son significativamente mejores que las de este último sistema en el caso más complejo del escenario de dos fuentes. Finalmente, aunque con el sistema conjunto se observa una ligera degradación en términos de precisión de clasificación respecto del caso en que se conocen las posiciones de las fuentes, éste tiene la ventaja de llevar a cabo las dos tareas, reconocimiento y localización, con un único sistema, y permite la inclusión de información sobre las probabilidades a priori de las posiciones de las fuentes. Conviene hacer notar también que, aunque el escenario acústico que se ha usado en la experimentación es bastante limitado, el planteamiento y su formalismo se han desarrollado para un caso general, sin restricciones en cuanto al número y las identidades de las fuentes.
Datos académicos de la tesis doctoral «Acoustic event detection and localization using distributed microphone arrays«
- Título de la tesis: Acoustic event detection and localization using distributed microphone arrays
- Autor: Rupayan Chakraborty
- Universidad: Politécnica de catalunya
- Fecha de lectura de la tesis: 18/12/2013
Dirección y tribunal
- Director de la tesis
- Climent Nadeu Camprubi
- Tribunal
- Presidente del tribunal: alfonso Ortega gimenez
- Javier Macías guarasa (vocal)
- (vocal)
- (vocal)