Tesis doctoral de Martin Wolf
Los actuales sistemas de reconocimiento del habla muestran a menudo una tasa de error aceptable si la voz es registrada por micrófonos próximos a la boca del hablante, en un entorno controlado y libre de ruido. Sin embargo, el uso de estos micrófonos puede ser demasiado restrictivo en muchas aplicaciones. Alternativamente, se pueden emplear micrófonos distantes, los cuales a menudo se ubican a varios metros del hablante. Esta configuración es menos intrusiva ya que el hablante no tiene que llevar encima ningún micrófono, pero el rendimiento del reconocimiento automático del habla (asr, del inglés automatic speech recognition) en dicho caso se ve fuertemente afectado por el ruido y la reverberación. Esta tesis se enfoca a aplicaciones asr en el entorno de una sala, donde la reverberación es la causa predominante de distorsión y se considera tanto el caso de un solo micrófono como el de múltiples micrófonos. si el habla es grabada en paralelo por varios micrófonos distribuidos arbitrariamente en la sala, el grado de distorsión puede variar de un canal a otro. Las diferencias de calidad entre las señales grabadas pueden ser más acentuadas si dichos micrófonos muestran diferentes características y colocaciones: unos en las paredes, otros sobre la mesa, u otros integrados en los dispositivos de comunicación de las personas presentes en la sala. En dicho escenario el sistema asr se puede beneficiar enormemente de la utilización de la señal con mayor calidad para el reconocimiento. Para hallar dicha señal se han propuesto diversas técnicas, denominadas cs (del inglés channel selection), las cuales se discuten detalladament en esta tesis. de hecho, la selección de canal busca ranquear las señales conforme a su calidad desde la perspectiva asr. Para crear tal ranquin se necesita una medida que tanto estime la calidad intrínseca de una señal, como lo bien que ésta se ajusta a los modelos acústicos del sistema de reconocimiento. En esta tesis proporcionamos un resumen de las medidas cs hasta ahora presentadas en la literatura, comparándolas experimentalmente. Diversas nuevas técnicas son presentadas que superan las técnicas iniciales en cuanto a exactitud de reconocimiento y/o eficiencia computacional. También se propone una combinación de diferentes medidas cs para incrementar la exactitud de reconocimiento, o para reducir la carga computacional sin ninguna pérdida significativa de rendimiento. Además mostramos que la cs puede ser empleada junto con otras técnicas robustas de asr y que las mejoras de reconocimiento son hasta cierto punto acumulativas. Una versión online en tiempo real del método de selección de canal basado en la varianza del speech sub-band envelopes, que fue desarrolladas en esta tesis, fue diseñada e implementada en una sala inteligente. Reportamos una mejora significativa en el rendimiento del reconocimiento al evaluar experimentalmente grabaciones reales de micrófonos no próximos a la boca con hablantes en movimiento. la otra contribución de esta tesis, que no requiere múltiples micrófonos, fue desarrollada en colaboración con los colegas del departamento de comunicaciones multimedia y procesamiento de señales de la universidad de erlangen-nuremberg, erlangen, alemania. Trata sobre el problema de extracción de características en remos (del inglés reverberation modeling for speech recognition). Remos es un marco conceptual genérico para el reconocimiento robusto del habla con micrófonos lejanos. El uso de los métodos convencionales para obtener los elementos decorrelados del vector de características, como la transformada coseno discreta, está limitado por el problema de optimización inherente a remos, lo que haría que, utilizando las herramientas convencionales, se volviese un problema irresoluble en un tiempo razonable. Para resolver este problema hemos desarrollado un nuevo método de extracción de características basado en filtrado frecuencial.
Datos académicos de la tesis doctoral «Channel selection and reverberation-robust automatic speech recognition«
- Título de la tesis: Channel selection and reverberation-robust automatic speech recognition
- Autor: Martin Wolf
- Universidad: Politécnica de catalunya
- Fecha de lectura de la tesis: 11/11/2013
Dirección y tribunal
- Director de la tesis
- Climent Nadeu Camprubi
- Tribunal
- Presidente del tribunal: peter Jancovic
- Alberto Abad gareta (vocal)
- (vocal)
- (vocal)