Improvements in speech recognition for embedded devices by taking advantage of lip reading techniques.

Tesis doctoral de Guitarte Perez Jesús Fernando

En la presente tesis doctoral la información visual contenida en el movimiento de los labios se ha utilizado para mejorar la robustez frente al ruido de sistemas de reconocimiento de voz en dispositivos con recursos limitados. El sistema aquí descrito reduce de forma significativa la tasa de error en niveles de ruido acústico elevado. Los algoritmos utilizados se caracterizan por su reducido consumo, tanto de tiempo de procesado como de memoria, permitiendo su uso en dispositivos integrados. Los principales aspectos a tomar en consideración en un sistema de lectura de labios son la localización y seguimiento de los labios, la extracción de la información visual y su integración con la información acústica. En el presente trabajo se proponen soluciones a estos tres problemas adecuadas al uso en dispositivos con recursos limitados. se ha desarrollado un algoritmo para la localización y seguimiento de los labios. A partir de una clasificación por color, usando contornos horizontales y un modelo sencillo de la cara el algoritmo implementado proporciona la posición de la boca con un consumo muy bajo de recursos. Este algoritmo se ha implementado en un teléfono móvil procesando una tasa de 15 imágenes por segundo en tiempo real. Por otro lado para la extracción de la información visual se han estudiado dos tipos de algoritmos diferentes; uno basado en un modelado de la geometría labial y otro basado en una transformación matemática de los pixeles incluidos en la región de la boca. Se ha mostrado como en dispositivos con recursos limitados el segundo tipo proporciona mejores tasas de reconocimiento al no requerir la extracción precisa del contorno de los labios. Finalmente, se han estudiado tres técnicas para integrar la información acústica y visual, que se diferencian en la posición donde tiene lugar la integración en el proceso de reconocimiento: temprana, tardía e híbrida. Se ha constatado que la última proporciona los mejores resultados

 

Datos académicos de la tesis doctoral «Improvements in speech recognition for embedded devices by taking advantage of lip reading techniques.«

  • Título de la tesis:  Improvements in speech recognition for embedded devices by taking advantage of lip reading techniques.
  • Autor:  Guitarte Perez Jesús Fernando
  • Universidad:  Zaragoza
  • Fecha de lectura de la tesis:  26/09/2006

 

Dirección y tribunal

  • Director de la tesis
    • Eduardo Lleida Solano
  • Tribunal
    • Presidente del tribunal: climent Nadeu camprubi
    • alejandro Frangi caregnato (vocal)
    • harald Hí¶ge (vocal)
    • José Carlos Segura luna (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio