Video indexing using multimodal information

Tesis doctoral de Alberto Albiol Colomer

La presente tesis se centra el del desarrollo de algoritmos para el indexado de secuencias de vídeo empleando información de distintas modalidades: audio e imagen. la tesis se divide en dos partes. En la primera parte, se propone un sistema para la detección de tomas de vídeo en las que aparezcan caras humanas. Como resultado del sistema de detección se obtendrá un valor de confianza que se utiliza en un sistema global de indexación y búsqueda de secuencias de vídeo. El sistema global conocido como vibe ha sido desarollado en la universidad de purdue y emplea diferentes características adicionales para realizar las búsquedas. la segunda parte de la tesis se centra en el reconocimiento de personas en secuencias de vídeo, con el fin de poder indexar aquellas partes donde un determinado personaje aparece. El reconocimiento se realiza empleando distintas modalidades. En primer lugar se empela únicamente información de imagen. Para ello, se propone un sistema combinado de detección-reconocimiento de caras. En segundo lugar, se considera únicamente información relativa al audio. En este caso, se han implementado técnicas de reconocimiento de personas basadas en la voz. Finalmente, se propone un sistema híbrido que emplea los resultados de las distintas modalidades audio-imagen, para crear un sistema multimodal más robusto y con mayor fiabilidad. en la tesis también se tratan otros aspectos relacionados con los sistemas anteriores. Por ejemplo, se hace un estudio sobre sistemas de detección de piel en imagen. Este paso se emplea en los distintos sistemas de detección de caras como paso previo para centrar la búsqueda. También se presenta un sistema para poder localizar aquellas partes de las secuencias de vídeo donde probablemente se va a encontrar un personaje hablando, y por tanto se pude aplicar el reconocimiento audiovisual.

 

Datos académicos de la tesis doctoral «Video indexing using multimodal information«

  • Título de la tesis:  Video indexing using multimodal information
  • Autor:  Alberto Albiol Colomer
  • Universidad:  Politécnica de Valencia
  • Fecha de lectura de la tesis:  01/04/2003

 

Dirección y tribunal

  • Director de la tesis
    • Lluís Torres Urgell
  • Tribunal
    • Presidente del tribunal: ferrán Marques acosta
    • Mossi García José Manuel (vocal)
    • Fernando Pereira (vocal)
    • guillermo Cisneros perez (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio