Multimodal interactive transcription of handwritten text images

Tesis doctoral de Verónica Romero Gómez

En esta tesis se presenta un nuevo marco interactivo y multimodal para la transcripción de documentos manuscritos. Esta aproximación, lejos de proporcionar la transcripción completa pretende asistir al experto en la dura tarea de transcribir. hasta la fecha, los sistemas de reconocimiento de texto manuscrito disponibles no proporcionan transcripciones aceptables por los usuarios y, generalmente, se requiere la intervención del humano para corregir las transcripciones obtenidas. Estos sistemas han demostrado ser realmente útiles en aplicaciones restringidas y con vocabularios limitados (como es el caso del reconocimiento de direcciones postales o de cantidades numéricas en cheques bancarios), consiguiendo en este tipo de tareas resultados aceptables. Sin embargo, cuando se trabaja con documentos manuscritos sin ningún tipo de restricción (como documentos manuscritos antiguos o texto espontáneo), la tecnología actual solo consigue resultados inaceptables. el escenario interactivo estudiado en esta tesis permite una solución más efectiva. En este escenario, el sistema de reconocimiento y el usuario cooperan para generar la transcripción final de la imagen de texto. El sistema utiliza la imagen de texto y una parte de la transcripción previamente validada (prefijo) para proponer una posible continuación. Después, el usuario encuentra y corrige el siguiente error producido por el sistema, generando así un nuevo prefijo mas largo. Este nuevo prefijo, es utilizado por el sistema para sugerir una nueva hipótesis. La tecnología utilizada se basa en modelos ocultos de markov y n-gramas. Estos modelos son utilizados aquí de la misma manera que en el reconocimiento automático del habla. Algunas modificaciones en la definición convencional de los n-gramas han sido necesarias para tener en cuenta la retroalimentación del usuario en este sistema. Para implementar el proceso de decodificación en un solo paso, tal y como se hace en los sistemas convencionales de reconocimiento de texto, dos aproximaciones han sido estudiadas. La primera de ellas consiste en la construcción de un modelo de lenguaje especial, y la segunda se basa en la utilización de grafos de palabras. En esta última aproximación, se integran técnicas eficientes de corrección de errores, con el fin de garantizar el bajo tiempo de respuesta y un mínimo de precisión en las transcripciones. La calidad del sistema ha sido medida automáticamente con tres corpus. Dos de ellos contienen texto manuscrito en español e ingles moderno, mientras que, el tercer corpus consiste en un texto manuscrito antiguo del siglo xix. Los resultados obtenidos con los tres corpus sugieren que utilizar el escenario interactivo propuesto puede reducir considerablemente el esfuerzo realizado por el usuario si lo comparamos con el sistema convencional de reconocimiento de texto. En este nuevo escenario interactivo, el usuario esta repetidamente interactuando con el sistema, por lo tanto, la calidad y ergonomía en el proceso interactivo es crucial para su éxito. en esta tesis, se han estudiado diferentes formas de interactuar con el sistema y diferentes niveles de interacción (palabras completas o caracteres). Además, se han utilizado interfaces multimodales más ergonómicas, con la intención de obtener sistemas más confortables y de fácil uso para el usuario. Entre todas las posibles modalidades de retroalimentación, nos centramos en la comunicación mediante una pantalla táctil, que es, quizás, la forma más natural de proporcionarle al sistema la retrolimentación. El subsistema de reconocimiento de texto manuscrito on-line utilizado para la decodificación de la retroalimentación también esta basado en modelos ocultos de markov. Para entrenar los modelos del subsistema de retroalimentación, y testear la versión multimodal del escenario interactivo, se ha utilizado un corpus manuscrito on-line. Las palabras que debe introducir el usuario en el proceso multimodal han sido generadas concatenando muestras aleatorias de caracteres de tres categorías diferentes: dígitos, letras minúsculas y símbolos. Los resultados obtenidos muestran que, a pesar de la perdida del determinismo que proporcionan el teclado y el ratón, la aproximación multimodal puede ahorrar una cantidad significativa de esfuerzo humano.

 

Datos académicos de la tesis doctoral «Multimodal interactive transcription of handwritten text images«

  • Título de la tesis:  Multimodal interactive transcription of handwritten text images
  • Autor:  Verónica Romero Gómez
  • Universidad:  Politécnica de Valencia
  • Fecha de lectura de la tesis:  03/09/2010

 

Dirección y tribunal

  • Director de la tesis
    • Enrique Vidal Ruiz
  • Tribunal
    • Presidente del tribunal: horst Bunke
    • ergina Kavallieratou (vocal)
    • bertrand Coí¼asnon (vocal)
    • basilis Gatos (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio