Tesis doctoral de Jorge González Mollá
Traducción automática es un área de lingí¼ística computacional que investiga el uso de software para traducir texto o voz en lenguaje natural hacia su representación en un idioma destino, también mediante lenguaje natural. en las últimas décadas ha habido un fuerte impulso sobre la utilización de técnicas estadísticas para el desarrollo de sistemas de traducción automática. para la aplicación de estos métodos sobre un par de lenguas en concreto, se requiere la disponibilidad de un corpus paralelo para dicho par de idiomas. el atractivo de estas técnicas radica en que el desarrollo de un sistema se realiza sin necesidad de trabajo experto por parte de especialistas en lingí¼ística. los modelos de estados finitos llevan bastante tiempo empleándose con éxito en múltiples y variadas disciplinas dentro de la investigación científica aplicada al lenguaje natural, incluyendo su uso en traducción automática. los modelos de estados finitos presentan una serie de ventajas con respecto a otros modelos estadísticos, como una sencilla integración en entornos de reconocimiento de voz, su aplicación a sistemas de traducción asistida, o la capacidad de procesar la información sin necesidad de que esté completa, por medio de una arquitectura basada en las populares cadenas de montaje. el objetivo de la investigación consiste en el estudio y la explotación de las técnicas de traducción automática basadas en modelos de estados finitos. el trabajo presentado en esta tesis es un análisis detallado de la metodología giati para el aprendizaje de transductores estocásticos de estados finitos para su aplicación eficaz y eficiente como modelos estadísticos de traducción, permitiendo su uso sobre tareas de traducción con un gran volumen de datos. por un lado, se ha desarrollado un conjunto de herramientas software que implementan de manera eficiente la metodología giati, y que permiten, por tanto, el aprendizaje de la estructura de dichos modelos y la estimación de sus probabilidades, incluyendo métodos de búsqueda para su evaluación. además, se han incluido varias técnicas de escalabilidad en el desarrollo de dichas herramientas que permiten el uso de un corpus paralelo voluminoso. por otro lado, en la actualidad el estado del arte en traducción automática estadística está basado en los así conocidos modelos basados en segmentos. la idea que subyace a estos modelos se ha integrado dentro de nuestro marco de trabajo, permitiendo la construcción de transductores basados en segmentos, cuya calidad se contrasta positivamente frente a los basados en palabras. su aplicación sobre giati ha fomentado el uso de estrategias de búsqueda eficientes que han permitido el uso de algoritmos de suavizado más eficaces. también hemos adaptado las modernas tendencias en modelado log-lineal sobre esta tecnología basada en transductores estocásticos de estados finitos. la aproximación permite el refinamiento de las probabilidades de transición del modelo, de modo que las prestaciones del sistema se ven incrementadas. finalmente, se ha establecido la infraestructura necesaria para una mejor explotación de los recursos lingí¼ísticos disponibles. su repercusión implica una mejor estimación de los modelos de traducción correspondientes, gracias al uso de analizadores morfológicos en cada lengua implicada en el proceso de traducción. la información lingí¼ística asociada permite clasificar las palabras en categorías, reduciendo así la variabilidad de los corpus, obteniendo unos modelos estadísticamente más robustos tras el proceso de aprendizaje. los resultados por medio de esta aproximación son un tanto preliminares pero sirven para establecer las bases de una futura línea de investigación sobre este tema.
Datos académicos de la tesis doctoral «Aprendizaje de transductores estocásticos de estados finitos y su aplicación en traducción automática«
- Título de la tesis: Aprendizaje de transductores estocásticos de estados finitos y su aplicación en traducción automática
- Autor: Jorge González Mollá
- Universidad: Politécnica de Valencia
- Fecha de lectura de la tesis: 18/09/2009
Dirección y tribunal
- Director de la tesis
- Francisco Casacuberta Nolla
- Tribunal
- Presidente del tribunal: enrique Vidal ruiz
- María ines Torres barañano (vocal)
- ismael García varea (vocal)
- colin De la higuera (vocal)