Tesis doctoral de Felipe Sánchez Martínez
Los enfoques basado en corpus para la construcción de sistemas de traducción automática (ta) requieren de una gran cantidad de textos paralelos (textos en una lengua junto con su traducción a otro idioma) para alcanzar una calidad una calidad razonable a la hora de traducir textos de propósito general; esta gran cantidad de corpus paralelos no se encuentra siempre disponible, especialmente para aquellos pares de lenguas con pocos recursos electrónicos y de los cuales existe una demanda creciente de servicios de traducción, tal es el caso de los pares de lenguas occitano-catalana, francés-catalán o inglés-afrikaanas. En estos casos, el paradigma de ta basada en reglas es el único enfoque realista desde un punto de vista práctico. Sin embargo, la construcción de sistemas de ta basados en reglas implica un ingente esfuerzo humano para codificar todos los recursos lingí¼ísticos necesarios. Esta tesis estudia el desarrollo de métodos no supervisados basados en corpus para obtener de forma automática algunos de los recursos lingí¼ísticos necesarios para construir sistemas de ta basados en reglas. Concretamente, esta tesis se centra en: i) el desarrollo de un método no supervisado para el entrenamiento de desambiguadores léxicos categoriales basados en modelos ocultos de markov con vista a su empleo en sistemas de ta; ii) la inferencia automática del conjunto de estados a emplear por el desambiguador léxico categorial para llevar a cabo la desambiguación léxica categorial de los textos a traducir; y iii) la inferencia automática de reglas de transferencia estructural a partir de una pequeña cantidad de corpus paralelos. El objetivo final de los métodos propuestos y evaluados en esta tesis es reducir en la medida de lo posible el esfuerzo humano necesario para construir un sistema de ta basado en reglas desde cero. Los enfoques analizados en esta tesis demuestran que a la hora de entrenar de manera no supervisada un desambiguador léxico categorial basado en modelos ocultos de markov hay una fuente de conocimiento, un modelo estadístico de la lengua destino de la traducción, que puede ser usado fácilmente para obtener desambifuadores léxicos categoriales especialmente adaptados a su posterior uso como módulo embebido en un sistema de ta basado en reglas. Este novedoso enfoque utiliza información no sólo de la lengua origen, como ya hacen los métodos de entrenamiento clásicos, sino también de lengua destino de la traducción y de los restantes módulos del sistema de ta en el que el desambiguador se integra. El desambiguador resultante es más adecuado para su empleo en sistemas de ta basados en reglas que los obtenidos mediante el método de entrenamiento no supervisado clásico (el algoritmo de baum y welch). Además, en esta tesis se analiza la aplicación de un algoritmo de agrupamiento (clustering) para obtener automáticamente el conjunto de estados a utilizar por los modelos ocultos de markov empleados para la desambiguación léxico categorial. Por último, esta tesis demuestra que el conjunto de reglas de transferencia estructural a usar en ta puede inferirse a partir de un corpus paralelo de pequeño tamaño mediante la adaptación de las plantillas de alineamiento empleadas en ta estadística al paradigma de la ta basada en reglas. El conjunto de reglas inferido mejorar la calidad de las traducciones en comparación con la traducción palabra por palabra y ofrece resultados de traducción razonable próximos a los obtenidos usando reglas de transferencia estructural codificadas a mano. Además, las reglas inferidas son fácilmente legibles y pueden coexistir con reglas codificadas a mano.
Datos académicos de la tesis doctoral «Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas // using unsupervised corpus-based methods to bullid rule-based machine translation systems«
- Título de la tesis: Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas // using unsupervised corpus-based methods to bullid rule-based machine translation systems
- Autor: Felipe Sánchez Martínez
- Universidad: Alicante
- Fecha de lectura de la tesis: 30/06/2008
Dirección y tribunal
- Director de la tesis
- Mikel Lorenzo Forcada Zubizarreta
- Tribunal
- Presidente del tribunal: Rafael Carlos Carrasco jiménez
- andy Way (vocal)
- harold Somers (vocal)
- lluís Padró cirera (vocal)