Improving statistical machine translation through adaptation and learning

Tesis doctoral de Carlos Alberto Henríquez Quintana

Con la aparición de los sistemas gratuitos de traducción automática (ta) en internet surge la posibilidad de mejorar las traducciones automáticas con la ayuda de los usuarios de dichos sistemas. Uno de los métodos para lograr estas mejoras es solicitarle a los usuarios que provean una mejor traducción. Es posible que el sistema haya cometido un error y si el usuario es capaz de detectarlo, sería de gran ayuda que le enseñe al sistema dónde cometió el error, de manera que pueda ser corregido para una futura ocasión. Actualmente, la mayoría de los sistemas de traducción que se encuentran en internet proporcionan un área de texto para que los usuarios sugieran una mejor traducción (como el traductor de google) o un sistema de clasificación para puntuar una traducción (como el sistema de microsoft). en 2009, como parte del séptimo programa macro de la comisión europea, se da inicio al proyecto faust con el objetivo de «desarrollar sistemas de traducción automática que respondan con rapidez y de forma inteligente a la retroalimentación de los usuarios». En concreto, uno de los objetivos del proyecto era «desarrollar mecanismos para incorporar de forma instantánea respuesta de los usuarios en los motores de ta que se utilizan en entornos de producción, …». Como miembro del proyecto faust, esta tesis se centra en el desarrollo de un mecanismo de este tipo. formalmente, el objetivo general de este trabajo fue diseñar e implementar una estrategia para mejorar la calidad de la traducción de un sistema de traducción estadística previamente entrenado, con traducciones humanas que sean correcciones de traducciones automáticas del sistema. para hacer frente a este problema lo dividimos en tres objetivos específicos: 1. Definir una relación entre las palabras de una frase corregida y las palabras de la traducción del sistema, con el fin de detectar los errores que el sistema haya cometido. 2. Incluir las correcciones de dichos errores en el sistema original, de manera que aprenda a solucionarlos en caso de que se produzca una situación similar. 3. Probar la estrategia en diferentes escenarios y con diferentes datos, con el fin de validar las aplicaciones de la metodología propuesta. las principales aportaciones realizadas en el campo de traducción automática estadística que pueden encontrarse en esta tesis doctoral son: – definimos una función de similitud que compara la salida de un sistema de ta con una referencia de traducción para esa salida y alínea los errores cometidos con las traducciones correctas encontradas en la referencia. Esta información se utiliza para calcular un alineamiento entre la frase original y la referencia. – definimos un método para llevar a cabo la adaptación de dominio basado en la alineación antes mencionada. Utilizando este alineado con un corpus paralelo perteneciente al dominio a adaptar, extraemos unidades de traducción que corresponden tanto a unidades existentes que fueron utilizadas correctamente por el traductor, como a unidades nuevas que corrigen los errores de traducción detectados durante el alineado. – aplicamos con éxito el método en un escenario real: mejorar la calidad de traducción de un sistema de traducción automática estadística, usando post ediciones facilitadas por usuarios reales de dicho sistema. – el método propuesto en esta tesis es capaz de lograr mejoras significativas en la calidad de la traducción con un material de aprendizaje pequeño, correspondiente al 0,5% del material utilizado para el entrenamiento del sistema original. Los resultados de nuestras evaluaciones también indican que la mejora conseguida con la estrategia de adaptación de dominio es observable tanto en métricas de evaluación automática como en métricas de evaluación manual.

 

Datos académicos de la tesis doctoral «Improving statistical machine translation through adaptation and learning«

  • Título de la tesis:  Improving statistical machine translation through adaptation and learning
  • Autor:  Carlos Alberto Henríquez Quintana
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  07/03/2014

 

Dirección y tribunal

  • Director de la tesis
    • José Bernardo Mariño Acebal
  • Tribunal
    • Presidente del tribunal: enric Monte moreno
    • adria de Gispert ramis (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio