Metodología, construcción y explotación de corpus anotados semántica y anafóricamente

Tesis doctoral de Francisco De Borja Navarro Colorado

El procesamiento del lenguaje natural (pln) o lingí¼ística computacional es una parte esencial de la inteligencia artificial que investiga y desarrolla mecanismos computacionalmente efectos capaces de analizar, entender y generar textos, tanto orales como escritores, basados en una lengua natural. Desde finales de los años 90, el desarrollo de aplicaciones para el procesamiento de lenguaje natural se ha caracterizado tanto por el auge de técnicas empíricas como por el desarrollo de sistemas robustos capaces de procesar amplias colecciones de textos en dominios abiertos o no restringidos. Para desarrollar este tipo de sistemas es necesario conocer el uso real delas lenguas tal como son utilizadas por los hablantes, con sus errores, peculiaridades y excepciones. esta realidad lingí¼ística se muestra en los corpus anotados, en tanto que amplias colecciones de textos en soporte electrónico. lo que convierte al corpus en un recurso importante es el hecho de poder estar además anotado con información lingí¼ística de diferente tipo (sintáctica, semántica, pragmática, etc.), Que permita un tratamiento profundo del conocimiento lingí¼ístico contenido en éste. Con ello el corpus no está formado únicamente por la materia lingí¼ística real, sino también por información lingí¼ística más profunda: categorías gramaticales, relaciones sintácticas, sentidos, relaciones anafóricas, estructuras retóricas, etc., Que ha sido marcada explícitamente (mcenery & wilson 1996). Por tanto, es posible el procesar el corpus a niveles más profundos de conocimiento lingí¼ístico con diferentes técnicas de pln; aprendizaje de estructuras gramaticales, sentidos en su contexto, etc. Los corpus anotados tienen dos aplicaciones básicas dentro del pln en la actualidad: 1,- como corpus de aprendizaje: todos los métodos de aprendizaje automático supervisados necesitan gran cantidad de ejemplos en los que la información lingí¼ística esté representada de manera ex

 

Datos académicos de la tesis doctoral «Metodología, construcción y explotación de corpus anotados semántica y anafóricamente«

  • Título de la tesis:  Metodología, construcción y explotación de corpus anotados semántica y anafóricamente
  • Autor:  Francisco De Borja Navarro Colorado
  • Universidad:  Alicante
  • Fecha de lectura de la tesis:  03/09/2007

 

Dirección y tribunal

  • Director de la tesis
    • Patricio Martínez Barco
  • Tribunal
    • Presidente del tribunal: lidia Moreno boronat
    • María antonia Martí antonín (vocal)
    • xavier Gómez guinovart (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio