Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos.

Tesis doctoral de Ferrán Pla Santamaría

En esta tesis se abordan dos problemas que simplifican substancialmente la tarea de procesamiento de oraciones escritas en lenguaje natural: la desambiguación léxica y el análisis sintáctico superficial de textos no restringidos. se ha desarrollado un sistema de desambiguación que es capaz de obtener de manera conjunta o separada, el etiquetado léxico (pos tagging) –o proceso mediante el cual se elige la categoría léxica correcta para las palabras de una frase– y el análisis sintáctico superficial (shallow parsing o chunking) –consistente en la detección de ciertos grupos no solapados de palabras relacionadas sintácticamente como, sintagmas nominales (sn), verbales (sv), preposicionales (sp), …–, Para textos no restringidos. la aproximación propuesta se basa en modelos de lenguaje (ml) obtenidos automáticamente a partir de corpora etiquetados con información lingí¼istica.Para ello, se utilizan técnicas de aprendizaje automático derivadas del campo de la inferencia gramatical y de los modelos estadísticos. Los modelos inferidos de representan utilizando un formalismo homogéneo: máquimas de estados finitos. éStos incluyen desde modelos de n-gramas, hasta cualquier modelo regular estocástico aprendido por medio de técncias de indiferencia gramatical obtendio mediante cualquier otro método. Para estos últimos se introducen nuevos métodos de suavizado para ampliar la cobertura del lenguaje. Además, el sistema ha sido ampliado para enriquecer los ml con información de las palabras, además de las categorías léxicas, mediante lo que hemos denominado modelos contextuales especializados o lexicalizados. éstos permiten reflejar dependencias léxico-contextuales, que en muchos casos, ayudan de manera notable a resolver ciertas ambigí¼edades estructurales. el sistema propuesto se ha evaluado experimentalmente sobre diferentes corpora en inglés (wall street journal) y en castellano (lexesp, bdgeo), establec

 

Datos académicos de la tesis doctoral «Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos.«

  • Título de la tesis:  Etiquetado léxico y análisis sintáctico superficial basado en modelos estadísticos.
  • Autor:  Ferrán Pla Santamaría
  • Universidad:  Politécnica de Valencia
  • Fecha de lectura de la tesis:  27/11/2000

 

Dirección y tribunal

  • Director de la tesis
    • Natividad Prieto Sáez
  • Tribunal
    • Presidente del tribunal: enrique Vidal ruiz
    • horacio Horacio rodríguez (vocal)
    • iñaki Alegria loinaz (vocal)
    • lluís Márquez villodre (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio