Tesis doctoral de José Luis Verdú Mas
Las gramáticas independientes del contexto son una forma utilizada habitualmente para representar la estructura sintáctica de las oraciones. Muchas tareas dedicadas al procesamiento del lenguaje natural necesitan de dicha estructura para poder interpretar cada frase. Sin embargo, el problema de la ambigí¼edad sintáctica es muy común (sobre todo en frases con más de 15 palabras) y dificulta enormemente la labor. Algunos autores establecen que la mayoría de ambigí¼edades sintácticas se pueden resolver sin utilizar información semántica alguna, esto es, sólo seleccionando el análisis sintáctico más probable de entre todos los candidatos. Esto establece las bases de una familia de técnicas que utilizan las probabilidades para decidir cual es el análisis sintáctico que mejor se adapta a cada frase. las probabilidades de cada estructura se estiman a partir de corpus de frases analizadas sintácticamente (treebanks). El penn tree-bank es un ejemplo de este tipo de corpus. La técnica más conocida que construye gramáticas independientes del contexto probabilísticas (gicp) a partir de treebanks es aquella en la que las reglas se extraen directamente de los árboles de análisis sintácticos. Las probabilidades se estiman contando el número de veces que cada producción aparece. Como resultado se obtienen las denominadas treebank grammars. Este es el esquema más sencillo y no está libre de problemas, por una parte, porque las treebank grammars sobre-generalizan en exceso lo que evidencia la necesidad del uso de mecanismos adicionales para relajar la independencia de la gicp y, por otra, porque los análisis sintácticos resultan ser extremadamente planos y por tanto con escasa utilidad semántica. con este espíritu se ha trabajado en esta tesis doctoral con una generalización de los clásicos k-gramas pero aplicados a árboles en lugar de cadenas. Las gicp obtenidas consisten en reglas que incluyen información contextual acerca de cuando pueden ser aplicadas. Los resultados han sido fructíferos: se ha reducido drásticamente la ambigí¼edad de las gramáticas y por tanto también el tiempo de proceso de los analizadores sintácticos cuyas respuestas resultan ser, además, más refinadas y mejor estructuradas de manera que son provechosas para otros fines lingí¼ísticos. En contrapartida y como cabía esperar, se ha producido el efecto contrario a la sobre-generalización: la asignación de probabilidad nula, y por tanto rechazo, de ciertas frases sintácticamente correctas. Este es el hecho que ha motivado la investigación sobre mecanismos de suavizado de las funciones de probabilidad que se adaptaran de forma eficiente a las nuevas gramáticas introducidas. las aportaciones fundamentales son: 1.Una descripción de cómo los lenguajes k-testables probabilísticos de árboles se pueden aproximar a cualquier lenguaje de árboles racional estocástico. 2.Un método para aprender eficientes gramáticas independientes del contexto probabilísticas a partir de lenguajes de árboles. 3.Un análisis de distintas técnicas de suavizado de las funciones de probabilidad. 4.Un método de construcción de gramáticas k-testables con suavizado implícito. 5.Experimentos con fructíferos resultados: se ha reducido drásticamente la ambigí¼edad de las gramáticas y por tanto también el tiempo de proceso de los analizadores sintácticos cuyas respuestas resultan ser, además, más refinadas y mejor estructuradas de manera que son provechosas para otros fines lingí¼ísticos.
Datos académicos de la tesis doctoral «Gramáticas probabilísticas para la desambiguación sintáctica«
- Título de la tesis: Gramáticas probabilísticas para la desambiguación sintáctica
- Autor: José Luis Verdú Mas
- Universidad: Alicante
- Fecha de lectura de la tesis: 05/10/2010
Dirección y tribunal
- Director de la tesis
- Jorge Calera Rubio
- Tribunal
- Presidente del tribunal: josé Oncina carratalá
- marc Sebban (vocal)
- damián López rodríguez (vocal)
- María ines Torres barañano (vocal)