Fuzzy approach to conceptual meaning processing in natural language documents

Tesis doctoral de Andrés Soto Villaverde

Development of methods for information retrieval based on conceptual aspects is vital to reduce the quantity of unimportant documents retrieved by today search engines. In this thesis, several methods and formulas which help to disambiguate the meaning of the terms used in the user queries are presented. one of these models uses an approach based on synonymy and polysemy in order to identify the most relevant concepts that appear in a document. This way, the document could be better characterized, and its relevance could be better evaluated, according to user preferences. another model also introduced in this thesis calculates the frequency of the terms that appear in a dictionary definition in order to determine the frequency of the concept associated with that definition. a third model is also presented here, which is similar to the previous one, but with one important difference: in spite of calculating the frequency of the terms that appear in a dictionary definition, it calculates the frequency of the nominal phrases which appears in a dictionary definition in order to determine the frequency of the concept associated with that definition. after that, several results obtained by using those models combined with clustering algorithms are presented in the thesis. Those algorithms were applied to well known test collections as smart and reuters, with results that indicate a better performance than the classical approaches. natural languages (nl) are basically a system for describing perceptions which are intrinsically imprecise. Zadeh proposed a new approach denominated nl-computation (natural language computation), which employs new tools as generalized constraints (gc) and protoforms (ptf). Assuming that a nl proposition could be expressed by gc, then it could be assumed precise, al least in certain degree. the basic idea proposed by zadeh is the following: given a description of a perception in nl, to translate it into a gc in order to make precise its meaning. Then the gc is transformed into a protoform, which is an abstract model of the gc. After that, applying the deductive rules associated with the ptf, new information could be deduced. in this thesis, the characteristics of different nl structures such as noun phrases, copulative sentences, comparative sentences and superlative sentences are analyzed, emphasizing their main syntactic and semantic aspects. Those characteristics allow us to specify constraints with respect to the entities that appear involved on those sentences. Methodologies to recognize those structures in nl documents are presented. A specific formal notation to represent those structures as constraining relations is proposed a program which allows transforming sentences expressed by parse trees into object oriented structures is presented. Those structures are used by the program to store and process conveniently the sentences and phrases previously mentioned. Later, another program interprets the o-o structures and provides information about the characteristics of the entities involved on those sentences. in the thesis, symbolic expressions that, as prototypical forms, summarize the semantic structure of the sentences and phrases already mentioned are also proposed. Several examples have been developed to show how those structures could be synthesised and manipulated. It is also shown that we can obtain new information that was not present in the original text. Therefore these ideas could be used to develop question answering systems. el desarrollo de métodos para la recuperación de información partiendo del significado de la misma resulta vital para aumentar la relevancia de los documentos que recuperan los buscadores en la actualidad. En esta tesis se plantean diversos modelos y formulas que ayudan a desambiguar el significado de los términos usados por el usuario en una consulta. Uno de estos modelos se basa en el empleo de la sinonimia y la polisemia para identificar los conceptos más relevantes que aparecen en un documento y de esta manera, caracterizarlo, lo cual redunda favorablemente para determinar la relevancia del documento según los intereses de un usuario dado. Otro de los modelos planteados en la tesis se basa en el uso de las definiciones que aparecen en el diccionario (i.E. Wordnet) para, contabilizando las veces que aparecen los términos de la definición, contabilizar los conceptos asociados a dicha definición que aparecen en el documento. En la tesis se plantea además un tercer modelo, similar al anterior, en el cual se contabiliza el número de veces que aparecen las frases nominales incluidas en la definición de una palabra en el diccionario, en lugar de contar los términos que componen dicha definición como se planteo en el método anterior. En la tesis se presentan los resultados obtenidos mediante algoritmos de clustering que emplean los modelos antes mencionados. Dichos algoritmos se aplicaron a colecciones de prueba conocidas como la smart y la reuters con resultados mejores que los obtenidos con los métodos clásicos. El lenguaje natural (ln) es básicamente un sistema para describir percepciones, las cuales son intrínsecamente imprecisas. Para hacer frente a esta situación zadeh plantea un nuevo enfoque denominado nl-computation (cómputo en lenguaje natural, ln), el cual emplea herramientas tales como las restricciones generalizadas (rg) y las formas prototípicas (fp). Dada una proposición en ln, si ésta se puede expresar mediante rg, entonces se puede considerar precisa, al menos en cierto grado.La idea básica propuesta por zadeh es la siguiente: dada una descripción de una percepción en ln, traducirla en una restricción generalizada (rg) para precisar de esta forma su significado. Luego,, la rg se transforma en una forma prototípica (i.E. Una protoforma, ptf), la cual es un modelo abstracto de rg. Luego, aplicando las reglas deductivas asociadas a las ptf, podemos deducir nueva información. En la presente tesis, se analizan diferentes estructuras del ln tales como frases nominales, oraciones copulativas, comparativas y superlativas, destacando sus características sintéticas y semánticas. Dichas características permiten especificar restricciones con respecto a las entidades que aparecen involucradas en dichas oraciones. En la tesis se establecen metodologías para reconocer dichas estructuras en documentos en ln. También se propone una notación especifica para representar dichas estructuras a manera de relaciones formales restrictivas.Se ha desarrollado un programa que permite convertir oraciones expresadas mediante árboles sintácticos en estructuras orientadas a objeto, las cuales son utilizadas por el programa para detectar y procesar las oraciones y frases antes mencionadas. Posteriormente otro programa permite interpretar las estructuras orientadas a objeto antes mencionadas y obtener información con respecto a las características de las entidades que aparecen involucradas en dichas oraciones. También se proponen en la tesis expresiones simbólicas que, a manera de formas prototípicas, resumen de una manera abstracta la estructura semántica de las oraciones y frases antes mencionadas. Se desarrollan ejemplos donde se evidencia el proceso de síntesis y de manipulación de dichas estructuras y se obtiene información que no aparecía reflejada en el documento original, lo cual podría ser aplicado en sistemas automáticos para responder preguntas (question-answering systems)

 

Datos académicos de la tesis doctoral «Fuzzy approach to conceptual meaning processing in natural language documents«

  • Título de la tesis:  Fuzzy approach to conceptual meaning processing in natural language documents
  • Autor:  Andrés Soto Villaverde
  • Universidad:  Castilla-la mancha
  • Fecha de lectura de la tesis:  18/12/2008

 

Dirección y tribunal

  • Director de la tesis
    • José Angel Olivas Varela
  • Tribunal
    • Presidente del tribunal: José Luis Verdegay galdeano
    • Miguel ángel Sicilia urbán (vocal)
    • Manuel Emilio Prieto mendez (vocal)
    • alejandro Sobrino cerdeiriña (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio