Problemática sobre el impacto de la expansión automática de consultas y desambiguación semántica en la evaluación de los sistemas de recuperación de información

Tesis doctoral de Francisco Joao Pinto

En los últimos años, se está produciendo un enorme incremento de la cantidad de información disponible en formato digital. Las bases de datos textuales no son una excepción. El aumento de bibliotecas digitales, bases de datos documentales, y sobre todo el gran crecimiento de web, hacen que las colecciones de texto crezcan en tamaño y número de forma exponencial. Sin embargo, disponer de grandes cantidades de documentos no resulta de especial interés si no existen medios que permitan obtener la información deseada en un contexto determinado. Es por ello que surge con fuerza el problema de la recuperación de información que debe contemplar no sólo cómo ha de ser estructurada la información para facilitar el acceso a la misma, sino también la forma en que dicho acceso se realiza. Entre otros aspectos, una parte fundamental del proceso de recuperación de información es el modo en el que un usuario realiza la formulación de una consulta que deberá plasmar adecuadamente su necesidad de información, y cómo dicha consulta es interpretada por el sistema de recuperación para posteriormente obtener aquellos documentos que contengan información relevante. para que el proceso de recuperación sea efectivo, y por tanto se recuperen el mayor número de documentos relevantes posibles, dada una consulta, es esencial ser capaz de determinar el conjunto de palabras que expresan semánticamente la necesidad de información del usuario. De este modo, en lugar de recuperar simplemente los documentos que contienen las palabras incluidas por un usuario en su consulta, es posible recuperar documentos que contengan términos relacionados con aquéllos (expandidos). Por otra parte, la existencia de palabras que pueden tener un significado ambiguo (p.Ej. Polisemia) hacen interesante el proceso de desambiguación semántica; esto es, seleccionar el sentido más apropiado de una palabra ambigua, en un contexto determinado. Generalmente para esta tarea es necesario contar con una fuente de información semántica, es decir, recursos lingí¼ísticos como diccionarios, tesauros, etc. en esta tesis doctoral se explora el uso del recurso lingí¼ístico wordnet como medio para realizar expansión automática de consultas, y se estudia cómo el proceso de desambiguación permite mejorar la efectividad del proceso de recuperación de información. Basándonos en el sistema lemur, se ha llevado a cabo la implementación de un sistema de recuperación que incluye la posibilidad de utilizar diversas técnicas de expansión de consultas en nuestros experimentos. Los resultados empíricos obtenidos sobre grandes colecciones de textos de referencia (trec) demuestran que la desambiguación de palabras permite sacar más partido a la expansión de consultas con wordnet.

 

Datos académicos de la tesis doctoral «Problemática sobre el impacto de la expansión automática de consultas y desambiguación semántica en la evaluación de los sistemas de recuperación de información«

  • Título de la tesis:  Problemática sobre el impacto de la expansión automática de consultas y desambiguación semántica en la evaluación de los sistemas de recuperación de información
  • Autor:  Francisco Joao Pinto
  • Universidad:  A coruña
  • Fecha de lectura de la tesis:  31/07/2008

 

Dirección y tribunal

  • Director de la tesis
    • sanjulián Fernández Pérez
  • Tribunal
    • Presidente del tribunal: nieves Rodriguez brisaboa
    • José ramón Rios viqueira (vocal)
    • angelica Urrutia sepulveda (vocal)
    • eva María Lorenzo iglesias (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio