Toponym disambiguation in information retrieval

Tesis doctoral de Davide Buscaldi

En los últimos años, la geografía ha adquirido una importancia cada vez mayor en el contexto de la recuperación de la información (information retrieval, ir) y, en general, del procesamiento de la información en textos. Cada vez son más comunes dispositivos móviles que permiten a los usuarios de navegar en la web y al mismo tiempo informar sobre su posición, así como las aplicaciones que puedan explotar estos datos para proporcionar a los usuarios algún tipo de información localizada, por ejemplo instrucciones para orientarse o anuncios publicitarios. Por tanto, es importante que los sistemas informáticos sean capaces de extraer y procesar la información geográfica contenida en textos electrónicos. La mayor parte de este tipo de información está formado por nombres de lugares, llamados también emph{topónimos}. la ambigí¼edad de los topónimos constituye un problema importante en la tarea de recuperación de información geográfica (geographical information retrieval o gir), dado que en esta tarea las peticiones de los usuarios están vinculadas geográficamente. Ha habido un gran esfuerzo por parte de la comunidad de investigadores para encontrar métodos de ir específicos para gir que sean capaces de obtener resultados mejores que las técnicas tradicionales de ir. La ambigí¼edad de los topónimos es probablemente un factor muy importante en la incapacidad de los sistemas gir actuales por conseguir una ventaja a través del procesamiento de las informaciones geográficas. Recientemente, algunas tesis han tratado el problema de resolución de ambigí¼edad de topónimos desde distintas perspectivas, como el desarrollo de recursos para la evaluación de los métodos de desambiguación de topónimos (leidner) y el uso de estos métodos para mejorar la resolución de lo ‘scope» geográfico en documentos electrónicos (andogah). En esta tesis se ha introducido un nuevo método de desambiguación basado en wordnet y por primera vez se ha estudiado atentamente la ambigí¼edad de los topónimos y los efectos de su resolución en aplicaciones como gir, la búsqueda de respuestas (question answering o qa), y la recuperación de información en la web. esta tesis empieza con una introducción a las aplicaciones en las cuales la desambiguación de topónimos puede producir resultados útiles, y con una análisis de la ambigí¼edad de los topónimos en las colecciones de noticias. No sería posible estudiar la ambigí¼edad de los topónimos sin estudiar también los recursos que se usan como bases de datos de topónimos; estos recursos son el equivalente de los diccionarios de idiomas, que se usan para encontrar los significados diferentes de una palabra. Un resultado importante de esta tesis consiste en haber identificado la importancia de la elección de un particular recurso, que tiene que tener en cuenta la tarea que se tiene que llevar a cabo y las características específicas de la aplicación que se está desarrollando. Se ha identificado un factor especialmente importante constituido por la ‘localidad» de la colección de textos a procesar. La elección de un algoritmo apropiado de desambiguación de topónimos es igualmente importante, dado que el conjunto de ‘features» disponible para discriminar las referencias a los lugares puede cambiar en función del recurso elegido y de la información que este puede proporcionar para cada topónimo. En este trabajo se desarrollaron dos métodos para este fin: un método basado en la densidad conceptual y otro basado en la distancia media desde centroides en mapas. Ha sido presentado también un caso de estudio de aplicación de métodos de desambiguación a un corpus de noticias en italiano. se han estudiado los efectos derivados de la elección de un particular recurso como diccionario de topónimos sobre la tarea de gir, encontrando que la desambiguación puede resultar útil si el tamaño de la query es pequeño y el recurso utilizado tiene un elevado nivel de detalle. Se ha descubierto que el nivel de error en la desambiguación no es relevante, al menos hasta el 60% de errores, si el recurso tiene una cobertura pequeña y un nivel de detalle limitado. Se observó que los métodos de ordenación de los resultados que utilizan criterios geográficos son más sensibles a la utilización de la desambiguación, especialmente en el caso de recursos detallados. Finalmente, se detectó que la desambiguación de topónimos no tiene efectos relevantes sobre la tarea de qa, dado que los errores introducidos por este proceso constituyen una parte trascurable de los errores que se generan en el proceso de búsqueda de respuestas. en la tarea de recuperación de información geográfica, la mayoría de las peticiones de los usuarios son del tipo ‘x en p», dónde p representa un nombre de lugar y x la parte temática de la query. Un problema frecuente derivado de este estilo de formulación de la petición ocurre cuando el nombre de lugar no se puede encontrar en ningún recurso, tratándose de una región delimitada de manera difusa o porqué se trata de nombres vernáculos. Para solucionar este problema, se ha desarrollado geooreka!, Un prototipo de motor de búsqueda web que usa una interfaz gráfica basada en mapas. Una evaluación preliminar se ha llevado a cabo en esta tesis, que ha permitido encontrar una aplicación particularmente útil de la desambiguación de topónimos, la desambiguación de los topónimos en los documentos web, una tarea necesaria para estimar correctamente las probabilidades de encontrar ciertos lugares en la web, una tarea necesaria para la minería de texto y encontrar información relevante.

 

Datos académicos de la tesis doctoral «Toponym disambiguation in information retrieval«

  • Título de la tesis:  Toponym disambiguation in information retrieval
  • Autor:  Davide Buscaldi
  • Universidad:  Politécnica de Valencia
  • Fecha de lectura de la tesis:  29/10/2010

 

Dirección y tribunal

  • Director de la tesis
    • Paolo Rosso
  • Tribunal
    • Presidente del tribunal: emilio Sanchis arnal
    • diana Santos (vocal)
    • mark Sanderson (vocal)
    • paul Clough (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio