Tesis doctoral de Daniel Jiménez González
La información es útil si cuando se necesita está disponible y se puede hacer uso de ella. La disponibilidad suele darse fácilmente cuando la información está bien estructurada y ordenada, y además, no es muy extensa. Pero esta situación no es la más común, cada vez se tiende más a que la cantidad de información ofrecida crezca de forma desmesurada, que esté desestructurada y que no presente un orden claro. La estructuración u ordenación manual es inviable debido a las dimensiones de la información a manejar. Por todo ello se hace clara la utilidad, e incluso la necesidad, de buenos sistemas de recuperación de información (sri). Además, otra característica también importante es que la información tiende a presentarse de forma natural de manera distribuida, lo cual implica la necesidad de sri que puedan trabajar en entornos distribuidos y con técnicas de paralelización. esta tesis aborda todos estos aspectos desarrollando y mejorando métodos que permitan obtener sri con mejores prestaciones, tanto en calidad de recuperación como en eficiencia computacional, los cuales además permiten trabajar desde el enfoque de sistemas ya distribuidos. el principal objetivo de los sri será proporcionar documentos relevantes y omitir los considerados irrelevantes respecto a una consulta dada. Algunos de los problemas más destacables de los sri son: la polisemia y la sinonimia; las palabras relacionadas (palabras que juntas tienen un significado y separadas otro); la enormidad de la información a manejar; la heterogeneidad de los documentos; etc. De todos ellos esta tesis se centra en la polisemia y la sinonimia, las palabras relacionadas (indirectamente mediante la lematización semántica) y en la enormidad de la información a manejar. el desarrollo de un sri comprende básicamente cuatro fases distintas: el preprocesamiento, la modelización, la evaluación y la utilización. El preprocesamiento que conlleva las acciones necesarias para transformar los documentos de la colección en una estructura de datos con la información relevante de los documentos ha sido una parte importante del estudio de esta tesis. En esta fase nos hemos centrado en la reducción de los datos y estructuras a manejar, maximizando la información contenida. La modelización, ha sido la fase más analizada y trabajada en esta tesis, es la que se encarga de definir la estructura y comportamiento del sri. Solamente se ha trabajado sobre el modelo vectorial, dejando a parte otros modelos como el probabilístico y el lógico. En la fase de evaluación que se encarga de determinar la calidad del sri, se han utilizado métodos ya definidos, ampliamente usados y corroborados, todos ellos basados directa o indirectamente en la precisión (precision) y la cobertura (recall). Por último, en la tesis no se ha abordado la fase de utilización. debido a la gran cantidad de métodos de clustering existentes en multitud de ámbitos y para una extensa variedad de sistemas de información, se ha buscado trabajar a partir de dos de los principales y más importantes métodos de la literatura: k-means y dbscan. Y, entonces, mejorar su calidad, intentando no perder su funcionalidad ni sus prestaciones computacionales, e incluso mejorándolas. Concretamente se ha desarrollado un método menos sensible que el k-means a la inicialización de sus parámetros, a-bisecting spherical k-means. También se ha desarrollado el método vdbscan que obtiene los mismos clusters que el dbscan pero en casi la mitad de tiempo y eliminando la elección aleatoria de los parámetros de inicialización cuando no se tiene información suficiente sobre el sri (fijando a un valor constante uno de sus parámetros y el otro obteniéndolo de una forma heurística también desarrollada en esta tesis). Todos estos métodos se han creado con el objetivo de trabajar en entornos distribuidos y por ello una parte importante de la tesis se centra en los aspectos de paralelización. tras el estudio experimental de la calidad de recuperación de información y de las prestaciones computacionales se ha concluido que el método vdbscan obtiene una mejor calidad respecto al método a-bisecting spherical k-means. Aunque el vdbscan tiene una modelización claramente más costosa, responde mejor a la paralelización. El tiempo de respuesta del a-bisecting spherical k-means siempre es un poco más rápido que el del vdbscan. Así y todo el vdbscan obtiene mejores valores de speed up y sensiblemente mejores resultados de eficiencia. En conclusión, el vdbscan será elegido siempre que se considere primordial la calidad de recuperación. Mientras que el a-bisecting spherical k-means, cuando la fase de modelización se repita muchas veces, por su menor coste computacional.
Datos académicos de la tesis doctoral «Algoritmos de clustering paralelos en sistemas recuperación de información distribuidos«
- Título de la tesis: Algoritmos de clustering paralelos en sistemas recuperación de información distribuidos
- Autor: Daniel Jiménez González
- Universidad: Politécnica de Valencia
- Fecha de lectura de la tesis: 20/05/2011
Dirección y tribunal
- Director de la tesis
- Vicente Emilio Vidal Gimeno
- Tribunal
- Presidente del tribunal: Antonio manuel Vidal maciá
- marcelo Luis Errecalde (vocal)
- violeta Migallon gomis (vocal)
- José Manuel Badia contelles (vocal)