Tesis doctoral de Juan Manuel Cigarran Recuero
En este trabajo se presenta una aproximación para la organización de resultados de búsqueda mediante análisis formal de conceptos (afc), aplicable a escenarios de recuperación de información (ri) tales como la búsqueda web. Este trabajo aborda cuatro aspectos principales: la definición de un modelo de cflustering basado en afc. La aplicación de esta teoría presenta las ventajas de permitir herencia múltiple sobre los clusters obtenidos y de realizar la descripción de los mismos de manera automática. Además, incluímos la noción de nodo de información con el fin de obtener estructuras de clustering que consideren una aproximación basada en un universo abierto para los documentos agrupados. la definición de una metodología orientada a la aplicación del modelo sobre escenarios de ri reales. Para cada uno de los procesos involucrados en la construcción del clustering proponemos una serie de alternativas. Debemos destacar el uso de n-gramas para la descripción de los clusters, el uso de un algoritmo balanceado en el proceso de selección de descriptores para minimizar la población de documentos en el cluster raíz o la aplicación de latent semantic indexing (lsi) para detectar relaciones descriptor-documento no explícitas. la definición de paradigmas para la visualización e interacción sobre las estructuras de clustering. El uso de retículos para representar la información agrupada complicda el proceso de visualización ya que los paradigmas habitualmente utilizados para representar estructuras de clustering no resultan adecuados. En este trabajo se presentan dos aproximaciones al problema de la visualización cuya característica principal es la de explotar la estructura intrínseca de los retículos obtenidos. La visualización basada en retículos toma como punto de partida los diagramas de hasse pero reduce el número de clusters visualizados por el usuario en cada momento. De este modo, únicamente se muestran aquellos clusters que, por ser más próximos al cluster que se está inspeccionando, podrían resultar útiles para refinarlo o generalizarlo. En segundo lugar, se propone una visualización basada en directorios web que, aprovechando un paradigma sobradamente conocido por los usuarios, permite mapear la estructura de un retículo de manera sencilla. la definición de un conjunto de medidas de evaluación orientadas a evaluar automáticamente la calidad, en una tarea de ri, de un sistema de clustering basado en retículos. Estas medidas están basadas en los conceptos de área de navegación mínima (mba) y de coste cognitivo. El primero representa el conjunto mínimo de clusters y enlaces que el usuario debe recorrer para acceder a toda la información relevante recuperada. El coste cognitivo permite introducir en las medidas de evaluación una estimación del esfuerzo que el usuario debe realizar para considerar como relevante un determinado item (un cluster o un documento) en base a su descripción. El factor de destilación (df) únicamente tiene en cuenta el coste cognitivo asociado a la exploración de los documentos y, por lo tanto, no refleja el esfuerzo asociado a explorar el clustering. Esta medida informa acerca del grado de mejora de precisión del retículo con respecto a la lista ordenada de documentos. La calidad del clustering (cq), sin embargo, extiende la medida anterior al incluir el coste cognitivo asociado a considerar las descripciones de los clusters, lo que permite evaluar de manera mucho más precisa la influencia de la estructura de clustering en el proceso de ri. finalmente, y con el objeto de demostrar la viabilidad de nuestra propuesta, así como de las medidas de evaluación, hemos desarrollado cuatro prototipos de los que tres de ellos han sido evaluados automáticamente. Los tres prototipos realizan el proceso de clustering sobre la colección de noticias efe94. Esta colección ha sido utilizada en distintas campañas clef (cross language evaluation forum) y dispone de un amplio conjunto consultas con juicios.
Datos académicos de la tesis doctoral «Organización de resultados de búsqueda mediante análisis formal de conceptos«
- Título de la tesis: Organización de resultados de búsqueda mediante análisis formal de conceptos
- Autor: Juan Manuel Cigarran Recuero
- Universidad: Nacional de educación a distancia
- Fecha de lectura de la tesis: 12/06/2008
Dirección y tribunal
- Director de la tesis
- Julio Gonzalo Arroyo
- Tribunal
- Presidente del tribunal:
- (vocal)
- (vocal)
- (vocal)