Flexible techniques for heterogeneous xml data retrieval

Tesis doctoral de Ismael Sanz Blasco

La progresiva adopción de xml por nuevas comunidades de usuarios (bioinformática, ontologías, gis, …) Ha motivado la aparición de aplicaciones que requieren la gestión de colecciones grandes y complejas, que presentan una gran cantidad de heterogeneidad y requieren técnicas aproximadas. Los enfoques existentes no resultan apropiados en ellas debido a la alta variabilidad estructural. El principal objetivo de esta tesis es la elaboración de nuevas técnicas para la consulta de tales colecciones xml heterogéneas. en primer lugar, se proponen nuevos indicadores para caracterizar el nivel de heterogeneidad de las colecciones xml, sobre la base de consideraciones de teoría de la información. A continuación, a partir de un estudio de la literatura se desarrolla una metodología de diseño de medidas de similitud flexibles, a partir de componentes genéricos y parametrizables. Estas medidas se emplean para la recuperación de datos utilizando una nueva técnica basada en los conceptos de patrón y fragmento, que permite un grado mucho mayor de flexibilidad que los enfoques existentes, y es más apropiado para colecciones heterogéneas. en esta tesis se proporcionan algoritmos de consulta basados en fragmentos exhaustivos y top-k. En este último caso, nuestro enfoque que no requiere que la medida de similitud utilizada sea monotónica, en contraste con los algoritmos top-k para xml existentes. También presentamos dos extensiones que son importantes en la práctica: una especificación para la integración de las mencionadas técnicas en xquery, y un algoritmo de agrupamiento que es útil para gestionar resultados complejos. todos los algoritmos se han implementado como parte de arhex, un conjunto de herramientas que incluye aplicaciones gráficas para el diseño de medidas de similitud y consulta de colecciones. Hemos utilizado arhex para demostrar la eficacia de nuestro enfoque usando conjuntos de prueba sintéticos y reales, en el contexto de un proyec

 

Datos académicos de la tesis doctoral «Flexible techniques for heterogeneous xml data retrieval«

  • Título de la tesis:  Flexible techniques for heterogeneous xml data retrieval
  • Autor:  Ismael Sanz Blasco
  • Universidad:  Jaume i de castellón
  • Fecha de lectura de la tesis:  31/10/2007

 

Dirección y tribunal

  • Director de la tesis
    • Rafael Berlanga Llavorí
  • Tribunal
    • Presidente del tribunal: giovanna Guerrini
    • María José Aramburu cabo (vocal)
    • Rafael Corchuelo gil (vocal)
    • sven Casteleyn (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio