Un modelo de integración y preprocesamiento de información distribuída basado en ontologías

Tesis doctoral de David Pérez Del Rey

El incremento producido en la cantidad de datos disponibles en todas las áreas de la sociedad no ha implicado un aumento proporcional del conocimiento disponible. Para obtener este conocimiento es necesario avanzar en el proceso de descubrimiento de conocimiento en bases de datos (en inglés, kdd). A pesar de que la relevancia de las fases de preparación de los datos en el proceso de descubrimiento de conocimiento a partir de los datos ha sido ampliamente reconocida en la literatura científica, se han llevado a cabo relativamente pocos esfuerzos científicos en este campo, comparados con las investigaciones centradas en el desarrollo de nuevos algoritmos de minería de datos. La investigación presentada propone el uso de ontologías de dominio en las fases previas a la minería de datos dentro de un proceso kdd. Otros trabajos previos propios, en integración de esquemas de fuentes biomédicas, sugerían la necesidad de abordar el trabajo aquí presentado. En estos trabajos previos, se creaban esquemas virtuales, basados en ontologías, enlazados a fuentes de datos físicas, que se unificaban para integrar la información de los repositorios físicos originales. La existencia de numerosos datos que debían ser preprocesados para evitar inconsistencias y errores en los resultados reforzaba esta necesidad. en la investigación planteada, la integración de instancias se afronta junto con el preprocesamiento de datos debido a su similitud funcional, utilizando una ontología como estructura de soporte formal. Una vez que la información correspondiente a las inconsistencias detectadas en los datos es almacenada en dicha ontología? Proceso supervisado por un experto? Los datos pueden ser transformados automáticamente cuando son requeridos por el usuario. para validar experimentalmente el modelo creado, se han ejecutado baterías de consultas en diversas fuentes de datos heterogéneos. El análisis estadístico de los resultados muestra datos correctamente integrados y preprocesados. La posterior aplicación de algoritmos de minería sobre los resultados obtenidos ofrece también mejores resultados finales que las fuentes de datos por separado o utilizando métodos de integración tradicionalmente en los que no se transforman las instancias. Una ventaja adicional de este enfoque es poder acceder de forma homogénea a información de varias fuentes heterogéneas unificadas y semánticamente coherentes. dentro de la creación de un modelo global de kdd basado en ontología, se propone un método de tratamiento de inconsistencias de instancias, también basado en ontologías. Tradicionalmente los métodos disponibles habían abordado sólo el tratamiento de inconsistencias de esquemas. el modelo propuesto se enmarca en el área de la informática-integración de bases de datos y kdd-, y en la biomedicina como dominio de aplicación. Este trabajo ha sido desarrollado en el marco de varios proyectos europeos y ha generado ya diversas publicaciones en revistas científicas y congresos internacionales.

 

Datos académicos de la tesis doctoral «Un modelo de integración y preprocesamiento de información distribuída basado en ontologías«

  • Título de la tesis:  Un modelo de integración y preprocesamiento de información distribuída basado en ontologías
  • Autor:  David Pérez Del Rey
  • Universidad:  Politécnica de Madrid
  • Fecha de lectura de la tesis:  11/02/2008

 

Dirección y tribunal

  • Director de la tesis
    • Víctor Manuel Maojo García
  • Tribunal
    • Presidente del tribunal: Juan Pazos sierra
    • alejandro Pazos sierra (vocal)
    • José Crespo del arco (vocal)
    • anselmo Del moral bueno (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio