Optimización de procesos de adquisición de conocimiento en biología computacional

Tesis doctoral de Santiago González Tortosa

Tradicionalmente, los datos clínicos han sido la única fuente de información para el diagnóstico de enfermedades. Hoy en día, existen otros tipos de información, como microarrays de adn, que permiten mejorar el diagnóstico y pronóstico en muchas enfermedades. Esta tesis propone un nuevo enfoque, denominado clidapa, para combinar eficientemente ambas fuentes de información (datos clínicos y genéticos), de forma que se mejoren las estimaciones. Para ello, en primer lugar, los pacientes se segmentan utilizando una representación en árbol a través de sus datos clínicos (árbol clínico). Por tanto, se identifican distintas agrupaciones de pacientes según comportamientos similares. A continuación, se analiza cada agrupación independientemente con la información genética asociada, mediante técnicas de minería de datos. Para demostrar su validez, el método se aplica a distintos conjuntos de datos reales (sobre cáncer de mama y de cerebro). La validación de los resultados se basa en dos métodos de validación, interna y externa, utilizando para ello el centro de supercomputación y visualización de Madrid (cesvima), en donde se ejecutaron los tres enfoques paralelizados del algoritmo. Los resultados obtenidos se comparan con distintos estudios de la literatura, así como con las técnicas de análisis tradicionales, demostrando una mejora significativa en los resultados existentes. traditionally, clinical data have been the only source of information for disease diagnosis. Today, there are other types of information such as dna microarrays, which are taken into account to improve diagnosis and prognosis of many diseases. This thesis proposes a new approach, called clidapa, to efficiently combine both sources of information (clinical and genetic data), in order to further improve estimations. In this approach, patients are firstly segmented using a tree representation through their clinical data (clinical tree). Therefore, different groups of patients are identified according to similar behavior. Then each individual group is studied with data mining techniques, using the genetic information. To demonstrate its validity, the method is applied to different real data sets (breast and brain cancer). The validation of the results is based on two methods of validation, internal and external, using the supercomputing and visualization centre of Madrid (cesvima), where the three approaches of the algorithm were implemented in parallel. The results are compared with other literature studies, as well as traditional analysis techniques, demonstrating a significant improvement over existing results.

 

Datos académicos de la tesis doctoral «Optimización de procesos de adquisición de conocimiento en biología computacional«

  • Título de la tesis:  Optimización de procesos de adquisición de conocimiento en biología computacional
  • Autor:  Santiago González Tortosa
  • Universidad:  Politécnica de Madrid
  • Fecha de lectura de la tesis:  18/10/2010

 

Dirección y tribunal

  • Director de la tesis
    • Víctor Robles Forcada
  • Tribunal
    • Presidente del tribunal: ernestina Menasalvas ruiz
    • cristobal Belda iniesta (vocal)
    • endika Bengoechea castro (vocal)
    • Luis Pastor pérez (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio