Tesis doctoral de Federico Abascal Sebastian De Erice
La secuenciación de genomas supone un paso muy importante, pero aún estamos lejos de comprender la información que encierran estos libros de instrucciones. análogamente a la piedra rosetta y los jeroglíficos egipcios, la comparación de genomas de distintos organismos será la que posiblemente nos dé algunas pistas. Para conseguirlo debemos encontrar los genes y predecir su función. también debemos organizar la información de un modo tal que sea posible relacionar datos de distinta naturaleza. este trabajo se encuadra en un proyecto para el desarrollo de un sistema automático de análisis de genomas. El esqueleto de este robot, orfanddb, es un esquema entidad-relación sobre el que se traduce la información procedente de fuentes heterogéneas: bases de datos públicas como swiss-prot, ncbi-taxonomy, pfam u otras, así como de los resultados de programas coo blast, psi-blast o programas de identificación de genes. la contribución más relevante en esta tesis es la del desarrollo de un módulo para anotar de forma automática la función de las proteínas. El método se basa en la idea de que las proteínas con un mismo origen evolutivo tienen funciones similares. Para encontrar estas proteínas homólogas hemos investigado métodos de búsqueda como blast, psi-blast o uno desarrollado por nosotros de búsqueda con secuencias intermedias. Una vez encontradas la proteínas homólogas, aplicamos un método de clustering o agrupamiento, basado en el corte normalizado de un grafo, para identificar grupos de ortólogos o subfamilias, en los que el rol de la proteína ancestral supuestamente se ha conservado a lo largo de la evolución. Las anotaciones de estos ortólogos que hay en las bases de datos son la fuentes de información que usamos para anotar las proteínas nuevas o desconocidas. Para ello realizamos un análisis léxico automático con el fin de evitar la propagación de anotaciones erróneas y de determinar qué descr
Datos académicos de la tesis doctoral «Análisis de genomas. métodos para la predicción y anotación de la función de las proteínas«
- Título de la tesis: Análisis de genomas. métodos para la predicción y anotación de la función de las proteínas
- Autor: Federico Abascal Sebastian De Erice
- Universidad: Autónoma de Madrid
- Fecha de lectura de la tesis: 18/11/2003
Dirección y tribunal
- Director de la tesis
- Alfonso Valencia Herrera
- Tribunal
- Presidente del tribunal: Francisco Montero carnerero
- Carlos Aguirre maeso (vocal)
- joaquín Dopazo blázquez (vocal)
- José Castresana villamor (vocal)