Tesis doctoral de Crispín Gómez Requena
Actualmente, los clústeres de pcs están considerados como una alternativa eficiente a la hora de construir supercomputadores en los que miles de nodos de computación se conectan mediante una red de interconexión. La red de interconexión tiene que ser diseñada cuidadosamente, puesto que tiene una gran influencia sobre las prestaciones globales del sistema. Dos de los principales parámetros de diseño de las redes de interconexión son la topología y el encaminamiento. La topología define la interconexión de los elementos de la red entre sí, y entre éstos y los nodos de computación. Por su parte, el encaminamiento define los caminos que siguen los paquetes a través de la red. las prestaciones han sido tradicionalmente la principal métrica a la hora de evaluar las redes de interconexión. Sin embargo, hoy en día hay que considerar dos métricas adicionales: el coste y la tolerancia a fallos. Las redes de interconexión además de escalar en prestaciones también deben hacerlo en coste. Es decir, no sólo tienen que mantener su productividad conforme aumenta el tamaño de la red, sino que tienen que hacerlo sin incrementar sobremanera su coste. Por otra parte, conforme se incrementa el número de nodos en las máquinas de tipo clúster, la red de interconexión debe crecer en concordancia. Este incremento en el número de elementos de la red de interconexión aumenta la probabilidad de aparición de fallos, y por lo tanto, la tolerancia a fallos es prácticamente obligatoria para las redes de interconexión actuales. esta tesis se centra en la topología fat-tree, ya que es una de las topologías más comúnmente usadas en los clústeres. El objetivo de esta tesis es aprovechar sus características particulares para proporcionar tolerancia a fallos y un algoritmo de encaminamiento capaz de equilibrar la carga de la red proporcionando una buena solución de compromiso entre las prestaciones y el coste. primero, nos centramos en la tolerancia a fallos en la topología fat-tree. Muchos de los trabajos dedicados a este tema proporcionan tolerancia a fallos a cambio de añadir recursos a la red; ya sean encaminadores, enlaces o canales virtuales. Al contrario que estos trabajos, nuestra propuesta proporciona el mismo nivel de tolerancia a fallos sin incrementar los recursos de la red, aprovechando la abundancia de caminos equivalentes disponibles en el fat-tree. En concreto, se ha definido un mecanismo que evita que se usen aquellos caminos que lleven a los elementos fallidos, de forma que los paquetes que fuesen a tomar uno de dichos caminos son desviados hacia su destino por caminos que no contengan elementos fallidos. Dado que todos los caminos que no han sufrido un fallo pueden ser usados sin ninguna restricción, el mecanismo propuesto presenta una degradación de prestaciones mínima ante la presencia de fallos, proporcionando el máximo nivel de tolerancia a fallos posible sin añadir nuevos recursos a la red. a continuación, nos centramos en el diseño de un algoritmo de encaminamiento determinista que pueda competir en prestaciones con los algoritmos de encaminamiento adaptativos usados en la topología fat-tree. Pese a que los algoritmos adaptativos requieren más recursos que los deterministas a la hora de ser implementados, los algoritmos adaptativos suelen tener unas prestaciones mayores que los deterministas. En nuestro trabajo presentamos un algoritmo de encaminamiento determinista que puede obtener prestaciones similares, o mayores al forzar la entrega en orden de los paquetes, que el mejor algoritmo de encaminamiento adaptativo, pero a un coste menor. finalmente, nos aprovechamos de ciertas características de dicho algoritmo de encaminamiento determinista para simplificar la topología fat-tree. ésta topología reduce a la mitad los recursos necesarios para construir un fat-tree, a la vez que proporciona en muchos casos las mismas prestaciones. En general, la relación coste/prestaciones de la nueva topología es casi la mitad que la del fat-tree.
Datos académicos de la tesis doctoral «Low-memory techniques for routing and fault-tolerance on the fat-tree topology«
- Título de la tesis: Low-memory techniques for routing and fault-tolerance on the fat-tree topology
- Autor: Crispín Gómez Requena
- Universidad: Politécnica de Valencia
- Fecha de lectura de la tesis: 18/10/2010
Dirección y tribunal
- Director de la tesis
- Pedro Juan López Rodríguez
- Tribunal
- Presidente del tribunal: jose Duato marin
- Francisco José Alfaro cortes (vocal)
- olav Lysne (vocal)
- tor Skeie (vocal)