Efficient mechanisms to provide fault tolerance in interconnection networks for pc clusters

Tesis doctoral de José Miguel Montañana Aliaga

Actualmente, los clusters de pc son un alternativa rentable a los computadores paralelos. en estos sistemas, miles de componentes (procesadores y/o discos duros) se conectan a través de redes de interconexión de altas prestaciones. entre las tecnologías de red actualmente disponibles para construir clusters, infiniband (iba) ha emergido como un nuevo estándar de interconexión para clusters. de hecho, ha sido adoptado por muchos de los sistemas más potentes construidos actualmente (lista top500). a medida que el número de nodos aumenta en estos sistemas, la red de interconexión también crece. junto con el aumento del número de componentes la probabilidad de averías aumenta dramáticamente, y así, la tolerancia a fallos en el sistema en general, y de la red de interconexión en particular, se convierte en una necesidad. desafortunadamente, la mayor parte de las estrategias de encaminamiento tolerantes a fallos propuestas para los computadores masivamente paralelos no pueden ser aplicadas porque el encaminamiento y las transiciones de canal virtual son deterministas en iba, lo que impide que los paquetes eviten los fallos. por lo tanto, son necesarias nuevas estrategias para tolerar fallos. por ello, esta tesis se centra en proporcionar los niveles adecuados de tolerancia a fallos a los clusters de pc, y en particular a las redes iba. en esta tesis proponemos y evaluamos varios mecanismos adecuados para las redes de interconexión para clusters. el primer mecanismo para proporcionar tolerancia a fallos en iba (al que nos referimos como encaminamiento tolerante a fallos basado en transiciones; tftr) consiste en usar varias rutas disjuntas entre cada par de nodos origen-destino y seleccionar la ruta apropiada en el nodo fuente usando el mecanismo apm proporcionado por iba. consiste en migrar las rutas afectadas por el fallo a las rutas alternativas sin fallos. sin embargo, con este fin, es necesario un algoritmo eficiente de encaminamiento capaz de proporcionar suficientes

 

Datos académicos de la tesis doctoral «Efficient mechanisms to provide fault tolerance in interconnection networks for pc clusters«

  • Título de la tesis:  Efficient mechanisms to provide fault tolerance in interconnection networks for pc clusters
  • Autor:  José Miguel Montañana Aliaga
  • Universidad:  Politécnica de Valencia
  • Fecha de lectura de la tesis:  11/07/2008

 

Dirección y tribunal

  • Director de la tesis
    • José Flich Cardo
  • Tribunal
    • Presidente del tribunal: jose Duato marin
    • Francisco José Quiles flor (vocal)
    • tor Skeie (vocal)
    • Francisco José Alfaro cortes (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio