Application of clustering analysis and sequence analysis on the performance analysis of parallel applications

Tesis doctoral de Juan González García

La computación de altas prestaciones y la supercomputación son las areas más punteras de la informática en la que se estudian y desarrollan los ordenadores más potentes existentes. Los supercomputadores son extremadamente complejos así como las aplicaciones que se ejecutan en ellos. Para poder sacar partido del la immensa capacidad de computación disponible, es necesario conocer como dichas aplicaciones se comportan y cual es su rendimiento que obtienen. Este es el cometido del análisis de rendimiento de aplicaciones (paralelas). generalmente, las herramientas de análisis ofrecen manipulaciones simples de los datos de rendimiento. Estadísticas de primer o segundo orden, promedio o desviación estándar, son comúnmente usadas para resumir los valores una métrica dada, lo cual puede dar lugar a ocultar detalles útiles en el proceso de análisis. Por este motivo es necesario introducir las performance analytics, esto es, la aplicación de técnicas de data analytics en el análisis de rendmiento. Las contribuciones de esta tesis son dos técnicas de performance analytics. la primera contribución es la aplicación de análisis cluster para detectar la estructura de las zonas de cálculo de una aplicación paralela. El análisis cluster es la clasificación no supervisada de patrones (observaciones, datos) en grupos (clusters). En esta tesis se aplica para agrupar las ráfagas de cpu de una aplicación paralela: las regiones de cada proceso enmarcadas entre comunicaciones o llamadas al entorno de ejecución paralelo. Los grupos obtenidos son las diferentes tendencias o fases de cálculo de la aplicación. Estos clusters son útiles para entender el comportamiento dichas regiones y focalizar el trabajo de análisis las que presentan problemas. Cabe decir que en esta contribución se demuestra la necesidad de usar algoritmos de clustering distintos a los usados previamente en el área. la segunda contribución es la aplicación del alineamiento de múltiples secuencias (msa, por sus siglas en inglés) para evaluar la estructura detectada. Msa es una técnica ampliamente usada en bioinformática para determinar similitudes en cadenas biológicas como adn o proteínas. En la tesis se propone un índice, cluster sequence score, que usa un algoritmo msa para medir la spmdiness de una aplicación, esto es, cuan bien su estructura refleja la estructura esperada por el paradigma de program único y datos múltiples (spmd, por sus siglas en inglés). Este índice se usa también en un nuevo algoritmo de clustering propuesto, aggregative cluster refinement, capaz de detectar las fases de cálculo spmd al detalle, mejorando los resultados obtenidos por los algoritmos de clustering usados inicialmente. la utilidad de estas técnicas se demuestra con tres usos prácticos. El primer uso es una metodología de extrapolación de datos de rendimiento que permite maximizar las métricas que caracterizan las regiones de cálculo detectadas en una aplicación a partir de una única ejecución. En segundo término, se presenta el uso de la detección de estructura para reducir el tiempo de ejecución de un simulador aplicaciones con multiple niveles de detalle. El tercer uso es el estudio del impacto en el rendimiento de posibles optimizaciones o uso diferente hardware de cuatro aplicaciones de producción, a partir de la estructura detectada. en resumen, en esta tesis se propone el uso de análisis cluster y análisis de secuencias para detectar y caracterizar las tendencias en las regiones de cálculo de una aplicación paralela. Estas técnicas proporcionan al análista o desarrollador de la aplicación un gran conocimiento sobre el comportamiento y el rendimiento de la misma, facilitando el análisis. También se demuestra la utilidad de las técnicas con diferentes usos prácticos. Como añadido, de la investigación llevada a cabo para la realización de la tesis ha derivado en la implementación de una herramienta de análisis, parte de la suite de herramientas de análisis de rendimiento del bsc.

 

Datos académicos de la tesis doctoral «Application of clustering analysis and sequence analysis on the performance analysis of parallel applications«

  • Título de la tesis:  Application of clustering analysis and sequence analysis on the performance analysis of parallel applications
  • Autor:  Juan González García
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  07/06/2013

 

Dirección y tribunal

  • Director de la tesis
    • Jesús José Labarta Mancho
  • Tribunal
    • Presidente del tribunal: barton Miller
    • michael Gerndt (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio