Performance and power optimizations in chip multiprocessors for throughput-aware computation

Tesis doctoral de Augusto Javier Vega

El excesivo consumo de potencia de los procesadores actuales ha desacelerado el incremento en la frecuencia operativa de los mismos para dar lugar a la era de los procesadores con múltiples núcleos y múltiples hilos de ejecución. Por ejemplo, el procesador power7 de ibm, lanzado al mercado en 2010, incorpora ocho núcleos en el mismo chip, con cuatro hilos de ejecución por núcleo. Esto da lugar a nuevas oportunidades y desafíos para los arquitectos de software y hardware. A nivel de software, las aplicaciones pueden beneficiarse del abundante número de núcleos e hilos de ejecución para aumentar el rendimiento. Pero esto obliga a los programadores a crear aplicaciones altamente paralelas y sistemas operativos capaces de planificar correctamente la ejecución de las mismas. A nivel de hardware, el creciente número de núcleos e hilos de ejecución ejerce presión sobre la interfaz de memoria, ya que el ancho de banda de memoria crece a un ritmo más lento. Además de los problemas de ancho de banda de memoria, el consumo de energía del chip se eleva debido a la dificultad de los fabricantes para reducir suficientemente los voltajes de operación entre generaciones de procesadores. Esta tesis presenta innovaciones para mejorar el ancho de banda y consumo de energía en procesadores multinúcleo en el ámbito de la computación orientada a rendimiento («throughput-aware computation»): una memoria caché de último nivel («last-level cache» o llc) optimizada para ancho de banda, un banco de registros vectorial optimizado para ancho de banda, y una heurística para planificar la ejecución de aplicaciones paralelas orientada a mejorar la eficiencia del consumo de potencia y desempeño. en contraste con los diseños de llc de última generación, nuestra organización evita la duplicación de datos y, por tanto, no requiere de técnicas de coherencia. El espacio de direcciones de memoria se distribuye estáticamente en la llc con un entrelazado de grano fino. La ausencia de replicación de datos aumenta la capacidad efectiva de la memoria caché, lo que se traduce en mejores tasas de acierto y mayor ancho de banda en comparación con una llc coherente. Utilizamos la técnica de «doble buffering» para ocultar la latencia adicional necesaria para acceder a datos remotos. el banco de registros vectorial propuesto se compone de miles de registros y se organiza como una agregación de bancos. Incorporamos a cada banco una pequeña unidad de cómputo de propósito especial («local computation element» o lce). Este enfoque —que llamamos «computación en banco de registros»— permite superar el número limitado de puertos en el banco de registros. Debido a que cada lce es una unidad de cómputo con soporte simd («single instruction, multiple data») y todas ellas pueden proceder de forma concurrente, la estrategia de «computación en banco de registros» constituye un dispositivo simd altamente paralelo. por último, presentamos una heurística para planificar la ejecución de aplicaciones paralelas orientada a reducir el consumo de energía del chip, colocando dinámicamente los hilos de ejecución a nivel de software entre los hilos de ejecución a nivel de hardware. La heurística obtiene, en tiempo de ejecución, información de consumo de potencia y desempeño del chip para inferir las características de las aplicaciones. Por ejemplo, si los hilos de ejecución a nivel de software comparten datos significativamente, la heurística puede decidir colocarlos en un menor número de núcleos para favorecer el intercambio de datos entre ellos. En tal caso, los núcleos no utilizados se pueden apagar para ahorrar energía. cada vez es más difícil encontrar soluciones de arquitectura «a prueba de balas» para resolver las limitaciones de escalabilidad de los procesadores actuales. En consecuencia, creemos que los arquitectos deben atacar dichos problemas desde diferentes flancos simultáneamente, con innovaciones complementarias.

 

Datos académicos de la tesis doctoral «Performance and power optimizations in chip multiprocessors for throughput-aware computation«

  • Título de la tesis:  Performance and power optimizations in chip multiprocessors for throughput-aware computation
  • Autor:  Augusto Javier Vega
  • Universidad:  Politécnica de catalunya
  • Fecha de lectura de la tesis:  30/07/2013

 

Dirección y tribunal

  • Director de la tesis
    • Alejandro Ramírez Bellido
  • Tribunal
    • Presidente del tribunal: mario daniel Nemirovsky
    • paolo Meloni (vocal)
    • (vocal)
    • (vocal)

 

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio