Modelización y gestión del consumo energético en un sistema de computación de altas prestaciones con tolerancia a fallos

Morán, Marina

Título:
Modelización y gestión del consumo energético en un sistema de computación de altas prestaciones con tolerancia a fallos
Autor:
Morán, Marina
Otros autores / Colaboradores:
 Balladini, Javier Aldo; [ Director/a]  Rexachs, Dolores Isabel; [ Director/a]  Rucci, Enzo; [ Codirector/a] 
Temas:
COMPUTACIÓN DE ALTO RENDIMIENTO - HPCTOLERANCIA A FALLOS
URL:
https://doi.org/10.35537/10915/180599,
Palabras clave:
consumo energético, 
Nota de tesis:
Tesis (Doctorado en Ciencias Informáticas) - Universidad Nacional de La Plata. Facultad de Informática, 2024.
Extensión:
1 archivo (3,52 MB) : il. col.
Resumen:
La tolerancia a fallos y el consumo energético son factores cada vez más relevantes en el contexto de los sistemas de cómputo de altas prestaciones. Los métodos de tolerancia a fallos inciden en el consumo de energía, y resulta de suma importancia, antes de ejecutar una cierta aplicación, conocer el impacto que puede producir el método y sus configuraciones, y durante la ejecución de una aplicación, realizar acciones que permitan mejorar la eficiencia energética. En la primera parte de este trabajo se muestra cómo es posible estimar el consumo energético de las operaciones de checkpoint y restart a nivel de sistema, sobre una aplicación SPMD ejecutando en un cluster homogéneo. Se propone un método de construcción de un modelo para predecir la potencia demandada y del tiempo de ejecución de las operaciones de checkpoint y restart. El método está basado en el análisis de regresión de las mediciones realizadas, con el correspondiente análisis de los errores obtenidos. Los modelos se validan con mediciones para nuevas frecuencias y tamaños del problema. De esta manera es posible evaluar el consumo energético para nuevas frecuencias y tamaños de problema sin necesidad de ejecutar la aplicación ni tomar nuevas medidas. Además, se evalúa el impacto de diferentes factores del sistema y del método de tolerancia a fallos en el consumo energético en la plataforma experimental. En particular, se evalúa el impacto de los estados C del procesador, la configuración síncrona y asíncrona del montaje del NFS y la compresión o no de los archivos de checkpoint. Los resultados muestran cómo es posible influir en el consumo de energía del checkpoint y restart. En la segunda parte de este trabajo se muestra que existen oportunidades de ahorro de energía en un esquema de tolerancia a fallos basado en checkpoint/restart donde sólo algunos procesos se deben volver a ejecutar al momento de un fallo. Se proponen y analizan diferentes estrategias para aplicar a los nodos de los procesos sobrevivientes y se presenta un modelo que permite estimar el ahorro energético conseguido aplicando estas estrategias. Mediante el uso de un simulador se muestra el comportamiento de una aplicación MPI bajo diferentes configuraciones y momentos del fallo. Las simulaciones muestran la validez de las estrategias propuestas para lograr ahorros energéticos significativos y, en todos los casos analizados, estos ahorros se lograron sin aumentar el tiempo de ejecución de la aplicación. Los resultados obtenidos y las contribuciones realizadas muestran que existen posibilidades de ahorro energético en los sistemas HPC que utilicen alguno de los métodos de tolerancia a fallos estudiados.

Puede solicitar más fácilmente el ejemplar con: TES 24/60

Ver índice

La edición contiene los siguientes documentos electrónicos para descargar:

Se cuenta con disponibilidad inmediata para llevar a domicilio.


Disponibilidad Actual Para Préstamo: 1 Disponibilidad Actual Para Sala de Lectura: 0 Cantidad Actual de Reservas: 0 Cantidad Actual de Préstamos: 0

Valoración


Comentarios (0)