1. Introducción
1.1. Motivación
1.2. Objetivos y Metodología
1.3. Alcances y limitaciones
1.4. Contribuciones y publicaciones
1.5. Organización
2. Marco referencial
2.1. Sistemas de Altas Prestaciones
2.1.1. Computación de Altas Prestaciones
2.1.2. Clusters
2.1.3. Modelos de programación paralela
2.1.4. Message Passing Interface
2.2. Tolerancia a Fallos en HPC
2.2.1. Métodos basados en rollback recovery
2.2.2. Herramientas para Tolerancia a Fallos
2.3. Potencia y Energía en Sistemas de Cómputo
2.3.1. Definiciones
2.3.2. Métodos para medir consumo de energía
2.3.3. Interfaz Avanzada de Configuración y Energía
2.3.4. Estados de rendimiento y estados de inactividad en GNU/Linux
2.4. Trabajo Relacionado
3. Estimación del consumo energético del checkpoint/restart en HPC
3.1. Construcción del modelo para predicción de consumo energético del check-point/restart
3.1.1. Plataforma y diseño experimental
3.1.2. Parte 1: comportamiento de la potencia y el tiempo
3.1.3. Parte 2: construcción del modelo para la potencia y el tiempo
3.2. Validación del modelo
3.3. Aplicación del modelo
3.4. Factores que afectan el consumo y/o la calidad de la predicción
3.4.1. Estados C del procesador
3.4.2. Configuración del montado del NFS
3.4.3. Compresión de los archivos de checkpoint
3.5. Resumen
4. Evaluación de Oportunidades de Ahorro Energético en Sistemas HPC con Tolerancia a Fallos
4.1. Estrategias para el ahorro energético al momento de un fallo
4.1.1. Definición de las estrategias
4.1.2. Bloqueos en cascada y profundidad de las comunicaciones
4.1.3. Simplificaciones realizadas
4.1.4. Estimación de las fases de cómputo y de espera
4.1.5. Evaluación de las estrategias
4.2. Modelo para predicción de ahorro energético
4.2.1. Entradas del modelo
4.2.2. Las ecuaciones
4.3. El simulador
4.4. Resultados experimentales
4.4.1. Configuración de los experimentos
4.4.2. Escenarios simulados
4.4.3. Análisis de resultados
4.5. Resumen
5. Conclusiones y trabajos futuros
5.1. Conclusiones
5.2. Trabajos futuros
Bibliografía