1. Fallos transitorios
1.1. Introducción
1.2. Concepto
1.3. Causas de ocurrencia Fallo, error
1.4. Efectos de los fallos transitorios. Terminología
1.5. Métricas utilizadas
1.6. Algunos casos reales
1.7. Consecuencias de los fallos transitorios
1.8. Posibles errores debidos a fallos transitorios
1.8.1. Excepción por instrucción inválida
1.8.2. Error de paridad durante un ciclo de lectura
1.8.3. Violación en acceso a memoria
1.8.4. Cambio de un valor
1.9. Fallos transitorios en sistemas paralelos
1.9.1. Concepto de sistema paralelo
1.9.2. Características de aplicaciones paralelas científicas de paso de mensajes
1.9.3. Consecuencias de fallos transitorios en sistemas paralelos
2. Detección de Fallos Transitorios
2.1. Modelo de fallo
2.2. Objetivos de la detección
2.3. Propuestas basadas en hardware
2.4. Propuestas basadas en software
2.5. Esfera de Replicación (SoR)
2.6. Ventanas de vulnerabilidad
2.7. Fallos múltiples
2.8. Memoria compartida
2.9. Propuestas híbridas
3. Arquitectura cluster de multicores
3.1. Clusters
3.2. Clusters de multicores
4. Programación con paso de mensajes. Estándar MPI
4.1. Modelo de programación basado en paso de mensajes
4.2. Estándar de programación MPI
4.2.1. Comunicaciones no bloqueantes
4.2.2. Comunicadores
4.2.3. Comunicaciones colectivas
4.2.4. Tipos de datos
4.2.5. Ventajas y desventajas de MPI
5. Detección de fallos transitorios en cómputo paralelo
5.1. MPI/FT
5.1.1. El modelo de ejecución de aplicaciones Maestro/Esclavo
5.1.2. El modelo de ejecución de aplicaciones SPMD
5.1.3. Detección de fallos y notificación
5.2. FT-MPI
5.3. Evaluación de la viabilidad de la replicación de procesos en HPC
5.3.1. Replicación de procesos en aplicaciones de HPC con paso de mensajes
6. Metodología SMCV para detección de fallos transitorios
6.1. Fundamentación
6.1.1. Validación de contenidos de mensajes antes de enviar
6.1.2. Comparación de resultados finales
6.1.3. Aprovechamiento de recursos redundantes de hardware
6.2. Descripción de la operación
6.2.1. Caracterización de la sobrecarga de trabajo
6.2.2. SoR de SMCV y vulnerabilidad
6.2.3. Comportamiento frente a fallos
6.3. Implementación de la herramienta de detección SMCV
6.3.1. Funciones básicas
6.3.2. Utilización
6.4. Validación experimental
6.4.1. Arquitectura de prueba
6.4.2. Verificación de la eficacia de detección
6.4.3. Mediciones de overhead
6.4.3.1. Benchmarks utilizados
6.4.3.2. Pruebas realizadas
6.4.3.3. Resultados
6.5. Resumen de las características de la metodología
7. Conclusiones y trabajos futuros
Bibliografía