Anda di halaman 1dari 3

UNIVERSIDAD NACIONAL DE LA PLATA

FACULTAD DE INFORMTICA

Tolerancia a fallos en Sistemas Carrera: Doctorado en Ciencias


de Cmputo de Altas Informticas - Magister en Cmputo de
Prestaciones Altas Prestaciones
Horas: 70 Hs
Ao: 2013

Ao 2016
Profesor a Cargo: Dolores Rexachs,
Emilio Luque
Crditos: 5

OBJETIVOS GENERALES:

La tolerancia a fallos se ha convertido en un requerimiento importante para los


computadores de altas prestaciones, debido a que la posibilidad de fallo ha aumentado
debido a diversos factores como el incremento del nmero de componentes del sistema,
o el tiempo de utilizacin. Es importante disponer de sistemas tolerantes a fallos que
posean la capacidad interna de acabar la ejecucin y preservar la ejecucin correcta de
las tareas a pesar de la ocurrencia de fallos.
Adems de poder garantizar que las aplicaciones finalicen correctamente, es necesario
tener en cuenta el binomio coste (overhead)/prestaciones, para ejecutar una aplicacin
en un computador paralelo incluyendo la capacidad de tolerancia a fallos.
El objetivo del curso es proporcionar una introduccin al campo de la computacin
tolerante a fallos, las tcnicas utilizadas para la tolerancia a fallos en computadores
paralelos y los temas actuales de investigacin en este campo.

MODALIDAD DE EVALUACION

Examen escrito al finalizar el curso con la posibilidad de realizar un proyecto de


investigacin o innovacin. Los proyectos de investigacin y los trabajos de desarrollo
individual complementario tendrn un plazo mximo de 6 semanas para ser presentado.

Calle 120 y 50 2do piso (1900) La Plata Pg. 1 de 3 http://postgrado.info.unlp.edu.ar


TEL-FAX: (54) 221-4273235 E-Mail: postgrado@lidi.info.unlp.edu.ar
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMTICA

PROGRAMA

Introduccin: Conceptos bsicos y definiciones.


Garanta de funcionamiento. Definicin de fallo, error y avera. Tipos de fallos. Mtricas
utilizadas. Estrategias para aumentar la fiabilidad de un sistema. Medios para validar la
garanta de funcionamiento. Aplicaciones de la computacin tolerante a fallos

Tcnicas de deteccin, prevencin y redundancia.


Tcnicas de Redundancia. Protocolos de rollback-recovery basados en Checkpoint.
Protocolos de rollback-recovery basados en Log. Mtodos para la evaluacin de la
tolerancia a fallos. Inyeccin de fallos

Tolerancia a Fallos en sistemas de almacenamiento.


Redundancia de informacin. Sistemas de discos. Replicacin de datos. RAID:
Redundancia y degradacin. DAS. SAN. NAS.

Tolerancia a fallos en computadores paralelos.


Fallos permanentes. Fallos transitorios e intermitentes. Evaluacin del overhead. Impacto
del fallo. Configuracin de la tolerancia a fallos.

Arquitectura Paralela Tolerante a fallos: RADIC


Caractersticas. Degradacin y coste. Entorno de desarrollo. Resultados.

BIBLIOGRAFIA

A Survey of Rollback-recovery Protocols in Message-passing Systems


Elnozahy, E.N.; Alvisi, L.; Wang, Y. & Johnson, D.B. (2002) ACM Computing Surveys, ACM Press,
34, 375-408.

Fautl Tolerant System


I Koren, C, Mani Krishna (2007). Morgan Kaufmann. Elsevier

Predicting robustness against transient faults of MPI based programs


Joo Gramacho, Alvaro Wong, Dolores Rexachs, Emilio Luque (2016) . IJCSE 12(2/3): 155-165
ISSN: 1742-7185. DOI: http://dx.doi.org/10.1504/IJCSE.2016.076218

Fault tolerance at system level based on RADIC architecture


M. Castro-Leon, H. Meyer, D. Rexachs, E. Luque (2015), J. Parallel Distrib. Comput. Volume 86,
December 2015, Pages 98-111, ISSN 0743-7315, (2015),
DOI: http://dx.doi.org/10.1016/j.jpdc.2015.08.005

Hybrid Message Logging. Combining advantages of Sender-based and Receiver-based


Approaches.

Calle 120 y 50 2do piso (1900) La Plata Pg. 2 de 3 http://postgrado.info.unlp.edu.ar


TEL-FAX: (54) 221-4273235 E-Mail: postgrado@lidi.info.unlp.edu.ar
UNIVERSIDAD NACIONAL DE LA PLATA
FACULTAD DE INFORMTICA

Hugo Meyer, Dolores Rexachs, Emilio Luque (2014) ICCS 2014: 2380-2390.
A tool for detecting transient faults in execution of parallel scientific applications on
multicore clusters
D. Montezanti, E. Rucci, D Rexachs, E Luque, M. Naiouf, A. de Giusti. (2014).. Journal of Computer
Science & Technology (JCS&T). Vol. 14 - No. 1. pp 32-38.

SMCV: a Methodology for Detecting Transient Faults in Multicore Clusters


Diego Montezanti, Fernando Emmanuel Frati, Dolores Rexachs, Emilio Luque, Marcelo R. Naiouf,
Armando De Giusti (2012). CLEI Electron. J. 15(3)

What is Missing in Current Checkpoint Interval Models?


L. Fialho, D. Rexachs and E. Luque, Distributed Computing Systems (ICDCS), 2011 31st
International Conference on, Minneapolis, MN, 2011, pp. 322-332.
doi: 10.1109/ICDCS.2011.12

High availability for parallel computers


D Rexachs, E Luque. Journal of Computer Science and Technology (JCS&T) 10 (3), 110-116

Providing Non-stop Service for Message-Passing Based Parallel Applications with RADIC.
Guna Santos, Angelo Duarte, Dolores Rexachs, Emilio Luque (2008). Euro-Par 2008: 58-67.

Fault Tolerant Master-Worker over a Multi-Cluster Architecture.


J. Rodrigues de Souza, Eduardo Argollo, Angelo Duarte, Dolores Rexachs, Emilio Luque (2005)
PARCO 2005: 465-472.

Calle 120 y 50 2do piso (1900) La Plata Pg. 3 de 3 http://postgrado.info.unlp.edu.ar


TEL-FAX: (54) 221-4273235 E-Mail: postgrado@lidi.info.unlp.edu.ar

Anda mungkin juga menyukai