Anda di halaman 1dari 35

Tolerncia a Falhas: medidas

Taisy Silva Weber 2005

Medidas
taxa de defeitos curva da banheira tempos mdios (mean times)
MTTF, MTBF, MTTR exemplos de clculo de tempos mdios

confiabilidade disponibilidade cobertura

Barry Johnson, cap. 1, livro-texto Pradhan96

Taisy Weber

Comportamento ideal x real


ideal
t0 t

tempo de vida

sem a ocorrncia de qualquer defeito

real
reparo defeito t0 t

tempo de vida

Taisy Weber

O que medir?
tempo at o primeiro defeito funcionamento t0 reparo funcionamento reparo tempo entre 2 defeitos funcionamento t

com que freqncia ocorrem defeitos? qual o tempo entre um defeito e outro? qual o tempo at o primeiro defeito? qual o tempo gasto para reparar cada defeito? quais as chances do sistema funcionar sem defeitos durante um determinado perodo de tempo? quais as chances do sistema estar funcionando em um determinado instante?
Taisy Weber 4

Taxa de defeitos
com que freqncia ocorrem defeitos?
taxa de defeitos
nmero esperado de defeitos em um dado perodo de tempo (failure rate)

geralmente assumido valor constante na verdade no constante boa aproximao: curva da banheira

unidade:
defeitos por unidade de tempo

funo:
z(t) - hazard function, hazard rate ou taxa de defeitos
Taisy Weber 5

Curva da banheira
fases de mortalidade infantil e envelhecimento muito pequenas comparadas ao perodo de vida til

taxa de defeitos (defeitos por unidade de tempo) mortalidade infantil

fase de envelhecimento

perodo de vida til taxa de defeitos constante

tempo vlido para hardware


Taisy Weber 6

Mortalidade infantil
alta taxa de defeitos que diminui rapidamente no tempo
componentes fracos e mal fabricados
mortalidade infantil uma fase de curto perodo de durao

burn-in: remoo de componentes fracos


operao acelerada de componentes antes de coloclos no produto final s entram em operao componentes que sobreviveram mortalidade infantil
Taisy Weber 7

Envelhecimento
taxa de defeitos aumenta rapidamente com o tempo
devido ao desgaste fsico do componente

conhecendo o incio da fase de envelhecimento possvel substituir o componente


sistema volta a operar na fase de vida til envelhecimento tambm uma fase de curto perodo de durao ideal evit-la
Taisy Weber 8

Tempo de vida til


taxa de defeitos constante
unidade: defeitos por hora corresponde ao tempo de vida til essa fase apresenta um servio mais previsvel em relao a falhas

relao exponencial entre confiabilidade e tempo


usa taxa de defeitos constante vlido para hardware
ser visto mais adiante
Taisy Weber 9

R(t) = e -t

Curva da banheira em software


software comporta-se diferente do hardware
melhor usar erros que falhas

erros so constantemente removidos taxa de defeitos continua caindo com o tempo confiabilidade aumenta com o tempo
exceto se forem efetuadas alteraes, adaptaes, mudana de plataforma (sisop e hardware)

envelhecimento de software ?
obsolescncia dos programas alteraes nas plataformas
Taisy Weber 10

Tempos mdios
tempo at o primeiro defeito funcionamento t0 reparo funcionamento reparo tempo entre 2 defeitos funcionamento t

com que freqncia ocorrem defeitos? taxa de defeitos qual o tempo entre um defeito e outro? qual o tempo at o primeiro defeito? qual o tempo gasto para reparar cada defeito? quais as chances do sistema funcionar sem defeitos durante um determinado perodo de tempo? quais as chances do sistema estar funcionando em um determinado instante?
Taisy Weber 11

Medidas
MTTF
mean time to failure

tempo esperado at a primeira ocorrncia de defeito

MTTR

mean time to repair

tempo mdio para reparo do sistema

MTBF

mean time between failures

tempo mdio entre defeitos do sistema


Taisy Weber 12

MTTF - mean time to failure


tempo esperado de operao do sistema antes da ocorrncia do primeiro defeito
exemplo:
considera-se N sistemas idnticos colocados em operao a partir do tempo t=0 mede-se o tempo de operao ti de cada um at apresentar defeito MTTF o tempo mdio de operao

MTTF =
i =1
Taisy Weber

ti N

quanto maior a quantidade de amostras N, mais prximo do valor real ser o MTTF estimado
13

MTTF
tempo at defeito t0 funcionamento funcionamento funcionamento tempo at defeito tempo at defeito t

MTTF =
i =1

ti N

para um nico sistema o procedimento semelhante: ti para a ser ti , o intervalo de tempo em operao entre os defeitos, e N o nmero de defeitos

ou MTTF = 1/
considerando R(t) = e -t
Taisy Weber 14

MTTF: Exemplo
grandemente simplificado t0 = 0 t1 = 6h t2 = 32h t3 = 48h

0,5h

1h

tempo at 1 defeito (t1) = 6 h

tempo at 3 defeito (t3) = 15 h

tempo at 2 defeito (t2) = 25,5 h MTTF = (t1+ t2+ t3) / n defeitos MTTF = 46,5 / 3 = 15,5 h taxa de defeitos () = 1/MTTF = 0,064 def/h
Taisy Weber 15

MTTR - mean time to repair


tempo mdio de reparo do sistema
difcil de estimar
geralmente usa-se injeo de falhas
injeta-se uma falha de cada vez e mede-se o tempo

nova constante
taxa de reparos = nmero de reparos por hora

MTTR = 1
Taisy Weber

em sistemas de alta disponibilidade, importante diminuir o tempo de reparo para aumentar a disponibilidade do sistema
16

MTTR
Ri tempo de reparo da falha i n
t0

nmero de falhas
t

reparo

reparo

MTTR = Ri/n ou MTTR = 1/


i=1

sendo = taxa de reparo

quanto maior o nmero de amostras, melhor


Taisy Weber 17

MTTR: Exemplo
grandemente simplificado t0 = 0 t1 = 6h t2 = 32h t3 = 48h

0,5h

1h

tempo de reparo do 1 defeito (R1) = 0,5 h tempo de reparo do 2 defeito (R2) = 1 h

MTTR = (R1+ R2) / n reparos MTTR = 1,5 / 2 MTTR = 0,75 h


Taisy Weber 18

Mean Time Between Failure


MTBF = MTTF + MTTR
diferena numrica pequena em relao a MTTF
os tempos de operao so geralmente muito maiores que os tempos de reparo na prtica valores numricos muito aproximados (tanto faz usar um como outro)

considera-se:
reparo coloca sistema em condies ideais de operao
se o MTBF for maior que o tempo at obsolescncia?
Taisy Weber 19

MTBF

tempo entre 2 defeitos t0 funcionamento funcionamento funcionamento t

MTBF = di/n
i=1

ou

MTBF = MTTF + MTTR

Taisy Weber

20

MTBF: Exemplo
grandemente simplificado t0 = 0 t1 = 6h t2 = 32h t3 = 48h

0,5h

1h

tempo entre o incio e o 1 defeito (d1) = 6 h tempo entre 1 e 2 defeitos (d2) = 26 h tempo entre 2 e 3 defeitos (d3) = 16h

MTBF = (d1+d2+d3)/n defeitos MTBF = 48 / 3 MTBF = 16 h


Taisy Weber 21

Demais medidas
tempo at o primeiro defeito funcionamento t0 reparo funcionamento reparo tempo entre 2 defeitos funcionamento t

com que freqncia ocorrem defeitos? taxa de defeitos qual o tempo entre um defeito e outro? MTBF qual o tempo at o primeiro defeito? MTTF qual o tempo gasto para reparar cada defeito? MTTR quais as chances do sistema funcionar sem defeitos durante um determinado perodo de tempo? quais as chances do sistema estar funcionando em um determinado instante?
Taisy Weber 22

Confiabilidade e taxa de defeitos


t0

N componentes

N componentes idnticos, operacionais em t0


Nf ( t ) No ( t )

nmero de componentes com defeito em t nm. de componentes operacionais em t

R( t ) = No ( t ) / N = No ( t ) / (No ( t ) + Nf ( t ) )

confiabilidade: a probabilidade que um componente tenha sobrevivido no intervalo


Q(t) a no confiabilidade

Q( t ) = Nf ( t ) / N = Nf ( t ) / (No ( t ) + Nf ( t )) R( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N
Taisy Weber 23

Confiabilidade e taxa de defeitos


R( t ) = 1,0 - Q( t ) = 1 - Nf ( t ) / N

fazendo a diferencial da confiabilidade em relao ao tempo dNf ( t ) / dt a taxa instantnea dR( t )/dt = (- 1/N) dNf ( t ) / dt em que componentes esto dNf ( t ) dt = (- N) dR( t ) / dt falhando. Dividindo esta taxa por No( t )
z(t) = dNf ( t )/dt . 1/No( t ) = (- N/ No( t )) . dR( t )/dt R( t ) = No ( t ) / N z(t) = - 1/R(t) . dR( t )/dt dR( t )/dt = - R(t) . z(t) z(t) - hazard function ou taxa de defeitos

soluo geral dessa equao considerando z(t) constante ento:


Taisy Weber

R(t) = e R(t) = e

z(t)dt

-t
24

probabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t]

Confiabilidade

para um taxa de defeitos constante a confiabilidade R(t) varia exponencialmente em funo do tempo
sistema na fase de vida til: taxa de defeitos constante

R(t) = e- t

exponential failure law

a mais usada relao entre confiabilidade e tempo vlida principalmente para componentes eletrnicos discutvel se vale para software: conforme o software vai sendo usado, bugs vo sendo descobertos e a confiabilidade do software aumenta
Taisy Weber 25

Confiabilidade: distribuio de Weibull


se taxa de defeitos varia com o tempo
z(t) distribuio de Weibull
importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo

z(t) = (t)-1

para >0 e >0


e so constantes que controlam a variao de z(t) no tempo

R(t) = e (t)
para =1 para >1 para <1
Taisy Weber

z(t) = constante = z(t) = aumenta com o tempo z(t) = diminui com o tempo
26

Confiabilidade
para: =1 =0,1
1 0,8 0,6 0,4 0,2 0 1 3 5 7 9 11 13 15 17 tempo Taxa de defeitos
Taisy Weber

taxa de defeitos constante

confiabilidade diminui com o tempo

Confiabilidade
27

19

Confiabilidade
para: =0,6 =0,1
1 0,8 0,6 0,4 0,2 0 1 3 5 7 9 11 13 15 17 tempo Taxa de defeitos
Taisy Weber

taxa de defeitos diminui com o tempo

confiabilidade diminui com o tempo mas no to acentuadamente

Confiabilidade
28

19

Confiabilidade
para: =2 =0,1
1,2 1 0,8 0,6 0,4 0,2 0 1 3 5 7 9 11 13 15 17 tempo Taxa de defeitos
Taisy Weber

taxa de defeitos aumenta linearmente com o tempo

confiabilidade diminui com o tempo acentuadamente

Confiabilidade
29

19

Disponibilidade
probabilidade do sistema estar operacional no instante t (disponvel para o trabalho til)
alternncia entre funcionamento e reparo A(t) = R(t) quando reparo tende a zero

lembrar que MTBF = MTTF + MTTR


intuitivamente A(t):availability

A(t) = top / (top+ treparo) top


Taisy Weber

tempo de operao normal

treparo

tempo de reparo
30

Disponibilidade
MTBF = MTTF + MTTR A(t) = top / (top+ treparo) genericamente A(t) = MTTF / (MTTF + MTTR)
nessa relao, o significado de alta disponibilidade fica mais claro diminuindo o tempo mdio de reparo, aumenta a disponibilidade

Taisy Weber

31

fault coverage

Cobertura
significado intuitivo

cobertura de falhas

habilidade do sistema de realizar deteco, confinamento, localizao, recuperao ... habilidade do sistema de tolerar falhas
geralmente se refere a habilidade de realizar recuperao de falhas

significado matemtico:
probabilidade condicional que dada uma falha o sistema se recupere
Taisy Weber

extremamente difcil de calcular


32

Cobertura
geralmente assumido valor constante determinao:
listar falhas possveis e falhas que o sistema pode tolerar e calcular o percentual

usada no modelo de Markov muito usada tambm em experimentos de injeo de falhas


falhas simuladas so injetadas no sistema e se observa a reao do mecanismo de TF relao entre falhas injetadas e falhas percebidas pelo mecanismo de TF
Taisy Weber 33

Problemas com medidas


defeitos so eventos aleatrios
podem demorar muito para ocorrer, no ocorrer ou ocorrer em um momento no apropriado

custo de avaliao experimental alto


necessria uma grande quantidade de amostras necessrio tempo grande de avaliao

importante avaliar durante o projeto do sistema injeo de falhas


Taisy Weber 34

Bibliografia para medidas


captulo de livro
Johnson, Barry. An introduction to the design na analysis of the faulttolerante systems, cap 1. Fault-Tolerant System Design. Prentice Hall, New Jersey, 1996

Taisy Weber

35