Aplicao Tcnica N 78
Sumrio Executivo
O Tempo Mdio Entre Avarias (MTBF) um termo de fiabilidade frequentemente utilizado por vrias indstrias e a sua banalizao levou a que algumas fizessem uma m utilizao generalizada do mesmo. Ao longo dos anos, o significado original do termo sofreu adulteraes, o que levou a alguma confuso e dvida. O MTBF em grande parte baseado em pressupostos e na definio de avaria, e a ateno a estes factos fundamental para uma correcta interpretao. Este documento explica as complexidades e equvocos relativamente ao MTBF, bem como os mtodos existentes para o calcular.
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
Introduo
O Tempo Mdio Entre Avarias (MTBF) utilizado h mais de 60 anos como base para vrias decises. Ao longo dos anos, foram desenvolvidos mais de 20 mtodos e procedimentos para previses de ciclos de vida. Portanto, no admira que o MTBF tenha sido objecto de infindveis e complicados debates. Se h rea em que isso particularmente evidente na concepo de instalaes cruciais de equipamento TI e telecomunicaes. Para casos em que alguns minutos de perodo de inactividade so suficientes para causar impacto negativo no valor de mercado de uma empresa, vital que as infra-estruturas fsicas de suporte ao ambiente em rede sejam fiveis. Sem uma compreenso cabal do MTBF, a fiabilidade projectada da empresa pode no ser atingida. Este documento explora os vrios aspectos do MTBF, com recurso a vrios exemplos, numa tentativa de simplificar a complexidade inerente ao assunto e clarificar os equvocos.
1 2
IEC-50 IEC-50
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
Exemplo 2: Se o inversor de uma UPS falhar e a UPS mudar para bypass esttico, a avaria no impede que a UPS execute a sua funo de alimentao de energia para a carga crucial. No entanto, a falha no inversor impede um dos componentes do sistema UPS de executar a funo de fornecimento de alimentao condicionada. Tal como no exemplo anterior, isto s considerado avaria pela definio 2. Se s existissem duas definies era bastante fcil definir avaria. Mas, infelizmente, quando est em causa a reputao de um produto, a questo torna-se quase to complicada como para o MTBF. Mas h mais que duas definies para avaria. Na realidade, h infinitas. Os fabricantes podem ter inmeras definies para avaria, conforme o tipo de produto. Aqueles que so guiados pela qualidade despistam todo o gnero de avarias, por uma questo de controlo do processo, o que entre outras vantagens, elimina os defeitos do produto. Assim sendo, necessrio colocar mais questes para poder definir correctamente avaria. A incorrecta utilizao do produto pelo cliente considerada avaria? Quem concebe o produto pode descurar vrios factores humanos que potenciem um uso incorrecto do mesmo pelos utilizadores. As quebras de corrente provocadas por um tcnico de vendas do servio contam como avarias? A prpria concepo do produto pode aumentar a probabilidade de avaria de um procedimento j de si arriscado? Se um LED (Dodo emissor de luz) de um computador falhasse, isso era considerado avaria mesmo que no impedisse o funcionamento do computador? Se um consumvel, como por exemplo uma bateria, se gastar ou deixar de funcionar antes do tempo previsto, isso considerado avaria? Os danos durante o transporte do produto so considerados avarias? Tal facto pode indiciar um empacotamento mal pensado pelos fabricantes. A importncia da definio de avaria deve ser, portanto, uma evidncia para todos e deve tambm ser compreendida antes de se tentar interpretar qualquer valor de MTBF. So questes como as acima colocadas que lanam os fundamentos sobre os quais devem assentar as decises de fiabilidade. Costuma-se dizer que os engenheiros nunca se enganam; apenas formulam pressupostos errados. Os mesmo se pode dizer dos que tentam calcular os valores de MTBF. So necessrios pressupostos para simplificar o processo de clculo do MTBF. Seria praticamente impossvel recolher os dados necessrios para calcular um nmero exacto. Todavia, todos os pressupostos devem ser realistas. Ao longo do documento so descritos alguns pressupostos usados no clculo do MTBF.
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
MTBF, ou Tempo Mdio Entre Avarias, a medida bsica para a fiabilidade do sistema. A unidade costuma ser exprimida em horas. Quando maior o MTBF, maior a fiabilidade do produto. A Equao 1 mostra esta relao.
Fiabilidade = e
Tempo MTBF
Equao 1
Um equvoco vulgar em relao ao MTBF dizer que equivalente ao nmero estimado de horas de funcionamento antes de uma falha do sistema, ou seja, ao tempo de validade. No invulgar, no entanto, ver um nmero de MTBF na ordem de 1 milho de horas e seria irrealista pensar que o sistema poderia funcionar ininterruptamente 100 anos sem uma nica avaria. Estes nmeros so muitas vezes elevados por se basearem na taxa de avaria do produto durante o seu perodo de vida til ou vida normal e parte-se do princpio de que as avarias se mantero a esta taxa indefinidamente. Durante esta fase, os produtos tm a mais baixa (e constante) taxa de avaria. Na realidade, o facto de ser um produto gastvel determinaria uma vida mais curta que o nmero apresentado de MTBF. Como tal, no deve ser estabelecida correlao directa entre o tempo de vida do produto e a taxa de avaria ou o MTBF. bastante provvel ter um produto com elevadssima fiabilidade (MTBF) e baixo tempo estimado de vida. Veja-se por exemplo um ser humano:
Existem 500.000 pessoas de 25 anos na amostra de populao. No perodo de um ano, recolhem-se dados sobre o nmero de avarias (mortes) nesta amostra da populao. A vida funcional da populao de 500.000 x 1 ano = 500.000 pessoas ano. Durante o ano morreram 625 pessoas. A taxa de avaria de 625 mortes / 500.000 pessoas ano = 0,125 % / ano. O MTBF a inverso da taxa de avaria ou 1 / 0,00125 = 800 anos. Assim, mesmo que as pessoas de 25 anos tenham valores elevados de MTBF, a sua esperana de vida (vida til) muito mais curta e no se correlaciona.
A verdade que os seres humanos no tm taxas de avaria constantes. medida que as pessoas envelhecem, mais problemas surgem (vo perdendo capacidades). Como tal, a nica maneira correcta de calcular um MTBF compatvel com o tempo de vida era esperar que toda uma amostra de populao de pessoas de 25 anos atingisse a fase final da vida. S ento se poderia calcular a respectiva esperana de vida. Penso que ser consenso geral que o nmero rondaria os 75 - 80 anos. Mas qual afinal o MTBF das pessoas de 25 anos, 80 ou 800 anos? Ambos! Mas como que uma mesma populao pode ter valores de MTBF to dspares? tudo uma questo de pressupostos!
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
Tendo em conta que o MTBF de 80 anos reflecte melhor a vida do produto (neste caso os seres humanos), ser este o melhor mtodo? Intuitivamente, assim parece. No entanto, h muitas variveis que limitam a praticabilidade deste mtodo no que respeita a produtos comercializveis, como sejam os sistemas UPS. A maior limitao o tempo. Para p-lo em prtica, todo o conjunto da amostra teria de avariar, e o que acontece que para muitos produtos isto se d no espao de 10 - 15 anos. Alm disso, mesmo que fosse mais sensato esperar este tempo para calcular o MTBF, era complicado localizar os produtos. Por exemplo, como que um fabricante pode saber se os produtos ainda esto em funcionamento, se estes deixarem de ser utilizados sem que isso seja comunicado? Por ltimo, mesmo que tudo acima descrito fosse possvel, a tecnologia muda com tal rapidez, que na altura em que o nmero fosse comunicado, j no teria qualquer utilidade. Quem que ia querer saber o MTBF de um produto j ultrapassado por vrias novas verses? MTTR, ou Tempo Mdio de Reparao (ou recuperao), o tempo estimado de recuperao do sistema perante uma avaria. Pode abranger o tempo que leva a diagnosticar o problema, o tempo que leva a chegar um tcnico ao local e o tempo que leva a reparar fisicamente o sistema. Tal como no caso do MTBF, a unidade do MTTR expressa em horas. Como se v pela Equao 2, o MTTR tem impacto sobre a disponibilidade e no a fiabilidade. Quando maior o MTTR, maior a avaria do sistema. Pondo de maneira mais simples, quanto mais tempo leva a recuperar o sistema, menos disponibilidade ele tem. A frmula abaixo ilustra a forma como o MTBF e o MTTR influenciam a disponibilidade geral do sistema. Se o MTBF aumentar, a disponibilidade tambm aumenta. Se o MTTR aumentar, a disponibilidade diminui.
Disponibilidade =
Equao 2
Para as Equaes 1 e 2 serem vlidas, preciso efectuar um pressuposto bsico ao analisar o MTBF de um sistema. Ao contrrio dos sistemas mecnicos, a maioria dos sistemas electrnicos no tem peas mveis. Como tal, geralmente aceite que os sistemas ou componentos electrnicos possuem taxas de avaria constantes durante o seu perodo de vida til. A Figura 1, designada como curva da banheira da taxa de avaria, mostra a base do pressuposto de taxa de avaria constante mencionado anteriormente. O perodo til normal ou perodo de vida til da curva a fase em que o produto est a ser usado. nessa altura que a qualidade do produto est a uma taxa de avaria constante em relao ao tempo. As origens de avaria nesta fase podem ir desde defeitos indetectveis, a factores de segurana mal concebidos de origem, maior esforo aleatrio que o esperado, factores humanos ou avarias naturais. Perodos amplos de seleco dos componentes pelos fabricantes, manuteno cuidada e substituio imediata das peas gastas, devem chegar para prevenir o gnero de curva de declnio que se v no perodo de desgaste. A discusso anterior fornece alguma base no que respeita aos conceitos de fiabilidade e disponibilidade e respectivas diferenas, permitindo uma interpretao devida do MTBF. A seco seguinte discute os vrios mtodos de previso do MTBF.
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
Taxa de avaria
Tempo
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
MIL-HDBK 217
Publicado pelo exrcito americano em 1965, o Guia Militar 217 foi criado para fixar um padro para estimar a fiabilidade de equipamentos e sistemas electrnicos militares, de maneira a aumentar a fiabilidade do equipamento em estruturao. Estabelece uma base para comparar a fiabilidade de duas ou mais concepes semelhantes. O Guia Militar 217 tambm designado de Mil Standard 217, ou simplesmente 217. H duas maneiras de prever a fiabilidade segundo o 217: Previso pela contagem das peas ou Previso de anlise de esforo das peas. A Previso pela contagem das peas geralmente usada para prever a fiabilidade do produto no incio do ciclo de desenvolvimento, para obter uma estimativa aproximada de fiabilidade em relao ao objectivo ou especificao de fiabilidade. calculada uma taxa de avaria contando literalmente os componentes semelhantes de um produto (ex: condensadores), que so agrupados nos vrios tipos de componentes (ex: condensadores de pelcula). O nmero de componentes de cada grupo depois multiplicado por uma taxa de avaria genrica e um factor de qualidade existente no 217. Por ltimo, somam-se as taxas de avaria dos diferentes grupos de peas para obter uma taxa de avaria final. Por definio, a Contagem das peas parte do princpio que todos os componentes esto em srie e requer que as taxas de avaria dos componentes que no estejam em srie sejam calculadas parte. A Previso de anlise de esforo das peas normalmente usada muito mais tarde no ciclo de desenvolvimento, quando a concepo dos circuitos reais e o hardware esto prximos da produo. H semelhanas com a Contagem das peas, porque tambm se somam as taxas de avaria. Contudo, no Esforo das peas, a taxa de avaria para todo e qualquer componente calculada individualmente com base nos nveis de esforo especficos a que cada componente sujeito (ex: humidade, temperatura, vibrao, voltagem). De forma a atribuir os nveis de esforo correctos a cada um dos componentes, a concepo de um produto e o seu ambiente esperado tm de ser bem documentados e compreendidos. O Mtodo de esforo das peas d normalmente uma taxa de avaria mais baixa que o Mtodo de contagem das peas. Devido extenso de anlise necessria, este mtodo, a comparar com os outros, consome imenso tempo. Actualmente o 217 quase no usado. Em 1996, o exrcito americano decretou que se devia deixar de utilizar o MIL-HDBK-217, porque provou ser falvel, e a sua utilizao pode conduzir a previses de fiabilidade erradas e enganadoras3. O 217 foi excludo por vrias razes, mas a maior parte prende-se com o facto de a fiabilidade dos componentes melhorar imenso com os anos, ao ponto de j no ser o principal factor de avaria dos produtos. As taxas de avaria dadas pelo 217 so mais cautelosas (elevadas) que as dos componentes electrnicos existentes hoje em dia. Uma investigao exaustiva das avarias actuais dos produtos electrnicos revelaria que as causas mais provveis de avaria estariam na m aplicao (erro humano), controlo de processos ou concepo do produto.
Cushing, M., Krolewski, J., Stadterman, T., and Hum, B., 1996, U.S. Army Reliability Standardization Improvement Policy and Its Impact, IEEE Transactions on Components, Packaging, and Manufacturing Technology, Part A, Vol. 19, No. 2, pp. 277-278.
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
Telcordia
O modelo de previso de fiabilidade Telcordia evoluiu a partir da indstria de telecomunicaes e conquistou o seu espao atravs de uma srie de alteraes ao longo dos anos. Foi desenvolvido primeiro pela Bellcore Communications Research sob o nome de Bellcore, como forma de estimar a fiabilidade do equipamento de telecomunicaes. Embora o Bellcore se baseasse no 217, os seus modelos de fiabilidade (equaes) foram alterados em 1985 de maneira a reflectir as experincias no terreno, de equipamentos de telecomunicaes. A ltima verso do Bellcore foi o TR-332 Nmero 6, de Dezembro de 1997. A SAIC comprou posteriormente o Bellcore em 1997 e rebaptizou-o de Telcordia. A ltima verso do Modelo de previso Telcordia foi o SR-332 Nmero 1, lanada em Maio de 2001. Disponibiliza vrios mtodos de clculo para alm dos presentes no 217. Actualmente, o Telcordia continua a ser aplicado como ferramenta de concepo de produtos nesta mesma indstria.
HRD5
O HRD5 o Guia para a fiabilidade dos dados de componentes electrnicos que utilizado nos sistemas de telecomunicaes. O HRD5 foi desenvolvido pela British Telecom e usado principalmente no Reino Unido. semelhante ao 217, s que no cobre tantas variveis ambientais, e fornece um modelo de previso de fiabilidade que abrange um espectro mais vasto de componentes electrnicos, incluindo telecomunicaes.
Modelo de Markov
O modelo de Markov possibilita a capacidade de analisar sistemas complexos, como arquitecturas elctricas. Os modelos de Markov tambm so conhecidos como diagramas de estado espacial ou grficos de estado. Pode definir-se estado espacial como o conjunto de todos os estados em que um sistema pode estar. Ao contrrio dos diagramas de blocos, os grficos de estado fornecem uma representao mais exacta do sistema. Os grficos de estado abrangem ramificaes das avarias dos componentes, assim como vrios estados que os diagramas de blocos no conseguem representar, como o estado de uma UPS a funcionar com bateria. Para alm do MTBF, os modelos de Markov fornecem uma srie de outras medidas de sistema, incluindo a disponibilidade, MTTR, a probabilidade de estar num determinado estado numa dada altura, e muitas outras.
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
10
FMEA / FMECA
A FMEA (Anlise de modos e efeitos de avarias Failure Mode and Effects Analysis) um processo usado para analisar os modos de avaria de um produto. Esta informao depois usada na determinao do impacto de cada avaria no produto, conduzindo a uma concepo melhorada do produto. A anlise pode ser aprofundada se for atribudo um nvel de gravidade a cada um dos modos de avaria, passando a chamar-se FMECA (Anlise de modos, efeitos e criticidade de avarias Failure Mode, Effects and Criticality Analysis). A FMEA utiliza uma abordagem de baixo para cima. Por exemplo, no caso de uma UPS, a anlise comea com o componente ao nvel da placa de circuito e vai subindo na escala at abranger o sistema todo. Para alm de ser usada como ferramenta de concepo de produto, tambm pode ser utilizada para calcular a fiabilidade do sistema geral. Para muitas das peas de equipamento, os dados de probabilidade necessrios aos clculos podem ser difceis de obter, especialmente se tiverem vrios estados ou modos de funcionamento.
rvore de falhas
A anlise por rvore de falhas foi uma tcnica desenvolvida pela Bell Telephone Laboratories para executar aferies de segurana no Sistema de Controlo de Lanamento do Minuteman. Foi mais tarde aplicada s anlises de fiabilidade. As rvores por falhas podem ajudar a dissecar os vrios passos dos acontecimentos, no que respeita s falhas ou ao funcionamento normal, que conduzem at falha ao nvel dos componentes ou ao acontecimento indesejado que est a ser investigado (abordagem de cima para baixo). A fiabilidade calculada atravs da converso da rvore por falhas final num conjunto de equaes equivalente, que por sua vez se obtm atravs da lgebra de acontecimentos, tambm conhecida como lgebra booleana. Tal como na FMEA, os dados de probabilidade necessrios aos clculos podem ser difceis de obter.
HALT
O Teste de Vida Ultra-rpido (HALT Highly Accelerated Life Testing) um mtodo usado para aumentar a fiabilidade geral de uma concepo de produto. O HALT usado para aferir o tempo que um produto demora a atingir literalmente o ponto de ruptura, pela submisso a condies extremas meticulosamente medidas e controladas, por exemplo de temperatura ou de vibrao. usado um modelo matemtico para estimar o tempo real que um produto no terreno demoraria a ter falhas. Embora o HALT permita estimar o MTBF, a sua principal funo melhorar a fiabilidade da concepo do produto.
11
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
12
Concluses
MTBF uma palavra de gria vulgarmente utilizada pela indstria TI. So lanados nmeros sem a devida compreenso daquilo que representam. Embora o MTBF seja um indicador de fiabilidade, nada tem a ver com a vida til estimada de um produto. Em ltima anlise, um valor de MTBF de pouco ou nada serve se a avaria for indefinida e os pressupostos forem irrealistas ou no existirem de todo.
Referncias
1. 2. 3. 4. 5. Pecht, M.G., Nash, F.R., Predicting the Reliability of Electronic Equipment, Procedimentos do IEEE, Vol. 82, No. 7, Julho 1994 Leonard, C., MIL-HDBK-217: Its Time To Rethink It, Electronic Design, 24 Outubro, 1991 http://www.markov-model.com MIL-HDBK-338B, Electronic Reliability Design Handbook, 1 Outubro, 1998 IEEE 90 Institute of Electrical and Electronics Engineers, Dicionrio informtico standard do IEEE: Compilao dos glossrios informticos standard do IEEE. New York, NY: 1990
2004 American Power Conversion. Todos os direitos reservados. Nenhuma parte desta publicao pode ser utilizada, reproduzida, fotocopiada, transmitida ou armazenada num sistema de recuperao de qualquer natureza, sem a autorizao por escrito do proprietrio dos direitos de autor. www.apc.com Rev 2004-0
13