Anda di halaman 1dari 38

0

AMPLITUDE, PONTOS DISCREPANTES E TAMANHO DE AMOSTRA EM ESTATSTICA Por Karl Grube e Gerhard Grube, Junho de 2012. Reviso 26/01/2014

APLICAO DOS MTODOS DESENVOLVIDOS NESTE TRABALHO Para facilitar a aplicao dos mtodos desenvolvidos neste trabalho, apresentamos a seguir um resumo de como utilizar as tabelas. As justificativas e maiores detalhes encontram-se no corpo do trabalho. Ao usar as tabelas, valores intermedirios podem ser obtidos por interpolao. O objeto sempre a anlise de amostras aleatrias de uma varivel contnua com distribuio aproximadamente normal.

TABELAS 1 e 2 DESVIO MXIMO E AMPLITUDE DE AMOSTRAS NORMAIS Estas tabelas refletem o fato que, quanto maior tamanho da amostra, maior a probabilidade de se encontrar pontos muito afastados da mdia. Tanto a amplitude, como o desvio mximo aumentam. Amplitude a diferena entre os dois valores extremos da amostra: xma x - xmi n . Desvio mximo o afastamento do ponto mais distante da mdia: xma x - . A tabela 1 apresenta os desvios mximos, em funo do tamanho N da amostra. A tabela 2 apresenta as amplitudes (metade). Os valores de Z indicados nas tabelas no so exatos; so os que, em mdia, podem ser esperados. As respectivas equaes esto indicadas no final das tabelas. TABELA 1 DESVIO MXIMO N Z N Z 2 0,674 20 2,099 3 1,052 30 2,263 4 1,264 40 2,374 5 1,408 50 2,456 6 1,516 60 2,522 7 1,602 70 2,576 8 1,673 80 2,622 9 1,733 90 2,662 10 1,786 100 2,698 N: nmero de pontos da amostra Z = (xma x - ) / ( a mdia, o desvio padro)

N 200 300 400 500 600 700 800 900 1000

Z 2,922 3,046 3,132 3,197 3,249 3,293 3,331 3,363 3,392

TABELA 2 AMPLITUDE N Z N Z 2 0,431 20 1,909 3 0,802 30 2,084 4 1,022 40 2,201 5 1,175 50 2,287 6 1,289 60 2,356 7 1,381 70 2,414 8 1,457 80 2,462 9 1,521 90 2,504 10 1,576 100 2,542 N: nmero de pontos da amostra Z = (xma x - xmi n )0,5 / ( o desvio padro)

N 200 300 400 500 600 700 800 900 1000

Z 2,776 2,905 2,994 3,062 3,116 3,161 3,199 3,234 3,264

Os valores de Z dependem da distribuio normal. A interpolao pode ser evitada usando-se uma planilha (Open Office, Excel 2010); os valores de Z podem ser obtidos em funo de N pelas expresses: Para o desvio mximo: =INV.NORM(0,5^(1/(B13-1))/2 +0,5;0;1) Para a amplitude: =INV.NORM((1/3)^(1/(B13-1))/2 +0,5;0;1) nestas expresses, B13 a clula que contm N (nmero de pontos da amostra). EXEMPLOS: a) Numa amostra de 5 pontos, o valor mximo 15 e o mnimo 7. Quais so os valores aproximados da mdia e do desvio padro? A mdia aproximada (15 + 7) / 2 = 11 A metade da amplitude (15 - 7) / 2 = 4. Da tabela 2 acima, para N = 5, obtm-se Z = 1,175. O desvio padro aproximado : = 4 / 1,175 = 3,4 Observao: O intervalo de variao da mdia pode ser estimado utilizando os desvios mximos da tabela 1 (para 5 pontos, z = 1,408): Valor mximo da mdia: 7 + 1,408 3,4 = 11,8 Valor mnimo da mdia: 15 - 1,408 3,4 = 10,2 b) Numa amostra de 3 pontos, cuja mdia 15, o maior valor 22. Qual o maior valor que pode ser esperado numa amostra de 200 pontos? Da tabela 1 obtemos: para N = 3, Z = 1,052 para N = 200, Z = 2,922 Z = (xma x - ) / (o valor de no precisa ser calculado) xma x - = 2,922 / 1,052 (22 - 15) = 19,4 O valor mximo : xma x = 15 + 19,4 = 34,4

TABELA 3 IDENTIFICAO DE PONTOS DISCREPANTES A identificao de um ponto estatisticamente discrepante importante porque este ponto uma indicao de que ocorreu uma anomalia no processo, um erro na medio, um erro grosseiro, ou uma flutuao estatstica excepcional. Pontos estatisticamente discrepantes podem distorcer a estimativa da mdia. Por este motivo, interessante elimin-los da amostra. Para identificar os pontos discrepantes, usa-se a tabela 3. Dada uma amostra, calculase a mdia e o desvio padro. A seguir, divide-se a diferena entre o valor de um ponto e a mdia, pelo desvio padro. Compara-se o resultado z, em valor absoluto, com o limite zd da tabela. Se for maior, o ponto discrepante: z = |(x - ) / | : mdia da amostra : desvio padro da amostra x discrepante se z > zd Os pontos da amostra devem estar ordenados. Examina-se, inicialmente, o ponto mais afastado da mdia. Se ele for discrepante, eliminado, observando-se o seguinte. O ponto discrepante no deve ser eliminado, se a diferena em relao mdia for menor que a diferena admissvel d. A diferena admissvel d a maior diferena que ainda no considerada significativa. o erro aceitvel. Ao definir um valor, deve-se ter em mente que erros menores que 1% so difceis de serem obtidos. Em pesquisa tecnolgica, s vezes se aceita erros de 10% ou mais. Eliminado o ponto, recalcula-se a mdia e o desvio padro. O processo deve ser repetido, at que todos os pontos discrepantes sejam eliminados , ou at que tenham sido eliminados 1/3 dos pontos (a amostra restante no dever conter menos de 2/3 dos pontos originais). A mdia e o desvio padro, calculados com a amostra remanescente, representam melhor os valores verdadeiros. TABELA 3 LIMITES DISCREPANTES MTODO PROPOSTO N Zd N Zd N Zd 2 --20 2,231 200 3,025 3 1,121 30 2,388 300 3,145 4 1,391 40 2,494 400 3,229 5 1,565 50 2,573 500 3,292 6 1,672 60 2,637 600 3,343 7 1,754 70 2,691 700 3,386 8 1,822 80 2,734 800 3,422 9 1,881 90 2,773 900 3,454 10 1,931 100 2,807 1000 3,483 Nesta tabela, N o nmero de pontos da amostra e Zd o limite discrepante. Para amostras de 6 ou mais pontos, pode-se evitar a interpolao, calculando os limites discrepantes zd numa planilha (Open Office, Excel 2010), atravs da expresso: =INV.NORM(0,608914^(1/(D13 -1))/2 +0,5;0;1) onde D13 a clula que contm N (nmero de pontos da amostra).

EXEMPLO: Pretende-se adquirir um eletrodomstico com preo aproximado de R$ 1000,00. Neste nvel de custo, considera-se que uma diferena de R$ 20,00 no significativa ( d = 20). Foram obtidos 3 preos: a) R$ 800,00, R$ 1000,00 e R$ 1700,00. O preo mais alto discrepante? Aplicando o mtodo proposto, temos: mdia = 1166,67 desvio padro = 472,58 diferena = 1700,00 - 1166,67 = 533,33 z = 533,33 / 472,58 = 1,128 da tabela 3, para N = 3, zd = 1,121 como z maior que zd, o ponto discrepante. A diferena maior que d, portanto significativa, confirmando que o ponto deve ser eliminado. Observao: O valor de z deve ser calculado, com preciso, at a terceira casa decimal. b) R$ 975,00, R$ 1000,00, R$ 1000,00. O preo mais baixo discrepante? Aplicando o mtodo proposto, temos: mdia = 991,67 desvio padro = 14,43 diferena = 991,67 - 975,00 = 16,67 z = 16,67 / 14,43 = 1,155 da tabela 3, para N = 3, zd = 1,121 como z maior que zd, o ponto discrepante. Porm a diferena menor que diferena admissvel d. O ponto no deve ser eliminado. Observao: Quando uma amostra tem vrios valores iguais, qualquer ponto um pouco diferente tender a ser indicado como discrepante; neste caso, o critrio decisivo a diferena admissvel d.

TABELA 4 TAMANHO DA AMOSTRA Em qualquer experimento, enfrenta-se o problema de determinar o tamanho da amostra. Quanto maior a amostra, mais preciso ser o resultado do experimento. Por outro lado, o custo de obteno da amostra aumenta. Para aplicar o mtodo proposto, so necessrios valores estimados da diferena admissvel d e o desvio padro . Com a relao d/ , o tamanho N determinado usando a tabela 4. Os tamanhos indicados so os mnimos recomendados. Nada impede que sejam usadas amostras maiores, por exemplo, quando a populao amostrada heterognea, visando garantir que a amostra seja representativa. Aps realizar a amostragem, deve ser verificada a existncia de pontos discrepantes , conforme o tpico anterior. Os pontos discrepantes devem ser eliminados e substitudos por outros, completando o tamanho N requerido.

TABELA 4 TAMANHO DA AMOSTRA MTODO PROPOSTO N d/ N d/ N d/ 1 1,29 12 0,201 35 0,074 2 0,862 14 0,174 40 0,065 3 0,647 16 0,154 45 0,059 4 0,518 18 0,138 50 0,053 5 0,432 20 0,125 55 0,049 6 0,371 22 0,115 60 0,045 7 0,325 24 0,106 65 0,042 8 0,289 26 0,098 70 0,039 9 0,260 28 0,091 75 0,036 10 0,237 30 0,086 80 0,034 N: nmero de pontos da amostra d/: diferena admis svel / desvio padro estimado

N 90 100 110 120 130 140 150 160 180 200

d/ 0,031 0,028 0,026 0,024 0,022 0,021 0,020 0,019 0,017 0,015

Numa planilha (Open Office, Excel 2010), o valor de d/ pode ser obtido mediante a expresso: =(2,58/(D13+1))*(1+ 0,001*D13) onde D13 a clula que contm N (nmero de pontos da amostra). Em geral possvel obter uma estimativa razovel do desvio padro da populao, analisando o comportamento esperado da varivel. Tendo-se uma idia da faixa de variao, pode-se admitir, grosso modo, que ela equivale a 5 ou 6 desvios padro. Aps realizar alguns testes (pelo menos trs), o valor do desvio padro poder ser recalculado, revisando-se, se necessrio, o tamanho da amostra. A diferena admissvel d a maior diferena, na mdia calculada, que ainda no considerada significativa. o erro aceitvel. Ao definir um valor, deve-se ter em mente que erros menores que 1% so difceis de serem obtidos. Em pesquisa tecnolgica, s vezes se aceita erros de 10% ou mais. De qualquer modo, uma vez definida a diferena admissvel, o sistema de medio deve ser escolhido com a preciso adequada. O erro de medio deve ser bem menor que a diferena admissvel. EXEMPLO: Deseja-se pesquisar o preo de um equipamento industrial cujo valor, numa primeira estimativa, de R$ 150.000,00, com uma faixa de variao entre R$ 100.000,00 e R$ 200.000,00. Quantas propostas devero ser solicitadas? Em geral, neste tipo de pesquisa, os custos no so desprezveis; a elaborao e a anlise das propostas sempre exigem um tempo considervel. Portanto, deve-se procurar a quantidade mnima necessria. O desvio padro aproximado (200.000 - 100.000) / 5 = 20.000 A diferena admissvel d deve ser definida conforme o objetivo da pesquisa. Se, por exemplo, o objetivo for uma estimativa preliminar de custos, uma diferena de 10% do preo esperado aceitvel; portanto, d = 150.000 0,10 = 15.000 d/ = 15.000 / 20.000 = 0,75 Da Tabela 4, obtemos N = 3 Assim, para uma estimativa preliminar de custos, bastam trs propostas.

AMPLITUDE, PONTOS DISCREPANTES E TAMANHO DE AMOSTRA EM ESTATSTICA Karl Grube, Engenheiro Qumico, formado pela UFPR Gerhard Grube, Engenheiro Mecnico, formado pela UFPR Curitiba, Junho de 2012. No presente trabalho so desenvolvidos mtodos para a determinao da amplitude (intervalo, "range") de uma amostra, identificao de pontos discrepantes ("outliers") e determinao do tamanho da amostra ("sample size"). Estes assuntos so pouco ventilados em livros-texto de estatstica e as solues oferecidas nem sempre so satisfatrias, quando aplicadas a problemas de engenharia. Apresentamos algumas alternativas, mais baseadas no bom senso do que em conhecimento terico. O trabalho est dividido em trs partes, cada uma relativa a um tema. O objeto sempre a anlise de amostras aleatrias de uma varivel contnua com distribuio aproximadamente normal.

1 PRIMEIRA PARTE: AMPLITUDE DE AMOSTRAS NORMAIS Por Karl Grube e Gerhard Grube, Junho de 2012

1.1 INTRODUO E RESUMO Definimos como amplitude, tambm chamada intervalo ("range"), de uma amostra a diferena entre os dois valores extremos da amostra. Desvio mximo o afastamento do ponto mais distante da mdia. sabido que a amplitude aumenta com o tamanho da amostra. Quanto maior a amostra, maior a probabilidade de se encontrar valores muito altos ou muito baixos . O conhecimento da relao entre o nmero de pontos da amostra e a amplitude til em diversas situaes: quando se quer saber quais valores podero ser atingidos em uma amostra de determinado tamanho quando se deseja estimar a mdia e o desvio padro conhecendo-se apenas os valores extremos de uma amostra quando se quer saber se um determinado ponto da amostra compatvel com o tamanho da mesma (anlise de pontos discrepantes). Nesta primeira parte procura-se desenvolver um mtodo para determinar a amplitude e o desvio mximo de amostras normais, conforme definidos acima. Analisando as probabilidades da distribuio normal, so deduzidas equaes para a amplitude e para o desvio mximo. Os resultados numricos esto apresentados no Item 1.3. As equaes foram verificadas experimentalmente por meio de algumas amostras normais (anexo 1) e de um grande nmero de amostras aleatrias (anexo 2). Aproximadamente, os resultados confirmam as equaes tericas.

1.2 DESENVOLVIMENTO TERICO DO MTODO A amplitude de uma amostra normal est relacionada com as probabilidades da distribuio normal. Dado um intervalo z , a probabilidade de um ponto qualquer cair neste intervalo p e a probabilidade do ponto cair fora 1 - p. A probabilidade de um segundo ponto cair no intervalo p^2, enquanto a probabilidade do segundo ponto cair fora 1 - p^2. E assim por diante. A probabilidade p pode ser obtida de tabelas da distribuio normal em funo do valor de z. Consideremos um exemplo. Dado um intervalo 1,5 , obtm-se da tabela p = 0,866, que a probabilidade de um ponto qualquer cair neste intervalo. A probabilidade dele cair fora 1 - 0,866 = 0,134. A probabilidade de um segundo ponto cair no intervalo 0,866^2 = 0,750,a probabilidade dele cair fora 1 - 0,750 = 0,250. medida que aumenta o nmero de pontos no intervalo, diminui a probabilidade do prximo ponto cair dentro, enquanto a probabilidade de cair fora aumenta. Com cinco pontos no intervalo, a probabilidade do prximo ponto cair fora j 0,513, ou seja, maior do que cair dentro. Quando a probabilidade do ltimo ponto da amostra cair dentro do intervalo for igual de cair fora, admite-se que o ponto est localizado exatamente sobre o limite do intervalo. Isto permite determinar a posio do ltimo ponto (figuras A e B).

a) Desvio mximo Considerando o exposto acima, a posio do ponto mais afastado da mdia, que pode estar localizado direita ou esquerda da mdia (figura A), pode ser determinada fazendo: p^n = 1 - p^n 2 p^n = 1 p^n = 1/2 donde se obtm p = (1/2)^(1/n) equao [1]

n o nmero de pontos no intervalo (o nmero de pontos na amostra N = n+1). Com o valor de n calcula-se p. Da tabela de distribuio normal, obtm-se o afastamento z. Vejamos, por exemplo, uma amostra de trs pontos. Neste caso, n = 2, portanto p = 0,7071. Da tabela, obtm-se z = 1,052. Este o desvio mximo esperado.

b) Amplitude A amplitude pode ser obtida com raciocnio semelhante, porm considerando que o ponto est somente num dos lados da curva (figura B). Neste caso, p^n = (1 - p^n) / 2 donde se obtm p = (1/3)^(1/n) equao [2]

Por exemplo, numa amostra de trs pontos, n = 2, portanto p = 0,5774. Da tabela da distribuio normal, obtemos z = 0,802. A amplitude esperada 2 0,802 = 1,604. c) Limite discrepante Se a probabilidade do ltimo ponto da amostra cair fora do intervalo for menor do que cair dentro, este tende a ser discrepante (isto , um ponto no pertencente populao). Genericamente o limite pode ser definido por p^n = g (1 - p^n) equao [3]

onde g um fator maior que 1. Este fator , at certo ponto, arbitrrio. Quanto maior o seu valor, menos pontos sero considerados discrepantes. Mais adiante, na segunda parte deste trabalho, esta concepo usada para elaborar um mtodo de identificao de pontos discrepantes.

1.3 AMPLITUDE E DESVIO MXIMO EM AMOSTRAS NORMAIS A tabela 1 abaixo apresenta os desvios mximos calculados coma equao terica, em funo do tamanho N da amostra. A tabela 2 apresenta as amplitudes (metade). Os valores de Z so os mdios esperados; no so valores exatos. Valores intermedirios podem ser obtidos por interpolao. As respectivas equaes encontram-se no final das tabelas. TABELA 1 DESVIO MXIMO N Z N Z N Z 2 0,674 20 2,099 200 2,922 3 1,052 30 2,263 300 3,046 4 1,264 40 2,374 400 3,132 5 1,408 50 2,456 500 3,197 6 1,516 60 2,522 600 3,249 7 1,602 70 2,576 700 3,293 8 1,673 80 2,622 800 3,331 9 1,733 90 2,662 900 3,363 10 1,786 100 2,698 1000 3,392 N: nmero de pontos da amostra Z = (xma x - ) / (xma x o maior ponto da amostra , a mdia e o desvio padro)

TABELA 2 AMPLITUDE N Z N Z N Z 2 0,431 20 1,909 200 2,776 3 0,802 30 2,084 300 2,905 4 1,022 40 2,201 400 2,994 5 1,175 50 2,287 500 3,062 6 1,289 60 2,356 600 3,116 7 1,381 70 2,414 700 3,161 8 1,457 80 2,462 800 3,199 9 1,521 90 2,504 900 3,234 10 1,576 100 2,542 1000 3,264 N: nmero de pontos da amostra, Z = (xma x - xmi n )0,5 / (xma x e xmi n so, respectivamente, o maior e o menor ponto da amostra; o desvio padro). Numa planilha (Open Office, Excel 2010) os valores de Z podem ser obtidos em funo de N pelas expresses: Para o desvio mximo: =INV.NORM(0,5^(1/(B13-1))/2 +0,5;0;1) Para a amplitude: =INV.NORM((1/3)^(1/(B13-1))/2 +0,5;0;1) em que B13 a clula que contm N (nmero de pontos da amostra). Verifica-se que a amplitude aumenta indefinidamente com o tamanho da amostra. Quanto maior a amostra, maior ser o afastamento de um ponto extremo. Em amostras de 3 pontos pode-se esperar que o ponto mais afastado (desvio mximo) esteja a cerca de 1 da mdia; em amostras de 17 pontos o afastamento mximo de 2; com 260 pontos, chega a 3 . O grfico 1 a seguir apresenta as curvas da amplitude e do desvio mximo, conforme as tabelas acima. Tambm est desenhada a curva dos limites discrepantes, obtidos pelo mtodo desenvolvido na segunda parte.

N: nmero de pontos da amostra Z: afastamento da mdia = (x - ) /

1.4 VERIFICAO DO MTODO Com o objetivo de verificar a exatido das equaes tericas desenvolvidas, foram realizadas duas verificaes experimentais. Numa verificao mais grosseira (anexo 1), foram utilizadas algumas amostras hipotticas aproximadamente normais. Para uma verificao experimental mais exaustiva (anexo 2) foram obtidas as estimativas do desvio mximo e da amplitude para dez mil amostras extradas aleatoriamente da distribuio normal. Os detalhes constam dos anexos. Aproximadamente, os resultados experimentais confirmam as equaes tericas.

1.5 EXEMPLOS a) Numa amostra de 5 pontos, o valor mximo 15 e o mnimo 7. Quais so os valores aproximados da mdia e do desvio padro? A mdia aproximada (15 + 7) / 2 = 11 A metade da amplitude (15 - 7) / 2 = 4. Da tabela 2 acima, para N = 5, obtm-se Z = 1,175. O desvio padro aproximado = 4 / 1,175 = 3,4 Observao: O intervalo de variao da mdia pode ser estimado utilizando os desvios mximos da tabela 1 (para 5 pontos, z = 1,408): Valor mximo da mdia: 7 + 1,408 3,4 = 11,8 Valor mnimo da mdia: 15 - 1,408 3,4 = 10,2 b) Numa amostra de 3 pontos, cuja mdia 15, o maior valor encontrado 22. Qual o maior valor que pode ser esperado numa amostra de 200 pontos? Da tabela 1 obtemos: para N = 3, Z = 1,052 para N = 200, Z = 2,922 Z = (xma x - ) / O valor de no precisa ser calculado: xma x - = 2,922 / 1,052 (22 - 15) = 19,4 O valor mximo xma x = 15 + 19,4 = 34,4

ANEXOS RELATIVOS PRIMEIRA PARTE ANEXO 1: Verificao com algumas amostras normais. ANEXO 2: Verificao com amostras aleatrias

10

2 SEGUNDA PARTE: IDENTIFICAO DE PONTOS DISCREPANTES Por Karl Grube e Gerhard Grube, Junho de 2012

2.1 INTRODUO E RESUMO Estatisticamente, ponto discrepante ("outlier") um ponto que est muito afastado da mdia de uma amostra, sendo improvvel que pertena populao. A identificao de um ponto estatisticamente discrepante importante, porque este ponto sempre uma indicao de que ocorreu: uma anomalia no processo um erro na medio um erro grosseiro uma flutuao estatstica excepcional Um ponto estatisticamente discrepante pode distorcer a estimativa da mdia. Por este motivo, interessante elimin-lo da amostra. Nesta segunda parte, analisa-se a aplicao do mtodo do teste t de Student, recomendado na literatura. Esse mtodo, no caso de amostras pequenas, pode indicar limites superiores altos demais (aceitando pontos que, pelo bom senso, deveriam ser rejeitados) e limites inferiores muito baixos (aceitando valores negativos, que no tm sentido em muitas situaes reais). Em amostras maiores, tende a rejeitar pontos vlidos pertencentes a amostras normais, o que tambm um contra-senso. Prope-se um mtodo que procura evitar estas deficincias utilizando dois critrios. O critrio 1, para amostras de at 6 pontos, parte de uma hiptese inicial diversa da adotada no mtodo do teste t, resultando em limites mais adequados, principalmente para grandezas que so, por natureza, no-negativas. Para amostras maiores, foi elaborado o critrio 2, que leva em conta o aumento da amplitude com o tamanho da amostra, evitando que pontos normais sejam rejeitados. Os dois critrios esto reunidos em uma tabela de limites discrepantes em funo do tamanho da amostra, apresentada no Item 2.4. O mtodo proposto foi comparado com outros mtodos. No anexo 4 comenta-se o critrio de Chauvenet, que apresenta resultados em parte semelhantes. No anexo 5 os limites so comparados com os recomendados por Grubbs. Outro mtodo citado na literatura, o "box&whisker", discutido no anexo 6.

2.2 O MTODO DO TESTE t DE STUDENT A identificao de pontos discrepantes consiste em determinar o limite x d, alm do qual um ponto da amostra considerado discrepante. Na literatura (Ref. 1) recomendase utilizar o mtodo do teste t de Student para duas mdias amostrais. Neste teste supe-se, como hiptese inicial, que as duas mdias so iguais. Esta hiptese geralmente conveniente, porque o "pool" das amostras permite uma estimativa melhor dos parmetros (Ref. 2, pg. 240). Conseqentemente, a diferena referida ao desvio padro combinado das duas amostras: t = ( 1 - 2) / ( varincia da mdia 1 + varincia da mdia 2 )

11

onde 1 e 2 so as mdias das duas amostras. Ao aplicar o mtodo para identificar pontos discrepantes, considera-se que a amostra 2 contm s um ponto (o ponto analisado). Obtm-se, para o valor discrepante: xd = t (1/n + 1) equao [4]

Onde , e n so os valores para a amostra excluindo o ponto em anlise. O valor de t obtido de tabelas para n - 1 graus de liberdade conforme o nvel de confiana desejado. No anexo 3 esto apresentados os clculos de xd com os quais foram traadas as curvas do grfico 2 abaixo, designadas pelos nveis de significncia = 0,025 e = 0,05. Neste grfico, os valores so da amostra sem o ponto em anlise. A ordenada n igual ao tamanho da amostra menos um. A abcissa indica os valores discrepantes x d para uma mdia igual a zero e desvio padro igual a um. Verifica-se que, para amostras muito pequenas, os valores de xd obtidos por este mtodo so bastante altos. Diminuem medida que o nmero de pontos aumenta, tendendo a ficar constantes.

2.3 O MTODO PROPOSTO a) Critrio 1 Para amostras pequenas Ao contrrio do mtodo anterior, partimos da hiptese de que as mdias das duas amostras so diferentes. No h vantagem em incluir a amostra 2 na estimativa dos parmetros, j que ela consiste de um s ponto, que ainda suspeito de estar "fora". Portanto, a diferena referida apenas ao desvio padro da mdia da amostra 1 (ou seja, da amostra excluindo o ponto em anlise). O valor discrepante passa a ser: xd = k / n equao [5]

Consideramos o fator k constante, igual para todos os tamanhos de amostra. Deste modo, o clculo de xd fica extremamente simples, sem necessidade de recorrer a tabelas. Para utilizar a frmula, preciso estabelecer um valor adequado para k. Este valor ser determinado com base em duas premissas: Inmeras grandezas reais, tais como massa, volume, energia, produo, preos, etc. so, por natureza, positivas. Embora apresentem, freqentemente, distribuies normais, no podem assumir valores negativos. Pode-se considerar que praticamente todos os pontos de uma populao normal esto compreendidos no intervalo 3 . Em conseqncia impe-se, como limite discrepante inferior, o valor zero. Para que a probabilidade de aceitar valores negativos seja pequena, o limite discrepante inferior dever estar a -3 da mdia . Uma amostra de trs pontos, nestas condies, poderia ser a seguinte: x 1 = 2 x2 = 3 x3 = 4 para a amostra completa (3 pontos) obtemos = 3 e = 1, o limite discrepante inferior x d = - 3 = 3 - 3 1 = 0 12

O valor de k pode ser obtido transformando a frmula [5] acima e fazendo xd = 0, com os demais valores calculados sem o primeiro ponto ( = 3,5, = 0,7071, n = 2). Obtm-se k = 7,0 e a frmula para o limite discrepante fica xd = 7 / n equao [6]

Com os limites determinados pela equao [6], praticamente todos os pontos negativos sero rejeitados, se o coeficiente de disperso (/) for menor que 1/3. Com coeficientes de disperso maiores, a probabilidade de aceitar valores negativos aumenta. Assim, as grandezas que podem assumir valores negativos tambm esto consideradas. A equao [6] tem aplicao geral. Esta a forma mais adequada para tratar o problema. O recurso da transformao lognormal, para evitar os valores negativos, nem sempre correto e, dependendo dos limites, a soluo no satisfatria (ver o anexo 5, item c). Com a equao [6] acima foi traada a curva designada por Limite K no grfico 2 abaixo. Os valores de xd diminuem quando n aumenta, tendendo a se aproximar da mdia. Verifica-se que os valores de xd, para amostras muito pequenas, so bem menores que os do mtodo do teste t. b) Critrio 2 Para amostras maiores Um fato importante, no considerado no mtodo do teste t, o seguinte. A amplitude de uma amostra normal aumenta com o tamanho da amostra. Por outro lado os valores de xd definidos acima diminuem com o tamanho da amostra. Para que os pontos de uma amostra normal no sejam considerados discrepantes, o limite deve ficar sempre direita da curva dos desvios mximos, definida na primeira parte. Isto significa que, nas amostras maiores, o critrio deve mudar. A situao fica mais clara no grfico 3, que considera a amostra completa, incluindo o ponto em anlise (a ordenada agora N, o tamanho da amostra). A curva esquerda representa o desvio mximo de amostras normais. As bolinhas amarelas representam amostras normais, nas quais o ltimo ponto foi substitudo pelo valor discrepante xd, calculado pelo critrio 1. Comeando direita da curva do desvio mximo, os pontos xd (bolinhas amarelas) inicialmente se afastam, depois se aproximam novamente da curva, cruzando-a em aproximadamente N=9. A partir da (pelo critrio 1), pontos normais seriam considerados discrepantes. Para evitar isto, o limite discrepante (pelo critrio 2) deve prosseguir paralelamente e direita da curva do desvio mximo. Um incio adequado o ponto que est mais afastado desta curva, N=6. A partir deste ponto, o limite discrepante determinado pela equao [3] apresentada na primeira parte: p^n = g (1 - p^n) Para N = 6, o limite discrepante pelo critrio 1 zd = 1,6723. Da curva normal, a probabilidade de um ponto estar no intervalo 1,6723 0,90554. Com n = 5, encontra-se g = 1,5568. Resolvendo para o valor de p, obtemos: p = 0,6089^(1/n) equao [7]

Com estes valores de p, os limites pelo critrio 2 so obtidos da distribuio normal. A curva segundo o critrio 2 (em vermelho, no grfico 3) apresenta, coincidentemente, 13

valores muito prximos dos obtidos por Chauvenet (Ref. 3). O critrio de Chauvenet comentado no anexo 4.

n: nmero de pontos da amostra menos um xd: valor discrepante para mdia = 0 e desvio padro = 1

N: nmero de pontos da amostra Z: afastamento da mdia = (x - ) /

14

2.4 LIMITES DISCREPANTES MTODO PROPOSTO O mtodo proposto pode ser aplicado mediante o uso de uma nica tabela englobando os dois critrios:

TABELA 3 LIMITES DISCREPANTES MTODO PROPOSTO N Zd N Zd N Zd 2 ---20 2,231 200 3,025 3 1,121 30 2,388 300 3,145 4 1,391 40 2,494 400 3,229 5 1,565 50 2,573 500 3,292 6 1,672 60 2,637 600 3,343 7 1,754 70 2,691 700 3,386 8 1,822 80 2,734 800 3,422 9 1,881 90 2,773 900 3,454 10 1,931 100 2,807 1000 3,483 Nesta tabela, N o nmero de pontos da amostra e Zd o limite discrepante. Os valores para N at 6 foram obtidos pelo primeiro critrio. Os valores para amostras maiores foram obtidos pelo segundo critrio. Os exemplos abaixo esclarecem como foram obtidos os valores da tabela 3. CRITRIO 1 (para N 6) Parte-se de uma amostra aproximadamente normal, de tamanho N, na qual o ltimo ponto substitudo pelo valor discrepante x d. Admitindo uma amostra com N = 3: x1 = 8, x2 = 10, x3 = xd Com os dois primeiros pontos, obtemos (n) = 9, (n) = 1,414 o valor de xd obtido com a equao [6]: xd = + 7 / n = 16,0 com o ltimo ponto discrepante, a amostra fica: x1 = 8, x2 = 10, x3 = 16 (N) = 11,333, (N) = 4,163 zd = (16,0 - 11,333) / 4,163 = 1,121 CRITRIO 2 (para N > 6) O limite discrepante determinado em funo da probabilidade p, equao [7]. Para uma amostra com N = 9 (n = 8): p= 0,6089^(1/n) = 0,9399 obtm-se, da curva normal, zd = 1,881 Para amostras de 6 ou mais pontos (critrio 2) os limites discrepantes zd podem ser obtidos por meio de uma planilha (Open Office, Excel 2010) usando a expresso: =INV.NORM(0,608914^(1/(D13-1))/2 +0,5;0;1) em que D13 a clula que contm N (nmero de pontos da amostra).

15

2.5 APLICAO DO MTODO PROPOSTO O uso da tabela 3 simples. Dada uma amostra, calcula-se a mdia e o desvio padro. A seguir, divide-se a diferena entre o valor de um ponto e a mdia, pelo desvio padro. Compara-se o resultado, em valor absoluto, com o limite da tabela, (interpolado, se necessrio). Se for maior, o ponto discrepante: z = |(x - ) / | x discrepante se z > zd Os pontos da amostra devem ser ordenados. Examina-se inicialmente o ponto mais afastado da mdia. Se ele for discrepante, eliminado, observando-se o seguinte. O ponto discrepante no deve ser eliminado, se a diferena em relao mdia for menor que a diferena admissvel d. A diferena admissvel d a maior diferena que ainda no considerada significativa (ver o item 3.7 da terceira parte). Eliminado o ponto, recalcula-se a mdia e o desvio padro. O processo deve ser repetido, at que todos os pontos discrepantes sejam eliminados , ou at que tenham sido eliminados 1/3 dos pontos. Devem restar, na amostra, pelo menos 2/3 dos pontos originais. A mdia e o desvio padro, calculados com a amostra remanescente, representam melhor os valores verdadeiros.

2.6 COMPARAO ENTRE O MTODO DO TESTE t E O MTODO PROPOSTO a) avaliao do mtodo do teste t de Student Neste mtodo, como visto, xd = t (1/n + 1). Para avaliar este mtodo, foram imaginadas algumas amostras aproximadamente normais, para as quais foram calculados os valores de xd, conforme o anexo 3. Os valores de xd foram ento avaliados apenas com base no bom senso. Considerando uma amostra de 3 pontos (n = 2): x1 = 8, x2 = 10, x3 = 12 usando x1 e x2 obtemos: = 9 = 1,414 (1/n + 1) = 1,225 com =0,05: xd = 9 + 6,31 1,414 1,225 = 19,9 (alto, quase o dobro da mdia) com =0,025: xd = 9 + 12,71 1,414 1,225 = 31,0 (alto demais) Considerando uma amostra de 4 pontos (n = 3): x1 = 8, x2 = 10, x3 = 12, x4 = 14 com os trs primeiros, obtemos: = 10 = 2 (1/n + 1) = 1,155 com =0,05: xd = 10 + 2,92 2 1,155 = 16,7 (razovel) com =0,025: xd = 10 + 4,30 2 1,155 = 19,9 (razovel) Considerando uma amostra de 8 pontos (n = 7): x: 7 9 11 13 f: 1 3 3 1 excluindo o ltimo ponto, temos: = 9,57 = 1,512 (1/n + 1) = 1,069 com =0,05: xd = 9,57 + 1,94 1,512 1,069 = 12,7 (baixo, menor que o ltimo ponto) com =0,025: xd = 9,57 + 2,45 1,512 1,069 = 13,5 (razovel) 16

Considerando uma amostra de 9 pontos (n = 8): x: 6 8 10 12 14 f: 1 2 3 2 1 excluindo o ltimo ponto, temos: = 9,5 = 2,07 (1/n + 1) = 1,061 com =0,05: xd = 9,5 + 1,89 2,07 1,061 = 13,6 (baixo, menor que o ltimo ponto) com =0,025: xd = 9,5 + 2,36 2,07 1,061 = 14,7 (razovel) Constata-se que o mtodo do teste t, embora teoricamente fundamentado, nem sempre apresenta resultados condizentes com o bom senso. Nas amostras menores, os valores de xd so muito altos. Como vimos anteriormente, o limite discrepante inferior no deve ser menor que zero. Logo, sendo a distribuio simtrica, o limite discrepante superior no poder ser maior que o dobro do valor mdio da varivel. No primeiro exemplo analisado acima, a mdia dos 3 pontos 10. O valor mximo no deveria ultrapassar 20. Portanto o limite xd = 31, calculado pelo teste t, alto demais (um problema semelhante ocorre no mtodo de Grubbs, analisado no anexo 5). Nas amostras maiores o mtodo do teste t acusa, como discrepantes, pontos pertencentes amostra normal, o que um contra-senso. b) avaliao do mtodo proposto O mtodo proposto foi avaliado considerando os mesmos exemplos acima. Os valores de xd foram determinados usando a tabela 3. O inverso da tabela requer uso de tentativas; aumenta-se o valor do ltimo ponto de cada amostra at que seja atingido o limite zd. Foram obtidos os resultados abaixo. amostra de 3 pontos: 4 pontos: 8 pontos: 9 pontos: para zd = 1,121, para zd = 1,391, para zd = 1,822, para zd = 1,881, xd = 16,0 xd = 18,1 xd = 13,9 xd = 15,3 (razovel) (razovel) (razovel) (razovel)

V-se que o mtodo proposto no apresenta os problemas constatados no mtodo do teste t. Nas amostras menores, os limites so inferiores ao dobro do valor mdio da varivel. Nas amostras maiores, os limites esto acima dos valores mximos das amostras. c) justificativas do mtodo proposto Comparado com o mtodo do teste t, o mtodo proposto apresenta as seguintes vantagens: A hiptese adotada (de mdias diferentes) mais adequada para avaliar pontos discrepantes. Com grandezas por natureza positivas, o mtodo no aceita valores negativos ou muito altos (mais que o dobro) em relao mdia. O mtodo considera o aumento da amplitude da amostra com o tamanho da mesma. muito fcil de usar. O mtodo proposto tambm foi comparado com outros mtodos. As vantagens do mtodo proposto em relao aos mtodos de Chauvenet, de Grubbs e ao "box&whisker" ficam evidentes nos anexos 4, 5 e 6.

17

2.7 EXEMPLO Pretende-se adquirir um eletrodomstico com preo aproximado de R$ 1000,00. Neste nvel de custo, considera-se que uma diferena de R$ 20,00 no significativa (d = 20). Foram obtidos 3 preos: a) R$ 800,00, R$ 1000,00 e R$ 1700,00. O preo mais alto discrepante? Aplicando o mtodo proposto, temos: mdia = 1166,67 desvio padro = 472,58 diferena = 1700,00 - 1166,67 = 533,33 z = 533,33 / 472,58 = 1,128 da tabela 3, para N = 3, zd = 1,121 como z maior que zd, o ponto discrepante. A diferena maior que d, portanto significativa, confirmando que o ponto deve ser eliminado. Observao: Pelo mtodo proposto, o valor discrepante superior R$ 1600,00. No mtodo de Grubbs, o valor discrepante superior seria R$ 2810,00. Pelo teste t de Student (nvel =0,025) seria ainda mais alto, R$ 3100,00. Portanto, em ambos, o preo mais alto no seria considerado discrepante. Observao: O valor de z deve ser calculado, com preciso, at a terceira casa decimal. b) R$ 975,00, R$ 1000,00, R$ 1000,00. O preo mais baixo discrepante? Aplicando o mtodo proposto, temos: mdia = 991,67 desvio padro = 14,43 diferena = 991,67 - 975,00 = 16,67 z = 16,67 / 14,43 = 1,155 da tabela 3, para N = 3, zd = 1,121 como z maior que zd, o ponto discrepante. Porm a diferena menor que d; o ponto no deve ser eliminado. Observao: Quando uma amostra tem vrios valores iguais, qualquer ponto um pouco diferente tender a ser indicado como discrepante; neste caso, o critrio decisivo a diferena admissvel d.

ANEXOS RELATIVOS SEGUNDA PARTE ANEXO 3 Exemplos de clculo de x d pelo mtodo do teste t ANEXO 4 O critrio de Chauvenet ANEXO 5 Comparao com o mtodo de Grubbs ANEXO 6 O mtodo "box&whisker"

18

3 TERCEIRA PARTE: TAMANHO DA AMOSTRA Por Karl Grube e Gerhard Grube, Junho de 2012.

3.1 INTRODUO E RESUMO Em qualquer experimento, enfrenta-se o problema de determinar o tamanho da amostra ("sample size"). Quanto maior a amostra, mais preciso ser o resultado do experimento. Por outro lado, o custo de obteno da amostra aumenta. O mtodo indicado na literatura para determinar o tamanho da amostra, baseado na diferena entre a mdia da amostra e a mdia verdadeira, pode resultar em amostras muito grandes. Se o custo de obteno da amostra elevado, a amostragem pode se revelar invivel. Nesta terceira parte propomos um mtodo alternativo que indica tamanhos mais razoveis. No mtodo aqui proposto, limita-se o tamanho da amostra quando um ponto hipottico adicional, arbitrariamente alto, no pode alterar significativamente a mdia e esta fica praticamente estvel. Com este critrio, elaborou-se uma tabela, apresentada no Item 3.4, que permite determinar o tamanho da amostra, em funo da relao entre o desvio padro e a diferena admissvel. Sem deixar de ser confivel, o mtodo proposto resulta em tamanhos bem menores que o da literatura. Relativamente poucos pontos so suficientes para estabilizar a mdia. Deste modo, sendo altos os custos, a amostragem pode ser viabilizada. O mtodo foi verificado por simulao com amostras aleatrias extradas de uma distribuio normal (anexo 7). Um aspecto no considerado no mtodo da literatura que, aumentando o tamanho da amostra, a contribuio de cada ponto adicional para a preciso do resultado diminui, at atingir o ponto em que se torna desprezvel ou nula, ou seja, que existe um tamanho mximo para a amostra. Esta questo examinada no anexo 8.

3.2 MTODO DA LITERATURA Conforme a literatura, o tamanho N da amostra pode ser estabelecido se forem conhecidos, ao menos aproximadamente, o desvio padro da populao e o erro e (diferena entre a mdia da amostra e a mdia verdadeira). O tamanho da amostra aumenta com a relao /e. A literatura apresenta a seguinte equao: N = (z /e)^2 equao [8]

em que z = afastamento da mdia conforme o nvel de confiana desejado. Num exemplo didtico apresentado na Ref. 2 (pg. 201), para um nvel de confiana de 90% (z = 1,65), e = 1 e = 10, o tamanho requerido N = 273. Se os custos de amostragem forem elevados, um nmero to alto provavelmente representaria um problema intransponvel na realizao de um projeto.

19

3.3 DESENVOLVIMENTO DO MTODO PROPOSTO Aumentando-se o tamanho de uma amostra, cada ponto adicional tem uma influncia menor sobre o valor da mdia calculada. Por exemplo, o peso de um terceiro ponto no clculo da mdia 1/3, j de um dcimo ponto acrescentado amostra vai ser apenas 1/10, e assim por diante. As flutuaes da mdia calculada tendem a diminuir e a mdia tende a ficar estvel. Atingida certa estabilidade, h pouco benefcio em prosseguir com a amostragem. Este pode ser um critrio vlido para determinar o tamanho da amostra. Com relao a este tipo de abordagem, Pillar (Ref. 4, pg. 6) aponta o problema de que a percepo de estabilidade afetada pela seqncia real dos pontos (uma flutuao grande no incio d a impresso de estabilidade; j no final, a impresso inversa). No mtodo proposto este problema evitado, porque o tamanho da amostra definido somente pela diferena causada pelo ponto, no importando a sua posio; como se ver, o valor de N deduzido abaixo independe da ordem na qual o ponto extremo xd agregado amostra. a) Equao do tamanho da amostra A idia bsica do mtodo definir o tamanho da amostra quando um ponto hipottico adicional, arbitrariamente alto, no pode mais alterar significativamente a mdia. Com isto, garante-se que a mdia fica relativamente estvel. O tamanho N da amostra necessrio para que isto ocorra deduzido a seguir. Sejam a mdia e o desvio padro calculados para uma amostra de tamanho N. Seja xd um ponto extremo escolhido arbitrariamente, igual a xd = + z' sendo z' definido pelo nvel de confiana desejado. A nova mdia, incluindo o ponto adicional xd, ' = (N + + z' ) / (N+1) A alterao na mdia, causada pelo ponto adicional, no dever ser maior que d, a diferena admissvel em relao mdia calculada: '- d Substituindo e transformando, obtemos: N z' /d - 1 equao [9]

Verifica-se que o valor de N independe da ordem em que o ponto xd foi agregado amostra. Nesta expresso, o termo z' /d no elevado ao quadrado e resultar sempre em valores de N menores que a equao [8]. Para o exemplo citado no item 3.2 acima, o tamanho da amostra para d = 1, = 10, considerando z' = 2,58 (correspondente a um nvel de confiana de 99%), passa a ser N = 2,58 10 - 1 = 24,8 25 que um tamanho de amostra bem mais razovel. b) Intervalo de confiana da mdia medida que o tamanho da amostra aumenta, a diferena d atingida muito antes do erro e. Assim, com relativamente poucos pontos, j se obtm uma mdia estvel, com a qual se pode estimar a mdia verdadeira. 20

Para estimar a mdia verdadeira, define-se um erro e' com o novo tamanho da amostra, empregando a equao [8] transformada: e' = z / N. o intervalo de confiana da mdia verdadeira dado por = e' = z / N equao [10]

No exemplo em questo, para um nvel de confiana de 90% (z = 1,65) e N=25: e' = 1,65 10 / 25 = 3,3 A nova estimativa da mdia verdadeira , portanto = 3,3

Assim, aplicando o mtodo proposto, reduziu-se o tamanho da amostra de 273 para 25 pontos; por outro lado, o intervalo de confiana (90%) da mdia verdadeira 3,3 vezes maior. O intervalo de confiana maior o preo que se paga pela economia nos custos de amostragem. Entretanto, o importante que se pode ter uma elevada confiana (99%) de que o valor calculado da mdia no mudar por uma diferena maior que d. c) Efeito da amplitude da amostra O valor de N dado pela equao [9]. Explicitada para o valor de d/, a equao fica d/ = z' / (N+1) equao [11]

Rigorosamente, o valor a ser escolhido para z' na equao [11] no independente do tamanho da amostra. Tendo em vista que a amplitude de uma amostra aumenta com o tamanho da mesma, o valor de z' tambm deve aumentar. Verificou-se, pela simulao realizada (anexo 7), que um fator de correo necessrio para considerar este efeito. O fator de correo, determinado no anexo 7 (item a) : h = 1+ 0,001 N Escolhendo um nvel de confiana de 99% (z' = 2,58) e agregando o fator de correo, a equao final para o valor de d/ : d/ = 2,58/(N+1) (1 + 0,001 N) equao [12]

3.4 TAMANHO DA AMOSTRA MTODO PROPOSTO A tabela 4 abaixo apresenta os valores de d/ em funo do tamanho da amostra, determinados conforme a equao [12]. Com esta tabela, dado um valor de d/ , podese determinar o tamanho N da amostra.

21

TABELA 4 TAMANHO DA AMOSTRA MTODO PROPOSTO N d/ N d/ N d/ 1 1,29 12 0,201 35 0,074 2 0,862 14 0,174 40 0,065 3 0,647 16 0,154 45 0,059 4 0,518 18 0,138 50 0,053 5 0,432 20 0,125 55 0,049 6 0,371 22 0,115 60 0,045 7 0,325 24 0,106 65 0,042 8 0,289 26 0,098 70 0,039 9 0,260 28 0,091 75 0,036 10 0,237 30 0,086 80 0,034 N: nmero de pontos da amostra d/: diferena admissvel / desvio padro estimado

N 90 100 110 120 130 140 150 160 180 200

d/ 0,031 0,028 0,026 0,024 0,022 0,021 0,020 0,019 0,017 0,015

Numa planilha (Open Office, Excel 2010), o valor de d/ pode ser obtido mediante a expresso: =(2,58/(D13+1))*(1+ 0,001*D13) em que D13 a clula que contm N (nmero de pontos da amostra). Os valores da equao [12] esto representados pela linha amarela no grfico 4 a seguir. Para comparao, a linha reta em azul indica os valores pelo mtodo da literatura (para um nvel de confiana de 90%). Fica evidente a grande reduo nos tamanhos de amostra, proporcionada pelo mtodo proposto.

N: tamanho da amostra d/ : diferena admissvel / desvio padro estimado Obs: grfico log-log

22

3.5 APLICAO DO MTODO PROPOSTO Para aplicar o mtodo, deve-se ter uma estimativa da diferena admissvel e uma estimativa do desvio padro. Os tamanhos indicados na tabela 4 acima so os mnimos recomendados para tornar estvel a mdia calculada. Nada impede que sejam usadas amostras maiores, por exemplo, quando a populao amostrada heterognea, visando garantir que a amostra seja representativa. Aps realizar a amostragem com os N pontos da tabela 4, deve ser verificada a existncia de pontos discrepantes, conforme a segunda parte deste trabalho. Os pontos discrepantes devem ser eliminados e substitudos por outros, completando o tamanho N requerido. A mdia calculada a melhor estimativa da mdia verdadeira, cujo intervalo de confiana pode ser determinado conforme a equao [10] do item 3.3. Cabe aqui mencionar outro problema apontado por Pillar (Ref. 4, pg. 6), de que a preciso desejada pode ser atingida antes da mdia se tornar estvel (o que levaria a interromper a amostragem cedo demais). A observao no se aplica ao mtodo proposto, porque o tamanho N definido pela diferena mxima possvel, no pela real, que menor. Assim, mesmo que a relao d/ desejada j tenha sido atingida, deve-se prosseguir a amostragem at chegar ao valor N recomendado na tabela 4, quando a mdia fica estvel.

3.6 VERIFICAO DO MTODO PROPOSTO Para verificar o mtodo, foram realizadas simulaes de amostragens aleatrias de uma distribuio normal com mdia = 10 e desvio padro = 1. Foram obtidas quatro mil amostras para diversos valores de N. Os resultados so mostrados no anexo 7. Todos os valores de d/ obtidos nas simulaes encontram-se abaixo dos indicados na tabela 4 do item 3.4. Isto confirma que os tamanhos de amostra recomendados pelo mtodo proposto so adequados para os casos reais. O nvel de confiana do mtodo superior a 99%. Os valores medianos de d/ obtidos nas simulaes variam aproximadamente proporcionais a 1/N.

3.7 ESTIMATIVA DA RELAO d/ O tamanho da amostra deve ser determinado em funo da relao entre a diferena admissvel d e o desvio padro estimado da populao, . Em geral possvel obter uma estimativa razovel do desvio padro, analisando o comportamento esperado da varivel. Tendo-se uma idia da faixa de variao, podese admitir, grosso modo, que ela equivale a 5 ou 6 desvios padro. Aps realizar alguns testes (pelo menos trs), o valor do desvio padro poder ser recalculado, revisandose, se necessrio, o tamanho da amostra. A diferena admissvel d a maior diferena, na mdia calculada, que ainda no considerada significativa, face os objetivos da pesquisa. A sua estimativa pode ser bem difcil; preciso avaliar o efeito da diferena sobre os objetivos finais da pesquisa, que 23

muitas vezes no so bem conhecidos. Por exemplo, no desenvolvimento de um processo industrial, seria necessrio estimar o efeito da diferena admissvel sobre o resultado econmico do processo. Muitas vezes a nica sada considerar a diferena admissvel igual a um erro aceitvel no valor da varivel. No se deve escolher um erro pequeno demais. Erros menores que 1% so difceis de serem obtidos. Em pesquisa tecnolgica, s vezes se aceita erros de 10% ou mais. De qualquer modo, uma vez definida a diferena admissvel, o sistema de medio deve ser escolhido com a preciso adequada. O erro de medio deve ser bem menor que a diferena admissvel.

3.8 TAMANHO MXIMO DA AMOSTRA As relaes d/ diminuem com o tamanho da amostra, at se tornarem desprezveis ou nulas. Neste ponto, foi atingido um tamanho mximo razovel da amostra; no compensa acrescentar mais pontos. No anexo 8 apresentamos razes para afirmar que, quando os custos de amostragem so significativos, dificilmente se justificam amostras com mais de 30 pontos; outra concluso que no h interesse em amostras com mais de 200 pontos, mesmo que os custos de amostragem sejam muito baixos.

3.9 EXEMPLO Deseja-se pesquisar o preo de um equipamento industrial cujo valor, numa primeira estimativa, de R$ 150.000,00, com uma faixa de variao entre R$ 100.000,00 e R$ 200.000,00. Quantas propostas devero ser solicitadas? Em geral, neste tipo de pesquisa, os custos no so desprezveis; a elaborao e a anlise das propostas sempre exigem um tempo considervel. Portanto, deve-se procurar a quantidade mnima necessria. O desvio padro aproximado (200.000 - 100.000) / 5 = 20.000 A diferena admissvel d deve ser definida conforme o objetivo da pesquisa. Se, por exemplo, o objetivo for uma estimativa preliminar de custos, uma diferena de 10% do preo esperado aceitvel; portanto, d = 150.000 0,10 = 15.000 d/ = 15.000 / 20.000 = 0,75 Da Tabela 4, obtemos N = 3 Assim, para uma estimativa preliminar de custos, bastam trs propostas . Observao: Embora esta quantidade no seja grande, pode-se ter confiana que uma proposta adicional no ir alterar o valor mdio calculado por uma diferena maior que 15.000. Se o valor mdio calculado 150.000, uma diferena maior s poderia ser causada por uma proposta adicional maior que 210.000 ou menor que 90.000, portanto fora da faixa estimada da varivel. ANEXOS RELATIVOS TERCEIRA PARTE Anexo 7 Simulao de amostragens reais Anexo 8 Limites mximos para o tamanho da amostra 24

ANEXO 1 (da primeira parte) VERIFICAO COM ALGUMAS AMOSTRAS NORMAIS A equao para o desvio mximo foi verificada utilizando-se algumas amostras hipotticas aproximadamente normais. Para estas amostras foram calculados o desvio padro e o desvio mximo em relao mdia (tabela 5). Estes pontos foram locados no grfico 5 (quadrados verdes). Como esperado, os pontos situam-se em geral esquerda da curva terica. Na tabela 6 algumas destas amostras foram modificadas, deslocando alguns pontos para o centro, sem alterar a simetria. Com isto, as amostras passam a apresentar um pico mais alto que o normal e os pontos extremos tendem a ficar dis crepantes. Locados no grfico (tringulos roxos), verifica-se que se situam direita da curva de desvios mximos, conforme esperado.

N: nmero de pontos da amostra Z: afastamento = (x - ) / TABELA 5 AMOSTRAS APROXIMADAMENTE NORMAIS (mdia = 10,0)
N x / freq 2,000 1,633 1,414 2,098 2,582 1,852 1,225 2,309 2,191 2,256 2,160 2,066 1,865 2,272 1,234 2,656 1,417 3,003 z 1,00 1,22 1,41 1,43 1,55 1,62 1,63 1,73 1,83 1,77 1,85 1,94 2,14 2,20 2,43 2,64 2,82 3,00 3 8/1 10/1 12/1 4 8/1 10/2 12/1 5 8/1 10/3 12/1 6 7 /1 9/2 11/2 7 6/1 8/1 10/3 8 7 /1 9/3 11/3 9 8/1 9/2 10/3 10 6/1 8/2 10/4 11 6/1 8/2 10/5 12 6/1 8/3 10/4 13 6/1 8/3 10/5 16 6/1 8/4 10/6 24 6/1 8/6 10/10 32 5/1 7 /5 9/10 64 7 /1 8/6 9/15 128 3/1 5/7 7 /21 256 6/1 7 /8 8/28 512 1/1 3/9 5/36 N: nmero de pontos da amostra x / freq: valor / freqncia : desvio padro da amostra z: afastamento do maior ponto (desvio mximo)

13/1 12/1 13/1 11/2 12/2 12/2 12/3 12/3 12/4 12/6 11/10 10/20 9/35 9/56 7 /84

14/1 12/1 14/1 14/1 14/1 14/1 14/1 14/1 13/5 11/15 11/35 10/70 9/126

15/1 12/6 13/21 11/56 11/126

13/1 15/7 12/28 13/84

17 /1 13/8 15/36

14/1 17 /9

19/1

25

TABELA 6 AMOSTRAS MODIFICADAS (mdia = 10,0)


N x / freq 1,265 1,155 1,069 1,118 2,108 2,000 1,789 1,668 1,901 1,024 2,188 1,120 2,601 z 1,58 1,73 1,87 1,79 1,90 2,00 2,24 2,40 2,63 2,93 3,20 3,57 3,46 6 8/1 10/4 12/1 7 8/1 10/5 12/1 8 8/1 10/6 12/1 9 8/1 9/1 10/5 10 6/1 8/1 10/6 13 6/1 8/2 10/7 16 6/1 8/2 10/10 24 6/1 8/4 10/14 32 5/1 7 /2 9/13 64 7 /1 8/3 9/12 128 3/1 5/3 7 /15 256 6/1 7 /4 8/12 512 1/1 3/5 5/20 N: nmero de pontos da amostra x / freq: valor/ freqncia : desvio padro da amostra z: afastamento do maior ponto (desvio mximo)

11/1 12/1 12/2 12/2 12/4 11/13 10/32 9/45 9/60 7 /84

12/1 14/1 14/1 14/1 14/1 13/2 11/12 11/45 10/102 9/146

15/1 12/3 13/15 11/60 11/146

13/1 15/3 12/12 13/84

17 /1 13/4 15/20

14/1 17 /5

19/1

ANEXO 2 (da primeira parte) VERIFICAO COM AMOSTRAS ALEATRIAS Para uma verificao mais exaustiva obteve-se amostras aleatrias da distribuio normal (mdia 10, desvio padro 1), usando a funo =INV.NORM(ALEATRIO();10;1) da planilha Excel 2010. Foram obtidas dez mil amostras de cada tamanho para os seguintes tamanhos: 2, 3, 5, 10, 20, 100 e 1000. a) Os desvios mximos esperados foram estimados da seguinte maneira: Para um determinado valor de N, determinou-se: a mdia de cada uma das amostras o desvio padro da amostra a diferena entre o maior ponto da amostra e a mdia da amostra a diferena entre a mdia da amostra e o menor ponto selecionou-se a maior das duas diferenas acima dividiu-se a diferena selecionada pelo desvio padro da amostra A mediana dos dez mil resultados para cada tamanho foi locada no grfico 6 contra o valor de N (bolinhas azuis). Neste mesmo grfico, a linha azul representa os valores tericos. Os valores experimentais se situam prximos da linha terica. b) A amplitude tambm foi verificada, atravs da mesma srie, calculando a metade da diferena entre o maior ponto da amostra e o menor. A mdia dos dez mil resultados tambm foi locada no grfico 6. Os pontos desta srie (bolinhas pretas) se localizam em geral prximo linha terica (em preto); a maior diferena ocorre nas amostras de 2 pontos; nestas, os valores experimentais esto cerca de 0,1 acima do valor terico. Moroney (Ref. 5, pg. 155), publicou valores da amplitude para N de 2 at 10, sem indicar como foram obtidos. Estes esto representados no grfico pelos tringulos amarelos. A proximidade com as bolinhas pretas confirma o procedimento experimental aqui adotado.

26

N: nmero de pontos da amostra Z: afastamento= (x - ) /

ANEXO 3 (da segunda parte) EXEMPLOS DE CLCULOS PELO MTODO DO TESTE t Clculo dos valores de x d pelo mtodo do teste t de Student n g.l. (1/n + 1) t(=0,025) xd/ 2 1 1,2247 12,706 15,561 3 2 1,1547 4,303 4,969 4 3 1,1180 3,182 3,557 7 6 1,0690 2,447 2,616 8 7 1,0607 2,365 2,509 19 18 1,0260 2,101 2,156 41 40 1,0121 2,021 2,045 100 99 1,0050 1,987 1,997 n: nmero de pontos da amostra, menos um g.l.: graus de liberdade t(): valor do t de Student para o nvel de significncia xd/ = t (1/n + 1) t(=0,05) 6,314 2,920 2,353 1,943 1,895 1,734 1,684 1,663 xd/ 7,733 3,372 2,631 2,077 2,010 1,779 1,704 1,671

27

ANEXO 4 (da segunda parte) O CRITRIO DE CHAUVENET No Apndice D do livro de Vuolo (Ref. 3), apresentado o critrio de Chauvenet, na forma de uma tabela de limites discrepantes em funo do tamanho da amostra. Eles esto muito prximos dos limites determinados (para amostras maiores) nesta segunda parte. Chauvenet definiu como limites, intervalos simtricos da distribuio normal com a probabilidade p = 1 - 1/2 N Abaixo esto relacionados alguns dos limites constantes na Ref. 3 (a tabela s comea com N = 8), em comparao com os aqui obtidos: N Chauvenet Critrio 2 8 1,86 1,82 10 1,96 1,93 12 2,04 2,01 15 2,13 2,11 ...................... 200 3,02 3,02 500 3,29 3,29 1000 3,48 3,48 N: nmero de pontos da amostra A coincidncia notvel, considerando que no presente trabalho a probabilidade para o limite discrepante foi obtida por um raciocnio diferente, resultando tambm numa frmula bastante diferente: p = 0,6089^(1/n) onde n = N - 1

Para menos de 8 pontos, os limites de Chauvenet so amplos demais (talvez por esta razo, Vuolo os omitiu), apresentando problemas semelhantes aos encontrados no teste t de Student e no mtodo de Grubbs, analisado no anexo 5. O mtodo proposto, indicando limites mais adequados para os tamanhos menores, pode ser considerado uma complementao til do critrio de Chauvenet.

28

ANEXO 5 (da segunda parte) COMPARAO COM O MTODO DE GRUBBS a) comparao entre os limites Um mtodo bastante divulgado na literatura foi desenvolvido por Grubbs. Esse autor apresenta, na Ref. 6, os procedimentos que devem ser seguidos para a identificao de pontos discrepantes. Analisaremos aqui os limites recomendados na pg. 4. Estes limites so apresentados na forma de tabela em funo de N, dos quais reproduzimos, abaixo, apenas os pontos iniciais. Para comparao, colocamos os limites desenvolvidos no presente trabalho. Os dados mais completos esto representados no grfico 7, a seguir. TABELA 7 LIMITES DISCREPANTES (COMPARAO COM GRUBBS) N Limites de Grubbs Mtodo 1% 2,5% 5% Proposto 3 1,15 1,15 1,15 1,121 4 1,49 1,48 1,46 1,391 5 1,75 1,71 1,67 1,565 6 1,94 1,89 1,82 1,672 7 2,10 2,02 1,94 1,754 N: nmero de pontos da amostra

N: nmero de pontos da amostra Z: afastamento, (x - ) / %: nvel de significncia Observa-se de imediato, que todos os limites de Grubbs so bem mais altos que os encontrados aqui (a proximidade para as amostras menores s aparente; como s e ver adiante, uma pequena diferena entre os limites implica, na realidade, em uma grande diferena nos valores discrepantes). Conseqentemente, os limites de Grubbs tendem a acusar menos pontos discrepantes. Uma simulao mostrou que o critrio de Grubbs (nvel 5%) rejeita menos de 1/3 dos pontos rejeitados pelo mtodo proposto. 29

Tendo em vista que as curvas so semelhantes, a razo poderia estar nos nveis de confiana adotados. No mtodo proposto, os limites so bastante restritivos, porque um foco principal do mtodo o tratamento adequado de grandezas que, por natureza, s podem ser positivas. Os limites restritivos diminuem a probabilidade de aceitar valores negativos, principalmente nas amostras menores. b) comparao entre os valores discrepantes A diferena entre os dois mtodos fica mais evidente quando se calcula os valores discrepantes xd decorrentes dos respectivos limites. Para isto, recorremos a algumas das amostras aproximadamente normais utilizadas na primeira parte deste trabalho (anexo 1, tabela 5). Todas as amostras apresentam um valor mdio igual a 10, com desvios padro variando entre 1,41 e 2,58. Com os limites da tabela acima, foram determinados (por tentativas) os valores discrepantes x d. Os resultados constam na tabela a seguir. TABELA 8 VALORES DISCREPANTES (COMPARAO COM GRUBBS) N Valores Discrepantes Inferiores Valores Discrepantes Superiores Grubbs Mtodo Grubbs Mtodo 1% 2,5% 5% Proposto 1% 2,5% 5% Proposto 3 -8,1 -8,1 -8,1 4,0 28,1 28,1 28,1 16,0 4 -5,6 -0,8 2,7 6,0 25,6 20,8 17,3 14,0 5 1,4 4,2 5,5 7,0 18,6 15,8 14,5 13,0 6 -0,6 1,6 3,4 5,4 20,6 18,4 16,6 14,6 7 -1,6 0,9 2,4 4,6 21,6 19,1 17,6 15,4 N: nmero de pontos da amostra Conforme observado acima, v-se que, para N = 3, a diferena entre o limite de Grubbs e o do mtodo proposto (1,15 contra 1,121, tabela 7), aparentemente pequena, resulta numa diferena muito grande nos valores discrepantes superiores (28,1 contra 16,0, tabela 8). Se a grandeza em questo positiva, so inadmissveis valores negativos e, por simetria, os valores maiores que 20. Constata-se que os limites de Grubbs resultam, em alguns casos, em valores discrepantes negativos e outros maiores que 20. preciso ressaltar que, numa distribuio normal, valores negativos s podem ocorrer, com probabilidade significativa, se o coeficiente de disperso (/) for maior que 1/3. Como nas amostras analisadas os coeficientes de disperso esto entre 0,141 e 0,258, os valores discrepantes negativos no se justificam. Os limites de Grubbs so amplos demais. Pelo mtodo proposto, nas amostras analisadas, nenhum valor discrepante negativo ou maior que 20 (tabela 8). A maioria das variveis com que se lida em engenharia so grandezas positivas; valores negativos so impossveis. Somos da opinio que um mtodo para identificao de pontos discrepantes s ter aplicao geral se considerar adequadamente este fato. c) utilizao da transformao log-normal Poderia ser contraposto, ao que foi dito acima, que os limites negativos sempre podero ser evitados transformando-se a distribuio amostral em uma distribuio 30

log-normal. Nesta transformao (que, rigorosamente, s deveria ser usada para tornar normais algumas distribuies assimtricas), os valores da varivel so substitudos pelos seus logaritmos. Demonstraremos a seguir que, quando os limites so muito amplos, este recurso no satisfatrio. Tomamos como exemplo a amostra de 3 pontos do anexo 1, tabela 5: x1=8, x2=10, x3=12 Analisemos, inicialmente, os efeitos da transformao sobre os limites de Grubbs. Para esta amostra, os valores discrepantes (sem transformao) conforme Grubbs constam da tabela 8 acima. O valor superior 28,1 e o inferior negativo, -8,1. A transformao feita substituindo os valores de x da amostra pelos seus logaritmos; obtemos: x1=2,0794, x2=2,3026, x3=2,4849 para achar o valor discrepante superior, so necessrias tentativas. Aumenta -se o valor de x3 at atingir o limite discrepante especificado (1,15, segundo Grubbs). obtm-se xd=4,33 de modo semelhante, o valor discrepante inferior encontrado diminuindo-se o valor de x1 at atingir o limite. obtm-se xd=0,65 operando a transformao inversa (antilog xd), obtm-se os valores discrepantes: superior: 75,9 inferior: 1,9 Vemos que a transformao log-normal eliminou o valor negativo, mas os resultados no so razoveis. O valor discrepante inferior deixou de ser negativo, mas ainda muito baixo. O valor discrepante superior ficou desproporcionalmente alto. A transformao log-normal no resolve os problemas causados pelos limites muito amplos de Grubbs. Com o mtodo proposto, no ocorrem estes problemas. Sem transformao, os valores discrepantes j so positivos (superior: 16,0, inferior: 4,0, tabela 8). Transformando a amostra, o limite do mtodo proposto (1,121) resulta nos valores discrepantes transformados: superior xd=2,97 inferior xd=1,75 a transformao inversa d os valores discrepantes: superior: 19,5 inferior: 5,8 V-se que, mesmo aplicando a transformao, os valores discrepantes pelo mtodo proposto continuam perfeitamente razoveis.

31

ANEXO 6 (da segunda parte) O MTODO "BOX&WHISKER" Este mtodo mencionado na Ref. 7. Consiste na elaborao e avaliao de um grfico, onde se destacam a mediana, os quartis e os pontos mais afastados. Usa-se a mediana (em vez da mdia) e a distncia interquartlica (em vez do desvio padro), para evitar a influncia dos pontos extremos. Isto tornaria o mtodo "robusto", no sendo necessrio, para a anlise, excluir os pontos discrepantes. So estabelecidos dois limites: Ponto discrepante: xd = md 1,5 deq Ponto muito discrepante: xd = md 3,0 deq Onde md o valor da mediana e deq a distncia interquartlica. Pela curva normal, os quartis distam da mdia em 0,674 . Portanto, a distncia interquartlica equivale a 2 0,674 = 1,346 . Os limites so, ento: xd = xd = 1,5 1,346 = 3,0 1,346 = 2,02 (discrepante) 4,04 (muito discrepante)

Estes limites so estabelecidos sem qualquer referncia ao tamanho da amostra. Conforme enfatizado no presente trabalho, a amplitude de uma amostra normal aumenta com o tamanho da amostra. A amplitude aumenta indefinidamente. Por exemplo, o valor de 2,02, considerado "discrepante" no mtodo box&whisker, j atingido em uma amostra normal de 17 pontos. A partir deste tamanho, todas as amostras normais conteriam pontos "discrepantes". Evidentemente, incorreto estabelecer como limite um determinado afastamento da mdia, sem considerar o tamanho da amostra. O mtodo box&whisker apenas indica que um determinado valor est relativamente longe da mdia. Isso no suficiente; o ponto s dever ser considerado discrepante se o seu afastamento no for justificado pelo tamanho da amostra. O mtodo tambm no sempre "robusto" como pretende ser. Em amostras pequenas (menos de seis pontos), os quartis so influenciados pelo ponto discrepante e o mtodo d resultados evidentemente falsos. Por exemplo, considerando uma amostra hipottica de 4 pontos: x1 = 8 x2 = 10 x3 = 12 x4 = 24 O valor do ponto x4, sendo o dobro do ponto x3, obviamente discrepante. Aplicando o mtodo, obtemos: md = (10 + 12) / 2 = 11 quartil superior = (12 + 24) / 2 = 18 quartil inferior = (8 + 10) / 2 = 9 deq = 18 - 9 = 9 xd = md+ 1,5 deq= 11 + 1,5 9 = 24,5 Como xd > x4, o mtodo box&whisker falhou em identificar o ponto x 4 como discrepante. 32

O mtodo proposto, aplicado ao mesmo exemplo, identifica corretamente o ponto x4: mdia = 13,5 desvio padro = 7,188 diferena = 24-13,5 = 10,5 z = (24-13,5) / 7,188 = 1,461 da tabela 3, para N=4, obtm-se zd = 1,391 como z maior que zd, o ponto x4 discrepante. Pelo exposto, o mtodo box&whisker no serve para identificar pontos discrepantes. Apenas chama a ateno sobre os pontos muito afastados da mdia.

ANEXO 7 (da terceira parte) SIMULAO DE AMOSTRAGENS REAIS Foi simulada a obteno de amostras aleatrias da distribuio normal, com mdia 10 e desvio padro 1, usando a funo =INV.NORM(ALEATRIO();10;1) da planilha Excel 2010. Foram obtidas quatro mil amostras de cada tamanho, sem pontos discrepantes. Calcularam-se as mdias sucessivas; a diferena entre as mdias foi dividida pelo desvio padro calculado com a amostra. Para cada tamanho de amostra foram determinados os valores de d/ correspondentes a 50% (mediana) e a 100% (totalidade) dos pontos. O resultado mostrado na tabela a seguir.

N 1 2 3 4 5 6 7 8 9 14 19 24 29 39 49 99 199

100% 0,7071 0,5603 0,463 0,3905 0,3339 0,2916 0,2583 0,234 0,2137 0,1494 0,1167 0,0961 0,0805 0,0632 0,052 0,0274 0,0147

50% 0,7071 0,4609 0,2725 0,1976 0,1548 0,1311 0,1055 0,0936 0,0817 0,0529 0,0372 0,0286 0,0246 0,0183 0,0142 0,007 0,0035

No grfico 8 abaixo esto indicados os valores da mediana (bolinhas azul claro) e da totalidade dos pontos (bolinhas brancas). Os valores experimentais convergem para o 33

valor 0,7071 em N=1, porque as estimativas da mdia e do desvio padro no so independentes. O tamanho da amostra conforme a equao [12] tambm consta neste grfico como uma linha amarela. Pode-se observar que todos os resultados experimentais ficam abaixo desta linha. Assim, a simulao confirma que os tamanhos indicados so adequados para os casos reais. a)determinao do fator de correo h Para considerar o efeito do tamanho da amostra sobre z' na equao [11], necessrio ajustar a equao aos dados experimentais. O fator de correo ser determinado considerando que os trs ltimos valores da tabela acima (coluna 100%) so um pouco mais altos que os calculados com a equao [11]. Selecionando o valor experimental de d/ correspondente a N=99, c om z' = 2,58, o fator de correo da equao h = experimental / terico = 0,0274 / (2,58 / (99 + 1)) = 1,062 colocando em funo linear de N: h = 1 + 0,062 N / 99 = 1 + 0,00063 N 1 + 0,001 N Com este fator de correo, os valores da equao [12] e tabela 4 ficam acima de todos os valores experimentais. Portanto, o nvel de confiana do mtodo superior a 99%. b) relao entre os valores de d/ e o tamanho da amostra Os valores experimentais medianos so representativos da evoluo mdia esperada dos valores de d/ com o tamanho da amostra. Pa ra os valores maiores de N, foi ajustada uma reta (em azul, no grfico 8), correspondente equao emprica d/ = 0,7 / N equao [13]

Em mdia, os valores de d/ variam inversamente proporcionais ao tamanho da amostra. Esta equao utilizada no anexo 8, para estimar o limite mximo do tamanho da amostra.

34

d/: diferena admissvel / desvio padro estimado N: nmero de pontos da amostra Obs: grfico log-log

ANEXO 8 (da terceira parte) LIMITES MXIMOS PARA O TAMANHO DA AMOSTRA Conforme visto na terceira parte, a relao d/ e, conseqentemente, a contribuio de cada ponto adicional para a preciso do resultado, diminui medida que o tamanho da amostra aumenta. Quando se torna desprezvel ou nula, no h vantagem em aumentar o nmero de pontos. Foi atingido um limite mximo razovel para o tamanho da amostra. a) mximo quando os custos so significativos Quando os custos de amostragem so significativos, somente devem adicionados pontos amostra enquanto a contribuio dos mesmos para a melhoria da preciso for importante. No incio, o efeito de N sobre a preciso muito acentuado, mas diminui rapidamente medida que N aumenta. Conforme a tabela 4 do item 3.4, a diferena (d/) varia entre 1,29 (para N=1) e 0,015 (para N=200). Portanto, a maior reduo possvel na diferena 1,29 - 0,015 = 1,275. Verifica-se que uma grande parte desta reduo j alcanada com amostras relativamente pequenas. Com 30 pontos a diferena 0,086; logo,a reduo 1,29 - 0,086 = 1,204, ou cerca de 94% da reduo possvel (neste raciocnio, estamos admitindo que o tamanho mximo da amostra 200). Enquanto com 30 pontos se atingiu 94% da reduo possvel, para os 6% restantes seriam necessrios mais 170 pontos. V-se que a melhoria na preciso dificilmente justificaria os custos adicionais. Portanto, quando os custos de amostragem so significativos, um limite razovel para o tamanho da amostra de 30 pontos.

35

b) mximo quando os custos no so significativos Veremos a seguir que, mesmo quando os custos so baixos, h tambm um limite, a partir do qual a melhoria na preciso se torna desprezvel. Exatido de medies Uma informao importante, relativa exatido que pode ser alcanada em medies, encontramos em Vuolo (Ref. 3, pg. 68). Como regra, quando se expressa a mdia de uma srie de medies, o resultado deve ser acrescido da incerteza padro (desvio padro da mdia), que deve ser indicada com 2 algarismos significativos, se o primeiro algarismo for 1 ou 2. Mais de 2 algarismos significativos no tem utilidade prtica, porque raramente se consegue uma exatido maior. Se o primeiro algarismo for 2, uma unidade no segundo algarismo representa 5% do valor da incerteza padro. Portanto, o limite do erro no desvio padro da mdia 5%. Esse autor tambm enfatiza que, ao expressar um resultado na forma = mdia incerteza, os algarismos significativos devem ser consistentes, prevalecendo a preciso do valor menos exato. Por exemplo, para expressar corretamente um resultado tal como: = 10,02 1,0 o algarismo 2 no consistente e deve ser ignorado. Conseqncia para o tamanho da amostra Como as informaes acima podem ser usadas para estabelecer um limite? Sabemos que a diferena entre as mdias diminui com o tamanho da amostra, aproximadamente proporcional a 1/N. Atingido o ponto em que esta diferena menor que 5% do desvio padro da mdia, deve prevalecer a preciso deste ltimo. O erro no desvio padro da mdia igual a /N. Ento, a partir deste ponto, as diferenas diminuem proporcionalmente a 1/N. Este ponto pode ser determinado como segue. O desvio padro da mdia (com =1) m = 1 / N Pelas simulaes realizadas (equao [13], anexo 7), a mediana das diferenas obtidas corresponde relao emprica ( = 1): d = 0,7 / N Se a diferena igual a 5% do desvio padro da mdia, pode-se escrever 0,7 / N = 0,05 / (N^0,5) Donde se obtm N = 196 A partir deste tamanho, as redues nas diferenas, que antes eram proporcionais a 1/N, passam a ser proporcionais a 1 / N. O efeito do tamanho da amostra muito menor e a melhoria na preciso se torna desprezvel. Conclui-se que, mesmo se os custos de amostragem forem baixos, no h interesse em obter amostras com mais de aproximadamente 200 pontos. c) mximo absoluto A existncia de um mximo absoluto tambm apontada por Vuolo (Ref. 3, pg . 110). A incerteza padro (desvio padro da mdia) apresenta dois componentes: a incerteza estatstica e a incerteza sistemtica residual. A incerteza sistemtica residual resulta do fato que no possvel eliminar completamente os erros sistemticos de uma medio. A incerteza estatstica pode ser diminuda aumentando-se o nmero de medies. 36

A incerteza sistemtica no varia. Assim, para um nmero muito grande de pontos, a incerteza estatstica fica menor que a incerteza sistemtica residual e esta ltima estabelece um limite final para a exatido do resultado. Foi atingido o ponto em que totalmente intil aumentar o tamanho da amostra. A equao [12] do mtodo proposto coerente com este fato. Para valores muito grandes de N, o valor calculado de d/ tende a ficar constante. J no mtodo da literatura, conforme a equao [8], o erro poderia ser reduzido infinitamente.

REFERNCIAS

1) Ullmanns "Encyklopdie der Technischen Chemie", vol. 2/1. Urban&Schwarzenberg. Mnchen, 1961. 2) Stevenson, W. J. "Estatstica Aplicada Administrao" HARBRA. So Paulo, 1981 3) Vuolo, J. H. "Fundamentos da Teoria de Erros" Edgar Blcher, So Paulo, 1996 4) Pillar, V.D. "Suficincia Amostral" Departamento de Ecologia da Universidade Federal do Rio Grande do Sul Porto Alegre, 1999 5) Moroney, M. J. "Facts from Figures". Penguin Books, Harmondsworth, Middlesex, 1951 6) Grubbs, E. F. "Procedures for Detecting Outlying Observations in Samples" Technometrics, Vol. 11, No. 1 (Feb. 1969). American Statistical Association. 7) Petrobrs SEREC/CEN-SUD, "Curso de Estatstica Bsica", Parte 1. Rio de Janeiro, 1992

No presente trabalho foram usados a planilha Microsoft Excel 2010 e o desenhador de grficos Graph, verso 4.4.2, http://www.padowan.dk/

37