Distribuio binomial
s variveis aleatrias qualitativas ou categricas podem ser variveis em que somente dois eventos ou resultados so possveis (variveis dicotmicas ou binrias) e variveis nas quais h mais de dois eventos ou resultados possveis (variveis politmicas). A distribuio binomial descreve o comportamento de uma varivel dicotmica em amostras aleatrias. O sexo, o tipo Rh, ser saudvel ou doente so exemplos de variveis dicotmicas. Os dois estados (resultados, eventos ou categorias) possveis para a varivel dicotmica so muitas vezes denominados sucesso (indicado por 5) e fracasso ou falha (F), o que provavelmente se deve aos primeiros estudos feitos sobre probabilidades, que envolviam ganhos e perdas em jogos de azar. Em geral, considera-se como sucesso o resultado de interesse do pesquisador, nem sempre representando, este resultado, um sucesso social'ou biolgico. Costuma-se denominar P a probabilidade verdadeira do sucessol e Q a do fracasso. Sabe-se ento que P + Q = 1, portanto, Q = 1 - P.
A distribuio binomial utilizada para determinar a probabilidade de que certa proporo de sucessos seja observada em um grupo de indivduos. Por exemplo, imagine que, em determinada populao, 30% das pessoas tm alergia respiratria. Como o interesse estudar este tipo de alergia, considera-se "ser alrgico" como o sucesso (5). Neste caso, P = 0,3. O fracasso ou falha (F) ser representado pela situao "no ser alrgico" e Q = 0,7. Algumas perguntas podem agora ser respondidas:
1 A letra P usada tanto para indicar a proporo de sucessos em uma populao quanto o nivel critico amostral associado a um teste estatistico (na verdade no h conflito. pois ambos so probabilidades). Por isso, mesmo correndo o risco de dificultar um pouco as coisas para o leitor. preferiu-se manter esta simbologia por ser a mais comum na literatura, na esperana de que o contexto, na qual est sendo usado, seja suficientemente claro para no deixar dvidas sobre o significado do smbolo.
=P
te este tipo de alergia? Para responder a esta pergunta, necessrio considerar todas as possibilidades em que um dos dois alrgico e o outro, no. Tais possibilidades so duas: ou J alrgico e L, no; ou L alrgico e J, no. A probabilidade de J ser alrgico, como vimos, 0,3 e o mesmo vale para L.A probabilidade de que um dos dois seja alrgico obtida combinado-se as regras da soma e da multiplicao:
Pr [(J ser alrgico e L no ser) ou (J no ser alrgico e L ser)]
Pr [(SeF) Pr
=
(FeS)]
0,42.
Este raciocnio usado tambm para um nmero maior de pessoas, como se v nas respostas s prximas perguntas.
Pergunta 3. Qual a probabilidade de que duas pessoas dentre trs apresentem
alergia respiratria?
Pr (2 pessoas dentre 3 serem alrgicas) Pr (2 sucessos e um fracasso em 3) =
Pr (SSF + SFS + FSS) Pr (2 pessoas dentre 3
=
PPQ
PQP
QPP
sejam alrgicas)
Note que 3 o nmero de combinaes de 2 pessoas alrgicas e 1 no-alrgica em um grupo de trs pessoas.
Pergunta 4. Qual a probabilidade
sejam alrgicas?
Pr
=
=
Pr (2 sucessos e 2 fracassos em 4)
Pr (SSFF
Nota:
Ci o nmero
Ci (PPQQ)
Ci p2 Q2.
Chamando de x o nmero de sucessos e de n o nmero de indivduos envolvidos na amostra, v-se que a probabilidade de x sucessos em n indivduos ser:
OBSERVAO:
= 4(3)(2)(1) = 24.
Esta frmula permite calcular a probabilidade de x sucessos em n observaes sem haver a necessidade de enumerar todas as combinaes possveis.
= 2 em
em
n=6)
=~
4!2!
= 6x5x4x3x2xl
(4x3x2xl)(2xl)"
(O 008)(0 49)
= 15(0004) = O 060.
, ,
O mesmo resultado pode tambm ser obtido da tabela da distribuio binomia I (Tabela A.5), bastando informar corretamente n, x e P. Na distribuio binomial, enquanto x a varivel, n e P so os parmetros, pois as probabilidades para qualquer distribuio binomial ficam claramente definidas com apenas estas duas ltimas informaes. A regra da soma pode ser combinada com os resultados da tabela da binomiai para resolver certas questes, como a que segue.
Pergunta 6. Se em determinada populao, 30% das pessoas tm alergia respiratria, qual a probabilidade de que, em um grupo de 6 pessoas, no mximo 2 sejam alrgicas? A resposta a esta pergunta envolve uma soma de probabilidades, que podem ser obtidas da Tabela A.5:
Pr (x::::; 2
em
(x=2)
nmero de sucessos (x) ou indivduos com a caracterstica de interesse em uma amostra de tamanho n pode ser expresso tambm como a proporo (p) de sucessos na amostra:
O
x/no
Tanto o nmero (x) quanto a proporo de sucessos (p) esto sujeitos variao amostra!. A distribuio que descreve esta variao a distribuio binomia!. Suponha, por exemplo, que vrias amostras de 10 indivduos so retiradas ao acaso de uma populao em que a freqncia de indivduos alrgicos P=50%. Que proporo de indivduos alrgicos (p) pode ser observada em uma amostra? Uma possibilidade a obteno de uma amostra com nenhum alrgico (ento x = O em n = 10 e p = O), ou, ento, uma amostra com 1 alrgico e 9 noalrgicos (x = 1, n = 10, P = 0,1), ou ainda com 2 alrgicos e 8 no-alrgicos (x = 2, n = 10, P = 0,2) e assim sucessivamente. Na Tabela 14.1 esto indicadas todas as possibilidades para amostras de tamanho 10. Qual seria, agora, a ocorrncia relativa dessas amostras considerando-se o total de amostras possveis de 10 pessoas, ou seja, qual a freqncia relativa de
TABELA 14.1 Amostras de 10 elementos dos individuos so alrgicos (P = 0,5) Tipo de amostra Alrgicos
(x)
obtidas aleatoriamente
de uma populao
na qual 50%
No-alrgicos 10 9 8 7 6 5 4
(n-x)
fr de cada tipo de amostra 0,001 0,010 0,044 0,117 0,205 0,246 0,205 0,117 0,044 0,010 0,001 1,000
o
1 2 3 4 5 6 7 8 9 10
O
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
3
2 1
0,3 0,25 0,2 fr 0,15 0,1 0,05 FIGURA 14.1 Grfico de bastes que representa a freqncia com que ocorrem di~rentes propores de sucessos em amostras de tamanho 10, obtidas de uma populao na qual P 0,5.
0,1 0,2
0,30,4
P - proporo na amostra
sobre as propores. Para decidir se uma amostra suficientemente grande para que o uso da distribuio normal seja adequado, aplica-se a seguinte regra: ''A distribuio normal aceita como uma aproximao binomial sempre que nP > 5 e tambm nQ > 5". A mdia
(J.1p)
CJI'
= ~ Pn
Na Figura 14.2 est esquematizada a DAP para amostras de 100 elementos, obtidas de uma populao em que a proporo de alrgicos P = 0,5. O erropadro dessa distribuio :
CJ ,
1
=~
P =
n
Neste caso, pode-se usar a distribuio normal como uma aproximao, pois
nP = 100(0,5) = 50 >5 e tambm nQ = 100(0,5) =50 >5. Com base nas proprie-
dades conhecidas dessa curva, pode-se estimar que cerca de 68% das amostras mostraro valores de p entre 0,45 e 0,55 (P CJp) e que aproximadamente 95% das amostras possveis tero valores de p dentro do intervalo P 1,96CJp' isto , entre 0,40 e 0,60. Tal aproximao da DAP curva normal permite realizar testes de hipteses com propores, de forma semelhante usada para mdias.
FIGURA 14.2 Distribuio amostrai de propores observadas em amostras aleatrias de 100 indivduos, obtidas de uma populao onde P = 0,5.
124
Sidia M. CaLlegari-Jacques
COMPARAO ENTRE AS PROPORES DE DUAS POPULAES DESCONHECE UMA DELAS (TESTE PARA UMA PROPORO)
QUANDO SE
o raciocnio feito em um teste para uma proporo idntico ao utilizado no teste para uma mdia. Portanto, pode-se ir diretamente a um exemplo. Exemplo 1. Flores e colaboradores (1994) testaram a capacidade preditiva de quiromantes do seguinte modo: apresentaram a quatro deles 26 fotocpias de impresses digitais e palmares, das quais 13 eram de pessoas que haviam falecido por leucemia linfoctica aguda. Foi solicitado aos quiromantes que identificassem as impresses de individuos sos e de individuos portadores de "uma doena muito grave". Os dados dos quatro quiromantes foram reunidos porque no se observou diferena estatisticamente significativa (valor-P > 0,20) entre eles quanto ao nmero de acertos. Quarenta e cinco das 80 respostas fomecidas estavam corretas. A proporo esperada de acertos ao acaso a mesma que se deve esperar usando para a deciso o lanamento de uma moeda: 0,5. O que se pode concluir, ento, sobre a capacidade preditiva destes quiromantes?
(1) Elaborao das hipteses estatsticas
Ho: PA = Po = 0,5 (isto , a proporo de acertos dos quiromantes igual
*- Po
Escolha do nvel de significncia ex = 0,05 (3) Determinao do valor crtico Z005 = 1,96 (4) Determinao do valor calculado do teste2
(2)
_ Jp-~II-C
L.C{I/C -
~o
~
' onde
n
p
a proporo de sucessos na amostra P o a proporo na populao tomada como referncia e Qo = 1 - P o C = 1/(2n) uma correo que aproxima melhor a DAP da curva normal.
=
,,,Ic
_1,0631-
0,056
'
(5) (6)
Deciso: Concluso: A proporo de acertos obtidos pelos quiromantes no difere da proporo de acertos esperados ao acaso. Concluram corretamente os autores que "no h indcios de que a quiromancia sirva para prever o futuro dos indivduos" (ex = 0,05).
Antes do clculo, necessrio verificar se nP e nO so maiores do que 5. Aqui, P = PO' Como nPo = 80 x 0,5 = 40 e nOo = 40, pode-se usar a distribuio normal como uma aproximao binomial.
OBSERVAO:
Note que aqui poderia ter sido feito um teste unilateral, j que a quiromancia ser til somente se acertar mais do que o previsto ao acaso. Mesmo usando um teste unilateral, no entanto, a concluso a mesma, j que Zcalc = 1,018 menor do que o valor unilateral crtico para a = 0,05 (zO,OS unilateral == 1,64).
Um problema diferente do anteriormente visto o enfrentado quando se obtm certa proporo em uma amostra e se deseja estimar a proporo verdadeira na populao. Exemplo 2. O maric (Mimosa bimucronata), leguminosa arbustiva nativa e comum no Sul do Brasil, apresenta sementes com dificuldade de germinao. Como a literatura informa que as condies de armazenamento das sementes podem modificar a germinabilidade nas leguminosas, aumentando-a em algumas espcies e diminuindo-a em outras, desejou-se avaliar a percentagem de germinao em sementes de maric armazenadas de diferentes modos. Um dos experimentos consistiu em armazenar 150 sementes durante um ano, em condies de temperatura e umidade ambientais (Ferreira e Callegari-Jacques, 1980). No ensaio de germinao, 93 das sementes germinaram, o que corresponde a uma proporo de 0,62. arriscado, no entanto, concluir que se as sementes do maric forem armazenadas nas condies descritas, 62% delas vo germinar, pois tal informao provm de uma amostra e est, portanto, sujeita ao erro aleatrio. Para estimar a taxa de germinao verdadeira, utiliza-se um procedimento semelhante ao visto para a estimao da mdia, podendo-se usar as frmulas abaixo desde que a proporo amostral p seja um valor entre 0,3 e 0,7:
fi
inferior superior
=P=
za EPp
fi
+ za EPp + C, onde
p proporo de sucessos na amostra; za o valor de Z correspondente ao intervalo de confiana desejado (por exemplo zo,os = 1,96);
E~, = -J pq / n q C
= =
1- p; 1I(2n).
=
No Exemplo 2,p
e C
0,38, E~,
1/(2 x 150)
0,003.
Os limites para o intervalo de 95% de confiana OC9S%) para a proporo verdadeira de sementes que germinam, tendo sido armazenadas nas condies descritas, so:
fi
inferior superior :
= =
0,539
=
fi
+ 1,96(0,040) + 0,003
0,701
lC9S%
(0,54; 0,70).
Preferindo-se apresentar o resultado como percentagem, basta multiplicar esses valores por 100. Nesse caso, o intervalo de 0,95 de confiana para a percen-
(2np+z- , -1)-z
1 z-, -(2+-)+4p(nq+l) n
2(n
+ Z2)
,
. ~lIpcri(}r
2(
n+z
2)
onde z o valor crtico para a confiana desejada. Exemplo 3. Ojornal Correio do Povo publicou, em 1 de junho de 1994, que o plen do ligustro estava provocando reaes alrgicas (conjuntivite, asma e rinite) nos habitantes de Santo ngelo, RS. O ligustro (Ligustrum japonicum) uma rvore ornamental comum naquela localidade. O Dr. E. Ferreira realizou tes. tes cutneos em 100 pessoas desta cidade e 8 delas apresentaram reaes alrgicas ao plen dessa planta. Como deve ser expressa a percentagem (populacional) de pessoas alrgicas ao ligustro? Como a proporo observada de afetados (p = 0,08) est fora dos limites 0,30 a 0,70, as frmulas mais simples no podem ser empregadas. O intervalo de 95% de confiana para P, ento, dever ser obtido do seguinte modo:
,
P;/!leriOr =
(2x100xO,08+1.96-
-1)-1,96
,1
,
P;"ferM
18,84-11,02 207,68
0,038 ]
fi
,,,pcrlOr
fi
"'/''rIor
= (16+3,84+1)+
Pode-se ento dizer, com 95% de confiana, que a percentagem verdadeira de pessoas alrgicas ao plen do ligustro, em Santo ngelo, um valor entre 4% e 16%.
OBSERVAES:
(1) Note que o intervalo de confiana encontrado para P assimtrico ao redor de 8%, como se espera que sejam os intervalos para percentagens prximas de 0% ou 100%. (2) O intervalo obtido tem uma preciso que pode ser considerada baixa (o intervalo muito amplo). A soluo para se obter uma estimativa mais precisa, com a mesma confiana, aumentar o tamanho da amostra estudada.
Quando se deseja comparar as propores de determinado sucesso em duas amostras independentes, h dois testes estatsticos aplicveis: o teste z e o teste quiquadrado. O ltimo o mais popular, mas deve ser aplicado s freqncias absolutas. O teste do qui-quadrado ser descrito no prximo captulo. Para testar a hiptese nula Ho: PA = PB usa-se a seguinte frmula: . '
IPA - PIII-C
J Puqu(l/
n;
+ li nll)
C=0,5(~+~J'
n4
nll
PA e PB so a proporo de sucessos nas amostras A e B, respectivamente; nA e nB.so os tamanhos das amostras A e B; Po a proporo de sucessos considerando as duas amostras juntas e pode ser obtida do seguinte modo:
P"
= ---.i...-+
nA
x +x
11, nll
nas amostras A e B; qo
= 1- Po'
A regra de deciso j se conhece: se I zcalc I < zu' no se rejeita Ho' Caso contrrio, a hiptese nula deve ser rejeitada. Exemplo4. Na Tabela 12.3 (Captulo 12) foi apresentada a mortalidade de gastrpodos do gnero Biomphalaria infestao com Schistosoma mansoni (Scherrer e colaboradores, 1990). Parece que as formas albinas da espcie B. tenagophila encontradas em Joinville, Santa Catarina, so mais suscetveis que as pigmentadas, que vivem no Taim, Rio Grande do Sul. Para testar esta hiptese com os indivduos juvenis, foi usado o procedimento explicado acima para a proporo de animais que morreram (P). Os dados referentes s duas amostras, so os seguintes: RS:
nA =
110
2
Se: nB
xA
PA = 0,02
xB PB
X
i1.
p"
+nH
+ XIJ
= 2 + 130 -
110+310
'
31
eqo=
=
=
cal<
Como I Zcalc I = 7,676 > Zo 001 = 3,29, rejeita-se a hiptese de igualdade entre as propores populacionais conclui-se que, ao menos nas formas juvenis, os gastrpodos do Rio Grande do Sul so mais resistentes ao esquistossoma que os de Santa Catarina.