Anda di halaman 1dari 10

14

Distribuio binomial

s variveis aleatrias qualitativas ou categricas podem ser variveis em que somente dois eventos ou resultados so possveis (variveis dicotmicas ou binrias) e variveis nas quais h mais de dois eventos ou resultados possveis (variveis politmicas). A distribuio binomial descreve o comportamento de uma varivel dicotmica em amostras aleatrias. O sexo, o tipo Rh, ser saudvel ou doente so exemplos de variveis dicotmicas. Os dois estados (resultados, eventos ou categorias) possveis para a varivel dicotmica so muitas vezes denominados sucesso (indicado por 5) e fracasso ou falha (F), o que provavelmente se deve aos primeiros estudos feitos sobre probabilidades, que envolviam ganhos e perdas em jogos de azar. Em geral, considera-se como sucesso o resultado de interesse do pesquisador, nem sempre representando, este resultado, um sucesso social'ou biolgico. Costuma-se denominar P a probabilidade verdadeira do sucessol e Q a do fracasso. Sabe-se ento que P + Q = 1, portanto, Q = 1 - P.

A distribuio binomial utilizada para determinar a probabilidade de que certa proporo de sucessos seja observada em um grupo de indivduos. Por exemplo, imagine que, em determinada populao, 30% das pessoas tm alergia respiratria. Como o interesse estudar este tipo de alergia, considera-se "ser alrgico" como o sucesso (5). Neste caso, P = 0,3. O fracasso ou falha (F) ser representado pela situao "no ser alrgico" e Q = 0,7. Algumas perguntas podem agora ser respondidas:

1 A letra P usada tanto para indicar a proporo de sucessos em uma populao quanto o nivel critico amostral associado a um teste estatistico (na verdade no h conflito. pois ambos so probabilidades). Por isso, mesmo correndo o risco de dificultar um pouco as coisas para o leitor. preferiu-se manter esta simbologia por ser a mais comum na literatura, na esperana de que o contexto, na qual est sendo usado, seja suficientemente claro para no deixar dvidas sobre o significado do smbolo.

120 Sidia M. Callegari-Jacques


Pergunta 1. Qual a probabilidade de que uma pessoa, selecionada ao acaso dessa populao, apresente alergia respiratria?

Esta probabilidade igual proporo de sucessos na populao, isto , Pr(S)


= 0,3.

=P

Pergunta 2. J e L so amigos. Qual a probabilidade de que um dos dois apresen-

te este tipo de alergia? Para responder a esta pergunta, necessrio considerar todas as possibilidades em que um dos dois alrgico e o outro, no. Tais possibilidades so duas: ou J alrgico e L, no; ou L alrgico e J, no. A probabilidade de J ser alrgico, como vimos, 0,3 e o mesmo vale para L.A probabilidade de que um dos dois seja alrgico obtida combinado-se as regras da soma e da multiplicao:
Pr [(J ser alrgico e L no ser) ou (J no ser alrgico e L ser)]
Pr [(SeF) Pr
=

(FeS)]

= [PQ + QP] = 2PQ = [(0,3xO,7) + (0,7xO,3)] = 2(0,3xO,7) = 0,42


=

(uma pessoa dentre duas ser alrgica)

0,42.

Este raciocnio usado tambm para um nmero maior de pessoas, como se v nas respostas s prximas perguntas.
Pergunta 3. Qual a probabilidade de que duas pessoas dentre trs apresentem

alergia respiratria?
Pr (2 pessoas dentre 3 serem alrgicas) Pr (2 sucessos e um fracasso em 3) =
Pr (SSF + SFS + FSS) Pr (2 pessoas dentre 3
=

PPQ

PQP

QPP

sejam alrgicas)

= 3p2Q = 3(0,3)2(0,7) = 0,189

Note que 3 o nmero de combinaes de 2 pessoas alrgicas e 1 no-alrgica em um grupo de trs pessoas.
Pergunta 4. Qual a probabilidade

de que 2 dentre 4 pessoas dessa populao

sejam alrgicas?
Pr

(2 pessoas em 4 serem alrgicas)


=

=
=

Pr (2 sucessos e 2 fracassos em 4)
Pr (SSFF

Nota:

Ci o nmero

+ SFSF + SFFS + FFSS + FSFS + FSSF)

Ci (PPQQ)

Ci p2 Q2.

de combinaes de 4 elementos, tomando-os 2 a 2.

Chamando de x o nmero de sucessos e de n o nmero de indivduos envolvidos na amostra, v-se que a probabilidade de x sucessos em n indivduos ser:

OBSERVAO:

1: n! = n (n - 1)(n - 2) ... 1. Por exemplo: 4! 2: O! = 1, por conveno.

= 4(3)(2)(1) = 24.

Esta frmula permite calcular a probabilidade de x sucessos em n observaes sem haver a necessidade de enumerar todas as combinaes possveis.

Assim, para a probabilidade mula seria:


Pr(x

de se ter 2 alrgicos dentre 4, o clculo pela fr4! 4x3x2xl

= 2 em

= 4) = 2!2! (0,32)(0,72) = (2xl) (2xl) (0,09)(0,49) = 0,265.

Pergunta 5. Qual seria a probabilidade de que em um grupo de 6 pessoas, 4 sejam alrgicas?


Pr(x=4

em

n=6)

=~

4!2!

(O 34)(0 72) ' ,

= 6x5x4x3x2xl

(4x3x2xl)(2xl)"

(O 008)(0 49)

= 15(0004) = O 060.
, ,

O mesmo resultado pode tambm ser obtido da tabela da distribuio binomia I (Tabela A.5), bastando informar corretamente n, x e P. Na distribuio binomial, enquanto x a varivel, n e P so os parmetros, pois as probabilidades para qualquer distribuio binomial ficam claramente definidas com apenas estas duas ltimas informaes. A regra da soma pode ser combinada com os resultados da tabela da binomiai para resolver certas questes, como a que segue.

Pergunta 6. Se em determinada populao, 30% das pessoas tm alergia respiratria, qual a probabilidade de que, em um grupo de 6 pessoas, no mximo 2 sejam alrgicas? A resposta a esta pergunta envolve uma soma de probabilidades, que podem ser obtidas da Tabela A.5:
Pr (x::::; 2

em

n=6) = Pr (x=O) + Pr (x=l) + Pr = 0,118 + 0,303 + 0,324 = 0,745.

(x=2)

nmero de sucessos (x) ou indivduos com a caracterstica de interesse em uma amostra de tamanho n pode ser expresso tambm como a proporo (p) de sucessos na amostra:
O

x/no

Tanto o nmero (x) quanto a proporo de sucessos (p) esto sujeitos variao amostra!. A distribuio que descreve esta variao a distribuio binomia!. Suponha, por exemplo, que vrias amostras de 10 indivduos so retiradas ao acaso de uma populao em que a freqncia de indivduos alrgicos P=50%. Que proporo de indivduos alrgicos (p) pode ser observada em uma amostra? Uma possibilidade a obteno de uma amostra com nenhum alrgico (ento x = O em n = 10 e p = O), ou, ento, uma amostra com 1 alrgico e 9 noalrgicos (x = 1, n = 10, P = 0,1), ou ainda com 2 alrgicos e 8 no-alrgicos (x = 2, n = 10, P = 0,2) e assim sucessivamente. Na Tabela 14.1 esto indicadas todas as possibilidades para amostras de tamanho 10. Qual seria, agora, a ocorrncia relativa dessas amostras considerando-se o total de amostras possveis de 10 pessoas, ou seja, qual a freqncia relativa de

122 Sidia M. Callegari-Jacques


cada x (ou p)? Ora, a freqncia relativa nada mais do que uma estimativa da probabilidade com que ocorrem os diferentes tipos de amostras. Essa probabilidade pode ser obtida diretamente da tabela da distribuio binomial ou aplicando a frmula vista na seo anterior (usando x = nmero de indivduos alrgicos em uma amostra de n = 10 indivduos, tirada de uma populao onde P = 0,5). A Tabela 14.1 apresenta as constituies possveis de amostras aleatrias de 10 indivduos. Tambm esto ali as freqncias relativas correspondentes a cada tipo de amostra (obtidas da Tabela A.5), quando na populao 50% das pessoas so alrgicas. A colunafr mostra que se fossem retiradas ao acaso 100 amostras de 10 indivduos dessa populao, esperar-se-ia que em 11,7% delas a proporo de alrgicos fosse 0,3, ou seja, seriam esperadas ao redor de 12 amostras com 3 indivduos alrgicos e 7 no-alrgicos. Ela mostra tambm que, conforme esperado, as amostras mais freqentes so aquelas em que a proporo de alrgicos 0,4, 0,5 ou 0,6. A Figura 14.1 representa graficamente a distribuio amostral de probabilidades relativa s propores que podem ser obtidas em amostras de n = 10, sendo P = 0,5 na populao. Embora p seja uma frao, sua distribuio amostral no contnua, mas discreta, pois existe um nmero limitado de valores de p possveis, dependendo do tamanho da amostra. A distribuio amostral de propores (DAP) binomial. Ela perfeitamente simtrica quando P = 0,5 e aproximadamente simtrica para valores de P entre 0,3 e 0,7, se o tamanho amostral no for muito pequeno. Fora desse intervalo, a assimetria comea a ficar mais acentuada. A representao da DAP da Figura 14.1 faz uso de um grfico apropriado para variveis discretas, j que com amostras de tamanho 10 apenas determinadas propores podem ocorrer. Em amostras de tamanho 100, no entanto, podem ser observadas as propores O; 0,01; 0,02; ... 0,99; 1. medida que n aumenta, a distncia ,entre os valores possveis de p diminui gradativamente. No grfico, o espao entre as barras diminui e a distribuio amostral de p vai se aproximando de uma distribuio contnua. Quando as amostras so grandes, a DAP fica muito prxima a uma curva normal (Figura 14.2), podendo-se usar esta distribuio para realizar inferncias

TABELA 14.1 Amostras de 10 elementos dos individuos so alrgicos (P = 0,5) Tipo de amostra Alrgicos
(x)

obtidas aleatoriamente

de uma populao

na qual 50%

No-alrgicos 10 9 8 7 6 5 4

(n-x)

Proporo de alrgicos na amostra (p)

fr de cada tipo de amostra 0,001 0,010 0,044 0,117 0,205 0,246 0,205 0,117 0,044 0,010 0,001 1,000

o
1 2 3 4 5 6 7 8 9 10

O
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

3
2 1

0,3 0,25 0,2 fr 0,15 0,1 0,05 FIGURA 14.1 Grfico de bastes que representa a freqncia com que ocorrem di~rentes propores de sucessos em amostras de tamanho 10, obtidas de uma populao na qual P 0,5.

0,1 0,2

0,30,4

0,5 0,6 0,7 0,8 0,9

P - proporo na amostra

sobre as propores. Para decidir se uma amostra suficientemente grande para que o uso da distribuio normal seja adequado, aplica-se a seguinte regra: ''A distribuio normal aceita como uma aproximao binomial sempre que nP > 5 e tambm nQ > 5". A mdia
(J.1p)

da DAP P e o erro padro

CJI'

= ~ Pn

Na Figura 14.2 est esquematizada a DAP para amostras de 100 elementos, obtidas de uma populao em que a proporo de alrgicos P = 0,5. O erropadro dessa distribuio :
CJ ,
1

=~

P =
n

0,5xO.5 = ~O.0025= 0,05.


100

Neste caso, pode-se usar a distribuio normal como uma aproximao, pois
nP = 100(0,5) = 50 >5 e tambm nQ = 100(0,5) =50 >5. Com base nas proprie-

dades conhecidas dessa curva, pode-se estimar que cerca de 68% das amostras mostraro valores de p entre 0,45 e 0,55 (P CJp) e que aproximadamente 95% das amostras possveis tero valores de p dentro do intervalo P 1,96CJp' isto , entre 0,40 e 0,60. Tal aproximao da DAP curva normal permite realizar testes de hipteses com propores, de forma semelhante usada para mdias.

FIGURA 14.2 Distribuio amostrai de propores observadas em amostras aleatrias de 100 indivduos, obtidas de uma populao onde P = 0,5.

124

Sidia M. CaLlegari-Jacques

COMPARAO ENTRE AS PROPORES DE DUAS POPULAES DESCONHECE UMA DELAS (TESTE PARA UMA PROPORO)

QUANDO SE

o raciocnio feito em um teste para uma proporo idntico ao utilizado no teste para uma mdia. Portanto, pode-se ir diretamente a um exemplo. Exemplo 1. Flores e colaboradores (1994) testaram a capacidade preditiva de quiromantes do seguinte modo: apresentaram a quatro deles 26 fotocpias de impresses digitais e palmares, das quais 13 eram de pessoas que haviam falecido por leucemia linfoctica aguda. Foi solicitado aos quiromantes que identificassem as impresses de individuos sos e de individuos portadores de "uma doena muito grave". Os dados dos quatro quiromantes foram reunidos porque no se observou diferena estatisticamente significativa (valor-P > 0,20) entre eles quanto ao nmero de acertos. Quarenta e cinco das 80 respostas fomecidas estavam corretas. A proporo esperada de acertos ao acaso a mesma que se deve esperar usando para a deciso o lanamento de uma moeda: 0,5. O que se pode concluir, ento, sobre a capacidade preditiva destes quiromantes?
(1) Elaborao das hipteses estatsticas
Ho: PA = Po = 0,5 (isto , a proporo de acertos dos quiromantes igual

proporo de acertos ao acaso)


H1: PA

*- Po

Escolha do nvel de significncia ex = 0,05 (3) Determinao do valor crtico Z005 = 1,96 (4) Determinao do valor calculado do teste2

(2)

_ Jp-~II-C
L.C{I/C -

~o
~

' onde

n
p

a proporo de sucessos na amostra P o a proporo na populao tomada como referncia e Qo = 1 - P o C = 1/(2n) uma correo que aproxima melhor a DAP da curva normal.

No Exemplo 1, p = 45/80 = 0,563 e C = 1/(2x80) = 0,006. Ento,

=
,,,Ic

=' 10,563 - 0,51- 0,006 .jO,5 x 0,5/80

_1,0631-

0,006 =' I 018

0,056

'

(5) (6)

Deciso: Concluso: A proporo de acertos obtidos pelos quiromantes no difere da proporo de acertos esperados ao acaso. Concluram corretamente os autores que "no h indcios de que a quiromancia sirva para prever o futuro dos indivduos" (ex = 0,05).

Antes do clculo, necessrio verificar se nP e nO so maiores do que 5. Aqui, P = PO' Como nPo = 80 x 0,5 = 40 e nOo = 40, pode-se usar a distribuio normal como uma aproximao binomial.

OBSERVAO:

Note que aqui poderia ter sido feito um teste unilateral, j que a quiromancia ser til somente se acertar mais do que o previsto ao acaso. Mesmo usando um teste unilateral, no entanto, a concluso a mesma, j que Zcalc = 1,018 menor do que o valor unilateral crtico para a = 0,05 (zO,OS unilateral == 1,64).

Um problema diferente do anteriormente visto o enfrentado quando se obtm certa proporo em uma amostra e se deseja estimar a proporo verdadeira na populao. Exemplo 2. O maric (Mimosa bimucronata), leguminosa arbustiva nativa e comum no Sul do Brasil, apresenta sementes com dificuldade de germinao. Como a literatura informa que as condies de armazenamento das sementes podem modificar a germinabilidade nas leguminosas, aumentando-a em algumas espcies e diminuindo-a em outras, desejou-se avaliar a percentagem de germinao em sementes de maric armazenadas de diferentes modos. Um dos experimentos consistiu em armazenar 150 sementes durante um ano, em condies de temperatura e umidade ambientais (Ferreira e Callegari-Jacques, 1980). No ensaio de germinao, 93 das sementes germinaram, o que corresponde a uma proporo de 0,62. arriscado, no entanto, concluir que se as sementes do maric forem armazenadas nas condies descritas, 62% delas vo germinar, pois tal informao provm de uma amostra e est, portanto, sujeita ao erro aleatrio. Para estimar a taxa de germinao verdadeira, utiliza-se um procedimento semelhante ao visto para a estimao da mdia, podendo-se usar as frmulas abaixo desde que a proporo amostral p seja um valor entre 0,3 e 0,7:

fi

inferior superior

=P=

za EPp

fi

+ za EPp + C, onde

p proporo de sucessos na amostra; za o valor de Z correspondente ao intervalo de confiana desejado (por exemplo zo,os = 1,96);
E~, = -J pq / n q C

o erro padro estimado da proporo;

= =

1- p; 1I(2n).
=

No Exemplo 2,p
e C

0,62, q = (1- 0,62)

0,38, E~,

-J0,62xO,38/ 150 = 0,040

1/(2 x 150)

0,003.

Os limites para o intervalo de 95% de confiana OC9S%) para a proporo verdadeira de sementes que germinam, tendo sido armazenadas nas condies descritas, so:

fi

inferior superior :

= =

0,62 - 1,96(0,040) - 0,003 0,62

0,539
=

fi

+ 1,96(0,040) + 0,003

0,701

lC9S%

(0,54; 0,70).

Preferindo-se apresentar o resultado como percentagem, basta multiplicar esses valores por 100. Nesse caso, o intervalo de 0,95 de confiana para a percen-

126 Sidia M. Callegari-Jacques


tagem de sementes que germinam, tendo sido armazenadas conforme descrito anteriormente, 53,9% - 70,1 %. Quando a proporo amostral no est entre 0,3 e 0,7, como exigido para utilizao das frmulas indicadas acima, deve-se usar a distribuio binomial exata para se estimar P, o que um procedimento complicado. No entanto, existe uma "aproximao quadrtica" para a obteno do IC para P, que vlida mesmo se a proporo est prxima de zero ou um. Os limites do IC para P usando a aproximao quadrtica so:
,
P;"rcri"r

(2np+z- , -1)-z

1 z-, -(2+-)+4p(nq+l) n

2(n

+ Z2)

,
. ~lIpcri(}r

1 (2np+z- , +1)+z ~ z-, +(2--)+4p(nq-l) n


=

2(

n+z

2)

onde z o valor crtico para a confiana desejada. Exemplo 3. Ojornal Correio do Povo publicou, em 1 de junho de 1994, que o plen do ligustro estava provocando reaes alrgicas (conjuntivite, asma e rinite) nos habitantes de Santo ngelo, RS. O ligustro (Ligustrum japonicum) uma rvore ornamental comum naquela localidade. O Dr. E. Ferreira realizou tes. tes cutneos em 100 pessoas desta cidade e 8 delas apresentaram reaes alrgicas ao plen dessa planta. Como deve ser expressa a percentagem (populacional) de pessoas alrgicas ao ligustro? Como a proporo observada de afetados (p = 0,08) est fora dos limites 0,30 a 0,70, as frmulas mais simples no podem ser empregadas. O intervalo de 95% de confiana para P, ento, dever ser obtido do seguinte modo:
,
P;/!leriOr =

(2x100xO,08+1.96-

-1)-1,96

1,96- -(2+-)+L4xO,08(100xO,92+1) 100 2(100+ 1,962)

,1

,
P;"ferM

(16+3,84-1)-1,96~3,842 -(2,01)+[29,76] 207,68

18,84-11,02 207,68

0,038 ]

fi
,,,pcrlOr

, , 1 (2xl00xO,08 + 1,96- + 1)+ 1,96 1,96- + (2 --) 2(100+ 1,962)


100

+ L4x0,08(100x 0,92 -1)

fi
"'/''rIor

= (16+3,84+1)+

1,96J3,84 + (1,99) + [29,12] 207,68 = 0,156

Pode-se ento dizer, com 95% de confiana, que a percentagem verdadeira de pessoas alrgicas ao plen do ligustro, em Santo ngelo, um valor entre 4% e 16%.

OBSERVAES:

(1) Note que o intervalo de confiana encontrado para P assimtrico ao redor de 8%, como se espera que sejam os intervalos para percentagens prximas de 0% ou 100%. (2) O intervalo obtido tem uma preciso que pode ser considerada baixa (o intervalo muito amplo). A soluo para se obter uma estimativa mais precisa, com a mesma confiana, aumentar o tamanho da amostra estudada.

Quando se deseja comparar as propores de determinado sucesso em duas amostras independentes, h dois testes estatsticos aplicveis: o teste z e o teste quiquadrado. O ltimo o mais popular, mas deve ser aplicado s freqncias absolutas. O teste do qui-quadrado ser descrito no prximo captulo. Para testar a hiptese nula Ho: PA = PB usa-se a seguinte frmula: . '
IPA - PIII-C

J Puqu(l/

n;

+ li nll)

C=0,5(~+~J'
n4
nll

PA e PB so a proporo de sucessos nas amostras A e B, respectivamente; nA e nB.so os tamanhos das amostras A e B; Po a proporo de sucessos considerando as duas amostras juntas e pode ser obtida do seguinte modo:
P"

= ---.i...-+
nA

x +x
11, nll

(xA e xB so o nmero de sucessos, respectivamente,


.

nas amostras A e B; qo

= 1- Po'

A regra de deciso j se conhece: se I zcalc I < zu' no se rejeita Ho' Caso contrrio, a hiptese nula deve ser rejeitada. Exemplo4. Na Tabela 12.3 (Captulo 12) foi apresentada a mortalidade de gastrpodos do gnero Biomphalaria infestao com Schistosoma mansoni (Scherrer e colaboradores, 1990). Parece que as formas albinas da espcie B. tenagophila encontradas em Joinville, Santa Catarina, so mais suscetveis que as pigmentadas, que vivem no Taim, Rio Grande do Sul. Para testar esta hiptese com os indivduos juvenis, foi usado o procedimento explicado acima para a proporo de animais que morreram (P). Os dados referentes s duas amostras, so os seguintes: RS:
nA =

110
2

Se: nB

xA

PA = 0,02

xB PB

310 130 0,42

128 Sidia M. CaLfegari-]acques


As hipteses estatsticas a serem testadas so:
Ho: PRS = Psc H] : PRS Psc

X
i1.

p"

+nH

+ XIJ

= 2 + 130 -

110+310

'

31

eqo=
=

1-0,31 0,3938 0,0513


=

=0,69 7 676 ' .

=
cal<

10,02- 0,421- 0,0062 ~0,31XO,69(l/l10+l/31O)

Como I Zcalc I = 7,676 > Zo 001 = 3,29, rejeita-se a hiptese de igualdade entre as propores populacionais conclui-se que, ao menos nas formas juvenis, os gastrpodos do Rio Grande do Sul so mais resistentes ao esquistossoma que os de Santa Catarina.

Anda mungkin juga menyukai