Os testes 2 considerados neste ltimo ponto do programa surgem associados a dados de contagem. Mais concretamente, dados que contam o nmero de observaes que recaem em vrias categorias (denidas a partir de um ou mais factores). Pode pensar-se que se tem uma (ou mais) varivel resposta categrica (factor), e que os dados so a frequncia com que se observa cada um dos nveis desse factor.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
384 / 429
Testes 2 (cont.)
O objectivo dos testes que agora se estudam comparar essas contagens observadas com as contagens que seriam esperadas ao abrigo de alguma hiptese. A maior ou menor proximidade global entre contagens observadas e esperadas serve para testar a hiptese subjacente aos valores esperados. Apesar de terem um fundo comum, os testes agora estudados aplicam-se em contextos diferentes.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
385 / 429
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
386 / 429
Considere-se uma hiptese que associa a cada uma das k categorias uma probabilidade pi . Ao abrigo dessa hiptese, o nmero esperado de observaes na categoria i seria Ei = n pi . Exemplo: No contexto do exemplo anterior, considere-se a hiptese de que o nmero de latas imprprias em cada embalagem segue uma distribuio Binomial, de parmetros B (6 , 0.04)
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
387 / 429
6 0.04i 0.966i , i
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
388 / 429
A estatstica de Pearson
No contexto agora descrito, Pearson mostrou que a estatstica X2 =
i =1
(Oi Ei )2 Ei
NOTA: a subtraco de um grau de liberdade vem de existir uma restrio ao nmero de observaes em cada categoria, uma vez que a sua soma tem de ser n. Logo, h apenas k 1 valores observados livres. Denindo a hiptese nula como a hiptese que gerou os valores esperados Ei tem-se uma Regio Crtica unilateral direita, ou seja:
2 > 2 Rejeita-se H0 (hiptese subjacente aos Ei ) se Xcalc ;k 1 .
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
389 / 429
Assintoticamente signica para grandes amostras, mas h critrios diferentes para quando se considera a aproximao adequada. Um critrio, sugerido por Cochran, : nenhum Ei inferior a 1; no mais do que 20% dos Ei s inferiores a 5. Caso estas condies no se veriquem, podem-se agrupar classes de forma a satisfazer o critrio.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
390 / 429
Exemplo
Seguindo o critrio de Cochran, no exemplo anterior ser necessrio agrupar as classes correspondentes a 2 ou mais latas imprprias, obtendo-se a nova tabela:
i pi Ei Oi 0 0.7828 156.552 141 1 0.1957 39.138 48 2 0.0216 4.311 11
2 Numa distribuio 3 1 o limiar da regio crtica ao nvel = 0.05 5.991, pelo que se rejeita a hiptese de a distribuio subjacente ser a referida.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
391 / 429
Exemplo
Agora, a probabilidade estimada de haver i latas imprprias numa embalagem de 6 latas ser dada por: i = p i = 200 p i . e tem-se E Reconstruindo a tabela para uma Binomial B (6 , 0.06), tem-se:
i pi i E 0 0.6899 137.974 1 0.2642 52.841 2 0.0422 8.432 3 0.0036 0.718 4 0.0002 0.034 5 0.0000 0.001 6 0.0000 0.000
6 0.06i 0.946i , i
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
393 / 429
i =1
i )2 (Oi E i E
Denindo a hiptese nula como hiptese que (aps a estimao de parmetros) gerou os i valores esperados estimados E Dene-se uma Regio Crtica unilateral direita, ou seja: i ) se X 2 > 2 Rejeita-se H0 (hiptese subjacente aos E ;k1r calc
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
394 / 429
Exemplo (cont.)
De novo, utilizando o critrio de Cochran para garantir a qualidade da aproximao assinttica distribuio 2 , tem-se:
i pi i E Oi 0 0.6899 137.974 141 1 0.2642 52.841 48 2 0.0459 9.185 11
2 Numa distribuio 3 11 o limiar duma regio crtica ao nvel = 0.05 3.841, pelo que no se rejeita a hiptese de a distribuio subjacente ser Binomial (em particular, B (6, 0.06)).
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
395 / 429
Teste 2 de homogeneidade
Admita-se agora uma generalizao da questo discutida antes: classicam-se observaes em vrias categorias, mas repete-se o procedimento para amostras extradas de vrias populaes. Admita-se que: h a populaes, que constituem os nveis de um factor A; as observaes de cada populao so classicadas em uma de b categorias, que denem os nveis dum factor B.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
397 / 429
Exemplo
Nos solos duma dada regio foi assinalada a presena de larvas de 4 espcies de insectos que afectam as principais culturas da regio. Pretende-se investigar se as frequncias relativas das espcies so ou no iguais consoante o tipo de solos. Classicaram-se os solos em trs tipos: arenosos, limosos e argilosos (Factor A, com a=3 nveis). Em cada tipo de solos foram recolhidas 100 larvas, e classicadas de acordo com a respectiva espcie (Factor B, com b=4 nveis).
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
398 / 429
Exemplo (cont.)
Feita a classicao das larvas, obtiveram-se os seguintes resultados:
Espcie de larva 1 2 3 4 27 24 23 26 20 32 18 30 13 37 16 34 60 93 57 90 Total 100 100 100 300
Tipos de solos
A linha nal, com as frequncias absolutas n.j de cada tipo de larva, representa uma base para estimar o que sero as probabilidades de cada tipo de larva, caso haja uma nica distribuio pelas espcies, comum aos trs tipos de solo. .j = A probabilidade estimada da espcie j ser p .1 = p
n. j n ,
ou seja:
Exemplo (cont.)
Uma vez que em cada tipo de solo h ni . = 100 observaes, o nmero esperado de observaes na clula (i,j) dado por ij E = .j ni . p = ni . n.j n
Tipos de solos
Entre as observaes de clula Oij e os correspondentes valores ij ), existe concordncia suciente para admitir esperados estimados (E que as distribuies de frequncias de espcies so anlogas nos trs tipos de solos?
J. Cadima (ISA) Estatstica e Delineamento 2010-11 400 / 429
Tabelas de contingncia
Generalizando, sejam dadas n observaes que so classicadas de acordo com dois diferentes factores. Chama-se tabela de contingncia a uma tabela com o nmero Oij de observaes em cada clula (i , j ) (nvel i do factor A e j do factor B):
Nveis do Factor A 1 2 3 . . . a Marginal de B 1 O11 O21 O31 . . . Oa1 n1 Nveis do Factor B 2 3 O12 O13 O22 O23 O32 O33 . . .. . . . . . Oa2 Oa3 n2 n3 b O1,b O2,b O3,b . . . Oa,b nb Marginal de A n1 n2 n3 . . . na n
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
401 / 429
Testes de homogeneidade
No contexto de testes de homogeneidade, associados ao exemplo das larvas, o nmero de observaes em cada nvel de um factor foi previamente xado (no nosso caso, os totais de linha, ni .). Admitindo que se trata dos totais de linha (nveis do factor A), tal facto impe a restries. A necessidade de estimar as probabilidades dos nveis do outro factor (no nosso caso, as probabilidades de espcie, ou seja as probabilidades marginais de coluna) impes mais b 1 restries. i tem de ser 1, logo (NOTA: No so b restries pois a soma dos p estimar b 1 probabilidades determina a ltima estimativa.) Assim, ao todo foram impostas a + b 1 restries.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
402 / 429
i =1 j =1
ij )2 (Oij E ij E
Denindo a hiptese nula como homogeneidade na distribuio das amostras de cada i ) populao (a hiptese que gerou os valores esperados E tem-se uma Regio Crtica unilateral direita, ou seja: Rejeita-se H0 se
2 > 2 Xcalc ;(a1)(b 1) .
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
403 / 429
Exemplo
A estatstica de Pearson calculada no exemplo das larvas tem valor
2 = 10.10928 . Xcalc
Este valor calculado deve ser comparado com o valor que, numa 2 (pois (a 1)(b 1) = 2 3 = 6), deixa direita uma distribuio 6 regio de probabilidade = 0.05:
2 0 .05(6) = 12.591 . 2 < 2 Como Xcalc 0.05(6) no se rejeita H0 : admite-se a homogeneidade das distribuies de espcies de larva, nos trs tipos de solos.
Tal como nos casos anteriores, pode ser necessrio agrupar classes do factor B, caso o nmero esperado de observaes nalgumas classes seja demasiado baixo. Neste exemplo, esse agrupamento no foi necessrio.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 404 / 429
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
405 / 429
Testes 2 de independncia
A mais frequente das hipteses, no contexto das margens de linhas e colunas duma tabela de contingncias serem livres, o teste independncia entre os dois factores que denem as margens da tabela. Recorde-se que falamos em independncia quando as probabilidades conjuntas so dadas pelo produto das probabilidades marginais: pij onde pij indica a probabilidade duma observao recair na clula (i,j); pi . indica a probabilidade marginal duma observao recair no nvel i do factor A (seja qual fr o nvel do outro factor); p.j indica a probabilidade marginal duma observao recair no nvel j do factor B (seja qual fr o nvel do outro factor);
J. Cadima (ISA) Estatstica e Delineamento 2010-11 406 / 429
pi . p.j ,
i,j
possvel estimar as probabilidades marginais a partir das frequncias relativas marginais (como foi feito nos testes de homogeneidade, para o factor B): i . = p .j p = ni . n n.j n , , i = 1, 2, ..., a j = 1, 2, ..., b ,
onde n o nmero total de observaes (xo), ni . o nmero (livre) de observaes no nvel i do factor A e n.j o nmero (livre) de observaes no nvel j do factor B.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 407 / 429
i,j .
i =1 j =1
ij )2 (Oij E ij E
i =1 j =1
Oij
ni . n. j n ni . n. j n
Denindo a hiptese nula como independncia entre os dois factores tem-se uma Regio Crtica unilateral direita, ou seja: Rejeita-se H0 se
2 > 2 Xcalc ;(a1)(b 1) .
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
410 / 429
Exemplo
Um estudo de n = 6800 alemes do sexo masculino analisou a cr do cabelo e a cr dos olhos de cada indivduo. Os resultados foram: Olhos Azuis Cinz./Verde Castanhos Total Louro 1768 946 115 2829 Cabelo Castanho Preto 807 189 1387 746 438 288 2632 1223 Ruivo 47 53 16 116 Total 2811 3132 857 6800
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
411 / 429
Um exemplo (cont.)
As frequncias marginais de linha do estimativas das probabilidades i. i . = n marginais de cada cr de olhos (p n ):
1 = p 2811 = 0.4134 6800 2 = p 3132 = 0.4606 6800 3 = p 857 = 0.1260 6800
Os valores esperados estimados em cada clula, caso haja independncia, so dados por: ij = n p .j . .j = 6800 p i . p ij = n p i . p E 11 = Por exemplo, E
J. Cadima (ISA)
28112829 6800
= 1169.4587.
2010-11 412 / 429
Estatstica e Delineamento
Um exemplo (cont.)
A tabela com os valores esperados (estimados) entre parenteses :
Cabelo Castanho Preto 807 (1088.02) 189 (505.57) 1387 (1212.27) 746 (563.30) 438 (331.71) 288 (154.13) 2632 1223
2 quase nulo O p -value deste valor numa distribuio 6 16 (< 2.2 10 ), pelo que, como seria de esperar, se rejeita de forma clara a hiptese de independncia.
J. Cadima (ISA) Estatstica e Delineamento 2010-11 413 / 429
Em qualquer dos contextos considerados, a regio de rejeio unilateral direita, isto , so os valores grandes da estatstica que rejeitam a hiptese nula, num teste baseado na estatstica de Pearson. Como a estatstica X 2 de Pearson uma soma de parcelas no-negativas, ao longo de todas as categorias denidas pelo factor (no caso dos testes de ajustamentro inciais) ou pelo cruzamento dos nveis de cada factor (no caso de testes de homogeneidade e/ou independncia), possvel identicar a(s) categoria(s) que contribuem com as parcelas de maior valor e que so, por isso mesmo, maiormente responsveis pela rejeio de H0 .
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
414 / 429
2 Uma vez que 0 .05 (6) = 12.592, quase todas as combinaes (excepto as referentes aos ruivos) so, s por si, responsveis pela rejeio de H0 , com destaque para as associaes de olhos azuis com cabelo louro e de olhos azuis com cabelo preto.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
415 / 429
No entanto, o sentido destas duas associaes diferente: para olhos azuis/cabelo louro, tem-se 11 = 1169.46 . 1768 = O11 > E Trata-se duma associao positiva. para olhos azuis/cabelo preto, tem-se 13 = 505.57 . 189 = O13 < E Trata-se duma associao negativa.
J. Cadima (ISA)
Estatstica e Delineamento
2010-11
416 / 429