Anda di halaman 1dari 72

SRIE: Exatas

T e x t o : E st a t s t ic a N o P a ra m t r ic a

SUMRIO
1. INTRODUO ................................................................................................................................................................... 5

1.1. GENERALIDADES ............................................................................................................................................................ 5


1.2. ALGUNS MOTIVOS PARA O SEU USO ................................................................................................................................ 5
1.3. ALGUMAS RESTRIES AO SEU USO................................................................................................................................ 6
1.4. A ESCOLHA DO TESTE ESTATSTICO ................................................................................................................................ 6
1.5. MENSURAO ................................................................................................................................................................ 7
1.6. A DISTRIBUIO AMOSTRAL ........................................................................................................................................... 9
1.7. ETAPAS DO TESTE DE HIPTESES .................................................................................................................................... 9
1.8. TIPOS DE TESTES NO-PARAMTRICOS ......................................................................................................................... 10

2. TESTES PARA UMA AMOSTRA.................................................................................................................................. 11

2.1. O TESTE QUI-QUADRADO ............................................................................................................................................. 11


2.1.1. Funo ................................................................................................................................................................. 11
2.1.2. Mtodo................................................................................................................................................................. 11
2.1.3. Pequenas Freqncias Esperadas....................................................................................................................... 13
2.1.4. O teste qui-quadrado relacionado com outros testes.......................................................................................... 13
2.2. O TESTE K-S (KOLMOGOROV-SMIRNOV) ..................................................................................................................... 13
2.2.1. Funo e fundamentos lgicos ............................................................................................................................ 13
2.2.2. Mtodo................................................................................................................................................................. 14

3. TESTES PARA DUAS AMOSTRAS RELACIONADAS............................................................................................. 16

3.1. O TESTE DE MCNEMAR PARA A S IGNIFICNCIA DE MUDANAS .................................................................................. 16


3.1.1. Funo ................................................................................................................................................................. 16
3.1.2. Mtodo e fundamentos lgicos ............................................................................................................................ 16
3.1.3. Correo de continuidade ................................................................................................................................... 17
3.1.4. Pequenas freqncias esperadas......................................................................................................................... 18
3.2. O TESTE DE WILCOXON ................................................................................................................................................ 18
3.2.1. Funo ................................................................................................................................................................. 18
3.2.2. Fundamentos lgicos e mtodo............................................................................................................................ 18
3.2.3. Empates................................................................................................................................................................ 19
3.2.4. Pequenas Amostras.............................................................................................................................................. 19
3.2.5. Grandes Amostras................................................................................................................................................ 21

4. TESTES PARA DUAS AMOSTRAS INDEPENDENTES ........................................................................................... 22

4.1. O TESTE QUI-QUADRADO ............................................................................................................................................. 22


4.1.1. Funo ................................................................................................................................................................. 22
4.1.2. Mtodo................................................................................................................................................................. 22
4.1.3. Tabelas de Contingncia 2X2.............................................................................................................................. 24

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 2
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

4.1.4. Quando usar o teste............................................................................................................................................. 26


4.2. O TESTE U DE MANN-WHITNEY ................................................................................................................................... 26
4.2.1. Funo ................................................................................................................................................................. 26
4.2.2. Mtodo................................................................................................................................................................. 27
4.2.3. Amostras muito pequenas.................................................................................................................................... 28
4.2.4. Amostras mdias (n entre 9 e 20) ........................................................................................................................ 29
4.2.5. Grande amostras (n > 20) ................................................................................................................................... 30
4.2.6. Empates................................................................................................................................................................ 31
4.3. O TESTE DE KOLMOGOROV-SMIRNOV .......................................................................................................................... 31
4.3.1. Funo e fundamentos lgicos ............................................................................................................................ 31
4.3.2. Mtodo................................................................................................................................................................. 32
4.3.3. Pequenas amostras .............................................................................................................................................. 32
4.3.4. Grandes amostras: prova bilateral...................................................................................................................... 34
4.3.5. Grandes amostras: prova unilateral.................................................................................................................... 34

5. TESTES PARA K AMOSTRAS RELACIONADAS..................................................................................................... 37

5.1. O TESTE DE F RIEDMAN (ANLISE DE VARINCIA DE DUPLA CLASSIFICAO POR POSTOS) ......................................... 37
5.1.1. Funo ................................................................................................................................................................. 37
5.1.2. Fundamentos lgicos do mtodo......................................................................................................................... 37

6. TESTES PARA K AMOSTRAS INDEPENDENTES ................................................................................................... 42

6.1. O TESTE QUI-QUADRADO .............................................................................................................................................. 42


6.1.1. Funo ................................................................................................................................................................. 42
6.1.2. Mtodo................................................................................................................................................................. 42
6.1.3. Quando usar a prova do qui-quadrado............................................................................................................... 44
6.2. O TESTE DE KRUSKAL-WALLIS (ANLISE DE VARINCIA DE UMA CLASSIFICAO POR POSTOS)................................ 44
6.2.1. Funo ................................................................................................................................................................. 44
6.2.2. Mtodo................................................................................................................................................................. 44
6.2.3. Empates................................................................................................................................................................ 47

7. MEDIDAS DE CORRELAO E SIGNIFICNCIA.................................................................................................. 48

7.1. O COEFICIENTE DE CONTINGNCIA: C .......................................................................................................................... 48


7.1.1. Funo ................................................................................................................................................................. 48
7.1.2. Mtodo................................................................................................................................................................. 48
7.1.3. A prova de significncia do coeficiente de contingncia .................................................................................... 49
7.1.4. Limitaes do coeficiente de contingncia.......................................................................................................... 50
7.2. O COEFICIENTE V DE CRAMER ..................................................................................................................................... 51
7.3. O COEFICIENTE DE CORRELAO DE POSTOS DE SPEARMAN: RS .................................................................................. 52
7.3.1. Funo ................................................................................................................................................................. 52
7.3.2. Fundamentos lgicos........................................................................................................................................... 52
7.3.3. Observaes empatadas ...................................................................................................................................... 55

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 3
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

7.3.4. Teste de significncia para o coeficiente de correlao de Spearman ............................................................... 56


7.4. O COEFICIENTE DE CONCORDNCIA DE KENDALL: W .................................................................................................. 57
7.4.1. Funo ................................................................................................................................................................. 57
7.4.2. Fundamentos lgicos........................................................................................................................................... 57
7.4.3. Mtodo................................................................................................................................................................. 58
7.4.4. Empates................................................................................................................................................................ 59
7.4.5. Teste de significncia para W.............................................................................................................................. 61
7.4.6. Interpretao de W .............................................................................................................................................. 61
7.5. CONCLUSO ................................................................................................................................................................. 62

8. EXERCCIOS.................................................................................................................................................................... 63

9. RESPOSTAS DOS EXERCCIOS .................................................................................................................................. 71

10. BIBLIOGRAFIA ............................................................................................................................................................. 72

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 4
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

ESTATSTICA NO PARAMTRICA

1. INTRODUO

1.1. GENERALIDADES
Um dos principais assuntos da Estatstica moderna a inferncia estatstica. A inferncia
estatstica dividida em dois grandes tpicos: a estimao de parmetros de uma populao e os testes
de hipteses.

No desenvolvimento dos mtodos da estatstica moderna, as primeiras tcnicas de inferncia


que apareceram foram as que faziam diversas hipteses sobre a natureza da populao da qual se
extraam os dados. Como os valores relacionados com a populao so denominados parmetros,
tais tcnicas estatsticas foram denominadas de paramtricas.
A Estatstica No-Paramtrica to recente, que o aparecimento dos primeiros testes, neste
rea, datam do incio do sculo. O seu maior crescimento ocorreu nos ltimos 40 anos. Um teste no-
paramtrico aquele cujo modelo no especifica condies sobre os parmetros da populao da qual
a amostra foi obtida. Mesmo quando existem certas pressuposies, estas so mais brandas do que
aquelas associadas ao testes paramtricos.

1.2. ALGUNS MOTIVOS PARA O SEU USO


O uso freqente dos testes no-paramtricos dar ao pesquisador outras vantagens, alm das
seguintes:

So menos exigentes do que os paramtricos. Dispensam, por exemplo, a normalidade dos dados.

Em geral, as probabilidades das afirmativas obtidas na maioria dos testes no-paramtricos, so


exatas, salvo quando se usam aproximaes para grandes amostras.

Independem da forma da populao da qual a amostra foi obtida.

So, em geral, de mais fcil aplicao e exigem, quase sempre, menor volume de clculos.

Existem testes no-paramtricos que nos permitem trabalhar com dados de diferentes populaes, o
que no possvel com os paramtricos.

So teis nos casos em que difcil estabelecer uma escala de valores quantitativos para os dados. o
pesquisador pode apenas dizer que um dado tem mais ou menos da caracterstica que est sendo
analisada, sem poder precisar ou quantificar as diferenas. Os dados se encontram numa certa
ordem de classificao: mais ou menos; melhor ou pior; maior ou menor; etc.
P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 5
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

So mais eficientes do que os paramtricos, quando os dados da populao no tm uma


distribuio normal. E quando a populao normalmente distribuda, sua eficincia, em alguns
casos, levemente inferior dos concorrentes.

1.3. ALGUMAS RESTRIES AO SEU USO


Em geral no levam em considerao a magnitude dos dados. muito comum transformar os
dados, de valores para simples ordem ou sinais. Em muitos casos isso se traduz num desperdcio de
informaes.

Quando todas as exigncias do modelo estatstico esto satisfeitas, o teste paramtrico tem mais
poder. Para se obter a mesma eficincia com um teste no-paramtrico necessrio um amostra
maior.

Em, geral, no permitem testar interaes, exceto a aditividade em condies especiais. Isto
restringe a sua aplicao aos modelos mais simples.

A obteno, utilizao e interpretao das tabelas (distribuies de probabilidade) so em geral,


mais complexas.

1.4. A ESCOLHA DO TESTE ESTATS TICO


Existem inmeros testes estatsticos tanto paramtricos quanto no paramtricos. Alguns itens
devem ser levados em conta na escolha da prova estatstica para determinada situao. A maneira
como a amostra foi obtida, a natureza da populao da qual se extraiu a amostra e o tipo de
mensurao ou escala empregado nas definies operacionais das variveis envolvidas, isto , o
conjunto de valores numricos e ainda o tamanho da amostra disponvel.

Uma vez determinados natureza da populao e o mtodo de amostragem ficar


estabelecido o modelo estatstico. Associado a cada teste estatstico tem-se um modelo estatstico e
condies de mensurao, o teste vlido sob as condies especificadas no modelo e pelo nvel da
escala de mensurao. Nem sempre possvel verificar se todas as condies do modelo foram
satisfeitas e neste caso tem-se que admitir que estas condies foram satisfeitas. Estas condies do
modelo estatstico so denominadas suposies ou hipteses do teste. Qualquer deciso tomada atravs
de um teste estatstico somente ter validade se as condies do modelo forem vlidas.
bvio que quanto mais fracas forem s suposies do modelo mais gerais sero as
concluses. No entanto, as provas mais poderosas, isto , apresentam maior probabilidade de rejeitar
H0 quando for falsa, so as que exigem as suposies mais fortes ou mais amplas.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 6
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

1.5. MENSURAO
O processo de selecionar um modelo matemtico ou estatstico a ser utilizado com uma dada
tcnica de pesquisa envolve algumas decises importantes. A escolha do modelo a ser aplicado
precedida pela mensurao do fenmeno envolvido. E a primeira dificuldade surge j na necessidade
de definirmos o que mensurao. Se ela se referir somente queles tipos de medidas comumente
utilizados em cincias tais como a Fsica (por exemplo: medidas de comprimento, massa ou tempo)
no haver muitos problemas na escolha do sistema matemtico. Agora se o conceito de medida for
ampla o suficiente para incluir certos procedimentos de categorizao, normalmente utilizados em
Cincias Sociais, ento o problema torna-se mais complexo. Pode-se distinguir diversos nveis de
mensurao e, para cada um, existem diferentes modelos estatsticos apropriados. As operaes
possveis em um determinado conjunto numrico dependem do nvel de mensurao atingido.

As quatro formas de mensurao ou tipos de medidas so: nominal, ordinal, intervalar e de


razo.
Nvel nominal. Os termos nvel nominal de medida ou escala nominal so utilizadas para se
referir a queles dados que s podem ser categorizados. No sentido estrito, no existe uma medida ou
escala envolvida, o que existe apenas uma
contagem. Variveis que podem ser ditas nominais Tabela 1.1 - Exemplo de uma varivel
so: a classificao das pessoas quanto religio, nominal
sexo, estado civil, etc. No existe uma ordem Estado civil Nmero de pessoas
particular entre as categorias ou grupos e alm Casados 340
Solteiros 250
disso duas categorias quaisquer so mutuamente Vivos 40
excludentes, isto , uma pessoa no pode ser ao Divorciados 50
Total 700
mesmo tempo catlico e protestante. Alm disso
as categorias so exaustivas, significando que um determinado elemento deve aparecer em uma e
somente uma das categorias. Veja-se um exemplo na tabela 1.1.
Na classificao os nomes das categorias so atribudos arbitrariamente, como rtulos de
convenincia. Por exemplo, colocam-se catlicos e protestantes em categorias diferentes, mas isto no
significa que uma melhor ou maior que a outra. Como as categorias so exaustivas (incluem todos os
casos) e mutuamente exclusivas (no h sobreposio, um elemento pertence a uma e somente uma
categoria) tm-se as condies mnimas para a aplicao de procedimentos estatsticos. O termo escala
nominal utilizado para indicar o nvel mais baixo de mensurao.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 7
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

As estatsticas possveis de serem calculadas quando se tem uma escala nominal so: a moda e
a contagem de freqncias. Sob certas condies, pode-se comprovar hipteses utilizando-se o teste 2
(qui-quadrado). A medida de associao mais comum para dados nominais o coeficiente de
contingncia C.

Nvel ordinal. O nvel (ou escala) ordinal o tipo (ou escala) nominal em que se pode
ordenar as categorias. A nica diferena entre os dois nveis a relao de ordem que se pode
estabelecer entre as categorias. No entanto, no possvel afirmar o quanto uma categoria maior do
que a anterior, isto , no se pode afirmar o quanto uma categoria possui da caracterstica. A avaliao
do desempenho escolar, atravs de conceitos, um exemplo de escala ordinal. No entanto, com este
tipo de medida, no se pode afirmar que quem tirou A ou teve um nmero de acertos duas vezes
maior que quem tirou C. A nica coisa que se sabe que tem A acertou mais questes do quem tem B
e este de quem tem C e assim por diante.
A estatstica mais adequada para a descrio da tendncia central dos valores em uma escala
ordinal a mediana, pois ela no afetada por modificaes de quaisquer valores acima ou abaixo
dela, desde que o nmero de observaes acima ou abaixo permanea o mesmo. Numa escala ordinal
pode ser utilizado qualquer teste que envolva ordenaes ou postos. So adequados os coeficientes
de correlao baseados em postos, como por exemplo: o coeficiente rs de Spearman. A tabela 1.2
apresenta um exemplo deste tipo de medida.
Nvel intervalar. A escala de medida intervalar uma escala nominal em que a distncia
entre as categorias ao contrrio da ordinal sempre a mesma. Ou seja ela possui todas as
caractersticas da escala ordinal mais o fator de que a distncia entre as diversas categorias (ou valores)
sempre constante. As escalas de medir temperaturas como a Fahrenheit e a Centgrada so exemplos
de escalas de intervalo. No entanto, no se pode afirmar que uma temperatura de 40 graus duas vezes
mais quente que uma de 20 graus, embora se possa dizer que a diferena entre 20 graus e 40 graus a
mesma que entre 75 graus e 95 graus. Isto porque este
Tabela 1.2 - Exemplo de uma varivel tipo de escala no possui um zero absoluto .Ou seja o
ordinal
valor zero na escala apenas um ponto de referncia e
Conceitos Nmero de alunos
no significa a ausncia de calor.
A 4
B 6 A escala de intervalo a primeira
C 14
D 3 verdadeiramente qualitativa encontrada at agora.
E 2 Todas as estatsticas paramtricas comuns como:
Total 30
mdias, desvios-padro, correlao de Pearson, etc. so

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 8
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

aplicveis a dados nesta escala, assim como os testes paramtricos comuns como o t e o F.

Nvel de razo. Este o mais alto nvel de medida. caracterizado por apresentar todas as
propriedades da escala intervalar mais um zero absoluto. Isto , aqui o zero pode e deve ser entendido
como a ausncia da caracterstica e as comparaes de valor (razo) tem sentido. Um exemplo de
varivel deste tipo o peso. Um valor igual a zero significa ausncia de peso e um valor de 20 kg o
duas vezes mais pesado que um de 10 kg. Os valores de uma escala de razo so nmeros verdadeiros
e com um zero verdadeiro (absoluto), ento qualquer estatstica aplicvel a este tipo de escala.

1.6. A DISTRIB UIO AMOSTRAL


A distribuio amostral uma distribuio de probabilidade, isto , uma distribuio terica
que descreve o comportamento de uma determinada estatstica ou estimador. As principais estatsticas
utilizadas nos testes de hipteses possuem modelos conhecidos. Tm-se a distribuio normal, a
distribuio t (de Student) a distribuio 2 (qui-quadrado), a distribuio F (de Snedkor) como as
principais.

1.7. ETAPAS DO TESTE DE HIP TESES


Qualquer teste de hipteses no-paramtrico segue os seguintes passos:

1. Formular as hipteses. Estabelecer as hipteses nula e alternativa. A construo de um teste de


hipteses pode ser colocado de forma geral do seguinte modo. Toma-se uma amostra da varivel (ou
das variveis) X (no caso) de uma dada populao, de onde se tem uma hiptese sobre um determinado
parmetro, por exemplo: . Esta hiptese a hiptese nula ou hiptese de igualdade:

H0: = 0

Tendo formulado a hiptese nula conveniente determinar qual ser a hiptese aceita caso a
hiptese nula seja rejeitada, isto , convm explicitar a hiptese alternativa. A hiptese alternativa vai
depender de cada situao mas de forma geral tem-se:

H1: = 1 (hiptese simples), ou ento o que mais comum, hipteses compostas:

H1: > 0 (teste unilateral ou unicaudal direita)

< 0 (teste unilateral ou unicaudal esquerda)

0 (teste bilateral ou bicaudal)

2. Estabelecer a estatstica (estimador ) a ser utilizado. Aps fixar as hipteses necessrio


determinar se a diferena entre a estatstica amostral e o suposto valor do parmetro da populao

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 9
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

suficiente para rejeitar a hiptese. A estatstica utilizada deve ser definida e sua distribuio terica
determinada.
3. Fixar o nvel de significncia do teste. Fixar a probabilidade de ser cometer erro do tipo I, isto ,
estabelecer o nvel de significncia do teste. Fixado o erro do tipo I, possvel determinar o valor
crtico, que um valor lido na distribuio amostral da estatstica considerada (tabela). Este valor vai
separar a regio de crtica (de rejeio) da regio de aceitao.

4. Calcular a estatstica teste (a estimativa). Atravs da amostra obtida calcular a estimativa que
servir para aceitar ou rejeitar a hiptese nula. Dependendo do tipo de hiptese alternativa este valor
servir para aceitar ou rejeitar H0.
5. Tomar a deciso. Se o valor da estatstica observada na amostra estiver na regio crtica rejeitar Ho,
caso contrrio aceitar H0.

6. Concluso. Enunciar a tomada da deciso em termos do problema sendo testado.

1.8. TIP OS DE TESTES NO-PARAMTRICOS


Os testes no-paramtricos podem ser divididos em testes para:

Uma amostra
Duas amostras emparelhadas (dependentes)
Duas amostras independentes
Vrias amostras emparelhadas (dependentes)
Vrias amostras independentes
Abaixo segue um resumo dos principais testes estatsticos no-paramtricos classificados de
acordo com o nvel de medida utilizado e de acordo com o(s) tipo(s) de amostra utilizados.

Tabela 1.3 - Resumo dos testes no-paramtricos


TESTES ESTATSTICOS NO-PARAMTRICOS
Nvel de Caso de uma Caso de duas Amostras Caso de k amostras Medidas de
mensurao amostra Amostras Amostras Amostras Amostras correlao no-
relacionadas independentes relacionadas independentes paramtricas
Nominal Binomial e 2 McNemar Fisher e 2 Q de Cochram 2 De contingncia
Ordinal Kolmogorov- Sinais Mediana Friedman Extenso da Por postos de Spearmann
Smirnov Wilcoxon U de Mann-Withney mediana Por postos de Kendall
Iteraes Kolmogorov-Smirnov Kruskal-Wallis Parcial de postos de
Iteraes de Wald- Kendall
Wolfowitz Concordncia de Kendall
Moses
Inte rvalar Walsh Aleatoriedade
Aleatoriedade

Alguns destes testes sero vistos na disciplina. Para os demais recomenda-se o livro do Siegel citado
na bibliografia.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 10
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

2. TESTES PARA UMA AMOSTRA

2.1. O TESTE QUI-QUADRADO

2.1.1. F UNO
A prova de uma amostra aplicada quando o pesquisador est interessado no nmero de
indivduos, objetos ou respostas que se enquadram em vrias categorias que podem ser duas ou mais.
Usa-se a tcnica do tipo de prova de aderncia, ou seja, deve comprovar se existe diferena
significativa entre o nmero observado de indivduos, ou de respostas, em determinada categoria, e o
respectivo nmero esperado, baseado na hiptese de nulidade.

2.1.2. M T ODO
O mtodo usado o da comparao, ou seja, comparar um grupo observado com um grupo
esperado de freqncias. Mas antes deve-se determinar as freqncias esperadas. Para isso, usa-se a
hiptese de nulidade, que dar a proporo de indivduos, ou objetos, que se enquadram em cada uma
das diferentes categorias em que a populao est presumidamente classificada. A hiptese de nulidade
pode ser testada por:

k ( )2
2 = Oi Ei , onde:
i=1 Ei

Oi = nmero de casos observados classificados na categoria i.

Ei = nmero de casos esperados na categoria i sob Ho, onde k = nmero de categorias.


Se h concordncia entre os valores observados e os esperados, as diferenas (Oi - E i) sero
pequenas e, consequentemente, 2 ser tambm pequeno. Se as divergncias, entretanto, forem
grandes, o valor de 2, ser tambm grande. Pode-se mostrar que a distribuio amostral de 2, sob Ho,
calculada pela frmula acima, segue a distribuio qui-quadrado com um nmero de graus de
liberdade igual a k-1 onde k igual ao nmero de categorias em que a varivel foi classificada.
Existem muitas distribuies qui-quadrado diferentes, uma para cada grau de liberdade. O
grau de liberdade, anotado por gl reflete o nmero de observaes livres (que podem variar) aps
feitas certas restries sobre os dados. Por exemplo, se forem classificados em duas categorias dados
relativos a 50 casos, to logo se saiba que, digamos, 35 casos se enquadram em uma das categorias,
automaticamente fica-se sabendo que 15 casos se enquadraro na outra. Tem-se, ento que gl = 1,
porque com duas categorias e qualquer n fixo, to logo se conhea o nmero de casos em uma
categoria a outra estar automaticamente determinada. Em geral, no caso de uma amostra, quando Ho

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 11
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

especifica plenamente os valores esperados o nmero de graus de liberdade ser: gl = k - 1, onde k


representa o nmero de categorias usadas na classificao dos dados.

Para empregar a prova 2 na comprovao de uma hiptese, deve-se enquadrar cada


observao em uma das k clulas. O nmero total dessas observaes deve ser n (nmero de elementos
da amostra considerada). Isto , cada observao deve ser independente de qualquer outra. No se
pode, portanto, fazer vrias observaes sobre o mesmo indivduo e consider-las como sendo
independentes. Deve-se tambm determinar a freqncia esperada para cada uma das k clulas. Se Ho
especificar que a proporo de elementos em cada categoria seja a mesma, ento Ei = n / k.

Exemplo:
Em corridas de cavalos ponto de vista comum entre os apostadores que, em uma pista
circular, as chances so mais favorveis a cavalos em determinadas posies (raias. A raia 1 a mais
prxima do lado interno da pista, e a 8 o mais afastada (numa corrida com 8 cavalos). Pode-se
comprovar os efeitos das raias, analisando-se os resultados das corridas, dados em funo das raias. No
exemplo, coletou-se os resultados do primeiro ms da temporada de 1955 (conforme o New York Post,
Ago. 30, 1955, pg. 42) em uma pista circular.

Tabela 2.2 - Nmero de vitrias de cavalos e seus respectivos postos

Posto
1 2 3 4 5 6 7 8 Total
Nmero de vitrias 29 19 18 25 17 10 15 11 144
1. Hipteses: Ho: No h diferena entre o nmero esperado de ganhadores em relao a
cada posto. H1: Existe diferena entre o nmero de ganhadores de cada posto.
2. Prova Estatstica. Como se est comparando os dados de uma populao presumida, usa-
se uma prova unilateral. Emprega-se a prova 2 porque a hiptese em estudo se refere comparao de
freqncias observadas e esperadas em categorias discretas. (As categorias so os oito postos).

3. Distribuio amostral. A distribuio amostral de 2 tal como calculada, pela expresso


dada acima, segue a distribuio qui-quadrado com gl = k - 1.

4. Regio de Rejeio. Ho ser rejeitada se o valor observado de 2, calculado pela expresso


acima, for maior que o valor tabelado, a um nvel de significncia dado .

5. Deciso. A amostra de 144 ganhadores forneceu os dados exibidos na tabela 2.2 acima. O
clculo do valor observado do qui-quadrado dado por:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 12
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

k ( )2
2 = Oi Ei = 16,30
i=1 Ei

A tabela fornece um valor 2 igual a 18,475 para gl = 7 e um nvel de significncia de 1%.


Neste caso, no possvel rejeitar H0, isto , no possvel afirmar a 1% de significncia que o
nmero de vitrias dependa do posto.

2.1.3. P E QUE NAS F RE Q NCI AS E SPE RAD AS


Quando gl = 1, isto , quando k = 2, cada freqncia esperada no deve ser inferior a 5.
Quando o grau de liberdade for maior do que um, isto , quando k > 2, a prova 2 no deve ser usada
se mais de 20% das freqncias esperadas forem inferiores a 5 ou se qualquer freqncia esperada
inferior a 1. As freqncias esperadas podem eventualmente ser aumentadas combinando-se categorias
adjacentes. Isto naturalmente s deve ser feito se as combinaes forem significativas.
Por exemplo, pode-se classificar um grupo de pessoas quanto sua atitude em relao a
determinada opinio em: "apoia fortemente", "apoia", indiferente", contra e fortemente
contra. Como forma de aumentar as freqncias esperadas as categorias poderiam ser reclassificadas
em: apoia, indiferente e contra.

2.1.4. O TE ST E QUI - QUADRADO RE L ACI ON ADO COM OUT ROS T E ST E S


A tabela 2.3, relaciona o teste 2 com outros testes no paramtricos e paramtricos.

Tabela 2.3 - Relacionamento entre testes paramtricos e no-paramtricos

Teste no-paramtrico Teste paramtrico


Dados nominais Dados ordinais
Uma amostra Qui-quadrado de aderncia Teste z de H0: P = a
Teste t de H0: = a
Duas amostras Qui-quadrado de Teste da mediana e Teste z de H0: P1 = P2
independentes homogeneidade Teste Mann-Whitney Teste t de H0: 1 = 2
Duas amostras Teste de Mc-Nemar Teste de Wilcoxon Teste z de H0: P1 = P2
relacionadas Teste t de H0: d = 0
k amostras Qui-quadrado de Teste de Kruskal- ANOVA de uma
homogeneidade Wallis classificao

2.2. O TESTE K -S (K OLMOGOROV-SMIRNOV)

2.2.1. F UNO E F UNDAME NT OS L GI COS


A prova de Kolmogorov-Smirnov (K-S) uma prova de aderncia. Isto , avalia o grau de
concordncia entre a distribuio de um conjunto de valores amostrais (valores observados) e
determinada distribuio terica especfica. A prova testa se os valores amostrais podem

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 13
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

provavelmente serem considerados como oriundos de uma populao com uma suposta distribuio
terica.
A prova utiliza as distribuies acumuladas, isto , ela compara a distribuio de freqncias
acumulada que deveria ocorrer sob a suposta distribuio (sob H0) com a distribuio de freqncias
acumuladas dos valores observados (amostrais). A estatstica teste o ponto de maior diferena (em
valor absoluto) entre as duas distribuies.

2.2.2. M T ODO
A distribuio terica acumulada (sob H0) representada por F0(x) e a distribuio de
freqncias dos valores amostrais por Sn(x). Como H0 supe que a amostra tenha sido obtida da
distribuio F0(x) razovel esperar que, para cada valor de x, Sn(x) esteja prximo de F0(x), isto ,
sob H0, espera-se que as diferenas entre Sn(x) e F0(x) sejam pequenas. O teste K-S toma a maior
destas diferenas em mdulo que denominada de desvio mximo e anotada por D.
Assim:
D = |F0(x) - Sn(x)|

A distribuio amostral de D, sob H0, conhecida e se encontra tabelada (tabela E, Siegel, pg.
282) em funo de n.

Exemplo:
Suponha que um dado jogado 150 vezes e que o nmero obtido de cada face seja anotado e
forneam os resultados apresentados na tabela 2.3. Testar ao nvel de 1% de significncia a hiptese de
que o dado equilibrado.

Tabela 2.3 - Nmero de faces na jogada de um dado 150 vezes.

Faces
1 2 3 4 5 6
Nmero de vezes que a face apareceu 29 19 19 27 26 30

Hipteses: Ho: O dado equilibrado.

H1: O dado no equilibrado.


Prova Estatstica. Emprega-se a prova K-S porque o pesquisador deseja comparar uma
distribuio observada de escores em escala ordinal com uma distribuio terica.

Nvel de significncia. Seja = 0,01.

Distribuio amostral. A tabela E (Siegel, pg. 282) apresenta vrios valores crticos de D
(valores da distribuio amostral) com as respectivas probabilidades de ocorrncia sob H0.
P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 14
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Regio de Rejeio. A regio de rejeio consiste de todos os valores de D to grandes que a


probabilidade associada sua ocorrncia, sob Ho, seja menor ou igual a 0,01.

Neste caso, F0(x) a distribuio acumulada terica, sob H0, onde H0 a hiptese de que cada
uma das cinco cpias tenha precisamente 1 / 6 = 16,67% das preferncias. S10(x) a distribuio
acumulada das freqncias observadas dos 150 lanamentos realizados. A ltima linha da tabela 2.4
fornece o valor absoluto do desvio de cada valor amostral em relao ao correspondente valor terico.

Tabela 2.4 - Clculos ilustrando a obteno da estatstica de K-S.

Faces
1 2 3 4 5 6
Nmero de vezes 29 19 19 27 26 30
F0(x) 1/6 2/6 3/6 4/6 5/6 1
S10(x) 29/150 48/150 67/150 94/150 120/150 1
|F0(x) - S10(x)| 0,0267 0,0133 0,0533 0,0400 0,0333 0

Observando-se a ltima linha da tabela 2.4, tem-se que D = 0,053. Observando-se a tabela E
(Siegel, pg. 282), a = 1%, verifica-se que o valor de D 1,630/ 150 = 0,133. Como o D calculado
no maior que o valor tabelado a concluso : aceitar H0 ao nvel de significncia de 1%, isto , no
se pode afirmar que o dado desequilibrado.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 15
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

3. TESTES PARA DUAS AMOSTRAS RELACIONADAS

3.1. O TESTE DE MCNEMAR PARA A S IGNIF ICNCIA DE


MUDANAS

3.1.1. F UNO
O teste de McNemar para a significncia de mudanas particularmente aplicvel aos
experimentos do tipo "antes e depois" em que cada sujeito utilizado como seu prprio controle e a
medida efetuada em escala nominal ou ordinal.

3.1.2. M T ODO E FUNDAME NT OS L GI COS


Para testar a significncia de qualquer mudana observvel, atravs deste mtodo,
necessrio construir uma tabela de freqncias dois por dois para representar o primeiro e o segundo
conjunto de respostas dos mesmos indivduos. As caractersticas gerais de tal tabela encontram-se
ilustradas abaixo, onde os valores + e - so utilizados para representar respostas diferentes.

Tabela 3.1 - Tabela 2x2 utilizada para testar a significncia de mudanas no


teste de McNemar
Depois

- +
Antes + A B
- C D

Note-se que aqueles casos que mostram mudanas entre a primeira e a segunda resposta
aparecem nas clulas A e D. Um sujeito contado na clula A se ele muda de + para - e contado na
D se ele muda de - para +. Se nenhuma mudana ocorre ele contado nas clulas A (resposta + antes
e depois) e C (resposta - antes e depois).
Como A + D representa o nmero total de elementos que acusaram alguma modificao, a
expectativa, sob a hiptese de nulidade, de que 1/2 (A + D) acuse modificaes em um sentido e 1/2
(A + D) no outro sentido.

Do teste qui-quadrado tem-se que:


k ( )2
2 = Oi Ei , onde Oi o nmero observado de casos na categoria i e Ei o nmero
i=1 Ei

esperado de casos nesta mesma categoria.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 16
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Neste teste, as clulas de interesse so somente a A e a D. Desta forma, se A o nmero de


casos observados na clula A e D o nmero observado de casos na clula D e (A + D) / 2 o nmero
esperado de casos em cada uma das clulas, ento vem:

A +D 2 A +D 2
k ( ) 2 (A ) (D )
2 = Oi Ei = 2 + 2 . Simplificando, vem:
i=1 Ei A +D A+D
2 2

( A D ) 2
2 = com grau de liberdade (isto , linha da tabela) igual a 1.
A+D

3.1.3. C ORRE O DE CONTI NUI DADE


A aproximao da distribuio acima pela distribuio qui-quadrado torna-se excelente, se for
executada uma correo de continuidade. A correo torna-se necessria porque uma distribuio
contnua, no caso, o qui-quadrado est sendo usada para aproximar uma distribuio discreta. Quando
todas as freqncias esperadas so pequenas, esta aproximao pode no ser boa. A correo de
continuidade (de Yates) uma tentativa de remover esta fonte de erro. A expresso acima incluindo a
correo de Yates fica:

(| A D|1)2
2 =
A +D

Exemplo
Um psiclogo infantil est interessado em observar a iniciao de contatos sociais em
crianas. Ele observou que crianas que so novas em uma escola maternal estabelecem contatos
interpessoais com adultos ao invs de com outras crianas. Ele prev que medida que se familiarizam
com o ambiente as crianas estabelecem contatos interpessoais com outras crianas ao invs de com
adultos. Para testar esta hiptese ele observa 25 crianas nos seus primeiros dias em uma escola
maternal e ento categoriza suas primeiras iniciaes de contatos sociais em: se foi dirigido a um
adulto ou se foi dirigido a outra criana. Ele, ento, observa cada uma das 25 crianas depois de elas
estarem na escola por um ms, fazendo a mesma classificao. Os dados esto colocados na tabela 3.2
abaixo.

Tabela 3.2 - Tipo de iniciao social de crianas de uma escola maternal


Objeto de iniciao no trigsimo dia

Objeto de Criana Adulto


iniciao no Adulto 14 4
primeiro dia Criana 3 4

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 17
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Hipteses: Ho: Para aquelas crianas que mudam a probabilidade de que uma criana mude o
seu objeto de iniciao de um adulto para criana (isto , PA) igual a probabilidade que ela mude seu
objeto de iniciao de criana para adulto (isto , PB) e igual a 50%, ou seja: PA = PB = 1/2.

H1: PA > PB
Prova Estatstica. Prova de McNemar para a significncia de mudanas porque o estudo
utiliza duas amostras relacionadas e utiliza mensurao nominal.

Nvel de significncia. Sejam = 0,05 e n = 25, o nmero de crianas observadas no


primeiro e no trigsimo dia na escola maternal.
Distribuio amostral. Qui-quadrado com 1 grau de liberdade.

Regio de Rejeio. Consiste de todos os valores da distribuio 2 obtidos dos dados tal que
a probabilidade de ocorrncia de um valor mais extremo menor que 0,05.
Deciso. Os dados hipotticos do exemplo esto mostrados na tabela 3.2 acima. De acordo
com eles o valor de qui-quadrado calculado :

(| A D|1)2 (|14 4|1)2


2 = = = 4,50
A +D 14 + 4

Uma consulta tabela mostra que o valor da distribuio qui-quadrado com um grau de
liberdade e com probabilidade de 5% 3,84. Como o valor calculado maior do que o valor tabelado
rejeita-se H0, isto , pode-se afirmar que as crianas apresentam tendncia significativa para mudar o
objeto de seu interesse, de adulto para outra criana, aps 30 dias de freqncia escola maternal.

3.1.4. P E QUE NAS F RE Q NCI AS E SP E RADAS


Se a freqncia esperada, isto , 1/2 (A + D) muito pequena (menor do que 5), deve ser
usada a prova Binomial no lugar da prova de McNemar. Para o teste Binomial n = A + D e x = menor
das duas freqncias observadas A ou D.

3.2. O TESTE DE W ILCOXON

3.2.1. F UNO
O teste de Wilcoxon o mais poderoso para o pesquisador do comportamento. Com dados
comportamentais no de todo incomum que o pesquisador possa: (a) dizer qual membro do par
maior, isto , determinar o sentido da diferena dentro do par e (b) ordenar estas diferenas no
sentido de seu valor absoluto.

3.2.2. F UNDAME NT OS L GICOS E M T ODO


Seja d i = valor da diferena dentro do par i. Para realizar o teste de Wilcoxon deve-se:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 18
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Atribuir postos a cada d i, independentemente de sinal. Ao menor d i, atribuir o posto 1; ao


prximo o posto 2 e assim por diante.

A cada posto deve-se atribuir o sinal da diferena, isto , indique quais postos decorrem de
diferenas negativas e quais de diferenas positivas.

Se as duas classificaes so equivalentes, isto se Ho verdadeira, de se esperar que


algumas das maiores diferenas sejam positivas e outras negativas. Desta forma, se forem somados os
postos com sinal mais e os postos com sinal menos, deve-se esperar somas aproximadamente iguais.
Se houver diferena entre estas duas somas sinal de que as duas classificaes (ou tratamentos) no
se eqivalem e deve-se ento rejeitar a hiptese nula.

3.2.3. E MPAT E S
Eventualmente os escores de dois pares sero iguais. Neste caso eles so excludos da anlise.
o mesmo procedimento adotado no teste dos sinais. Da mesma forma o valor de n ser reduzido na
mesma quantidade de valores em que a diferena for nula.

Pode ocorrer, ainda, um outro tipo de empate. Duas ou mais diferenas podem ter o mesmo
valor absoluto. Neste caso, atribu-se o mesmo posto aos empates. Este posto a mdia dos postos que
teriam sido atribudos se as diferenas fossem diferentes. Por exemplo, se trs pares acusam as
diferenas: -1, -1 e +1, a cada par ser atribudo o posto 2, que a mdia entre 1, 2 e 3. O prximo
valor, pela ordem, receberia o valor 4, porque j teriam sido utilizados os postos 1, 2 e 3.

3.2.4. P E QUE NAS A MOST RAS


Seja T a menor soma dos postos de mesmo sinal (negativos ou positivos), isto , ou a soma
dos postos positivos ou a soma dos postos negativos (a que for menor). A tabela G (Siegel, pg. 285)
fornece vrios valores de T com os respectivos nveis de significncia. Se um T observado no supera
o valor dado na tabela G sob determinado nvel de significncia para uma amostra de tamanho n,
rejeita-se a hiptese de nulidade quele nvel.
A tabela G pode ser usada tanto para testes unilaterais quanto bilaterais. Utiliza-se uma prova
unilateral se o pesquisador pode predizer, antes de examinar os dados, o sinal da menor soma de
postos. Isto , tal como no caso de todas as provas unilaterais, ele deve poder predizer o sentido da
diferena.

Exemplo
Suponha-se que um psiclogo est interessado em testar se a freqncia a uma escola
maternal tem algum efeito sobre os escores de perceptividade social das crianas. Oito pares de

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 19
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

gmeos so os objetos da sua observao. Um dos gmeos freqentar a escola por um perodo e o
outro permanecer em casa. Ele classifica a percepo atravs da atitude da criana em relao a um
conjunto de figuras que ilustram uma diversidade de situaes sociais, formulando um grupo padro de
perguntas sobre cada figura. Assim ele pode obter um escore entre 0 e 100 para cada criana. Ao
fim do perodo escolar, as 16 crianas so submetidas ao teste de perceptividade social.
Hiptese de nulidade: H0: No h diferena entre os graus de perceptividade das crianas
que ficaram em casa e das que freqentaram a escola, ou seja, a soma dos postos negativos igual a
soma dos postos positivos.

H1: Os graus de perceptividade social dos dois grupos de crianas so diferentes, isto , a
soma dos postos negativos diferente da soma dos postos positivos.
Prova Estatstica: Escolhe-se a prova de Wilcoxon, pois um caso de duas amostras
relacionadas e proporciona escores de diferenas que podem ser ordenados segundo seus valores
absolutos.

Nvel de significncia: Sejam = 0,05 e n = nmero de pares (8) menos o nmero em que
eventualmente se tenha d = 0.
Regio de rejeio. bilateral, pois no se prev o sentido da diferena. A regio de rejeio
consiste de todos os valores de T to pequenos que a probabilidade de ocorrncia, sob Ho, no seja
superior a = 0,05 para uma prova bilateral. .

Deciso: Neste caso, os 8 pares de crianas de casa e da escola so submetidos ao teste


aps o segundo grupo ter permanecido na escola durante um perodo escolar. A tabela 3.5 apresenta os
escores obtidos.

Tabela 3.5 - Escores de perceptividade social de 8 pares de crianas.

Pares Escola Casa d Posto de "d"


a 82 63 19 7
b 69 42 27 8
c 73 74 -1 -1
d 43 37 6 4
e 58 51 7 5
f 56 43 13 6
g 76 80 -4 -3
h 85 82 3 2

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 20
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Apenas 2 pares apresentam diferena no sentido de maior perceptividade das crianas que
ficaram em casa. E estas diferenas de escore esto entre os menores. e sua soma T = 1 + 3 = 4. A
tabela G (Siegel, pg. 285) mostra que para n = 8 um valor de T igual a 4 permite rejeitar a hiptese ao
nvel de significncia de 5% para um teste bilateral. Desta forma, pode-se concluir que a escola
maternal afeta a perceptividade social das crianas.

3.2.5. G RANDE S A MOST RAS


Quando n maior do que 25 a tabela G no pode ser utilizada. No entanto, pode ser mostrado
que a soma dos postos, T, aproximadamente normal, com

n(n + 1)(2n + 1)
Mdia = T = n(n + 1) / 4 e desvio padro T =
24

n(n + 1)
T T T
Desta forma, Z = = 4 aproximadamente N(0, 1).
T n(n + 1)(2n + 1)
24

Para mostrar que a aproximao excelente, mesmo para pequenas amostras, considere o
caso anterior em que n = 8 e T = 4. Colocando estes valores na expresso acima tem-se:
8.9
4
z= 4 = -1,96
8.917
.
24

Pela tabela da normal, pode-se verificar que a significncia deste valor p = 5% para um teste
bilateral. Este mesmo valor encontrada na tabela G (Siegel, pg. 285).

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 21
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

4. TESTES PARA DUAS AMOSTRAS INDEPENDENTES

4.1. O TESTE QUI-QUADRADO

4.1.1. F UNO
Utiliza-se esta prova quando os dados da pesquisa se apresentam sob forma de freqncias em
categorias discretas. Pode aplicar a prova 2 para determinar a significncia de diferenas entre dois
grupos independentes e consequentemente, com respeito a freqncias relativas com que os
componentes do grupo se enquadram nas diversas categorias.

4.1.2. M T ODO
A hiptese da nulidade pode ser testada mediante:

r k (Oij Eij)2
2 = onde:
i=1 j=1 Eij

Oij = n de casos observados na linha i da coluna j.

Eij = n de casos esperados, sob H0, na linha i da coluna j.

r k
indica somatrio sobre todas as r linhas e todas as k colunas.
i=1 j=1

Os valores de 2 obtidos pela frmula acima, tem distribuio aproximadamente qui-quadrado


com
gl = (r - 1)(k - 1), onde r = nmero de linhas e k o nmero de colunas.

Para obter a freqncia esperada Eij em cada clula, multiplicam-se os totais marginais
comuns a uma determinada clula e divide-se produto por n = total de casos.

Exemplo
Pode-se ilustrar o mtodo mediante um exemplo simples, com dados fictcios. Suponha-se
que se deseje comprovar se existe diferena de qualidade de liderana entre pessoas altas e pessoas
baixas. A tabela 4.6 mostra os resultados da classificao de 95 pessoas, que foram divididos entre
altos e baixos de um lado e por outro lado como lderes, liderados e no-classificveis. A
hiptese de nulidade de que a altura independente da classificao como lder ou liderado, isto , a
proporo de lderes altos e a mesma que a de lderes baixos e o mesmo se verificando entre os
liderados.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 22
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Tabela 4.6 - Altura e liderana

Baixo Alto Total


Lder 12 32 44
Liderado 22 14 36
No-classificvel 9 6 15
Total 43 52 95

Se as freqncias observadas esto prximas das freqncias esperadas o valor do 2 tambm


ser pequeno. Com um pequeno valor de 2 no podemos rejeitar a hiptese de nulidade, de que os
dois conjuntos de caractersticas sejam independentes um do outro. Todavia, se algumas ou muitas das
diferenas so grandes, o valor de 2 ser tambm grande. Quanto maior o valor de 2, tanto maior a
probalidade de que os dois grupos difiram em relao as classificaes adotadas. Pode-se mostrar que
a distribuio de 2, tal como definida pela frmula acima, tem distribuio aproximadamente qui-
quadrado com:

gl = (r - 1)(k - 1)
A tabela 4.7 ilustra o clculo das freqncias esperadas para os dados da tabela 4.6. Assim,
por exemplo, a freqncia esperada para a clula 3x2, isto , E32 : (52.15) / 95 = 8,2.

Tabela 4.7 - Altura e liderana

Baixo Alto Total


Lder 12 (19,9) 32 (24,1) 44
Liderado 22 (16,3) 14 (19,7) 36
No-classificvel 9 (6,8) 6 (8,2) 15
Total 43 52 95

O valor do 2 dado por:

r k (Oij Eij)2
=
2
= (12 - 19,9)2 / 19,9 + (32 - 24,1)2 / 24,1 + (22 - 16,3)2 / 16,6 + (14 - 19,7)2
i=1 j=1 Eij

/ 19,7 + (9 - 6,8)2 / 6,8 + (6 - 8,2)2 / 8,2 = 3,14 + 2,59 + 1,99 + 1,65 + 0,71 + 0,59 = 10,67

Para determinar a significncia de 2 = 10,67, quando gl = (3 - 1).(2 - 1) = 2, utiliza-se a


tabela 3 que mostra que este valor significativo alm do nvel = 0,01. Portanto, pode-se rejeitar a
hiptese de nulidade ao nvel de 1%. De fato, neste caso, seria possvel rejeitar tambm ao nvel de
0,5%.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 23
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

4.1.3. TAB E L AS DE C ONT I NG NCI A 2X2

Talvez a aplicao mais comum do teste 2 consista em comprovar se uma distribuio de


valores em uma tabela de contingncia 2x2 pode ter ocorrido sob H0. Neste caso, a frmula acima
assume a seguinte expresso particular:
2
n
n | AD BC|
2
2 = com gl = 1
( A + B)(C + D)( A + C)(B + D)

Esta expresso um pouco mais simples de aplicar do que a frmula anterior, pois requer
apenas uma diviso. Tem ainda a vantagem de incorporar uma correo de continuidade que melhora
sensivelmente a aproximao do 2 calculado pela distribuio qui-quadrado.

Exemplo
Adams estudou a relao entre os interesses vocacionais e a escolha do currculo com a taxa
de desistncia do curso universitrio por parte de estudantes superdotados. Os indivduos observados
eram estudantes classificados no percentil 90 nos teste de admisso e que haviam resolvido mudar de
carreira aps a matrcula. O pesquisador comparou os estudantes destacados cuja escolha curricular se
manteve na linha considerada desejvel vista do resultado obtido no teste vocacional de Strong (tais
casos sendo considerados como "positivos") com os estudantes destacados cuja escolha curricular se
processou em sentido diverso do indicado pelo T teste de interesses. A hiptese do pesquisador e que
os estudantes cuja escolha foi considerada "positiva" acusam maior freqncia de permanncia na
faculdade ou curso universitrio inicialmente escolhido.
Hipteses: Ho: No h diferena entre os dois grupos (escolha "positiva" e escolha
"negativa" de currculo) no que diz respeito a proporo dos estudantes que permanecem na faculdade.

H1: A porcentagem de permanncia na faculdade e maior entre os estudantes cuja escolha de


currculo foi considerada "positiva".

Prova Estatstica. Escolhe-se a prova 2 para duas amostras independentes porque os dois
grupos considerados "positivo" e "negativo" so independentes e porque os escores que esto sendo
estudados consistem de freqncias em categorias discretas (permanncia na faculdade ou afastamento
dela).

Nvel de Significncia. Sejam = 0,05 e n = nmero de estudantes na amostra = 80.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 24
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Distribuio Amostral. 2 tal como calculado pela frmula do exemplo tem distribuio
amostral aproximadamente qui-quadrado com gl = 1. A tabela 3 d os valores crticos do qui-
quadrado.

Regio de Rejeio. A regio de rejeio consiste de todos os valores de 2 que so to


grandes que a probabilidade associada sua ocorrncia, sob H0, no supere = 0,05. Como H1 prev o
sentido da diferena entre os dois grupos, a regio de rejeio unilateral. A tabela 3 indica que, uma
prova unilateral, quando gl = 1, 2 = 3,84. Portanto, a regio de rejeio consiste de todos os 2 > 3,84
se o sentido dos resultados o previsto em H1.

Deciso. A tabela d os resultados obtidos por Adams. Por ali se v que de 56 estudantes
superdotados que fizeram escolha "positiva", 10 se afastaram da universidade, e 46 permaneceram
nela. Dos 24, que fizeram escolha "negativa", 11 se afastaram da universidade e 13 permaneceram
nela.

Tabela 4.8 - Escolha de currculo e afastamento da Universidade entre os


estudantes super dotados
Sentido da escolha curricular

Positivo Negativo Total


Afastamento 10 11 21
Permanncia 46 13 59
Total 56 24 80

O valor do 2 para este dados :


2 2
n 80
n | AD BC| 80 |10.13 1146
. |
2 2
2 = = = 5,42
( A + B)(C + D)( A + C)(B + D) ( 21)( 59 )( 56)(24)

A probabilidade de ocorrncia, sob Ho, de 2 = 5,42 com gl = 1 menor que 5%. Como este
valor superior ao valor tabelado, a deciso rejeitar Ho em favor de H1. Conclui-se , pois que os
estudantes superdotados cuja a escolha de currculo foi considerado "positiva" acusam maior
freqncia de permanncia na universidade do que estudantes superdotados cuja escolha foi
considerada "negativa".

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 25
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

4.1.4. Q UANDO USAR O T E STE


A prova 2 exige que as freqncias esperadas em cada clula no sejam muito pequenas.
Quando elas so inferiores ao mnimo exigido, a aplicao da prova pode se tornar inadequada ou
mesmo intil.

O caso 2x2. Se as freqncias se dispem em uma tabela de contingncia 2x2 a deciso


quanto ao uso da prova 2 deve basear-se nas seguintes consideraes:

Quando n > 40 utilizar a prova com correo de continuidade.

Quando 20 n 40 a prova pode ser aplicada desde que nenhuma das freqncias
esperadas seja inferior a 5. Se a menor freqncia esperada for inferior a 5, utilizar a prova
de Fisher (SIE56).

Quando n < 20 utilizar a prova de Fisher em qualquer caso.


Tabelas de contingncia com gl superior a um. Quando k > 2 (e conseqentemente gl > 1),
a prova 2 pode ser aplicada somente se o nmero de clulas com freqncia esperada inferior a 5
inferior a 20% do total de clulas e se nenhuma clula tem freqncia esperada inferior a 1. Se essas
condies no so satisfeitas pelos dados da forma em que foram coletados originalmente, o
pesquisador deve combinar categorias adjacentes de modo a aumentar as freqncias esperadas nas
diversas clulas. Somente aps feita a combinao de categorias de forma a satisfazer as exigncias
acima que a prova 2 pode ser validamente aplicada.

Quando gl > 1 a prova 2 insensvel ao efeito de ordem. Por isso, quando determinada
hiptese leva em conta a ordem, a prova qui-quadrado pode no ser a melhor opo.

4.2. O TESTE U DE MANN-WH ITNEY


4.2.1. F UNO
Desde que o grau de mensurao seja pelo menos ordinal, pode-se aplicar a prova U de Mann-
Whitney para comprovar se dois grupos independentes foram ou no extrados da mesma populao.
Trata-se de uma das mais poderosas provas no-paramtricas e constitu uma alternativa extremamente
til da prova paramtrica t, quando se deseja evitar as hiptese exigidas por ela ou quando a
mensurao exigida inferior de escala de intervalos.
Suponha-se que existam duas amostras extradas das populaes A e B. A hiptese de
nulidade que A e B tenham a mesma distribuio. A hiptese alternativa, H1, que A maior do que
B (teste unilateral). Pode-se rejeitar H0 se a probabilidade de um escore de A ser maior do que um
escore de B maior do que 1/2. Isto , se a uma observao da populao A e b uma observao da

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 26
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

populao B, ento a hiptese alternativa que P(a > b) > 1/2. Se a evidncia apoia H1, isto implica
que o grosso da populao A superior ao grosso da populao B. Para uma prova bilateral, H1
seria que P(a > b) 1/2.

4.2.2. M T ODO
Seja n1 = nmero de casos no menor dos dois grupos independentes e n2 = nmero de casos
no maior grupo. Para aplicar o teste U, primeiramente combinam-se as observaes ou escores de
ambos os grupos, relacionando-os por ordem ascendente. Nessa ordenao ascendente, consideram-se
os valores algbricos, isto , os postos mais baixos so atribudos aos maiores nmeros negativos (se
houver).

Focaliza-se agora um dos grupos, seja o grupo que apresentar n1 casos. O valor de U (a
estatstica utilizada na prova) obtido pelo nmero de vezes que um escore no grupo com n2 casos
precede um escore no grupo com n1 casos no grupo ordenado crescentemente.

Por exemplo, suponha-se um grupo experimental com 3 casos e um grupo de controle com 4
casos. Aqui n1 = 3 e n2 = 4. Admita-se que os escores sejam os seguintes:

Escores E 9 11 15
Escores C 6 8 10 13

Para determinar U, ordenam-se primeiro os escores em ordem crescente, tendo o cuidado de


identificar a qual grupo cada um pertence (E ou C):

6 8 9 10 11 13 15
C C E C E C E

Considera-se agora o grupo de controle, C, e conta-se o nmero de escores E que precedem


cada escore deste grupo. Nenhum escore E precede o escore C igual a 6. Isto tambm verdade para o
escore C = 8. O prximo escore C 10 e precedido por um escore E. O ltimo escore C, o 13,
antecedido por dois escores E. Assim, U = 0 + 0 + 1 + 2 = 3. O nmero de vezes que um escore E vem
antes de um escore C igual a 3, isto , U = 3.

A distribuio amostral de U, sob H0, conhecida e pode-se ento determinar-se a


probabilidade associada ocorrncia, sob H0, de qualquer valor de U to extremo quanto o valor
observado.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 27
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

4.2.3. A MOST RAS MUI T O P E QUE NAS


Quando nem n1 e nem n2 so superiores a 8, pode-se utilizar a tabela J (Siegel, pg. 302-04)
para determinar a probabilidade exata associada ocorrncia, sob H0, de qualquer U to extremo
quanto o valor observado.

A tabela J constituda de 6 subtabelas separadas, uma para cada valor de n2, de n2 = 3, a n2 =


8. Para determinar a probabilidade, sob H0, associada aos dados necessrio saber o valor de n1, de n2
e de U.
No exemplo acima, tem-se: n1 = 3, n2 = 4 e U = 3. A subtabela para n2 = 4 da tabela J mostra
que U 3 tem probabilidade de ocorrncia, sob H0, de p = 0,20 = 20%.

As probabilidades fornecidas na tabela J so unilaterais. Para um teste bilateral, deve-se


duplicar o valor de p constante na tabela.
Caso o valor observado de U seja grande e no conste da tabela, existe a possibilidade de ter-
se tomado o grupo errado para a determinao de U. Neste caso, usa-se a transformao:
U = n1.n2 - U, onde U o valor no encontrado na tabela.

Exemplo
Solomon e Coles1 estudaram se os ratos seriam capazes de generalizar uma imitao
aprendida, quando colocados sob nova impulso (drive) e em nova situao. Cinco ratos foram
treinados para imitar ratos lderes em um labirinto T. Foram treinados para seguir seus lderes quando
estivessem com fome, a fim de atingir o alimento. Em seguida, os cinco ratos foram transferidos para
uma nova situao de esquiva ao choque eltrico. Seu comportamento na situao de esquiva ao
choque foi ento comparado ao de quatro controles que no tinham nenhum treinamento prvio para
seguir seus lderes. A hiptese era de que os 5 ratos que j tinham sido treinados para imitar seus
lderes transfeririam este treinamento para a nova situao e, assim, aprenderiam a evitar o choque
mais depressa do que os 4 ratos de controle. A comparao se fez em termos de quantas tentativas
foram precisas para cada rato atingir um critrio de 10 respostas corretas em 10 tentativas.

Hipteses: Ho: O nmero de tentativas para atingir o critrio desejado na situao de esquiva
ao choque o mesmo tanto para os ratos previamente treinados a seguir um lder na busca do
alimento, quanto para os ratos sem nenhum treinamento prvio. H1: Os ratos com treinamento prvio

1
SOLOMON, R. L., COLES, M. R. A case of failure of generalization of imitation across drives and across situations. J. Abnorm. Soc.
Psychol., 49, 7-13, 1954.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 28
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

para seguir um lder na busca de alimento atingiro o critrio desejado na nova situao de esquiva ao
choque mais rapidamente que os ratos no treinados.
Prova Estatstica. Escolhe-se a prova U de Mann-Whitney porque o estudo utiliza duas
amostras independentes, pequenas e mensurao (nmero de tentativas para atingir o critrio desejado
como ndice de velocidade de aprendizagem) provavelmente em escala ordinal, na melhor das
hipteses.

Nvel de Significncia. Sejam = 0,05 e n1 = 4 = ratos de controle e n2 = 5 = ratos


experimentais.
Distribuio Amostral. A tabela J (Siegel, pg. 302-04) fornece as probabilidades associadas
ocorrncia, sob H0, de valores to pequenos quanto determinado U observado para n1, n2 8.

Regio de Rejeio. Como H1 prediz o sentido da diferena, a regio de rejeio ser


unilateral. Consiste de todos os valores de U to pequenos que a probabilidade associada a sua
ocorrncia, sob H0, no supera = 0,05.

Deciso. Foram os seguintes os nmeros de tentativas necessrias para os ratos E =


experimental e C = controle atingirem o critrio desejado:

Ratos E 78 64 75 45 82
Ratos C 110 70 53 51

Dispondo os escores em ordem crescente e mantendo a identidade de cada um, vem:

45 51 53 64 70 75 78 82 110
E C C E C E E E C

Obtm-se o valor de U, contando o nmero de escores E que precedem cada escore C. Assim:

U= 1+ 1+ 2+ 5= 9

Na tabela J verifica-se que na subtabela para n2 = 5, U 9, quando n2 = 4 tem probabilidade


de ocorrncia, sob H0, de p = 0,452. A deciso que os dados no mostram evidncia que justifique a
rejeio de H0, ao nvel dado. Assim, no possvel afirmar que o treinamento prvio para imitar se
generalize atravs de novas situaes e novas impulses.

4.2.4. A MOST RAS M DI AS ( N E NT RE 9 E 20)


Se n2 representar o tamanho da maior das duas amostras e for maior do que 8, a tabela J no
poder mais ser utilizada. Quando 9 n2 20, pode-se aplicar a prova de Mann-Whitney utilizando a
tabela K (Siegel, pg. 305-08) que fornece valores crticos de U para os nveis de significncia de 0,001,

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 29
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

0,01, 0,025 e 0,05 para um teste unilateral. Para um teste bilateral, os nveis de significncia so dados
por: 0,002, 0,02, 0,05 e 0,10. Note-se que este conjunto de tabelas fornece valores crticos de U e no
probabilidades exatas (como as tabelas J). Isto , se um valor observado de U, para um dado n1 20 e
n2 entre 9 e 20, no supera o valor dado na tabela, pode-se rejeitar H0, a um dos nveis de significncia
indicados no cabealho da tabela.

Por exemplo, se n1 = 6 e n2 = 13, um valor de U = 12 permite rejeitar H0 ao nvel de = 0,01


em uma prova unilateral e rejeitar H0 ao nvel = 0,02 em uma prova bilateral.

Determinao do valor U. Para valores razoavelmente grandes de n1 e n2, o mtodo para


determinar o valor de U pode ser bastante trabalhoso. Um processo alternativo, que d resultados
idnticos, consiste em atribuir posto 1 ao mais baixo escore do grupo combinado de (n1 + n2) escores, o
posto 2 ao escore seguinte, etc. Ento:
( + 1) ( + 1)
U = n1n2 + n1 n1 R1 ou, de forma equivalente U = n1n2 + n2 n2 R2
2 2

onde R1 = soma dos postos atribudos ao grupo cujo tamanho de amostra n1,
R2 = soma dos postos atribudos ao grupo cujo tamanho de amostra n2.

Por exemplo, poder-se-ia Tabela 4.12 - Tentativas dos ratos para atingir o critrio
ter utilizado este processo para desejado

determinar o valor de U no caso de Escore E Posto Escore C Posto


pequenas amostras tratado acima. 78 7 110 9
Os escores E e C, bem como seus 64 4 70 5
75 6 53 3
postos, so apresentados novamente
45 1 51 2
na tabela 4.12.
82 8
Aplicando a frmula acima Soma R2 = 26 Soma R1 = 19
vem:
U = 4.5 + 5.(5 + 1) / 2 - 26 = 9

O menor dos dois valores de U aquele cuja distribuio amostral constitu a base da tabela K
(Siegel, pg. 305-08).

4.2.5. G RANDE AMOST RAS ( N > 20)


Nem a tabela J e nem a K podem ser utilizadas quando n2 > 20. Todavia, Mann e Whitney
mostraram (1947), que medida que n1 e n2 aumentam, a distribuio amostral de U tende
rapidamente para a distribuio normal, com:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 30
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

n1 n2 (n1 + n2 + 1)
Mdia = U = (n1n2) / 2 e desvio padro U = , isto , quando n2 > 20, o valor
12

n n
U U U 1 2
de: Z = = 2 tem distribuio aproximadamente N(0, 1).
U n1n2 (n1 + n2 + 1)
12

4.2.6. E MPAT E S
A prova de Mann-Whitney supe que os escores representem uma distribuio basicamente
contnua. Numa distribuio contnua a probabilidade de um empate zero. Todavia, como a
mensurao tem uma preciso limitada, os empates podem ocorrer. Admite-se que as observaes que
estejam empatadas, tenham, na realidade, escores diferentes, e que esta diferena muita pequena para
ser detectada pelo instrumento de medida.
Quando ocorrem empatem atribu-se a cada um dos valores empatados a mdia dos postos
que lhes seriam atribudas se no houvesse empate.
Se os empates ocorrem entre dois ou mais valores do mesmo grupo, o valor de U no
afetado. Mas se os empates ocorrem entre duas ou mais observaes envolvendo os dois grupos, ento
o valor de U afetado. Embora, os efeitos prticos dos empates sejam desprezveis existe uma
correo para empares que deve ser utilizada com a aproximao normal para grandes amostras. O
efeito dos postos empatados modifica a variabilidade do conjunto de postos. Assim, a correo deve
ser aplicada ao desvio padro da distribuio amostral de U. Com esta correo o desvio padro dado
por:

n1 n2 n3 n
U = T , onde n = n1 + n2 e T = (t3 - t) / 12 (t = nmero de escores
n(n 1) 12

empatados para um determinado posto).

Pode-se verificar que no houver empates a expresso acima se reduz a anterior.

4.3. O TESTE DE K OLMOGOROV-SMIRNOV

4.3.1. F UNO E F UNDAME NT OS L GI COS


A prova de Kolmogorov-Smirnov (K-S) de duas amostras comprova se elas foram extradas
da mesma populao (ou de populaes com a mesma distribuio). A prova bilateral sensvel a
qualquer diferena nas distribuies das quais se extraram as amostras - diferenas na posio central,
na disperso, na assimetria, etc. A prova unilateral utilizada para determinar se os valores da
populao da qual se extraiu uma das amostras so, ou no, estocasticamente maiores do que os
P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 31
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

valores da populao que originou a outra amostra, por exemplo, para testar a hiptese de que os
escores de um grupo experimental sero melhores do que os escores do grupo de controle.
Tal como a prova de K-S para uma amostra (item 2.3) o teste utiliza as distribuies
acumuladas. A prova de uma amostra se refere a concordncia entre a distribuio de um conjunto de
valores amostrais e determinada distribuio terica. A prova de duas amostras visa a concordncia
entre dois conjuntos de valores amostrais.

Se as duas amostras foram extradas da mesma populao, ento de se esperar que as


distribuies acumuladas das duas amostras sejam bastante prximas uma da outra, acusando apenas
desvios casuais em relao distribuio da populao. Se as distribuies acumuladas so
diferentes ou distantes uma da outra em qualquer ponto, isto sugere que as amostras provenham de
populaes tambm distintas. Assim um desvio grande pode levar a rejeio da hiptese de nulidade.

4.3.2. M T ODO
Para aplicar a prova de Kolmogorov-Smirnov de duas amostras, constri-se a distribuio das
freqncias acumuladas relativas de cada uma das amostras, utilizando os mesmos intervalos
(amplitude de classes) para cada uma delas. Em cada intervalo subtra-se uma funo da outra. A prova
utiliza como estatstica o maior destas diferenas.

Sejam Sn1(x) = funo acumulada observada para a primeira amostra, isto , Sn1(x) = k / n1,
onde k = nmero de escores no superiores a x. Seja Sn2(x) = funo acumulada observada da segunda
amostra, isto , Sn2(x) = k / n2. O teste K-S toma a maior destas diferenas em mdulo que
denominada de desvio mximo e anotada por D. Assim:
D = [Sn1(x) - Sn2(x)] para uma prova bilateral e D = |Sn1(x) - Sn2(x)| para uma prova
unilateral.
A distribuio amostral de D, sob H0, para uma prova bilateral conhecida (Smirnov, 1948,
Massey, 1951) e se encontra tabelada.

4.3.3. P E QUE NAS AM OST RAS


Quando n1 = n2 e no so superiores a 40, ento pode-se utilizar a tabela L (Siegel, pg. 309)
para comprovar a hiptese de nulidade. O corpo da tabela fornece vrios valores da quantidade KD,
que definida como o numerador da maior diferena entre as duas distribuies acumuladas, isto , o
numerador D. Para ler um valor nesta tabela, deve-se conhecer o valor de n = n1 = n2 e o valor de KD.
Por exemplo, em uma prova unilateral com n = 14, se kD 8, pode-se rejeitar H0 ao nvel de = 0,01.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 32
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Exemplo:
Lepley2 comparou o aprendizado serial de 10 Tabela 4.14 - Percentagem de erros
alunos da stimo grau com o aprendizado serial de 10 totais
alunos do dcimo primeiro grau, para comprovar a Alunos do 7 grau Alunos do 11 grau
hiptese de que o efeito de primazia menos 39,1 35,2
predominante no aprendizado de estudantes mais 41,2 39,2
jovens. O efeito de primazia a tendncia para reter a 45,2 40,9
46,2 38,1
matria aprendida no comeo de determinada srie
48,4 34,4
mais facilmente do que a matria aprendida no fim
48,7 29,1
daquela srie. Lepley comprovou sua hiptese 55,0 41,8
comparando a percentagem de erros cometidos pelos 40,6 24,3
dois grupos na primeira metade da srie, prevendo que 52,1 32,4
o grupo mais velho (alunos do dcimo primeiro grau) 47,2 32,6

cometeria relativamente menos erros do que o grupo mais jovem, ao evocar a primeira metade da srie.
Hipteses: Ho: No h diferena na proporo de erros cometidos ao evocar a primeira
metade da srie, entre os alunos dos dois graus.

H1: Os alunos do dcimo primeiro grau cometem relativamente menos erros do que os de
stimo grau ao evocarem a primeira metade da srie.

Prova Estatstica. Emprega-se a prova K-S porque o pesquisador deseja comparar duas
amostras pequenas e independentes, de mesmo tamanho.

Nvel de significncia. Sejam = 0,01 e n1 = n2 = n = nmero de indivduos em cada grupo =


10.

Distribuio amostral. A tabela L (Siegel, pg. 309) apresenta vrios valores crticos de kD
para n1 = n2 quando n1 e n2 so inferiores a 40.

Regio de Rejeio. Como H1 prediz o sentido da diferena, a regio de rejeio unilateral.


H0 ser rejeitada se o valor de k D do maior desvio na direo prevista for to grande que a
probabilidade associada sua ocorrncia, sob H0, no seja superior a 0,01.

Deciso. A tabela 4.14 fornece a percentagem dos erros cometidos por cada aluno ao evocar a
primeira metade da srie. Para anlise pela prova K-S os dados foram dispostos em duas distribuies
de freqncias acumuladas, apresentadas na tabela 4.15.

LEPLEY, W. M., Serial reactions considered as considered as reactions. Psychol. Monogr., 46, n. 205, 1934

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 33
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Note-se que a maior diferena entre as duas sries 7/10. Assim kD = 7, que o numerador
desta diferena mxima. Utilizando a tabela L, para n = 10, v-se que este valor significativo ao nvel
= 1% para uma prova unilateral. A deciso , portanto, rejeitar H0 em favor de H1. Conclu-se que os
alunos do dcimo primeiro grau comentem proporcionalmente menos erros do que os do stimo grau,
ao evocar a primeira metade da srie.

Tabela 4.15 - Distribuies acumuladas dos dados da tabela 4.14

% erros na primeira metade da srie


Classes 24-27 28-31 32-35 36-39 40-43 44-47 48-51 52-55
Sn1(x) 1/10 2/10 5/10 7/10 10/10 10/10 10/10 10/10
Sn2(x) 0/10 0/10 0/10 0/10 3/10 5/10 8/10 10/10
Sn1(x) - Sn2(x) 1/10 2/10 5/10 7/10 7/10 5/10 2/10 0

4.3.4. G RANDE S AMO ST RAS : P RO VA B I L AT E RAL


Quando tanto n1 quanto n2 so maiores do que 40, pode-se utilizar a tabela M (Siegel, pg.
310) para realizar o teste K-S de duas amostras independentes. Neste caso, no necessrio que n1 seja
igual a n2.
Para utilizar a tabela M, determina-se o valor de D para os dados observados, por meio da
expressoD = [Sn1(x) - Sn2(x)]. Compara-se ento esse valor observado com o valor crtico que se
obtm substituindo os valores observados de n1 e n2 na expresso dada pela tabela M. Se o D
observado no mnimo igual ao calculado por esta expresso, ento, ele pode ser rejeitado ao nvel de
significncia (bilateral) associado quela expresso.
Por exemplo, suponha-se que n1 = 55 e n2 = 60 e que se queira uma prova bilateral ao nvel de
5%. Na coluna da tabela M correspondente a = 5%, ser encontrado o valor de D que os dados
devem pelo menos igualar, para que se possa rejeitar a hiptese de nulidade. Efetuando os clculos,
verifica-se que D deve ser maior ou igual a 0,254 para a rejeio de H0, pois:

n1 + n2 55 + 60
136
, = 136
, = 0,254
n1 n2 ( 55)( 60 )

4.3.5. G RANDE S AMO ST RAS : P RO VA UNI L AT E RAL


Quando n1 e n2 so grandes e independentemente de ser n1 = n2, no se pode aplicar uma
prova unilateral considerando D = [Sn1(x) - Sn2(x)].
Neste caso deve ser utilizada a expresso:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 34
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

2 = 4 D2 n1 n2
n1 + n2

Goodman (1954) mostrou que esta expresso tem uma distribuio amostral
aproximadamente qui-quadrado com gl = 2. Ou seja, pode-se determinar a significncia de um valor
observado D, tal como calculado pela expresso de D acima, aplicando esta expresso em relao aos
valores observados de D, n1 e n2 e recorrendo a tabela do qui-quadrado, ao invs da tabela L ou M.

Exemplo
Em um estudo dos correlatos
Tabela 4.16 - N de fotos identificadas por 98
da estrutura da personalidade universitrias
autoritria3 formulou-se a hiptese de
N de fotos identificadas Escores baixos Escores altos
que as pessoas com alto grau de 0-2 11 1
autoritarismo apresentariam maior 3-5 7 3
tendncia para possuir esteretipos 6-8 8 6
sobre membros de diversos grupos 9 - 11 3 12
12 - 14 5 12
nacionais e tnicos, do que pessoas
15 - 17 5 14
com baixo grau de autoritarismo. A
18 - 20 5 6
hiptese foi comprovada em um
grupo de 98 estudantes universitrias selecionadas ao acaso. Cada uma recebeu 20 fotografias e foi
solicitada a identificar aquelas cuja nacionalidade reconhecia, casando a fotografia apropriada com
o nome do grupo nacional. No havia restrio quanto ao nmero de fotos que pudessem identificar
pelo processo descrito. Acontece que (sem que as estudantes soubessem) todas as fotos eram de
pessoas de nacionalidade mexicana - ou candidatos legislatura mexicana ou vencedoras de um
concurso de beleza mexicana; e como a lista de 20 nacionalidades no inclua a nacionalidade
mexicana, o nmero de fotos que cada um identificasse constituiria um ndice de sua tendncia
estereotipia. O grau de autoritarismo, medido pela escala F (de Adorno et al., 1950), foi classificado
como alto ou baixo. Escores considerados altos foram os situados acima da mediana e baixos os
situados abaixo da mediana.
Hipteses: Ho: As universitrias com baixo grau de autoritarismo identificariam tantos fotos
quanto as universitrias com alto grau de autoritarismo.

3
SIEGEL, S. Certain determinants and correlates of authoritarianism. Genet. Psychol. Monogr., 49, 187-229, 1954.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 35
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

H1: As universitrias com alto grau de autoritarismo identificariam maior nmero de fotos do
que as universitrias com baixo grau.
Prova Estatstica. Como a prova envolve amostras independentes foi escolhida o teste K-S.

Nvel de significncia. Seja = 0,01. Os tamanhos de n1 e n2 s podem ser determinados


aps a coleta dos dados, pois as pessoas sero agrupadas conforme o escore esteja acima ou abaixo do
escore mediano do grupo todo.

Distribuio amostral. Para grandes amostras a distribuio adequada a qui-quadrado.


Regio de Rejeio. Como H1 no prev o sentido da diferena entre os dois grupos, utiliza-
se uma prova unilateral.

Deciso. Para aplicar a prova K-S os dados so reagrupados nas distribuies de freqncias
acumuladas conforme tabela 4.17. A maior das diferenas que se pode verificar 0,41 (coluna 4), isto
, D = 0,41.

Tabela 4.17 - Dados da tabela 4.16 dispostos para aplicao da prova K-S

Nmero de fotos identificadas


Classes 0-2 3-5 6-8 9 - 11 12 - 14 15 - 17 18 - 20
Sn1(x) 11/44 18/44 26/44 29/44 34/44 39/44 44/44
Sn2(x) 1/54 4/54 10/54 22/54 34/54 48/54 54/54
Sn1(x) - Sn2(x) 0,23 0,34 0,41 0,25 0,14 -0,03 0

O valor do qui-quadrado ento obtido por:

2 = 4 D2 n1 n2 = 4.(0,41)2[44.54 / (44 + 54)] = 15,97


n1 + n2

A tabela do qui-quadrado indica que a probabilidade associada a 2 = 15,97 para gl = 2 p =


0,005 (prova unilateral). Como este valor inferior a = 0,01, podese rejeitar H0. Conclu-se que as
mulheres universitrias com alto grau de autoritarismo acusam maior tendncia estereotipia do que as
com baixo grau de autoritarismo.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 36
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

5. TESTES PARA K AMOSTRAS RELACIONADAS

5.1. O TESTE DE F RIEDMAN (ANL ISE DE VARINCIA DE DUP LA


CLASSIF ICAO P OR P OSTOS)

5.1.1. F UNO
Quando os dados de k amostras correspondentes se apresentam pelo menos em escala ordinal,
a prova de Friedman til para comprovar a hiptese de nulidade, de que as k amostras tenham sido
extradas da mesma populao. Como as k amostras esto em correspondncia, o nmero de casos o
mesmo para cada uma delas. A correspondncia pode ser estabelecida, quando se estuda o mesmo
grupo de indivduos sob cada uma das k condies. Ou pode-se obter vrios conjuntos, cada um deles
com k indivduos em correspondncia, associado-se, em seguida, aleatoriamente, um indivduo em
cada conjunto primeira condio, um indivduo em cada conjunto segunda condio, etc. Por
exemplo, desejando estudar as diferenas no aprendizado sob quatro mtodos de ensino, pode-se obter
n conjuntos de k = 4 alunos, cada conjunto constitudo de alunos que se correspondem segundo
variveis relevantes (idade, aprendizado prvio, inteligncia, situao scio-econmica, etc.)
associando-se em seguida, aleatoriamente, um aluno de cada um dos n conjuntos ao mtodo de ensino
A, outro de cada conjunto ao mtodo B, outro ao mtodo C e o quarto ao mtodo D.

5.1.2. F UNDAME NT OS L GICOS DO M T ODO


Para a prova de Friedman, os dados se dispem em uma tabela de dupla entrada com n linhas
e k colunas. As linhas representam os vrios indivduos ou conjuntos correspondentes de indivduos, e
as colunas representam as diversas condies. Se esto sendo estudados os escores de indivduos
observados sob todas as condies, ento cada linha d os escores de um indivduo sob as k condies.
Os dados da prova so postos. Aos escores de cada linha atribuem-se postos separadamente.
Isto , com k condies em estudo, os postos em qualquer linha vo de 1 a k. A prova de Friedman
determina se provvel que as diferentes colunas de postos (amostras) provenham da mesma
populao. Por exemplo, suponha-se que se queira estudar os escores de 3 grupos sob 4 condies.
Aqui k = 4 e n = 3. Cada grupo contm 4 indivduos correspondentes, um associado a cada uma das 4
condies. Suponha-se que os escores obtidos sejam os da tabela 5.1.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 37
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Tabela 5.1 - Escores de trs grupos correspondentes sob quatro condies

Condies
I II III IV
Grupo A 9 4 1 7
Grupo B 6 5 2 8
Grupo C 9 1 2 6

Para aplicar a prova de Friedam a estes dados, primeiro atribu-se postos aos escores em cada
linha. Ao mais baixo escore em cada linha pode-se atribuir o posto 1, ao seguinte em cada linha o
posto 2, etc. Obtm-se assim os dados mostrados na tabela 5.2. Note-se que os postos em cada linha da
tabela vo de 1 a k = 4.

Tabela 5.2 - Postos de trs grupos correspondentes sob quatro condies

Condies
I II III IV
Grupo A 4 2 1 3
Grupo B 3 2 1 4
Grupo C 4 1 2 3
Ri 11 5 4 10

Se a hiptese de nulidade (de que todas as amostras - colunas - provenham da mesma


populao) , de fato, verdadeira, ento a distribuio de postos em cada coluna ser aleatria, sendo
ento de se esperar que os postos 1, 2, 3 e 4 apaream em todas as colunas com freqncias
aproximadamente igual. Isto indica que, para qualquer grupo, uma questo de acaso sob que
condio ocorre o menor escore, o que seria o caso se as condies realmente no diferissem entre si.
Se os escores fossem dependentes das condies (isto , se H0 fosse falsa), ento os totais de postos
variariam de uma coluna para outra. Como as colunas contm, todas elas, o mesmo nmero de casos,
uma afirmativa eqivalente seria que, sob H0, os postos mdios das vrias colunas seriam
aproximadamente iguais.
A prova de Friedman determina se os totais dos postos (Rj) diferem significativamente. Para
aplicar o teste, calcula-se o valor de uma estatstica que Friedman representou por r2.
Quando o nmero de linhas e/ou colunas no muito pequeno, pode-se mostrar (Friedman,
1937) que r2 tem uma distribuio aproximadamente qui-quadrado, com gl = k - 1, sendo:

12 k
2 = R2j 3n(k + 1) , onde
nk (k + 1) i=1

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 38
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

n = nmero de linhas,

k = nmero de colunas,
Rj = soma dos postos da coluna j

Note-se que 2 tem distribuio aproximadamente qui-quadrado com gl = k - 1 somente


quando o nmero de linhas e/ou colunas no muito pequeno. Quando o nmero de linhas ou de
colunas inferior ao mnimo, existem tabelas com as probabilidades exatas que devem ser utilizadas.
A tabela N (Siegel, pg. 311-12) d as probabilidades exatas associadas a valores to grandes quanto um
2. observado, para k = 3 e n variando de 2 a 9 e k = 4 e n variando de 2 a 4. Se os valores de n e k so
superiores aos valores fornecidos na tabela N, pode-se ento utilizar a expresso acima e utilizar a
tabela do qui-quadrado.
Tabela 5.34 - Postos de dezoito grupos correspondentes
Para ilustrar o uso da tabela N, no estudo de transferncia de aprendizado aps
considere-se os valores do exemplo treinamento sob trs condies diferentes de reforo
acima. Aplicando a expresso tem-se: Tipo de reforo
Grupo RR RU UR
12 k
r2.= R2j 3n(k + 1) = 1 1 3 2
nk (k + 1) i=1
2 2 3 1
12
3.4(4 + 1)
[ ]
112 + 52 + 4 2 + 10 2 3.3.( 4 + 1) = 3
4
1
1
3
2
2
3
7,40 5 3 1 2
6 2 3 1
Pode-se determinar a 7 3 2 1
probabilidade ocorrncia, sob H0, de r2 8 1 3 2
9 3 1 2
7,40, verificado a tabela NII que
10 3 1 2
fornece a probabilidade exata, associada 11 2 3 1
a valores to grandes quanto um r2 12 3 2 1
13 3 2 1
observado para k = 4, que, neste caso,
14 2 3 1
p = 0,033. Pode-se, portanto, com tais 15 2,5* 2,5* 1
dados, rejeitar a hiptese de nulidade de 16 3 2 1
que as 4 amostras tenham sido extradas 17 3 2 1
18 2 3 1
da mesma populao com respeito Rj 39,5 42,5 26,0
locao (postos mdios) ao nvel de
significncia de 3%.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 39
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Exemplo: (para n e k grandes)


Em um estudo do efeito de trs padres diferentes de reforo sobre a extenso do aprendizado
discriminativo entre ratos, treinaram-se trs amostras correspondentes (k = 3) de 18 ratos (n = 18) sob
trs tipos de reforo. Estabeleceu-se a correspondncia utilizando-se 18 conjuntos de ratos de mesma
cria, trs em cada conjunto. Conquanto todos os 54 ratos tenham recebido a mesma quantidade de
reforo (recompensa), o modo de administrar esse reforo foi diferente para cada um dos grupos. Um
grupo foi treinado com 100% de reforo (RR), outro grupo foi treinado sob um reforo parcial em que
cada seqncia de tentativas terminava com uma tentativa no recompensada (RU) e o terceiro grupo
foi treinado sob recompensa parcial, cada seqncia de tentativas terminando com uma tentativa
recompensada (UR).
Ao cabo desse treinamento, mediu-se a extenso do aprendizado pela rapidez com que os
diversos ratos adquiriram um hbito "oposto': embora treinados para correrem em direo ao branco,
eram agora estimulados a correr me direo do preto. Quanto melhor tivesse sido o aprendizado
inicial, mais lenta deveria ser essa transferncia de aprendizado. Predio: os diferentes tipos de
reforo (recompensa) utilizados resultariam em diferentes graus de capacidade de transferncia de
aprendizado.

Hipteses: Ho: Os diversos tipos de reforo no tm efeito diferencial.


H1: Os diversos tipos de reforo tm efeito diferencial.

Prova estatstica: Como o nmero de erros na transferncia de aprendizado no


provavelmente uma medida intervalar da fora do aprendizado original, escolheu-se a prova de
Friedman (no-paramtrica) ao invs da prova paramtrica correspondente (anlise de varincia).
Alm disso, no se pode utilizar a anlise de varincia porque os escores acusaram possvel falta de
homogeneidade de varincia, e, desta forma, os dados indicam que uma das suposies bsicas para
aplicao da prova F (de Snedkor) no foi satisfeita.

Nvel de significncia: Sejam = 0,05 e n = 18 = nmero de ratos em cada um dos 3 grupos


correspondentes.
Distribuio Amostral: A distribuio qui-quadrado com gl = k -1.

Regio de rejeio Consiste de todos os valores 2 tais que a probabilidade de sua


ocorrncia, sob H0, no supere = 0,05.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 40
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Deciso: Determinou-se o nmero de erros cometidos por cada rato na situao de


transferncia de aprendizado, dispondo-se os escores em postos para cada um dos 18 conjuntos de 3
ratos correspondentes. A tabela 5.3 fornece estes postos.

Note-se que a soma dos postos para o grupo RR 39,5, a soma dos postos para o grupo RU
42,5 e a soma dos postos para o grupo UR 26,0. Um posto baixo indica elevado nmero de erros na
transferncia , isto , forte fixao do aprendizado original. Pode-se calcular 2 substituindo os valores
observados na expresso:

[ ]
12 k 12
2 = R2j 3n(k + 1) = 39,52 + 42,52 + 262 3.18.(3 + 1) = 8,40
nk (k + 1) i=1 18.3(4 + 1)

A tabela qui-quadrado indica que 2 = 8,40 quando gl = k - 1 = 3 - 1 = 2 significativo entre


os nveis 0,025 e 0,01. Como p < 0,02 inferior ao nvel de significncia = 0,05, rejeita-se Ho,
concluindo que os escores de transferncia de aprendizado dos ratos dependem do tipo de reforo
(recompensa) utilizado nas tentativas de aprendizado original.
Empates: No grupo 15, assinalado com asterisco na tabela 5.3, os animais RR e RU
obtiveram escores iguais, empatando nos postos dois e trs. Neste caso, foi atribudo a ambos o posto
2,5 (mdia daqueles postos). Friedman afirma que a substituio de valores empatados pelo seu valor
mdio no afeta a validade do teste.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 41
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

6. TESTES PARA K AMOSTRAS INDEPENDENTES

6.1. O TESTE QUI-QUADRADO

6.1.1. F UNO
Quando os dados de um levantamento consistem de freqncias em categorias discretas
(nominais e ordinais), pode-se usar a prova 2 para determinar a significncia das diferenas entre k
grupos independentes. A prova 2 para k amostras independentes uma extenso direta da prova qui-
quadrado para duas amostras independentes. Em geral, o teste o mesmo, tanto para duas, como para
k amostras independentes.

6.1.2. M T ODO
Dispem-se as freqncias em uma tabela kxr. A hiptese de nulidade que as k amostras de
freqncia ou propores provenham da mesma populao ou de populaes idnticas. Esta hiptese,
de que as k amostras no difiram entre si, pode ser comprovada aplicando-se a seguinte expresso:

(Oij Eij)
2
r k
= 2
, onde:
i=1 j=1 Eij

Oij = nmero de casos observados classificados na linha i da coluna j e

Eij = nmero de casos esperados, sob H0, na linha i da coluna j,

Sob H0, pode-se mostrar que a distribuio amostral de 2, tem distribuio aproximadamente
qui-quadrado com gl = (k - 1)(r - 1), onde k = nmero de colunas e r = nmero de linhas. Assim, a
probabilidade associada ocorrncia de valores to grandes quanto um valor observado de 2 igual a,
ou maior do que, o valor dado na tabela do qui-quadrado, para determinado nvel de significncia e gl
= (k - 1)(r - 1), ento H0, pode ser rejeitada quele nvel.

Exemplo
Em uma investigao da natureza e conseqncias da estratificao social em uma pequena
comunidade do Oeste Mdio americano,4 Hollingshead constatou que os membros da comunidade se
dividiam entre si em cinco classes sociais, I, II, III, IV e V. Sua pesquisa centrou-se nos correlatos
dessa estratificao entre os jovens da comunidade. Uma de suas predies era que os adolescentes de
diferentes classes sociais se matriculariam em diferentes cursos (preparatrio para a universidade,

4
HOLLINGSHEAD, A. B. Elmtowns youth: The impact of social classes on adolescents. New York: Willey, 1949.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 42
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

comercial ou geral) no ensino de segundo grau de Elmtown. Hollingshead testou sua hiptese
identificando a classe social de 390 alunos e determinando o curso em cada um se havia matriculado.
Hipteses: Ho: A proporo de estudantes matriculados nos trs diferentes a mesma em
todas as classes sociais. H1: A proporo de estudantes matriculados nos cursos distintos difere de
classe para classe.
Prova estatstica: Como os grupos em estudo so independentes e em nmero superior a 2,
emprega-se uma prova estatstica para k amostras independentes. E como os dados se apresentam em
categorias discretas, a prova 2 a prova arqueada.

Nvel de significncia: Sejam = 0,01 e n = 390 = nmero de estudantes cujas classes


sociais e tipos de cursos foram estudados.

Distribuio Amostral: A distribuio qui-quadrado com gl = (k -1)(r - 1).

Regio de rejeio: Consiste de todos os valores 2 tais que a probabilidade de sua


ocorrncia, sob H0, no supere = 0,01.

Deciso: A tabela 6.1 fornece as matrculas por curso dos 390 alunos de Elmtown estudados
por Hollingshead. As classes sociais I e II foram agrupadas em razo do pequeno nmero de
componentes de cada uma delas, particularmente na classe I. A tabela 6.1 fornece, tambm, em itlico,
o nmero de jovens cuja matrcula em cada um dos trs cursos era esperada sob H0, ou seja, as
matrculas esperadas se no houvesse realmente diferena nas preferncias entre as diversas classes
sociais. Por exemplo, enquanto que a matrcula efetiva no curso preparatrio para a universidade, nas
classes I e II, foi de 23, a matrcula esperada seria de apenas 7,3.

Tabela 6.1 - Freqncia de matrcula de jovens de Elmtown de 5 classes sociais


em 3 cursos

Classe
Curso I e II III IV V Total
Preparatrio para a universidade 23 40 16 2 81
7,2692 30,2330 38,0076 5,4000
Geral 11 75 107 14 207
18,5769 77,4923 97,1307 13,8000
Comercial 1 31 60 10 102
9,1538 38,1846 47,8615 6,8000
Total 35 146 183 26 390

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 43
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

O tamanho de 2 reflete a magnitude da discrepncia ente os valores observados e os


esperados em cada uma clulas da tabela. Pode-se calcular 2 para os valores da tabela 6.1, atravs da
expresso definida anteriormente:

(Oij Eij)
2
r k
=
2
= 33,8 + 3,1 + 12,7 + 2, 1+ 3,1 + 0,08 + 1,0 + 0,003 + 7,3 + 1,4 + 3,1 + 1,5
i=1 j=1 Eij

= 69,2

Assim, para estes dados o valor do 2 = 69,2 com gl = (k - 1)(r - 1) = (4 - 1)(3 - 1) = 6

Verificando uma tabela do qui-quadrado, pode-se constatar que este valor significativo
muito alm do nvel de 0,005. Como p < 0,005 inferior ao nvel de significncia estabelecido (de 1%)
a deciso rejeitar H0. Conclu-se, pois que a escolha da matrcula pelos alunos de Elmtown no
independente das respectivas classes sociais.

6.1.3. Q UANDO USAR A P RO VA DO QUI - QUAD RADO


A prova do qui-quadrado exige que as freqncias esperadas (Eij) em cada clula no sejam
muito pequenas. Quando tal exigncia no cumprida, os resultados do teste no so vlidos. Cochran
(1954) recomenda que, quando k ou r maior do que 2, ou seja, no caso de testes onde o grau de
liberdade superior a um, o teste qui-quadrado somente seja aplicado se pelo menos 80% das clulas
tenham freqncia esperada superior a 5 e nenhuma das clulas tenha freqncia esperada inferior a 1
(um).

6.2. O TESTE DE K RUSK AL-WALLIS (ANLISE DE VARINCIA DE


UMA CLASSIF ICAO P OR P OSTOS)

6.2.1. F UNO
O teste de Kruskal-Wallis, uma prova til para decidir se k amostras independentes provm
de populaes diferentes. Os valores amostrais quase que invariavelmente diferem entre si e o
problema decidir se essas diferenas entre as amostras significam diferenas efetivas entre as
populaes, ou se representam apenas variaes casuais, que podem ser esperadas entre amostras
aleatrias de uma mesma populao. O teste supe que a varivel em estudo tenha distribuio
contnua e exige mensurao no mnimo ao nvel ordinal.

6.2.2. M T ODO
No clculo da prova de Kruskal-Wallis cada uma das n observaes substituda por um
posto. Isto , todos os escores de todas as k amostras combinadas so dispostos em uma nica srie de

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 44
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

postos. Ao menor escore atribu-se o posto 1, ao seguinte o posto 2 e assim sucessivamente at o maior
posto que n, onde n = nmero total de observaes independentes nas k amostras.
Feito isso, determina-se a soma dos postos em cada amostra (coluna). A prova ento testa se
estas somas so to diferentes entre si que no seja provvel que tenham sido todas retiradas de uma
mesma populao.
Pode-se mostrar que se as k amostras forem efetivamente retiradas de uma mesma populao,
isto , se H0 verdadeira, ento H (estatstica de Kruskal-Wallis calculada abaixo) tem uma
distribuio qui-quadrado com gl = k - 1, desde que os tamanhos das k amostras no sejam muito
pequenos. Isto :
2
12 k Rj
H= 3(n + 1) , onde
n(n + 1) i=1 n j

k = nmero de amostras,
nj = nmero de elementos na amostra j,

Rj = soma dos postos na amostra (coluna) j,

n = nj = nmero total de elementos em todas as amostras combinadas,


tem distribuio aproximadamente qui-quadrado com gl = k - 1, para tamanhos de amostras
(nj) suficientemente grandes.
Quando existem mais de cinco elementos em cada amostra, isto , nj > 5, a probabilidade
associada ocorrncia, sob H0, de valores to grandes quanto um H observado pode ser determinada
com o auxlio da tabela qui-quadrado, para um nvel de significncia fixado e para gl = k - 1, ento H0
pode ser rejeitada a este nvel.

Quando k = 3 e o nmero de casos em cada uma das 3 amostras 5 ou menos, a aproximao


pelo qui-quadrado da distribuio de H no boa. Para tais casos, deve ser utilizado a tabela O (Siegel,
pg. 313-14). A primeira coluna desta tabela fornece o nmero de elementos em cada uma das 3
amostras, isto , os diversos valores possveis para n1, n2 e n3. A segunda coluna fornece diversos
valores de H, calculados pela expresso acima. A terceira fornece a probabilidade associada
ocorrncia, sob H0, de valores to grandes quanto um H observado.

Por exemplo, se H 5,83 quando as 3 amostras contm 4, 3 e 1 elementos, a tabela O mostra


que a hiptese de nulidade pode ser rejeitada ao nvel de significncia de 0,021.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 45
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Exemplo: (para pequenas a mostras )


Suponha que se deseje comprovar a hiptese de que administradores escolares so
tipicamente mais autoritrios do que os professores. Sabe-se, no entanto, que os dados para testar esta
hiptese podem ser tendenciosos, pois vrios professores tem aspiraes administrativas. Para evitar
esta tendenciosidade, planeja-se dividir os 14 valores em 3 grupos: professores (professores que
pretendem continuar nesta posio) professores/administradores (professores que tem aspiraes
administrativas) e administradores. O autoritarismo medido atravs da escala F5 e a hiptese de que
os trs grupos vo diferir quanto as mdias na escala F.

Hipteses: Ho: No existe diferena nos escores F entre os trs grupos.


H1: Os trs grupos diferem quantos as escores F (de autoritarismo).
Prova estatstica: Como so trs grupos sendo estudados, um teste para k amostras
adequado. A escala F (de autoritarismo) pode ser considerado uma medida pelo menos ordinal, tornado
o teste de Kruskall-Wallis adequado.

Nvel de significncia: Sejam = 0,05 e n = 14 = nmero total de educadores testados, n1 = 5


(professores), n2 = 5 (professores/administradores) e n3 = 4 (administradores).
Distribuio Amostral: Para k = 3 e ni pequenos a tabela O d a probabilidade associada com
a ocorrncia, sob H0, para valores to grandes quanto um H observado.

Regio de rejeio: A regio de rejeio consiste de todos os valores de H to grandes que a


probabilidade associada com sua ocorrncia sob H0, igual ou menor que = 0,05.
Deciso: Os escores F so apresentados na tabela 6.2.

Tabela 6.2 - Escores de autoritarismo de 3 grupos de educadores

Professores Professores/Administradores Administradores


96 82 115
128 124 149
83 132 166
61 135 147
101 109

Se estes dados forem colocados em postos e estes postos ordenados de forma crescente ento
se ter a tabela 6.3. Estes postos so somados e os resultados (R i) esto no final da tabela.

5
Apresentada em: ADORNO, T. W. et al. The authoritarian personality. New York, Harper, 1950.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 46
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Tabela 6.3 - Postos de autoritarismo de 3 grupos de educadores

Professores Professores/Administradores Administradores


4 2 7
9 8 13
3 10 14
1 11 12
5 6
R1 = 22 R2 = 37 R3 = 46

Agora possvel, ento, determinar o valor da estatstica H:


2
12 k Rj 12 222 372 462
H= 3(n + 1) = + + 3(14 + 1) = 6,40
n(n + 1) i=1 n j 14(14 + 1) 5 5 4

Observando a tabela O para os valores 5, 5 e 4, tem-se que H 6,4, tem probabilidade de


ocorrncia, sob H0, de p < 0,049. Como este valor menor que = 0,05, a deciso rejeitar H0. Pode-
se concluir, ento, que os 3 grupos de educadores diferem quanto ao grau de autoritarismo.

6.2.3. E MPAT E S
Quando ocorrem empates entre dois ou mais escores, cada escore recebe a mdia dos postos
que deveriam receber se no houvesse empate. Como o valor de H afetado pelos empates, uma
correo deve ser feita na expresso do clculo de H, que consiste em dividi-la pelo fator:

1- T
3
, onde T = t3 - t (onde t o nmero de valores empatados) e n = nj.
n n

Deste modo, a expresso geral para o clculo de H, com a correo para empates dada por:
2
12 k R j
3(n + 1)
n(n + 1) i=1 n j
H=
1 -
T
3 n
n

O efeito da correo para empates aumentar o valor de H e assim tornar o resultado mais
significativo do que seria se a correo no fosse realizada. Em muitas casos esta correo to
pequena que pode ser desprezada. Se no mais do que 25% das observaes estiverem empatadas, a
probabilidade associada com um H calculado sem correo para empates raramente alterada em mais
de 10% por cento do que quando calculada com a corrigida.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 47
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

7. MEDIDAS DE CORRELAO E S IGNIF ICNCIA


Em muitas situaes necessrio saber se dois conjuntos de dados esto de alguma forma
relacionados e com que intensidade ocorre esta relao. Medidas destinadas a determinar o grau de
relacionamento entre duas ou mais variveis so denominadas medidas de correlao. Estas medidas
so expressas atravs de um nmero, que geralmente varia no intervalo de -1 a 1 e so denominados de
coeficientes de correlao.

7.1. O COEF ICIENTE DE CONTINGNCIA: C

7.1.1. F UNO
O coeficiente de contingncia C uma medida correlao entre dois conjuntos de atributos.
til quando se dispem apenas de dados apresentados em escala nominal em um ou nos dois conjuntos
de atributos. Para determinar esta medida no necessrio dispor as variveis em uma determinada
maneira. No importa quem seja linha e quem seja coluna, o valor obtido ser o mesmo.

7.1.2. M T ODO
Para calcular o coeficiente de contingncia C os dados devem ser apresentados em uma de
contingncia como a ilustrada em 7.1. Os dados podem ser divididos em qualquer nmero de
categorias, isto , a tabela pode ser do tipo Kr, onde k = nmero de colunas e r = nmero de linhas.

Tabela 7.1 - Tabela de contingncia para o clculo do coeficiente C

A1 A2 ... kA Total
B1 A1B1 A2B1 ... AkB1
B2 A1B2 A2B2 ... AkB2
... ... ... ... ... ...
Br A1Br A2Br ... AkBr
Total ... n

O coeficiente de contingncia pode, ento, ser obtido atravs da seguinte expresso:

(Oij Eij)
2
2 r k
C= , onde 2 = e o qui-quadrado calculado, conforme j visto.
n + 2 i=1 j=1 Eij

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 48
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Exemplo
Considere-se os valores apresentados na prova do qui-quadrado para k amostras
independentes, onde foi testado se os cursos universitrios escolhidos pelos jovens de Elmtown
dependiam das classes sociais a que estes jovens pertenciam. Aqui, se tem uma associao entre uma
varivel nominal (curso) e uma varivel ordinal (classe social). Os dados so repetidos na tabela 7.2.

Tabela 7.2 - Freqncia de matrcula de jovens de Elmtown de 5 classes sociais


em 3 cursos

Classe
Curso I e II III IV V Total
Preparatrio para a universidade 23 40 16 2 81
Geral 11 75 107 14 207
Comercial 1 31 60 10 102
Total 35 146 183 26 390

O valor do 2 calculado para estes dados foi de 69,20.

O valor do coeficiente de contingncia ser ento:

2 69,2
C= = = 0,39
n+ 2 390 + 69,2

Logo a correlao entre a escolha do curso de nvel e a classe social entre os jovens de
Elmtown de 0,39.

7.1.3. A P RO VA DE SI GNI FI CNCI A DO COEF I CI E NT E DE CONT I NG NCI A


Uma vez observado uma correlao entre dois conjuntos de atributos em amostras, quer-se
determinar se plausvel concluir pela associao desses mesmos atributos na populao de onde
foram retiradas as amostras.
Ao se testar a significncia de uma medida de associao, est-se na realidade testando a
hiptese de nulidade de que no existe correlao na populao, isto , que o valor da medida de
associao observada poderia ter ocorrida aleatoriamente entre as amostras se as populaes no
apresentam correlao.

Para testar a hiptese de nulidade, determina-se a distribuio amostral da estatstica, neste


caso, a medida de associao, sob H0. Utiliza-se, ento, uma prova estatstica adequada para
determinar, a um nvel de significncia pr-fixado, se o valor observado pela estatstica considerada
pode ter provavelmente ocorrido sob H0.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 49
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Embora, muitas estatsticas de associao possam ser determinadas por este mtodo o
coeficiente de contingncia C, constitui um caso especial. Uma das razes por que no se pode utilizar
a distribuio amostral de C para testar um determinado valor observado, reside na considervel
complexidade matemtica de tal procedimento. Outra razo que no desenvolvimento do clculo de C,
j se calcula de forma intermediria uma estatstica que constitu uma indicao simples e adequada da
significncia de C. Tal estatstica o 2. Pode-se determinar se um valor de C difere significativamente
de um valor causal simplesmente determinando se um valor de 2 significativo.

Para qualquer tabela de contingncia kxr pode-se determinar a significncia do grau de


associao pela estatstica C, determinando a probabilidade de ocorrncia, sob H0, de valores to
grandes quanto o valor observado de 2, com gl = (k - 1)(r - 1). Se essa probabilidade no supera ,
pode-se rejeitar a hiptese de nulidade, quele nvel. A tabela do qui-quadrado. Se o qui-quadrado
baseado nos valores amostrais significativo, pode-se concluir que, na populao, a associao entre
os dois conjuntos diferente de zero.

Exemplo
No exemplo acima foi mostrado que o coeficiente de correlao C entre as variveis: classe
social e opo curricular C = 0,39. Para chegar a este valor foi utilizado o valor 2 = 69,20. este
valor que vai ser usado para testar a significncia de C. Verificando uma tabela qui-quadrado v-se que
2 69,20 com gl = (4 - 1)(3 - 1) = 6 tem probabilidade de ocorrncia, sob H0, inferior a 0,001. Pode-
se, assim, rejeitar a hiptese de nulidade, ao nvel de 0,001 e concluir que o estatus social e a opo
curricular acusam relacionamento na populao da qual o grupo de Elmtown constitui uma amostra.
Isto , conclu-se que C = 0,39 significativamente diferente de zero.

7.1.4. L I MI TAE S DO COE FI CIE NTE DE CONTI NG NCI A


A grande aplicabilidade e a determinao relativamente fcil de C podem dar a entender que
se trata de uma medida ideal de associao. Este no o caso, no entanto, em razes das limitaes
desta estatstica.

Em geral, pode-se dizer que os coeficientes de correlao devem apresentar pelo menos as
seguintes caractersticas:

Onde houver completa falta de associao o coeficiente deve dar zero.

Quando as variveis so completamente dependentes entre si, isto , esto perfeitamente


correlacionadas o coeficiente deve ser igual a 1.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 50
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

O coeficiente C tem a primeira destas caractersticas, mas no a segunda. Ele zero quando
no existe associao, mas no atinge o valor um, quando a correlao perfeita, sendo esta a primeira
limitao do coeficiente de contingncia C.

O limite superior de C funo do nmero de categorias. Quando k = r, o limite superior de


C, isto , o valor que deveria ocorrer se as variveis tivessem correlao perfeita :

Por exemplo, o limite superior de C para uma tabela 2x2 1 = 0,71. Para uma tabela 3x3,
2

o mximo que C pode atingir 2 = 0,82. O fato de o valor mximo de C, depender de k e r constitu
3

uma segunda limitao de C, pois dois coeficientes de contingncia s sero comparveis se provierem
de tabelas com o mesmo nmero de linhas e colunas.

Uma terceira limitao de C que os dados devem se prestar para o clculo do 2 antes que C
possa ser convenientemente utilizado, isto , o clculo de C sofre das mesmas limitaes do clculo do
qui-quadrado.

Uma ltima limitao de C e que ele no diretamente comparvel com nenhuma outra
medida de correlao, como por exemplo, o coeficiente de Pearson ou o de Spearman.

A despeito destas limitaes o coeficiente de contingncia uma medida til pela sua larga
aplicabilidade, pois no exige suposies sobre a forma da populao de escores, no exige
continuidade da varivel em estudo e requer apenas mensurao nominal. Isto faz do C uma medida
que pode ser aplicada em situaes em que nenhuma outra possa ser aplicada.

7.2. O COEF ICIENTE V DE CRAMER


Apesar de sua popularidade o coeficiente de contingncia tem a desvantagem de que o
nmero de linhas e colunas influencia o resultado. A alternativa utilizar o coeficiente V (de Cramer),
definido por:

2
V= , onde:
n.(k 1)

n = tamanho da amostra e k = min {nmero de linhas, nmero de colunas}.

Exemplo:

Consumo de lcool
Consumo de drogas Alto Moderado Baixo Total
Alto 5 7 20 32
Moderado 10 8 15 33

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 51
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Baixo 15 6 14 35
Total 30 21 49 n = 100

Considerando a tabela acima que cruza o consumo de lcool com o consumo de drogas,
determine o coeficiente V (de Cramer).

A tabela abaixo mostra os clculos dos valores esperados:

Consumo de lcool
Consumo de drogas Alto Moderado Baixo Total
Alto 9,60 6,72 15,68 30,00
Moderado 9,90 6,93 16,17 33,00
Baixo 10,50 7,35 17,15 35,00
Total 30,00 21,00 49,00 100,00

O valor do 2 calculado para os valores da tabela acima ser:

2 = (5 - 9,60)2/9,60 + (7 - 6,72)2/6,72 + (20 - 15,80)2/15,80 + (10 - 9,90)2/9,90 + (8 -


6,93)2/6,93 + (15 - 16,67)2/16,57 + (15 - 10,50)2/10,50 + (6 - 7,35)2/7,35 + (14 - 17,15)2/17,15 = 6, 41

7.3. O COEF ICIENTE DE CORRELAO DE P OSTOS DE


SPEARMAN: R S

7.3.1. F UNO
Dentre todas as estatsticas com base em postos, o coeficiente de correlao por postos de
Spearman foi a que surgiu primeiro e talvez a mais conhecida hoje. Esta estatstica, por vezes
designada rho (), representada, aqui por rs. uma medida de associao que exige que as duas
variveis tenham mensurao a nvel pelo menos ordinal, para que se possa ordenar, isto , determinar
seus postos.

7.3.2. F UNDAME NT OS L GICOS


Suponha-se que n indivduos ordenados em postos segundo duas variveis. Por exemplo, um
grupo de estudantes ordenado de acordo com suas notas no vestibular de uma universidade e tambm
de acordo com sua classificao escolar ao fim do primeiro ano. Denotando os escores do vestibular
por:

X1, X2, ..., Xn, e os escores da classificao escolar ao fim do primeiro ano por:
Y1, Y2, ..., Yn, pode-se utilizar uma medida de correlao por postos para determinar o
relacionamento entre as duas variveis.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 52
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

A correlao entre a classificao no vestibular e a classificao ao fim do primeiro ano seria


perfeita se e somente se Xi = Yi para todo i. Portanto, parece lgico usar as diversas diferenas: d i =
Xi - Yi. como indicativo da diferena entre os dois conjuntos de postos. Suponha-se que o aluno A
tenha obtido o primeiro lugar no vestibular, mas ao fim do primeiro ano esteja em 6 lugar. Neste caso,
d = 1 - 6 = - 5. Um aluno B, por outro lado, ficou em nono lugar no vestibular e agora, ao final do
primeiro ano, o segundo colocado. O valor de d para ele ento: d = 9 - 2 = 7. O valor das diversas
diferenas d fornece uma idia do relacionamento entre a classificao no vestibular e no fim do
primeiro ano escolar. Se a relao entre os dois conjuntos de postos fosse perfeita, todos os valores de
d seriam zero. Quanto maiores os diversos valores de d, menor ser a associao entre as duas
variveis.
A utilizao direta dos valores das diferenas (d) para o clculo do coeficiente de correlao
acarreta dificuldades. Por exemplo, os valores negativos se cancelam com os positivos se fosse
somados para fornecer a diferena total. Por isso utilizado o valor de d ao quadrado, d2, para eliminar
esta dificuldade.

A obteno da expresso para o clculo do coeficiente de correlao de Spearman baseada


no clculo do coeficiente de Pearson (estatstica paramtrica) r, onde:

r= xy , onde x = X - X ey=Y- Y
x2 y2

Mas quando X e Y so postos, r = rs, e a soma de n inteiros: 1, 2, ..., n :


n(n 1)
X = e a soma de seus quadrados, 11, 22, ..., n2 : X2 = n(n 1)( 2n + 1)
2 6

Como x = ( X X ) = X 2 ( ) vem:
2
2 X
n

n(n + 1)( 2n + 1) n2 (n + 1)2 n3 n n3 n


x2 = = e de forma anloga segue que y 2 =
6 4 12 12

Mas d = x - y = , ento d2 = (x - y)2 = x2 + y2 - 2xy e d2 = x2 + y2 - 2xy.


Pela expresso do clculo do coeficiente de correlao de Pearson, tem-se:

r= xy = rs, quando as observaes so medidas em postos. Portanto


x2 y2

d2 = x2 + y2 - 2xy = x2 + y2 - 2rs x2 y2 e assim:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 53
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

2 2 2
rs = x + y d . Substituindo x2 e y2
2 x2 y 2
Tabela 7.3 - Escores de autoritarismo e
pelos seus valores em termos de postos e fazendo as aspirao de estatus social
simplificaes necessrias vem: Escore
6 d2 Estudante Autoritarismo Aspirao
rs = 1 - , que a expresso mais
n3 n A 82 42
conveniente para o clculo do coeficiente rs de B 98 46
Spearman. C 87 39
D 40 37
Exemplo E 116 65
F 113 88
Em um estudo sobre o efeito das presses
G 111 86
grupais sobre um indivduo para uma atitude H 83 56
conformista em uma situao que envolva risco I 85 62
monetrio, os pesquisadores6 aplicaram a 12 J 126 92
estudantes universitrios a escala F (medida de K 106 54
autoritarismo) e uma escala destinada a medir as L 117 81

aspiraes de estatus social. Desejava-se uma informao sobre a correlao entre os escores relativos
ao autoritarismo e os escores referentes s aspiraes de estatus social. (Tais aspiraes foram
definidas de acordo com os pontos de vista O indivduo no deve casar-se com pessoa de nvel social
inferior ao seu, ou Para um encontro, melhor uma demonstrao eqestre do que um jogo de
baseball, ou ainda, interessante verificar sua genealogia. A tabela 7.3 fornece os escores de cada
um dos 12 estudantes nas duas escalas.

Para calcular o coeficiente de correlao por postos, de Spearman, para estes dois conjuntos
de valores necessrio coloc-los, inicialmente em duas sries de postos. Estes postos so
apresentados na tabela 7.4, juntamente com as diferenas entre eles e as diferenas ao quadrado.

Atravs destes dados ento, pode-se calcular o coeficiente de correlao rs, atravs da
expresso mostrada acima. Assim:

d2
rs = 1 - 6 6.52
3
=1- = 0,82.
n n 123 12

6
SIEGEL, S., FAGAN, Joen. The Asch effect under conditions of risk. Dados extrados de um estudo piloto, no publicado.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 54
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Tabela 7.4 - Postos referentes a autoritarismo e aspirao de estatus social

Escore
Estudante Autoritarismo (Posto) Aspirao (Posto) di di2
A 2 3 -1 1
B 6 4 2 4
C 5 2 3 9
D 1 1 0 0
E 10 8 2 4
F 9 11 -2 4
G 8 10 -2 4
H 3 6 -3 9
I 4 7 -3 9
J 12 12 0 0
K 7 5 2 4
L 11 9 2 4
di2 = 52

7.3.3. O B SE RVAE S E MPATAD AS


Ocasionalmente podem ocorrer empates entre os escores de dois indivduos na mesma
varivel. Quando isto ocorre, a cada um deles atribudo a mdia dos postos que seriam atribudos
caso o empate no ocorresse, isto , adota-se o procedimento usual.

Se a proporo de empates no grande seu efeito sobre o coeficiente de correlao


desprezvel. Quando a proporo de empates grande torna-se necessrio a utilizao de um fator de
correo.

O efeito de postos empatados na varivel X, consiste em reduzir a soma dos quadrados.


Portanto, quando houver empates em X necessrio corrigir a soma dos quadrados pelo fator:

t3 t
T= , onde t = nmero de observaes empatadas em determinado posto.
12

A soma dos quadrados corrigida ser ento:

n3 n
x2 = - T, onde a soma de T, indica o somatrio sobre os vrios valores de T para
12

todos os grupos de observaes empatadas.

Assim se o nmero de empates for considervel o clculo do coeficiente de correlao de


Spearman deve ser realizado atravs de:

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 55
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

2 2 2 n3 n n3 n
rs = x + y d , onde x2 = - Tx e y2 = - Ty.
12 12
2 x2 y 2

7.3.4. T E ST E DE SI GNI F I CNCI A PARA O COE F I CI E NTE DE CORRE L AO DE


S P E ARM AN
Se as amostras utilizadas no clculo do coeficiente de correlao de Spearman so
selecionadas aleatoriamente, ento pode-se utilizar os seus valores para testar se as variveis
correspondentes esto associadas na populao, isto se rs pode ser considerado diferente de zero.

Pequenas amostras. Suponha-se verdadeira a hiptese de nulidade, isto , suponha-se que


no exista relacionamento na populao de onde foram extradas as amostras. Se so extradas uma
amostras de escores X e uma de escores Y ao acaso desta populao, ento para uma dada ordem dos
escores de X, todas as ordens possveis dos escores Y tem a mesma probabilidade. Para n indivduos
existe n! ordenaes possveis dos escores X que podem ocorrer com qualquer ordenao dos escores
Y. Como esses so igualmente provveis, a probabilidade de ocorrncia de determinada ordenao dos
escores X conjuntamente com dada ordenao dos escores Y 1/n!.

A cada uma das possveis ordenaes de Y est associado um valor de rs. A probabilidade de
ocorrncia, sob H0, de qualquer valor particular de rs assim, proporcional ao nmero de permutaes
que originam aquele valor.

Aplicando a frmula do clculo de rs pode ver que:


Se n = 2, ento rs s pode assumir os valores -1 e +1. Cada um destes valores tem
probabilidade 1/2.
Se n = 3, ento os possveis valores de rs so -1, -1/2, +1/2 e +1. Cada um destes valores tem
probabilidade de ocorrncia, sob H0, respectivamente de: 1/6, 1/3, 1/3 e 1/6.

A tabela P (Siegel, pg. 315) fornece os valores crticos de rs, obtidos por este mtodo. Para n
variando de 4 a 30, a tabela fornece o valor de rs com probabilidade associada, sob H0, p = 0,05, e o
valor de rs com probabilidade associada, sob H0, p = 0,01. A tabela unilateral.

Exemplo
No exemplo anterior o coeficiente de correlao foi determinado como sendo igual a rs = 0,82,
para um valor de n = 12. Pela tabela P v-se que um valor to grande quanto este significativo ao
nvel p < 0,01 (teste unilateral). Se poderia ento rejeitar a hiptese ao nvel de 1% de significncia,
concluindo que, na populao estudada, o autoritarismo e as aspiraes de estatus social esto
associados.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 56
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Grandes amostras. Quando n igual ou superior a 10, a significncia de um valor obtido de


rs sob a hiptese de nulidade pode ser comprovado atravs de (Kendall, 1948):

n 2
t = rs
1 r 2s

Quer dizer, que para n grande, o valor de rs, tem distribuio t com gl = n -2.

7.4. O COEF ICIENTE DE CONCORDNCIA DE K ENDALL: W


7.4.1. F UNO
As medidas anteriores consideravam a correlao entre dois conjuntos de postos de n
elementos. Agora ser considerada uma medida de relao entre vrios conjuntos de postos de n
elementos. Quando se tem k conjuntos de postos pode-se determinar a associao entre eles utilizando
o coeficiente de concordncia de Kendall, W. Enquanto que rs exprime o grau de associao entre duas
variveis transformadas em postos, W exprime o grau de associao dentre k destas variveis. Tal
medida pode ser especialmente til em estudos de fidedignidade relativos a julgamentos ou testes e
tem tambm aplicaes no estudo de conglomerados de variveis.

7.4.2. F UNDAME NT OS L GICOS


Como soluo do problema da determinao da concordncia global entre k conjuntos de
postos, poderia ser razovel determinar os rss (ou rs) entre todos os pares possveis de postos e ento
calcular a mdia desses coeficientes para determinar a associao global. Se tal procedimento fosse
adotado, seria necessrio calcular k coeficientes de correlao de postos e a menos que k seja

2

pequeno, o processo se torna impraticvel.


O clculo de W muito simples e W tem uma relao linear com o valor mdio de rs relativo
a todos os grupos. Denotando por rsav o valor mdio dos coeficientes de correlao por postos de
Spearman entre os k pares possveis de postos, Kendall mostrou que:

2

rsav = (kW - 1) / (k - 1)
Outro processo consiste em imaginar como se apresentariam os dados caso no houvesse
concordncia alguma entre os conjuntos de postos, e em seguida, como se apresentariam se houvesse
concordncia perfeita. O coeficiente de concordncia seria ento um ndice de divergncia entre a
concordncia efetiva acusada pelos dados e a concordncia mxima possvel (perfeita). De modo
aproximado, W um coeficiente desta natureza.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 57
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Suponha-se que trs chefes de pessoal sejam encarregados de entrevistar seis candidatos a
emprego e de classific-los em postos, separadamente, segundo a capacidade de cada um para
preencher a vaga. A tabela 7.9 fornece os 3 conjuntos independentes de postos atribudos pelos chefes
X, Y, Z aos candidatos de a a f. A ltima linha da tabela d as somas (R j) dos postos atribudos a
cada candidato.

Tabela 7.6 - Postos atribudos a seis candidatos a emprego por trs chefes de
pessoal.

Candidato
a b c d e f
Chefe X 1 6 3 2 5 4
Chefe Y 1 5 6 4 2 3
Chefe Z 6 3 2 5 4 1
Rj 8 14 11 11 11 8

Se todos os chefes de pessoal apresentassem perfeita concordncia em seus julgamentos, isto


, se tivessem atribudo postos aos candidatos na mesma ordem, ento um candidato teria recebido trs
postos 1 e assim sua soma de postos, Rj, seria: 1 + 1 + 1 = 3 = k. O candidato que os chefes tivessem
considerado em segundo lugar receberia Rj = 2 + 2 + 2 = 6 = 2 k. E o menos promissor dos candidatos
teria: Rj = 6 + 6 + 6 = 18 = nk.

Na tabela acima, percebe-se que no houve concordncia perfeita entre os trs chefes, v-se
que o grau de concordncia entre os k julgadores refletido pelo grau de varincia entre as n somas de
postos.

7.4.3. M T ODO
Para determinar W, determina-se a soma dos postos, Rj, em cada coluna de uma tabela kxn.
Em seguida, soma-se os Rj e divide-se a soma por n, obtendo a mdia dos Rj. Cada Rj, pode ento
ser expresso como um desvio a contar da mdia (quanto maior for este desvio, maior a associao
entre os k conjuntos de postos). Por fim, determina-se a soma dos quadrados desses desvios.
Conhecidos estes valores, pode-se calcular W, como sendo:
s
W= , onde
1 2 3
k (n n)
12

s = soma dos quadrados dos desvios observados a contar da mdia dos Rj, isto , s =
2
R j
R j
n

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 58
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

k = nmero de conjunto de postos, neste exemplo nmero de julgadores.

n = tamanho da amostra
1 2 3
k (n n) = valor mximo da soma dos quadrados dos desvios, isto , o valor de s que
12

ocorreria no caso de concordncia perfeita entre os k conjuntos de postos.


Para os valores da tabela 7.9 os totais de postos foram: 8, 14, 11, 11, 11 e 8. A mdia destes
valores 10,5. Para determinar s eleva-se ao quadrado o valor de cada desvio de destes valores em
relao a mdia e soma-se, isto :

s = (8 - 10,5)2 + (14 - 10,5)2 + (11-10,5)2 + (11-10,5)2 + (11-10,5)2. + (8 - 10,5)2 = 25,5


Conhecendo s, pode-se determinar W para os dados da tabela 7.9:
s 25,5
W= = = 0,16
1 2 3 1 2 3
k (n n) 3 (6 6 )
12 12

W = 0,16 exprime o grau de concordncia entre os trs chefes ao atriburem postos aos seis
candidatos a emprego.

7.4.4. E MPAT E S
Quando ocorrem empates atribui-se a cada valor empatado a mdia dos postos que lhes
caberia se no houvesse empates. o tratamento usual que se d aos escores empatados em postos. O
efeito dos empates reduzir o valor de W. Se a proporo de empates pequena, o efeito pode ser
desprezado. Se, no entanto, esta proporo for grande, deve-se utilizar uma correo que aumenta o
valor de W. A correo utilizada a mesma utilizada no coeficiente de correlao de Spearmann:

T =
(
t3 t ), onde: t= numero de valores empatados em um grupo em relao a um
12

determinado posto.
Com a correo de empates a expresso para o clculo de W fica:
s
W= , onde: T indica somatrio sobre todos os valores de T para todos os
1 2 3
k (n n) k T T
12 T

k conjuntos de postos.

Exemplo (co m empa tes)


A tabela 7.7 mostra a classificao de 10 objetos em relao as variveis X, Y e Z.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 59
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Tabela 7.7 - Postos de 10 objetos em relao a trs variveis

Varivel Objeto
a b c d e f g h i j
X 1 4,5 2 4,5 3 7,5 6 9 7,5 10
Y 2,5 1 2,5 4,5 4,5 8 9 6,5 10 6,5
Z 2 1 4,5 4,5 4,5 4,5 8 8 8 10
Rj 5,5 6,5 9 13,5 12 20 23 23,5 22,5 26,5

A mdia dos Rj 16,5. Para obter s, somam-se os quadrados dos desvios de cada Rj em
relao a mdia:
s = (5,5-16,5) + (6,5-16,5) + (9-16,5) + ... + (26,5-16,5) = 591.
Como a proporo de empates nos postos grande, deve-se introduzir a correo para
empates no clculo de W. Nos postos de X existem dois conjuntos de empates: 2 objetos acham-se
empatados em 4,5 e dois em 7,5. Para os dois grupos, t = nmero de valores empatados em um dado
posto = 2. Desta forma:

TX =
(
t3 t ) = (23 2) ( 23 3)
+ =1
12 12 12

Nos postos de Y, existem trs conjuntos de empates e cada conjunto contm duas
observaes. Aqui t = 2 em cada caso e:

TY =
(
t3 t ) = (23 2) ( 23 3) (23 3)
+ + = 1,5
12 12 12 12

Nos postos de Z, existem dois conjuntos de empates. Um deles empatado em 4,5, consiste de
4 valores e t = 4. O outro, empatado no posto 8, consiste de 3 valores e t = 3. Assim:

TZ =
(
t3 t ) = (4 3 2) (323 3 )
+ =7
12 12 12

Conhecidos os valores de T para os conjuntos de postos de X, Y, e Z, pode-se calcular W com


a correo para empates:
s 591
W= = = 0,83
1 2 3 1 2
k (n n) k T 3 (10 10) 3.9,5
3
12 T 12

Se os empates no tivessem sido considerados o valor de W seria 0,80 ao invs do 0,83


obtido.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 60
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

7.4.5. T E ST E DE SI GNIF I CNCI A PARA W


Pequenas amostras. Pode-se comprovar a significncia de qualquer valor observado de W
determinando a probabilidade associada ocorrncia, sob Ho, de um valor to grande quanto o s que
est associado. Se for determinado a distribuio amostral de s para todas as permutaes nos n postos
em todas as maneiras possveis nos k conjuntos, ter-se- (n!)k conjuntos de postos possveis. Fazendo
uso destes postos pode-se comprovar a hiptese de nulidade, de que os k conjuntos de postos so
independentes, obtendo desta distribuio a probabilidade associada ocorrncia, sob Ho, de um valor
to grande quanto um s observado.
Por este mtodo que foi determinada a distribuio de s sob Ho e foram tabelados certos
valores crticos. A tabela R (Siegel, pg. 317) fornece estes valores. Esta tabela aplicvel para k de 3 a
20 e n de 3 a 7. Se um valor observado de s igual ou superior ao valor exibido na tabela R, para um
dado nvel de significncia, ento Ho pode ser rejeitada quele nvel.
Por exemplo, viu-se que quando k = 3 chefes de pessoal classificaram n = 6 candidatos a
emprego, a concordncia dos julgamentos foi W = 0,16. A tabela R, indica que o s associado quele
valor W (s = 25,5) no significativo. Para que a associao fosse significativa ao nvel de 0,05, o
valor de s deveria ser no mnimo igual a 103,9.

Grandes amostras. Quando n maior que 7, ento a probabilidade associada ocorrncia


sob Ho, de qualquer valor to grande quanto um W observado tem distribuio aproximadamente qui-
quadrado com gl = n - 1. Neste caso a significncia pode ser determinada atravs da tabela do qui-
quadrado.
s
Note-se que: = k(n -1)W e, portanto, 2 = k(n -1)W
1 2 3
k (n n)
12

Pode-se, ento, utilizar esta expresso para determinar a probabilidade associada ocorrncia
sob H0, de qualquer valor to grande quanto um W observado, que muito mais simples de calcular.

7.4.6. I NT E RP RE TAO DE W
Um valor elevado ou significativo de W pode ser interpretado como indicando que os
observadores ou juizes esto aplicando essencialmente os mesmos padres ao atriburem postos aos n
elementos em estudo. No entanto, isto no significa dizer que as ordenaes feitas sejam corretas. Na
realidade, elas podem ser todas incorretas em relao a algum critrio externo. possvel que diversos
julgadores concordem quanto a ordenao ou classificao de indivduos porque todos empregam o
mesmo critrio errado. Em tal caso, um valor alto de W significaria concordncia na escolha do
critrio errado.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 61
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

7.5. CONCLUSO
Foram apresentadas trs tcnicas no-paramtricas para medir o grau de correlao entre
variveis amostrais. E para cada uma delas foi apresentado o respectivo teste de significncia da
associao observada.

Uma destas tcnicas, o coeficiente de contingncia, especialmente aplicvel quando os


dados se apresentam em escala nominal. Isto , se a mensurao to elementar que as classificaes
em jogo no se apresentam relacionadas dentro de qualquer conjunto e assim no podem ser
ordenadas.
Se as variveis em estudo forem mensuradas no mnimo em escala ordinal, pode-se ainda
empregar o coeficiente de contingncia, mas um mtodo adequado de correlao por postos utilizar
melhor as informaes contidas nos dados, sendo, por isso, prefervel.

Para o caso bivariado foi apresentado o coeficiente rs de Spearman. Este coeficiente simples
de calcular e tem a vantagem de estar linearmente relacionado com o coeficiente de concordncia W.
O coeficiente de concordncia de Kendall, W, mede a extenso da associao entre vrios (k)
conjuntos de postos de N entidades. til para determinar a concordncia entre diversos julgamentos a
respeito de associao entre trs ou mais variveis. Tem aplicao especial como mtodo-padro de
ordenao de elementos de acordo com o consenso, quando no se dispe de uma ordem objetiva dos
mesmos. A tabela 7.8 mostra uma matriz relacionando os coeficientes de correlao e a escala de
medida apropriada para as variveis X e Y.

Tabela 7.8 - Coeficientes de correlao e escalas de medidas para as variveis X e Y.

Varivel X
Nominal Ordinal Intervalar/Raz
o
Nominal (1) a. Phi () b. (4) (6)
Coeficiente C
c. V de Kramer d. e V
Varivel Ordinal (4) Biserial por postos (2) a. Tetrachoric (5)
Y b. de Spearman
Intervalar/ (6) Biserial por ponto (5) Biserial (3) r de
Razo Pearson

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 62
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

8. EXERCCIOS
(01) Suponha que uma moeda lanada 800 vezes fornecendo 432 caras. Verifique se a moeda pode
ser considerada viciada ao nvel de 5% de significncia. Realize o teste paramtrico correspondente
para verificar se a mesma concluso poder ser obtida.
(02) De acordo com o modelo gentico a proporo de pessoas possuindo os quatro tipos de sangue: O,
A, B e AB deve obedecer a proporo:

q2 : p2 + 2pq : r2 + 2qr : 2pr


respectivamente, onde p + q + r = 1. Mil pessoas foram testadas e seus tipos sangneos foram
verificados estar na proporo: 18% : 51% : 19% : 12%. Estes resultados so compatveis com a teoria
se p = q = 0,40? Suponha um nvel de significncia de 5% e outro de 1%.
(03) O nmero de acidentes em certa esquina de Porto Alegre o da tabela abaixo: Teste a hiptese
nula de que no existe variao sazonal no nmero de acidentes ao longo do ano. Assuma = 1%.

Jan. Fev. Maro Abril Maio Junho Julho Agosto Set. Out. Nov. Dez.
18 6 8 12 21 7 16 24 13 9 8 14
(04) Uma equipe mdica determinou, por experimentao, que a contagem de plaquetas no sangue de
homens normal com mdia 235 000 por mm3 e desvio padro de 44 600 por mm3. A contagem do
nmero de plaquetas em 25 pacientes homens com cncer de pulmo (em unidades de 1000 mm3) est
listada abaixo:

173 189 196 207 215 237 275 282 293 300 305 316 346
382 395 399 401 437 480 504 524 634 682 882 999
Utilize o teste K-S para decidir, a 1%, se estas contagens podem ser consideradas provenientes de
uma populao de homens saudveis.

(05) Use o teste K-S, a 10%, para verificar a hiptese de que X tem uma distribuio binomial com n =
4 e p = 1/2 com base nos seguintes valores:
x 0 1 2 3 4
f 6 38 58 47 11

(06) Seguindo o modelo desenvolvido pela Liga pelo voto das mulheres, uma escola de segundo grau
local fez um levantamento entre 50 estudantes selecionados ao acaso. Foi realizado um frum sobre
um assunto especfico e ento foi perguntado a cada estudante selecionado sobre sua inteno de voto,
antes e aps ter assistido ao frum. Utilizando os dados abaixo, obtidos na amostra, use o teste de
McNemar, para a significncia (a 5%) de mudana.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 63
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Aps o Frum
Sim No
Antes do Sim 16 11
Frum No 17 6

(07) Uma pesquisa realizada entre donos de automveis sobre a necessidade do uso do cinto de
segurana foi realizada antes e depois de um filme sobre acidentes, onde era enfocado os benefcios do
uso do cinto. Dos 80 motoristas entrevistados 20 eram a favor do uso do cinto antes e continuaram
aps, 30 eram contra antes e ficaram a favor aps, 15 eram contra antes e continuaram contra aps e 5
eram a favor e ficaram contra aps. Teste, ao nvel de 5%, a significncia das mudanas.

(08) O diretor de uma escola para deficientes quer medir o impacto de atividades ao ar livre na
autoconfiana de jovens mentalmente retardados. Dois grupos de 12 membros cada so selecionados
para participarem. Os pares so ajustados dois a dois e um membro do par far parte do grupo de
tratamento e o outro membro do grupo de controle. O ndice de autoconfiana (ver tabela)
supostamente uma medida ordinal. Utilize o teste de Wilcoxon a 1% de significncia para testar o
efeito das atividades ao ar livre na autoconfiana.

Controle 10 13 8 10 13 14 10 11 10 13 6 9
Experimental 17 11 18 9 16 10 22 20 23 24 14 23

(09) Numa pesquisa sobre divrcio, realizada entre as classes mdia e alta, foram obtidos os seguintes
resultados:

Amigveis No-amigveis Total


Classe alta 12 8 20
Classe mdia 4 16 20
Total 16 24 40
admissvel concluir que a proporo de divrcios amigveis maior na classe alta?

(10) Um psiclogo quer investigar o impacto do feedback do instrutor no aprendizado de uma tarefa
complexa. Quatro grupos de 10 estudantes so selecionados para participar. Um grupo recebe somente
feedback positivo, outro somente negativo. Um terceiro grupo recebe ambos: positivo e negativo e o
quarto grupo no recebe feedback. Use o teste 2 para testar a homogeneidade ao nvel de 5% de
significncia.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 64
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Sucesso Fracasso
Positivo 6 4
Negativo 4 6
Ambos 8 2
Nenhum 3 7

(11) Amostras independentes de estudantes de escolas de segunda grau pblicas e particulares de uma
determinada comunidade foram selecionadas. Os estudantes foram classificadas em 5 classes scio-
econmicas de acordo com a ocupao dos pais. Dos 30 estudantes das escolas particulares obteve-se:
2 pais com ocupao de diretoria, 0 com ocupao de gerncia, 12 funcionrios qualificados, 14 semi-
qualificados e 2 sem qualificao. Dos 60 estudantes das escolas pblicas, obteve-se: 4 com ocupao
de diretoria, 9 de gerncia, 18 funcionrios qualificados, 22 semi-qualificados e 7 sem qualificao.
Construa uma tabela de freqncias bivariadas para os dados e teste a hiptese de independncia ao
nvel de 0,05.

(12) Um grupo de 5 adolescentes, escolhidos aleatoriamente, examina, durante 10 minutos, uma


relao de nomes de objetos concretos. Em seguida, cada um dos adolescentes procura recompor, de
memria e por escrito a relao original, com a nica restrio de que o tempo para essa tarefa seria
igual para todos. Outro grupo composto de 4 adolescentes, tambm escolhidos ao acaso, examina a
mesma relao durante 5 minutos e tenta da mesma forma que o primeiro grupo, reproduzir a lista de
memria. Os dois grupos tiveram o mesmo tempo para tentar reproduzir a lista. Na tabela 3, esto os
erros cometidos pelos dois grupos. O objetivo testar a 5% de significncia, se existe diferena de
desempenho entre os dois grupos relativamente varivel memria associada a tempo de estudo.

TA = Tratamento A = memria associada a 5 minutos de estudo.


TB = Tratamento B = memria associada a 10 minutos de estudo.

TA 12 19 8 25
TB 10 14 15 9 18

(13) (Caso 2) Uma classe de 26 alunos foi dividida ao acaso em n1 = 10 alunos (Grupo A) e n2 = 16
alunos (Grupo B). O grupo A estudou regular e diariamente determinado assunto at as vsperas da
prova. O grupo B ocupou-se de outras atividades e s estudou para a prova na vspera. A tabela
contm as notas que cada aluno tirou na prova. Testar a 5% de significncia, se existe diferena entre
os dois mtodos de estudo.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 65
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Grupo A 8 6,5 9 9,5 8 5 7,5 7 10 6


Grupo B 6 8 6 6,5 7 5 10 3,5 4 4,5 9 9 1,5 2 7 5

(14) (Caso 3) Certo professor aplicou o seguinte procedimento a uma classe de 30 elementos: 21
alunos foram por ele chamados pelos prprios nomes, durante o semestre, contingentemente
apresentao das lies de casa; os 9 restantes, por igual perodos foram chamados de voc,
contingentemente apresentao das lies de casa. O professor admitia que, estimulado pelo prprio
nome, o aluno era capaz de melhorar seu desempenho acadmico - desempenho que foi mensurado em
termos de notas escolares. Com = 5% , ser possvel afirmar que era correta a hiptese desse
professor. A tabela 5 apresenta as notas dos 30 alunos no fim do semestre em que se realizou o
experimento.

Grupo A 6,5 8,0 8,5 10,0 8,5 4,0 7,0 6,0 5,5
Grupo B 6,5 3,5 6,0 7,5 6,0 3,0 7,0 5,5 6,5 6,0 6,5 5,0 5,0 6,0 3,5 6,5 10,0 8,0 7,5 4,0 5,0

(15) Dadas as duas amostras independentes abaixo, que foram obtidas pore experimentao e onde os
indivduos foram classificados de acordo com os seguintes escores:

Amostra I 38 39 44 47 50 51 52 59 60 61 73 74 78 84 90
Amostra 42 43 54 62 67 69 70 75 80 81 86 89 91 97 98
II
Use o teste U de Mann-Whitney para determinar se existe uma diferena sifnificativa entre os
escores das duas amostras.

(16) Dickie et al estudaram mudanas hemodinmicas em pacientes com tromboembolismo pulmonar


agudo. A tabela abaixo mostra a presso mdia da artria pulmonar de 9 destes pacientes antes e aps
24 horas depois da urokinase terapia. Teste a 5% de significncia se esta terapia diminui os nveis de
presso da artria pulmonar.

Paciente 1 2 3 4 5 6 7 8 9
0 horas (X) 33 17 30 25 36 25 31 20 18
24 horas (Y) 21 17 22 13 33 20 19 13 9

(17) Um experimento utilizando crianas da stima srie foi realizado para comparar o desempenho de
leitores normais e maus leitores em uma tarefa complexa. Os escores esto mostrados na tabela abaixo.
Estes dados fornecem evidncia suficiente para indicar que os maus leitores obtm escores menores do
que os leitores normais na realizao de uma tarefa complexa? Usa o teste de Mann-Whitney ao nvel
de 5%.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 66
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Maus Leitores 67 55 51 40 25 18 34 44 52 59 54 53
Leitores 95 87 77 73 44 64 68 70 55 59 67 88 89 90 52
normais

(18) Um psiclogo infantil quer investigar o relacionamento entre o sexo de uma criana e o nvel de
resposta a sinais de comunicao no-verbais (cues). O psiclogo acredita que as meninas acertaro
mais e desta forma tero um escore menor, levando em considerao tanto a acurcia quanto a
profundidade da interpretao. Os resultados abaixo foram obtidos testando dez meninos e dez
meninas. Use o teste U, a 5% de significncia, para comprovar a hiptese do pesquisador.

Criana 1 2 3 4 5 6 7 8 9 10
Menino 10 13 15 16 19 21 22 33 25 26
Menina 7 8 9 11 12 14 17 18 20 24

(19) Dois tipos de solues qumicas, A e B, foram ensaiadas para a determinao do pH (grau de
acidez da soluo). As anlises das dez amostras de cada soluo esto apresentadas na tabela que
segue:

Soluo A Soluo B
7,49 7,37 7,28 7,48
7,35 7,51 7,35 7,31
7,54 7,50 7,52 7,22
7,48 7,52 7,50 7,41
7,48 7,46 7,38 7,45
Verifique atravs do teste K-S, se existe diferena significativa entre os pHs dos dois tipos de
solues.

(20) Uma amostra de 14 crianas, constituintes do grupo harmonia e identificao foi mensurada em
dois momentos distintos: antes e depois de sua participao em uma tarefa de classe cujo objetivo era
tornar os alunos mais dependentes uns dos outros na realizao de uma promoo curricular. Os
resultados obtidos (escores mais altos indicando maior harmonia grupal esto tabulados abaixo:

Aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Antes 62 51 60 43 49 45 73 66 57 63 43 46 67 61
Depois 75 53 62 51 52 46 62 68 55 69 45 45 68 67
Aplicando a dupla anlise de varincia de Friedman, determine se h uma diferena significativa,
a 5%, entre os resultados obtidos antes e depois.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 67
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

(21) Aplicando a dupla anlise de varincia de Friedman, determine se h uma diferena significativa,
a 5%, entre os escores produzidos por uma amostra de 11 respondentes em trs momentos distintos:
T1, T2, e T3.

Respondente 1 2 3 4 5 6 7 8 9 10 11
T1 60 53 59 65 55 71 57 77 63 54 63
T2 62 54 65 66 63 74 58 76 65 59 62
T3 64 50 71 68 61 76 63 79 70 62 65

(22) Na tabela esto indicados os nmeros de estudantes aprovados e reprovados por 3 professores.
Testar ao nvel de significncia de 5% a hiptese de as propores de estudantes reprovados pelos 3
professores serem iguais.

Professor A Professor B Professor C Total


Aprovados 50 55 60 170
Reprovados 10 10 15 30
Total 60 65 75 200

(23) Os dados seguintes foram obtidos em um estudo projetado para examinar o relacionamento entre
o estado civil e a preferncia por diverso. Execute um teste de homogeneidade, utizando uma
significncia de 5%.

Sozinho Em pequenos grupos Em grandes grupos


Solteiro 18 4 3
Casado 8 12 5
Separado/Divorciado 10 7 8
Vivo 6 15 4

(24) Um socilogo quer estudar a relao entre orientao poltica e mtodos de educao dos
filhos. Para tanto obteve os resultados da tabela.

Mtodo de edu- Orientao poltica


cao dos filhos Conservadores Moderados Liberais
Permissivo 7 9 14
Moderado 10 10 8
Autoritrio 15 11 5
Total 32 30 27
Testar o relacionamento entre as variveis a um nvel de significncia

(25) Um psiclogo escolar est investigando o relacionamento entre o background pr-escolar e o


ajustamento emocional durante a primeira srie. solicitado a uma professora da srie que mea o
grau de ajustamento para os estudantes baseado em um critrio cuidadosamente planejado. suposto

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 68
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

que os resultados so por natureza ordinais e que devem ser ordenados. Utilize a anlise de varincia
de um fator (Kruskal-Wallis) a 5% para analisar os dados.

Em casa com os pais Em casa com bab Jardim de infncia Em casa com amigos ou parentes
42 37 47 31
35 40 49 44
39 32 34 38
50 33 46
45 41
48 43
36

(26) Verifique se existe correlao entre as marcas de carros e o sexo do proprietrio.


Carro
Sexo A B Total
Masculino 13 18 31
Feminino 15 12 27
Total 28 30 58

(27) Em um concurso para professor auxiliar da UFRGS os oito candidatos inscritos obtiveram as
seguintes notas na prova didtica avaliadas por um prof. assistente, um adjunto e um titular.
Determinar o coeficiente de concordncia entre os 3 avaliadores.

Candidato Assistente Adjunto Titular


1 6 5 4
2 8 9 10
3 10 9 7
4 6 5 8
5 8 7 9
6 9 8 9
7 5 7 9
8 9 10 8

(28) Um levantamento feito entre crianas de diversas classes sociais foi efetuado para verificar o
tempo gasto assistindo TV. Os resultados esto tabelados abaixo. Determinar o coeficiente de
correlao entre as duas variveis. Teste a significncia do valor encontrado.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 69
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

Criana Situao econmica (Posto) Tempo gasto


A 1 2
B 2 1
C 3 3
D 4 5
E 5 4
F 6 8
G 7 6
H 8 7

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 70
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

9. RESPOSTAS DOS E XERC CIOS

(01) 2c = 5,20, 2t = 3,84 Rejeito H0 ( = 5%) Zc = 2,26 e Zt = 1,96, tambm rejeito H0 a 5% de


significncia.

(02) 2c = 14,875, 2t = 7,815 Rejeito H0 (aos nveis de 5% e 1% de significncia)


(03) Dc = 8/160 = 0,05 e Dt (a 5%) = 1,22/ 1601/2 = 0,096 Aceito H0

(08) T = 7, Tt = 7. Rejeito H0 ( = 1%)

(09) 2c = 5,10, 2t = 3,84 Rejeito H0 ( = 5%)

(15) R1 = 162, U = 162, R2 = 183, U = 63, UT = 40 (a 5% de significncia)


(19) KD = 5 (valor calculado), KD = 7 (valor tabelado). Aceito H0 (a 5% de significncia)

(21) 2r = 11,63, 2 (a 5%) = 5,99

(28) rs = +0,88

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 71
SRIE: Exatas
T e x t o : E st a t s t ic a N o P a ra m t r ic a

10. BIBLIOGR AFIA

[BLA72] BLALOCK, Hubert M.Jr. Social Statistics. Tokio: McGraw-Hill Kogakusha, 1972.
[GIB71] GIBBONS, Jean Dickinson. Nonparametric Statistical Inference. New York: McGraw-Hill
Book Company, 1971.

[GIB73] GIBRA, Isaac N. Probability and Statistical Inference for Scientists and Engineers.
Englewood Cliffs, New Jersey: Prentice-Hall, Inc. 1973..

[HIN88] HINKLE, Dennis E., WIERSMA, William, JURS, Stephen G. Applied Statistics for the
Behavioral Sciences. Boston: Hougthon Mifflin, 1988..
[LEV85] LEVIN, Jack Estatstica Aplicada a Cincias Humanas. So Paulo: Harbra, Harper & Row
do Brasil, 1985.
[NOE76] NOETHER, Gottfried E. Introduction to Statistics: A Nonparametric Approach. Boston:
Houghton Mifflin Company, 1976.
[ROS75] ROSCOE, John T. Fundamental Research Statistics for the Behavioral Sciences. New York:
Holt, Rinehart and Wiston, 1975.

[SIE56] SIEGEL, Sidney. Nonparametric Statistics for the Behavioral Sciences. New York: McGraw-
Hill Book Company, 1956.

[WEL82] WELKOWITZ, Joan, EWEN, Robert B., COHEN, Jacob. Introductory Statistics for the
Behavioral Sciences. Orlando, Florida: Harcourt Brace Jovanovich Publishers, 1982.

P r o f . L o r V ia l i , D r . - v i a l i@ p u c r s . b r - h t t p : / / w w w . ma t . p u c r s . b r / f a ma t / v i a l i / 72

Anda mungkin juga menyukai