Anda di halaman 1dari 60
Curso Regular de Estatística Prof Vítor Menezes – Aula 16 AULA 16: Outros testes de hipóteses

Curso Regular de Estatística Prof Vítor Menezes – Aula 16

AULA 16: Outros testes de hipóteses

  • 1. TESTE SOBRE O VALOR DA DIFERENÇA ENTRE DUAS MÉDIAS

.......................................................

2

  • 1.1. Variâncias populacionais conhecidas

...................................................................................................

2

  • 1.2. Variâncias populacionais desconhecidas

.............................................................................................

5

Teste dos sinais

  • 2. ............................................................................................................................

10

  • 3. Intervalo de confiança para a mediana

........................................................................................

14

  • 4. Wilcoxon Mann Whitney

Teste de

...............................................................................................

17

  • 5. DE VARIÂNCIA

ANÁLISE

................................................................................................................

27

5.1.

Introdução

...........................................................................................................................................

27

  • 5.2. Hipóteses do modelo

...........................................................................................................................

32

  • 5.3. Somas de quadrados

...........................................................................................................................

32

  • 5.4. Graus de liberdade

..............................................................................................................................

34

  • 5.5. Distribuição de qui-quadrado e soma de quadrados

..........................................................................

38

  • 5.6. Quadrados médios

..............................................................................................................................

41

  • 5.7. A distribuição F

..................................................................................................................................

  • 6. QUESTÕES APRESENTADAS EM AULA

..........................................................................................

41

51

  • 7. GABARITO .....................................................................................................................................

58

8.

TABELA I – DISTRIBUIÇÃO NORMAL

.............................................................................................

59

  • 9. TABELA II – DISTRIBUIÇÃO T DE STUDENT

...................................................................................

59

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Pessoal, nesta aula veremos assuntos pouquíssimo

Curso Regular de Estatística Prof Vítor Menezes – Aula 16

Pessoal, nesta aula veremos assuntos pouquíssimo cobrados em provas de concursos. Ou seja, a relação custo-benefício do que vamos estudar agora é péssima.

Contudo, apesar de haver poucas questões sobre os tópicos da aula de hoje, elas existem. Então não vamos deixar passar batido.

  • 1. TESTE SOBRE O VALOR DA DIFERENÇA ENTRE DUAS MÉDIAS

    • 1.1. Variâncias populacionais conhecidas

Considere duas populações normais (A e B), independentes entre si. Queremos testar a hipótese nula de que as médias dessas populações coincidem. : = A hipótese alternativa é a de que as médias são diferentes entre si. Observem que, se a hipótese nula for verdadeira, então:

= 0 A diferença entre as médias será nula (se a hipótese nula for verdadeira). Considere que, para a primeira população, temos:

Média Variância Amostra extraída com tamanho

Para a segunda população temos:

Média Variância Amostra extraída com tamanho

Para realizar o teste, extraímos uma amostra de cada população e calculamos as médias amostrais.

Daí fazemos a diferença entre elas:

̅ ̅

Se a diferença entre as médias for muito próxima de zero, concluímos que a hipótese nula é verdadeira. Caso contrário, concluímos que a hipótese nula é falsa.

E como fazemos para determinar o quão afastado de 0 deve dar o resultado para rejeitarmos a hipótese nula?

Basta calcular a estatística teste, assim:

= − + Curso Regular de Estatística Prof Vítor Menezes – Aula 16 E comparamos

=

− +
+

Curso Regular de Estatística Prof Vítor Menezes – Aula 16

E comparamos isso com os valores críticos calculados para a normal reduzida.

Não é tão difícil entender como se chega a este resultado.

Basta fazer o seguinte. Seja a diferença entre as médias. Assim:

= ̅ ̅

Assim, podemos escrever da seguinte maneira:

=

+ + ⋯ +

+ + ⋯ +

Onde é o primeiro elemento da amostra da população “A”, é o segundo elemento da amostra da população “A”, e assim por diante.

Agora aplicamos a esperança dos dois lados da igualdade:

( ) = + + +

+ + ⋯ +

( ) =

( ) + ( ) + ⋯ + ( )

( ) + ( ) + ⋯ + ( )

 

( ) =

+ + ⋯ +

 

+ + ⋯ +

 

 

×

×

 

( ) =

 

( ) = = 0

A esperança de vale 0.

Para calcular a variância, é bem parecido. Como consideramos que as populações são infinitas, cada extração é independente das demais. Assim, teremos variáveis independentes. A variância da soma (ou da diferença) é igual à soma das variâncias.

( ) = + + ⋯ +

+ + + ⋯ +

Quando dividimos uma variável por uma constante, a variância é dividida pela constante ao quadrado:

( ) =

( + + ⋯ + ) + ( + + ⋯ + )

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 ( ) = × + ×

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

( ) =

× + ×

+

=

Logo, tem média 0 e desvio padrão igual a:

+

Então, podemos calcular a variável normal reduzida assim:

 

− 0

=

 

+

=

=

Esse é a expressão que temos que utilizar para calcular a estatística teste.

Questão 1

TCE PR 2011 [FCC]

Se Z tem distribuição normal padrão, então:

P (Z < 1) = 0,841; P (Z < 1,64) = 0,95; P (Z < 1,88) = 0,970; P (Z < 2) = 0,977; P (Z < 2,5) = 0,994

Duas amostras independentes: a primeira de tamanho 7, extraída de uma população normal

com média M e variância 21; a segunda de tamanho 4, extraída de uma população normal

com média N e variância 24, forneceram médias amostrais dadas respectivamente por 15,8

e 8,3.

Desejando-se testar a hipótese H0 : M = N contra H1 : M > N, o nível descritivo do teste é

dado por

  • a) 0,6%.

  • b) 0,8%.

  • c) 1%.

  • d) 2%.

  • e) 5%.

Resolução:

Primeiro calculamos a estatística teste:

= − = + 15,8 − 8,3 7,5 = = 2,5 3 21 + 24

=

− = + 15,8 − 8,3 7,5 = = 2,5 3 21 + 24 7
=
+
15,8 − 8,3
7,5
=
= 2,5
3
21 + 24
7
4

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

O nível descritivo é a probabilidade de obtermos valores mais extremos que a estatística

teste. No caso, é a probabilidade de a normal reduzida assumir valores maiores que 2,5:

Gabarito: A

( > 2,5) =?

= 1

( , 2,5)

1 − 99,4%

= 0,6%

  • 1.2. Variâncias populacionais desconhecidas

Quando as variâncias populacionais são desconhecidas, devemos utilizar a distribuição “t”.

O caso típico é aquele em que as variâncias populacionais são desconhecidas, mas são

supostas iguais.

Vamos ver como fica.

Vimos acima que, no caso de variâncias conhecidas, a variância da diferença amostral das

médias é dada por:

( ) =

+

Se as variâncias populacionais são iguais, então a fórmula se reduz a:

( ) = ×

1

1

+

No entanto, se não conhecemos o valor de , temos que estima-lo. A forma de fazer isso é

considerar, em conjunto, as duas amostras extraídas. A estimativa de passa a ser a média

ponderada das variâncias de cada amostra. Os pesos de ponderação são os graus de

liberdade de cada amostra. Lembrando que o grau de liberdade é igual ao tamanho da

amostra subtraído de 1.

A estimativa de fica:

=

( − 1) × + ( − 1) ×

( − 1) + ( − 1)

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 = ( − 1) × +

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

=

( − 1) × + ( − 1) ×

 

+ − 2

 

Onde e são as variâncias amostrais.

 

E a estatística teste fica:

 

=

 

1

1

+ ×

 

Os valores críticos são calculados a partir da distribuição T. O número de graus de liberdade

é o total, correspondente à soma dos números de graus de liberdade para as duas amostras:

( − 1) + ( − 1) = +

− 2

Questão 2 TRF 2ª REGIÃO 2007 [FCC]

Uma pesquisa foi realizada para avaliar se o preço médio do quilo da carne bovina, tipo

Alcatra, vendida nos supermercados de dois bairros é igual. No bairro X foram coletados os

preços de 15 supermercados e o preço médio obtido foi μ1 com variância S 2 X e no bairro Y

foram coletados preços de 15 supermercados com preço médio de μ2 com variância S 2

Y .

Considerando que as distribuições dos preços apresentam distribuição normal e as

variâncias populacionais dos dois grupos são iguais e desconhecidas, a distribuição de

probabilidade da estatística apropriada para se comparar a média dos dois bairros é

  • a) Qui quadrado com 29 graus de liberdade.

b) F de Snedecor com 3 e 28 graus de liberdade.

  • c) t de Student com 30 graus de liberdade.

d) Normal com média μ1 − μ2.

  • e) t de Student com 28 graus de liberdade.

Resolução:

Desde que as variâncias são iguais, mas desconhecidas, então uma estimativa não-

tendenciosa da variância é dada por:

=

( − 1) × + − 1 ×

+ − 2

Onde n x e n y são os tamanhos das amostras de X e Y.

A estatística teste fica:

= ̅− 1 + × 1 Curso Regular de Estatística Prof Vítor Menezes – Aula

=

 

̅−

1

+ ×

1

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Que tem distribuição T com número de graus de liberdade igual a:

+ − 2 = 15 + 15 − 2 = 28

Ou seja, o teste pode ser feito com uma variável t de Student com 28 graus de liberdade.

Gabarito: E

Questão 3 AFPS 2002 [ESAF]

Temos duas populações normais A e B com mesma variância e amostras aleatórias

independentes dessas populações de tamanhos n1=20 e n2=20 respectivamente.

Assinale a opção que dá o número de graus de liberdade da estatística de Student utilizada

no teste de igualdade das médias das populações A e B.

  • a) 40

  • b) 19

  • c) 16

  • d) 20

  • e) 38

Resolução

Já sabemos que o número de graus de liberdade fica:

+ − 2 = 20 + 20 − 2 = 38

Gabarito: E

Questão 4 SEFAZ ES 2008 [CESPE]

Uma auditoria foi realizada nas filiais I e II da empresa A&B, com o propósito de examinar a

lisura dos processos de compras efetuadas em determinado trimestre. Para a realização de

um estudo-piloto e considerando que a população de notas fiscais existentes nessas filiais

era muito grande, em cada filial foi tomada uma amostra aleatória simples de 900 notas

fiscais. Para cada nota fiscal examinada, registrou-se, entre outras coisas, o logaritmo

natural do valor da compra constante na nota fiscal: X. Uma avaliação estatística mostrou

que as distribuições de X para as filiais I e II são aproximadamente normais, com médias e

e desvios padrão e

, respectivamente, em que .

Os resultados por filial são mostrados na tabela abaixo.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Com base nas informações acima e

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Com base nas informações acima e
Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Com base nas informações acima e

Com base nas informações acima e considerando-se que Φ(2) = 0,9772 e Φ (0,675) =

0,7500, em que Φ(z) representa a função de distribuição acumulada da distribuição normal

padrão, julgue o item.

O p-valor correspondente ao teste de hipóteses H 0 : = versus H a : , é inferior a

4,8% e a hipótese nula não é rejeitada quando o nível de significância for igual ou superior a

5%.

Resolução:

Caso o p-valor não seja inferior a 4,8%, então o item é errado, de cara (por afirmar

justamente o contrário).

De outro modo, se o p-valor for de fato inferior a 4,8%, a primeira parte do item estaria

correta.

No entanto, a segunda parte afirma que, sendo o nível de significância de 5%, a hipótese

nula não é rejeitada.

Mas isso está errado. Nível de significância maior que p-valor (5% > 4,8%) resulta em

rejeição da hipótese nula. Já vimos isso na primeira aula sobre testes de hipóteses.

Assim, independente de o p-valor ser realmente menor que 4,8% ou não, podemos afirmar

que o item está errado.

Gabarito: errado.

O mesmo teste visto anteriormente pode ser usado para testar quaisquer outros valores

para a diferença entre as duas médias.

Em outras palavras, a diferença estabelecida na hipótese

nula

não

precisa

ser

necessariamente ser igual a 0. Pode assumir qualquer outro valor real.

Seja a diferença entre as médias. A estatística teste é igual a:

=

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Caso a variância populacional seja desconhecida,

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Caso a variância populacional seja desconhecida, a estatística teste passa a ser igual a:

=

Nos exercícios anteriores, a hipótese nula indicava que a diferença era igual a 0. Então,

= 0.

Mas, se a hipótese nula indicar outro valor qualquer, como , então =

Vejamos um exemplo:

Questão 5

Instruções:

MPU 2007 [FCC]

Para

responder

à

questão,

considere

o

enunciado

a

seguir.

Dadas duas amostras aleatórias independentes:

- a primeira (X1, X2, X3, X4) extraída de uma população X, onde X: ( , );

a segunda(Y1, Y2, Y3, Y4) extraída de uma população Y, onde ( , ), forneceram médias

amostrais respectivamente iguais a:

̅= 15,3 = 9,3

Deseja-se

testar a hipótese : = 7 contra

a alternativa : < 7. Sabendo

que = = , onde é desconhecido, e que as amostras forneceram para uma

estimativa de o valor 32, o valor observado da estatística t de Student, apropriada para o

teste é

 

a)

0,5

b)

0,25

c)

- 0,25

d)

- 0,5

e)

- 1

Resolução:

A estatística t de Student para o teste de hipótese é igual a:

=

( ̅− ) − 7

1

+ ×

1

Foi dito que ̅= 15,3 e = 9,3. Pelo enunciado, ambas as amostras possuem o mesmo

tamanho ( = = 4)

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Além disso, a estimativa de ,

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Além disso, a estimativa de , que representei por , vale 32.

Substituindo os valores:

Gabarito: C

  • 2. Teste dos sinais

=

(15,3 − 9,3) − 7

1

4

+

1 4 × 32
1
4 × 32

6 − 7

= √16 = −0,25

Existem testes de hipóteses que não exigem a suposição de que a variável aleatória tenha

uma determinada distribuição (como normal, por exemplo). São os chamados testes não

paramétricos.

Um dos testes mais simples é o teste dos sinais, comumente empregado para testar

hipótese acerca da mediana.

Considere uma amostra de valores: 2, 3, 5, 6, 7, 8, 9.

Queremos testar a hipótese nula de que a mediana vale 5.

H 0 : D = 5

A hipótese alternativa é de que a mediana é diferente de 5:

H 1 : D 5

O primeiro passo é subtrair 5 de cada valor da amostra :

  • 2 − 5

= −3

  • 3 − 5 = −2

  • 5 − 5

= 0

  • 6 − 5

= 1

  • 7 − 5

= 2

  • 8 − 5

= 3

  • 9 − 5 = 4

Obtivemos dois números negativos e quatro positivos. Obtivemos um resultado 0, que é

descartado. Sobram então 6 casos de interesse.

Se a hipótese nula for verdadeira, esperamos que metade dos sinais sejam positivos e

metade sejam negativos. Isso é entendido da seguinte forma.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 É razoável esperar que metade das

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

É razoável esperar que metade das observações na amostra sejam maiores que a mediana e

metade das observações sejam menores que a mediana.

Por isso, se 5 for mesmo a mediana, ao subtrairmos 5 de todas as observações, deveríamos

obter metade dos casos com sinal (-) e metade com sinal (+).

Seja X o número de sinais positivos observados na amostra. X tem distribuição binomial de

parâmetros n = 6 e p = 0,5.

Suponha que rejeitamos a hipótese nula se houver 0 sinais positivos, ou se houver 6 sinais

positivos. Esses são justamente os casos extremos.

A chance de isso ocorrer, sob a hipótese nula, é de:

( = 0) + ( = 6)

= , × 0,5 × 0,5 + , × 0,5 × 0,5 = 3,125%

Esse é o nível de significância.

No experimento feito, X = 4, então não rejeitamos a hipótese nula.

Pronto, esse é o teste dos sinais.

Outro exemplo:

Exemplo 1

Dada a amostra:

1, 2, 5, 7, 9, 11, 15, 20, 22

Queremos testar a hipótese de a mediana ser igual a 5. Rejeitamos a hipótese nula, se

tivermos 0, 1, 7 ou 8 sinais positivos.

  • a) calcule o nível de significância

  • b) conclua sobre rejeitar ou não a hipótese nula

Resolução:

  • a) Primeiro fazemos as diferenças:

1

− 5

= −4

2

− 5 = −3

5 − 5 = 0 ( )

 

7

− 5

= 2

9

− 5 = 4

11 − 5 = 6

15 − 5 = 10 20 = 15 − 5 22 − 5 = 17 Obtivemos
  • 15 − 5

= 10

  • 20 = 15

− 5

  • 22 − 5 = 17

Obtivemos 2 sinais negativos e 6 positivos.

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Em 8 realizações, se a hipótese nula for verdadeira, a quantidade de sinais positivos tem

distribuição binomial com parâmetros p = 0,5 e n =8.

As probabilidades de ocorrerem os casos extremos são:

( = 0) = , × 0,5 × 0,5 = 0,0039

( = 1) = , × 0,5 × 0,5 = 0,03125

Como a distribuição binomial é simétrica, já podemos calcular os demais valores extremos:

( = 7) = 0,03125

( = 8) = 0,0039

Somando todos estes valores, obtemos 0,070313. Essa é a chance de obtermos os valores

críticos, os valores que nos fazem rejeitar a hipótese nula. Logo, o nível de significância é de

7,0313%.

b) Os valores críticos são 0, 1, 7 e 8 sinais positivos.

Nós obtivemos 6 sinais positivos. Então não rejeitamos a hipótese nula.

Questão 6

ABIN 2010 [CESPE]

Com relação a métodos não paramétricos, julgue o item a seguir.

Hipóteses acerca da mediana de certa população podem ser avaliadas pelo teste dos sinais.

Resolução:

Para realizar o teste sobre o valor da mediana, o procedimento é o seguinte. Subtraímos de

cada observação o valor que se pretende testar como mediana.

Sob a hipótese nula, espera-se que em 50% dos casos tenhamos resultados negativos (sinais

negativos) e em 50% dos casos tenhamos resultados positivos (sinais positivos). Isso, é claro,

desconsiderando-se os casos de resultado nulo.

Deste modo, sob a hipótese nula, a quantidade de sinais positivos (ou negativos, tanto faz),

tem distribuição binomial, com parâmetros (tamanho da amostra) e = 0,5.

Em seguida, contamos quantos sinais positivos foram de fato obtidos na amostragem

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 realizada, Essa quantia pode ser usada

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

realizada, Essa quantia pode ser usada para testar a hipótese sobre a mediana. Esse é o

teste dos sinais.

Gabarito: certo

Questão 7 TRE SP 2012 [FCC]

Durante 36 dias, observou-se, diariamente, a quantidade produzida de peças por duas

máquinas de marcas M1 e M2, independentemente. Um fabricante verificou que subtraindo

diariamente da quantidade de peças produzidas por M1 a quantidade produzida por

M2 obteve a presença de sinal positivo nas diferenças de 20 produções e sinal negativo nas

16 restantes, não ocorrendo diferença nula. Aplicando o teste dos sinais para decidir se a

proporção populacional de sinais positivos (p) é igual a 0,50, ao nível de significância de 5%,

ele considerou as hipóteses H0: p = 0,50 (hipótese nula) contra H1: p ≠ 0,50 (hipótese

alternativa). Com a aproximação da distribuição binomial pela normal sem a correção de

continuidade, foi apurado o valor do escore r correspondente para comparação com o valor

crítico da distribuição normal padrão (Z) tal que a probabilidade P(|Z| ≤ 1,96) = 95%. Então,

o fabricante, ao nível de significância de 5%,

  • a) rejeitará H0 e = 2 ÷ 3

b)não rejeitará H0 e

= 2 ÷ 3

  • c) rejeitará H0 e r = 2.

  • d) não rejeitará H0 e r = 2.

  • e) rejeitará H0 e = 1 ÷ 3

Resolução:

Seja "X" o número de sinais positivos obtidos. Sob a hipótese nula, "X" tem distribuição

binomial com parâmetros = 36 e = 0,5.

Logo:

 

( ) = = 36 × 0,5 = 18

( ) = = 36 × 0,5 × 0,5 = 18

= √9 = 3

Onde:

é o tamanho da amostra

é a probabilidade de sinal positivo, sob a hipótese nula

= 1 − é a probabilidade de sinal negativo

Lembre-se de que sempre descartamos as diferenças nulas (sem definição de sinal positivo

ou negativo). No caso, a questão disse que não havia diferenças nulas.

A estatística teste fica:

= − A questão está chamando a estatística teste de Foram obtidos 20 sinais positivos

=

A questão está chamando a estatística teste de

Foram obtidos 20 sinais positivos ( = 20). Logo:

 

20 − 18

=

2

=

3

3

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

A estatística teste (2/3) é menor que o valor crítico (1,96). Então não rejeitamos a hipótese

nula.

Gabarito: B

  • 3. Intervalo de confiança não paramétrico para a mediana

Podemos usar a mesma ideia vista no teste dos sinais para delimitar intervalos de confiança

para a mediana.

Suponha que fizemos uma amostragem e obtivemos os seguintes valores:

1, 2, 7, 9, 11, 15, 20, 22

Observem que este caso é muito similar ao Exemplo 1. Só retirei a observação 5, para

ficarmos exatamente com 8 números.

Já vimos naquele exemplo que, para um nível de significância de 7,0313%, rejeitamos a

hipótese nula para 0, 1, 7 ou 8 sinais positivos. Isso ocorrerá se a hipótese nula atribuir à

mediana valores:

Menores que 2 (assim teremos 7 ou 8 sinais positivos)

Maiores que 20 (assim teremos 1 ou 0 sinais positivos)

Logo, a faixa entre 2 e 20 corresponderia a

100% − 7,0313% = 92,9687%

A faixa entre 2 e 20 corresponde a 92,9687% dos casos.

Dizemos que esse é o intervalo de 92,9687% de confiança para a mediana.

Ou seja, usamos a região de aceitação do teste para delimitar o intervalo de confiança.

Segundo o livro Estatística para Economistas do Rodolfo Hoffmann, o procedimento é

aplicável porque: “o intervalo de 100(1-α)% de confiança para um parâmetro é o conjunto

de valores do parâmetro que não serão rejeitados num teste bilateral ao nível de

significância α.”

Na minha opinião, há alguns problemas na conclusão acima. Ao meu ver, o que dá para

afirmar sobre a relação entre testes de hipóteses e intervalo de confiança é o seguinte.

Considere um intervalo de confiança para a média. Considere também que um teste de

hipóteses bilateral afirma que a média é . Se o intervalo de confiança contém , então

aceitamos a hipótese nula. Se o intervalo de confiança não contém , então não aceitamos

a hipótese nula.

É isso. Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Contudo, nem sempre um

É isso.

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Contudo, nem sempre um intervalo de confiança para a média coincidirá com a região de

aceitação do teste.

Exemplificando, considere uma amostra de tamanho 100. A variância populacional é 25. A

média amostral é 18. A hipótese nula nos diz que a média vale 15.

Adotando 95% de confiança, temos o seguinte.

O intervalo de confiança é dado por:

O que corresponde a:

18 ± 1,96 ×

25

100

[17,02; 18,98]

A região de aceitação do teste corresponde a:

[14,02; 15,98]

Rejeitamos a hipótese nula porque o intervalo de confiança (de 17,02 a 18,98) não abrange

o valor 15.

Mas vejam que o intervalo de confiança não coincidiu com a região de aceitação do teste.

Bom, apesar disso, não estamos aqui para contestar do livro, sim para aplicar o método.

O método nos diz que, no caso da mediana, para determinação do intervalo de confiança

não paramétrico, consideramos que o intervalo de confiança corresponde à região de

aceitação do teste de hipóteses.

Questão 8 TRF-2 2007 [FCC]

Cinco bois foram alimentados com uma dieta experimental desde o seu nascimento atéa

idade de 2 meses. Os aumentos de pesos verificados, em gramas, foram os seguintes: 900,

840, 950, 1 050, 800. Considerando-se a mediana desta amostra como estimativa pontual

da mediana populacional dos aumentos de peso, e considerando-se [800, 1050] um

intervalo de confiança para a mediana populacional, o coeficiente de confiança deste

intervalo

  • (A) situa-se entre 65% e 70%

  • (B) situa-se entre 71% e 80%

  • (C) situa-se entre 81% e 89%

  • (D) situa-se entre 90% e 95%

  • (E) ésuperior a 95%

Resolução: Primeiro ordenamos a amostra: 800, 840, 900, 950, 1050 Curso Regular de Estatística Prof Vítor

Resolução:

Primeiro ordenamos a amostra:

800, 840, 900, 950, 1050

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

O intervalo de confiança (= região de aceitação do teste bilateral) vai de 800 a 1050.

Então os valores raros (=região crítica do teste bilateral) correspondem aos valores:

Menores que 800 (o que resultará em 5 sinais positivos)

Maiores que 1050 (o que resultará em 0 sinais positivos)

O número de sinais positivos tem distribuição binomial com parâmetros p = 0,5 e n = 5. As

chances de ocorrerem os casos raros são:

( = 0) = , × 0,5 × 0,5 =

1

32

( = 5) = , × 0,5 × 0,5 =

1

32

A chance de casos raros é:

1

1

32 + 32

2

=

32

1

=

16

Logo, o correspondente teste de hipóteses tem nível de significância (casos raros) de 1/16.

Tal teste corresponde a um intervalo de confiança (casos frequentes) de:

Gabarito: D

1 −

  • 1 15

  • 16 = 16 = 0,9375 = 93,75%

Questão 9 TRF-1 2001 [FCC]

Cinco porcos foram alimentados com uma dieta experimental desde o seu nascimento até a

idade de 2 meses. Os aumentos de pesos verificados em gramas, foram os seguintes: 90, 84,

94, 105, 79. Considerando-se a mediana dessa amostra como estimativa pontual da

mediana populacional dos aumentos de peso, e considerando-se [84,94] um intervalo de

confiança para a media-na populacional, o coeficiente de confiança desse intervalo

  • (A) é inferior a 75%.

  • (B) situa-se entre 75% e 79%.

  • (C) situa-se entre 80% e 84%.

  • (D) situa-se entre 85% e 90%.

  • (E) é superior a 90%

Resolução:

Primeiro ordenamos os valores:

79, 84, 90, 94, 105 Curso Regular de Estatística Prof Vítor Menezes – Aula 16 A

79, 84, 90, 94, 105

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

A faixa de valores frequentes (=região de aceitação no teste bilateral) vai de 84 a 94.

Logo, são valores raros:

Menores que 84: correspondem a 4 ou 5 sinais positivos

Maiores que 94: correspondem a 1 ou 0 sinais positivos

O número de sinais positivos tem distribuição binomial com parâmetros p = 0,5 e n = 5. As

chances de ocorrerem os casos raros são:

( = 0) = , × 0,5 × 0,5 =

1

32

( = 1) = , × 0,5 × 0,5 =

5

32

( = 4) = , × 0,5 × 0,5 =

5

32

( = 5) = , × 0,5 × 0,5 =

1

32

A chance de casos raros é:

1 5 5 1 12 3 = = 32 + 32 + 32 + 32 32
1
5
5
1
12
3
=
=
32 + 32 + 32 + 32
32
8
Logo, o correspondente teste de hipóteses tem nível de significância (casos raros) de 3/8.
Tal teste corresponde a um intervalo de confiança (casos frequentes) de:
3
1 − 8 = 62,5%

Deste modo, eu marcaria alternativa “a”. No entanto, no gabarito preliminar, a banca

indicou a letra “e”. Não sei se houve alteração de gabarito. Caso você encontre algum erro

em minha solução, por favor, me avise.

Gabarito: E

  • 4. Teste de Wilcoxon Mann Whitney

Esse teste serve para testar se duas populações independentes (X 1 e X 2 ) têm a mesma

distribuição. Para tanto, extraímos duas amostras independentes.

Se a hipótese nula for verdadeira, então ( > ) = ( < ) = 0,5

Se a hipótese nula

for falsa, então ( > ) ≠ ( < )

A amostra de X 1 tem tamanho n 1 . A amostra de X 2 tem tamanho n 2 .

Suponhamos, sem perda de generalidade, que

Muito bem, vejamos como fica o teste por meio de um exemplo:

Amostra extraída de X1: 6, 9 Amostra extraída de X2: 8, 12, 13 Agora adotamos o

Amostra extraída de X1: 6, 9

Amostra extraída de X2: 8, 12, 13

Agora adotamos o seguinte procedimento.

Primeiro passo: ordenamos todas as observações:

6, 8, 9, 12, 13

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

A posição que cada número ocupa nessa lista ordenada é o seu posto.

Observação

Posto

6

1

8

2

9

3

12

4

13

5

Em vermelho temos os postos referentes a X 1 .

Agora, somamos estes postos de X 1 :

= 1 + 3 = 4

A soma dos postos de X 1 , que estou chamando de “W”, é igual a 4. É justamente este valor

que usamos para realizar o teste.

Se a hipótese nula for verdadeira, qualquer atribuição de postos a X 1 e X 2 tem a mesma

probabilidade.

Dos postos de 1 a 5, temos que escolher 2 para atribuir a X 1 . Há , = 10 maneiras de fazer

isso, abaixo descritas:

Postos

W

  • 1 e 2

3

  • 1 e 3

4

  • 1 e 4

5

  • 1 e 5

6

  • 2 e 3

5

  • 2 e 4

6

  • 2 e 5

7

  • 3 e 4

7

  • 3 e 5

8

  • 4 e 5

9

Cada um dos casos acima tem chance de 1/10. Logo, a distribuição de W fica:

W Probabilidade 3 1/10 4 1/10 5 2/10 6 2/10 7 2/10 8 1/10 9 1/10

W

Probabilidade

3

1/10

4

1/10

5

2/10

6

2/10

7

2/10

8

1/10

9

1/10

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Vamos supor que a gente defina uma região crítica de 20%. Ou seja, o nível de significância

é de 20%.

Os casos extremos são aqueles que ocorrem em apenas 20% das vezes.

A chance de W ser 3 é de 10% e a chance de W ser 9 é de 10%.

Logo:

(4 ≤ ≤ 8) = 80%

Assim, ao nível de confiança de 80%, a região de aceitação corresponde aos valores de 4 a 8.

No nosso experimento, tivemos W = 4, então aceitamos a hipótese nula de que as duas

populações têm mesma distribuição.

A ideia do teste não é difícil de entender.

Um caso extremo, em que as menores observações são todas referentes à população X 1

(caso em que W = 3), nos indica um caso no mínimo atípico. Seria muito difícil que, graças

ao mero acaso, todas as observações pequenas fossem provenientes de X 1 . Parece mais

razoável rejeitar a hipótese nula e considerar que as duas populações não têm mesma

distribuição.

No outro caso extremo, se todas as observações grandes vêm de X 1 (caso em que W = 9),

então, novamente, rejeitamos a hipótese nula. Não é razoável admitir que, graças ao mero

acaso, X 1 apresentou as maiores observações.

Quando o tamanho das amostras aumenta, fica muito trabalhoso calcular as probabilidades

como fizemos nas tabelas acima. Daí aproximamos. É possível demonstrar que, quando

> 10, então W tem distribuição aproximadamente normal, com média e variância dados

por:

Outro exemplo:

1

= 2 × ( + + 1)

1

= 12 × × × ( + + 1)

As amostras têm tamanho 15 e 17. A soma dos postos de X 1 foi igual a 240.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Então, sob a hipótese nula, temos:

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Então, sob a hipótese nula, temos:

1

= 2 × 15 × (15 + 17 + 1) = 412,5

1

= 12 × 15 × 17 × 33 = 701,25

= 701,25 = 26,48

O valor observado de W foi igual a 240.

A variável Z é de:

=

412,5 − 240

26,48

= 6,51

Se definirmos um nível de confiança de 95%, então os valores críticos são -1,96 e 1,96.

A estatística teste (6,51) caiu fora da região de aceitação. Então rejeitamos a hipótese nula

de que as duas distribuições têm mesma probabilidade.

  • 5. Teste da ordenação casual

Em muitas situações é importante verificarmos se os dados analisados são provenientes de

uma amostra aleatória.

Como exemplo, considere um conjunto de resultados do lançamento de uma moeda (C =

cara, K = coroa).

C, C, K, K, K, C

Chamos de “grupo” ou “chorrilho” um conjunto de elementos seguidos do mesmo tipo, que

está delimitado por outro grupo.

Exemplificando, o primeiro grupo corresponde a C, C.

O segundo grupo corresponde a: K, K, K

O terceiro grupo corresponde a: C

Abaixo destacamos em cores cada chorrilho:

São então 3 chorrilhos.

C, C, K, K, K, C

O número de chorrilhos pode ser usado para testarmos a hipótese de que tal amostra é

aleatória.

Vejamos o caso em que o número de chorrilhos é o maior possível:

C, K, C, K, C, K

São agora 6 grupos ou chorrilhos, todos eles com 1 elemento cada.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Essa amostra não parece ter sido

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Essa amostra não parece ter sido aleatória, pois é difícil que caras e coroas fiquem se

alternando com perfeição.

Num caso extremo, de 20 lançamentos, o número máximo de chorrilhos seria 20, e ficaria

ainda mais evidente que, provavelmente, não se trata de uma amostra aleatória:

C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K, C, K

Por outro lado, se o número de chorrilhos for mínimo, também temos sinais de que a

amostra não é aleatória:

C, C, C, C, C, C, C, C, C, C, K, K, K, K, K, K, K , K, K, K

Muito bem, voltando no caso dos seis lançamentos, considere que obtivemos 2 caras e 4

coroas.

As possibilidades são:

Casos

Números de chorrilhos

C, C, K, K, K, K

2

C, K, C, K, K, K

4

C, K, K, C, K, K

4

C, K, K, K, C, K

4

C, K, K, K, K, C

3

K, C, C, K, K, K

3

K, C, K, C, K, K

5

K, C, K, K, C, K

5

K, C, K, K, K, C

4

K, K, C, C, K, K

3

K, K, C, K, C, K

5

K, K, C, K, K, C

4

K, K, K, C, C, K

3

K, K, K, C, K, C

4

K, K, K, K, C, C

2

Sob a hipótese de que a ordem dos resultados (cara ou coroa) é aleatória, cada um dos 15

casos acima

tem

mesma

chance.

Logo,

podemos

montar

a

seguinte tabela de

probabilidades:

 

Número de chorrilhos (X)

Probabilidade

   
 

2

 

2/15

 

3

 

4/15

 

4

 

6/15

 

5

 

3/15

Se definirmos a região de rejeição do teste como ≤ 2 ou ≥ 5, então a região crítica terá

probabilidade de:

 
 

2

3

15 +

15 = 33,33%

Num determinado experimento, obtemos: C, K, C, K, K, K Curso Regular de Estatística Prof Vítor

Num determinado experimento, obtemos:

C, K, C, K, K, K

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

São 4 chorrilhos, o que não cai na região crítica. Logo, não rejeitamos a hipótese nula para o

nível de significância de 33,33%.

  • 6. Teste de McNemar

Considere que, em um grupo de 100 pessoas, tínhamos as seguintes intenções de voto:

Candidato A: 40 eleitores

Candidato B: 60 eleitores.

Em seguida, é realizado um debate entre os candidatos, e agora as intenções de voto

passam a ser:

Candidato A: 35 eleitores

Candidato B: 65 eleitores

A tabela abaixo apresenta um detalhamento maior do comportamento dos eleitores:

     

Antes

 

Candidato A

Candidato B

Total

 
 

Candidato A

 

25

10

35

Depois

Candidato B

 

15

50

65

 

Total

 

40

60

100

 

Vamos analisar a tabela com mais calma.

 

A primeira célula nos diz que 25 eleitores votariam em A antes do debate. E esses 25

eleitores continuaram votando em A após o debate. Eles não mudaram de opinião.

 

A segunda célula nos diz que outros 10 eleitores votariam em B antes do debate, mas, após

o debate, mudaram de ideia e passaram a votar em A.

 

A terceira célula nos diz

que,

após

o

debate, 15

eleitores deixaram de

votar

em

A

e

passaram a votar em B.

 

A quarta célula nos diz que 50 eleitores permaneceram com B, antes e depois do debate.

 

Em vermelho, abaixo, destacamos então as células dos que mudaram de opinião.

 
     

Antes

 

Candidato A

Candidato B

Total

 
 

Candidato A

 

25

10

35

Depois

Candidato B

 

15

50

65

 

Total

 

40

60

100

 

10 + 15 = 25 pessoas mudaram de opinião.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 A hipótese nula a ser testada

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

A hipótese

nula

a

ser

testada é

que o debate não inteferiu

na proporção de votos do

candidato “A”.

 

Se a hipótese nula for verdadeira, esperamos que, entre as pessoas que mudaram de ideia,

metade mudou de A para B e a outra metade mudou de B para A. De modo que o resultado

geral não se altera. Ou seja, esperaríamos que:

12,5 pessoas mudaram de A para B

12,5 pessoas mudaram de B para A

Agora construímos a estatística teste de forma muito similar ao que fizemos no teste de qui-

quadrado para proporções. Subtraímos as frequências esperadas das observadas, elevamos

ao quadrado, e dividimos pelas frequências esperadas:

= ∑ ( )

=

(15 − 12,5) + (10 − 12,5)

12,5

12,5

= 0,5 + 0,5 = 1

Essa é a estatística teste.

O valor crítico é obtido a partir da tabela de qui-quadrado para 1 grau de liberdade.

Suponha que a gente defina 5% de significância. A tabela de qui-quadrado nos indica que a

estatística teste é de 3,84.

Agora fazemos assim:

Se a estatística teste é maior que o valor crítico: rejeitamos a hipótese nula

Se a estatística teste é menor que o valor crítico: não rejeitamos a hipótese nula

No presente caso, a estatística teste foi menor que o valor crítico (1 < 3,84), então não

rejeitamos a hipótese nula.

Observem então que o teste de McNemar é adequado para experimentos do tipo “antes e

depois”. Cada elemento serve como seu próprio controle, antes e depois de algum

tratamento aplicado.

No caso acima, cada eleitor servia para compararmos o efeito do debate. Bastava ver se o

eleitor mudou ou não de intenção de voto.

Questão 10 TRF-2 2007 [FCC]

Uma emissora de televisão promoveu um debate com os 2 candidatos ao segundo turno de

uma eleição municipal. Uma pesquisa de opinião deseja avaliar se o debate foi eficaz em

mudar a preferência dos eleitores que assistiram ao debate pelos 2 candidatos. Para tanto

foram selecionados N adultos aleatoriamente e perguntadas as preferências pelos dois

candidatos antes e depois da realização do debate. O teste não paramétrico adequado para

avaliar a mudança de preferência é

a) Teste Wilcoxon-Mann-Whitney. b) Teste Exato de Fisher. c) Teste de Kruskal Wallis. d) Teste de
  • a) Teste Wilcoxon-Mann-Whitney.

  • b) Teste Exato de Fisher.

  • c) Teste de Kruskal Wallis.

  • d) Teste de McNemar.

  • e) Teste de Komolgorov-Smirnov.

Resolução:

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

O teste de Wilcoxon-Mann-Whitney se destina a verificar se duas populações apresentam a

mesma distribuição. Para tanto, extraem-se amostras independentes, de cada uma das

populações. Em seguida, as observações são ordenadas (em ordem crescente), atribuem-se

postos. Com base na soma dos postos referente às observações de uma das amostras,

monta-se a estatística para o teste.

O teste exato de Fisher nós não estudamos. Fica a informação de que ele substitui o teste de

Qui-quadrado em tabelas de contingência quando, em determinadas situações, este último

não é adequado.

O teste de Kruskal Wallis é outro teste que não estudamos. Fica a informação de que é um

teste não-paramétrico, baseado em postos, para verificar se duas amostras provém da

mesma população.

O teste de McNemar é utilizado para testar mudanças nas observações. Algo do tipo "antes"

e "depois". Cada elemento é monitorado antes e depois do experimento.

Nesta questão, contamos as intenções de voto de cada candidato antes e depois do debate.

Se o debate não influenciar nas intenções de voto, esperamos que a quantidade de eleitores

que mudou do candidato A para B seja igual à quantidade de eleitores que mudou de B para

A. Em seguida, comparando-se as frequências realmente observadas com as esperadas,

montamos a estatística teste.

O teste de Komolgorov-Smirnov, também não estudado, testa se uma variável segue

determinada distribuição de probabilidades. O teste é baseado nas diferenças entre a

função distribuição de probabilidade empírica e a teórica.

Gabarito: D

Questão 11

ABIN 2010 [CESPE]

Com relação a métodos não paramétricos, julgue o item a seguir.

Considere que, para avaliar a aleatoriedade na ocorrência de certo evento, um pesquisador

registre apenas o número de ocorrências desse evento em N tentativas, a contagem de

casos em que esses eventos ocorrem sequencialmente e a contagem de casos em que esses

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 eventos não ocorrem. Com base nessa

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

eventos não ocorrem. Com base nessa situação, é correto afirmar que o pesquisador não

dispõe de dados necessários para testar a aleatoriedade desse evento.

Resolução:

A questão se refere ao teste da ordenação casual, que serve para testar a hipótese de

aleatoriedade de uma amostra.

Para realizar o teste, adotamos os seguintes passos:

1) determinamos o número total de sucessos (sinais positivos);

2) determinamos o número total de fracassos (ou de sinais negativos);

3) calculamos as probabilidades referentes a todos os possíveis números de chorrilhos,

determinando a região de rejeição do teste

4) contamos quantos chorrilhos foram obtidos na amostra, e verificamos se esse número

está ou não na região de rejeição.

Um chorrilho é um conjunto de observações consecutivas do mesmo tipo. Como exemplo,

considere 5 lançamentos consecutivos de uma moeda:

C, C, K, K, K

"C" representa cara e "K" representa coroa.

O primeiro chorrilho é formado por duas caras. O segundo chorrilho é formado por três

coroas.

Outro exemplo:

C, K, K, C, C

Agora o primeiro chorrilho é formado por uma cara, o segundo é formado por duas coroas,

o terceiro é formado por duas caras.

Considere agora o caso particular de 2 caras e 3 coroas. O número máximo de chorrilhos

possível é 5, que só ocorre no seguinte caso:

K, C, K, C, K

Logo, a probabilidade de 5 chorrilhos é baixa.

Já o caso de 4 chorrilhos é muito mais provável. Pode ocorrer nas seguintes situações:

C, K, C, K, K C, K, K, C, K K, C, K, K, C K,

C, K, C, K, K

C, K, K, C, K

K, C, K, K, C

K, K, C, K, C

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Seja a quantidade de chorrilhos. Se pudermos calcular as probabilidades associadas a cada

possível valor de , conseguimos delimitar a região de rejeição do teste. Em seguida,

partimos para a amostra obtida, calculamos a realização numérica de , e concluímos por

rejeitar ou não a hipótese de aleatoriedade da amostra.

Vejam que o enunciado abrangeu todos os itens necessários para a realização do teste.

Fazendo a analogia com o exemplo acima. Foram 5 lançamentos da moeda (N=5). Estamos

interessados nas caras. Foram 2 ocorrências de interesse. O número de vezes em que os

eventos ocorrem sequencialmente é a quantidade de chorrilhos associados ao resultado

"C". A contagem de casos sequenciais em que o evento não ocorre é a quantidade de

chorrilhos associados ao resultado "K". Com todas essas informações, podemos sim realizar

o teste.

Gabarito: errado

Questão 12 ABIN 2020 [CESPE]

C, K, C, K, K C, K, K, C, K K, C, K, K, C K,

Considerando

que

a

tabela

de

contingência

acima

mostra

os

resultados

de

um

levantamento

estatístico,

julgue

o

item

que

se

segue.

A hipótese nula do teste de homogeneidade de McNemar é

H0: = . = .

Em que , = 1, 2

C, K, C, K, K C, K, K, C, K K, C, K, K, C K,

Resolução

O Teste de Mc Nemar é bastante aplicável em experimentos do tipo "antes e depois".

Assim, cada elemento serve como seu próprio controle. Temos então duas amostras

pareadas (uma antes de determinado evento, outra depois).

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Como exemplo, citamos o estudo do

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Como exemplo, citamos o estudo do desempenho de alunos em dois testes similares, antes

e depois de um treinamento. Ou a opinião de eleitores antes e depois de um debate.

Comparamos os desempenhos dos alunos antes e depois para saber se o treinamento é

efetivo. Analogamente, comparamos a opinião dos eleitores antes e depois do debate para

saber se algum candidato se saiu melhor.

Para tanto, comparamos as frequências correspondentes aos elementos que mudaram de

classificação.

No primeiro exemplo, comparamos a quantidade de alunos que mudaram de "aprovados"

para "reprovados" com a quantidade de alunos que mudaram de "reprovados" para

"aprovados".

No segundo exemplo, comparamos as quantidades de alunos que mudaram de intenção de

voto (aqueles que mudaram de "A" para "B" e aqueles que mudaram de "B" para "A").

A hipótese nula é a de que tais quantidades são iguais (significando que o treinamento não é

efetivo, ou que nenhum candidato se sobressaiu no debate).

No caso da questão, a hipótese nula é a de que , = , . É que essas são justamente as

células que abarcam as pessoas que mudaram de opinião (de satisfeito para insatisfeito ou

vice-versa).

Gabarito: errado

  • 7. ANÁLISE DE VARIÂNCIA Introdução

7.1.

A análise de variância serve para testarmos a hipótese de que as médias de diferentes

populações são todas iguais entre si.

Para termos uma primeira idéia do raciocínio empregado nesta ferramenta, vamos trabalhar

com um exemplo simplificado.

Estamos estudando óleos de motor para um determinado modelo de carro. No mercado há

disponíveis 4 marcas diferentes de óleos. O intuito é verificar se as 4 marcas de óleo

permitem que os carros rodem, em média, a mesma quilometragem, antes de ser

necessária a próxima troca de óleo.

Obtivemos amostras para cada uma das quatro marcas. Os resultados dos estudos estão na

tabela abaixo (valores em mil quilômetros):

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 observações marca A marca B marca

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

observações

marca A

marca B

marca C

marca D

4,9

5,3

4,7

4,4

4,7

5,2

4,2

5,0

5,3

4,9

4,3

5,1

4,7

4,9

4,9

4,8

4,8

4,6

4,8

4,7

Média

4,88

4,98

4,58

4,8

A média geral, de todas as 20 observações acima, independente de marca, é igual a 4,81.

X = 4,81

Queremos saber se, para as quatro marcas, a média de quilometragem é a mesma. As

hipóteses que vamos testar são:

H

0

:

µ

1

= µ

2

= µ

3

= µ

4

H A : pelo menos uma das médias é diferente das demais

Observem que, de acordo com as amostras acima, as médias não são exatamente iguais. A

questão é: as diferenças entre as médias são devidas apenas a fatores aleatórios? Ou as

diferenças são significativas, de modo que é possível apontar que há pelo menos uma marca

diferente das demais?

São estas perguntas que a análise de variância tenta responder.

Bom, como queremos só ter uma primeira idéia, fizemos uma simplificação: todas as

amostras têm tamanho 5 (num caso geral, cada amostra pode ter tamanho diferente das

demais).

Uma outra suposição é necessária. Vamos supor que todas as populações de onde foram

extraídas as amostras apresentam a mesma variância

σ

as populações apresentam distribuição normal.

Vamos calcular a variância dentro de cada grupo.

  • 2 . Por fim, vamos supor que todas

Cada observação do quadro acima pode ser representada por:

  • X ij

onde i indica varia de 1 até 4 (indicando as marcas A, B, C, D) e j varia de 1 até 5 (indicando

as observações feitas dentro de cada marca).

A variância dentro de uma dada marca é dada por:

s

i

2

=

5

j= 1

(

X

ij

X

i

)

2

5

1

Como exemplo, vamos detalhar o cálculo da variância dentro da marca C (ou seja, para o

caso de i = 3) :

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 5 ( ) 2 ∑ X
Curso Regular de Estatística
Prof Vítor Menezes – Aula 16
5
(
)
2
X
X
3
j
3
2
2
2
2
2
(4,7
4,58)
+
(4,2
4,58)
+
(4,3
4,58)
+
(4,9
4,58)
+
(4,8
4,58)
2
j= 1
s
=
=
3
5
1
4
= 0,097
Fazendo cálculos semelhantes para as demais marcas, temos:
Marca
A
B
C
D
Variância
0,062
0,077
0,097
0,075
Caso todas as marcas apresentem a mesma média, então temos:
-
todas elas têm distribuição normal
2
-
todas elas têm mesma variância
σ
-
todas elas têm mesma média µ
Isto equivale a dizer que todas elas apresentam distribuição idêntica. É como se todas as
observações tivessem sido extraídas de uma única população, normal, de média µ e
2
variância
σ
.
Deste modo, temos, na verdade, 4 amostras da mesma população. São 4 amostras de
tamanho 5. Vimos na aula de estimadores que a variância da amostra (com n −1 no
denominador) é um estimador não-viciado da variância da população. Portanto, se tivermos
várias amostras, a média de todas as variâncias amostrais deve ser bem próxima da
variância da população.
Assim, uma primeira estimativa da variância da população seria:
2
2
2
2
s
+
s
+
s
+
s
0,062
+
0,077
+
0,097
+
0,075
1
2
3
4
=
=
0,078
4
4

Continuando.

Ainda supondo que todas as marcas apresentam a mesma média, podemos achar outra

estimativa para a variância da população. Como já estudamos na aula de estimadores, a

média amostral tem variância dada por:

2 σ 2 σ = X n
2
σ
2
σ
=
X
n

Ou seja, as médias amostrais apresentam dispersão bem pequena, quando comparada com

a dispersão da população. Se pegarmos a dispersão da população e dividirmos por n,

obtemos a dispersão das médias amostrais. As médias amostrais estão bem concentradas.

n×σ

2

X

=

σ

2

Se multiplicarmos a variância das médias amostrais por n, aí obtemos uma estimativa para a

variância populacional.

Assim, podemos usar os diversos valores da média amostral para estimar a variância de X .

Feito isso, multiplicamos por “n”, e obtemos outra estimativa da variância populacional.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 A média das médias amostrais é:

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

A média das médias amostrais é:

Temos:

s

X + X + X + X 1 2 3 4 X = = 4 2
X
+
X
+
X
+
X
1
2
3
4
X
=
=
4
2
2
(4,88
4,81)
+
(4,98
4,81)
2
=

4,88

+

4,98

+

4,58

+

4,8

 

4

=

+

(4,58

4,81)

2

+

(4,8

4,81

4,81)

2

  • X 4

1

=

0,029

Esta é a chamada variância entre as marcas. Como o tamanho das amostras é 5 ( n = 5), a nova estimativa da variância da população é:

5× 0,029 = 0,144

Obtidas estas duas estimativas da variância da população, nós dividimos uma pela outra.

Razão entre as estimativas:

0,144

0,078

= 1,85

E este número acima é que vai nos permitir decidir se as médias são todas iguais entre si ou

não.

Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as duas estimativas

deveria ser bem próxima de 1. As duas estimativas deveriam coincidir (ou serem muito

próximas uma da outra).

Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de 1), isto é um

sinal de que as médias das marcas de óleo são diferentes entre si (ou seja, há pelo menos

uma marca diferente das demais).

Por quê?

Se todas as marcas tiverem a mesma média, suas funções densidade de probabilidade se

sobreporão (estão todas representadas pela curva em preto no gráfico abaixo).

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 A média das médias amostrais é:

No fundo, todas as amostras podem ser consideradas como extraídas da mesma população.

Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Com isso, o cálculo s 1

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Com isso, o cálculo

s

1

2

+ s

2

2

+ s

2

  • 3 (decorrente das variâncias dentro das marcas)
    4

4

+ s

2

realmente vai gerar uma boa estimativa da variância da população.

Já a segunda estimativa, ela é derivada da variância entre as marcas. Como

as médias

amostrais são pouco dispersas (ver curva verde

do

gráfico

acima),

s

X

2

é

pequeno.

Multiplicando

n× s

X

2 , obteremos uma boa estimativa para a variância da população. As

duas estimativas serão bem próximas. A razão entre elas será quase igual a 1.

Agora vamos pensar em outro caso.

Se todas as marcas tiverem a mesma variância, mas tiverem médias diferentes, elas

poderiam ser representadas pelo gráfico abaixo:

2 2 2 2 s + s + s + s 1 2 3 4 Como
2
2
2
2
s
+ s
+ s
+ s
1
2
3
4
Como todas elas apresentam a mesma variância, o cálculo
(decorrente
4

das variâncias dentro das marcas) realmente vai gerar uma boa estimativa da variância da

população.

Já a segunda estimativa, baseada na variância entre as médias amostrais, ela será

problemática. As médias amostrais estarão mais dispersas do que estariam caso as médias

populacionais fossem todas iguais entre si. Isto fará com que a segunda estimativa, derivada

da variância entre as marcas, resulte num estimador maior que aquele decorrente da

variância dentro das marcas. Com isso, a razão entre as duas estimativas será bem maior

que 1.

Agora vamos começar a estudar a análise de variância com os nomes que geralmente

aparecem nas questões. Veremos que a “razão entre as estimativas” vai corresponder, na

verdade, a uma razão entre os chamados quadrados médios.

7.2. Hipóteses do modelo Curso Regular de Estatística Prof Vítor Menezes – Aula 16 Vamos trabalhar
  • 7.2. Hipóteses do modelo

Curso Regular de Estatística

Prof Vítor Menezes – Aula 16

Vamos trabalhar com um modelo mais simples (embora a análise de variância possa ser

aplicada para modelos mais complexos).

Temos k populações em estudo (no exemplo dado na seção anterior, k = 4 , pois eram 4

marcas diferentes). De cada população, são extraídas amostras de tamanho

n (no exemplo

i

anterior,

n

1

= n

2

= n

3

= n

4

= n

5

=

5

- todas as amostras tinham tamanho 5).

O número total de extrações feitas (incluindo todos os grupos em estudo) é N . No nosso

exemplo, N = 20 (5 extrações para cada uma das 4 marcas de óleo).

Uma dada observação

  • X ij

pode ser representada assim:

X

ij

= µ

i

+ u

ij

Cada observação é igual à média da população de onde

aleatório (

u

ij

). As hipóteses são:

ela foi

extraída, mais um

erro

os erros são variáveis aleatórias com média zero;

os erros são independentes entre si;

os erros têm variância constante, ou seja,

V

(

u

ij

) = σ

  • 2 , para qualquer i e qualquer j.

os erros têm distribuição normal

Na verdade, vocês não precisam se preocupar em decorar as hipóteses acima. Elas sempre

estarão implícitas na questão. O motivo pelo qual eu as mencionei é o seguinte. Pode

acontecer de a questão indicar expressamente tais hipóteses. Aí o aluno poderia se assustar,

pensando que a questão está pedindo alguma coisa que ele não estudou. Então, se a

questão trouxer as hipóteses acima, não precisa entrar em pânico, achando que é uma coisa

de outro mundo. É só fazer a análise de variância normalmente, como veremos nos tópicos

a seguir.

  • 7.3. Somas de quadrados

Como vimos no exemplo inicial (com as 4 marcas de óleo), o teste se baseia em cálculo da