Anda di halaman 1dari 59

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Aula 13 - Questões Comentadas e Resolvidas

Inferência Estatística e Análise de Variância do modelo de Regressão Linear Simples.

Caro(a) aluno(a), esta aula aborda as propriedades dos estimadores de mínimos quadrados, a inferência estatística e a análise de variância do modelo de Regressão Linear Simples (RLS).

(Especialista em Regulação de Aviação Civil/ANAC/2009/UnB-CESPE). Um estudo sobre a duração de uma operação de carregamento mostrou haver relação linear na forma Y k = βX k + ε k , em que Y k é o tempo (horas) do carregamento k; X k é o volume total (em toneladas) do carregamento k; β é o coeficiente angular; e ε k representa um erro aleatório com média zero e variância σ 2 .

De uma amostra aleatória de 341 operações de carregamento, observam-se os

341

seguintes resultados:

341

=

k

1

Y

k

=

341

.

k

=

1

X

k

Y

k

=

988 ;

341

X

k

=

1

2

k

=

1.704

;

341 341

k

=

1

X

k

=

682

;

k

=

1

Y

2

k

=

681

;

Com base nessas informações, julgue os itens a seguir.

1. O coeficiente R 2 (ou coeficiente de determinação ou explicação) do modelo apresentado é igual a 0,81, o que indica que 81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento.

Resolução

PRELIMINARES

A Reta de Regressão

A análise de regressão estuda a dependência de uma variável, chamada de independente, em relação outras variáveis, chamadas de explanatórias, com o objetivo de estimar valores da primeira, dados os valores das segundas.

Já estudamos o modelo

(1)

Y = α + βX + ε

,

em que α é o intercepto, β é a declividade e ε denota a componente aleatória da variação de Y ( ε é uma variável aleatória).

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior Vimos também que os estimadores a (do intercepto α ) e b (da declividade β ) são dados por

S xy (2)   b =  S xx = y − bx 
S
xy
(2)
  b =
S
xx
=
y
bx
  a
em que

(3)

e

(4)

S

xy

=

x y

i

i

1

n

x

i

× 

y

i

 =

(x

i

x)(y

i

y),

 

i

i

 

i

i

 

i

 

2

1

i

x

2

=

i

(x

 

2

 

S

=

x

i

 

i

x)

 

xx

n

i

 

Interpretação Geométrica do Intercepto e da Declividade

O intercepto

α é o valor estimado de y quando x = 0

variação estimada de y quando x varia uma unidade

pela figura abaixo .

y β 1 α x
y
β
1
α
x

0

β representa a

, e

, conforme ilustrado

O Coeficiente de Determinação

representam as estimativas dos y i ,

Os resíduos

embora utilizados para avaliar a aderência da reta ajustada de mínimos quadrados aos pontos (x i, y i ), têm o inconveniente de serem afetados pela

e i

= y

i

i

i

= a + bx

i

, em que

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior unidade utilizada. Para superar esse obstáculo, voltaremos à discussão sobre o coeficiente de determinação R 2 visto em uma aula anterior.

Primeiramente, temos que a variação total de y é dada por

(5)

i

1

n

i

2

i

S

yy

=

y

i

2

y i

=

(y

i

y)

2

Nosso objetivo é separar a variação total de y em 2 partes: uma explicada pela regressão e outra associada ao termo de erro (ou não explicada pela regressão).

ao termo de erro (ou não explicada pela regressão). Considere a identidade (6) y i −

Considere a identidade

(6)

y

i

y

=

(y

i

i

)

+

(yˆ

i

y) .

Elevando ambos os membros de (6) ao quadrado e somando as n observações, obtemos:

(7)

i

(y

i

y)

2

=

i

(y

i

i

)

2

+

i

(yˆ

i

y)

2

+

2

i

(y

i

yˆ )(yˆ

i

i

y).

Demonstra-se que o último termo de (7) é nulo e segue-se então que

(y i − y) i
(y
i
y)
i

2

=

(y
i

− yˆ ) i i
)
i
i

2 +

(yˆ
i

2 − y) i
2
y)
i

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

(8)

em que:

SQT

=

SQE

+

SQR

⇒ SQT = Soma dos quadrados total = S yy = ∑ (y i −
⇒ SQT = Soma dos quadrados total = S yy = ∑
(y
i
− y)
2 (ou variação total)
i
2
⇒ SQE = Soma dos quadrados dos erros =
(y i
i
− yˆ
)
(ou variação
i
residual)
2
⇒ SQR = Soma dos quadrados da regressão =
(yˆ
i
− y)
(ou variação
i

explicada)

Dividindo ambos os membros de (8) por SQT, resulta

(9)

SQE

SQT

SQR

SQT

1 =

+

.

Finalmente, definimos o coeficiente de determinação por

(10)

SQR

SQT

SQE

SQT

R 2 =

=

1

.

Da definição, tem-se que 0 ≤ R 2 ≤ 1. O coeficiente R 2 mede a proporção ou a porcentagem da variação total em y explicada por x dentro do modelo de regressão. O R 2 quantifica o grau de ajuste de um conjunto de dados à reta de regressão estimada. Quanto mais próximo de 1 estiver R 2 melhor terá sido nosso trabalho para explicar a variação em y, com = a + bx , e maior será a capacidade de previsão de nosso modelo sobre todas as observações amostrais, ou seja, R 2 nos diz o quão próximos os valores estimados (ou previstos) de Y estão de seus valores observados.

O coeficiente R 2 é uma medida descritiva. É, às vezes, chamado medida de aderência. Por si mesmo, não mede a qualidade do modelo de regressão. Não se pode julgar o mérito de um modelo com base somente no valor de seu R 2 . Os parâmetros estimados podem conter informações úteis mesmo quando esse número é baixo (como R 2 =0,32). Isto pode ocorrer, por exemplo, quando aplicamos a regressão linear simples no contexto de variáveis econômicas 1 .

Há outras formas de apresentar R 2 . Sabemos que Subtraindo a segunda equação da primeira, obtemos

i

y

=

b(x

i

x)

(yˆ

i

y)

2

= b

2

(x

i

x)

2

.

i

= a + bx

i

e

y = a + bx .

Fazendo o somatório de ambos os membros da equação,

1 GUJARATI, Damodar N. Econometria Básica, 3ª Edição. São Paulo: Pearson Makron Books, 2000.

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

i

(yˆ

i

y)

2

=

b

i

2

(x

i

x)

2

=

2

SQR = b S

xx

,

R

2

=

b

2

S

S

xx

=

S

S

2

xy

S

 
 

yy

xx

yy

obtemos,

(11)

logo,

(12)

b

2

i

(x

i

x)

2

,

Vimos que o coeficiente de correlação linear de Pearson R é dado por

Então,

(13)

| R |= +

2 R
2
R

.

S xy R = S S xx yy
S xy
R =
S
S
xx
yy

Repare que, no ajuste perfeito, ou seja, quando todas as observações se encontram na reta ajustada, todos os resíduos são nulos e R 2 =1, assim como o módulo do coeficiente de correlação linear de Pearson (veja a figura abaixo).

de correlação linear de Pearson (veja a figura abaixo). Regressão sem o Intercepto Profs. Alexandre Lima

Regressão sem o Intercepto

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Em certas situações da vida prática, sabemos que a reta de regressão dos dados deve passar pela origem. Considere, por exemplo, um estudante de engenharia elétrica que está fazendo o levantamento experimental da famosa Lei de Ohm, dada por V = RI, em que R é o valor de uma resistência, V é a tensão aplicada em um resistor e I é a corrente que atravessa o resistor. Note que a equação V = RI passa pela origem do gráfico da tensão (eixo vertical) versus corrente (eixo horizontal). O valor da resistência dá a declividade da reta.

A regressão sem o intercepto é também chamada regressão sem termo

constante ou regressão que passa pela origem

. Neste caso nosso modelo

passa a ser

Y = βX + ε

e a condição imposta passa a ser

min

i

e

2

i

=

min

i

(y

i

i

)

2

=

min

i

(y

i

bx )

i

2

Aplicando o método de mínimos quadrados, obtemo a seguinte fórmula para o estimador b (*):

(14)

∑ x y i i b = 2 ∑ x i
x y
i
i
b =
2
∑ x
i

(*) a prova pode ser encontrada no apêndice do capítulo 6 da referência GUJARATI, Damodar N. Econometria Básica, 3ª Edição. São Paulo: Pearson Makron Books, 2000.

É interessante comparar a fórmula acima com a que se obtém quando o termo de intercepto está incluído no modelo:

b =

S

xy

S

xx

=

(x

i

x)(y

i

y)

(x

i

x)

2

A diferença entre os dois conjuntos de fórmulas é evidente: no modelo com intercepto usamos somas de quadrados e produtos cruzados (isto é, produtos entre X e Y) ajustados em relação à média.

Nota: se o exercício não mencionar qual é o modelo, sempre resolva a questão usando o modelo com intercepto.

Voltemos à resolução da questão.

Note que a regressão passa pela origem, pois o modelo especificado é

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Y k = βX k + ε k .

O coeficiente R 2 mede a proporção da variação total em Y (tempo em horas do carregamento) explicada por X (volume total em toneladas do carregamento) dentro do modelo de regressão, ou seja, R 2 é dado pela razão entre SQR e SQT:

SQR R 2 = SQT
SQR
R 2 =
SQT

Não precisamos calcular o valor de R 2 para resolver o item, pois o mesmo afirma que “81% da variação total do tempo de carregamento são explicadas pelo volume total do carregamento”. Ora, quem explica é o modelo de regressão e não a variável independente X. Logo o item está errado.

Determinemos o valor de R 2 . Aprendemos que a correlação linear entre Y e X, dada por R, pode ser calculada pela fórmula

S

S

S

xy

xx

yy

=

=

=

S xy R = S S xx yy
S xy
R =
S
S
xx
yy

X

k

Y

k

(

X

k

)

×

(

Y

k

)

n

=

988

682

×

341

= 306

341

(

X

2

k

(

Y

2

k

X

k

)

2

682

× 682

n

Y

k

)

2

=

=

1.704

681

341

341

× 341

= 340

= 340

n 341

Logo,

306 306 R = = 340 × 340 340 R 2 = 0,81
306 306
R
=
=
340
× 340
340
R 2 = 0,81

= 0,9

Você percebeu a “pegadinha” para os desatentos? O coeficiente de determinação é, de fato, igual a 81%. Mas o problema é que a definição de R 2 está errada.

GABARITO: Errado

2. A correlação linear entre o tempo de carregamento e o volume total do carregamento é superior a 0,85.

Resolução

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

O item está certo, pois vimos que R = 0,9. Calcular o R no item anterior não

foi uma perda de tempo!

GABARITO: Certo

3. Sendo y , x e β , respectivamente, a média dos tempos de carregamento, a

média dos volumes totais do carregamento e a estimativa de mínimos

ˆ

 

ˆ

quadrados do coeficiente angular do modelo, então

y = β

x

.

Resolução

O modelo é Y k = βX k + ε k . Logo,

E(Y k ) = E(βX k + ε k ) = E(βX k ) + E(ε k ) = βE(X k ) + E(ε k ) = βE(X k ), pois E(ε k ) = 0.

ˆ

Note que E(Y k ) = βE(X k ) ≠ β E(X k ). Item errado.

Nota: mais uma “pegadinha” da banca. Errou a questão quem confundiu a

estimativa do coeficiente angular, dada por β , com o próprio coeficiente

angular β.

ˆ

GABARITO: Errado

4. (TÉCNICO DE DEFESA AÉREA E CONTROLE DE TRÁFEGO AÉREO – DECEA/2009/CESGRANRIO) Uma determinada empresa resolveu estudar a relação do ativo total (em bilhões de reais) e a receita líquida (em milhões de reais) das 17 maiores instituições financeiras do país. O estudo forneceu os seguintes resultados:

Estatística de regressão

R

2

0,55

R 2 Ajustado

 

0,52

Erro padrão

2,86

Observações

17

 

Coeficientes

Erro padrão

T

valor-P

 

Interseção

4,5

1,43

3,1

0,007

Receita

0,1

0,02

4,3

0,001

líquida

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior Com base nos resultados, o intervalo de confiança de 95%, bilateral, para a inclinação da reta, β, é, aproximadamente,

(A)

0,1 ± 1,64 x 0,02

(B)

0,1 ± 1,75 x 0,02

(C)

0,1 ± 1,96 x 0,02

(D)

0,1 ± 2,13 x 0,02

(E)

0,1 ± 4,30 x 0,02

Resolução

PRELIMINARES

Valores Esperados dos Estimadores

Seja a reta de regressão

(1)

Y = α + βX + ε

em que α é o intercepto, β é a declividade e ε denota a componente aleatória da variação de Y.

Aprendemos que os estimadores a (do intercepto α ) e b (da declividade são dados por

(2)

a

em que

b =

S

xy

S

xx

=

y

bx

(3)

e

S

xy

=

i

x y

i

(4)

S

xx

=

i

x

i

2

1

i

i

n

1

n

x

i

x

i

i

× 

i

y

i

2

=

i

(x

i

 =

i

2

x)

(x

i

x)(y

i

y)

Pode-se demonstrar que os estimadores a e b de (2) têm valores esperados dados por

(5)

E(a) = α

E(b) = β


Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior (*) As demonstrações não são elementares e tampouco serão cobradas em prova. Assim, preferimos omitir as demonstrações.

ˆ

Logo os estimadores de α e β, a e b (às vezes denotados por αˆ e β ), são justos (ou não viesados ou não tendenciosos), pois suas médias são iguais aos verdadeiros valores dos parâmetros. Isso quer dizer que se coletarmos várias amostras de iguais tamanhos, e aplicarmos as equações de (2), os valores médios das estimativas encontradas de a e b tenderão a α e β, respectivamente.

O resultado acima é verdadeiro somente quando são válidos os seguintes pressupostos para o modelo:

1.

2.

3.

4.

5.

6.

O valor de y para cada valor de x é dado por

Y = α + βX + ε .

O valor médio do erro aleatório é nulo

pois admitimos que

E(ε) = 0
E(ε) = 0

E(Y) = α + βx

A variância do erro aleatório é igual à variância de Y

var( )

ε

= σ

2

=

var(Y)

A covariância entre qualquer par de erros aleatórios

cov( ε , ε ) = cov(Y , Y ) = 0 i j i
cov(
ε
,
ε
)
=
cov(Y , Y )
=
0
i
j
i
j

A variável X não é aleatória.

ε

i

e

ε

j

é nula

A variável ε têm distribuição normal com média nula e variância

2

σ

ε

~

N(0,

σ

2

)

se Y tem distribuição normal e vice-versa.

O pressuposto 6, da normalidade dos erros, não é necessário para as equações (5), mas é importante para o estudo da inferência sobre o modelo de regressão.

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Variâncias e Covariâncias dos Estimadores

Por definição, temos que

Var(a) = E [a – E [a]] 2 = E [a – α] 2

,

Var(b) = E [b – E [b]] 2 = E [b – β] 2 ,

Cov(a,b) = E [(a – α)(b – β)].

Sendo σ 2 a variância do erro aleatório ε do modelo, pode-se demonstrar que (vide nota anterior)

2 σ (6) var(b) = , S xx 2 em que = ∑ (x −
2
σ
(6)
var(b) =
,
S
xx
2
em que
=
∑ (x
x)
,
S xx
i
2
∑ x
(7)
var(a) = σ
2
 
i
 
,
nS
xx 
 − x 
(8)
Cov(a, b) = σ
2
 
.
 
S xx
Como o termo
σ
2 / S
aparece em (6), (7) e (8), podemos reescrever (7) e (8)
xx

como

x

n

2

var(a)

= var(b)

i

e

Cov(a, b) = −x var(b)

respectivamente.

Do exposto, percebe-se que:

Quanto maior a variância do termo de erro ε (dada por σ 2 ) maiores serão as variâncias de a e b e a covariância entre eles.

Quanto mais concentrados os valores de x estiverem em torno de

) e

sua média x , menor será o valor de S xx (lembre que

S

xx

=

(x

i

x)

2

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior maiores serão as variâncias de a e b e a covariância entre eles. Isso pode ser visto graficamente na próxima figura.

O sinal da covariância Cov(a, b) é oposto ao sinal de x . Note que o

gráfico da reta ajustada passa pelo ponto das médias (x, y) . Assim, ainda

na figura, mantendo-se fixo o ponto (x, y) , um aumento em b diminui o intercepto a da reta ajustada.

em b diminui o intercepto a da reta ajustada. • Distribuições Amostrais Sob a hipótese da

Distribuições Amostrais

Sob a hipótese da normalidade dos erros, a e b também são distribuídos normalmente

(9)

(10)

(11)

2  σ  b ~ N  β ,    S 
2
σ
b ~ N
β
,
S
xx

a ~ N

α

, var(b)

x

n

2

i

 

2

 

Cov(a, b)

= −

x σ

= − x σ

S

xx

(repetida por conveniência)

Falta-nos agora apenas definir um estimador para a variância do erro aleatório σ 2 . Prova-se, e apelamos mais uma vez para a sua fé nos seus professores, que

2 e i 2 = ∑ σ ˆ n − 2
2
e i
2 = ∑
σ ˆ
n
− 2

é um estimador não tendencioso de σ 2 , ou seja,

e

i

= y

i

i

= y

i

a bx

i

(*).

E(σˆ

2

) = σ

2

,

em que

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

(*) O “2” que é subtraído do denominador é o número de parâmetros de

regressão (α,β) no modelo, e essa subtração torna o estimador tendencioso.

não

σˆ

2

Intervalos de Confiança

A partir deste ponto, abandonaremos a notação α e β para os parâmetros do

β 2 ,

respectivamente. A razão disso é que empregaremos o termo α daqui para frente para designar o nível de significância do teste, como logo veremos.

modelo

Y = α + βX + ε

de

RLS

e

adotaremos

em

seus

lugares

β 1

e

O modelo de RLS fica então na forma

(12)

Y = β

1

+ β X + ε

2

.

Note que

ˆ

β

1

e

ˆ

β

2

denotarão as estimativas de

β

1

e

β , respectivamente.

2

Se os pressupostos do modelo (12) se verificam, inclusive o da normalidade dos erros, pode-se provar que

(13)

ˆ β − β 2 2 = t n − 2 s ) β 2
ˆ
β
− β
2
2
= t
n
2
s
)
β
2

segue distribuição t de Student com n–2 graus de liberdade, em que

é a variância amostral de resíduos do modelo).

ˆ

β

2

2

= σ ˆ

2

/S

 

ˆ

s β

 

2

xx

(lembre que

σˆ

2 denota a variância amostral dos

O número de graus de liberdade (GL) é o número de observações subtraído do

número de parâmetros do modelo. No modelo de RLS com intercepto, GL = n-

2.

Da tabela auxiliar da t de Student encontramos valores críticos t c tais que

P{t

inequação anterior, obtemos

= − α , e, rearranjando a

c

t t } =1− α

c

. Segue-se que

P{

t

c

(

ˆ

β

2

− β

)/s

)

β

2

t }

c

1

(14)

P{

)

β 2

 

t s

c

 

≤ β

 

)

≤ β

 

+

t s

c

 

}

 

1

 

)

)

=

− α

β

2

2

2

β

2

Voltemos à resolução da questão.

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em

Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Seja o modelo de RLS

mencionado pelo enunciado, X é a variável independente (ativo) e Y é a variável dependente (receita líquida).

Y = β + β X + ε , em que a inclinação da reta β 2 é o β

1

2

Pede-se o intervalo de confiança (IC) de β 2 . Vimos ele é dado por

)

β

2

±

t s

c

)

β

2

=

0,1

±

4,30

×

0,02

opção correta (E), certo? ERRADO! Você caiu numa

“pegadinha” da banca.

O valor T da tabela é a estatística de teste da Hipótese nula H o : β 2 =0.

O IC é dado por

auxiliar t de Student.

) , onde t c é o valor crítico de t extraído da tabela

β

2

± t s

c

)

β

2

No

liberdade (GL). Para o IC bilateral 95% de confiança e 15 GL, t c =2,131 2,13.

Como

observações, temos n–2 = 15 graus de

modelo de RLS, para n=17

)

β

2

= 0,1

e

s

)

β

2 =

0,02 , temos que:

IC:

)

β

2

±

t

c

s

)

β

2

=

0,1

±

2,13

×

0,02 .

Nota: a estatística “R 2 Ajustado” é definida no estudo da regressão linear múltipla. Essa estatística não é usada na RLS. Na prova, você teria condições de resolver esta questão mesmo sem saber a definição de R 2 Ajustado.

GABARITO: D

5. (Analista da SUSEP/Atuária/2010/ESAF). A partir de uma amostra

aleatória (X 1 ,Y 1 ), (X 2 ,Y 2 ),

,

(X 20 ,Y 20 ) foram obtidas as estastísticas:

médias X = 12,5 e Y = 19, variâncias amostrais

covariância S xy = 36.

s

2

x

=

30

e

s

2

y

=

54

e

Qual a reta de regressão estimada de Y em X?

A) 19

B)

C) 4

ˆ

Y i

ˆ

i

ˆ

Y i

+

Y 12,5

=

=

=

0,667X

+

1,2X

i

+

1,2X

i

D) +

E)

+

ˆ

Y i

ˆ

=

19

Y i 80

=

1,2X

22,8X

i

i

i

Resolução

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

A reta a estimar é

em que o parâmetro

ˆ

β

ˆ

= β ˆ

 

+ β ˆ

 

Y i

1

2

X i

,

2 (estimativa da declividade) é dado por

ˆ S

S

xx

 

n

   

X)(Y

 

Y)

   

i

=

1

(X

i

i

=

n

 

(X

i X)

2

i

=

1

β

2 =

xy

,

e o parâmetro

Observe

quantidade

que

S xy

ˆ

β

1 (estimativa do intercepto) por

estamos

usando

ˆ ˆ β = Y −β X . 1 2 uma notação
ˆ
ˆ
β
=
Y
−β
X
.
1
2
uma
notação

diferente

do

definida acima não é a covariância entre X e Y.

enunciado:

a

Podemos calcular b adaptando a fórmula dada acima:

n

(X

 

X)(Y

i

 

Y)

i

   

= 1

i

 

n

1

n

1

(X

i

 

X)

2

i

=

 

n

1

s 2

x

ˆ

β

2 =

=

s

xy

.

ˆ

2 pode ser calculado, de forma alternativa, pela razão entre a

Ou seja,

covariância amostral s xy (estamos usando uma notação diferente da do

enunciado, mas que está coerente com a desta aula!) e a variância amostral

. Deste modo, a reta de regressão

estimada de Y em X é

β

s

2

x

. Logo,

ˆ

β

2

=

36 / 30

=

1,2

e

ˆ

β

1

=

19

1,2

×

12,5

=

4,0

ˆ

Y

i

=

4

+

1,2X

i

.

GABARITO: C

6. (Analista da SUSEP/Atuária/2010/ESAF). Com os dados da questão anterior, determine o valor da estatística F para testar a hipótese nula de que

o coeficiente angular da reta do modelo de regressão linear simples de Y em X

é igual a zero.

A) 144

B) 18

C) 36

D) 72

E) 48

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Resolução

PRELIMINARES

Testes de Hipóteses

A hipótese nula H 0

A hipótese nula é geralmente o oposto do que queremos provar

     

ˆ

exemplo, no modelo de RLS

Y = β

1

X + ε

2

, ao calcularmos

β

2

. Por

estamos supondo

que existe uma relação entre as variáveis X e Y. Assim, uma hipótese nula (H 0 )

usualmente adotada é

H 0 :

β =0

2

.

A hipótese alternativa H 1

A hipótese alternativa contradiz a hipótese nula

. Por exemplo, quando a

hipótese nula é H 0 :

β

2

= 0 a hipótese alternativa pode ser

β <0 ou ainda H 1 :

2

β >0

2

.

H 1 :

β ≠0 ou H 1 :

2

A preocupação de definir as hipóteses é do examinador, nós só teremos de testá-las. E para isso precisaremos de uma estatística de teste.

Vimos que

= k, em que k é uma constante, for aceita, então

também possui distribuição t com n-2 graus de liberdade. Esta

será a estatística usada no teste. Ressaltamos que, na maioria dos exames, a

hipótese nula é H 0 :

segue distribuição t com n-2 graus de liberdade. Se a

hipótese nula H 0 :

ˆ

( β

 

−β

 

)/s

ˆ

2

2

β

2

β

2

 

ˆ

t

= (

β

k) / s

 

2

2

ˆ

n

β

2

β =0 e

2

t

n

2

ˆ

= β

2

/ s

ˆ

β 2

, embora isso nem sempre ocorra.

A Região de Rejeição

Se a estatística

rejeitamos H 0 . A lógica está no fato de, se provavelmente H 0 está errada.

t

n

2

=

(

ˆ

β

2

k) / s

ˆ

β 2

for muito grande em módulo (valor absoluto),

2 ficar muito distante de k,

ˆ

β

Mas o quão grande tem de ser a estatística acima para rejeitarmos H 0 em

favor de H 1 :

significância α . A região de rejeição é composta por valores t tais que P{t ≥ t c } = P{t ≤ -t c } = α/2, conforme ilustrado pela figura abaixo.

β ≠ 0? A resposta a essa pergunta é a escolha de um nível de

2

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Distribuição da estatística t, N=30

0.5 REJEITAR H 0 NÃO REJEITAR H 0 REJEITAR H 0 0.45 0.4 0.35 0.3
0.5
REJEITAR H 0
NÃO REJEITAR H 0
REJEITAR H 0
0.45
0.4
0.35
0.3
0.25
0.2
0.15
Prob = ααα/2
t<-t
Prob = ααα/2
t>t
c
c
0.1
P(-t c <t<t c ) = 1-ααα
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
t
Densidade

Tipos de erro (revisão!)

Sempre que aplicamos um teste de hipóteses corremos o risco de errar. Há dois tipos de erro.

Erro tipo I: rejeitar H 0 sendo ela verdadeira. Neste caso, H 0 é verdadeira e

segue a distribuição t n-2 . Assim, a

probabilidade de cometer um erro tipo I é α .

P{

(

ˆ

β

 

k) / s

ˆ

β 2

t }

c

 

1

 

2

=

− α

ˆ

( β

2 k) / s

ˆ

β 2

, pois

Erro tipo II: aceitar a hipótese H 0 sendo ela falsa. Entretanto, essa probabilidade não pode ser calculada, pois não sabemos o verdadeiro valor do parâmetro. Mas podemos dizer que a probabilidade de um erro nível II aumenta à medida que diminui a probabilidade de um erro nível I, quando se escolhe um menor nível de significância α .

Testes unilaterais (unicaudais)

Até agora estudamos os testes bilaterais ou bicaudais, que se caracterizam

pela hipótese nula H 0 :

β =0 (i=1,2), contra a alternativa H 1 :

i

β ≠0.

i

Se rejeitarmos H 0 em favor da alternativa H 1 :

que

Ocorre às vezes, pela natureza das variáveis, que

β ≠0, estaremos considerando

i

β

i

i

β pode assumir qualquer valor negativo ou positivo, menos o zero.

não pode ser negativo e,

β >0. O que você

i

dessa forma, estabelecemos a hipótese alternativa H 1 :

precisa saber para a prova está explicado na sequência.

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Em um teste bilateral, a região de rejeição é composta por valores t tais que P{t ≥ t c } = P{t ≤ -t c } = α /2. Em um teste unilateral à direita, a região de rejeição é composta por valores t tais que P(t≥t c ) = α . Na próxima figura, temos α = 5% e t c = 1,697 (30 graus de liberdade).

Distribuição da estatística t

0.4 0.35 0.3 0.25 0.2 Rejeitar se t > 1.697 Prob = 0.05 0.15 0.1
0.4
0.35
0.3
0.25
0.2
Rejeitar se t > 1.697
Prob = 0.05
0.15
0.1
0.05
0
-5
-4
-3
-2
-1
0
1
2
3
4
5
t
Densidade

O restante do procedimento é idêntico ao já estudado.

Análise de Variância do Modelo de Regressão Linear Simples

Seja o modelo de RLS dado por Y = β + β X + ε

Vimos que

1

2

SQT = SQR + SQE

, ou seja,

e sua reta estimativa

= β ˆ

1

+ β ˆ

2

x

.

2 2 ∑ (y − y) = ∑ (yˆ − y) 2 + ∑ (y
2
2
(y
y)
=
(yˆ
y)
2 +
(y
)
.
i
i
i
i

A expressão acima é a equação básica da análise de variância ou ANOVA

(ANalysis Of VAriance). Veremos que a análise de variância pode ser usada

para testar a significância da regressão. Já aprendemos que os

(SQE) medem, respectivamente,

componentes

a variação em y devida à reta de regressão e a variação residual deixada sem explicação pela reta de regressão.

2 ∑ (yˆ − y) i
2
∑ (yˆ
− y)
i

(SQR) e

(y i

i

)

2

A ideia é usar a equação da ANOVA para testar a hipótese de não haver

(pois

β

nula). Neste caso, SQT = SQE e isto quer dizer que a variância total de Y (σ y 2 )

é

regressão

2

x

(β 2 =0).

=

y

0.x

=

y

).

Se

não

(yˆ

regressão,

i

y)

2

=

(

ˆ

β

1

ˆ

= β

1

y)

2

=

(y

e

ˆ

β

1

=

=

0

y

ˆ

1

=

y

ˆ

− β

Portanto,

y)

2

(SQR

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

é igual a variância residual σ 2 (variância do erro aleatório ε do modelo), ou seja, σσσ y 2 = σσσ 2 .

Vamos agora dividir os termos dos lados esquerdo e direito da equação da ANOVA pela variância residual σ 2 :

(y

i

y)

2

σ

2

=

(yˆ

i

y)

2

σ

2

+

(y

i

i

)

2

σ

2

.

Observe que a divisão de SQT por σ 2 (lado esquerdo da expressão acima),

1

2

σ

(y

i

y)

2

=

y

i

σ

y

2

2

n

1

,

resulta numa variável aleatória qui-quadrado com n-1 graus de liberdade, pois assumimos que σ y 2 = σ 2 (lembre que a média amostral y causa a subtração de 1 grau de liberdade na estatística).

Seguindo a mesma linha de raciocínio, temos que a estatística

1

2

σ

(y

i

i

)

2

=

y

i

i

σ

2

2

n

2

é uma variável aleatória qui-quadrado com n-2 graus de liberdade (a

diminuição de 2 graus de liberdade é causada pela estimação dos parâmetrods

ˆ

β

1

e

ˆ

β ).

2

(yˆ

 

2

 

ˆ

2

 
 

y)

β

S

 

i

 

=

2

xx

 

2

2

 

σ

 

σ

 

Sendo

 

β

2

=

0

Ainda falta analisar a estatística

variável

aleatória

ˆ

β

2

é

normal.

ˆ

β

2

~ N

0,

2

σ

S

xx

. Considere a variável normal reduzida

ˆ ˆ β − 0 β S 2 2 xx z = = . σ
ˆ
ˆ
β
− 0
β
S
2
2
xx
z =
=
.
σ /
S
σ
xx

(lembre que

ˆ

SQR = β

2

2

S

por

hipótese,

temos

xx

). A

que

Elevando ao quadrado ambos os membros da expressão acima, obtemos,

2  ˆ  ˆ 2 β − 0 β S SQR 2  2
2
ˆ
ˆ
2
β
− 0
β
S
SQR
2
2
2
xx
z
=
=
=
,
2
2
σ /
S
σ
σ
xx

e concluímos que a divisão de SQR por σ 2 resulta numa variável aleatória qui- quadrado com 1 grau de liberdade.

Curso Online - Raciocínio Lógico-Quantitativo para Traumatizados em Exercícios, incluindo Matemática, Matemática Financeira e Estatística Profs. Alexandre Lima e Moraes Junior

Assim, a equação

(y

i

y)

2

=

(yˆ

i

y)

2

+

(y

i

i

)

2

 

2

2

2

 

σ

 

σ

 

σ

 

2

 

2

+ χ

2

 

χ

n1

= χ

1

n

2

,

 

β

2

=

0

.

pode ser reescrita como

se, de fato, é válida a hipótese

Aprendemos anteriormente que uma variável resultante da soma de duas

outras variáveis independentes

consequência da propriedade de aditividade da qui-quadrado é a seguinte: se

três variáveis

necessária e suficiente para que

n 2 .

χ , então a condição

χ

2

n

1

e

χ

2

n

2

é

uma

χ

2

n

1

+

variável

2

n 2

χ

2

n

1

+

n

2

.

Uma

χ

2

n

,

χ

2

n

1

e

χ

2

n

2

são tais que

χ

2

n

1

e

χ

2

n 2

χ

2

n

=

sejam independentes é que n = n 1 +

(*) o termo técnico seria “corolário”.

= (SQE/σ 2 ) são variáveis qui-quadrado

Concluímos que

independentes, pois o número de graus de liberdade de SQT/σ 2 é n-1, caso a

premissa

χ

1 2 = (SQR/σ 2 ) e

seja válida.

2

χ n2

β

2

=

0

Considere a estatística F

(1)