Anda di halaman 1dari 22

Notas de Aulas – Econometria I- EPGE/FGV

© Eduardo P. Ribeiro, 2008

*Hipóteses do Modelo Clássico de Regressão Linear

(0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi

Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:

E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X]


= α + β1 x1i + .... + βk xki

Isto implica em E[ε|X] = 0.

Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si.

Outras hipóteses feitas no Modelo Clássico de Regressão Linear


(4) V [εi|X] = σ2, erros têm variância constante.
(5) E [εi εj] = 0, i≠j, erros são independentes entre si.
(6) εi ~ iid N ( 0, σ2)

Todavia, apenas (0) e (3) são importantes para estimação por Mínimos Quadrados.
Já na estimação por Máxima Verossimilhança, (0)-(6) são importantes.

Obs: Pela hipótese dos erros serem independentes entre si, E(εi εj ) = 0 = Cov(εi εj ).

*Como achar os coeficientes do modelo?

Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de


regressão. Ou seja, tenho de minimizar os erros (ao quadrado):

Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2

Vejamos as condições de 1a ordem:

(i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0


(ii) ∂L/∂β = Σ 2(yi – a – b1 x1- ... - bkxk)(-xji) = 0 para j = 1,...,k

Note que (i) implica que Σ ei = 0

Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.

1
Resolvendo as condições de 1a ordem (escritas em notação matricial):

(i) X´ε = 0
(ii) X´ (Y – X b) = 0

Temos que:

X´Y – X´X b = 0 -> b = (X´X)-1 X´Y

No caso da constante, em particular, temos a partir da condição de primeira ordem:


n a = Σ yi – b1 Σ xji - ... – bk Σ xki -> a = Y − bX

A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.

Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.

E[εi] = 0 -> n-1Σei = 0


E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0

que são condições de primeira ordem de mínimos quadrados ordinários (MQO).

Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja,


b=Σ(yi – my)xi / Σ(xi – mx)2,
que é equivalente à formula mais conhecida:
b=Σ(yi – my)(xi – mx) / Σ(xi – mx)2,
onde mx = n-1 Σ xi, e my = n-1 Σ yi, ou seja, a média amostral de x e y, respectivamente.

Avaliação da Regressão

Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das


condições de primeira ordem do problema de mínimos quadrados:

SQT = SQE + SQR


∑i =1 (yi − m y ) = ∑i =1 (yˆ − m y ) + ∑i=1 ei
n 2 n 2 n 2

Pode-se construir o coeficiente de determinação (R2):

R2 = SQE / SQT = 1 – SQR/SQT

Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2.

2
Testes de Hipóteses

Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do


vetor de coeficientes estimados b, ou seja, sua média, sua variância e sua distribuição:

Propriedades do Estimador de MQO


Y = Xβ + ε
b = (X´X)-1(X´Y)
E[b|X] = E[(X´X)-1X´(Xβ + ε)|X] = E[(X´X)-1X´Xβ |X] + E[(X´X)-1X´ε |X]
= E[β|X] + E[(X´X)-1X´ε |X] = β + (X´X)-1X´ E[ε|X ] = β

Foram utilizadas as seguintes hipóteses sobre o erro:


(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).

V[b|X] = E [(b – E[b])( b – E[b])´ |X]


= E [(β + (X´X)-1X´ε – β) (β + (X´X)-1X´e – β)´|X]
= E [((X´X)-1X´ε)( ε ´X (X´X)-1|X) = (X´X)-1X´E[εε ´|X]X (X´X)-1
= σ2(X´X)-1X´ I X (X´X)-1
= σ2 (X´X)-1

Foram utilizadas as hipóteses sobre o erro:


(1) E [εi] = 0, média do erro é zero.
(2)E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) V [εi|X] = σ2, erros têm variância constante.
(4) E [εi εj] = 0, i≠j, erros são independentes entre si.
Que em notação matricial podem ser escritas como

⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤ ⎡σ 2 0 . . 0⎤
⎢ ⎥ ⎢ ⎥
⎢ε 2 ε 1 ε 2 σ
2 2
⎥ ⎢ 0 ⎥
E [εε´] = E ⎢ . . ⎥ =⎢ . . ⎥ = σ2 I
⎢ ⎥ ⎢ ⎥
⎢ . . ⎥ ⎢ . . ⎥
⎢ε ε 2 ⎥
ε n ⎦ ⎢⎣ 0 2⎥
σ ⎦
⎣ n 1

Note que a V(b) é uma matriz (k+1)x(k+1).

⎡ V (a) Cov(ab1 ) . . Cov(abk )⎤


⎢ Cov(b a ) V (b1 ) ⎥
⎢ 1 ⎥
V(b) = ⎢ . . ⎥
⎢ ⎥
⎢ . . ⎥
⎢⎣Cov(bk a ) V (bk ) ⎥⎦

Na prática, σ2 pode ser estimado por s2 = (n –(k+1))-1Σei2.

3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,

b|X~N(β, σ2(X´X)-1)

Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.

Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p

Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever

F= (R βˆ -r)´[R(X´X)-1R´]-1(R βˆ -r)/p ~ Fp, n-k-1


SQR /(n-k-1)

Outra forma de escrever a expressão acima, explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.

F= (SQRr – SQRi )/p ~ Fp, n-k-1


SQRi /(n-k-1)

Exemplos de Testes de Hipóteses:

a) Rβ = r

B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0

B
R
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 0 0 0 ] ⎢ β 2 ⎥ = β1 = r = 0
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦

4
b) Rβ = r

B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0 β2 = 0

B
R
⎡ A⎤
⎢ β 1⎥
⎡0 10 0 0 ⎤ ⎢ ⎥ ⎡0 ⎤
⎢0 ⎥ ⎢ β 2⎥ = ⎢ ⎥
⎣ 010 0 ⎦ ⎢ ⎥ ⎣0 ⎦
⎢ ⎥β 3
⎢⎣ β 4⎥⎦

c) Ho: β1 = β2 -> β1 – β2 = 0

⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 -1 0 0] ⎢ β 2⎥ = [ 0 ]
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦

Teste de Hipóteses:

1) Teste de significância de um coeficiente angular

Ho: βj = 0
βj ≠ 0

T= bj –0 ~tn-(k+1)
(V(bj))1/2

2) Teste ANOVA

Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero

F= (SQRr – SQRi)/p ~ Fp, n-k-1


SQRi /(n-k-1)
onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e
SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma).

5
Ou

F= (R2)/p ~ Fp, n-k-1


(1-R2) /(n-k-1)

Resultados em Grandes Amostras

Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.

Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.


Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente
infinita, o estimador passa a ter apenas o valor do parâmetro na população.

Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas


têm uma distribuição que se aproxima da Normal Padrão, à medida que a amostra
aumenta.
A distribuição da média da população tem distribuição Normal. Estimadores
lineares, como os coeficientes de MQO, têm distribuição Normal. A distribuição da
média tende a ser simétrica.

V (X ) = (σ2x/n)1/2.

Lembrando:

Teste de Hipóteses:

ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa)


ERRO TIPO 2: aceito Ho e Ho é falso

Realidade \ Decisão Aceito Ho Rejeito Ho


Ho verdadeiro (1 – α) nível de confiança Erro do tipo I (α) (tamanho
do teste / nível de
significância)
Ho falso Erro do tipo II (β) (1 – β )(potência/poder do
teste)

6
Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso,
aumenta-se a segurança (vou me aproximar do alfa verdadeiro).

Variáveis Explicativas Binárias (Dummies)

Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).

Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e


Feminino) como explicativa yi =α+β(gênero)i+εi . Há duas categorias e escolhemos
uma delas para a dummy (no caso, feminino). Cria-se uma variável Fi ={1 se
gênero=Fem; 0 se gênero=Masc.}. A regressão passa a ser yi =α+βFi+εi.

A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as


hipótese do MCRL a reta de regressão é a média condicional, temos E(y|masc)= α (pois
neste caso, Fi=0) e E(y|fem)= α+β. Com isto, β=E(y|fem) –E(y|masc), ou seja a
diferença de médias entre a categoria analisada e aquela excluída na construção da(s)
dummy(ies).

No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.

Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando


Bi ={1 se cor=Branco; 0 se cor=Não-Branco}, temos a regressão múltipla:
yi =α+βFi+γBi +εi

onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ .

e com isto, a interpretação dos coeficientes é


β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
β= E(y|Fem, Branco) – E(y|Masc, Branco)
e
γ= E(y|Masc, Branco) – E(y|Masc, NBranco)
γ= E(y|Fem, Branco) – E(y|Fem, NBranco)

7
Como há duas interpretações de β, pode-se concluir que gênero é independente de cor,
para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β=
E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem).

No caso de interação entre as dummies (não independência), temos o seguinte modelo


yi =α+βFi+γBi + δ FiBi+εi

onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .

As diferenças passam a ser


β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
γ= E(y|Masc, Branco) – E(y|Masc, Branco)
e
δ= [E(y|Fem, Branco) – E(y|Masc, Branco) ] – [ E(y|Fem, NBranco) –
E(y|Masc, NBranco) ]

Interpretação dos coeficientes de regressão (quando estimadas por MQO)

Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α


+ β1 x1i + .... + βk xki + εi, pois ∂y/∂xk=βk (efeito da mudança de xk sobre y, mantidos
os outros fatores x e ε constantes). Note que ∂ε/∂xk=0, ou seja, o erro não depende de xk.

Como é a interpretação nas estimativas, visto que as explicativas em geral são


correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a
exposição, desconsidere a constante)

Y = β1 X1 + β2X2 + ε

Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão


múltipla:
[b1 b2]´= b=(X´X)-1X´Y

Voltando às condições de primeira ordem X´e=0, ou X´(Xb – Y)=0 ou (X´X) b –


(X´Y)=0. Explicitando o conteúdo do vetor b, as duas condições para estimação podem
ser escritas como

(X1´X1) b1 + (X1´X2) b2 – (X1´Y)=0


(X2´X1) b1 + (X2´X2) b2 – (X2´Y)=0

ou

(A11) b1 + (A12) b2 – (X1´Y)=0


(A21) b1 + (A22) b2 – (X2´Y)=0

8
Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2´Y) e substituindo na
segunda equação
(A12)[ –A22-1A21b1 + A22-1(X2´Y)] + (A11) b1 – (X1´Y)=0
[(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2´Y)+ (X1´Y)]=0
[X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]´Y=0
[X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0
[X1´M2 X1]b1 – (X1´M2Y)=0
b1 =[X1´M2 X1]-1(X1´M2Y).

Mas o que é a matriz M? Tomemos o caso geral:


e=Y–Xb = Y – X(X´X)-1X`Y = (I – X(X´X)-1X`)Y, ou seja, e=MXY

Dois resultados: MM=M (idempotente) e M´=M (simétrica).

Com isto, podemos escrever


b1 =[X1´M2´M2 X1]-1(X1´M2´M2Y).
b2 =[(M2 X1)´(M2 X1)]-1[(M2 X1)´(M2Y)]

onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.

Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de


regressão múltipla, qual o efeito de omitirmos uma variável explicativa relevante (que
faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será
omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos
quadrados b*1=(X1`X1)-1(X1´Y).

Seu valor esperado é


E[b*1]= E[(X1`X1)-1(X1´Y)= E[(X1`X1)-1X1´(X1β1 + X2β2 + ε)]
= β1 + (X1`X1)-1X1´ X2 β2 + E[(X1`X1)-1X1´ε] = β1 + (X2`X2)-1X2´X1 β1
= β1 + δ β2
onde δ é o coeficiente da regressão de X1 em X2 (a regressão reversa do ítem anterior),
isto é, X2= γ X1 + erro. Note que o estimador de b*1 neste caso é viesado, exceto no
caso de X1 e X2 serem independentes (pois assim δ=0).

Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma


regressão simples, a estimativa obtida é uma mistura do efeito direto e do efeito indireto
da variação de Xk de interesse. Usando o exemplo acima, definimos
E[b*1]= β1 + γ β2
Efeito direto Efeito indireto

9
Ou, por meio de uma figura,

β1
X1

Y
γ δ

β2

X2

Teste para Quebra Estrutural:

Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão


diferentes:
yi = α1 + β1 Xi + εi i = 1, ..m

yi = α2 + β2 Xi + εi i = m + 1, ..n

Sob Ho: (não há quebra estrutural) Yi = α + β Xi + ei i = 1, ..n

Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou

Ho: α1 – α2 = 0 Ha: α1 – α2 = 0
ou
β1 – β2 = 0 β1 – β2 ≠ 0

Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina

di = {0, se i = 1,..., m;
1, se i = m+1..,n}

Colocando no modelo:

yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi

Se a observação pertence à primeira parte dos dados, temos:

10
yi = γ0 + γ1 Xi + εi i = 1, ..m

Se a observação pertence à segunda parte dos dados, temos:


yi = (γ0 + γ2) + (γ1 + γ3)Xi + εi

Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:

F = (SQRr – (SQR1 + SQR2)) / (SQR1 + SQR2) . (n – 2(k +1))/ (k+1)

Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.

Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.

11
Multicolinearidade

Multicolinearidade Perfeita: violação da hipótese “As variáveis explicativas X1,..,Xk não


são combinações lineares entre si.”. Em outras palavras, o posto da matriz X não é k+1.
Neste caso, não é possível obter estimativas por MQO.

Multicolinearidade: altíssima correlação entre variáveis explicativas.

Isto não gera estimativas viesadas ou altera a forma da matriz de variância-covariância.


Mas “infla” os desvios padrões de cada coeficiente (pela matriz (X´X)-1 ter termos muito
grandes). Este é o problema da multicolinearidade.

Com isto, passa a ser comum ter (pares) de coeficientes com estatísticas t pequenas, mas
com testes F conjuntos de exclusão rejeitados. Este é o sintoma de multicolinearidade.
Outro modo de identificar, seria através do cálculo do FIV(bk)=1/(1 – Rk2), o fator de
inflação da variância de um parâmetro bk e onde Rk2 é o coeficiente de determinação da
regressão de xk em x1, ..., xk-1. Se este for alto, é possível que o problema da
multicolinearidade esteja presente. Diz-se “possível”, pois um alto FIC não é condição
necessária nem suficiente para o problema de multicolinearidade, já que pode-se
demonstrar que V(bk)=σ2/(Skk(1–Rk2)), onde Skk= Σ(xki – mxk)2,

O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional
(variabilidade similar, i.e., altamente correlacionada). Com isto, o método de mínimos
quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis.
Embora haja soluções ditas ad-hoc como o método de ridge regression e o uso de
análise fatorial, talvez o mais razoável seja pensarmos no problema e identificarmos
qual variável (dentre aquelas que tem, na prática, a mesma informação) é a mais
importante e/ou a mais representativa.

Heterocedasticidade

Heterocedasticidade: violação da hipótese do MCRL: V [εi|X] = σ2, erros têm variância


constante. Agora, V [εi|X] = σi2 = f(γ0 + γ 1z1i+... + γ pzpi)

Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a


hipótese de homocedasticidade, os pacotes estatísticos irão errar no cálculo do desvio
padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da
heterocedasticidade. O estimador de MQO ainda irá gerar estimativas não –viesadas.

Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz diagonal com elemento


da diagonal igual a σi2. Para identificar o problema, é necessário fazer testes de
especificação. Este é o diagnóstico. Os testes mais comuns são os de White e de Breush-
Pagan, que são equivalentes, a grosso modo. O teste busca avaliar a heterocedasticidade,
através de um teste de H0:homocedasticidade; Ha:heterocedasticidade ou

12
H0: γ1=...=γp=0. O teste supõe que f( ) acima é linear, que uma estimativa de σi2 pode
ser dada por ei2. Os testes diferem pela hipótese de z: alguns usam as variáveis x, outros
usam as variáveis x e seus quadrados.

Uma vez identificado o problema de heterocedasticidade, a solução têm duas formas.


Primeiro, o uso de uma matriz de variância-covariância dos coeficientes ajustada para
heterocedasticidade (a chamada Matriz de White) que é uma estimativa de V(b) = (X´X)-
1
X´ΩX(X´X)-1, implementada no EViews, como uma option em Least Squares na hora de
Estimate Equation. Segundo a transformação das variáveis explicativas e explicadas,
para obter, de modo indireto, estimativas por mínimos quadrados generalizados (MQG
ou GLS em inglês).
O problema de MQG é obter estimativas de β, tal que, dado E(εε´)=Ω ,

MQG: Minβ Σε2t wt ou Min (Y - Xβ)´ Ω-1(Y - Xβ)

bGLS = (X´ Ω-1X)-1 (X´ Ω–1Y)

com V(bGLS) = (X´Ω-1X)-1. bGLS pode ser calculado através de transformação das
explicativas e explicadas, tal que bGLS = (X*´X*) -1(X*´Y*), onde X* = PX Y* = PY e
onde P´P = Ω –1. Para o caso de heterocedasticidade, a sugestão é multiplicar cada
observação por (1/si), onde si2 é obtido a partir da estimação do teste de White/Breush-
Pagan, em um processo interativo. Todavia, é possível demonstrar que este método de
MQG factível gera estimativas viesadas, quando temos o caso usual de σi2
desconhecido. O melhor é a estimação por Máxima Verossimilhança, se sabemos a
distribuição dos erros e a forma da heterocedasticidade.

Autocorrelação

Autocorrelação: violação da hipótese: E [εt. εt-s] = 0, para s > 0, como por exemplo, εt
= ρ εt-1 + υt, onde υt é ruído branco). Neste caso E(εε´)=Ω,

Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a


hipótese de independência dos erros, os pacotes estatísticos irão errar no cálculo do
desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o
problema da autocorrelação. O estimador de MQO ainda irá gerar estimativas não –
viesadas.

Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz complexa (desenvolvida


abaixo). Para identificar o problema, é necessário fazer testes de especificação. Este é o
diagnóstico. Os testes mais comuns são os de Durbin-Watson e de Breush-Godfey.

Para entender o teste, vamos especificar uma forma de classificação dos erros
autorregressivos. Há o caso geral de

εt = ρ1 εt-1 +ρ2 εt-2 + ... +ρp εt-p + υt

13
chamado de modelo autoregressivo de ordem p (AR(p)). A regressão é sem constante,
pois mantém-se a hipótese de que E[εt]=0).

Para o caso especial de p=1, εt = ρ εt-1 + erro, H0: não há autocorrelação, => Ho: ρ =
0.
O teste de DW tem uma tabela específica, e o teste é calculado por

(et − et −1 )2
∑ ~ 2(1 − pˆ )
T
DW =
∑t =1 et2
t =2 T

onde r = ΣTt=2(et - et-1)2/(ΣΤt=2et-12), ou seja, uma regressão do resíduo em função do


resíduo defasado um período. A regra de decisão é :Rejeitamos Ho se DW < D (Lower);
Aceitamos Ho se DW > D (Upper) e Inconclusivo se D (lower) < DW < D (upper),
onde D(upper) e D(lower) são os valores tabulados.

Para o teste de Breusch-Godfrey, estimamos uma regressão do resíduo contra o residuo


defasado p vezes e as explicativas e fazemos um teste F da significância dos
coeficientes angulares dos resíduos defasados. Obs: se as explicativas não incluem a
dependente defasada Yt-1, então o teste pode ser calculado da regressão de et contra et-1
,...., et-p apenas e pode-se usar o F de significância.

Para entender melhor a matriz de variância-covariância, tomemos o caso de um modelo


de regressão com erros AR(1): Y = X β + ε, com εt = ρ εt-1 + ut, onde ut ~ iid (0,
σ ). Temos que b = (X´X) X´Y, como sempre, mas V(b) ≠ σ2 (X´X)-1 e na verdade, V(b)
2 -1

= (X´X)-1X´ΩX(X´X)-1, onde

⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤
⎢ ⎥
⎢ε 2 ε 1 ε 2
2

Ω = E [εε´] = E ⎢ . . ⎥
⎢ ⎥
⎢ . . ⎥
⎢ε ε 2 ⎥
εn ⎦
⎣ n 1

⎡ 1 ρ . . ρ T −1 ⎤
⎢ ⎥
⎢ ρ 1 ρ T −2 ⎥
2 2
Ω = σ u/(1- ρ ) ⎢ . . ⎥.
⎢ ⎥
⎢ . . ρ ⎥
⎢ ρ T −1 ρ T −2
ρ 1 ⎥⎦

As soluções para obter boas estimativas de β e estimativas de V(b) corretas são,


primeiro, o uso de um matriz de variância-covariância que acomoda a Autocorrelação
(também chamada matriz de Newey-West, e apresentada como opção no Eviews na
estimação por LS); segundo o uso de MQG, através de transformação das variáveis
explicativas e explicada. Ou seja, como antes, em heterocedasticidade, o problema de
MQ é Min (Y - Xβ)´ Ω-1(Y - Xβ), que gera estimativas bGLS = (X´ Ω -1X) (X´ Ω –1Y), com

14
V(bGLS) = (X´ Ω -1X)-1. Estas podem ser obtidas através de bGLS = (X*´X*) -1(X*´Y*), onde
X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de autocorrelação de primeira
ordem (para regressão simples)

⎡ − − ⎤
⎢(1 − r ) x − rx ⎥ ⎡ − ⎤
⎢ 2 1 ⎥ ⎢ y − ry ⎥
⎢ (1 − r ) x − rx ⎥ ⎢ 2 1 ⎥

X* = ⎢ 3 2

*
Y = ⎢ . ⎥
⎢ . . ⎥ ⎢
.

⎢ . . ⎥ ⎢ ⎥
⎢ ⎥ ⎢⎣ yT − ryT +1 ⎥⎦
⎢⎣(1 − r ) xT − rxT −1 ⎥⎦

Há dois modos alternativos a MQG. O primeiro é o método de Máxima


Verossimilhança. O segundo é uma Transformação do Modelo de regressao. Tomando o
exemplo de regressão simples,
yt = α + β xt+ εt e εt = ρ εt-1 + ut (*)
onde ut ~ iid (0, σ2) e t = 1,..., T

Substituindo εt = yt - α - β xt na segunda equação, temos:

Yt – α – β Xt = ρ (Yt-1 – α – β Xt-1) + ut

Yt = α(1– ρ) + ρ Yt-1 + β Xt – ρ β Xt-1 + ut

(**) Yt = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1 + ut

O erro do modelo (**) é independente no tempo, i.e., não tem autocorrelação. Por isto,
pode ser estimado por MQO sem problemas.

Note que se β1 = −ρ β0, o modelo (**) pode ser escrito como (*). O modelo (**) é
chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 1 e 1.

Interpretação dos coeficientes:

E [Yt| Yt-1, Xt, Xt-1] = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1

∂ E [Yt| . ]/∂Xt = β0 (curto prazo)

limT->∞ ∂ E [Yt| . ]/∂Xt = (β0 + β1)/(1 − ρ) (longo prazo), onde |ρ| < 1

Para entender, lembre-se que, no steady-state (longo prazo), yt = yt-1 = .. = y e xt = xt-1


= .. = x na média da regressão. Substituindo na expressão da média condicional,
Y = α +ρ Y+ β0 X – β1X e Y = α/(1− ρ) + (β0 + β1)X/(1− ρ)

Obs: O caso geral de ADL(p,q) é

15
Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut

16
MODELOS ARIMA:

Partiremos do caso mais simples:

AR(1) = > Yt = β Yt-1 + εt ou Yt = α + β Yt-1 + εt onde εt ~ N(0, σ e2 ).

A idéia é que

E[Yt | It-1] = E [Yt / Yt-1] = α + β Yt-1

No AR(p) a memória é mais longa, no sentido de que Yt-1 não resume perfeitamente a
trajetória de Yt.

Substituindo,

Yt = α + β [α + β Yt-2 + εt-1] + εt

= α + β α + β 2 Yt-2 + εt + β εt-1

= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1+ β 2 εt-2
. .
. .

Yt = α (1 + β + β 2..) + β t Yo + Σj=0t βj εt-j

Mas, 1 + β + β 2.. = Σj=0t βj

Assim, Yt depende do que acontece em toda a histótia. Todavia, na modelagem,


olhamos só o Yt-1, pois este sintetiza o passado.
Usando as hipóteses do modelo de regressão, temos:

E[Yt] = E[ α Σj=0t pj ] + E [β t Yo ] + E[Σj=0t pj ε(t-j)]

= α Σj=0t pj + β t Yo + Σj=0t pj E[ε(t-j)]

= α Σj=0t pj + β t Yo

Se T foi grande e | β | < 1:

E [Yt] = α / (1 – β), (PG infinita)

Pois Σj=0t pj = 1/ (1 - β)

Obs: se β = 1 => E [Yt] = α + Yo, pois Σj=0t 1j = T

17
Vejamos agora a variância:

V[Yt] = E [(Yt – E[Yt]2] = E[(Σj=0t pj E[ε(t-1)])]

O quadrado da soma do elemento acima é:

E [(Σj=0t (pj)2 + Σj=0t ε(t-j)2 + Σj=0t Σj≠lt pj pl ε(t-j) ε(t-1)]

= Σj=0t p2jσ2e

Se β = 1, V [Yt] = σ2et

Se | β | < 1 , V [Yt] = σ2e/ 1 - β2, pois a ordem da PG é β2.

Se | β | < 1 e T é grande, os momentos de Yt não dependem do tempo. Em outras


palvras, a variável é estacionária.

E [Yt] = α + β E [Yt-1] + E [εt]

E [Y] = α + β E [Y] + E [ε]

E [Y] (1 - p) = α -> E [Y] = α / (1 - β)

Vejamos agora a covariância:

Cov (Yt, Yt-1) = E [(β Yt-1 + εt – E[Y])( β Y(t-2) + εt-1 – E [Y])]

= β σ e2 / 1 – β 2 = β V[Y]

Generalizando:

Cov (Yt, Y(t-s)) = β S V[Y]

Assim,

Cor (Yt, Yt-1) = β

De onde vem o I de ARIMA?

Yt = Yt-1 + εt

Vem da integração, em que a variável Y tem de ser trabalhada pela soma de Yt e Yt-1.

Zt = Δ Yt = Yt – Yt-1 = ε t, diferenciou-se a série em primeira ordem.

Zt = β1 Zt-1 + …+ βp Z(t-p) + ε t + O1 εt-1 + ...+ Oq ε (t-q)

18
Este é um ARIMA (p, 1, q)

Outra visão de ARIMA(p,1,q): Caso extremo de autocorrelação: Raízes unitárias


Vimos que se o coeficiente autoregressivo for igual a 1, a variável será não-estacionária,
ou dita integrada de ordem 1. É importante testar esta hipótese:

Yt = ρ Yt-1 + εt

Ou ΔYt = (ρ – 1) Yt-1 + εt Ù ΔYt = α + Yt-1 + εt

Ho: ρ = 1 Ηo: α = 0
−>
Ha: ρ < 1 Ηa: α < 0

A tabela para comparara a estatística de teste do coeficiente α não é a Normal (ou t ) e


sim uma tabela específica, chamada Dickey-Fuller. Se a ordem de Yt for
ARIMA(p,d,q), p>1, q>0, usamos o teste ADF, no modelo abaixo:

Raiz Unitária:
ρ
ΔYt = a Yt-1 + Σj =1βj ΔYt-j + εt

Ηo: α = 1 - há raiz unitária

Ηa: α < 1 - não há raiz unitária

Modelos Dinâmicos:

Yt = α + ρ Yt-1 + β1 Xt + β0 Xt-1 + ut

Onde ut ~ (0, σ2u)

Este é um modelo ADL (1,1)

ou Autoregressive Distributed Lags (1,1). O caso geral de ADL(p,q) é


Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut

Transformando o ADL, temos o MCE ou o modelo de correção de erros(vide


laboratório 7).
ΔYt = α + β0 Δ Xt – (1 - ρ) [ Yt-1 - δ Xt-1 ] + εt

onde δ = (β0 + β1)(1 - ρ)−1

19
ΔYt = α + β0 Δ Xt – (1 - ρ)εt-1 + εt

Porque modelo de correção de erros


Digamos que a tendência de longo prazo de ΔYt = ΔY* = 0,02
ΔYt = 0,05 > ΔY* -> εt > 0
ut > 0 -> ΔYt+1 < ΔY* pois – (1 - ρ) ut < 0

-----------------------------------------

Cointegração:

Vimos que se ρ = 1 em um modelo ADL ou se o coeficiente autoregressivo de erro da


regressão for igual a um não haverá análise de longo prazo. Assim, é importante testar
se as relações econômicas são válidas (estáveis) no longo prazo, isto é, se as variáveis
do modelo são cointegradas.
Lembrando:
Se Yt ~ I(1), Yt é não-estacionária (ou integrada de primeira ordem). Então,

Yt - Yt –1 = ΔYt ~ I(0), ou seja, é estacionária.

No nosso caso temos:


Yt ~ I(1) e Xt ~ I(1).

Se Yt - β Xt = ut ~ I(0). Então ut é estacionário ou cointegrado.

-> Para testar cointegração, fazemos um teste tipo ADF nos resíduos do modelo estático
(teste Engle-Granger).

Yt = α + β Xt + εt

εt = ρ εt-1 + ut

Ho: ρ = 1 não há cointegração


Há: ρ < 1 há cointegração.

VAR:

Yt – β Xt = εt (Estatística)

Yt = β Xt - εt (Economia)

X e ε independentes (Econometria)

Se X e ε não são independentes, não podemos usar MQO (ou MQG) para estimar β.

20
Hipótese alternativa para séries de tempo:
Xt-p e εt independentes (p>0)
Yt-p e εt independentes

Yt = α1 + β11 Yt-1 + β12 Xt-1+ ε1t

Xt = α2 + β21 Yt-1 + β22 Xt-1+ ε1t

⎡ Yt ⎤ ⎡α 1 ⎤ ⎡ β 11 β 12 ⎤ ⎡ Yt −1 ⎤ ⎡ ε 1t ⎤
⎢ X ⎥ = ⎢α ⎥ + ⎢ β +
β 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣ε 2t ⎥⎦
VAR(1)
⎣ t ⎦ ⎣ 2 ⎦ ⎣ 21

E[ Xt | Xt-1 Yt-1 ] ≠ E[ Xt | Xt-1] -> Causalidade de Granger

Xt = α2 + β21 Yt-1 + ε2t

Xt = α2 + β21 (β Xt-1 + εt) + ε2t (verifica-se correlação entre consumo e renda, mas isto
quer dizer que consumo “causa” renda?)

Xt = α2 + (β21β) Xt-1 + erro (não há causalidade de Granger)

O modelo acima implica que


Xt = α2 + β21 Yt-1 + β22 Xt-1+ εt

β21 = 0 pois Yt-1 é apenas uma proxy de Xt-1

Xt = a + Xt-1 + b Yt + b1 Yt-1 + erro

Yt = a2 + γ11 Yt-1 + γ01 Xt + γ12 Xt-1 + v1t


Xt = a2 + γ21 Xt-1 + γ02 Yt + γ22 Yt-1 + v2t

⎡ 1 − γ 01 ⎤ ⎡ Yt ⎤ ⎡ a 1 ⎤ ⎡γ 11 γ 12 ⎤ ⎡ Yt −1 ⎤ ⎡ v1t ⎤
⎢− γ = + +
⎣ 02 1 ⎥⎦ ⎢⎣ X t ⎥⎦ ⎢⎣a 2 ⎥⎦ ⎢⎣γ 21 γ 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣v 2t ⎥⎦

G0 Zt = A + G1 Zt-1 + Vt

Zt = Cto-1 A + Cto-1 G1 Zt-1 + Cto-1 Vt

Zt = α + β Zt-1 + εt
--------------------------------------------------------------------------------

Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(1,5)

Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(2,5)

21
Ho: renda não causa consumo

Ha: renda causa consumo

22

Anda mungkin juga menyukai