Notas de Aula MPFEE Rev2

Notas de Aulas – Econometria I- EPGE/FGV
© Eduardo P. Ribeiro, 2008
*Hipóteses do Modelo Clássico de Regressão Linear
(0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi
Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:
E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X]

= α + β1 x1i + .... + βk xki
Isto implica em E[ε|X] = 0.
Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si.
Outras hipóteses feitas no Modelo Clássico de Regressão Linear

(4) V [εi|X] = σ2, erros têm variância constante.
(5) E [εi εj] = 0, i≠j, erros são independentes entre si.
(6) εi ~ iid N ( 0, σ2)
Todavia, apenas (0) e (3) são importantes para estimação por Mínimos Quadrados.
Já na estimação por Máxima Verossimilhança, (0)-(6) são importantes.
Obs: Pela hipótese dos erros serem independentes entre si, E(εi εj ) = 0 = Cov(εi εj ).
*Como achar os coeficientes do modelo?
Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de

regressão. Ou seja, tenho de minimizar os erros (ao quadrado):
Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2
Vejamos as condições de 1a ordem:
(i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0

(ii) ∂L/∂β = Σ 2(yi – a – b1 x1- ... - bkxk)(-xji) = 0 para j = 1,...,k
Note que (i) implica que Σ ei = 0
Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.
1
Resolvendo as condições de 1a ordem (escritas em notação matricial):
(i) X´ε = 0
(ii) X´ (Y – X b) = 0
Temos que:
XÝ – X´X b = 0 -> b = (X´X)-1 XÝ
No caso da constante, em particular, temos a partir da condição de primeira ordem:

n a = Σ yi – b1 Σ xji - ... – bk Σ xki -> a = Y − bX
A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.
Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.
E[εi] = 0 -> n-1Σei = 0

E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0
que são condições de primeira ordem de mínimos quadrados ordinários (MQO).
Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja,

b=Σ(yi – my)xi / Σ(xi – mx)2,
que é equivalente à formula mais conhecida:
b=Σ(yi – my)(xi – mx) / Σ(xi – mx)2,
onde mx = n-1 Σ xi, e my = n-1 Σ yi, ou seja, a média amostral de x e y, respectivamente.
Avaliação da Regressão
Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das

condições de primeira ordem do problema de mínimos quadrados:
SQT = SQE + SQR

∑i =1 (yi − m y ) = ∑i =1 (yˆ − m y ) + ∑i=1 ei
n 2 n 2 n 2
Pode-se construir o coeficiente de determinação (R2):
R2 = SQE / SQT = 1 – SQR/SQT
Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2.
2
Testes de Hipóteses
Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do

vetor de coeficientes estimados b, ou seja, sua média, sua variância e sua distribuição:
Propriedades do Estimador de MQO

Y = Xβ + ε
b = (X´X)-1(XÝ)
E[b|X] = E[(X´X)-1X´(Xβ + ε)|X] = E[(X´X)-1X´Xβ |X] + E[(X´X)-1X´ε |X]
= E[β|X] + E[(X´X)-1X´ε |X] = β + (X´X)-1X´ E[ε|X ] = β
Foram utilizadas as seguintes hipóteses sobre o erro:

(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
V[b|X] = E [(b – E[b])( b – E[b])´ |X]

= E [(β + (X´X)-1X´ε – β) (β + (X´X)-1Xé – β)´|X]
= E [((X´X)-1X´ε)( ε ´X (X´X)-1|X) = (X´X)-1XÉ[εε ´|X]X (X´X)-1
= σ2(X´X)-1X´ I X (X´X)-1
= σ2 (X´X)-1
Foram utilizadas as hipóteses sobre o erro:

(2)E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) V [εi|X] = σ2, erros têm variância constante.
(4) E [εi εj] = 0, i≠j, erros são independentes entre si.
Que em notação matricial podem ser escritas como
⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤ ⎡σ 2 0 . . 0⎤
⎢ ⎥ ⎢ ⎥
⎢ε 2 ε 1 ε 2 σ
2 2
⎥ ⎢ 0 ⎥
E [εε´] = E ⎢ . . ⎥ =⎢ . . ⎥ = σ2 I
⎢ ⎥ ⎢ ⎥
⎢ . . ⎥ ⎢ . . ⎥
⎢ε ε 2 ⎥
ε n ⎦ ⎢⎣ 0 2⎥
σ ⎦
⎣ n 1
Note que a V(b) é uma matriz (k+1)x(k+1).
⎡ V (a) Cov(ab1 ) . . Cov(abk )⎤

⎢ Cov(b a ) V (b1 ) ⎥
⎢ 1 ⎥
V(b) = ⎢ . . ⎥
⎢ ⎥
⎢ . . ⎥
⎢⎣Cov(bk a ) V (bk ) ⎥⎦
Na prática, σ2 pode ser estimado por s2 = (n –(k+1))-1Σei2.
3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,
b|X~N(β, σ2(X´X)-1)
Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.
Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p
Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever
F= (R βˆ -r)´[R(X´X)-1R´]-1(R βˆ -r)/p ~ Fp, n-k-1

SQR /(n-k-1)
Outra forma de escrever a expressão acima, explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.
F= (SQRr – SQRi )/p ~ Fp, n-k-1

SQRi /(n-k-1)
Exemplos de Testes de Hipóteses:
a) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0
B
R
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 0 0 0 ] ⎢ β 2 ⎥ = β1 = r = 0
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
4
b) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0 β2 = 0
B
R
⎡ A⎤
⎢ β 1⎥
⎡0 10 0 0 ⎤ ⎢ ⎥ ⎡0 ⎤
⎢0 ⎥ ⎢ β 2⎥ = ⎢ ⎥
⎣ 010 0 ⎦ ⎢ ⎥ ⎣0 ⎦
⎢ ⎥β 3
⎢⎣ β 4⎥⎦
c) Ho: β1 = β2 -> β1 – β2 = 0
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 -1 0 0] ⎢ β 2⎥ = [ 0 ]
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
Teste de Hipóteses:
1) Teste de significância de um coeficiente angular
Ho: βj = 0
βj ≠ 0
T= bj –0 ~tn-(k+1)
(V(bj))1/2
2) Teste ANOVA
Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero
F= (SQRr – SQRi)/p ~ Fp, n-k-1

SQRi /(n-k-1)
onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e
SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma).
5
Ou
F= (R2)/p ~ Fp, n-k-1

(1-R2) /(n-k-1)
Resultados em Grandes Amostras
Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.
Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.

Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente
infinita, o estimador passa a ter apenas o valor do parâmetro na população.
Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas

têm uma distribuição que se aproxima da Normal Padrão, à medida que a amostra
aumenta.
A distribuição da média da população tem distribuição Normal. Estimadores
lineares, como os coeficientes de MQO, têm distribuição Normal. A distribuição da
média tende a ser simétrica.
V (X ) = (σ2x/n)1/2.
Lembrando:
Teste de Hipóteses:
ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa)

ERRO TIPO 2: aceito Ho e Ho é falso
Realidade \ Decisão Aceito Ho Rejeito Ho

Ho verdadeiro (1 – α) nível de confiança Erro do tipo I (α) (tamanho
do teste / nível de
significância)
Ho falso Erro do tipo II (β) (1 – β )(potência/poder do
teste)
6
Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso,
aumenta-se a segurança (vou me aproximar do alfa verdadeiro).
Variáveis Explicativas Binárias (Dummies)
Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).
Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e

Feminino) como explicativa yi =α+β(gênero)i+εi . Há duas categorias e escolhemos
uma delas para a dummy (no caso, feminino). Cria-se uma variável Fi ={1 se
gênero=Fem; 0 se gênero=Masc.}. A regressão passa a ser yi =α+βFi+εi.
A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as

hipótese do MCRL a reta de regressão é a média condicional, temos E(y|masc)= α (pois
neste caso, Fi=0) e E(y|fem)= α+β. Com isto, β=E(y|fem) –E(y|masc), ou seja a
diferença de médias entre a categoria analisada e aquela excluída na construção da(s)
dummy(ies).
No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.
Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando

Bi ={1 se cor=Branco; 0 se cor=Não-Branco}, temos a regressão múltipla:
yi =α+βFi+γBi +εi
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ .
e com isto, a interpretação dos coeficientes é

β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
β= E(y|Fem, Branco) – E(y|Masc, Branco)
e
γ= E(y|Masc, Branco) – E(y|Masc, NBranco)
γ= E(y|Fem, Branco) – E(y|Fem, NBranco)
7
Como há duas interpretações de β, pode-se concluir que gênero é independente de cor,
para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β=
E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem).
No caso de interação entre as dummies (não independência), temos o seguinte modelo

yi =α+βFi+γBi + δ FiBi+εi
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .
As diferenças passam a ser

β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
γ= E(y|Masc, Branco) – E(y|Masc, Branco)
e
δ= [E(y|Fem, Branco) – E(y|Masc, Branco) ] – [ E(y|Fem, NBranco) –
E(y|Masc, NBranco) ]
Interpretação dos coeficientes de regressão (quando estimadas por MQO)
Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α

+ β1 x1i + .... + βk xki + εi, pois ∂y/∂xk=βk (efeito da mudança de xk sobre y, mantidos
os outros fatores x e ε constantes). Note que ∂ε/∂xk=0, ou seja, o erro não depende de xk.
Como é a interpretação nas estimativas, visto que as explicativas em geral são

correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a
exposição, desconsidere a constante)
Y = β1 X1 + β2X2 + ε
Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão

múltipla:
[b1 b2]´= b=(X´X)-1XÝ
Voltando às condições de primeira ordem Xé=0, ou X´(Xb – Y)=0 ou (X´X) b –

(XÝ)=0. Explicitando o conteúdo do vetor b, as duas condições para estimação podem
ser escritas como
(X1´X1) b1 + (X1´X2) b2 – (X1Ý)=0

(X2´X1) b1 + (X2´X2) b2 – (X2Ý)=0
ou
(A11) b1 + (A12) b2 – (X1Ý)=0

(A21) b1 + (A22) b2 – (X2Ý)=0
8
Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2Ý) e substituindo na
segunda equação
(A12)[ –A22-1A21b1 + A22-1(X2Ý)] + (A11) b1 – (X1Ý)=0
[(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2Ý)+ (X1Ý)]=0
[X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]Ý=0
[X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0
[X1´M2 X1]b1 – (X1´M2Y)=0
b1 =[X1´M2 X1]-1(X1´M2Y).
Mas o que é a matriz M? Tomemos o caso geral:

e=Y–Xb = Y – X(X´X)-1X`Y = (I – X(X´X)-1X`)Y, ou seja, e=MXY
Dois resultados: MM=M (idempotente) e M´=M (simétrica).
Com isto, podemos escrever

b1 =[X1´M2´M2 X1]-1(X1´M2´M2Y).
b2 =[(M2 X1)´(M2 X1)]-1[(M2 X1)´(M2Y)]
onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.
Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de

regressão múltipla, qual o efeito de omitirmos uma variável explicativa relevante (que
faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será
omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos
quadrados b*1=(X1`X1)-1(X1Ý).
Seu valor esperado é

E[b*1]= E[(X1`X1)-1(X1Ý)= E[(X1`X1)-1X1´(X1β1 + X2β2 + ε)]
= β1 + (X1`X1)-1X1´ X2 β2 + E[(X1`X1)-1X1´ε] = β1 + (X2`X2)-1X2´X1 β1
= β1 + δ β2
onde δ é o coeficiente da regressão de X1 em X2 (a regressão reversa do ítem anterior),
isto é, X2= γ X1 + erro. Note que o estimador de b*1 neste caso é viesado, exceto no
caso de X1 e X2 serem independentes (pois assim δ=0).
Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma

regressão simples, a estimativa obtida é uma mistura do efeito direto e do efeito indireto
da variação de Xk de interesse. Usando o exemplo acima, definimos
E[b*1]= β1 + γ β2
Efeito direto Efeito indireto
9
Ou, por meio de uma figura,
β1
X1
Y
γ δ
β2
X2
Teste para Quebra Estrutural:
Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão

diferentes:
yi = α1 + β1 Xi + εi i = 1, ..m
yi = α2 + β2 Xi + εi i = m + 1, ..n
Sob Ho: (não há quebra estrutural) Yi = α + β Xi + ei i = 1, ..n
Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou
Ho: α1 – α2 = 0 Ha: α1 – α2 = 0
ou
β1 – β2 = 0 β1 – β2 ≠ 0
Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina
di = {0, se i = 1,..., m;
1, se i = m+1..,n}
Colocando no modelo:
yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi
Se a observação pertence à primeira parte dos dados, temos:
10
yi = γ0 + γ1 Xi + εi i = 1, ..m
Se a observação pertence à segunda parte dos dados, temos:

yi = (γ0 + γ2) + (γ1 + γ3)Xi + εi
Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:
F = (SQRr – (SQR1 + SQR2)) / (SQR1 + SQR2) . (n – 2(k +1))/ (k+1)
Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.
Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.
11
Multicolinearidade
Multicolinearidade Perfeita: violação da hipótese “As variáveis explicativas X1,..,Xk não

são combinações lineares entre si.”. Em outras palavras, o posto da matriz X não é k+1.
Neste caso, não é possível obter estimativas por MQO.
Multicolinearidade: altíssima correlação entre variáveis explicativas.
Isto não gera estimativas viesadas ou altera a forma da matriz de variância-covariância.

Mas “infla” os desvios padrões de cada coeficiente (pela matriz (X´X)-1 ter termos muito
grandes). Este é o problema da multicolinearidade.
Com isto, passa a ser comum ter (pares) de coeficientes com estatísticas t pequenas, mas
com testes F conjuntos de exclusão rejeitados. Este é o sintoma de multicolinearidade.
Outro modo de identificar, seria através do cálculo do FIV(bk)=1/(1 – Rk2), o fator de
inflação da variância de um parâmetro bk e onde Rk2 é o coeficiente de determinação da
regressão de xk em x1, ..., xk-1. Se este for alto, é possível que o problema da
multicolinearidade esteja presente. Diz-se “possível”, pois um alto FIC não é condição
necessária nem suficiente para o problema de multicolinearidade, já que pode-se
demonstrar que V(bk)=σ2/(Skk(1–Rk2)), onde Skk= Σ(xki – mxk)2,
O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional
(variabilidade similar, i.e., altamente correlacionada). Com isto, o método de mínimos
quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis.
Embora haja soluções ditas ad-hoc como o método de ridge regression e o uso de
análise fatorial, talvez o mais razoável seja pensarmos no problema e identificarmos
qual variável (dentre aquelas que tem, na prática, a mesma informação) é a mais
importante e/ou a mais representativa.
Heterocedasticidade
Heterocedasticidade: violação da hipótese do MCRL: V [εi|X] = σ2, erros têm variância

constante. Agora, V [εi|X] = σi2 = f(γ0 + γ 1z1i+... + γ pzpi)
Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a

hipótese de homocedasticidade, os pacotes estatísticos irão errar no cálculo do desvio
padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o problema da
heterocedasticidade. O estimador de MQO ainda irá gerar estimativas não –viesadas.
Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz diagonal com elemento

da diagonal igual a σi2. Para identificar o problema, é necessário fazer testes de
especificação. Este é o diagnóstico. Os testes mais comuns são os de White e de Breush-
Pagan, que são equivalentes, a grosso modo. O teste busca avaliar a heterocedasticidade,
através de um teste de H0:homocedasticidade; Ha:heterocedasticidade ou
12
H0: γ1=...=γp=0. O teste supõe que f( ) acima é linear, que uma estimativa de σi2 pode
ser dada por ei2. Os testes diferem pela hipótese de z: alguns usam as variáveis x, outros
usam as variáveis x e seus quadrados.
Uma vez identificado o problema de heterocedasticidade, a solução têm duas formas.

Primeiro, o uso de uma matriz de variância-covariância dos coeficientes ajustada para
heterocedasticidade (a chamada Matriz de White) que é uma estimativa de V(b) = (X´X)-
1
X´ΩX(X´X)-1, implementada no EViews, como uma option em Least Squares na hora de
Estimate Equation. Segundo a transformação das variáveis explicativas e explicadas,
para obter, de modo indireto, estimativas por mínimos quadrados generalizados (MQG
ou GLS em inglês).
O problema de MQG é obter estimativas de β, tal que, dado E(εε´)=Ω ,
MQG: Minβ Σε2t wt ou Min (Y - Xβ)´ Ω-1(Y - Xβ)
bGLS = (X´ Ω-1X)-1 (X´ Ω–1Y)
com V(bGLS) = (X´Ω-1X)-1. bGLS pode ser calculado através de transformação das
explicativas e explicadas, tal que bGLS = (X*´X*) -1(X*Ý*), onde X* = PX Y* = PY e
onde P´P = Ω –1. Para o caso de heterocedasticidade, a sugestão é multiplicar cada
observação por (1/si), onde si2 é obtido a partir da estimação do teste de White/Breush-
Pagan, em um processo interativo. Todavia, é possível demonstrar que este método de
MQG factível gera estimativas viesadas, quando temos o caso usual de σi2
desconhecido. O melhor é a estimação por Máxima Verossimilhança, se sabemos a
distribuição dos erros e a forma da heterocedasticidade.
Autocorrelação
Autocorrelação: violação da hipótese: E [εt. εt-s] = 0, para s > 0, como por exemplo, εt
= ρ εt-1 + υt, onde υt é ruído branco). Neste caso E(εε´)=Ω,
Como esta hipótese é importante para demonstrar que V(b)=σ2(X´X)-1, se violarmos a

hipótese de independência dos erros, os pacotes estatísticos irão errar no cálculo do
desvio padrão dos coeficientes e errar nos valores dos testes de hipótese. Este é o
problema da autocorrelação. O estimador de MQO ainda irá gerar estimativas não –
viesadas.
Na verdade, V(b) = (X´X)-1X´ΩX(X´X)-1, onde Ω é uma matriz complexa (desenvolvida

abaixo). Para identificar o problema, é necessário fazer testes de especificação. Este é o
diagnóstico. Os testes mais comuns são os de Durbin-Watson e de Breush-Godfey.
Para entender o teste, vamos especificar uma forma de classificação dos erros
autorregressivos. Há o caso geral de
εt = ρ1 εt-1 +ρ2 εt-2 + ... +ρp εt-p + υt
13
chamado de modelo autoregressivo de ordem p (AR(p)). A regressão é sem constante,
pois mantém-se a hipótese de que E[εt]=0).
Para o caso especial de p=1, εt = ρ εt-1 + erro, H0: não há autocorrelação, => Ho: ρ =
0.
O teste de DW tem uma tabela específica, e o teste é calculado por
(et − et −1 )2
∑ ~ 2(1 − pˆ )
T
DW =
∑t =1 et2
t =2 T
onde r = ΣTt=2(et - et-1)2/(ΣΤt=2et-12), ou seja, uma regressão do resíduo em função do

resíduo defasado um período. A regra de decisão é :Rejeitamos Ho se DW < D (Lower);
Aceitamos Ho se DW > D (Upper) e Inconclusivo se D (lower) < DW < D (upper),
onde D(upper) e D(lower) são os valores tabulados.
Para o teste de Breusch-Godfrey, estimamos uma regressão do resíduo contra o residuo

defasado p vezes e as explicativas e fazemos um teste F da significância dos
coeficientes angulares dos resíduos defasados. Obs: se as explicativas não incluem a
dependente defasada Yt-1, então o teste pode ser calculado da regressão de et contra et-1
,...., et-p apenas e pode-se usar o F de significância.
Para entender melhor a matriz de variância-covariância, tomemos o caso de um modelo

de regressão com erros AR(1): Y = X β + ε, com εt = ρ εt-1 + ut, onde ut ~ iid (0,
σ ). Temos que b = (X´X) XÝ, como sempre, mas V(b) ≠ σ2 (X´X)-1 e na verdade, V(b)
2 -1
= (X´X)-1X´ΩX(X´X)-1, onde
⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤
⎢ ⎥
⎢ε 2 ε 1 ε 2
2
⎥
Ω = E [εε´] = E ⎢ . . ⎥
⎢ ⎥
⎢ . . ⎥
⎢ε ε 2 ⎥
εn ⎦
⎣ n 1
⎡ 1 ρ . . ρ T −1 ⎤
⎢ ⎥
⎢ ρ 1 ρ T −2 ⎥
2 2
Ω = σ u/(1- ρ ) ⎢ . . ⎥.
⎢ ⎥
⎢ . . ρ ⎥
⎢ ρ T −1 ρ T −2
ρ 1 ⎥⎦
⎣
As soluções para obter boas estimativas de β e estimativas de V(b) corretas são,

primeiro, o uso de um matriz de variância-covariância que acomoda a Autocorrelação
(também chamada matriz de Newey-West, e apresentada como opção no Eviews na
estimação por LS); segundo o uso de MQG, através de transformação das variáveis
explicativas e explicada. Ou seja, como antes, em heterocedasticidade, o problema de
MQ é Min (Y - Xβ)´ Ω-1(Y - Xβ), que gera estimativas bGLS = (X´ Ω -1X) (X´ Ω –1Y), com
14
V(bGLS) = (X´ Ω -1X)-1. Estas podem ser obtidas através de bGLS = (X*´X*) -1(X*Ý*), onde
X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de autocorrelação de primeira
ordem (para regressão simples)
⎡ − − ⎤
⎢(1 − r ) x − rx ⎥ ⎡ − ⎤
⎢ 2 1 ⎥ ⎢ y − ry ⎥
⎢ (1 − r ) x − rx ⎥ ⎢ 2 1 ⎥
X* = ⎢ 3 2
⎥
*
Y = ⎢ . ⎥
⎢ . . ⎥ ⎢
.
⎥
⎢ . . ⎥ ⎢ ⎥
⎢ ⎥ ⎢⎣ yT − ryT +1 ⎥⎦
⎢⎣(1 − r ) xT − rxT −1 ⎥⎦
Há dois modos alternativos a MQG. O primeiro é o método de Máxima

Verossimilhança. O segundo é uma Transformação do Modelo de regressao. Tomando o
exemplo de regressão simples,
yt = α + β xt+ εt e εt = ρ εt-1 + ut (*)
onde ut ~ iid (0, σ2) e t = 1,..., T
Substituindo εt = yt - α - β xt na segunda equação, temos:
Yt – α – β Xt = ρ (Yt-1 – α – β Xt-1) + ut
Yt = α(1– ρ) + ρ Yt-1 + β Xt – ρ β Xt-1 + ut
(**) Yt = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1 + ut
O erro do modelo (**) é independente no tempo, i.e., não tem autocorrelação. Por isto,
pode ser estimado por MQO sem problemas.
Note que se β1 = −ρ β0, o modelo (**) pode ser escrito como (*). O modelo (**) é
chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 1 e 1.
Interpretação dos coeficientes:
E [Yt| Yt-1, Xt, Xt-1] = α∗ + ρ Yt-1 + β0 Xt – β1 Xt-1
∂ E [Yt| . ]/∂Xt = β0 (curto prazo)
limT->∞ ∂ E [Yt| . ]/∂Xt = (β0 + β1)/(1 − ρ) (longo prazo), onde |ρ| < 1
Para entender, lembre-se que, no steady-state (longo prazo), yt = yt-1 = .. = y e xt = xt-1

= .. = x na média da regressão. Substituindo na expressão da média condicional,
Y = α +ρ Y+ β0 X – β1X e Y = α/(1− ρ) + (β0 + β1)X/(1− ρ)
Obs: O caso geral de ADL(p,q) é
15
Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut
16
MODELOS ARIMA:
Partiremos do caso mais simples:
AR(1) = > Yt = β Yt-1 + εt ou Yt = α + β Yt-1 + εt onde εt ~ N(0, σ e2 ).
A idéia é que
E[Yt | It-1] = E [Yt / Yt-1] = α + β Yt-1
No AR(p) a memória é mais longa, no sentido de que Yt-1 não resume perfeitamente a
trajetória de Yt.
Substituindo,
Yt = α + β [α + β Yt-2 + εt-1] + εt
= α + β α + β 2 Yt-2 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1+ β 2 εt-2
. .
. .
Yt = α (1 + β + β 2..) + β t Yo + Σj=0t βj εt-j
Mas, 1 + β + β 2.. = Σj=0t βj
Assim, Yt depende do que acontece em toda a histótia. Todavia, na modelagem,

olhamos só o Yt-1, pois este sintetiza o passado.
Usando as hipóteses do modelo de regressão, temos:
E[Yt] = E[ α Σj=0t pj ] + E [β t Yo ] + E[Σj=0t pj ε(t-j)]
= α Σj=0t pj + β t Yo + Σj=0t pj E[ε(t-j)]
= α Σj=0t pj + β t Yo
Se T foi grande e | β | < 1:
E [Yt] = α / (1 – β), (PG infinita)
Pois Σj=0t pj = 1/ (1 - β)
Obs: se β = 1 => E [Yt] = α + Yo, pois Σj=0t 1j = T
17
Vejamos agora a variância:
V[Yt] = E [(Yt – E[Yt]2] = E[(Σj=0t pj E[ε(t-1)])]
O quadrado da soma do elemento acima é:
E [(Σj=0t (pj)2 + Σj=0t ε(t-j)2 + Σj=0t Σj≠lt pj pl ε(t-j) ε(t-1)]
= Σj=0t p2jσ2e
Se β = 1, V [Yt] = σ2et
Se | β | < 1 , V [Yt] = σ2e/ 1 - β2, pois a ordem da PG é β2.
Se | β | < 1 e T é grande, os momentos de Yt não dependem do tempo. Em outras

palvras, a variável é estacionária.
E [Yt] = α + β E [Yt-1] + E [εt]
E [Y] = α + β E [Y] + E [ε]
E [Y] (1 - p) = α -> E [Y] = α / (1 - β)
Vejamos agora a covariância:
Cov (Yt, Yt-1) = E [(β Yt-1 + εt – E[Y])( β Y(t-2) + εt-1 – E [Y])]
= β σ e2 / 1 – β 2 = β V[Y]
Generalizando:
Cov (Yt, Y(t-s)) = β S V[Y]
Assim,
Cor (Yt, Yt-1) = β
De onde vem o I de ARIMA?
Yt = Yt-1 + εt
Vem da integração, em que a variável Y tem de ser trabalhada pela soma de Yt e Yt-1.
Zt = Δ Yt = Yt – Yt-1 = ε t, diferenciou-se a série em primeira ordem.
Zt = β1 Zt-1 + …+ βp Z(t-p) + ε t + O1 εt-1 + ...+ Oq ε (t-q)
18
Este é um ARIMA (p, 1, q)
Outra visão de ARIMA(p,1,q): Caso extremo de autocorrelação: Raízes unitárias

Vimos que se o coeficiente autoregressivo for igual a 1, a variável será não-estacionária,
ou dita integrada de ordem 1. É importante testar esta hipótese:
Yt = ρ Yt-1 + εt
Ou ΔYt = (ρ – 1) Yt-1 + εt Ù ΔYt = α + Yt-1 + εt
Ho: ρ = 1 Ηo: α = 0
−>
Ha: ρ < 1 Ηa: α < 0
A tabela para comparara a estatística de teste do coeficiente α não é a Normal (ou t ) e

sim uma tabela específica, chamada Dickey-Fuller. Se a ordem de Yt for
ARIMA(p,d,q), p>1, q>0, usamos o teste ADF, no modelo abaixo:
Raiz Unitária:
ρ
ΔYt = a Yt-1 + Σj =1βj ΔYt-j + εt
Ηo: α = 1 - há raiz unitária
Ηa: α < 1 - não há raiz unitária
Modelos Dinâmicos:
Yt = α + ρ Yt-1 + β1 Xt + β0 Xt-1 + ut
Onde ut ~ (0, σ2u)
Este é um modelo ADL (1,1)
ou Autoregressive Distributed Lags (1,1). O caso geral de ADL(p,q) é

Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut
Transformando o ADL, temos o MCE ou o modelo de correção de erros(vide

laboratório 7).
ΔYt = α + β0 Δ Xt – (1 - ρ) [ Yt-1 - δ Xt-1 ] + εt
onde δ = (β0 + β1)(1 - ρ)−1
19
ΔYt = α + β0 Δ Xt – (1 - ρ)εt-1 + εt
Porque modelo de correção de erros

Digamos que a tendência de longo prazo de ΔYt = ΔY* = 0,02
ΔYt = 0,05 > ΔY* -> εt > 0
ut > 0 -> ΔYt+1 < ΔY* pois – (1 - ρ) ut < 0
-----------------------------------------
Cointegração:
Vimos que se ρ = 1 em um modelo ADL ou se o coeficiente autoregressivo de erro da

regressão for igual a um não haverá análise de longo prazo. Assim, é importante testar
se as relações econômicas são válidas (estáveis) no longo prazo, isto é, se as variáveis
do modelo são cointegradas.
Lembrando:
Se Yt ~ I(1), Yt é não-estacionária (ou integrada de primeira ordem). Então,
Yt - Yt –1 = ΔYt ~ I(0), ou seja, é estacionária.
No nosso caso temos:

Yt ~ I(1) e Xt ~ I(1).
Se Yt - β Xt = ut ~ I(0). Então ut é estacionário ou cointegrado.
-> Para testar cointegração, fazemos um teste tipo ADF nos resíduos do modelo estático
(teste Engle-Granger).
Yt = α + β Xt + εt
εt = ρ εt-1 + ut
Ho: ρ = 1 não há cointegração

Há: ρ < 1 há cointegração.
VAR:
Yt – β Xt = εt (Estatística)
Yt = β Xt - εt (Economia)
X e ε independentes (Econometria)
Se X e ε não são independentes, não podemos usar MQO (ou MQG) para estimar β.
20
Hipótese alternativa para séries de tempo:
Xt-p e εt independentes (p>0)
Yt-p e εt independentes
Yt = α1 + β11 Yt-1 + β12 Xt-1+ ε1t
Xt = α2 + β21 Yt-1 + β22 Xt-1+ ε1t
⎡ Yt ⎤ ⎡α 1 ⎤ ⎡ β 11 β 12 ⎤ ⎡ Yt −1 ⎤ ⎡ ε 1t ⎤
⎢ X ⎥ = ⎢α ⎥ + ⎢ β +
β 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣ε 2t ⎥⎦
VAR(1)
⎣ t ⎦ ⎣ 2 ⎦ ⎣ 21
E[ Xt | Xt-1 Yt-1 ] ≠ E[ Xt | Xt-1] -> Causalidade de Granger
Xt = α2 + β21 Yt-1 + ε2t
Xt = α2 + β21 (β Xt-1 + εt) + ε2t (verifica-se correlação entre consumo e renda, mas isto
quer dizer que consumo “causa” renda?)
Xt = α2 + (β21β) Xt-1 + erro (não há causalidade de Granger)
O modelo acima implica que

Xt = α2 + β21 Yt-1 + β22 Xt-1+ εt
β21 = 0 pois Yt-1 é apenas uma proxy de Xt-1
Xt = a + Xt-1 + b Yt + b1 Yt-1 + erro
Yt = a2 + γ11 Yt-1 + γ01 Xt + γ12 Xt-1 + v1t

Xt = a2 + γ21 Xt-1 + γ02 Yt + γ22 Yt-1 + v2t
⎡ 1 − γ 01 ⎤ ⎡ Yt ⎤ ⎡ a 1 ⎤ ⎡γ 11 γ 12 ⎤ ⎡ Yt −1 ⎤ ⎡ v1t ⎤
⎢− γ = + +
⎣ 02 1 ⎥⎦ ⎢⎣ X t ⎥⎦ ⎢⎣a 2 ⎥⎦ ⎢⎣γ 21 γ 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣v 2t ⎥⎦
G0 Zt = A + G1 Zt-1 + Vt
Zt = Cto-1 A + Cto-1 G1 Zt-1 + Cto-1 Vt
Zt = α + β Zt-1 + εt
--------------------------------------------------------------------------------
Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(1,5)
Δ Yt = β (1,1) Δ Yt-1 + β (1,2) Δ Ct-1 + β (1,3) Δ Yt-2 + β (1,4) Δ Ct-2 + β(2,5)
21
Ho: renda não causa consumo
Ha: renda causa consumo
22

Notas de Aula MPFEE Rev2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Notas de Aula MPFEE Rev2

Diunggah oleh

Hak Cipta:

Format Tersedia

Notas de Aulas – Econometria I- EPGE/FGV

© Eduardo P. Ribeiro, 2008

*Hipóteses do Modelo Clássico de Regressão Linear

(0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi

E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X]

Isto implica em E[ε|X] = 0.

Outras hipóteses feitas no Modelo Clássico de Regressão Linear

*Como achar os coeficientes do modelo?

Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de

Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2

Vejamos as condições de 1a ordem:

(i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0

Note que (i) implica que Σ ei = 0

X´Y – X´X b = 0 -> b = (X´X)-1 X´Y

No caso da constante, em particular, temos a partir da condição de primeira ordem:

E[εi] = 0 -> n-1Σei = 0

que são condições de primeira ordem de mínimos quadrados ordinários (MQO).

Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja,

Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das

SQT = SQE + SQR

Pode-se construir o coeficiente de determinação (R2):

R2 = SQE / SQT = 1 – SQR/SQT

Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2.

Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do

Propriedades do Estimador de MQO

Foram utilizadas as seguintes hipóteses sobre o erro:

V[b|X] = E [(b – E[b])( b – E[b])´ |X]

Foram utilizadas as hipóteses sobre o erro:

Note que a V(b) é uma matriz (k+1)x(k+1).

⎡ V (a) Cov(ab1 ) . . Cov(abk )⎤

Na prática, σ2 pode ser estimado por s2 = (n –(k+1))-1Σei2.

F= (R βˆ -r)´[R(X´X)-1R´]-1(R βˆ -r)/p ~ Fp, n-k-1

F= (SQRr – SQRi )/p ~ Fp, n-k-1

Exemplos de Testes de Hipóteses:

1) Teste de significância de um coeficiente angular

F= (SQRr – SQRi)/p ~ Fp, n-k-1

F= (R2)/p ~ Fp, n-k-1

Resultados em Grandes Amostras

Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.

Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas

ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa)

Realidade \ Decisão Aceito Ho Rejeito Ho

Variáveis Explicativas Binárias (Dummies)

Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e

A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as

Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando

e com isto, a interpretação dos coeficientes é

No caso de interação entre as dummies (não independência), temos o seguinte modelo

As diferenças passam a ser

Interpretação dos coeficientes de regressão (quando estimadas por MQO)

Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α

Como é a interpretação nas estimativas, visto que as explicativas em geral são

Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão

Voltando às condições de primeira ordem X´e=0, ou X´(Xb – Y)=0 ou (X´X) b –

(X1´X1) b1 + (X1´X2) b2 – (X1´Y)=0

(A11) b1 + (A12) b2 – (X1´Y)=0

Mas o que é a matriz M? Tomemos o caso geral:

Dois resultados: MM=M (idempotente) e M´=M (simétrica).

Com isto, podemos escrever

Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de

Seu valor esperado é

Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma

Teste para Quebra Estrutural:

Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão