Anda di halaman 1dari 10

Notas de Aulas – Econometria I- EPGE/FGV**

© Eduardo P. Ribeiro, 2011

PARTE I

*Hipóteses do Modelo Clássico de Regressão Linear

(0) Modelo é linear => yi = α + β1 x1i + .... + βk x ki + εi

Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:

E [y|xi,..,xk] = E [y|X] = α + β1 x1 + .... + βk xk + E[ε|X]


= α + β1 x1i + .... + βk xki

Isto implica em E[ε|X] = 0.

Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é não correlacionado com as explicativas xj (j= 1,...k).

Outras hipóteses feitas no Modelo Clássico de Regressão Linear


(3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si.
(4) V [εi|X] = σ2, erros têm variância constante.
(5) E [εi εj] = 0, i≠j, erros são independentes entre si.
(6) εi|X ~ iid N ( 0, σ2)

Obs1: Pela hipótese dos erros serem independentes entre si e terem média zero,
E(εi εj ) = 0 = Cov(εi εj ).
Obs2: Uma hipótese mais forte do que (2) é afirmar que Xj e ε são independentes.

*Como achar os coeficientes do modelo?

Mínimos Quadrados: Para achar α e β, busco errar pouco no desenho da reta de


regressão. Ou seja, tenho de minimizar os erros (ao quadrado):

Min L(α, β, y, x ) <-> Min (yi – α – β1 x1i- ... - βk xki)2

Vejamos as condições de 1a ordem:

(i) ∂L/∂α = Σ 2(yi – a – b1 x1- ... - bkxk)(-1) = 0


(ii) ∂L/∂β = Σ 2(yi – a – b1 x1- ... - bkxk)(-xji) = 0 para j = 1,...,k

**
OBS: Notas de aulas para o curso de Econometria I – MFEE 2011.
Estas notas de aula servem para orientação do estudo apenas. Este material não substitui a
presença em sala de aula nem reproduz todo o conteúdo do curso. As obras de referência para o
material aqui apresentado estão citadas no programa do curso. Material sujeito a revisão.

1
Note que (i) implica que Σ ei = 0.

Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.

Resolvendo as condições de 1a ordem (escritas em notação matricial):


(i) X´ε = 0
(ii) X´ (Y – X b) = 0

Temos que:
X´Y – X´X b = 0 -> b = (X´X)-1 X´Y

No caso da constante, em particular, temos a partir da condição de primeira ordem:


n a = Σ yi – b1 Σ xji - ... – bk Σ xki -> a = Y − bX

A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.

Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.
E[εi] = 0 -> n-1Σei = 0
E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0

que são condições de primeira ordem de mínimos quadrados ordinários (MQO).

Obs: Note que, em regressão simples (k=1), a fórmula do estimador de b, ou seja,


b=Σ(yi – my)xi / Σ(xi – mx)2,
que é equivalente à formula mais conhecida:
b=Σ(yi – my)(xi – mx) / Σ(xi – mx)2,
onde mx = n-1 Σ xi, e my = n-1 Σ yi, ou seja, a média amostral de x e y, respectivamente.

Avaliação da Regressão

Dividindo a variabilidade da variável dependente, a partir da identidade yi ≡ ŷ i + ei e das


condições de primeira ordem do problema de mínimos quadrados:
SQT = SQE + SQR
∑i=1 (yi − m y ) = ∑i=1 (yˆ − m y ) + ∑i =1 ei
n 2 n 2 n 2

Pode-se construir o coeficiente de determinação (R2):


R2 = SQE / SQT = 1 – SQR/SQT

Obs: como o próprio nome diz, R2= (Cor(yi ; ŷ i ))2.

2
Testes de Hipóteses

Para testes de hipóteses é necessário identificar quais as propriedades estatísticas do


vetor de coeficientes estimados b, ou seja, sua média, sua variância e sua distribuição:

Propriedades do Estimador de MQO


Y = Xβ + ε
b = (X´X)-1(X´Y)
E[b|X] = E[(X´X)-1X´(Xβ + ε)|X] = E[(X´X)-1X´Xβ |X] + E[(X´X)-1X´ε |X]
= E[β|X] + E[(X´X)-1X´ε |X] = β + (X´X)-1X´ E[ε|X ] = β

Foram utilizadas as seguintes hipóteses sobre o erro:


(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).

V[b|X] = E [(b – E[b])( b – E[b])´ |X]


= E [(β + (X´X)-1X´ε – β) (β + (X´X)-1X´e – β)´|X]
= E [((X´X)-1X´ε)( ε ´X (X´X)-1|X) = (X´X)-1X´E[εε ´|X]X (X´X)-1
= σ2(X´X)-1X´ I X (X´X)-1
= σ2 (X´X)-1

Foram utilizadas as hipóteses sobre o erro:


(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0, o erro é independente das explicativas xj . (para j= 1,...k).
(3) V [εi|X] = σ2, erros têm variância constante.
(4) E [εi εj] = 0, i≠j, erros são independentes entre si.

Que em notação matricial podem ser escritas como


 ε 12 ε 1ε 2 . . ε 1ε n  σ 2 0 . . 0
 2   2 
ε 2 ε 1 ε 2  0 σ 
E [εε´] = E  . .  = . .  = σ2 I
   
 . .   . . 
ε ε 2 
ε n   0 2
σ 
 n 1

Note que a V(b) é uma matriz (k+1)x(k+1).


 V (a) Cov(ab1 ) . . Cov (abk )
 Cov(b a) V (b1 ) 
 1 
V(b) =  . . 
 
 . . 
Cov(bk a ) V (bk ) 

Na prática, σ2 pode ser estimado por s2 = Σei2/(n –(k+1))

3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,

b|X~N(β, σ2(X´X)-1)

Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.

Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p

Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever

F= (R β̂ -r)´[R(X´X)-1R´]-1(R β̂ -r)/p ~ Fp, n-k-1


SQR /(n-k-1)

Outra forma de escrever a expressão acima explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.

F= (SQRr – SQRi )/p ~ Fp, n-k-1


SQRi /(n-k-1)

Exemplos de Testes de Hipóteses:

a) Rβ = r e β = [ α β 1 β2 β 3 β 4 ]
Ho: β1 = 0

β
R
α 
β 
 1
[ 0 1 0 0 0 ]  β 2  = β1 = r = 0
 
β 3 
 β 4 

b) Rβ = r e β = [ α β 1 β2 β 3 β 4 ]
Ho: β1 = 0 β2 = 0

4
α 
β 
10 0 0   
1
0 0
0  β 2  =  
 010 0    0
β 3 
 β 4 

c) Ho: β1 = β2 -> β1 – β2 = 0

α 
β 
 1
[ 0 1 -1 0 0]  β 2  = [ 0 ]
 
β 3 
 β 4 

Teste de Hipóteses (observações):

1) Teste de significância de um coeficiente angular: a fórmula “a” acima também pode


ser escrita como:
Ho: βj = c Ha:βj ≠ c
T= bj – c ~tn-(k+1)
(V(bj))1/2

2) Teste ANOVA: a mesma forma Rβ acima pode ser escrita como a seguir.
Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero
F= (SQRr – SQRi)/p ~ Fp, n-k-1
SQRi /(n-k-1)
onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e
SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma).

Ou
F= (R2)/p ~ Fp, n-k-1
(1-R2) /(n-k-1)

Resultados em Grandes Amostras

Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado, pois muitas vezes é necessário avaliar a distribuição de funções de variáveis
aleatórias. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.

5
Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.
Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente
infinita, o estimador passa a ter apenas o valor do parâmetro na população.

Teorema Central do Limite: Somas de variáveis aleatórias independentes padronizadas


têm uma distribuição que se aproxima da Normal Padrão, à medida que a amostra
aumenta.
A distribuição da média da população tem distribuição Normal. Estimadores
lineares, como os coeficientes de MQO, têm distribuição Normal. A distribuição da
média tende a ser simétrica, com E (X ) =µx e V (X ) = σ2x/n.

Lembrando: Teste de Hipóteses:

ERRO TIPO 1: rejeito Ho e Ho é verdadeiro (alfa)


ERRO TIPO 2: aceito Ho e Ho é falso

Realidade \ Decisão Aceito Ho Rejeito Ho


Ho verdadeiro (1 – α) nível de confiança Erro do tipo I (α) (tamanho
do teste / nível de
significância)
Ho falso Erro do tipo II (β) (1 – β )(potência/poder do
teste)

Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso,


aumenta-se a segurança (vou me aproximar do alfa verdadeiro).

Variáveis Explicativas Binárias (Dummies)

Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).

Por exemplo, considere uma regressão rendimentos, com gênero (Masculino e


Feminino) como explicativa yi =α+β(gênero)i+εi . Há duas categorias e escolhemos
uma delas para a dummy (no caso, feminino). Cria-se uma variável Fi ={1 se
gênero=Fem; 0 se gênero=Masc.}. A regressão passa a ser yi =α+βFi+εi.

A questão mais importante é a interpretação dos coeficientes: lembrando, que sob as


hipótese do MCRL a reta de regressão é a média condicional, temos E(y|masc)= α (pois
neste caso, Fi=0) e E(y|fem)= α+β. Com isto, β=E(y|fem) –E(y|masc), ou seja a
diferença de médias entre a categoria analisada e aquela excluída na construção da(s)
dummy(ies).

No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das

6
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.

Por exemplo yi =α+β(gênero)i+γ(cor)i +εi, onde cor={Branco; Não-Branco}. Criando


Bi ={1 se cor=Branco; 0 se cor=Não-Branco}, temos a regressão múltipla:
yi =α+βFi+γBi +εi
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ .

e com isto, a interpretação dos coeficientes é


β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
β= E(y|Fem, Branco) – E(y|Masc, Branco)
e
γ= E(y|Masc, Branco) – E(y|Masc, NBranco)
γ= E(y|Fem, Branco) – E(y|Fem, NBranco)

Como há duas interpretações de β, pode-se concluir que gênero é independente de cor,


para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β=
E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem).

No caso de interação entre as dummies (não independência), temos o seguinte modelo


yi =α+βFi+γBi + δ FiBi+εi

onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .

As diferenças passam a ser


β= E(y|Fem, NBranco) – E(y|Masc, NBranco)
γ= E(y|Masc, Branco) – E(y|Masc, Branco)
e
δ= [E(y|Fem, Branco) – E(y|Masc, Branco) ] – [ E(y|Fem, NBranco)
– E(y|Masc, NBranco) ]

Interpretação dos coeficientes de regressão (quando estimadas por MQO)

Matematicamente, não há dúvidas na interpretação de βk no modelo de regressão yi = α


+ β1 x1i + .... + βk xki + εi, pois ∂y/∂xk=βk (efeito da mudança de xk sobre y, mantidos
os outros fatores x e ε constantes). Note que ∂ε/∂xk=0, ou seja, o erro não depende de xk.

7
Como é a interpretação nas estimativas, visto que as explicativas em geral são
correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a
exposição, desconsidere a constante)

Y = β1 X1 + β2X2 + ε

Como interpretar b2? Quando b2 é obtido através da fórmula de MQO na regressão


múltipla:
[b1 b2]´= b=(X´X)-1X´Y

Voltando às condições de primeira ordem X´e=0, ou X´(Xb – Y)=0 ou (X´X) b –


(X´Y)=0. Explicitando o conteúdo do vetor b, as duas condições para estimação podem
ser escritas como

(X1´X1) b1 + (X1´X2) b2 – (X1´Y)=0


(X2´X1) b1 + (X2´X2) b2 – (X2´Y)=0
ou
(A11) b1 + (A12) b2 – (X1´Y)=0
(A21) b1 + (A22) b2 – (X2´Y)=0

Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2´Y) e substituindo na


segunda equação
(A12)[ –A22-1A21b1 + A22-1(X2´Y)] + (A11) b1 – (X1´Y)=0
[(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2´Y)+ (X1´Y)]=0
[X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]´Y=0
[X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0
[X1´M2 X1]b1 – (X1´M2Y)=0
b1 =[X1´M2 X1] -1(X1´M2Y).

Mas o que é a matriz M? Tomemos o caso geral:


e=Y–Xb = Y – X(X´X)-1X`Y = (I – X(X´X)-1X`)Y, ou seja, e=MXY

Dois resultados: MM=M (idempotente) e M´=M (simétrica).

Com isto, podemos escrever


b1 =[X1´M2´M2 X1] -1(X1´M2´M2Y).
b2 =[(M2 X1)´(M2 X1)] -1[(M2 X1)´(M2Y)]

onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.

Para completar a compreensão, vejamos o caso oposto, ou seja, em um modelo de


regressão múltipla, qual o efeito de omitirmos uma variável explicativa relevante (que

8
faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será
omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos
quadrados b*1=(X1`X1)-1(X1´Y).

Seu valor esperado é


E[b*1]= E[(X1`X1)-1(X1´Y)= E[(X1`X1)-1X1´(X1β1 + X2β2 + ε)]
= β1 + (X1`X1)-1X1´ X2 β2 + E[(X1`X1)-1X1´ε] = β1 + (X2`X2)-1X2´X1 β1
= β1 + δ β2
onde δ é o coeficiente da regressão de X1 em X2 (a regressão reversa do item anterior),
isto é, X2= γ X1 + erro. Note que o estimador de b*1 neste caso é viesado, exceto no
caso de X1 e X2 serem independentes (pois assim δ=0).

Um modo de interpretar o resultado seria: Se a regressão é múltipla, e estimamos uma


regressão simples, a estimativa obtida é uma mistura do efeito direto e do efeito indireto
da variação de Xk de interesse. Usando o exemplo acima, definimos
E[b*1]= β1 + γ β2
Efeito direto Efeito indireto

Ou, por meio de uma figura,

X1
β1

Y
γ δ

β2
X2

Teste para Quebra Estrutural:

Amostra se divide em dois grupos, onde os grupos possuem modelos de regressão


diferentes:
yi = α1 + β1 Xi + εi i = 1, ..m
yi = α2 + β2 Xi + εi i = m + 1, ..n

Sob Ho: (não há quebra estrutural)


yi = α + β Xi + εi i = 1, ..m
yi = α + β Xi + εi i = m + 1, ..n
ou seja,
yi = α + β Xi + ei i = 1, ..n

9
Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou
Ho: α1 – α2 = 0 Ha: α1 – α2 = 0
ou
β 1 – β2 = 0 β1 – β2 ≠ 0

Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina
di = {0, se i = 1,..., m;
1, se i = m+1..,n}

Colocando no modelo:
yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi

Se a observação pertence à primeira parte dos dados, temos:


yi = γ0 + γ1 Xi + εi i = 1, ..m

Se a observação pertence à segunda parte dos dados, temos:


yi = (γ0 + γ2) + (γ1 + γ3)Xi + εi

Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:

F = (SQRr – (SQR1 + SQR2)) / (SQR1 + SQR2) . (n – 2(k +1))/ (k+1)

Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.

Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.

10

Anda mungkin juga menyukai