PARTE I
Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:
Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é não correlacionado com as explicativas xj (j= 1,...k).
Obs1: Pela hipótese dos erros serem independentes entre si e terem média zero,
E(εi εj ) = 0 = Cov(εi εj ).
Obs2: Uma hipótese mais forte do que (2) é afirmar que Xj e ε são independentes.
**
OBS: Notas de aulas para o curso de Econometria I – MFEE 2011.
Estas notas de aula servem para orientação do estudo apenas. Este material não substitui a
presença em sala de aula nem reproduz todo o conteúdo do curso. As obras de referência para o
material aqui apresentado estão citadas no programa do curso. Material sujeito a revisão.
1
Note que (i) implica que Σ ei = 0.
Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.
Temos que:
X´Y – X´X b = 0 -> b = (X´X)-1 X´Y
A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.
Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.
E[εi] = 0 -> n-1Σei = 0
E [Xi εi] = 0 -> n-1Σ[Xi ei] = 0
Avaliação da Regressão
2
Testes de Hipóteses
3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,
b|X~N(β, σ2(X´X)-1)
Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.
Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p
Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever
Outra forma de escrever a expressão acima explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.
a) Rβ = r e β = [ α β 1 β2 β 3 β 4 ]
Ho: β1 = 0
β
R
α
β
1
[ 0 1 0 0 0 ] β 2 = β1 = r = 0
β 3
β 4
b) Rβ = r e β = [ α β 1 β2 β 3 β 4 ]
Ho: β1 = 0 β2 = 0
4
α
β
10 0 0
1
0 0
0 β 2 =
010 0 0
β 3
β 4
c) Ho: β1 = β2 -> β1 – β2 = 0
α
β
1
[ 0 1 -1 0 0] β 2 = [ 0 ]
β 3
β 4
2) Teste ANOVA: a mesma forma Rβ acima pode ser escrita como a seguir.
Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero
F= (SQRr – SQRi)/p ~ Fp, n-k-1
SQRi /(n-k-1)
onde SQRr é baseado em um modelo restrito (sob H0), que neste caso é yi = α + εi, e
SQRi é baseado em um modelo irrestrito (sem imposição de hipótese alguma).
Ou
F= (R2)/p ~ Fp, n-k-1
(1-R2) /(n-k-1)
Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado, pois muitas vezes é necessário avaliar a distribuição de funções de variáveis
aleatórias. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.
5
Convergência de estimadores: a medida que aumenta n, variância de um estimador cai.
Isso implica queda da margem de erro do estimador e em uma amostra hipoteticamente
infinita, o estimador passa a ter apenas o valor do parâmetro na população.
Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).
No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das
6
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .
7
Como é a interpretação nas estimativas, visto que as explicativas em geral são
correlacionadas? Considere uma regressão múltipla com k=2 (para simplificar a
exposição, desconsidere a constante)
Y = β1 X1 + β2X2 + ε
onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.
8
faz parte do modelo. De modo simétrico, vamos considerar que a variável X2 será
omitida. O modelo passa a ser Y = β1X1 + erro e com isto o estimador de mínimos
quadrados b*1=(X1`X1)-1(X1´Y).
X1
β1
Y
γ δ
β2
X2
9
Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou
Ho: α1 – α2 = 0 Ha: α1 – α2 = 0
ou
β 1 – β2 = 0 β1 – β2 ≠ 0
Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina
di = {0, se i = 1,..., m;
1, se i = m+1..,n}
Colocando no modelo:
yi = γ0 + γ1 Xi + γ2di + γ3(di Xi) + εi
Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:
Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.
Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.
10