Do ponto de vista estatístico, quero que a média do y seja dada pelo modelo linear:
Em outras palavras:
(1) E [εi] = 0, média do erro é zero.
(2) E [Xi εi] = 0 , o erro é independente das explicativas xj . (para j= 1,...k).
(3) As variáveis explicativas X1,..,Xk não são combinações lineares entre si.
Todavia, apenas (0) e (3) são importantes para estimação por Mínimos Quadrados.
Já na estimação por Máxima Verossimilhança, (0)-(6) são importantes.
Obs: Pela hipótese dos erros serem independentes entre si, E(εi εj ) = 0 = Cov(εi εj ).
Já (ii) implica que, Σ ei xji = 0 para j = 1,...,k. Compare com a hipótese (2), que afirma
que x e ε são ortogonais. Se esta hipótese não é válida, os coeficientes βk não serão bem
estimados.
1
Resolvendo as condições de 1a ordem (escritas em notação matricial):
(i) X´ε = 0
(ii) X´ (Y – X b) = 0
Temos que:
A hipótese (3) é indispensável ao modelo. Desta forma não há como ter a matriz inversa
(X´X)-1. Se as explicativas são combinações lineares entre si, det(X´X) = 0, e, portanto,
não será possível calcular a inversa da matriz.
Método dos Momentos (MM): Note que podemos encontrar α e β se partimos de (1) e
(2), ajustados para uma amostra.
Avaliação da Regressão
2
Testes de Hipóteses
⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤ ⎡σ 2 0 . . 0⎤
⎢ ⎥ ⎢ ⎥
⎢ε 2 ε 1 ε 2 σ
2 2
⎥ ⎢ 0 ⎥
E [εε´] = E ⎢ . . ⎥ =⎢ . . ⎥ = σ2 I
⎢ ⎥ ⎢ ⎥
⎢ . . ⎥ ⎢ . . ⎥
⎢ε ε 2 ⎥
ε n ⎦ ⎢⎣ 0 2⎥
σ ⎦
⎣ n 1
3
Por fim, como o estimador de MQO (ou MM) é uma função linear de y, que é uma
função linear de ε, pela hipótese (6) e a propriedade da distribuição Normal,
b|X~N(β, σ2(X´X)-1)
Com isto, podemos ter o resultado a partir das propriedades (se Zj ~ N(0,1), para j =
1,..,p independente, Lembrando que Z12+ Z22 + ...+ Zp2 ~χ2p ),
2
(b –β)´[σ2(X´X)-1]-1(b –β)~χ p.
Para transformações lineares de b, através de uma matriz R,, isto é Rb=r podemos
escrever
2
(Rb-r)´[Rσ2(X´X)-1R´]-1(Rb-r)~χ p
Note que o posto de Rb é dado por p, se R tem tamanho p X (k+1). Para usar o resultado
empiricamente, necessitamos de uma estimativa de σ2, que é dada por s2 como definido
acima. Desta forma, pode-se escrever
Outra forma de escrever a expressão acima, explora a diferença entre SQR de dois
modelos, um restrito (onde a hipótese, ou condição Rb=r é imposta), SQRr, e um
irrestrito SQRi, em que o modelo é estimado livremente. O SQRi nada mais é do que a
soma dos quadrados dos resíduos empregado para calcular a variância dos erros.
a) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0
B
R
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 0 0 0 ] ⎢ β 2 ⎥ = β1 = r = 0
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
4
b) Rβ = r
B = [ A β1 β2 β3 β4 ]
Ho: β1 = 0 β2 = 0
B
R
⎡ A⎤
⎢ β 1⎥
⎡0 10 0 0 ⎤ ⎢ ⎥ ⎡0 ⎤
⎢0 ⎥ ⎢ β 2⎥ = ⎢ ⎥
⎣ 010 0 ⎦ ⎢ ⎥ ⎣0 ⎦
⎢ ⎥β 3
⎢⎣ β 4⎥⎦
c) Ho: β1 = β2 -> β1 – β2 = 0
⎡ A⎤
⎢ β 1⎥
⎢ ⎥
[ 0 1 -1 0 0] ⎢ β 2⎥ = [ 0 ]
⎢ ⎥
⎢ β 3⎥
⎢⎣ β 4⎥⎦
Teste de Hipóteses:
Ho: βj = 0
βj ≠ 0
T= bj –0 ~tn-(k+1)
(V(bj))1/2
2) Teste ANOVA
Ho: β1 = β2 = ... = βk = 0
Ha: pelo menos um diferente de zero
5
Ou
Muitas vezes não temos como avaliar as propriedades dos estimadores usando valor
esperado. Desta forma, o second best passa a ser avaliar as propriedades dos
estimadores em um condição ideal de uma amostra crescente (até o infinito). Para isto
emprega-se o conceito de convergência de estimadores e resultados estatísticos da
forma de Teorema Central do Limite.
V (X ) = (σ2x/n)1/2.
Lembrando:
Teste de Hipóteses:
6
Como aumentar o poder do teste: aumenta-se o tamanho da amostra e, com isso,
aumenta-se a segurança (vou me aproximar do alfa verdadeiro).
Quando há variáveis qualitativas como explicativas, não devemos incluí-las usando uma
escala numérica qualquer, pois variáveis qualitativas não são cardinais. Desta forma,
para uma variável qualitativa com D categorias deve ser incluída na regressão através de
D-1 variáveis binárias (dummy). Para evitar que a matriz X deixe de ser posto completo
usamos apenas D-1 variáveis explicativas (a chamada dummy trap).
No caso de mais de uma variável qualitativa, devem ser incluídas variáveis dummies
para cada uma, mantendo a regra de exclusão de uma das categorias de cada uma das
variáveis do grupo de dummies que é incluída na regressão. Em adição, deve-se
considerar a possibilidade de interação entre as dummies das diferentes variáveis
qualitativas. Esta possibilidade pode ser desconsiderada no caso de independência entre
as qualitativas.
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ .
7
Como há duas interpretações de β, pode-se concluir que gênero é independente de cor,
para que as duas expressões de β sejam válidas. Por exemplo, para o caso de gênero, β=
E(y|Masc, NBranco) – E(y|Fem, NBranco)= E(y|Masc) – E(y|Fem).
onde
E(y|Masc, NBranco)= α .
E(y|Fem, NBranco)= α +β.
E(y|Masc, Branco)= α +γ .
E(y|Fem, Branco)= α +β +γ + δ .
Y = β1 X1 + β2X2 + ε
ou
8
Resolvendo na primeira equação para b2= –A22-1A21b1 + A22-1(X2´Y) e substituindo na
segunda equação
(A12)[ –A22-1A21b1 + A22-1(X2´Y)] + (A11) b1 – (X1´Y)=0
[(A11) – A12A22-1A21]b1 – [– A12 A22-1(X2´Y)+ (X1´Y)]=0
[X1´X1 –(X1´X2) (X2´X2)-1 X2´X1]b1 – [X1 – (X1´X2) (X2´X2)-1X2]´Y=0
[X1´(I – X2(X2´X2)-1X2´)X1]b1 – X1´(I – X2(X2´X2)-1X2´)Y=0
[X1´M2 X1]b1 – (X1´M2Y)=0
b1 =[X1´M2 X1]-1(X1´M2Y).
onde M2X1= resíduos de uma regressão de X2 em X1, i.e., X1 = δX2 + erro e M2Y=
resíduos de uma regressão simples de Y em X2, i.e., Y = α2X2 + erro. Ou seja, como os
resíduos representam a informação (variabilidade) de X1 não contida em X2 (ou seja X1
“limpo” de qualquer possível relação linear com X2), o coeficiente b1 pode ser
interpretado como o efeito de X1 sobre Y, “limpo” de qualquer efeito direto e indireto de
X2 sobre Y e X1, respectivamente. Em outras palavras, b1 mede o efeito de X1 sobre Y,
mantidos fixos as outras variáveis incluídas na regressão. Note que, por suposição,
como X1 é independente do erro, as variáveis que compõe o erro são consideradas fixas,
em termos de média condicional também.
9
Ou, por meio de uma figura,
β1
X1
Y
γ δ
β2
X2
yi = α2 + β2 Xi + εi i = m + 1, ..n
Ho: α1 = α2 e β1 =β2
Ha: α1 ≠ α2 e β1 ≠ β2
Ou
Ho: α1 – α2 = 0 Ha: α1 – α2 = 0
ou
β1 – β2 = 0 β1 – β2 ≠ 0
Usando variáveis dummies iremos colocar as duas equações em uma só, combinando os
modelos. Defina
di = {0, se i = 1,..., m;
1, se i = m+1..,n}
Colocando no modelo:
10
yi = γ0 + γ1 Xi + εi i = 1, ..m
Ou seja, α2 = (γ0 + γ2) e γ = (γ1 + γ3). Isto implica que a hipótese nula pode ser reescrita
como Ho: γ2 = 0 e γ3=0 e testada através da estimação dos modelos restritos e irrestrito:
Onde SQR1 é a soma dos quadrados dos resíduos do primeiro modelo (i=1,..., m) e
SQR2 é a soma dos quadrados dos resíduos do segundo modelo (i=m+1,..., n). SQRr é a
soma dos quadrados dos resíduos do modelo restrito, onde há igualdade de coeficientes
entre grupos, e =1,..., n.
Obs: quando há poucas observações, pode ser que a conclusão de quebra estrutural seja
contraditório entre um modelo com “dummies de intercepto” e outro com dummies de
intercepto e inclinação. Isto é: Rodando o modelo, o coeficientes γ2 e γ3 não são
significativos, mas estimando um modelo apenas com γ2 ele é significativo e estimando
um modelo apenas com γ3 ele é significativo também.
11
Multicolinearidade
Com isto, passa a ser comum ter (pares) de coeficientes com estatísticas t pequenas, mas
com testes F conjuntos de exclusão rejeitados. Este é o sintoma de multicolinearidade.
Outro modo de identificar, seria através do cálculo do FIV(bk)=1/(1 – Rk2), o fator de
inflação da variância de um parâmetro bk e onde Rk2 é o coeficiente de determinação da
regressão de xk em x1, ..., xk-1. Se este for alto, é possível que o problema da
multicolinearidade esteja presente. Diz-se “possível”, pois um alto FIC não é condição
necessária nem suficiente para o problema de multicolinearidade, já que pode-se
demonstrar que V(bk)=σ2/(Skk(1–Rk2)), onde Skk= Σ(xki – mxk)2,
O que ocorre é que há duas variáveis explicativas com o mesmo conteúdo informacional
(variabilidade similar, i.e., altamente correlacionada). Com isto, o método de mínimos
quadrados não consegue distinguir entre os efeitos diretos e indiretos das variáveis.
Embora haja soluções ditas ad-hoc como o método de ridge regression e o uso de
análise fatorial, talvez o mais razoável seja pensarmos no problema e identificarmos
qual variável (dentre aquelas que tem, na prática, a mesma informação) é a mais
importante e/ou a mais representativa.
Heterocedasticidade
12
H0: γ1=...=γp=0. O teste supõe que f( ) acima é linear, que uma estimativa de σi2 pode
ser dada por ei2. Os testes diferem pela hipótese de z: alguns usam as variáveis x, outros
usam as variáveis x e seus quadrados.
com V(bGLS) = (X´Ω-1X)-1. bGLS pode ser calculado através de transformação das
explicativas e explicadas, tal que bGLS = (X*´X*) -1(X*´Y*), onde X* = PX Y* = PY e
onde P´P = Ω –1. Para o caso de heterocedasticidade, a sugestão é multiplicar cada
observação por (1/si), onde si2 é obtido a partir da estimação do teste de White/Breush-
Pagan, em um processo interativo. Todavia, é possível demonstrar que este método de
MQG factível gera estimativas viesadas, quando temos o caso usual de σi2
desconhecido. O melhor é a estimação por Máxima Verossimilhança, se sabemos a
distribuição dos erros e a forma da heterocedasticidade.
Autocorrelação
Autocorrelação: violação da hipótese: E [εt. εt-s] = 0, para s > 0, como por exemplo, εt
= ρ εt-1 + υt, onde υt é ruído branco). Neste caso E(εε´)=Ω,
Para entender o teste, vamos especificar uma forma de classificação dos erros
autorregressivos. Há o caso geral de
13
chamado de modelo autoregressivo de ordem p (AR(p)). A regressão é sem constante,
pois mantém-se a hipótese de que E[εt]=0).
Para o caso especial de p=1, εt = ρ εt-1 + erro, H0: não há autocorrelação, => Ho: ρ =
0.
O teste de DW tem uma tabela específica, e o teste é calculado por
(et − et −1 )2
∑ ~ 2(1 − pˆ )
T
DW =
∑t =1 et2
t =2 T
= (X´X)-1X´ΩX(X´X)-1, onde
⎡ ε 12 ε 1ε 2 . . ε 1ε n ⎤
⎢ ⎥
⎢ε 2 ε 1 ε 2
2
⎥
Ω = E [εε´] = E ⎢ . . ⎥
⎢ ⎥
⎢ . . ⎥
⎢ε ε 2 ⎥
εn ⎦
⎣ n 1
⎡ 1 ρ . . ρ T −1 ⎤
⎢ ⎥
⎢ ρ 1 ρ T −2 ⎥
2 2
Ω = σ u/(1- ρ ) ⎢ . . ⎥.
⎢ ⎥
⎢ . . ρ ⎥
⎢ ρ T −1 ρ T −2
ρ 1 ⎥⎦
⎣
14
V(bGLS) = (X´ Ω -1X)-1. Estas podem ser obtidas através de bGLS = (X*´X*) -1(X*´Y*), onde
X* = PX Y* = PY e onde P´P = Ω –1. Para o caso de autocorrelação de primeira
ordem (para regressão simples)
⎡ − − ⎤
⎢(1 − r ) x − rx ⎥ ⎡ − ⎤
⎢ 2 1 ⎥ ⎢ y − ry ⎥
⎢ (1 − r ) x − rx ⎥ ⎢ 2 1 ⎥
X* = ⎢ 3 2
⎥
*
Y = ⎢ . ⎥
⎢ . . ⎥ ⎢
.
⎥
⎢ . . ⎥ ⎢ ⎥
⎢ ⎥ ⎢⎣ yT − ryT +1 ⎥⎦
⎢⎣(1 − r ) xT − rxT −1 ⎥⎦
Yt – α – β Xt = ρ (Yt-1 – α – β Xt-1) + ut
O erro do modelo (**) é independente no tempo, i.e., não tem autocorrelação. Por isto,
pode ser estimado por MQO sem problemas.
Note que se β1 = −ρ β0, o modelo (**) pode ser escrito como (*). O modelo (**) é
chamado ADL(1,1) – Autoregressive Distributed Lag de ordem 1 e 1.
limT->∞ ∂ E [Yt| . ]/∂Xt = (β0 + β1)/(1 − ρ) (longo prazo), onde |ρ| < 1
15
Yt = α + ρ1 Yt-1 + ... + ρp Yt-p + β1 Xt + … + βq Xt-q + ut
16
MODELOS ARIMA:
A idéia é que
No AR(p) a memória é mais longa, no sentido de que Yt-1 não resume perfeitamente a
trajetória de Yt.
Substituindo,
Yt = α + β [α + β Yt-2 + εt-1] + εt
= α + β α + β 2 Yt-2 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1
= α + β α + β 2 α + β 3 Yt-3 + εt + β εt-1+ β 2 εt-2
. .
. .
= α Σj=0t pj + β t Yo
Pois Σj=0t pj = 1/ (1 - β)
17
Vejamos agora a variância:
= Σj=0t p2jσ2e
Se β = 1, V [Yt] = σ2et
= β σ e2 / 1 – β 2 = β V[Y]
Generalizando:
Assim,
Yt = Yt-1 + εt
Vem da integração, em que a variável Y tem de ser trabalhada pela soma de Yt e Yt-1.
18
Este é um ARIMA (p, 1, q)
Yt = ρ Yt-1 + εt
Ho: ρ = 1 Ηo: α = 0
−>
Ha: ρ < 1 Ηa: α < 0
Raiz Unitária:
ρ
ΔYt = a Yt-1 + Σj =1βj ΔYt-j + εt
Modelos Dinâmicos:
Yt = α + ρ Yt-1 + β1 Xt + β0 Xt-1 + ut
19
ΔYt = α + β0 Δ Xt – (1 - ρ)εt-1 + εt
-----------------------------------------
Cointegração:
-> Para testar cointegração, fazemos um teste tipo ADF nos resíduos do modelo estático
(teste Engle-Granger).
Yt = α + β Xt + εt
εt = ρ εt-1 + ut
VAR:
Yt – β Xt = εt (Estatística)
Yt = β Xt - εt (Economia)
X e ε independentes (Econometria)
Se X e ε não são independentes, não podemos usar MQO (ou MQG) para estimar β.
20
Hipótese alternativa para séries de tempo:
Xt-p e εt independentes (p>0)
Yt-p e εt independentes
⎡ Yt ⎤ ⎡α 1 ⎤ ⎡ β 11 β 12 ⎤ ⎡ Yt −1 ⎤ ⎡ ε 1t ⎤
⎢ X ⎥ = ⎢α ⎥ + ⎢ β +
β 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣ε 2t ⎥⎦
VAR(1)
⎣ t ⎦ ⎣ 2 ⎦ ⎣ 21
Xt = α2 + β21 (β Xt-1 + εt) + ε2t (verifica-se correlação entre consumo e renda, mas isto
quer dizer que consumo “causa” renda?)
⎡ 1 − γ 01 ⎤ ⎡ Yt ⎤ ⎡ a 1 ⎤ ⎡γ 11 γ 12 ⎤ ⎡ Yt −1 ⎤ ⎡ v1t ⎤
⎢− γ = + +
⎣ 02 1 ⎥⎦ ⎢⎣ X t ⎥⎦ ⎢⎣a 2 ⎥⎦ ⎢⎣γ 21 γ 22 ⎥⎦ ⎢⎣ X t −1 ⎥⎦ ⎢⎣v 2t ⎥⎦
G0 Zt = A + G1 Zt-1 + Vt
Zt = α + β Zt-1 + εt
--------------------------------------------------------------------------------
21
Ho: renda não causa consumo
22