yi = b0 + b1xi + ui
Objetivo
Queremos determinar como x explica y
Problemas:
- La relacin entre x e y no es perfecta,
Solucin: y = b 0 + b 1x + u
2
Relacin funcional
Si los dems factores contenidos en u se
mantienen fijos Du=0, entonces x tiene un efecto
lineal sobre y.
4
Anlisis ceteris paribus
b1: mide el efecto de x sobre y, con todos los dems
factores (en u) fijos.
Pero en qu sentido podemos mantener los
otros factores para llegar a tales conclusiones?
Slo se pueden obtener estimaciones fiables de los
parmetros 0 y 1 a partir del muestreo aleatorio
cuando establecemos supuestos que restringen el
modelo en que el error no observable u se relaciona
con la variable explicativa x.
Como x y u son VAs necesitamos un concepto
basado en su distribucin de probabilidad
5
Algunos supuestos
Siempre que incluyamos el trmino constante
en la ecuacin podemos suponer que:
E(u) = 0
Es simplemente una normalizacin: el efecto
medio de los otros factores se renormaliza a
cero.
6
Relacin entre x y u
7
Relacin entre x y u
E(u|x) = E(u) = 0
8
Ejemplos de relacin entre x y u
Si suponemos que u es igual a la habilidad
innata: El nivel medio de habilidad tiene que ser
el mismo independientemente del nmero de
aos de formacin:
E(habil|x=8) = E(habil|x=16)
Si pensamos que el nivel de habilidad debe
aumentar con los aos de educacin, el
supuesto entonces debe ser falso.
No podemos comprobarlo porque el nivel de
habilidad innata no se puede observar: pero es
una pregunta que hay que plantearse para
interpretar el modelo. 9
Ejemplos de relacin entre x y u
nota = b0 + b1asistencia + u
La nota depende de las clases a las que se ha
asistido, y de otros factores no observables, u,
Como: capacidad del estudiante que acude al
examen.
Cundo podremos esperar que el modelo
satisfaga:
E(u|x) = E(u) = 0
Cuando la capacidad del estudiante, la motivacin, la edad, y otras
variables contenidas en u, no estn relacionadas con la asistencia.
10
Relacin entre x y u
Si las cantidades de fertilizantes se establecen
independientemente de otras caractersticas de
las parcelas, entonces
E(u|x)=0
Si aplicamos mayores cantidades de fertilizante
en aquellas tierras de mayor calidad, entonces
el valor esperado de u cambia con el nivel de
fertilizante, y E(u|x) 0.
11
Relacin entre x y u
E(y/x) = b0 + b1x
12
Relacin entre x y u
y= E(y/x) + u
y= b0 + b1x + u
13
E(y|x) es una funcion lineal de x: para cada x,
la prediccin de y es E(y|x)
y
f(y)
. E(y|x) = b + b x
0 1
.
x1 x2
14
Supuestos detrs del mtodo MCO
1) El modelo es lineal en los parmetros
E (ui / X i ) = 0
15
Supuestos detrs del mtodo MCO
5) Los errores no estn autocorrelacionados
corr (ui , u j / X i , X j ) = 0
6) La covarianza entre el error y la variable independiente es = 0
corr (ui , X i ) = 0
16
Estimacin de parmetros b0 ,b1
Mtodo de momentos
Mtodo de mnimos cuadrados ordinaries
Mtodo de mxima verosimilitud
y E(y|x) = b0 + b1x
y4 .{
u4
y3 .} u3
y2 u2 {.
y1 .} u1
x1 x2 x3 x4 x
18
MCO / OLS
x x y
i i y
cov(x, y )
b1 = i =1
n
=
x x
2 var( x)
i
i =1
b0 = y b1 x
20
El estimador MCO de b1
b1, es la covarianza muestral entre x y y, dividida
entre la varianza muestral de x.
Si x y y estn correlacionados positivamente, b1
ser positivo (pues la varianza del denominador
siempre es positiva).
Si x y y estn correlacionados negativamente, b1
ser negativo.
Si x y y no tienen correlacin alguna, b1 no ser
estadsticamente distinto de cero (volveremos a
esto ms tarde).
Obviamente, requerimos que x tenga cierta varianza
en la muestra.
21
Lnea de regresin muestral, observaciones, y
residuales estimados
y
y4 .
4 {
y = b0 b1 x
y3 .} 3
y2 { .
2
y1
}
. 1
x1 x2 x3 x4 x
22
Propiedades algebraicas de MCO / OLS
23
Propiedades algebraicas
(matemticamente)
n
n u i
ui = 0 por tanto,
i =1
i =1
n
=0
n
x u
i =1
i i = 0 por tanto, cov(x,u) = 0
y = b0 b1 x
24
Suma de cuadrados: Terminologa
Podemos separar cada observacin en un componente
explicado (sistemti co) y un componente no explicado :
yi = y i ui De modo que podemos definir lo siguiente :
iy y 2
es la Suma Total de cuadrados : STC o SST
yi y es la Suma Explicada de cuadrados : SEC o SSE
2
25
Funcin de Regresin Muestral FRM
FRP
FRM
Demostracin: STC = SEC + SRC
STC = yi y = yi y i y i y
2 2
= ui y i y
2
= u 2 ui y i y y i y
2 2
i
= SRC 2 ui y i y SEC
y como sabemos que ui y i y = 0
= SRC SEC
27
Algunas igualdades tiles
2
S xy
SRC = Syy
Sxx
2
S xy
SEC =
Sxx
STC = Syy
28
Bondad de ajuste: R 2
29
Propiedades estadsticas de los estimadores
Bajo los supuestos establecidos los MCO cumplen
con el Teorema de Gauss-Markov. Son estimadores
MELI (BLUE)
30
Linealidad
b j estimadores lineales
Para b1:
S xy Si :
b1 = , donde
S xx
xi x
n
S xy = xi x yi y
ai =
i =1
Sxx
n Entonces :
S xy = xi x yi
n
b1 = ai yi
i =1
y,
S xx xi x i =1
2
31
Insesgamiento
E (b j ) = b j
Para b1:
xi x yi xi x
E ( b1 ) = E (ai yi ) = E = E ( yi )
Sxx Sxx
xi x
E ( b1 ) = E ( b 0 b1 xi ui )
Sxx
xi x xi x ( xi ) xi x
E ( b1 ) = b 0 b1 E (ui )
Sxx Sxx Sxx
xi x ( xi )
E ( b1 ) = b1
= b1
Sxx
32
Insesgamiento: resumen
33
Varianza de los estimadores
34
Homoscedasticidad
y
f(y|x)
. E(y|x) = b + b x
0 1
.
x1 x2
35
Heteroscedasticidad
f(y|x)
.
. E(y|x) = b0 + b1x
.
x1 x2 x3 x
36
Varianza de MCO (cont.)
Para b1:
Var b1 = Varai yi = ai2Var( yi )
2
n
n
( xi x ) i
( x x ) 2
Var b1 = i
Sxx
Var( y ) =
i
i
2
S xx
Var( yi )
Var b1
Sxx
= 2 2
S xx
Var b1 =
2
Sxx
37
Varianza de MCO: resumen
38
Estimacin de la varianza del error
ui = yi b0 b1 xi
Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
39
Estimacin de la varianza del error
ui = yi b0 b1 xi , y sustituyen do para yi
= b b x u b b x
0 1 i i 0 1 i
= ui b0 b 0 b1 b1 xi
por insesgamie nto, ambos parntesis se eliminan.. .
de modo que un estimador insesgado de 2 es :
(ui u )
i
2
u 2
SRC
=
2
= =
n 2 n 2 n 2
40
Estimacin de la varianza del error
= = error estndar de la regresin
2
se b1 =
x x
i
2
1
2
41
II. Inferencia
Bajo los supuestos establecidos,
b j ~ Normal b j , Var b j , de tal modo que :
b bj ~ Normal0,1
j
sd b j
42
The t Test
Bajo los supuestos establecidos,
b b
j j
~ t n2
se b j
Los parmetros siguen una distribucin t (y no una
normal) debido a que utilizamos el estimador de
sigma.
43
The t Test (cont)
44
The t Test (cont)
b j
t b
j
se b j
45
The t Test (cont)
46
The t Test (cont)
yi = b0 + b1xi + ui
No rechazo
Rechazo
1 a a
0 c
48
Una cola vs Dos colas
Como la distribucin t es simtrica, es sencillo
realizar el test H1: bj < 0. El valor crtico es
justo el negativo de lo obtenido antes.
Podemos rechazar la hiptesis nula si el
estadstico t < c, y si el estadstico t > c
entonces no podemos rechazar la hiptesis
nula.
Para un test de dos colas, debemos encontrar
el valor crtico basados en un nivel de
significancia a/2 y rechazamos H0: bj = 0 si el
valor absoluto del estadstico t > c
49
Dos colas
yi = b0 + b1Xi+ ui
H0: bj = 0 H1: bj 0
No rechazo
Rechazo Rechazo
a/2 1 a a/2
-c 0 c
50
Resmen H0: bj = 0
51
Otras hiptesis
b aj
t=
j
, donde
se bj
52
Intervalos de confianza
Otra forma de utilizar test estadsticos clsicos
es construir un interval de confianza usando el
mismo valor crtico que fue utilizado en el test de
dos colas
Un intervalo de confianza al (1 - a) % es
definido como:
a
b j c se b j , donde c es el 1 - percentil
2
en una distribuci n t n 2
53
Calculando p-valores para t tests
54
Programas y p-valores, t tests, etc.
H0: bj = 0
55
Econometra I
Regresin Mltiple
En la mayora de las relaciones econmicas intervienen ms de dos
variables. Los factores que afectan al fenmeno econmico objeto de
estudio suelen ser mltiples.
Hay que recodar que todos los factores no incorporados al modelo estn
contenidos en el trmino inobservable (la parte no explicada) del
modelo.
En la medida de que X1, no sea independiente de X2,, Xk entonces en
el modelo de regresin simple no se verificar que:
E(u|x1) = 0
Entonces debemos incorporar los efectos adicionales de los dems
factores X2,, Xk para poder aislar el efecto causal de la variable X1.
Y= salario
X1 =educacin
Pero el entorno familiar tambin afecta al rendimiento escolar, que a su vez esta
correlacionado con la renta media de las familias avginc. Adems el gasto en
educacin tiende a crecer con el ingreso de las familias avginc.
avgscore = b0 + b1expend + u
Qu problemas pueden existir?
Supuestos del modelo de
regresin mltiple
1. Lineal en los parmetros
4. Homocedasticidad
Var (u|x1, x2,., xk) = 2
Y = Xb U
Y las hiptesis:
E (U ) = 0 Var(U ) = 2 I Matriz identidad
66
E (u1 )
E (u )
2
.
i, E (ui ) = 0 E (U ) = 0 E (U ) =
.
.
E (u n
)
i,Var(ui ) = 2
Var(U ) = 2 I
i, jCov(ui ; u j ) = 0
u1
u
Var(ui ) = E (uu) = 2 * u u ........ u
.. 1 2 n
.
u n
67
E (u 12 ) E (u1 ; u 2 ) E (u1 ; u n ) Var(u1 ) Cov(u1 ; u2 ) Cov(u1 ; un )
2 Cov(u ; u )
E (u 2 ; u1 ) E (u 2
) E (u 2 ; u )
n 2 1 Var(u 2 ) Cov (u 2 ; u )
n
E (u n ; u1 ) E (un ; u2 ) E (u 2
) Cov(un ; u1 ) Cov(un ; u2 ) Var(u2 )
n
Covarianza = 0
2 0 0
0
2
0
0 0 2
Varianza constante = Homocedasticidad
68
Por lo tanto:
ui N (0; I )
2
69
ESTIMACIN DE PARMETROS - MCO
= SRC(b1, bj)
b1
= SRC(b1, bj)
bj
n
= 2 ( yi b1 b2 xi 2 ........ bk xik )
b1 i =1
n
= 2 ( yi b1 b2 xi 2 ........ bk xik )( xij ); j = 2,3,4...., k
bj i =1
70
ESTIMACIN DE PARMETROS - MCO
X1 j
n
X1 j X1 j
n
X1 j X 2 j
n
X1 j X 3 j Y X
j =1
j 1j
X X = j =1 j =1 j =1 j =1 X Y = n
Y X
n n n n
X
j =1
2j X
j =1
2j X1 j X
j =1
2j X2j X
j =1
2j X3j
j =1
j 2j
n n n n n
X
j =1
3j X
j =1
3j X1 j X
j =1
3j X2j X
j =1
3j X3j Y X j 3j
j =1
71
DISTRIBUCIN DE b
El vector de observaciones Y se distribuye como una normal multivariante de
media Xb y de matriz de varianzas y covarianzas 2 I.
72
INCLUSION DE VARIABLES IRRELEVANTES
Supongamos el modelo:
y = b 0 + b 1x 1 + b 2x 2 + b 3 x 3 + u
Sin embargo X3 no tiene efecto en y, lo que significa que b3 = 0. En trminos de
esperanza condicional, tenemos que:
73
Formas funcionales
Variacin % en Y
=
Variacin % en X
2. Elasticidad
Yt = Yo (1 r )t
LnYt = b 0 b1t
Multicolinealidad
4.1 Teora
4.2 Anlisis y correccin
4.3 Ejercicios
4.1 Teora
Qu es multicolinealidad?
Problema derivado de la relacin existente
entre los regresores.
Esto implica que no existe independencia entre
las variables explicativas y en el caso extremo
de dependencia lineal exacta se hace imposible
la estimacin MCO del modelo
Por qu no podemos estimar los parmetros
del modelo?
Porque la matriz XX es singular y por lo tanto no
invertible porque su determinante es nulo.
4.1 Teora
Solucin
Estimamos el modelo planteado
Detectamos multicolinealidad
Significacin global e individual de los regresores
Significacin global
Prueba F: el modelo en su conjunto es significativo
Coeficiente de determinacin: 0.99
Significacin individual
Cons: no significativa, p-value cae dentro de la regin de
aceptacin de la Ho
Gper: no significativa, p-value cae dentro de la regin de
aceptacin de la Ho
Gex: significativa
Cuando esto ocurre se sospecha de la presencia de
multicolinealidad
Anlisis de la matriz de correlaciones de los regresores
Si los regresores son ortogonales, el determinante de la matriz
de correlaciones RXX sera 1
4.2 Anlisis y Correccin de la Multicolinealidad
=-(17-1-(1/6)*((2*4)+5))*log(0.000033924) =142.364198
P-value: 0.0000000
Se rechaza la Ho, no existe ortogonalidad de los regresores
(hay presencia de multicolinealidad)
4.2 Anlisis y Correccin de la Multicolinealidad
1 bi2
= 2
1 R j bort
2
Donde:
R2j: representa el coeficiente de determinacin de las regresiones
auxiliares anteriormente especificadas
2bi: varianza del coeficiente bi en el supuesto de colinealidad
2bortogonal: varianza del coeficiente bi en el supuesto de ausencia de
colinealidad
4.2 Anlisis y Correccin de la Multicolinealidad
Regresiones auxiliares
1.- Cons C Gper Gex
=1/(1-0.996352) = 274.122
2.- Gper C Cons Gex
=1/(1-0.992389) = 131.3887
3.- Gex C Cons Gper
=1/(1-0.998229) = 564.6527
Los factores multiplicativos alcanzan valores elevados en los tres
casos, por lo que se puede considerar que la varianza de los
coeficientes del modelo original se encuentra muy inflada, por lo que se
toman como no significativos regresores que s podran serlo.
Usando la medida de Klein:
R2cons: 0.996352
R2gper: 0.992389
R2gex: 0.998229
Podemos concluir que aunque los R2i son menores que el del modelo original son
muy prximos al mismo, por lo que aunque no a un nivel preocupante s existe
colinealidad entre los regresores del modelo.
4.2 Anlisis y Correccin de la Multicolinealidad
Medida de Theil
Denominado como contribucin marginal o incremental
Mide el efecto de contribucin del regresor h, en el coeficiente
de determinacin R2, por lo que es considerado como una de
las medidas de la aportacin del regresor en la explicacin del
regresando
k
m = R (R 2 R 2h )
2
h =1
Correccin de colinealidad
Correccin de colinealidad
5.1 Teora
5.2 Anlisis y correccin
5.3 Ejercicios
5.1 Teora
Qu es la heteroscedasticidad?
La violacin del supuesto que sostiene que las
perturbaciones aleatorias tienen varianza constantes y no
estn correlacionados entre s.
Este problema afecta la eficiencia del estimador porque
ya no es de mnima varianza. Sigue siendo insesgado
pero ya no es eficiente.
Si uso MCO estara estimando incorrectamente la matriz
de varianzas covarianzas de los estimadores y afectando
los tests y contrastes de hiptesis.
Para solucionar esto debo encontrar otro estimador con el
conocimiento de que la varianza de la perturbacin
aleatoria no es constante.
5.1 Teora
Correccin de Heteroscedasticidad
Corregir la heteroscedasticidad utilizando la matriz de
transformacin de Aitken. El problema es que es necesario
conocer la forma de esa matriz de transformacin y esto no
siempre es posible. Este mtodo es equivalente al de MCG con
la matriz desconocida
Al aplicar MCO los estimadores son insesgados pero la matriz
de var-covar est mal calculada por lo que los contrastes de
hiptesis quedan invalidados. Puesto que los estimadores
siguen siendo insesgados se podr corregir la
heteroscedasticidad si se trabaja con una matriz var-covar
distinta Cul?
Matriz de varianzas covarianzas consistente de White. En
este caso los procesos de inferencia estadstica s son
asintticamente vlidos.
Contrastes de Heteroscedasticidad
Contraste de Breusch Pagan
Contraste de Golfeld-Quandt
Contraste de White
5.1 Deteccin y Correccin de
Heteroscedasticidad
Solucin
En el anlisis de heteroscedasticidad es
necesario estimar el modelo por MCO y
obtener una serie de residuos mnimos
cuadrticos que se utilizarn para la
realizacin de algunos contrastes de
heteroscedasticidad.
Estime el modelo PIB C EMPLEO y guarde la
ecuacin resultante
5.2 Deteccin y Correccin de Heteroscedasticidad
10000000
8000000
6000000
PIB
4000000
2000000
0
0 500 1000 1500 2000 2500
EMPLEO
2000000
2.0E+12
1000000
1.5E+12
0
R
R2
1.0E+12
-1000000
5.0E+11
-2000000
0.0E+00
0 500 1000 1500 2000 2500
0 1000000
2 000000
3 000000
4 000000
5 000000
EMPLEO
EMPLEO2
2 1 n 2
MV = ei
n i =1
5.2 Deteccin y Correccin de Heteroscedasticidad
ei2
gi =
2
MV
Se realiza una regresin auxiliar de los cuadrados de los residuos
normalizados sobre las variables zi y se obtiene la suma de cuadrados
en dicha regresin
Forma del contraste:
Ho: Homoscedasticidad
Ha: Heteroscedasticidad
exp=SCE/2
tco= p-1
P es el nmero de regresores de la regresin auxiliar de los
cuadrados de los residuos normalizados sobre las variables zi
5.2 Deteccin y Correccin de Heteroscedasticidad
Contraste de White
Fases para la realizacin del contraste
Se estima el modelo original por MCO y se obtiene el vector de
residuos
Se realiza una regresin auxiliar del cuadrado de los residuos
de la regresin anterior sobre una constante, los regresores del
modelo original, sus cuadrados y sus productos cruzados de
segundo orden. De esta regresin se obtiene el valor del
coeficiente de determinacin
Forma del contraste:
Ho: Homoscedasticidad
Ha: Heteroscedasticidad
exp=n.R2
tco= 2p-1
Donde p es el nmero de regresores de la regresin
auxiliar estimada
Este procedimiento es automatizado en e-
views
5.2 Deteccin y Correccin de Heteroscedasticidad
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Sample: 1 18 No se
Included observations: 18 rechaza
la HO
Variable Coefficient Std. Error t-Statistic Prob.
C -3.03E+11 2.39E+11 -1.266662 0.2246
EMPLEO 1.44E+09 6.56E+08 2.195207 0.0443
EMPLEO^2 -512657.3 302565.4 -1.694368 0.1109
Contraste de Glesjer
Este contraste trata de estimar la verdadera estructura de heteroscedasticidad
considerando que la varianza de la perturbacin es una funcin lineal de
alguno de los regresores o de sus potencias.
Fases para la realizacin del contraste
Se estima el modelo MCO y se obtiene la serie correspondiente de residuos
Se obtiene una regresin del valor absoluto de los residuos (o de los residuos al
cuadrado) sobre una potencia de la variable zi variable supuestamente causante de la
heteroscedasticidad
2i = d0 + d1zh1+ mi
|i|= d0 + d1zh1+ mi
Donde h toma habitualmente los valores de 1,-1,1/2,-1/2,2,-2..
Se elige aquel valor h que proporcione una mejor regresin
(coeficientes significativos y menor suma de cuadrados de
residuos). Esto equivale a revisar en la regresin anterior:
Ho = d0 =0
Si no se rechaza esta hiptesis entonces se considera que no
existe heteroscedasticidad. Si se rechaza la Ho, existe
heteroscedasticidad y se conoce su forma:
2ui = 2zh1
5.2 Deteccin y Correccin de Heteroscedasticidad
Contraste de Glesjer
Este contraste necesita conocer cul es la variable que origina
heteroscedasticidad.
Generamos los regresores y corremos las regresiones
h=1 abs(R) c empleo
h=-1 abs(R) c 1/empleo
h=1/2 abs(R) c sqr(empleo)
h=-1/2 abs(R) c 1/sqr(empleo)
h=2 abs(R) c empleo^2
En cada caso de regresin hay que realizar un contraste de
significacin individual de los coeficientes asociados a las
variables. Se puede observar que en las regresiones primera y
tercera los estadsticos de prueba se sitan en la regin de
rechazo por lo que las correspondientes variables explican el
comportamiento de los residuos. Es decir la varianza de las
perturbaciones no permanece constante a lo largo de toda la
muestra.
5.2 Deteccin y Correccin de Heteroscedasticidad
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares No se puede
Sample: 1 18 rechazar Ho
Included observations: 18
Weighted Statistics
R-squared 0.946682 Mean dependent var 2218625.
Adjusted R-squared 0.943350 S.D. dependent var 1693343.
S.E. of regression 403036.6 Akaike info criterion 28.75588
Sum squared resid 2.60E+12 Schwarz criterion 28.85481
Log likelihood -256.8029 F-statistic 485.0958
Durbin-Watson stat 2.473158 Prob(F-statistic) 0.000000
Unweighted Statistics
R-squared 0.964063 Mean dependent var 2800764.
Adjusted R-squared 0.961817 S.D. dependent var 2744155.
S.E. of regression 536219.6 Sum squared resid 4.60E+12
Durbin-Watson stat 2.607590
Se observa que se obtienen las mismas estimaciones que con la matriz transformada de
Aitken. Lo que no se puede hacer es emplear el criterio de White para medir la
heteroscedasticidad