Anda di halaman 1dari 73

ECO440 Econometría Aplicada

Prof. Rolando de la Cruz


Información importante
o Email: rolando.delacruz@uai.cl

o Oficina: 324-D

o Clases: M 11:30 a 12:40 y 13:00 a 14:10 hrs.

o Horario consultas: M 10:00 a 11:10 hrs.


Contenidos
1. Modelo de Regresión Lineal Clásico
2. Modelos de Regresión en Alta Dimensión
3. Mínimos Cuadrados Generalizados
4. Ecuaciones Simultáneas y Endogeneidad
5. Modelos de Variable Dependiente Discreta:
Probit y Logit
Evaluación
La nota final de la asignatura se calcula según la
fórmula siguiente:
Nota Final=0,35TA+0,25EX+0,20CL+0,20T
donde
TA: Trabajo aplicado grupal
EX: Examen final
CL: Promedio Controles de lectura y Pruebas
T: Promedio de tareas grupales
Libros Guías
• Wooldridge, J.M. (2007). Introducción a la
econometría: un enfoque moderno, Editorial
Thomson-Paraninfo.
• James, G., WiFen, D., HasIe, T., and
Tibshirani, R. (2013). An introducIon to
staIsIcal learning: with applicaIons in R.
Springer.
¿ Qué es la Econometría ?
q Disciplina que se ocupa del análisis cuan0ta0vo de
fenómenos económicos: Teoría Económica, Economía
Matemá0ca y el Modelado Estadís0co de datos

q Rol de la econometría : Proporcionar métodos para


estudiar y medir las relaciones de las variables
económicas (teoría v/s la realidad)

q Econometría Aplicada trata sobre la aplicación de


métodos estadís0cos a la es0mación de relaciones
económicas.
Modelo Económico vs
Modelo Econométrico
Modelo Económico: Es una simplificación de la
realidad que trata de captar los aspectos más
relevantes de una relación o fenómeno
económico en términos globales.
Los parámetros de los modelos son
desconocidos. No se realizan mediciones
precisas, ni se a?ende a individualidades.
El obje?vo es prevenir disfunciones en la
economía o en la ac?vidad empresarial.
Fuente: Slides 5 a 8:
ftp://ftp.unavarra.es/pub/estadistica/LADE/ECONOMETRIA09/GRUPO_TARDE/TEMA_1/TEMA1.pdf
Modelo Económico vs
Modelo Econométrico
Ejemplos:
• Teoría de la demanda: Qdemandada=f(PA, PB, G)
• Teoría del consumo de Keynes: Consumo=f(R)
• Función de producción: Producción=f(K,L,T)
• Teoría del desempleo de Philips: Inflación=f(paro)
• Teorías del crecimiento económico: Salario=f(interés)
• Modelos de financiación de la empresa:
Costocapital=f(recursos ajenos, rec.propios)
• Teoría de costos: Costo de distribución=f(costo
facturación, costos fijos de stock, costos
variables,...etc.)
Modelo Económico vs
Modelo Econométrico
Modelo Econométrico: Es un modelo económico al que se le incorpora
una variable aleatoria denominada perturbación, ruido o error.
Los parámetros de los modelos econométricos son desconocidos. Se
realizan es<maciones lo más precisas posible u<lizando
procedimientos de inferencia estadís<ca.
La perturbación o error se define como una variable no observable que
recoge lo que se aleja el individuo del comportamiento medio.
Nos interesa que la perturbación tenga un buen comportamiento (por
ej: media nula, varianza mínima, distribución de probabilidad
conocida).

Ejemplos:
Los mismos que los de la slide anterior pero añadiendo una
perturbación aleatoria.
• Teoría de la demanda: Qdemandada=f(PA, PB, G)+u
Modelo Económico vs
Modelo Econométrico
Regresión Lineal Simple
Yi = b0 + b1Xi + ui
Contenido
• Introducción
• Medidas de dependencia lineal
• Estimación por mínimos cuadrados ordinarios
• Propiedades de los estimadores MCO
• Teorema de Gauss-Markov
• Inferencias sobre el modelo de regresión
• Bondad de ajuste: R2
• Tabla ANOVA
• Análisis de Residuos
Introducción
Supongamos que la variable Y es una función lineal de una variable X
cuya relación depende de parámetros β0 y β1 desconocidos.

Y= b0 + b1X

β0

x1 x2 x3 x4 X
Supongamos que tenemos una muestra de 4 observaciones (X,Y).

Y
.
. Y= b0 + b1X

.
.
β0

x1 x2 x3 x4 X
Si la relación entre X e Y fuera exacta, bastarían sólo dos puntos para
encontrar una solución para los parámetros β0 y β1.
Y
. .
. . Y= b0 + b1X
. .
. .
β0

x1 x2 x3 x4 X
En la prác*ca las relaciones entre X e Y no son exactas, muchos puntos
no van a estar sobre la recta.
Y
. .
. . Y= b0 + b1X
. .
. .
β0

x1 x2 x3 x4 X
Para permi)r divergencia entre la variable Y de la recta de interés, introducimos
un término de perturbación al modelo, que no es observable: Y=β0+β1X+u
Y
. .
u3
. . Y= b0 + b1X
. .
. .
β0 b0 + b1X3

x1 x2 x3 x4 X
Cada valor de Y *ene entonces una parte “no aleatoria” β0+β1X y una parte
aleatoria u.
Modelo de regresión lineal simple
Y = b0 + b1X + u
• donde Y es: • mientras que X es:
– Variable dependiente – Variable independiente
– Variable explicada – Variable explicativa
– Variable respuesta
– Covariable
– Etc.
– Predictor
• u es: – Regresor
– Residual
– Etc.
– Término de error
• b0 y b1: parámetros o
coeficientes a estimar
Un modelo de regresión es un modelo que
permite describir cómo influye una variable X
sobre otra variable Y.

El obje:vo es obtener predicciones razonables de


Y para dis:ntos valores de X a par:r de una
muestra de n pares de valores (x1,y1), …, (xn,yn).
Ejemplos:

• Estudiar cómo influye la estatura del padre sobre la


estatura del hijo.
• Es9mar el precio de una vivienda en función de su
superficie.
• Es9mar el precio de la harina en función de la
producción de trigo.
• Predecir la tasa de paro para cada edad.
• Aproximar la calificación obtenida en una materia
según el número de horas de estudio semanal.
• Prever el 9empo de computación de un programa en
función de la velocidad del procesador.
Medidas de dependencia lineal
La covarianza
Una medida de la dependencia lineal es la covarianza
∑,)*+($) − $)(&
̅ ) − &) 1
!"# $, & =
2−1
• Si hay relación lineal posi7va, la covarianza será posi7va y
grande
• Si hay relación lineal nega7va, la covarianza será nega7va y
grande en valor absoluto
• Si no hay relación entre las variables o la relación es
marcadamente no lineal, la covarianza será próxima a cero
Inconveniente: la covarianza depende de las unidades de
medida de las variables.
Correlación y causalidad
• Si el coeficiente de correlación entre dos variables es alto, indica que estas
variables toman valores que están relacionadas entre si. Pero no permite
concluir una relación causal entre esas variables.

Ejemplo El siguiente gráfico muestra una clara correlación entre el número de


nidos de cigüeñas en una población y el de nacimientos de niños.

Las poblaciones más


grandes suelen tener
más nidos y también
más nacimientos al
contener mayor población.
Correlación y causalidad
Ejemplo El siguiente gráfico muestra el número de matrimonios en Madrid y
las temperaturas mensuales durante el año 1992. El coeficiente de
correlación es 0.67.
Correlación y causalidad
Otro Ejemplo Se ha descubierto que por más coches de
bomberos que van al fuego, más es el daño causado. Pero el
trabajo de los bomberos es extinguir los fuegos y reducir el daño
y entonces el resultado es sorprendente.
¿Cómo podemos explicar el resultado?
Si el fuego es más intenso, entonces van más coches de
bomberos y también el fuego causa más daño.

La alta correlación entre número de coches y daño es espuria, es


debida al efecto de otra variable (intensidad del fuego) que
influye a ambas.
Modelo de regresión lineal simple
Y = b0 + b1X + u
Algunos supuestos:
• El valor promedio de u, el término de error, en
la población es igual a 0. Es decir,
E(u) = 0
• Este supuesto no es muy restric<vo puesto
que siempre podemos ajustar el intercepto b0
para normalizar E(u) = 0
Media condicional = 0
• Hay un supuesto crucial sobre la relación
entre el error y la variable explica8va:
cov(X, u)
• Queremos que la información contenida en X
sea independiente de la información
contenida en u (es decir, que no estén
relacionados), de modo que:
• E(u|X) = E(u) = 0, lo cual implica:
E(Y|X) = b0 + b1X
Linealidad: E(Y|X) es una funcion lineal de X:
para cada X, la predicción de Y es E(Y|X)
y
f(y)

. E(Y|X=x) = b + b x
0 1
.

x1 x2
Homocedas)cidad
• Un supuesto importante es sobre la varianza del
termino de error: Var(ui)=!2, i=1,…,n.

Lo anterior implica que la varianza del error es constante.


Homocedas)cidad
• Si no se cumple los datos son heterocedás)cos.
Y

b + b 1X
Y= 0

b0

X1 X2 X3 X4 X5 X

Sobre situación ilustrada en el diagrama de dispersión anterior. La distribución


de u asociada con cada observación de X todavía tiene un valor esperado de 0.
Sin embargo, se viola el Supuesto de homocedasticidad puesto que la varianza
ya no es constante.
Y

b + b 1X
Y= 0

b0

X1 X2 X3 X4 X5 X

Obviamente, las observaciones donde u tiene poca varianza, como la de X1, tenderán a ser
mejores guías de la relación subyacente que aquellas como la de X5, donde existe una
varianza relativamente más alta.
Y

b + b 1X
Y= 0

b0

X1 X2 X3 X4 X5 X

Cuando la distribución no es la misma para cada observación, se dice que el término de


error está sujeto a heterocedasticidad.
Independencia
Los errores son independientes
E(uiuj) = 0, ⩝ i ≠ j

Lo anterior implica que Cov(ui,uj)=0, ⩝ i ≠ j.


Así: Var(ui) = E(ui2) = "2, i=1,…,n
Normalidad
Los errores distribuyen según una distribución
normal, es decir,
ui ~ N(0, !2), i=1,…,n
Es#mación por Mínimos
Cuadrados Ordinarios
Mínimos Cuadrados Ordinarios (MCO)

• La idea básica es es+mar parámetros


poblacionales a par+r de una muestra.
• Sea {(xi,yi): i=1, …,n} una muestra aleatoria de
tamaño n de una población.
• Para cada observación en la muestra,
tenemos:
yi = b0 + b1xi + ui
Línea de regresión, observaciones y errores

y E(y|x) = b0 + b1x
y4 .{
u4

y3 .} u3
y2 u2 {.

y1 .} u1

x1 x2 x3 x4 x
Derivación de es-madores MCO
• El supuesto E(u|x) = E(u) = 0 implica que

Cov(x,u) = E(xu) = 0

• Recordemos que :

Cov(V,W) = E(VW) – E(V)E(W)


Este procedimiento plantea u0lizar, como
es0mación de los parámetros, aquella
combinación de β0 y β1 que minimice los errores
que el modelo cometerá.
Minimizar la SCR (suma de cuadrados de los
residuos), donde
)
+
!"# = % *&
&'(

donde *& = ,& − ,.& con Yi valor observado e ,.&


valor predicho de Yi, es decir, ,.& = 0/1 + 0/( 3& .
Gauss (1809)
Después de ciertos cálculos se llega a que los
es2madores de MCO de β0 y β1 son:

β̂0 = y − β̂1 x
n

∑(x − x )(y − y )
i i
sy
i=1
β̂1 = n
=r
sx
∑ i
(x − x ) 2

i=1

donde r es la correlación muestral entre X e Y, sx y sy


son las desviaciones estándar muestrales de X e Y,
respec2vamente (observar que r da el signo al
es2mador de la pendiente).
Ejemplo
House Price in $1000s Square Feet
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Propiedades de los Estimadores:
Se puede demostrar que los estimadores de
MCO de β0 y β1 tienen las siguientes
propiedades:

• Son lineales e insesgados.


• Son óptimos. Es decir, no es posible encontrar
otros estimadores de β0 y β1 que siendo
lineales e insesgados tengan una varianza
menor que el estimador MCO. Este es un
resultado que nos entrega el Teorema de
Gauss-Markov.
Se puede demostrar que:
%

! &"' = )** − -,$ ).*


"#$

donde
% %

)** = ! /" − /0 ' = ! /"' − 1/0 '


"#$ "#$
% %

).* = ! 2" − 20 /" − /0 = ! 2" /" − 120 /0


"#$ "#$

Luego:

)** − -,$ ).*


)3' =
1−2
Coeficiente de Determinación: R2
• Estadístico que mide la proporción de la variabilidad total que es explicada por la
regresión. Se calcula como:

$%! $%)
!" = =1−
$%& $%&

donde SCT = suma de cuadrados del total, SCE = Suma de cuadrados explicada por la
regresión, y SCR = Suma de cuadrados residual.
.

1 "
$%& = *(0+ − 0)
+,-
.

$%! = *(0+ − 03+ )"


+,-
.

1 "
$%) = *(03+ − 0)
+,-

donde 03+ es el valor predicho de la variable respuesta, es decir, 03+ = 546 + 54- 8+ . Solo
en el caso de regresión lineal simple se tiene que R2=r2.
TABLA DE ANÁLISIS DE LA VARIANZA (ANOVA)

Se puede demostrar que: SCT = SCE + SCR, es decir, la variabilidad de la variable


respuesta se descompone en variabilidad explicada por el modelo más variabilidad
no explicada o residual.

Ahora se puede construir la siguiente tabla ANOVA:

Fuente de Grados de Suma de Cuadrados F0


variación libertad cuadrados medios
Regresión 1 SCE CME=SCE/1 CME/CMR
Residual n-2 SCR CMR=SCR/(n-2)
Total n-1 SCT CMT=SCT/(n-1)

El estadís=co F0 de la tabla de ANOVA contrasta la hipótesis:


!" : $% = 0

Se rechaza H0 si F0 > F(1,n-2;()


Análisis de Residuos
• Recordemos que los residuos se definen como !" = $" − $&" .
• El análisis de los residuos del ajuste del modelo nos va a
permi8r explorar la adecuación del modelo.
• Los residuos de la regresión son aproximaciones a las
perturbaciones y aunque no son independientes ni con varianza
constante son bastante cercanos a ese comportamiento, por lo
que suponemos que bajo todas las suposiciones del modelo
deberían comportarse casi como ruido blanco.
• Ruido blanco: variables independientes e igualmente
distribuidas con media cero, varianza constante y simétricas.
Análisis de Residuos
• El modelo bien especificado 0ene residuos que se comportan
como un ruido blanco.
Análisis de Residuos
• Existen dis*ntas definiciones para calcular los residuos, una de
ellas es los residuos estandarizados, los cuales se definen como:
$"
!" =
%&!($" )
Los residuos estandarizados *enen media cero y varianza
próxima a 1, esto permite dis*nguir a los residuos grandes.
Análisis de Residuos
• Residuos muy alejados del cero (|ri| > 2) o la observación de
ciertos patrones o tendencias de comportamiento no
aleatorio podrían sugerir no adecuación del modelo.
• Si graficamos los residuos !" versus $#" y observamos que
conforme va aumentando/disminuyendo el valor de los
valores predichos de la variable respuesta ($#" ) también lo va
haciendo la dispersión de los residuos se debe a la presencia
de varianza no homogénea.
• La normalidad de los residuos se observa en el gráfico de
probabilidad normal.
Análisis de Residuos

Los términos de error no tienen varianza constante


Análisis de Residuos
Presencia
de outliers
Análisis de Residuos
Errores normales
Análisis de Residuos
Errores no normales
Análisis de Residuos
La función de regresión no es lineal
• La no linealidad de la función de regresión puede estudiarse a
través del diagrama de dispersión de los datos pero no resulta
habitual porque no es muy eficaz.
• El análisis gráfico de la validez de una función lineal de
regresión para analizar un conjunto de datos puede realizarse
a través de un diagrama de dispersión de los residuos frente a
los valores de la variable predictora, o de forma equivalente,
de los residuos frente a los valores ajustados.
• Si graficamos los residuos !" versus $#" y observamos una
curvatura podría deberse a omisión de algún termino no-
lineal de la covariable
Análisis de Residuos

Anda mungkin juga menyukai