(SW Capítulos 4 y 5)
4-2
Esquema de los capítulos 4 y 5 SW:
Población
Población de interés (ej: todos los distritos escolares posibles)
Variables aleatorias: Y, X
Ej: (Test Score, STR)
4-4
Datos y muestreo
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; así que para hacer inferencias sobre estos
parámetros desconocidos necesitamos recopilar datos
4-7
¿Cuáles son algunos de los factores omitidos en el ejemplo del
tamaño de clase?
4-8
• ¿Por qué son β0 y β1 parámetros “poblacionales”?
• Nos gustaría conocer el valor de β1 en la población.
• No conocemos β1, así que lo tenemos que estimar con los
datos.
4-9
3. El Estimador MCO
¿Cómo podemos estimar β0 y β1 con los datos?
Recuerda que era el estimador de mínimos cuadrados de µY:
resuelve,
4-10
• El estimador MCO minimiza la diferencia cuadrada media
entre los valores reales de Yi y la predicción (valor predicho)
basándose en la línea estimada.
• Este problema de minimización puede resolverse usando
cálculo (Ap. 4.2).
4-11
• El resultado es el estimador MCO de β0 y β1:
4-12
4-13
4-14
¿Por qué usar MCO en vez de otro estimador?
• MCO es una generalización de la media muestral: si la “recta”
es sólo una intersección (no X), entonces el estimador MCO es
simplemente la media muestral de Y1,…Yn ( ).
• Como , el estimador MCO tiene algunas buenas propiedades:
bajo ciertos supuestos, es no sesgado (esto es, E( ) = β1), y
tiene una distribución más concentrada que otros candidatos
para estimador de β1 (más sobre luego)
• Además, es el que utiliza todo el mundo – el “lenguaje” común
de la regresión lineal.
4-15
4. Otros Estadísticos de la Regresión
4-16
4-17
Algunas propiedades algebraicas más de MCO:
EER =
The EER:
• Tiene las unidades de u, que son las mismas unidades de Y
• Mide la dispersión de la distribución de u
• Mide el “tamaño” medio del residuo MCO (el “error”
medio hecho por la recta de regresión MCO)
• La raíz del error cuadrado medio (RECM) está
estrechamente relacionado con EER:
RECM =
4-22
Esto mide lo mismo que EER – la única diferencia es la
división por 1/n en vez de 1/(n–2).
Nota técnica: por qué dividir por n–2 en vez de n–1?
EER =
4-24
5. Aplicación a los datos de Nota del Test-Tamaño Clase en
California
4-25
Pendiente estimado = = – 2,28
Intersección estimada = = 698,9
Recta de regresión estimada: = 698,9 – 2,28*STRi
4-26
Interpretación del pendiente estimado y de la intersección
= 698,9 – 2,28*STRi
• Distritos con un alumno más por profesor tienen de media notas
del test (Test Scores) que son 2,28 puntos inferiores.
4-27
Valores predichos y residuos:
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
4-29
6. Regresión cuando X es binaria (0/1)
4-30
Yi = β0 + β1Xi + ui, donde X es binario (Xi = 0 o 1):
• cuando Xi = 0: Yi = β0 + ui
• cuando Xi = 1: Yi = β0 + β1 + ui
entonces:
• cuando Xi = 0, la media de Yi es β0
• cuando Xi = 1, la media de Yi es β0 + β1
Esto es:
• E(Yi|Xi=0) = β0
• E(Yi|Xi=1) = β0 + β1
Así que:
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
4-31
= diferencia poblacional de la media de los grupos
Ejemplo: Datos TestScore y STR, para California
Sea:
Di =
Yi = 650,0 + 7,4×Di
(1,3) (1,8)
4-32
Diferencia de las medias de los grupos = 7.4;
SE = 1.83 t = 7.4/1.83 = 4.05
4-33
Comparemos los resultados de la regresión con las medias de
los grupos, calculadas directamente:
Tamaño de la Nota media ( ) Dev.Std. (sY) N
Clase
Small (pequeño) 657.4 19.4 238
STR > 20
Large (grande) 650.0 17.9 182
STR ≥ 20
Estimación:
= 657,4 – 650,0 = 7,4
4-34
Test Δ=0:
=(3,8;11,0)
¡Es exactamente igual que en la regresión!
4-35
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui
• β0 = media de Y dado que X = 0
• β0 + β1 = media de Y dado que X = 1
• β1 = diferencia entre las medias de los grupos, X =1 menos X = 0
• SE( ) tiene la interpretación usual
• t-estadísticos e intervalos de confianza se construyen como
siempre
• Esta es otra forma de hacer análisis de diferencia de medias
La formulación como regresión es especialmente útil cuando
tenemos regresores adicionales (lo vemos enseguida…)
4-36
La recta de regresión MCO es una estimación, calculada
usando nuestra muestra de datos; una muestra distinta habría
producido un valor distinto para .
Cómo podemos:
• Cuantificar la incertidumbre muestral asociada a ?
• usar para contrastar hipótesis como β1 = 0?
• Construir un intervalo de confianza para β1?
4-40
Ejemplo: Supuesto #1 y tamaño de la clase
Test Scorei = β0 + β1STRi + ui, ui = otros factores
“Otros factores:”
• Implicación de los padres
• Oportunidades de aprendizaje externas (clases extra de mates,..)
• Entorno familiar que incentiva la lectura
• El ingreso familiar es una buena proxy para estos factores
4-43
4-44
4-45
4-46
4-47
8. La distribución muestral de
4-48
4-49
8.1 Representación de en términos de X y u:
Yi = β0 + β1Xi + ui
= β0 + β1 +
así Yi – = β1(Xi – ) + (ui – )
Entonces,
4-50
=
4-51
=
so
– β1 =
4-52
= –
= .
Entonces
– β1 = =
4-53
8.2 es un estimador no sesgado:
E( – β1) =
4-54
=
4-55
Ahora E(vi/ ) = E[(Xi – )ui/ ] = 0
Entonces, E( – β1) = =0
así
E( ) = β1
4-56
8.3 varianza de :
– β1 =
var( ) =
4-57
4-58
4-59
La distribución muestral exacta es complicada, pero cuando el
tamaño de la muestra es grande obtenemos alguna simples (y
buenas) aproximaciones:
4-60
– β1 =
Cuando n es grande:
• vi = (Xi – )ui ! (Xi – µX)ui, que es i.i.d. (¿por qué?) y
tiene dos momentos, esto es, var(vi) < ! (¿?por qué?).
grande
• es aproximadamente igual a cuando n es grande
4-61
• =1– 1 cuando n es grande
– β1 = ,
4-62
Que se distribuye aproximadamente N(0, ).
4-63
Recuerda el resumen de la distribución muestral de : Para
(Y1,…,Yn) i.i.d. con positiva y finita
• La distribución muestral de exacta (muestra finita) tiene
media µY (“ es un estimador no sesgado de µY”) y varianza
/n
• A parte de la media y la varianza, la distribución exacta de
es complicada y depende de la distribución de Y
• µY (ley de los grandes números)
4-64
Obtenemos conclusiones paralelas para el estimador MCO
de :
4-65
se distribuye aproximadamente N(0,1) (CLT)
•
4-66
9.a Contrastes de hipótesis
H0: β1 = 0
4-67
Hipótesis nula y alternativa de dos lados:
H0: β1 = 0 vs. H1: β1 0
O, más generalmente,
H0: β1 = β1,0 vs. H1: β1 β1,0
donde β1,0 es el valor hipotético bajo la nula.
4-68
Recuerda los contrastes de hipótesis para la media poblacional
usando :
t=
4-69
Donde el SE del estimador es la raíz cuadrada de de un
estimador de la varianza del estimador.
Aplicado a una hipótesis sobre β1:
t=
así
4-70
t=
¿Qué es SE( )?
SE( ) = la raíz cuadrada de un estimador de la varianza
de la distribución muestral de
4-71
Recuerda la expresión de la varianza de (gran n):
var( ) = =
4-72
= .
= .
4-74
Retorno al cálculo del t estadístico:
t= =
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
4-77
t-estadístico contrastando β1,0 = 0 = = =–
4.38
4-78
4-79
El p-valor basado en la aproximación normal por muestra
grande del t-estadístico es 0.00001 (10–4)
9.b Intervalos de confianza
{ 1,96*SE( )}
4-80
4-81
Ejemplo: Test Scores y STR, datos para California
Recta de regresión estimada: = 698,9 – 2,28×STRi
4-82
Afirmaciones equivalentes:
• El intervalo de confianza del 95% no incluye el cero
• La hipótesis β1 = 0 se rechaza al nivel 5%
4-83
10. Heterocedasticidad, Homocedasticidad y las fórmulas
para los Errores Estándar (SE) de y
4-86
• E(u|X=x) = 0 (u cumple el supuesto #1 de los MCO)
• La varianza de u depende de x – de modo que u es
heteroquesdástico.
4-87
4-88
4-89
Tenemos heteroquedasticidad en nuestros datos sobre el
tamaño de clase?
4-91
4-92
Hasta el momento hemos asumido (sin decirlo) que u es
heteroquedástica (o mejor dicho no hemos asumido nada):
var( ) = =…=
4-94
Nota: var( ) continua siendo inversamente proporcional a
var(X): más dispersión en X significa más información
sobre .
4-95
4-96
La fórmula del error estándar de para el caso
homosquedástico difiere de la fórmula “robusta” para el caso
de heterosquedasticidad – en general, obtienes errores
estándar distintos usando las dos fórmulas.
Los errores estándar para el caso de
heteroquedasticidad son la opción por defecto en los
paquetes estadísticos – a menudo la única opción
(e.g. Excel). Para obtener los errores estándar
“robustos” con heteroquedasticidad tenemos que
salirnos de la opción por defecto.
4-97
Si no lo hacemos y realmente hay heterosquedasticidad,
obtendremos errores estándar equivocados (y estadísticos t e
intervalos de confianza equivocados).
4-98
Los puntos críticos:
• Si los errores son homosquedásticos y usamos la fórmula
robusta para heterosquedasticidad para los errores estándar
(la que hemos derivado), no pasa nada (en realidad
estamos siendo más estrictos).
• Si los errores son heterosquedásticos y usamos la fórmula
para el caso de homosquedasticidad obtendremos errores
estándares incorrectos y por tanto el test de hipótesis no
sirve.
• Cuando n es grande y en el caso específico de
homosquedasticidad, las dos fórmulas coinciden (o sea,
errores no robustos versus errores robustos).
4-99
• En esencia: usa siempre las fórmulas robustas para
heterosquedasticidad – estas se llaman convencionalmente
errores estándar robustos para heteroquedasticidad
(“heteroskedasticity-robust standard errors)
4-100
“Heteroskedasticity-robust standard errors” en STATA
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
4-101
Resumen de la distribución muestral de MCO
4-102
Resumen sobre las cuestiones económicas de interés
4-103
extraescolar…lo que sugiere que corr(ui,STRi) > 0, de modo
que E(ui|Xi)!0.
4-104
Pensamientos sobre causalidad
4-108