ch4 y ch5

Introducción a la Regressión Lineal
(SW Capítulos 4 y 5)
Problema empírico: Tamaño de la clase y resultado educativo

• Pregunta política¿Qué efecto tiene reducir en uno el número de
alumnos por clase? ¿Y por 8 alumnos/clase?
• Examinamos Δ = diferencia de las medias, para clases pequeñas
vs. grandes
• Pero Δ no contesta del todo nuestra pregunta política
• Más bien, lo que nos interesa es
• Pero esto es la pendiente de una recta que relaciona la nota del

test (Test score) y STR (número de alumnos por clase)
4-1
• Así que tenemos que estimar este pendiente de algún modo…
Queremos trazar una recta a través del grafico de dispersión
de Test score vs. STR – ¿pero cómo?
4-2
Esquema de los capítulos 4 y 5 SW:
1. La teoría de la probabilidad para la regresión lineal

2. El modelo de regresión lineal con un solo regresor poblacional
3. El estimador de Mínimos Cuadrados Ordinarios (MCO)
4. Otras estadísticas de la regresión: bondad de ajuste,
propiedades algebraicas
5. Aplicación al ejemplo de las notas del test y tamaño clase
6. Regresión con variables dicótomas
7. Las suposiciones de los Mínimos Cuadrados
8. La distribución muestral de los estimadores MCO
9. Contrastes de hipótesis y intervalos de confianza
10. Implicaciones prácticas de heterosquedasticidad y
homosquedasticidad
4-3
1. Teoría de la probabilidad para la Regresión lineal
Población
Población de interés (ej: todos los distritos escolares posibles)
Variables aleatorias: Y, X
Ej: (Test Score, STR)
Distribución conjunta de (Y,X)

El quid de la cuestión es que suponemos que existe una
relación lineal en la población que relaciona X y Y; Esta
relación lineal es la “regresión lineal poblacional”
4-4
Datos y muestreo
Los objetos poblacionales (“parámetros”) β0 y β1 son
desconocidos; así que para hacer inferencias sobre estos
parámetros desconocidos necesitamos recopilar datos
Muestreo aleatorio simple:

Escogemos n entidades al azar de la población de interés, y
observamos (registramos) X y Y para cada entidad
El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…,

n, son independientes i idénticamente distribuidos (i.i.d.).
(Nota: (Xi, Yi) se distribuyen independientemente de (Xj, Yj)
para observaciones distintas de i y j.)
4-5
2. La Regresión Lineal Poblacional
Yi = β0 + β1Xi + ui, i = 1,…, n
• X es la variable independiente o regresor

• Y es la variable dependiente
• β0 = intersección
• β1 = pendiente
• ui = “término de error”
• El término de error consiste en factores omitidos, o
posibles errores de medida al medir Y. En general, estos
factores omitidos son otros factores que influencian a Y, a
parte de X
4-6
Ej.: La recta de regresión poblacional y el término de error
4-7
¿Cuáles son algunos de los factores omitidos en el ejemplo del
tamaño de clase?
La recta de regression poblacional en el ejemplo del tamaño

de clase:
Test Score = β0 + β1STR
β1 = pendiente de la recta de regresión poblacional
= cambio en Test debido a un cambio unitario de

STR
4-8
• ¿Por qué son β0 y β1 parámetros “poblacionales”?
• Nos gustaría conocer el valor de β1 en la población.
• No conocemos β1, así que lo tenemos que estimar con los
datos.
4-9
3. El Estimador MCO
¿Cómo podemos estimar β0 y β1 con los datos?
Recuerda que era el estimador de mínimos cuadrados de µY:
resuelve,
Por analogía, nos centraremos en el estimador de mínimos

cuadrados (“mínimos cuadrados ordinarios” o “MCO”) de
los parámetros desconocidos β0 y β1, que resuelven,
4-10
• El estimador MCO minimiza la diferencia cuadrada media
entre los valores reales de Yi y la predicción (valor predicho)
basándose en la línea estimada.
• Este problema de minimización puede resolverse usando
cálculo (Ap. 4.2).
4-11
• El resultado es el estimador MCO de β0 y β1:
Derivación de los estimadores MCO (Ap. 4.2):
4-12
4-13
4-14
¿Por qué usar MCO en vez de otro estimador?
• MCO es una generalización de la media muestral: si la “recta”
es sólo una intersección (no X), entonces el estimador MCO es
simplemente la media muestral de Y1,…Yn ( ).
• Como , el estimador MCO tiene algunas buenas propiedades:
bajo ciertos supuestos, es no sesgado (esto es, E( ) = β1), y
tiene una distribución más concentrada que otros candidatos
para estimador de β1 (más sobre luego)
• Además, es el que utiliza todo el mundo – el “lenguaje” común
de la regresión lineal.
4-15
4. Otros Estadísticos de la Regresión
Una pregunta natural es cómo de bien se “ajusta” (o explica) la

recta de regresión a los datos. Hay dos estadísticos que
proporcionan medidas complementarias de la calidad del ajuste:
• El R2 de la regresión mide la fracción de la varianza de Y que
se explica por X; no tiene unidades y su rango va de cero (nada
de ajuste) a uno (ajuste perfecto)
• El error estándar de la regresión mide el ajuste – el tamaño
típico del residuo de la regresión – en las unidades de Y.
4-16
4-17
Algunas propiedades algebraicas más de MCO:
Suma Total de Cuadrados = SS Residual + SS Explicado

Nota: SS = suma de cuadrados (del inglés” sum of squares”)
4-18
4-19
4-20
(b) El Error Estándar de la Regresión (EER)
El error estándar de la regresión es (casi) la desviación
estándar muestral de los residuos de MCO:
EER =
(la segunda igualdad se cumple porque = 0).

4-21
EER=
The EER:
• Tiene las unidades de u, que son las mismas unidades de Y
• Mide la dispersión de la distribución de u
• Mide el “tamaño” medio del residuo MCO (el “error”
medio hecho por la recta de regresión MCO)
• La raíz del error cuadrado medio (RECM) está
estrechamente relacionado con EER:
RECM =
4-22
Esto mide lo mismo que EER – la única diferencia es la
división por 1/n en vez de 1/(n–2).
Nota técnica: por qué dividir por n–2 en vez de n–1?
EER =
• La división por n–2 es un ajuste por los “grados de libertad”

como la división por n–1 en que corrige un ligero sesgo
hacia abajo; la diferencia es que, en EER, se han estimado
dos parámetros (β0 y β1, por y ), mientras que en
sólo se ha estimado uno (µY, por ).
4-23
• cuando n es grande, la diferencia es negligible tanto si se usa
n, n–1, o n–2– aunque la fórmula convencional usa n–2
cuando hay un único regresor.
4-24
5. Aplicación a los datos de Nota del Test-Tamaño Clase en
California
Muestra: Todos los distritos escolares de California (n = 420)

en 1998
Datos:
Y=5th curso notas (Stanford-9 prueba de rendimiento ,
combinado con mates y lectura), media del distrito
X=Ratio alumnos-profes (STR) = no. De alumnos en el
distrito dividido por no. profesores equivalentes a tiempo
completo
4-25
Pendiente estimado = = – 2,28
Intersección estimada = = 698,9
Recta de regresión estimada: = 698,9 – 2,28*STRi
4-26
Interpretación del pendiente estimado y de la intersección
= 698,9 – 2,28*STRi
• Distritos con un alumno más por profesor tienen de media notas
del test (Test Scores) que son 2,28 puntos inferiores.
• Esto es, = –2,28
• La intersección (tomada literalmente) significa que, de acuerdo

con esta recta de regresión estimada, distritos con cero alumnos
por profesor tendrían una nota del test (predicha) de 698.9.
• Esta interpretación no tiene sentido – extrapola la recta fuera
del rango de los datos en esta aplicación, la intersección no
tiene ningún significado económico.
4-27
Valores predichos y residuos:
Uno de los distritos del conjunto de datos es Antelope, CA,

para el que STR = 19,33 y Test Score = 657,8
Valor predicho: = 698,9 – 2,28*19,33 = 654,8
residuo: = 657,8 – 654,8 = 3,0

4-28
regresión MCO: STATA output
regress testscr str, robust
Regression with robust standard errors Number of obs = 420

F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
Fíjense el bajo R-squared y el alto (relativo a ) Root MSE. Lo

que esto significa es que hay otros factores importantes que afectan
a las notas del test, aparte del tamaño de la clase (diferencias en la
composición del alumnado, calidad de la escuela, suerte, etc.)
4-29
6. Regresión cuando X es binaria (0/1)
En muchas aplicaciones interesantes el regresor es binario:

• X = 1 si mujer, = 0 si hombre
• X = 1 si tratado (medicamento experimental), = 0 si no
• X = 1 si clase pequeña, = 0 si no
Hasta ahora, β1 ha sido llamada “pendiente” pero esto no tiene

sentido si X es binaria
¿Cómo interpretamos la regresión con un regresor binario?
4-30
Yi = β0 + β1Xi + ui, donde X es binario (Xi = 0 o 1):
• cuando Xi = 0: Yi = β0 + ui
• cuando Xi = 1: Yi = β0 + β1 + ui
entonces:
• cuando Xi = 0, la media de Yi es β0
• cuando Xi = 1, la media de Yi es β0 + β1
Esto es:
• E(Yi|Xi=0) = β0
• E(Yi|Xi=1) = β0 + β1
Así que:
β1 = E(Yi|Xi=1) – E(Yi|Xi=0)
4-31
= diferencia poblacional de la media de los grupos
Ejemplo: Datos TestScore y STR, para California
Sea:
Di =
El estimador MCO de la recta de regresión relacionando

TestScore a D (con errores estándar en paréntesis) es:
Yi = 650,0 + 7,4×Di
(1,3) (1,8)
4-32
Diferencia de las medias de los grupos = 7.4;
SE = 1.83 t = 7.4/1.83 = 4.05
4-33
Comparemos los resultados de la regresión con las medias de
los grupos, calculadas directamente:
Tamaño de la Nota media ( ) Dev.Std. (sY) N
Clase
Small (pequeño) 657.4 19.4 238
STR > 20
Large (grande) 650.0 17.9 182
STR ≥ 20
Estimación:
= 657,4 – 650,0 = 7,4
4-34
Test Δ=0:
Intervalo de confianza al 95% =
=(3,8;11,0)
¡Es exactamente igual que en la regresión!
4-35
Resumen: regresión cuando Xi es binaria (0/1)
Yi = β0 + β1Xi + ui
• β0 = media de Y dado que X = 0
• β0 + β1 = media de Y dado que X = 1
• β1 = diferencia entre las medias de los grupos, X =1 menos X = 0
• SE( ) tiene la interpretación usual
• t-estadísticos e intervalos de confianza se construyen como
siempre
• Esta es otra forma de hacer análisis de diferencia de medias
La formulación como regresión es especialmente útil cuando
tenemos regresores adicionales (lo vemos enseguida…)
4-36
La recta de regresión MCO es una estimación, calculada
usando nuestra muestra de datos; una muestra distinta habría
producido un valor distinto para .
Cómo podemos:
• Cuantificar la incertidumbre muestral asociada a ?
• usar para contrastar hipótesis como β1 = 0?
• Construir un intervalo de confianza para β1?
Nuestra labor: caracterizar la distribución muestral del

estimador MCO. Para ello, hacemos tres supuestos:
4-37
4-38
7. Los Supuestos de los Mínimos Cuadrados
(Concepto clave 4.3)
1. La distribución condicional de u dado X tiene media cero,

esto es, E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, son i.i.d.
3. X y u tienen cuatro momentos finitos, esto es:
Discutiremos estos supuestos en orden.

4-39
Supuesto #1 de los Mínimos Cuadrados: E(u|X = x) = 0.
Para cualquier valor dado de X, la media de u es cero
4-40
Ejemplo: Supuesto #1 y tamaño de la clase
Test Scorei = β0 + β1STRi + ui, ui = otros factores
“Otros factores:”
• Implicación de los padres
• Oportunidades de aprendizaje externas (clases extra de mates,..)
• Entorno familiar que incentiva la lectura
• El ingreso familiar es una buena proxy para estos factores
Así E(u|X=x) = 0 significa E(Family Income|STR) = constante (lo

que implica que el ingreso familiar y STR no están
correlacionados). ¡Este supuesto no es inocuo! Volveremos a él
muy a menudo.
Nota: “income” significa ingreso
4-41
Supuesto #2 de los Mínimos Cuadrados:
(Xi,Yi), i = 1,…,n son i.i.d.
Esto se cumple automáticamente si la entidad (individuo,

distrito) se obtiene a través de un muestreo aleatorio simple:
se selecciona la entidad y entonces, para esa entidad, X y Y
son observadas (registradas).
La fuente más común de muestras no-i.i.d. es cuando los
datos se obtienen a lo largo del tiempo (“datos de series
temporales”) esto introducirá alguna complicaciones extra.
Otro ejemplo de muestras no-i.i.d. es cuando tenemos
observaciones que pertenecen a un grupo o cluster y que
comparten un elemento común del término de error
4-42
Supuesto #3 de los Mínimos Cuadrados :
Dado que Yi = β0 + β1Xi + ui, el supuesto #3 se puede expresar

de forma equivalente como, y .
El supuesto #3 es en general plausible. Un dominio finito de

los datos implica que los cuartos momentos sean finitos. (Las
notas de los test estandarizados lo cumplen automáticamente;
STR, ingreso familiar, etc. también lo cumplen).
4-43
4-44
4-45
4-46
4-47
8. La distribución muestral de
4-48
4-49
8.1 Representación de en términos de X y u:
Yi = β0 + β1Xi + ui
= β0 + β1 +
así Yi – = β1(Xi – ) + (ui – )
Entonces,
4-50
=
4-51
=
so
– β1 =
Podemos simplificar esta fórmula advirtiendo que:
4-52
= –
= .
Entonces
– β1 = =
Donde vi = (Xi – )ui.
4-53
8.2 es un estimador no sesgado:
– β1 = , donde vi = (Xi – )ui
Ahora podemos calcular la media y varianza de :
E( – β1) =
4-54
=
4-55
Ahora E(vi/ ) = E[(Xi – )ui/ ] = 0
porque E(u)= E[E(ui|Xi=x)] = 0 by LS1.
Entonces, E( – β1) = =0
así
E( ) = β1
Esto es, es un estimador no sesgado de β1.
4-56
8.3 varianza de :
– β1 =
Este cálculo se simplifica suponiendo que n es grande (de

forma que puede sustituirse por ); el resultado es,
var( ) =
4-57
4-58
4-59
La distribución muestral exacta es complicada, pero cuando el
tamaño de la muestra es grande obtenemos alguna simples (y
buenas) aproximaciones:
(1) Porque var( ) ! 1/n y E( ) = β1, β1
(2) Cuando n es grande, la distribución muestral de se

aproxima bien con una distribución normal (TLC)
4-60
– β1 =
Cuando n es grande:
• vi = (Xi – )ui ! (Xi – µX)ui, que es i.i.d. (¿por qué?) y
tiene dos momentos, esto es, var(vi) < ! (¿?por qué?).
Entonces se distribuye N(0,var(v)/n) cuando n es
grande
• es aproximadamente igual a cuando n es grande
4-61
• =1– 1 cuando n es grande
Juntando todo esto obtenemos:
8.4 Aproximación de la distribución de cuando n es

grande:
– β1 = ,
4-62
Que se distribuye aproximadamente N(0, ).
Porque vi = (Xi – )ui, podemos escribir esto como:
se distribuye aproximadamente N(β1, )
4-63
Recuerda el resumen de la distribución muestral de : Para
(Y1,…,Yn) i.i.d. con positiva y finita
• La distribución muestral de exacta (muestra finita) tiene
media µY (“ es un estimador no sesgado de µY”) y varianza
/n
• A parte de la media y la varianza, la distribución exacta de
es complicada y depende de la distribución de Y
• µY (ley de los grandes números)
• se distribuye aproximadamente N(0,1) (CLT)
4-64
Obtenemos conclusiones paralelas para el estimador MCO
de :
Bajo los supuestos de los mínimos cuadrados,

• La distribución muestral de exacta (muestra finita) tiene
media β1 (“ es un estimador no sesgado de β1”), y var( )
es inversamente proporcional a n.
• A parte de su media y varianza, la distribución exacta de
es complicada y depende de la distribución de (X,u)
• β1 (ley de los grandes números)
4-65
se distribuye aproximadamente N(0,1) (CLT)
•
4-66
9.a Contrastes de hipótesis
Supongamos que un escéptico sugiere que reduciendo el

número de estudiantes por clase no tiene ningún efecto sobre
el aprendizaje o, específicamente, las notas de los test. El
escéptico, por lo tanto, propone la hipótesis,
H0: β1 = 0
Deseamos contrastar esta hipótesis con nuestros datos – y

llegar a una conclusión provisional sobre si es correcta o no.
4-67
Hipótesis nula y alternativa de dos lados:
H0: β1 = 0 vs. H1: β1 0
O, más generalmente,
H0: β1 = β1,0 vs. H1: β1 β1,0
donde β1,0 es el valor hipotético bajo la nula.
Hipótesis nula bajo una alternativa de un lado o una cola:

H0: β1 = β1,0 vs. H1: β1 < β1,0
En economía, es casi siempre posible encontrar motivos para
los que un efecto puede “ir hacia cualquier lado”, así que lo
“normal” es centrarse en alternativas de dos lados.
4-68
Recuerda los contrastes de hipótesis para la media poblacional
usando :
t=
rechazamos la nula si |t| >1.96.
4-69
Donde el SE del estimador es la raíz cuadrada de de un
estimador de la varianza del estimador.
Aplicado a una hipótesis sobre β1:
t=
así
4-70
t=
donde β1 es el valor de β1,0 hipotético bajo la nula (por

ejemplo, si el valor bajo la nula es cero, entonces β1,0 = 0.
¿Qué es SE( )?
SE( ) = la raíz cuadrada de un estimador de la varianza
de la distribución muestral de
4-71
Recuerda la expresión de la varianza de (gran n):
var( ) = =
Donde vi = (Xi – )ui. Estimador de la varianza de :
4-72
= .
= .
OK, esto no es muy claro que digamos. Afortunadamente:

• No hay necesidad de memorizar esto ya que todos los
paquetes estadísticos lo calculan automáticamente
4-73
• SE( ) = nos lo da el software de regresión
• Es menos complicado de lo que parece. El numerador

estima la var(v), el denominador estima la var(X).
4-74
Retorno al cálculo del t estadístico:
t= =
• Rechazamos al nivel 5% de significancia si |t| > 1.96

• p-valor is p = Pr[|t| > |tact|] = probabilidad bajo las colas de
la normal fuera de |tact|
• Las dos afirmaciones anteriores se basan en una
aproximación por muestra grande; típicamente n = 50 es
suficientemente grande para que la aproximación sea
excelente.
4-75
4-76
Ejemplo: Test Scores y STR, datos sobre California
Regression with robust standard errors Number of obs = 420

F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
El software de regresión no proporciona los errores estándar:
SE( ) = 10.4 SE( ) = 0.52
4-77
t-estadístico contrastando β1,0 = 0 = = =–
4.38
• El nivel de significancia al 1% y por dos lados es 2.58, así

que rechazamos la nula a un nivel de significancia del 1%
Alternativamente podemos calcular el p-valor…
4-78
4-79
El p-valor basado en la aproximación normal por muestra
grande del t-estadístico es 0.00001 (10–4)
9.b Intervalos de confianza
En general, si la distribución muestral de un estimador es

normal para un n grande , entonces un intervalo de confianza
del 95% puede construirse como: estimador 1.96*error
estándar del estimador.
Así: un intervalo de confianza del 95% para es,
{ 1,96*SE( )}
4-80
4-81
Ejemplo: Test Scores y STR, datos para California
Recta de regresión estimada: = 698,9 – 2,28×STRi
SE( ) = 10,4 SE( ) = 0,52
intervalo de confianza del 95% :
{ 1.96*SE( )} = {–2,28 1.96*0,52}

= (–3,30, –1,26)
4-82
Afirmaciones equivalentes:
• El intervalo de confianza del 95% no incluye el cero
• La hipótesis β1 = 0 se rechaza al nivel 5%
4-83
10. Heterocedasticidad, Homocedasticidad y las fórmulas
para los Errores Estándar (SE) de y
• ¿Qué significan estos dos términos??

• Consecuencias de la heteroquedasticidad
• Implicaciones para calcular errores estándar
¿Qué significan estos dos términos?

Si var(u|X=x) es constante – es decir, la varianza de la
distribución condicional de u dado X no depende de X,
entonces u es homosquedástico. En caso contrario, u es
heterosquedástico.
4-84
Homoceadsticidad en un dibujo:
• E(u|X=x) = 0 (u cumple el supuesto MCO #1)

4-85
• La varianza de u no cambia con x (mejor dicho, no depende
de x)
Heteroquedasticidad en un dibujo:
4-86
• E(u|X=x) = 0 (u cumple el supuesto #1 de los MCO)
• La varianza de u depende de x – de modo que u es
heteroquesdástico.
4-87
4-88
4-89
Tenemos heteroquedasticidad en nuestros datos sobre el
tamaño de clase?
Difícil de decir…parece homoquedástica, pero la dispersión

podría ser mayor para valores grandes de STR.
4-90
Otro ejemplo real de heteroquedasticidad de economía
laboral: ingresos por hora medios vs. Años de educación
(fuente: 1999 Current Population Survey)
4-91
4-92
Hasta el momento hemos asumido (sin decirlo) que u es
heteroquedástica (o mejor dicho no hemos asumido nada):
Recuerda los tres supuestos de los Mínimos Cuadrados:

1. La distribución condicional de u dado X tiene media
cero, es decir, E(u|X = x) = 0.
2. (Xi,Yi), i =1,…,n, son i.i.d.
3. X y u tienen cuatro momentos finitos.
La heterosquedasticidad y homosquedasticidad tienen que ver

con var(u|X=x). Dado que no hemos asumido explícitamente
errores homosquedásticos, hemos permitido implícitamente la
presencia de heterosquedasticidad.
4-93
¿Qué pasa si los errores resultan ser homosquedásticos?:
• Puedes probar algunos teoremas sobre MCO (en particular,
el teorema Gauss-Markov, que dice que MCO es el
estimador con la mínima varianza entre todos los
estimadores que son funciones lineales de (Y1,…,Yn)).
• La fórmula para la varianza de y los errores estándar de
MCO se simplifican: Si var(ui|Xi=x) = , entonces
var( ) = =…=
4-94
Nota: var( ) continua siendo inversamente proporcional a
var(X): más dispersión en X significa más información
sobre .
4-95
4-96
La fórmula del error estándar de para el caso
homosquedástico difiere de la fórmula “robusta” para el caso
de heterosquedasticidad – en general, obtienes errores
estándar distintos usando las dos fórmulas.
Los errores estándar para el caso de
heteroquedasticidad son la opción por defecto en los
paquetes estadísticos – a menudo la única opción
(e.g. Excel). Para obtener los errores estándar
“robustos” con heteroquedasticidad tenemos que
salirnos de la opción por defecto.
4-97
Si no lo hacemos y realmente hay heterosquedasticidad,
obtendremos errores estándar equivocados (y estadísticos t e
intervalos de confianza equivocados).
4-98
Los puntos críticos:
• Si los errores son homosquedásticos y usamos la fórmula
robusta para heterosquedasticidad para los errores estándar
(la que hemos derivado), no pasa nada (en realidad
estamos siendo más estrictos).
• Si los errores son heterosquedásticos y usamos la fórmula
para el caso de homosquedasticidad obtendremos errores
estándares incorrectos y por tanto el test de hipótesis no
sirve.
• Cuando n es grande y en el caso específico de
homosquedasticidad, las dos fórmulas coinciden (o sea,
errores no robustos versus errores robustos).
4-99
• En esencia: usa siempre las fórmulas robustas para
heterosquedasticidad – estas se llaman convencionalmente
errores estándar robustos para heteroquedasticidad
(“heteroskedasticity-robust standard errors)
4-100
“Heteroskedasticity-robust standard errors” en STATA
-------------------------------------------------------------------------
| Robust
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
. reg testscr str

------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
str | -2.279808 .4798256 -4.75 0.000 -3.22298 -1.336637
_cons | 698.933 9.467491 73.82 0.000 680.3231 717.5428
------------------------------------------------------------------------------
4-101
Resumen de la distribución muestral de MCO
1.Sólo tres supuestos de MCO

2.No asumimos normalidad ni homosquedasticidad de u, o X fijas
3.Distribuciones muestrales de β1: β1 es no sesgada, tiene varianza
inversamente proporcional a n, es consistente, y tiene una
distribución normal para n grande.
4.Permitimos implícitamente la presencia de heterosquedasticidad (var
(u|X) depende de X). “Los errores robustos para
heterosquedasticidad” son la extensión para la regresión de los SE
para la diferencia entre medias con varianza desigual, no conllevan
ningún coste y proporcionan (a veces importante) protección
contra la heterosquedasticidad.
5.La distribución t-Student desaparece…y es sustituida por N(0,1)
4-102
Resumen sobre las cuestiones económicas de interés
• La pregunta política inicial:

Supón que se contratan profesores de modo que el ratio de
alumnos por profesor decrece en uno. ¿Qué efecto tiene
esta intervención política (este “tratamiento”) en las notas
de los test?
• ¿Proporciona nuestro análisis de regresión una respuesta
satisfactoria?
No del todo – distritos con bajo STR tienden a ser los que
tienen más recursos y ingresos familiares mayores, lo que
dota a los alumnos de más posibilidades de aprendizaje
4-103
extraescolar…lo que sugiere que corr(ui,STRi) > 0, de modo
que E(ui|Xi)!0.
4-104
Pensamientos sobre causalidad
La pregunta original (¿cuál es el efecto cuantitativo de una

intervención que reduzca el tamaño de las clases?) es una
pregunta sobre un efecto causal: el efecto sobre Y de aplicar
una unidad de tratamiento es β1.
• Pero ¿qué es, concretamente, un efecto causal?

• La definición convencional de causalidad no es lo
suficientemente precisa para nuestros propósitos.
• En este curso, definimos un efecto causal como el efecto
que se mide en un experimento controlado y aleatorizado
ideal.
4-105
4-106
Experimento Controlado y Aleatorizado Ideal.
• Ideal: todos los sujetos siguen el protocolo del tratamiento
cumplimiento perfecto, no hay errores en el informe, etc.!
• Aleatorizado: los sujetos de la población de interés son
asignados aleatoriamente a un grupo de tratamiento o a un
grupo de control (de modo que no hay efectos confundidores)
• Controlado: disponer de un grupo de control permite medir el
efecto diferencial del tratamiento.
• Experimento: el tratamiento se asigna como parte del
experimento: los sujetos no tienen capacidad de decidir, lo que
significa que no hay “causalidad contraria”, el caso en el que
los sujetos escogen aquel tratamiento que creen que funcionará
mejor.
4-107
De vuelta al tamaño de la clase:
• ¿Cuál sería el experimento controlado y aleatorizado ideal para el
efecto en Test Score de reducir STR?
• ¿Cuánto se aleja nuestro análisis de regresión de este ideal?
o El tratamiento no se asigna aleatoriamente
o En los EE.UU – nuestros datos observados – distritos con
ingresos familiares suelen tener clases más pequeñas y notas
más altas.
o Consecuentemente, podría darse que E(ui|Xi=x) 0.
o En ese caso, el supuesto MCO #1 deja de cumplirse.
o De ser así, es sesgado: ¿hay algún factor omitido que hace
que el tamaño de la clase sea mayor de lo que realmente es?
4-108

ch4 y ch5

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ch4 y ch5

Diunggah oleh

Hak Cipta:

Format Tersedia

Introducción a la Regressión Lineal

Problema empírico: Tamaño de la clase y resultado educativo

• Más bien, lo que nos interesa es

• Pero esto es la pendiente de una recta que relaciona la nota del

1. La teoría de la probabilidad para la regresión lineal

Distribución conjunta de (Y,X)

Muestreo aleatorio simple:

El muestreo aleatorio simple implica que {(Xi, Yi)}, i = 1,…,

• X es la variable independiente o regresor

La recta de regression poblacional en el ejemplo del tamaño

β1 = pendiente de la recta de regresión poblacional

= cambio en Test debido a un cambio unitario de

Por analogía, nos centraremos en el estimador de mínimos

Derivación de los estimadores MCO (Ap. 4.2):

Una pregunta natural es cómo de bien se “ajusta” (o explica) la

Suma Total de Cuadrados = SS Residual + SS Explicado

(la segunda igualdad se cumple porque = 0).

• La división por n–2 es un ajuste por los “grados de libertad”

Muestra: Todos los distritos escolares de California (n = 420)

• Esto es, = –2,28

• La intersección (tomada literalmente) significa que, de acuerdo

Uno de los distritos del conjunto de datos es Antelope, CA,

residuo: = 657,8 – 654,8 = 3,0

Regression with robust standard errors Number of obs = 420

Fíjense el bajo R-squared y el alto (relativo a ) Root MSE. Lo

En muchas aplicaciones interesantes el regresor es binario:

Hasta ahora, β1 ha sido llamada “pendiente” pero esto no tiene

¿Cómo interpretamos la regresión con un regresor binario?

El estimador MCO de la recta de regresión relacionando

Intervalo de confianza al 95% =

Nuestra labor: caracterizar la distribución muestral del

1. La distribución condicional de u dado X tiene media cero,

Discutiremos estos supuestos en orden.

Así E(u|X=x) = 0 significa E(Family Income|STR) = constante (lo

Esto se cumple automáticamente si la entidad (individuo,

Dado que Yi = β0 + β1Xi + ui, el supuesto #3 se puede expresar

El supuesto #3 es en general plausible. Un dominio finito de

Podemos simplificar esta fórmula advirtiendo que:

Donde vi = (Xi – )ui.

– β1 = , donde vi = (Xi – )ui

Ahora podemos calcular la media y varianza de :

porque E(u)= E[E(ui|Xi=x)] = 0 by LS1.

Esto es, es un estimador no sesgado de β1.

Este cálculo se simplifica suponiendo que n es grande (de

(1) Porque var( ) ! 1/n y E( ) = β1, β1

(2) Cuando n es grande, la distribución muestral de se

Entonces se distribuye N(0,var(v)/n) cuando n es

Juntando todo esto obtenemos:

8.4 Aproximación de la distribución de cuando n es

Porque vi = (Xi – )ui, podemos escribir esto como:

se distribuye aproximadamente N(β1, )

• se distribuye aproximadamente N(0,1) (CLT)

Bajo los supuestos de los mínimos cuadrados,

• β1 (ley de los grandes números)

Supongamos que un escéptico sugiere que reduciendo el

Deseamos contrastar esta hipótesis con nuestros datos – y

Hipótesis nula bajo una alternativa de un lado o una cola:

rechazamos la nula si |t| >1.96.

donde β1 es el valor de β1,0 hipotético bajo la nula (por

Donde vi = (Xi – )ui. Estimador de la varianza de :

OK, esto no es muy claro que digamos. Afortunadamente:

• Es menos complicado de lo que parece. El numerador

• Rechazamos al nivel 5% de significancia si |t| > 1.96

Regression with robust standard errors Number of obs = 420

{ 1.96SE( )} = {–2,28 1.960,52}