Guía de Clases Econometria PDF

UNIVERSIDAD CATÓLICA BOLIVIANA “SAN
PABLO”
GUÍA DE CLASES DE
ECONOMETRÍA
Horacio Villegas Quino
Contenido
Tema 1. Naturaleza de la econometría y el análisis de regresión................................................. 4
1.1 ¿Qué es la econometría?............................................................................................... 4
1.2 ¿Qué es una regresión? ................................................................................................. 4
1.3. Relaciones estadísticas y relaciones deterministas ...................................................... 5
1.4. Regresión y causalidad .................................................................................................. 6
1.5. Regresión y correlación ................................................................................................. 7
1.6. Terminología y notación................................................................................................ 9
1.7. Naturaleza y fuentes de datos para el análisis económico ......................................... 10
1.7.1. Tipos de datos ..................................................................................................... 10
1.7.2. Fuentes de datos ................................................................................................. 12
1.7.3. Precisión de los datos .......................................................................................... 12
Tema 2. Paquetes econométricos ............................................................................................... 13
2.1. GAUSS .......................................................................................................................... 13
2.2. Mathematica ............................................................................................................... 13
2.3. SAS ............................................................................................................................... 15
2.4. Stata ............................................................................................................................ 17
2.5. EViews ......................................................................................................................... 18
Tema 3. Análisis de regresión con dos variables ......................................................................... 19
3.1. Ejemplo Hipotético ...................................................................................................... 19
3.2. Concepto de función de regresión poblacional (FRP) ................................................. 21
3.3. Significado del término lineal ...................................................................................... 22
3.4. Especificación estocástica de la FRP............................................................................ 23
3.5. Importancia del término de perturbación estocástica ............................................... 24
3.6. Función de regresión muestral (FRM) ......................................................................... 26
Tema 4. Estimación de los parámetros de una regresión ........................................................... 27
4.1. Planteamiento ............................................................................................................. 27
4.2. Estimador de Mínimos Cuadrados Ordinarios ............................................................ 27
4.2.1. Derivación no matricial de la expresión de los estimadores MCO...................... 28
4.2.2. Derivación matricial de la expresión de los estimadores MCO........................... 30
4.3. Estimador Máximo Verosímil ...................................................................................... 31
4.4. Interpretación “intuitiva” de los estimadores MCO en la regresión múltiple ............ 33
Tema 5. Propiedades de los estimadores MCO/MV ................................................................... 38
5.1. Introducción ................................................................................................................ 38
1
5.2. Linealidad .................................................................................................................... 39
5.3. Insesgadez ................................................................................................................... 40
5.4. Óptimo (Eficiencia) ...................................................................................................... 40
5.5. Consistencia ................................................................................................................ 45
5.6. Corolario ...................................................................................................................... 45
Tema 6. Estimadores de la varianza de los errores..................................................................... 46
6.1. Estimadores de la varianza de los errores .................................................................. 46
6.2. Estimador insesgado de la varianza de las perturbaciones aleatorias........................ 47
Tema 7. Contrastes de significatividad individual de los parámetros......................................... 51
7.1. Introducción ................................................................................................................ 51
7.2. Intervalo de confianza de los parámetros................................................................... 53
7.3. Contraste del estadístico t .......................................................................................... 54
Tema 8. Contrastes de significación conjunta............................................................................. 57
8.1. Contrastes de significación conjunta a través de una F de Snedecor ......................... 57
Tema 9. Contrastes de significación conjunta a partir del coeficiente de determinación lineal
................................................................................................................................................ 65
9.1. Relación entre el contraste de nulidad conjunta de parámetros “F Snedecor” y la .
..................................................................................................................................... 66
9.2. Contraste de restricción de parámetros a partir del test de Wald ............................. 67
Tema 10: Multicolinealidad......................................................................................................... 69
10.1. ¿Qué es la multicolinealidad? ................................................................................. 69
10.2. ¿Por qué se produce? .............................................................................................. 69
10.3. ¿Cuáles son las consecuencias sobre el MBRL? ...................................................... 70
10.4. ¿Cómo se detecta? .................................................................................................. 71
10.5. ¿Cómo se corrige? ................................................................................................... 73
Tema 11. Heterocedasticidad ..................................................................................................... 75
11.1. ¿Qué es la heterocedasticidad? .............................................................................. 75
11.2. Causas frecuentes de heterocedasticidad .............................................................. 76
11.3. Efectos de la heterocedasticidad sobre el MBRL .................................................... 79
11.4. ¿Cómo se detecta la presencia de Heterocedasticidad? ........................................ 81
11.4.1. Contrastes Gráficos ............................................................................................. 81
11.4.2. Contrastes numéricos ......................................................................................... 83
11.5. ¿Cómo se corrige la heteroscedasticidad? .............................................................. 88
Tema 12: La Autocorrelación ...................................................................................................... 93
12.1. Introducción ............................................................................................................ 93
2
12.2. Detección de la autocorrelación ............................................................................. 94
12.2.1. Aproximación gráfica.......................................................................................... 94
12.2.2. Métodos numéricos ........................................................................................... 96
12.3. Diagnóstico de la regresión ..................................................................................... 99
12.4. Corrección de la autocorrelación .......................................................................... 101
Tema 13: Modelos de elección discreta.................................................................................... 110
13.1. Introducción .......................................................................................................... 110
13.2. Modelo lineal de probabilidad (MLP) .................................................................... 111
13.2.1. Especificación e interpretación del MLP ........................................................... 111
13.2.2. Limitaciones de la estimación por MCO ........................................................... 113
13.3. Modelos de probabilidad no lineal ....................................................................... 114
13.4. Estimación de los parámetros en los modelos Logit ............................................. 116
13.5. Interpretación de los coeficientes: efectos marginales ........................................ 116
13.6. Contraste y validación de hipótesis....................................................................... 117
Tema 14. Introducción a los datos de panel ............................................................................. 120
14.1. Modelos de Efectos Fijos (FE) y Efectos Aleatorios (RE) ....................................... 121
14.2. Estimación con datos de panel estáticos................................................................ 122
14.2.1. Estimación con efectos fijos ............................................................................. 122
14.2.2. Estimación con efectos aleatorios .................................................................... 123
14.3. El test de Hausman ................................................................................................ 124
3
Tema 1. Naturaleza de la econometría y el análisis de regresión
1.1 ¿Qué es la econometría?
La econometría se basa en el desarrollo de métodos estadísticos que se utilizan para

estimar relaciones económicas.
La econometría se ha convertido en una disciplina independiente de la estadística

matemática por ocuparse de la recolección y análisis de datos económicos no
experimentales.
Datos no experimentales son datos sobre individuos, empresas o segmentos de la

economía que no son obtenidos por medio de experimentos controlados.
En las ciencias naturales los datos experimentales suelen ser obtenidos en el

laboratorio, pero en las ciencias sociales son mucho más difíciles de obtener.
Aunque es posible idear experimentos sociales, suele ser imposible, prohibitivamente

caro o moralmente indeseable realizar la clase de experimentos controlados que serían
necesarios para abordar problemas económicos (una excepción es la economía
experimental).
1.2 ¿Qué es una regresión?
El análisis de regresión trata del estudio de la dependencia de una variable (variable

dependiente) respecto de una o más variables (variables explicativas)
El objetivo es estimar o predecir la media o valor promedio poblacional de la

primera en términos de los valores conocidos o fijos (en muestras repetidas) de las
segundas.
Ejemplo
1. Al estudiar la dependencia del consumo personal respecto del ingreso personal

neto disponible (después de impuestos) se calcula la propensión marginal a
consumir (PMC), es decir, el cambio promedio del consumo ante un cambio,
digamos, de un boliviano en el ingreso real.
En el análisis de consumo keynesiano, se formula la siguiente expresión de

consumo:
= Consumo
= Consumo autónomo o fijo
= Propensión marginal a consumir (PMC)
= Ingreso disponible Y(1 − t)
4
Gráfico 1: Propensión Marginal a Consumir (PMC)
C = C0+cYD
C0
1
YD
Fuente: Elaboración propia.
1.3. Relaciones estadísticas y relaciones deterministas
En el análisis de regresión interesa lo que se conoce como dependencia estadística

entre variables, no así la funcional o determinista, propia de la física clásica.
En las relaciones estadísticas entre variables se analizan, en esencia, variables

aleatorias o estocásticas, es decir, variables con distribuciones de probabilidad.
Ejemplo
El rendimiento de un cultivo depende de la temperatura, lluvia, Sol, fertilizantes,

etc.
Dicha dependencia es de naturaleza estadística porque las variables explicativas,

si bien son importantes, no permiten predecir en forma exacta el rendimiento
del cultivo.
Esto sucede debido a los errores en la medición de estas variables y a otra

serie de factores (variables) que afectan el rendimiento pero son difíciles de
identificar individualmente.
De esta manera, habrá alguna variabilidad “intrínseca” o aleatoria en la

variable dependiente, el rendimiento del cultivo, que no puede explicarse en su
totalidad sin importar cuántas variables explicativas se consideren.
5
Los fenómenos deterministas, por otra parte, implican relaciones como la ley de
la gravedad de Newton.
Ilustración 1: Isaac Newton (1642-1727)
Fuente: http://www.oklahomahomeschool.com/Math_Internet.html
Esta ley establece que toda partícula en el universo atrae a cualquier otra
partícula con una fuerza directamente proporcional al producto de sus masas e
inversamente proporcional al cuadrado de la distancia entre ellas.
En términos matemáticos:
F = k (m1m2/r2)
Donde;
F es la fuerza,
m1 y m2 son las masas de las dos partículas,
r es distancia y
k es una constante de proporcionalidad
En econometría no interesan las relaciones deterministas.
1.4. Regresión y causalidad
A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable
respecto de otras variables, esto no implica causalidad necesariamente.
Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una
conexión causal: nuestras ideas de causalidad deben provenir de estadísticas
externas y, en último término, de una u otra teoría.
6
Ejemplos
1. En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística
para suponer que la lluvia no depende del rendimiento del cultivo.
El sentido común indica que la relación no puede ser a la inversa, pues no es

posible controlar la lluvia mediante el rendimiento del cultivo.
2. En el ejemplo del consumo keynesiano es posible recurrir a la teoría económica

para afirmar que el consumo depende del ingreso real.
1.5. Regresión y correlación
El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque

conceptualmente los dos son muy diferentes.
En el análisis de correlación, el objetivo principal es medir la fuerza o el grado de

asociación lineal entre dos variables.
Gráfico 2. Tipos de correlación
Fuente:https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient-statistical-guide.php
Ejemplos de correlación
1. El hábito de fumar y el cáncer del pulmón
7
Gráfico 3. Cáncer de pulmón y cigarrillos comprados
Fuente: http://blog.statwing.com/the-ecological-fallacy/
Las correlaciones son difíciles de interpretar.
2. Número de iglesias y número de bares
Gráfico 4. Número de iglesias y número de bares
Fuente: https://www.utexas.edu/courses/bio301d/Topics/Correlation/Text.html
8
En el análisis de regresión, en cambio, se trata de estimar o predecir el valor
promedio de una variable con base en los valores fijos de otras.
Tabla 1: Propensión marginal a consumir (PMC)
Autor País PMC

Coronado, Lupton, and Sheiner (2005) USA 0.36
Agarwal and Quian (2013) Singapore 0.90
Fuente: Carroll, Slacalek y Tokuoka (2014). The Distribution of Wealth and the Marginal
Propensity to Consume, Working Paper Series Nº 1655. Household Finance and Consumption
Network
La regresión y la correlación presentan diferencias fundamentales que vale la pena

mencionar:
1. En el análisis de regresión hay una asimetría en el tratamiento a las variables

dependientes y explicativas.
Se supone que la variable dependiente es estadística, aleatoria o estocástica,

es decir, que tiene una distribución de probabilidad. Por otra parte, se asume que
las variables explicativas tienen valores fijos (en muestras repetidas).
2. En el análisis de correlación, por otra parte, se tratan dos variables cualesquiera

en forma simétrica; no hay distinción entre las variables dependiente y
explicativa.
Después de todo, la correlación entre las muertes por cáncer de pulmón y el

número de cigarrillos comprados es la misma que la existente entre el número de
cigarrillos comprados y las muertes por cáncer de pulmón.
Además, las dos variables se consideran aleatorias.
1.6. Terminología y notación
En las publicaciones especializadas, los términos variable dependiente y variable

explicativa se definen de varias maneras; a continuación se presenta una lista
representativa:
Otros nombres de la variable dependiente
Variable explicada; Predicha; Regresada; Respuesta; Endógena; Resultado; Variable

controlada.
Otros nombres de la variable explicativa
Variable independiente; Predictora; Regresora; Estímulo; Exógena; Covariante;

Variable de control.
9
Si se estudia la dependencia de una variable respecto de una única variable explicativa,
como el consumo que depende del ingreso real, dicho estudio se conoce como análisis
de regresión simple, o con dos variables.
Sin embargo, si se estudia la dependencia de una variable respecto de más de una

variable explicativa, como el rendimiento de un cultivo, la lluvia, la temperatura, el Sol
y los fertilizantes, se trata de un análisis de regresión múltiple.
El término aleatorio es sinónimo de estocástico. Una variable aleatoria o estocástica es

la que toma cualquier conjunto de valores, positivos o negativos, con una probabilidad
dada.
La letra Y representa la variable dependiente.
Las X (X1,X2,…, Xk), las variables explicativas, con Xk como la k-ésima variable
explicativa.
Los subíndices i o t denotan la observación o valor i-ésimo o t-ésimo. Xki (o Xkt) denota
la i-ésima (o la t-ésima) observación de la variable Xk.
N (o T) representa el número total de observaciones o valores en la población, y n (o t),

el número total de observaciones en una muestra.
Por convención, se utiliza el subíndice de observación i para los datos transversales (es
decir, información recopilada en un momento determinado), y el subíndice t, para datos
de series de tiempo (es decir, información reunida a lo largo de un periodo).
1.7. Naturaleza y fuentes de datos para el análisis económico
1.7.1. Tipos de datos
Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series
transversales e información combinada (combinación de series de tiempo y
transversales).
1. Datos de series de tiempo
Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable
en diferentes momentos.
Tal información debe recopilarse en intervalos regulares, es decir, en forma diaria

(precios de acciones, informes del tiempo, etc.), semanal (como cifras de oferta
monetaria), mensual (tasa de desempleo, Índice de Precios al Consumidor [IPC], etc.),
trimestral (como el PIB), anual (como los presupuestos del gobierno), quinquenal (como
el censo de la industria manufacturera), o decenal (como los censos de población).
10
Gráfico 5. PIB a precios de mercado
35.000.000
30.000.000
25.000.000
20.000.000 PIB
15.000.000
10.000.000 1986
1980
1983
1989
1992
1995
1998
2001
2004
2007(p)
2010(p)
Fuente: Elaboración propia en base a datos del INE
El análisis de las series de tiempo corresponde a econometría 2.
2. Datos transversales
Los datos transversales consisten en datos de una o más variables recopilados en el

mismo punto del tiempo (Ej. MECOVI).
3. Datos combinados
Algunas bases de datos tienen características tanto de corte transversal como de series
de tiempo.
Ejemplo
Supongamos que en Bolivia se realizan dos encuestas de corte transversal a los

hogares, una en 1985 y otra en 1990:
1. En 1985 se encuesta a los hogares de una muestra aleatoria acerca de

variables como ingreso, ahorro, tamaño de la familia, etc.
2. En 1990 se toma otra muestra aleatoria de hogares usando las preguntas de

la encuesta anterior.
Combinar (o juntar) los cortes transversales de años distintos suele ser una buena
manera de analizar los efectos de las nuevas políticas públicas.
La idea es recolectar datos de años anteriores y posteriores al cambio de la
política.
11
Una combinación de corte transversal se analiza de manera muy parecida a
como se analizan los datos de corte transversal, salvo que suelen tomarse en
cuenta las diferencias que presentan las variables con el tiempo.
4. Datos en panel, longitudinales o en micropanel
Hay un tipo especial de datos combinados en el cual se estudia a través del tiempo la
misma unidad transversal (por ejemplo, una familia o una empresa).
1.7.2. Fuentes de datos
Los datos para el análisis empírico pueden provenir de:
 una dependencia gubernamental (por ejemplo, El Instituto Nacional de

Estadística)
 un organismo internacional (el Banco Mundial)
 una organización privada (por ejemplo, Ipsos Bolivia)
Hay miles de agencias de este tipo que recopilan datos para uno u otro fin.
1.7.3. Precisión de los datos
Si bien se dispone de numerosos datos para la investigación económica, su calidad no

siempre es adecuada, y por múltiples razones.
1. Problemas de medición (por ej. PIB)
2. Problemas por la falta de respuesta (sesgo de selectividad poblacional)
3. Los métodos de muestreo para obtención de datos llegan a variar tanto que a
menudo es difícil comparar los resultados de las diversas muestras
4. La agregación no permite análisis de microunidades
Por ello se debe tener siempre en mente que el resultado de la investigación será tan
bueno como lo sea la calidad de los datos.
12
Tema 2. Paquetes econométricos
2.1. GAUSS
GAUSS es un lenguaje de programación matricial para matemáticas y estadística.
Su objetivo principal es la resolución de problemas numéricos de la estadística,

econometría, series de tiempo, optimización y visualización 2D y 3D.
Fue publicado por primera vez en 1984 para MS-DOS y en la actualidad también está
disponible para Linux, Mac OS X y Windows.
Programación en GAUSS
Fuente: http://www2.hawaii.edu/~suthers/courses/ics311s14/Notes/Topic-21.html
2.2. Mathematica
Mathematica es un programa utilizado en ingeniería, matemáticas y áreas

computacionales.
Comúnmente considerado como un sistema de álgebra computacional, Mathematica es

también un lenguaje de programación de propósito general.
Sus aplicaciones en econometría están relacionadas a la creación de modelos de prueba

interactivos, análisis de datos y simulaciones extensas y potentes.
13
Ejemplos
1. Función de producción con elasticidad de sustitución constante
Supongamos que la función de producción es la siguiente:
⁄
) ) ))
= producto;
= factor de productividad;
= parámetro de proporción;
= factores de producción primarios
)⁄
= elasticidad de sustitución
Cuando s = 1, la función de producción de elasticidad constante es equivalente a la

función de producción Cobb Douglas.
Función de producción con elasticidad de sustitución constante
Fuente: http://demonstrations.wolfram.com/ConstantElasticityOfSubstitutionProduction/
14
2. Modelo de crecimiento de Solow
Estado estacionario y la regla de oro
Fuente: http://demonstrations.wolfram.com/SolowGrowthModel/
2.3. SAS
 Variedad de métodos de análisis de series de tiempo y predicción.

 Análisis financiero
Probabilidad de compra en función del precio y del ingreso
Fuente:http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecastin
g/ets/index.html
15
Análisis de tendencia: Descomposición estacional y ajuste para series de
tiempo
http://www.sas.com/offices/latinamerica/mexico/technologies/analytics/forecasting/ets/index.html#sectio
n=4
16
2.4. Stata
Stata es un programa completo e integrado de estadísticas para investigadores de

diferentes disciplinas, desde bioestadísticos hasta investigadores sociales y económicos.
 Análisis de datos
 Gestión de datos y gráficos
El editor de datos en Stata
Fuente: http://www.software-
shop.com/images/img_productos/stata/images/sc4.jpg?width=700&height=372
17
2.5. EViews
EViews puede ser empleado para análisis estadístico general, pero es especialmente útil
para realizar análisis econométrico.
 Modelos de corte transversal

 Datos de panel
 Estimación y predicción con modelos de series de tiempo.
Mínimos cuadrados ordinarios en EViews
Fuente: http://www.sba.muohio.edu/noblenr/eviews31/estimate.htm
18
Tema 3. Análisis de regresión con dos variables
En la regresión bivariable o con dos variables, la variable dependiente (la regresada)

se relaciona con una sola variable explicativa (la regresora).
El análisis de regresión múltiple, más general, en el que la regresada se relaciona con

más de una regresora, es, en muchos sentidos, una extensión lógica del caso de dos
variables.
Como se señaló anteriormente, el análisis de regresión se relaciona en gran medida con

la estimación o predicción de la media (de la población) o valor promedio de la
variable dependiente, con base en los valores conocidos o fijos de las variables
explicativas.
3.1. Ejemplo Hipotético
Para entender esto, consideremos los datos sobre el ingreso y los años de escolaridad de
la Encuesta MECOVI del año 2011.
Tabla 2. El promedio del ingreso laboral como función de los años de educación de las
personas
Años de Promedio del Ingreso

Observaciones
educación laboral (Bs.)
0 1205 566.4
1 366 824.8
2 732 907.5
12 2516 1903.5
17 1553 3063.6
19 239 4871.7
Fuente: Elaboración propia en base a los daros de la MECOVI 2011.
La tabla 2 muestra la media o promedio del ingreso mensual que corresponde a 0, 1, 2,

12, 17 y 19 años de escolaridad respectivamente.
A estos valores medios se les llama valores esperados condicionales, en virtud de que
dependen de los valores de la variable (condicional) X.
En forma simbólica, se denotan con E(Y / X ), lo cual se lee como el valor esperado de
Y, dado el valor de X.
19
Es importante distinguir entre los valores esperados condicionales y el valor esperado
incondicional del consumo semanal, E(Y).
Si sumamos los ingresos laborales mensuales de todos los individuos que declararon un
ingreso en la MECOVI 2011, independientemente de los años de educación que tienen,
y lo dividimos entre el número total de observaciones (16108 en total), obtendremos la
cantidad de 1623.5 Bs.
Este es el valor de la media incondicional, o esperada, del consumo semanal, E(Y).
Si graficamos el diagrama de dispersión del ingreso laboral en función de los años de

estudio tenemos:
Gráfico 6: Ingreso laboral y años de estudio

50000
40000
30000
20000
10000
0 5 10 15 20
Años de estudio
Fuente: Elaboración propia en base a los datos de la MECOVI 2011
Ahora bien, si graficamos la media condicional E(Y/X) del ingreso laboral (Y) en
función de los años de estudio (X) tenemos:
20
Gráfico 7: Media del ingreso laboral y años de estudio
5000
Media del ingreso laboral (Bs/Mes)
4000
3000
2000
1000
0 5 10 15 20
Años de estudio
Fuente: Elaboración propia en base a los datos de la MECOVI 2011
Al unir los valores medios de Y en función de los diferentes valores de X obtenemos la

línea de regresión poblacional (LRP), o, más general, la curva de regresión
poblacional (CRP).
Con palabras más sencillas, es la regresión de Y sobre X.
Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo
el lugar geométrico de las medias condicionales de la variable dependiente para los
valores fijos de la(s) variable(s) explicativa(s).
Ejemplos de regresiones
 Consumo como función del ingreso

 Inversión como función de la tasa de interés
 Crecimiento económico como función del capital en la economía
3.2. Concepto de función de regresión poblacional (FRP)
De la anterior exposición, y en especial del gráfico 7, es claro que cada media

condicional E(Y / xi) es función de xi, donde xi es un valor dado de X. Simbólicamente,
E(Y / xi ) = f (xi ) (3.2.1)
donde ƒ(xi) denota alguna función de la variable explicativa X.
21
La ecuación (3.2.1) se conoce como función de esperanza condicional (FEC),
función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar.
Dicha función sólo denota que el valor esperado de la distribución de y dada xi se

relaciona funcionalmente con xi.
¿Qué forma adopta la función ƒ(xi)?
Por ejemplo, un economista puede plantear que el consumo manifiesta una relación
lineal con el ingreso.
Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la
FRP E(Y/ xi ) es una función lineal de xi, del tipo:
) (3.2.2)
donde y son parámetros no conocidos pero fijos que se denominan coeficientes

de regresión.
y se conocen también como coeficientes de intersección y de pendiente,

respectivamente.
La ecuación (3.2.1) se conoce como función de regresión poblacional lineal.
Expresiones similares son modelo de regresión poblacional lineal o sólo regresión

poblacional lineal o ecuación de regresión lineal.
En el análisis de regresión, la idea es estimar las FRP como la ecuación (3.2.2); es

decir, estimar los valores no conocidos de y con base en las observaciones de Y
y X.
3.3. Significado del término lineal
Linealidad en las variables
El primer significado, y tal vez el más “natural”, de linealidad es aquel en que la

esperanza condicional de Y es una función lineal de xi, como en la ecuación (3.2.2).
Geométricamente, la curva de regresión en este caso es una recta.
En esta interpretación, una función de regresión como ) no es una

función lineal porque la variable X aparece elevada a una potencia 2.
Linealidad en los parámetros
La segunda interpretación de linealidad se presenta cuando la esperanza condicional

de Y, E(Y | xi), es una función lineal de los parámetros, los β.
22
En este sentido, puede ser o no lineal en la variable X.
De acuerdo con esta interpretación, ) es un modelo de regresión

lineal (en el parámetro).
Todos los modelos del gráfico 8 son de regresión lineal; es decir, son modelos lineales
en los parámetros.
Gráfico 8: Funciones lineales en los parámetros
Fuente: Gujarati y Porter; Econometría. 5ta Edición, pág. 39

De las dos interpretaciones de linealidad, la linealidad en los parámetros es pertinente
para el desarrollo de la teoría de regresión que presentaremos en los siguientes
capítulos.
Por consiguiente, en adelante, el término regresión “lineal” siempre significará una

regresión lineal en los parámetros; los β (es decir, los parámetros) se elevan sólo a la
primera potencia. Puede o no ser lineal en las variables explicativas X.
Así, ) , lineal en los parámetros igual que en las variables, es un

modelo de regresión lineal (MRL), lo mismo que ) , lineal en los
parámetros pero no lineal en la variable X.
3.4. Especificación estocástica de la FRP
Expresaremos la desviación de un yi en particular alrededor de su valor esperado de la

manera siguiente:
)
23
) (3.4.1)
donde la desviación ui es una variable aleatoria que adopta valores positivos o

negativos.
Técnicamente, ui se conoce como perturbación estocástica o término de error

estocástico.
Si suponemos que E(Y | xi) es lineal en xi, la ecuación (3.4.1) se escribe como:
(3.4.2)
3.5. Importancia del término de perturbación estocástica
El término de perturbación ui es un sustituto de todas las variables que se omiten en

el modelo, pero que, en conjunto, afectan a Y.
La pregunta obvia es:
¿Por qué no se introducen explícitamente estas variables en el modelo?
O de otra forma,
¿Por qué no se crea un modelo de regresión múltiple con tantas variables como sea
posible?
Las razones son muchas:
1. Vaguedad de la teoría: De existir una teoría que determine el comportamiento

de Y, podría estar incompleta, y con frecuencia lo está. Por consiguiente, ui sirve
como sustituto de todas las variables excluidas u omitidas del modelo.
2. Falta de disponibilidad de datos
3. Variables centrales y variables periféricas: Es muy posible que la influencia

conjunta de todas o algunas de las variables sea muy pequeña, y que desde el
punto de vista práctico y por consideraciones de costo no se justifique su
introducción explícita en el modelo.
4. Aleatoriedad intrínseca en el comportamiento humano: Aunque se logre

introducir en el modelo todas las variables pertinentes, es posible que se presente
alguna aleatoriedad “intrínseca” en Y que no se explique, a pesar de todos los
esfuerzos que se inviertan.
24
5. Variables representantes (proxy) inadecuadas: En la práctica, los datos pueden
estar plagados de errores de medición.
Consideremos, por ejemplo, la famosa teoría de la función de consumo

postulada por Milton Friedman. Él considera el consumo permanente (Yp) como
función del ingreso permanente (Xp).
Pero como la información sobre estas variables no es observable directamente,

en la práctica se utilizan variables representantes (proxy), como el consumo
actual (Y ) y el ingreso actual (X ), que sí son observables.
Como las Y y las X observadas pueden no ser iguales a Yp y Xp, existe el

problema de errores de medición.
6. Principio de parsimonia: De acuerdo con el principio de la navaja de Occam,

conviene mantener el modelo de regresión lo más sencillo posible.
Si se explica “sustancialmente” el comportamiento de Y con dos o tres variables

explicativas, y si la teoría no es bastante fuerte para indicar otras variables que
pueden incluirse, ¿para qué introducir más variables?
Que ui represente todas las demás variables.
Por supuesto, no se deben excluir variables pertinentes e importantes sólo para

que el modelo de regresión no se complique.
7. Forma funcional incorrecta: Aunque se cuente con variables teóricamente

correctas para explicar un fenómeno y se obtengan datos sobre ellas, con
frecuencia no se conoce la forma de la relación funcional entre la variable
regresada y las regresoras.
¿Es el consumo una función lineal (invariable) del ingreso, o es una función no
lineal (invariable)?
Si se trata de lo primero, es la relación funcional adecuada

entre Y y X,
Pero en el segundo caso, puede ser la forma

funcional correcta.
En los modelos con dos variables, la forma funcional de la relación a menudo se

puede inferir del diagrama de dispersión.
Sin embargo, en un modelo de regresión múltiple no es fácil determinar la forma

funcional apropiada, pues los diagramas de dispersión no se visualizan
gráficamente en múltiples dimensiones.
Por todas estas razones, las perturbaciones estocásticas ui asumen un papel muy valioso
en el análisis de regresión.
25
3.6. Función de regresión muestral (FRM)
Ahora, igual que la FRP en la cual se basa la línea de regresión poblacional, se

desarrolla el concepto de función de regresión muestral (FRM) para representar la
línea de regresión muestral.
La contraparte muestral de la ecuación (3.2.2) puede escribirse como:
̂ ̂ ̂ (3.6.1)
donde ̂ se lee “y sombrero” o “y gorra”
̂ = estimador de E(Y | xi )
̂ = estimador de β1
̂ = estimador de β2
Ahora, tal como la FRP se expresa en dos formas equivalentes, (3.2.2) y (3.4.2), la FRM
(3.6.1) se expresa en su forma estocástica de la siguiente manera:
̂ ̂ ̂ ̂
donde, además de los símbolos ya definidos, ûi denota el término residual (muestral).
Conceptualmente, ûi, es análogo a ui y se considera una estimación de ui, que se

introduce en la FRM por las mismas razones que se introdujo ui en la FRP.
Así, para resumir, concluimos que el objetivo principal del análisis de regresión es
estimar la FRP:
Con base en la FRM:
̂ ̂ ̂ ̂
26
Tema 4. Estimación de los parámetros de una regresión
4.1. Planteamiento
Supongamos un modelo de regresión múltiple o Modelo Básico de Regresión Lineal

(MBRL) definido como:
yi  1   2 x2i   3 x3i  ........   k xki  ui
donde los parámetros β cuantifican la relación parcial de cada variable exógena X con la
endógena Y.
Se plantea ahora la siguiente pregunta ¿cómo obtener una buena estimación de esos
parámetros β a partir de los datos disponibles para “Y” y para cada una de las
“X”?
4.2. Estimador de Mínimos Cuadrados Ordinarios
Uno de los procedimientos más conocidos es el denominado Estimador de Mínimos

Cuadrados Ordinarios (MCO).
Este procedimiento plantea utilizar, como estimación de los parámetros, aquella

combinación de β1, β2,…… βk que minimice los errores que el modelo cometerá.
¿Qué significa esto?
Si dispusiéramos a priori de los parámetros estimados podríamos escribir el MBRL

como:
yˆ i  ˆ1  ˆ 2 x2i  ˆ3 x3i  ........  ˆ k xki
Y no como:
yi  1   2 x2i   3 x3i  ........   k xki  ui
Y por tanto, podríamos computar el error o residuo que el modelo comete en la

estimación de cada valor de la endógena comparado al valor real de la endógena:
27
ei  yi  yˆ i
ei  yi  (ˆ1  ˆ2 x2i  ˆ3 x3i  ........  ˆk xki )
Este error dependería, evidentemente, del valor asignado a las estimaciones de los
parámetros β;
Pues bien, el método de MCO sugiere utilizar aquella combinación de parámetros

estimados que minimice la suma al cuadrado de todos los errores cometidos para
las “n” observaciones disponibles:
n
̂ MCO  min( S )  min  ei 2
i 1
Para obtener algebraicamente una expresión de cálculo operativa para los estimadores
MCO, procedemos de la siguiente forma:
4.2.1. Derivación no matricial de la expresión de los estimadores MCO
La expresión a minimizar es:
 
n n
( S )   ei    y i  ˆ1  ˆ 2 x 2i  ˆ3 x3i  ........  ˆ k x ki
2 2
i 1 i 1
Para obtener los valores de cada uno de los “k” parámetros ˆ j que minimizan esta
expresión derivamos con respecto a cada uno de ellos e igualamos a cero, obteniendo
“k” expresiones del tipo:
( S )
 
 2 y i  ˆ1  ˆ 2 x 2i  ˆ3 x3i  ........  ˆ k x ki   x ji   0
n
ˆ j i 1
Estas expresiones se denominan “ecuaciones normales”.
En este sistema de las ecuaciones normales las incógnitas son los parámetros ˆ j a
estimar.
Observadas una a una, para cada parámetro, las expresiones de las ecuaciones normales
son:
28
n n n n n
 yi x1i  ˆ1  x1i x1i  ˆ2  x2i x1i  ˆ3  x3i x1i  ........  ˆk  xki x1i
i 1 i 1 i 1 i 1 i 1
n n n n n
 yi x2i  ˆ1  x1i x2i  ˆ2  x2i x2i  ˆ3  x3i x2i  ........  ˆk  xki x2i
i 1 i 1 i 1 i 1 i 1
n n n n n
 yi x3i  ˆ1  x1i x3i  ˆ2  x2i x3i  ˆ3  x3i x3i  ........  ˆ k  xki x3i
i 1 i 1 i 1 i 1 i 1
...
n n n n n
 yi xki  ˆ1  x1i xki  ˆ2  x2i xki  ˆ3  x3i xki  ........  ˆk  xki xki
i 1 i 1 i 1 i 1 i 1
Ahora bien, si definimos las siguientes matrices:
 y1 
 
y 
Y  2
...
 
y 
 n
 x11 x21 ... xk1 

 
x x22 ... xk 2 
X   12
... ... ... ... 
 
x x2 n ... xkn 
 1n
 ˆ1 
 
 ˆ 
ˆ   2 
 ... 
 ˆ 
 K
Podemos re-expresar las ecuaciones previas en forma matricial de la siguiente manera:
X ' Y  X ' Xˆ

 X ' X 1 X ' Y   X ' X 1 X ' Xˆ
ˆ   X ' X 1 X ' Y
29
4.2.2. Derivación matricial de la expresión de los estimadores MCO
Puede plantearse el desarrollo de la expresión de la estimación de los estimadores

utilizando exclusivamente álgebra matricial.
Efectivamente, la minimización de residuos puede plantearse a partir del vector de

residuos “e” como:
   
min( e' e)  min Y  Xˆ ' Y  Xˆ  min Y 'Y  Y ' Xˆ  ˆ ' X 'Y  ˆ ' X ' Xˆ 
Obsérvese cómo los productos matriciales Y ' X̂ y ̂ ' X ' Y son en realidad lo mismo e
iguales a un escalar: efectivamente, la primera expresión es la transpuesta de la segunda
y dado que el orden de cada una de ellas es (1x1), es decir, un escalar, estamos viendo
en realidad dos expresiones equivalentes del mismo número (escalar).
   
min( e' e)  min Y  Xˆ ' Y  Xˆ  min Y 'Y  2ˆ ' X 'Y  ˆ ' X ' Xˆ 
Así pues, podemos escribir Y ' X̂ + ̂ ' X ' Y como 2Y ' X̂ ó bien cómo 2ˆ ' X ' Y de
modo que tenemos:

min( e' e)  min Y ' Y  2ˆ ' X ' Y  ˆ ' X ' Xˆ 
Para resolver ahora la minimización, recurrimos de nuevo al concepto de derivada
parcial.
En el caso de las matrices, debemos recordar una propiedad de utilidad; para cualquier
par de matrices A y B se cumple que:
 A' BA
 2 BA  2 A' B
A
En nuestro caso, debemos derivar respecto a ˆ (ó ˆ ' ) tres sumandos, y es para el

tercero de ellos ( ˆ ' X ' Xˆ ) para dónde debemos recordar la propiedad matricial
anterior (en nuestro caso, A es la matriz ˆ y B es la matriz X’X):
min( e' e) 
(e' e)
0

 Y 'Y  2ˆ ' X 'Y  ˆ ' X ' Xˆ 
 0  0  2 X 'Y  2 X ' Xˆ  0
ˆ ˆ
30
de donde nuevamente obtenemos:
ˆ   X ' X 1 X ' Y
Ejercicios
Derivar los estimadores algebraicamente para el caso k=2 y k=3. Considerar el caso de
una ecuación con constante y otra sin constante.
4.3. Estimador Máximo Verosímil
Una segunda aproximación consiste en utilizar lo que se conoce como planteamiento de

estimación máximo verosímil (MV).
La idea del estimador máximo verosímil es sencilla de intuir:
Un estimador MV de un parámetro desconocido es aquel valor que maximizaría la

probabilidad de observar una determinada muestra obtenida suponiendo una serie
de hipótesis de partida.
Para determinar un estimador MV debemos ser capaces de:
1. Determinar con claridad las hipótesis relativas a la distribución teórica del

parámetro en la población
2. Expresar matemáticamente la probabilidad de obtener una determinada muestra,

en función de las hipótesis asumidas, de modo que esa expresión sea
matemáticamente “maximizable” en función del parámetro muestral de interés.
En nuestro caso, este planteamiento propone utilizar como estimadores de los

parámetros aquel conjunto de parámetros poblacionales β que haría más probable
observar una muestra de errores que tengan las siguientes características:
1. Distribución normal
2. Media nula
3. Varianza constante
Es decir:

ui  N 0, 2 
31
Es decir, un conjunto de errores que van a distribuirse conforme a una determinada
función de densidad conjunta con una determinada media y desviación típica.
O bien para todo el vector de perturbaciones aleatorias:
U  N 0, 2 I  
Así pues, la función de densidad de cada uno de los errores será:
 u2 
f u i   1 1 exp  1 i2 

 2
2  
2

Por lo que, tomando la función de densidad conjunta para cualquier normal

multivariante tenemos que1:
 n

  u i2 
 
n
L  f u    f (u i )  2  exp  1 i 1 2 
n / 2 2 n / 2
i 1
 2  
 
 
Se trata, por tanto, de obtener el conjunto de parámetros ˆ que hacen máxima la

función (probabilidad) de densidad conjunta:
  n

 n   u i2 
max( L)  max   f (u i )  2 
n / 2
2   n / 2
exp  1 i 1 2
 2 


 i 1   
  
Con el fin de computar la derivada parcial de esa expresión “L” con respecto a los
parámetros estimados, linealizamos la expresión obteniendo:
1
En realidad, la expresión genérica correcta para esta función es:
 n

n
  u i2 
L  f u    f (u i )  2  exp  1 i 1 2 
n / 2 n / 2

i 1
 2  
 
 
donde Σ es la matriz de varianzas y covarianzas de las variables aleatorias normales multivariantes. No

obstante, y a pesar de la pérdida de precisión de la notación, se mantiene la referencia a σ2 por sencillez
expositiva y porque, evidentemente, no afecta al resultado final que se pretende ilustrar.
32
Ln( L)   n ln 2   n ln  2  1 2 U 'U
2 2 2
O lo que es igual, considerando ahora los errores muestrales y no las perturbaciones

aleatorias poblacionales:
Ln( L)   n ln 2   n ln  2  1 2 e' e

2 2 2
Ln( L)   n ln 2   n ln  2  1 2 y  Xˆ ' y  Xˆ

2 2 2
  
Es evidente que maximizar esta probabilidad con respecto a ˆ implica minimizar el
último de los sumandos, esto es:

max Ln( L)  min y  Xˆ ' y  Xˆ  
Que como se ve, es lo mismo que plantear el estimador de Mínimos Cuadrados
Ordinarios revisado anteriormente. Es decir, el estimador Máximo Verosímil va a
coincidir para el Modelo Básico de Regresión Lineal con el estimador de Mínimos
Cuadrados Ordinarios.
4.4. Interpretación “intuitiva” de los estimadores MCO en la regresión

múltiple
La interpretación del significado de los estimadores MCO es mucho más interesante que
los detalles técnicos sobre su derivación. ¿Qué representa un parámetro estimado ˆ j ?
Si imaginamos una ecuación estimada con dos variables exógenas más un término
independiente, el modelo estimado sería:
yˆ i  ˆ1  ˆ2 x2i  ˆ3 x3i
Imaginemos una muestra temporal donde “i” representa el paso del tiempo. Si
expresamos ahora el modelo “en diferencias”, es decir, si al valor estimado de “y” en el
período “i” ( ŷ i ) le restamos el valor estimado de “y” en el período “i-1” ( yˆ i 1 ) tenemos
que:
  
yˆ i  yˆ i 1  ˆ1  ˆ 2 x2i  ˆ3 x3i  ˆ1  ˆ 2 x2i 1  ˆ3 x3i 1 
yˆ  ˆ x  ˆ x
i 2 2i 3 3i
33
¿Qué representa por tanto ˆ 2 ?. Una forma simple de expresar ˆ 2 es:
yˆ i
Si x3i  0   ˆ 2
x 2i
Es decir, ˆ 2 permite computar el cambio obtenido en “y” producido por un cambio

en “x2” manteniéndose “x3” constante.
Luego, “la regresión múltiple nos permite imitar (…) lo que los científicos hacen en los
entornos (experimentales) controlados de laboratorio: conservar fijos otros factores”.
Ejemplo
Imaginemos el resultado obtenido en la estimación de una regresión que relaciona las

ventas mensuales de nuestra empresa con los cambios en los precios y en la publicidad:
Vî  2  0,5 Pri  1,3Pubi
Si las ventas y la publicidad están medidas en millones de Bs. y los precios en Bs. por
unidad:
 El parámetro -0.5 de los precios indicaría que por cada incremento de un

boliviano en el precio unitario, nuestras ventas se reducirían en medio millón de
bolivianos siempre y cuando se mantuviese constante el presupuesto en
publicidad.
 El coeficiente de 1.3, positivo, indica que, si no variamos el precio de venta, un

incremento de 1 millón de bolivianos en publicidad genera un incremento de
ventas de 1.3 millones.
Evidentemente, la empresa nunca movió sólo los precios o sólo la publicidad, sino que
todos los años hizo, probablemente, ambas cosas: sin embargo, la regresión múltiple
permite “aislar” ambos efectos.
Una observación de interés es: ¿qué sucede si sólo utilizamos una de las dos
variables en la regresión?
En ese caso, puede observarse que los resultados de las dos regresiones individuales
son:
Vî  1,9  0,38 Pri

Vî  1,6  3,9Pubi
34
Los resultados de la regresión sobre el precio son “similares” a los obtenidos en la
regresión múltiple
Pero ¿qué ha sucedido con los resultados de la regresión sobre la publicidad?.
Utilizando los mismos datos, el signo de la Publicidad en su relación con las ventas es
ahora negativo ¿cómo podemos explicar esto?
Observemos la evolución de las ventas, los precios y la publicidad en los años utilizados
para la estimación:
Gráfico 9. Ventas, precios y publicidad
9
8
7
6
5
ventas
4
precio
3
publicidad
2
1
0
-1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
-2
Fuente: Mohía, Ramón. 2012
Cuando tomamos sólo los datos de la publicidad y las ventas, observamos que,
efectivamente, a lo largo de los últimos 15 años la publicidad se ha incrementado
notablemente pero, sin embargo, las ventas han disminuido.
Sin embargo, durante este mismo período, los precios han crecido también de forma
muy significativa, de modo que el efecto teóricamente positivo de la publicidad se ha
visto anulado por un incremento descontrolado de los precios.
Si “sólo” observamos la relación entre ventas y publicidad, subestimamos

clamorosamente el efecto de la publicidad.
Del mismo modo, si sólo observamos la relación entre ventas y precios, subestimamos
también el efecto negativo de un alza en los precios (la realidad es que, si no
hubiésemos elevado la publicidad a lo largo de estos 15 años, la caída de las ventas ante
tal incremento de los precios hubiera sido algo mayor).
La anterior exposición nos “obliga” a plantearnos algunas preguntas:
1. Si sólo estamos interesados en el efecto de una variable explicativa en su

relación con la endógena (y) ¿Es necesario incluir en la regresión múltiple
35
otras variables que son potencialmente relevantes para observar
adecuadamente ese único parámetro de interés?
Así es, el ejemplo anterior demuestra que, aunque nuestro interés se centre en
una variable exógena, debemos recoger información de las demás variables que
han podido variar durante el período muestral, de otro modo, no podemos
“aislar”, “distinguir del resto”, los efectos de la variable que nos interesa.
Técnicamente, esto tiene que ver con la multicolinealidad, es decir la relación

entre los regresores “X” y las perturbaciones aleatorias “U”.
Formulando la multicolinealidad a partir de la covarianza tenemos:
Cov(u, x)  0  Cov( y  1   2 x, x)  0
Cov( y, x)  Cov( 1 , x)   2 Cov( x, x)  0
Cov( x, y )
 Cov( y, x)   2V ( x)  0   2 
V ( x)
Es decir, el parámetro  de una regresión simple puede obtenerse a partir de la

covarianza (x,y) sólo sí asumimos Cov(u, x)  0 .
En caso de que la Cov(u, x)  0 ocurre que el parámetro  ya no puede

aproximarse sólo por la covarianza (x,y) dado que en realidad es:
Cov(u, x)    Cov( y  1   2 x, x)  
Cov( x, y ) 
 Cov( y, x)   2V ( x)     2  
V ( x) V ( x)
2. ¿Existe alguna excepción a lo anterior? Es decir, ¿es posible obtener

resultados correctos (no subestimados ni sobreestimados) en las regresiones
individuales?
Si.
El problema reside, en realidad, en la existencia de correlación entre las

variables explicativas utilizadas en el ejemplo. ¿Por qué?.
El problema de una muestra en la que existe correlación alta entre las

explicativas (positiva o negativa) es que la muestra no permite “aislar” el
efecto de cada una sobre la endógena, porque, imaginando que la correlación
fuera positiva, cada vez que una creció (respecto a su media), la otra también lo
hizo.
36
Ahora bien, si en nuestra muestra podemos encontrar crecimientos de una
exógena que se hayan combinado con incrementos y disminuciones de la
otra de modo que entre ambas no exista una correlación sistemática, la
muestra es ideal para observar los efectos de forma individual (sin recurrir
a la regresión múltiple) porque los efectos de subestimación y sobreestimación
en esas estimaciones individuales aparecerán “compensados”, resultando nulos o
poco significativos.
En términos técnicos, lo que sucede cuando no existe relación entre la variable
incluida y la omitida, es que no existe tampoco relación entre esa variable
incluida y la perturbación aleatoria (u) que aglutina las variables omitidas, de
modo que vuelve a verificarse Cov(u, x)  0 .
3. ¿Por qué es importante que no exista correlación muestral entre las

exógenas? ¿Por qué se formula la hipótesis de ausencia de
multicolinealidad?
La regresión múltiple permite “separar” los efectos de cada exógena sin cometer
sesgos de sobre o subestimación aun cuando las muestras sean “desfavorables”
en ese sentido (es decir, aun cuando las exógenas estén muy relacionadas).
Por otra parte, la existencia de multicolinealidad implica un precio a pagar

inevitable: una menor precisión en la estimación de los parámetros (una
mayor varianza en la estimación).
Esto puede entenderse intuitivamente: si las variaciones de una variable X2 se

ven sistemáticamente acompañadas de la variación de otra variable X3, resulta
difícil separar con precisión qué parte de los efectos sobre “Y” se deben a los
movimientos de X2 y que parte a los de X3.
37
Tema 5. Propiedades de los estimadores MCO/MV
5.1. Introducción
Una vez lograda una expresión matricial para la estimación de los parámetros del
modelo, es pertinente comprobar las propiedades estadísticas de los mismos.
En este sentido, los parámetros MCO o Máximo-verosímiles se calcularán así2:
ˆ  X ' X 1 X 'Y
donde se ha utilizado la expresión del modelo en forma matricial:
Y  X  U
nx1 nxk kx1 nx1
Se demuestra, a continuación, que estos estimadores son estimadores lineales,

insesgados, óptimos y consistentes (ELIO3+Consistentes).
Insesgadez
En primer lugar, contar con un estimador insesgado nos asegura que el valor esperado
de nuestro cálculo coincide con el valor real del parámetro.
Eficiencia
La segunda propiedad permite asegurar que los parámetros estimados también serán
“óptimos”; es decir, serán los que cuenten con la varianza más pequeña de entre
todos los insesgados.
Consistencia
2
La expresión de cálculo es la misma para ambos cuando la función de densidad de las perturbaciones
aleatorias se distribuye como una normal.
3
BLUE en inglés (Best Linnear Unbiased Estimator) y, a veces, MELI en algunas traducciones.
38
Esto quiere decir que el valor obtenido en la estimación MCO coincidirá con el valor
de los parámetros reales si en lugar de utilizar una muestra usáramos el total de
los datos (o dicho de otro modo, una muestra infinita).
5.2. Linealidad
Adicionalmente, suele añadirse a la insesgadez, eficiencia y consistencia la deseable

propiedad matemática de la linealidad.
En concreto, en nuestro contexto, entendemos por “linealidad” del estimador el hecho

de que los estimadores sean combinación lineal de las perturbaciones aleatorias.
Esta relación lineal entre estimador y perturbación tendrá importantes

consecuencias para poder determinar las propiedades de la distribución de los
parámetros.
Bajo el supuesto habitual de normalidad de las perturbaciones aleatorias,

demostrar que los parámetros son una combinación lineal de éstas lleva
inmediatamente a conocer en qué forma se distribuyen nuestros coeficientes
estimados.
Sabiendo cuál es su función de densidad, podremos calcular con facilidad en qué rango
o intervalo se mueven éstos.
Incluso podremos diseñar algunos contrastes estadísticos para averiguar el grado de

significatividad de estos (en qué medida podemos decir que los parámetros son distintos
de cero o, dicho de otra forma, en qué grado las variables a las que multiplican
dichos parámetros son relevantes para la explicación de la variable endógena del
modelo).
Para comprobar que los parámetros estimados son una combinación lineal de las
perturbaciones aleatorias del modelo, basta con sustituir “Y” en la expresión de cálculo
de los mismos por su expresión completa:
ˆ  X ' X 1 X 'Y

Y  X  U
ˆ  X ' X 1 X ' X  X ' X 1 X 'U
    X ' X  X 'U
1
ˆ    WU
Los estimadores MCO son una combinación lineal de las perturbaciones aleatorias.
39
5.3. Insesgadez
En este momento tiene interés demostrar que el valor esperado del parámetro estimado
con MCO coincide con el valor real del parámetro.
Para la demostración, partiremos del resultado obtenido en el apartado anterior, cuando

escribimos los parámetros como una combinación lineal de las perturbaciones
aleatorias:
ˆ  X ' X 1 X ' Y  X ' X 1 X ' X  X ' X 1 X 'U

   X ' X  X 'U
1
E ( ˆ )  E (   X ' X  X 'U )
1
   X ' X  X ' E (U )
1
E (U )  0
E ( ˆ )  
El valor esperado del estimador coincide con el real.
5.4. Óptimo (Eficiencia)
El objeto de esta demostración es comprobar que los parámetros estimados mediante

MCO son los que tienen la varianza más pequeña de entre todos los alternativos
posibles de la familia de los insesgados.
Utilizaremos dos vías alternativas para demostrar esta propiedad.
Demostración 1: Eficiencia de MCO por comparación con un estimador

alternativo
Para demostrar que el estimador MCO es el estimador óptimo se seguirán cuatro pasos:
1. Se determina el valor de las varianzas de los estimadores MCO
2. Se propone un estimador alternativo al MCO cualquiera y se comprueba cuál es

la condición necesaria y suficiente para que dicho estimador sea insesgado
3. Se determinan las varianzas de estos estimadores alternativos
4. Se comparan las varianzas de éste con las de los estimadores MCO
40
1. Matriz de varianzas-covarianzas de los estimadores
Partiendo de la expresión hallada al demostrar la linealidad y sabiendo que este

estimador es insesgado:
ˆ    X ' X 1 X 'U

E ( ˆ )  
Podemos calcular la matriz de varianzas-covarianzas de los parámetros MCO del

siguiente modo:

COV  VAR ( ˆ )  E ( ˆ  E ( ˆ ))(ˆ  E ( ˆ ))' 

 E (   X ' X  X 'U   )(   X ' X  X 'U   )'
1 1


 E (X ' X  X 'U )(X ' X  X 'U )'
1 1


 E X ' X  X 'UU ' X X ' X 
1 1

E (UU ' )   I n 2
COV  VAR ( ˆ )   X ' X  X ' X X ' X    2 X ' X 

1 2 1 1
COV  VAR ( ˆ )   2 X ' X 

1
2. Estimador alternativo insesgado
Sumando una matriz “P” no nula a la expresión del estimador MCO se obtiene la
expresión general de un estimador cualquiera alternativo, del que habrá que
comprobar qué condiciones ha de cumplir para ser insesgado.
En primer lugar, escribimos la expresión de un parámetro alternativo simplemente

adicionando a la fórmula de los MCO una matriz “P” distinta de cero.
Posteriormente, escribimos este parámetro alternativo sustituyendo “Y” por su valor:


  X ' X 1 X ' P Y 
Y  X  U

 X ' X  X ' X  X ' X  X 'U  PX  PU
1 1


   X ' X  X 'U  PX  PU
1

Una vez contamos con la expresión de un estimador cualquiera alternativo, hay que
comprobar cuáles son las condiciones que este debe cumplir para ser insesgado:
41


E (  )  E   X ' X  X 'U  PX  PU 
1


   X ' X 
1
X ' E (U )  PX  PE (U ) 
   PX 
condición insesgadez PX  0

    X ' X 1 X 'U  PU
En la expresión anterior, efectivamente es necesario verificar la siguiente condición para

que no haya sesgo: PX  0 .
En esta expresión, los parámetros no pueden contener ningún cero, ya que se supone
que la especificación del modelo es correcta (no sobra ninguna variable explicativa).
Por ello, la expresión anterior de la insesgadez de los parámetros alternativos queda

reducida a que: PX  0 .
3. Matriz de varianzas-covarianzas del estimador alternativo
A continuación, se calcula la expresión de la matriz de varianzas-covarianzas de estos

estimadores que, para ser insesgados, nos permiten suprimir de los cálculos cualquier
producto en el que intervenga PX  0 (o su transpuesta).

 1
 1

COV  VAR (  )  E (   X ' X  X 'U  PU  E (  ))(  X ' X  X 'U  PU  E (  ))'


Dado que : E (  )  0 


COV  VAR (  )  E (X ' X  X 'U  PU )(X ' X  X 'U  PU )'
1 1


 E X ' X  X 'UU ' X X ' X   X ' X  X 'UU ' P' PUU ' X X ' X   PUU ' P'
1 1 1 1

42
Dado que :
E (UU ' )   I  
2
n
2

COV  VAR (  )   2 E (X ' X  X ' X X ' X   X ' X  X ' P' PX X ' X   PP ' )
1 1 1 1
Pero PX  0

COV  VAR (  )   2 (X ' X   PP ' )
1
4. Comparación de varianzas
Finalmente hay que comprobar que efectivamente las varianzas de los estimadores
MCO siempre son inferiores a las varianzas de cualquier otro estimador insesgado:

COV  VAR ( )   2 (X ' X   PP' )   2 X ' X   COV  VAR (ˆ )
1 1
Esta condición se verifica siempre, ya que PP’ es una matriz por su transpuesta, luego
en su diagonal siempre hay números positivos y es precisamente la diagonal principal
donde en la matriz de varianzas-covarianzas están las varianzas.
Demostración 2: Cota de Cramer Rao
La cota de Cramer – Rao4 expresa una cota inferior para la varianza de un estimador
insesgado (lineal o no, por cierto).
La expresión matemática de esta cota es:
  2 ln Lu,  
1
CCR   E  
  2 
Lo que “leído” vendría a ser: Menos la inversa de la esperanza matemática de la

derivada segunda del logaritmo de la función de verosimilitud (función de información
de Fisher) respecto del parámetro de interés.
En nuestro caso, recordemos que la función de verosimilitud era:
4
O también cota inferior de Cramér-Rao (CRLB), llamada así en honor a Harald Cramér y Calyampudi
Radhakrishna Rao.
43
 n

  u i2 
 
n
L  f u    f (u i )  2  exp  1 i 1 2 
n / 2 2 n / 2
i 1
 2  
 
 
Matricialmente y en logaritmos:
Ln( L)   n ln 2   n ln  2  1 2 U 'U

2 2 2
Ln( L)   n
2
ln 2   n
2
ln  
2 1
2 2

Y  Xˆ ' Y  Xˆ  
Ln( L)   n ln 2   n ln  2  1 2 Y ' Y  2 ' X ' Y   ' X ' X 
2 2 2
Así pues, la primera derivada respecto a β es (observe que en los dos primeros
sumandos no aparece el término β):

1 
Ln( L)   2 2 Y ' Y  2 ' X ' Y   ' X ' X  
  2  2 X ' Y  2 X ' X 
1
  2
De modo que la segunda derivada es:
 2 Ln( L)
  2 X ' X 
1
 2

De donde se deduce que la CCR es:
  2 Lu,  
1
  
1
 1 
  E  2  X ' X   E  2 X ' X   X ' X 1
1
CCR   E  
2
    
2

Es decir, efectivamente, la cota de varianza mínima coincide con la varianza de

nuestro estimador MCO/MV de donde se deduce que nuestro estimador es
eficiente (tiene varianza mínima).
44
5.5. Consistencia
Por último, se demostrará que los parámetros MCO son consistentes; es decir que
ampliando la muestra al total de la población, el valor estimado coincide con el
real.
Dicho de otra forma, cuando contamos con todos los datos, no con una muestra, el
cálculo de MCO da como resultado los parámetros reales, un cálculo exacto, luego con
varianza igual a cero.
p lim ( ˆ )    p lim (var(ˆ ))  0

n  n 
Para demostrar esta situación, emplearemos la segunda expresión (la de la probabilidad

asintótica de la varianza de los estimadores).
Sustituyendo esta fórmula por su expresión de cálculo (a la que hemos llegado cuando
realizamos la demostración de la eficiencia u optimalidad de los parámetros) tenemos:
1
 2 X'X 
p lim (var(ˆ ))   2 X ' X  
1
0
n  n  n 
Lo antedicho, podría interpretarse como que, a medida que vamos aumentando el

número de datos en nuestra estimación (“n” tiende a infinito), el valor del
producto sería cada vez más pequeño; es decir, se iría aproximando a cero.
5.6. Corolario
Los estimadores MCO cumplen con las cuatro propiedades propuestas (linealidad,
insesgadez, optimalidad y consistencia).
Además de saber que contamos con las estimaciones paramétricas con mayores
garantías estadísticas, también podemos saber que los coeficientes del modelo se
distribuyen como una Normal, con media el verdadero valor del parámetro (son
insesgados) y varianza COV  VAR (ˆ )   2 X ' X  .
1
Es decir:
ˆ  N ( ; 2 X ' X 1 )
45
Tema 6. Estimadores de la varianza de los errores
6.1. Estimadores de la varianza de los errores
Una vez deducida la fórmula para la estimación de los parámetros del modelo, a través
de los MCO o MV, se comprobó que dichos estimadores son lineales, insesgados,
óptimos y consistentes (ELIO+Consistentes).
Así, y conforme a la primera propiedad - la linealidad -, los estimadores MCO son una
combinación lineal de las perturbaciones aleatorias del modelo (U):
ˆ    X ' X 1 X 'U
Asumiendo las hipótesis realizadas sobre las perturbaciones, es inmediato deducir que
los estimadores MCO se distribuirán también como una normal, cuya media se deduce
al demostrar que son insesgados y su varianza se calcula en la demostración de la
optimalidad (o eficiencia):
ˆ  N ( ; 2 X ' X 1 )
Esta conclusión será enormemente útil para la siguiente fase en la modelización:

validación y evaluación del modelo estimado.
Conociendo cómo se distribuyen los parámetros estimados, podremos llevar a cabo

distintos contrastes sobre su bondad o su significación estadística.
Pero, para ello, deberemos conocer alguna forma de estimar la matriz de varianzas-
covarianzas de los parámetros:
1. X ' X 1 será una matriz fácilmente calculable, dado el carácter de regresores
deterministas que se le suponen por hipótesis a las explicativas del modelo.
2. El problema estará en encontrar un estimador para  2 , o la varianza de las

perturbaciones aleatorias del modelo.
La literatura econométrica propone diversas opciones para estimar  2 , de las cuales

nosotros rescataremos dos:
(i) El estimador máximo verosímil de la varianza de las perturbaciones

aleatorias
46
(ii) El estimador insesgado de la varianzas de las perturbaciones aleatorias.
El estimador máximo verosímil de la varianza de las perturbaciones aleatorias:

varianza muestral de los errores del modelo:
∑
̃
El estimador insesgado de la varianza de las perturbaciones aleatorias:
∑
̂
El primero de estos dos estimadores propuestos es plausible en términos teóricos.
Aun así, se puede demostrar que este estimador es sesgado y que la propuesta (2) es
insesgada.
Esta situación dará lugar a que empleemos siempre el segundo estimador propuesto de
la varianza de las perturbaciones aleatorias; es decir, el insesgado, que no es más que el
primero, pero corregido por los grados de libertad.
6.2. Estimador insesgado de la varianza de las perturbaciones

aleatorias.
Se trata de demostrar que la expresión de estimación:
∑
̂
Es insesgada; es decir, que el valor así obtenido cumple la propiedad de:
̂ ) )
47
Para realizar esta demostración partimos de definir el vector del error “e”:
( ̂)
Pero por el supuesto de linealidad sabemos que:
ˆ    X ' X 1 X 'U
Entonces:
[ ]
[ ]
[ [ ] ]
A la matriz [ [ ] ], la llamaremos matriz M o matriz de proyección y será

muy útil para realizar diversas demostraciones sobre el modelo de regresión.
Dicha matriz, como es fácilmente comprobable, es simétrica (M=M’) e idempotente

(MM’=M’M=M).
Entonces escribiremos el error como:
Volviendo a nuestro propósito, queremos demostrar que:
̂ ) )
Con el fin de determinar el resultado de aplicar el operador esperanza a la parte aleatoria
de esa expresión, tenemos:
48
) ) [[ ][ ][ ]]
[*∑ ∑ +[ ]]
* ∑ ∑ ∑ +
Considerando las siguientes hipótesis sobre las perturbaciones aleatorias del modelo
(homocedasticidad y no autocorrelación):
( )
La expresión anterior se puede simplificar del siguiente modo:
(∑ )
Ya que al aplicar el operador esperanza solo serán distintos de cero estos productos, que
se corresponden a ) , multiplicado por la suma de los elementos de la
diagonal principal de la matriz M; es decir, su traza:
49
) ∑ )
Sustituyendo ahora “M” por su valor:
) [ [ ] ])
Y calculando la traza de estas matrices (Recordemos las propiedades de las trazas que
dicen que ) ), donde [ ] y ):
) [ ) [ ] )]
[ ) [ ] )]
[ ) )]
En definitiva, si despejamos la expresión resultante:
) )
)
)
)
)
Con lo que queda demostrado que la esperanza del segundo estimador propuesto
coincide con el valor real de la varianza de las perturbaciones aleatorias; luego es
insesgado.
50
Tema 7. Contrastes de significatividad individual de los
parámetros
7.1. Introducción
En el capítulo anterior se demostró que la estimación insesgada de la varianza de la

perturbación aleatoria responde al siguiente cálculo:
∑
̂
Incluyendo este estimador en la expresión de los parámetros (restada su media y

divididos por su desviación típica), obtenemos una nueva expresión útil para poder
determinar los intervalos de confianza de dichos parámetros:
̂
̂)
̂
̂√
̂
(1)
√ ⁄ )
al elemento fila “j” columna “j” de la matriz X ' X  , con lo

1
donde denominamos
que el producto de este término por ̂ no es otra cosa que la varianza del parámetro
estimado “j” (donde j=1...k).
Como se demostró anteriormente,
51
De esta expresión, es fácil comprobar que, dividiendo por la varianza de la perturbación
aleatoria, tendríamos una función que se distribuye como una chi cuadrado con (n-k)
grados de libertad:
Ya que se trata de la suma de (n-k) normales (0,1) al cuadrado independientes.
Volviendo a la expresión de la Ec. 1, y multiplicando y dividiendo por , tendríamos el

siguiente resultado sin alterar la expresión matemática:
√ ⁄ )
̂
⁄
√ ⁄ ⁄ )
̂
̂)
En definitiva, aunque en términos teóricos los parámetros estandarizados se distribuyen

como un normal; cuando se incluye el valor estimado de la desviación típica de la
perturbación aleatoria para realizar el cálculo de las desviaciones de los
parámetros, la combinación matemática de la función resultante se distribuye
como una t de student.
52
7.2. Intervalo de confianza de los parámetros
El intervalo quedará conformado, en función del porcentaje de probabilidad que

fijemos, del siguiente modo:
̂
̂)
De donde es fácil despejar el parámetro real y llegar al siguiente resultado:
⁄
*̂ (̂) ̂ ̂) +
Que, a efectos de cálculo para cada parámetro estimado “j”, se escribiría como:
⁄
*̂ ̂√ ̂ ̂√ + (2)
En definitiva, con la expresión de la ecuación 2 podremos determinar, para el nivel

de confianza deseado y gracias a las tablas de la t-student, en qué intervalo se
moverá el valor real del parámetro que hemos estimado.
Ejemplo
Si estimamos un modelo de demanda de un bien en función de su precio del tipo:
Y obtenemos un valor estimado del parámetro de interés de, por ejemplo, y

una desviación típica de este igual a ) .
Para conocer entre qué valores estará realmente el valor de dicho parámetro con un 95%
de confianza, escribimos el intervalo de confianza de la ecuación 2 como:
⁄ ⁄
[ ]
53
⁄
donde el valor de tablas de la t-student de es 2,068.
Luego el valor real del parámetro que multiplica a los precios estará, con un 95% de
confianza entre:
[ ]
[ ]
Dicho de otra forma, cada punto que aumenten los precios, con una probabilidad del
95%, dará lugar a una reducción de la demanda de entre -0,541 y -0,458 puntos.
Evidentemente, esta medida nos dará idea, en cierto modo, del grado de validez del
modelo que estamos empleando: cuanto mayor sea el intervalo en el que se mueva el
parámetro, más imprecisa será la utilidad del modelo para hacer análisis
estructural, simulación o predicción.
7.3. Contraste del estadístico t
Ya ha quedado plenamente demostrado que los parámetros estandarizados, cuando se

cumplen las hipótesis realizadas sobre el modelo, se distribuyen como una t-student
acotada por sus correspondientes valores tabulados en función del nivel de confianza
elegido:
̂
̂ ) (3)
Esta característica de los parámetros estimados en el modelo debe cumplirse en

cualquier caso, lo que nos permite plantear distintas hipótesis sobre dichos parámetros y
juzgar su verosimilitud o no en la medida en que sean compatibles con el cumplimiento
de esta característica.
De entre las hipótesis más comunes que se pueden realizar, destaca la que nos servirá
para comprobar en qué medida podríamos asumir que el verdadero valor de un
parámetro concreto es igual o cero o no. Es decir, podríamos plantear
y trasladarla a la expresión anterior (ecuación 3) del siguiente modo:
̂
̂)
54
La hipótesis seguirá el siguiente razonamiento:
| | Se rechaza la hipótesis nula
| | Se acepta la hipótesis nula
En definitiva, el contraste t-student de significatividad individual de los

parámetros me servirá para juzgar si se debe incluir o no una variable en la
especificación del modelo, en la medida en que si el verdadero valor del parámetro
fuera igual a cero está claro que la importancia de dicha variable para explicar a la
endógena sería nula, y viceversa.
En cualquier caso, durante el proceso de modelización hasta llegar a la expresión final

de la ecuación, es frecuente que nos encontremos con parámetros estadísticamente
no significativos que, posteriormente, sí lo serán. La razón más habitual para que se
de este hecho es la inclusión de variables repetidas o irrelevantes en el modelo.
Recordemos que, tal y como se ha visto que se calcula la desviación típica de los
parámetros, el número de grados de libertad es fundamental para aumentar o
disminuir los resultados de la t-student.
Al estar dividiendo la expresión, si los grados de libertad no son los suficientes

(porque la muestra es pequeña o porque “k” es elevado al haberse incluido
variables sobrantes), los valores de la t-student serán más bajos que los que
resultarían si elimináramos dicho problema, siendo más fácil que rechacemos
falsamente la validez de un parámetro (errores tipo II).
Al contrario, en un modelo en que faltarán variables relevantes, los primeros

análisis podrían dar lugar a valores significativos de las variables presentes que,
después de incluir las ausentes inicialmente, podrían dejar de ser significativas.
En definitiva, la especificación correcta del modelo en cuanto a la incluisión-

exclusión de variables es un factor fundamental para dotar de validez a estos
contrastes.
En EViews y Stata se suelen incluir, además del cálculo de la t-experimental, el valor

de la probabilidad de aceptación de la hipótesis nula de este contraste.
SIEMPRE SE DEBE ATENDER AL VALOR INDICADO EN LA PROBABILIDAD

PARA DETERMINAR LA VALIDEZ O NO DE UN PARÁMETRO
DETERMINADO.
Ejemplo
55
Siguiendo con los datos del recuadro anterior, podríamos contrastar la significatividad
individual del parámetro de la variable precios a partir del cálculo de la t-experimental,
que resultaría del siguiente modo:
̂
| | | | | |
̂ )
Y al ser superior al valor tabulado de la t-student con (25-2)=23 grados de libertad y

para el 95% de probabilidad, debemos rechazar la hipótesis nula de ̂ .
Es decir se demuestra que es significativa con una probabilidad del 95%.
Dicho de otra forma menos académica, “la variable precio en el modelo propuesto
serviría para explicar la demanda”.
56
Tema 8. Contrastes de significación conjunta
8.1. Contrastes de significación conjunta a través de una F de

Snedecor
El objetivo que se pretende en este tipo de contraste del modelo, es poder dar una
medida numérica representativa de la capacidad global de todas las variables
explicativas para seguir la evolución de la variable endógena.
Para ello, y como es habitual en toda contrastación estadística, cubriremos las siguientes
etapas:
1. Crear una ratio capaz de suministrarnos información sobre todos los

parámetros del modelo con un solo número.
2. Determinar la función de distribución de esta ratio.
3. Contrastar el cumplimiento o rechazo de una hipótesis nula a partir de la

utilización de la función de distribución teórica y conocida de la ratio.
En nuestro caso, tiene interés conocer una ratio que englobe la información contenida
por todos los parámetros (k) de un modelo.
Para ello, y partiendo de la notación como vector (k x 1) que hemos dado a los
parámetros del modelo escrito en su forma matricial, podríamos presentar una
medida del parámetro medio estandarizado (escritos al cuadrado para que no se
compensen signos positivos y negativos) como sigue:
[̂ ][̂ ]
* +
[ ]
donde no hemos calculado otra cosa que la suma cuadrada de los parámetros
estandarizados (a cada uno se le ha restado su media y se le ha dividido por su
desviación típica y la suma de un vector columna transpuesto por el mismo no es más
que la suma de las componentes al cuadrado).
Conocer cuál es la función de distribución del valor medio de todos los parámetros que
intervienen en un modelo considerados de forma conjunta, como ocurre en esta ratio, es
fácilmente deducible a partir de la constancia de que los parámetros estimados se
distribuyen como una normal ˆ  N ( ; 2 X ' X  ) .
1
Volviendo a la ratio escrita más arriba, para poder realizar el cálculo en un modelo
concreto habrá que dar un valor estimado a la varianza de la perturbación aleatoria ( ).
57
Realizando una serie de sustituciones matemáticas, obtendríamos la función de
densidad de la ratio de la siguiente manera:
[̂ ][̂ ]
* +
[ ]
[̂ ][ ][ ̂ ]
* +
[̂ ][ ][ ̂ ]
⁄
[ ]
∑ )
∑ )
Conocida la ratio que engloba conjuntamente la información de todos los

parámetros del modelo y su función de distribución, podríamos ahora plantear un
58
modelo restringido o una hipótesis nula en la que “pusiéramos a prueba” el
cumplimiento de lo que acabamos de demostrar.
Es decir, podríamos comprobar si el cálculo de esta ratio sigue comportándose como

una F de Snedecor cuando imponemos alguna característica a los parámetros del
modelo.
A partir de las tablas de esta distribución, podemos saber entre que valores se sitúa una
variable aleatoria de las características de la ratio que hemos construido con un 95% de
probabilidad.
Si el cálculo de esta ratio en un caso concreto, aplicando las características a los
parámetros que queramos (es decir; contrastando una hipótesis nula), deja de estar
comprendido entre los valores en los que lo estaría una podremos decir que, con
un 95% de probabilidades, la condición que hemos impuesto a los parámetros es falsa.
Podemos plantear, por ejemplo, una hipótesis nula en la que sostengamos que el valor
real de todos los parámetros es igual a cero, lo que nos serviría para decir que ninguna
de las variables incluidas como explicativas en el modelo es realmente válida para
explicar la endógena.
La hipótesis a aplicar a la ratio formulada sería entonces ,

que es lo mismo que decir que todo el vector de parámetros de las betas reales es igual a
ceros, con lo que la ratio anterior se podría re-escribir como un intervalo de
confianza de la siguiente manera:
[̂ ][ ][ ̂ ]
* +
̂
̂[ ]̂
* +
̂
En principio esta ratio debiera estar comprendida entre los valores tabulados para
la F si la restricción impuesta es cierta; es decir, si aceptamos la hipótesis nula.
En el caso en el que la imposición de esta hipótesis nos determinara un valor fuera

de la F tabulada, estaríamos diciendo que dicha hipótesis no es compatible con lo
que conocemos a ciencia cierta del modelo, luego deberíamos rechazarla.
Esto sería lo mismo que admitir la hipótesis alternativa lógica: por lo menos
alguna de las variables explicativas elegidas sí sirve para explicar el
comportamiento de la endógena con un 95% (o 90% o 99%) de probabilidades.
Evidentemente, la hipótesis de nulidad de todos los parámetros del modelo es

demasiado pesimista en cuanto la especificación del modelo se haya realizado con
un mínimo cuidado.
59
Por lo tanto, la hipótesis alternativa será muy fácil de lograr (que por lo menos
alguno de los parámetros sea significativamente distinto de cero).
Además, el término independiente presente en el modelo recogería una alta carga

de explicación de la endógena si el resto de las variables especificadas no fueran
significativas, por lo que, por lo menos éste, sí sería significativo en el peor de los
casos.
Dicho esto, el contraste de esta ratio difícilmente se cumpliría con la hipótesis
manejada, ya que el parámetro de la constante sería significativo.
En definitiva, este contraste es prácticamente inútil si, al realizarlo, se plantea una

hipótesis nula que contenga el término independiente del modelo.
Para poder realizar esta misma ratio sobre un modelo sin término independiente,
es necesario escribir dicho modelo en lo que se conoce como desviaciones a la
media que no es sino una combinación lineal de las n ecuaciones anteriores, del
siguiente modo:
̅ ) ̅ ) ̅ )
dado que la variable x1i es un vector que sólo incluye unos para dar lugar a ese
término independiente, su media también será uno y la resta planteada en la
ecuación superior hará que el parámetro esté multiplicado por cero en esta
reescritura equivalente del modelo inicial.
El cálculo de la ratio anterior sería ahora (sin incluir ese término constante) igual a:
̂[ ]̂
̂ )
donde todas las variables empleadas estarían en desviaciones a la media (hecho

que mantendremos de ahora en adelante, a pesar de que sigamos llamando a las
variables X e Y).
En esta ratio se podría presentar una hipótesis nula a contrastar más razonable,
que sería la nulidad de todos los parámetros menos el del término independiente
, siendo de aplicación todo lo dicho anteriormente.
La expresión de la ratio manejada hasta el momento se puede escribir de forma

rápida de otro modo por una simple sustitución de los valores estimados de los
parámetros por su fórmula de cálculo MCO ̂ ) , de donde
obtendríamos la siguiente expresión:
60
̂[ ]̂
̂ )
) )
)
( )( )
̂[ ]̂
( )( )
̂ )
Esta última expresión del contraste F es especialmente intuitiva si se analiza

cuidadosamente cada uno de los elementos que la componen.
Recordemos que el producto Y’Y es la suma cuadrática de la variable endógena en

desviaciones a la media, es decir:
∑ ̅)
Observemos ahora que la media de Y, puede entenderse como la estimación de un

modelo de regresión en el que sólo utilicemos como explicativa el término
independiente:
→̂ ̅ (Demostrar)
Por lo tanto, en este caso, la expresión representa la suma cuadrática del error
de un modelo “ingenuo” en el que no utilicemos ninguna exógena; o dicho de otro
modo, un modelo en el que suponemos “la restricción” de que cualquier variable
exógena adicional no resultaría significativa .
Si volvemos entonces a la expresión de la “F” observamos que, en el numerador de

la expresión, se está comparando el error de este modelo “restringido” con el error
61
de “nuestro” modelo original, en el que sí aparecen las exógenas o, dicho de otro
modo, “irrestricto”, en el que no se impone ninguna restricción sobre la
significatividad de las exógenas incluidas.
El denominador de la expresión permite expresar esa diferencia de errores en términos

porcentuales; adicionalmente, se incorporan en el numerador y denominador los grados
de libertad correspondientes utilizados en ambos cálculos.
Es evidente entonces, que la ratio F así entendida, se aproximará a cero en la

medida en que el error del modelo restringido (sin exógenas) sea similar al
error del modelo sin restringir e’e (con exógenas).
Cuando eso ocurre, es evidente que la “restricción” supuesta es verosímil, es decir,

es estadísticamente verosímil que todos los parámetros (salvo el término
independiente) de todas las exógenas sean estadísticamente nulos:
En el caso contrario, es decir, cuando el error de nuestro modelo es claramente

inferior al que cometemos imponiendo la restricción de que todos los parámetros
(salvo el término independiente) sean nulos, debemos rechazar la anterior hipótesis
nula.
En términos generales, el contraste “F” permite comparar dos modelos, uno que
impone alguna restricción en los parámetros (por ejemplo la hipótesis anterior de
que todos ellos son nulos) frente a otro que no impone esa restricción.
El contraste se construye siempre del mismo modo, comprando los errores

obtenidos en ambos modelos: si los errores son similares, las restricciones serán
verosímiles.
Evidentemente, un modelo con restricciones siempre cometerá mayores errores (la

restricción resta libertad a la estimación paramétrica) pero si las restricciones que se
imponen son verosímiles, el modelo estimado restringido tendrá un error similar, sólo
algo mayor, que el modelo “libre” en el que no se tienen en cuenta.
Por supuesto, para comprobar si esa diferencia entre dos valores del error es
significativamente distinta de cero, necesitamos comparar el valor obtenido con valores
estadísticos críticos predeterminados, y es por ello por lo que recurrimos a una
expresión de cálculo que, además de entenderse de forma intuitiva, se distribuya como
algo conocido, en nuestro caso, una ratio F.
El contraste de significación conjunta más utilizado es:
)
)
62
donde:
es la suma cuadrática del error del modelo restringido

es la suma cuadrática del error del modelo sin restringir
es el número de restricciones
Partimos de un modelo general con tres variables explicativas (más la constante) del
tipo:
Modelo sin restringir:
Podemos imponer una restricción al modelo, por ejemplo:
Incorporando dicha restricción al modelo tenemos:
Operando y despejando:
Generando las nuevas variables que impone la restricción que hemos impuesto,
obtendremos el modelo a estimar:
Entonces nuestra expresión quedaría:
Este sería ahora el modelo restringido, que puede ser estimado por MCO al igual que la
primera ecuación que habíamos planteado.
63
Ejemplo
Puede tener interés comprobar si una determinada función de producción presenta

rendimientos constantes a escala, es decir, si la suma de los parámetros del capital y el
trabajo son iguales a uno:
En este ejemplo, el modelo sin restricciones, estimado linealmente, sería el siguiente:
̂ ̂
Como alternativa, tenemos el modelo que debemos estimar con la restricción que
supone la hipótesis nula de rendimientos constantes:
El número de restricciones es, en este caso, igual a 1, porque al suponer que

basta con estimar con único parámetro ( ), ya que el otro ( ), será la resta a 1.
64
Tema 9. Contrastes de significación conjunta a partir del
coeficiente de determinación lineal
La representa la proporción de la varianza de la variable endógena real (y) que

viene explicada por la varianza de la variable estimada.
Es decir:
̂
Por otra parte, en el modelo se cumple que la varianza de la endógena coincide con la
suma de la varianza de la estimada más la varianza del error:
La expresión de la se suele expresar del siguiente modo:
Expresión de la que se pueden extraer las siguientes conclusiones:
 En el mejor de los casos posibles, la varianza de la endógena coincidiría con la

varianza de la estimada, caso en que el valor de la varianza del error sería igual a
cero y la tomaría el valor igual a uno.
 A medida que la varianza de la estimada sea diferente de la varianza de la

endógena real, irá aumentando el valor de la varianza del error, siendo el punto
máximo que ésta pueda tomar: , donde la valdría cero.
En definitiva, la segunda expresión de la se puede interpretar como el porcentaje de

la varianza real recogida por la estimada ya que, de éste, se deduce el porcentaje que
supone el error.
En cualquier caso, este porcentaje de la varianza explicada de la endógena estará

claramente condicionado por el número de explicativas empleadas en el modelo.
65
Ateniéndonos al principio de “parquedad estadística”, parece adecuado que para
comparar entre dos modelos con distinto número de variables se tenga en cuenta
este hecho, penalizando aquél que cuenta con un mayor número de explicativos.
Por esta razón se emplea habitualmente la ajustada, calculada dividiendo cada

valor estimado por sus grados de libertad en la fórmula anterior:
)
̅
)
)
)
)
̅ [ ) ]
)
A partir de la penúltima expresión, es fácil determinar que el valor de la siempre será

superior al de la ajustada.
9.1. Relación entre el contraste de nulidad conjunta de parámetros “F

Snedecor” y la
Partiendo de la penúltima expresión analizada para el contraste de nulidad conjunta de

parámetros F-Snedecor:
) )
)
Si dividimos numerador y denominador por el número de observaciones en la expresión

anterior:
) )
)
) )
)
Si dividimos ahora denominador y numerador por la varianza de la endógena:
66
) ) )
) )
) )
) )
A partir de la expresión de :
La F se podría escribir como:
) )
) )
)
) )
Poniendo así en relación ambos contrastes de significación conjunta.
La relación entre la F y la esconde una conexión teórica interesante: contrastar

la hipótesis de que todos los parámetros del modelo son nulos es estadísticamente
equivalente a contrastar la hipótesis de nulidad de la .
9.2. Contraste de restricción de parámetros a partir del test de Wald
La propuesta de Wald no es, en realidad, distinta al contrate F general propuesto más

arriba.
67
Su aportación consiste en realidad en ofrecer un procedimiento matemático
sencillo para elaborar el contraste de restricciones sin necesidad de estimar los dos
modelos por separado.
La ratio de Wald se propone verificar la hipótesis nula , donde R es una

matriz de q x k que recoge las características que exigimos a los parámetros del modelo
(p.e., que la suma de todos ellos sea igual a uno).
Siguiendo los mismos pasos que antes, propone la siguiente ratio de la suma cuadrada
de los parámetros estandarizados sujetos a la restricción impuesta:
[ ][ ][ ]
̂
Lo que se distribuiría como una con “q” grados de libertad (siendo “q” el número de
restricciones exigidas al modelo).
Si se mantiene la hipótesis de que las perturbaciones aleatorias se distribuyen como una

normal, entonces se pude demostrar que:
)
⁄
)
donde es la suma de los residuos al cuadrado de la regresión restringida (aquella

que incorpora las restricciones sobre los parámetros).
En principio, se está contrastando la diferencia entre los residuos de una regresión a la

que se le han impuesto restricciones, frente a la original.
Si las restricciones son asumibles en el modelo, debe haber una diferencia muy pequeña
entre los errores al cuadrado estimados en uno u otro caso, por lo que el valor de la F
calculada deberá seguir siendo pequeño y estar comprendido entre los valores tabulados
para una confianza del 95% y los grados de libertad especificados.
Nótese que esta última expresión es muy similar a la obtenida finalmente como
contraste conjunto de parámetros F-Snedecor
68
Tema 10: Multicolinealidad
10.1. ¿Qué es la multicolinealidad?
Existen dos tipos de Multicolinealidad.
La denominada multicolinealidad Exacta y la llamada Multicolinealidad Aproximada.
La exacta se define como la existencia de una combinación lineal exacta entre dos o
más variables exógenas incluidas en el modelo.
La multicolinealidad aproximada se define como la existencia de una relación lineal

fuerte, aunque no exacta, entre dos o más variables exógenas.
10.2. ¿Por qué se produce?
En primer lugar puede decirse que la multicolinealidad es, en cierto modo, un

fenómeno natural: en un sistema económico es muy difícil suponer la total falta de
correlación entre sus distintos elementos.
No obstante, en ocasiones, es el modelizador quien puede inducir un problema de

multicolinealidad descuidando una correcta especificación y un adecuado tratamiento
de los datos.
La multicolinealidad exacta sólo puede aparecer por un error en la especificación

cometido por el modelizador que ignora una igualdad o combinación lineal exacta entre
variables.
Por ejemplo, el siguiente modelo es, obviamente, un modelo con multicolinealidad

exacta:
yi   0  1D.Interna   2 C.Privado   3C.Público   4 Inversión  ui
Ya que, por definición de Contabilidad Nacional, la Demanda Interna de un país es,

precisamente, igual a la suma del Consumo Privado, el Consumo Público y la Inversión.
Otro ejemplo igualmente común es caer en lo que se denomina “La trampa de las
ficticias” que consiste en incluir tantas variables exógenas ficticias (por ejemplo
dicotómicas 0/1) que se acabe por generar una combinación lineal entre las mismas y el
término independiente.
69
10.3. ¿Cuáles son las consecuencias sobre el MBRL?
Las consecuencias sobre las propiedades del Modelo Básico de Regresión Lineal deben
distinguirse nuevamente según se esté hablando de multicolinealidad exacta o
aproximada:
 En el caso de existencia de multicolinealidad exacta, los parámetros no

pueden estimarse ya que, al existir dentro de la matriz “X” de observaciones de
variables exógenas una combinación lineal de variables, ésta no tendrá rango
pleno y por tanto no será invertible.
Si eso sucede, el producto (X’X) tampoco tendrá inversa de modo que no

podremos calcular la expresión del estimador Mínimo Cuadrático:
ˆ  ( X ' X ) 1 X ' Y
 En el caso de multicolinealidad aproximada, no se viola ningún supuesto

básico de la regresión y, por tanto, las propiedades de los estimadores
(insesgadez, eficiencia y consistencia) no se ven afectadas.
Es decir, usando el estimador MCO se obtendrán estimaciones insesgadas y

consistentes y sus errores estándar estarán correctamente calculados;
En ese sentido, el estimador de MCO sigue siendo el estimador con mejores

propiedades de entre los de su “clase” de estimadores.
Sin embargo, a pesar de que MCO sigue siendo un estimador eficiente, las
varianzas calculadas de los parámetros serán tanto mayores cuanto mayor
sea la relación entre las variable explicativas.
Esta “inflación” de la varianza, generará dificultades en la interpretación

de resultados debido a la:
1. Poca precisión de los intervalos de confianza para los parámetros (muy

amplios).
2. Escasa robustez en los resultados (tienden a cambiar con facilidad ante

pequeños cambios experimentales)
Para formalizar la cuestión del incremento de varianza en la estimación, veamos

que, considerando el cumplimiento de las hipótesis ideales, la varianza de un
parámetro estimado tiene la siguiente forma genérica:
2
V ( ˆ j ) 
SST j (1  R 2j )
70
Donde SSTj representa la variabilidad muestral del regresor Xj, es decir
SST j   xij  x j  y R 2j muestra la relación entre Xj y el resto de variables
2
explicativas.
Esta expresión ilustra que la precisión en la estimación es mayor:
 Cuanto menor es el “ruido” (varianza de la perturbación)
 Cuanto mayor es la variación de la exógena
 Cuanto menor es la relación entre el regresor Xj y el resto ( R 2j )
10.4. ¿Cómo se detecta?
El primero de los consejos es partir de una detección a priori basada en razones de

orden teórico.
En segundo lugar, y dado que los efectos de la multicolinealidad se limitan a la falta de

precisión en la estimación, conviene observar directamente si se han obtenido
intervalos de significación individuales lo suficientemente precisos o no.
Si las estimaciones de los parámetros son suficientemente precisas, puede que sea
irrelevante preguntarse entonces si la correlación entre exógenas será elevada o no.
La presencia de la multicolinealidad suele asociarse con contrastes “t” no

significativos y, sin embargo, valores de la R2 elevados.
En todo caso, asumida la necesidad de detectar la multicolinealidad de forma técnica,

tenemos varios procedimientos disponibles. Uno de los más utilizados es el del factor de
inflación de la varianza (VIF):
Donde es el coeficiente de determinación de la regresión de la variable explicativa j

sobre el resto de las explicativas.
En términos genéricos y sencillos, no obstante, es posible apoyarse en un “simple”

cálculo de las correlaciones entre las variables explicativas.
71
Las correlaciones entre variables deben ser menores que un límite determinado.
No hay un límite fijo a partir del cual podamos hablar de un problema; ese límite debe
establecerse desde el sentido común y según las circunstancias de análisis específicas.
Por ejemplo:
- Tamaño muestral: en muestras de tamaño elevado, una correlación

aparentemente pequeña (0,3 – 0,4) implica la existencia de una evidente
correlación serial.
- Forma de medición de las variables: las variables en niveles exhiben

correlaciones con mayor facilidad de modo que el límite asumible puede ser más
alto que si las variables exógenas están medidas en tasas.
- Relaciones teóricas asumidas a priori entre las variables: una correlación

moderada pero no esperada a priori desde el punto de vista teórico puede estar
avisando de algún defecto en la especificación o el tratamiento de los datos.
En todo caso, si se desea una regla generalmente utilizada, una práctica habitual
consiste en establecer la R2 del modelo original como límite de la correlación observada
entre dos o más variables: diremos que existe multicolinealidad cuando existan
correlaciones entre las variables, superiores al coeficiente de determinación del
modelo.
Sin embargo, debemos recordar nuevamente las limitaciones de cualquier “receta” de

este tipo; por ejemplo, lógicamente diremos que existe multicolinealidad cuando, aún
sin superar la R2 del modelo, las correlaciones sean mayores a un 0,70%.
Las correlaciones entre las variables las calcularemos de tres modos diferentes:
- Correlaciones simples entre cada par de variables:
Cov( x j x k )
r jk 
DT ( x j )  DT ( x k )
- Correlaciones entre cada variable y el conjunto simultáneo del resto incluidas en la

especificación de una ecuación del tipo:
x j  f ( x1, x2 ,......., x j 1 , x j 1 ,........ xk )
- Correlaciones parciales entre cada par de variables. El concepto de correlación

parcial tiene sentido en el contexto del análisis multivariante.
La idea es encontrar la correlación que une a dos variables descontado el efecto

del resto de variables; es decir, la correlación particular, más allá de la correlación
que ambas exhiben y en la que intervienen el resto de variables.
72
Por ejemplo, si se toman datos relativos a 3 tipos de interés a corto plazo en una
economía seguramente se encontrarán elevadas correlaciones simples y múltiples,
sin embargo, será difícil encontrar una correlación parcial entre dos de los tres tipos
de interés considerados ya que, la parte común que les une, es común a los tres y no
existe más parecido bilateral que el que es compartido por todos ellos.
La forma más sencilla de calcular esos coeficientes de correlación parcial

aprovechando los anteriores cálculos es aplicando la expresión comentada
anteriormente:
r jkp   /  a  b
donde “ a ” es el coeficiente asociado a “xk” en la regresión de “xj” sobre el conjunto

de variables restantes y “b” es el coeficiente de “xj” en la regresión de “xk” sobre el
conjunto de variables restantes.
El signo “+/-” no expresa la doble solución de la raíz, sino que deberá escogerse una
de las dos soluciones, la positiva o la negativa, según el signo observado en los
coeficientes “ a ” y “b” de las regresiones parciales.
La razón de atender al signo antes de realizar el cálculo es que, por razones obvias
de simetría, el signo de “ a ” siempre será el mismo que el de “b” por lo que, en el
producto “ a ·b”, ese signo se perderá en el caso de ser ambos coeficientes negativos.
10.5. ¿Cómo se corrige?
Un apunte introductorio de interés consiste en tener en cuenta la siguiente pregunta ¿es

imprescindible corregir la multicolinealidad?
Efectivamente debe recordarse que:
- La presencia de multicolinelaidad aproximada no supone ninguna violación de los

supuestos del modelo básico de regresión lineal.
- Si el problema es un aumento de varianza y una menor precisión, conviene tener en

cuenta que la multicolinealidad no es la única causa de este error.
- En todo caso, el problema de una menor precisión afecta sólo a los coeficientes
individuales de las variables correlacionadas pero NO al resto de coeficientes.
La corrección del problema requiere conocer sus causas.
73
Si se trata de una correlación casual debida generalmente a defectos en la especificación
(por ejemplo, un modelo en niveles), el problema debe solventarse corrigiendo esta
especificación.
Si el problema no puede resolverse con la solución de un error, tenemos varias

estrategias a nuestra disposición para minimizar o corregir los problemas asociados a la
multicolinealidad:
- Hay que asegurarse de no caer en la trampa de las variables ficticias; incluyendo

una variable dummy para cada categoría (por ejemplo, valles, llanos y altiplano) y
además incluyendo un término constante en la regresión. Esto garantizaría la
multicolinealidad perfecta.
- Borrar una de las variables. Una variable explicativa se puede eliminar para producir
un modelo con coeficientes significativos.
Sin embargo, se pierde información (ya que ha omitido una variable). Entonces se
debe considerar el incremento en la varianza del modelo y la presencia de SESGO
por omisión de variables relevantes.
- Obtener más datos, si es posible. Esta es la solución preferida. Más datos pueden
producir estimaciones más precisas de los parámetros (con errores estándar más
bajos).
- Técnicas de rezagos distribuídos, regresión por componentes principales, el uso del

valor de Shapley, etc.
- Dejar el modelo tal como está a pesar de multicolinealidad.
74
Tema 11. Heterocedasticidad
5
11.1. ¿Qué es la heterocedasticidad?
El modelo básico de regresión lineal exige que la varianza condicional de las

perturbaciones aleatorias a los valores de los regresores X sea constante:
Var ui / X i    2
Aunque generalmente la hipótesis se formula sin mencionar el carácter condicional de la

varianza, simplemente como:
Var ui    2
Para comprender de forma intuitiva esta restricción podemos razonar del siguiente
modo:
En un plano puramente analítico, la matriz de varianzas-covarianzas de las

perturbaciones de un modelo heterocedástico se representaría del siguiente modo:
 E (u1 ) 2 ... ...   E (u1 ) 2 0 0 

   
 E (u1u 2 ) E (u 2 ) 2 ...  0 E (u 2 ) 2
0 
E (UU ' )    i2 I n   2 
 ...   0 0 ... 0 
 2  
 E (u1u n ) E (u 2u n ) ... E (u n )   0 0 0 E (u n ) 2 
5
Etimológicamente, por cierto, la palabra deriva de “hetero” (distinto) y el verbo griego “skedanime” que
significa dispersar o esparcir.
75
11.2. Causas frecuentes de heterocedasticidad
Aunque las que se citan a continuación no son las únicas posibilidades que dan lugar a
un modelo heterocedástico, sí son las más frecuentes:
A.- Causas relacionadas con la selección de variables exógenas:
A.1- Variables explicativas con una distribución asimétrica
Si una variable explicativa presenta una distribución asimétrica (por ejemplo la

renta), resultará inevitable que los valores mayores del regresor estén asociados a
una mayor dispersión en el término de error de la regresión.
A.2- Variables explicativas con amplio recorrido
Las variables con amplio recorrido favorecen la aparición de heterocedasticidad en

mayor medida que aquellas otras que presentan un agrupamiento muy claro alrededor
del valor de la media.
Esto no es tan evidente como el efecto de la asimetría pero, en cierto modo, y dado que
trabajamos con muestras, la selección de una muestra que favorezca la
heterocedasticidad es más probable en el caso de variables con amplios recorridos que
con escasas varianzas.
Este riesgo es especialmente elevado en los modelos de corte transversal ya que la

selección de los elementos muestrales es arbitraria (no viene determinada por el paso
del tiempo y, por tanto, puede incurrir en el riesgo de mezclar muestras provenientes de
poblaciones diferentes) por lo que la muestra puede agrupar, casualmente, grupos de
observaciones que presenten valores muy dispersos y poco dispersos al mismo
tiempo.
A.3.- Omisión de variables relevantes en el modelo especificado
76
En este caso no hablamos de las variables seleccionadas, sino precisamente, de las no
seleccionadas.
Cuando se ha omitido una variable en la especificación, dicha variable quedará

parcialmente recogida en el comportamiento de las perturbaciones aleatorias,
pudiendo introducir en éstas su propia variación.
B.- Otras causas
B.1.- Cambio de estructura
El hecho de que se produzca un cambio de estructura determina un mal ajuste de

los parámetros al conjunto de los datos muestrales.
Este no tiene porque influir del mismo modo en todo el recorrido de la muestra,
pudiendo producir cuantías diferentes de desajuste del modelo y, por tanto, varianza no
constante por subperíodos.
B.2. Forma funcional incorrecta
La utilización de una forma funcional incorrecta, por ejemplo la utilización de una

función lineal en lugar de una logarítmica potencial, puede provocar que la
calidad del ajuste de la regresión varíe según los valores de las exógenas (por
ejemplo, ajustando bien para los valores pequeños y mal para los grandes).
En ese caso, es posible que en las zonas de peor ajuste existan, no sólo errores
mayores, sino también errores más dispersos.
77
B.3.- Modelos de aprendizaje sobre los errores
Esta causa, apuntada por Gujarati6, se refiere a la modelización de fenómenos que

contienen un mecanismo de auto-aprendizaje en función de los errores (desajustes)
previos.
En este tipo de fenómenos, el paso del tiempo implica progresivamente, no sólo un

menor tamaño del error, sino además una varianza progresivamente inferior.
B.4.- Presencia de puntos atípicos
La presencia de algunos valores atípicos en la muestra de datos implicará

necesariamente un desajuste en la varianza de la perturbación (en cierto modo, un
punto atípico puede considerarse un elemento muestral perteneciente a otra
distribución y, por tanto, potencialmente con varianza distinta).
En todo caso, sea cuál sea el origen del problema, en muchas ocasiones es posible
asociar la varianza no constante de las perturbaciones aleatorias a los valores de alguna
de las variables incluidas en el modelo.
Dicho de otro modo, podría suponerse que la varianza de la perturbación se

compone de una parte constante, homocedástica, y otra que varía según los valores
de una determinada variable Zi:
 i2  f ( 2 Z i )
donde  2 sería la parte fija de la varianza, y Zi la variable o incluso la matriz de

variables cuyos valores se asocian con los cambios en la varianza de las
perturbaciones aleatorias.
Es muy probable que esta asociación entre el proceso de heterocedasticidad y una

determinada variable o una combinación de ellas sea algo simplista, probablemente no
sea muy realista y quizá no alcance a ser completamente satisfactoria para explicar el
patrón de “movimiento” de la varianza.
6
Econometría. D.N Gujarati. Ed. Mc Graw Hill.
78
Sin embargo, asumir este tipo de conexión entre la varianza de “U” y una/s variable/s
está en la base de la mayoría de los procedimientos de detección de la
heterocedasticidad y, desde luego, resulta imprescindible para los mecanismos de
solución de la heterocedasticidad.
Efectivamente, este tipo de función podría ser empleada precisamente como el

“supuesto simplificador”.
11.3. Efectos de la heterocedasticidad sobre el MBRL
En términos generales, los efectos de la presencia de heterocedasticidad sobre el MBRL

estimado con Mínimos Cuadrados Ordinarios son:
- El estimador de Mínimos Cuadrados Ordinarios sigue siendo lineal, insesgado y

consistente pero deja de ser eficiente (varianza mínima).
- Las varianzas del estimador de Mínimos Cuadrados Ordinarios, además de

no ser mínimas, no pueden calcularse con la expresión utilizada en
presencia de homocedasticidad ( V ( )   2  X ' X  ) o, dicho de otro modo,
1
esta expresión es un estimador sesgado de la verdadera varianza de los

parámetros.
Alternativamente, debe utilizarse la expresión:
cov var(ˆ )   2 X ' X  X ' ˆ X X ' X 

1 1
De modo que, si se sigue utilizando la expresión de MCO, se cometerá un error

de cálculo lo que implica, básicamente, que nuestros cálculos “t” ya no se
distribuirán como una “t”, el contraste “F” ya no se distribuirá como una
“F”.
Ante estos dos problemas, caben en realidad distintos escenarios en función de la

estrategia elegida por el modelizador:
1.- Utilizar MCO considerando la presencia de heterocedasticidad
79
En este caso, aún resolviendo el problema de cálculo, seguimos enfrentando un
problema de eficiencia lo cual significa, en todo caso, que los contrastes de
significación habituales “t”, “F”, Chi-Cuadrado tenderían a ser más exigentes, a ofrecer
resultados menos concluyentes al tiempo que los intervalos de confianza habitualmente
computados para los parámetros tenderán a ser más amplios.
2.- Utilizar MCO ignorando la heterocedasticidad
En este caso, tenemos una varianza que, dado el error de cálculo es un estimador
sesgado del verdadero valor de la varianza (valor correctamente calculado) sin que, en
general, se pueda saber si ese cálculo incorrecto sobreestima o subestima el verdadero
valor. Así pues, las conclusiones derivadas de la utilización de los contrates habituales
son, sencillamente, incorrectas.
Conviene además tener en cuenta que el problema del cálculo incorrecto deriva en
realidad de que el estimador insesgado de la varianza de la perturbación ya no resulta
ser:
e' e
~ 2 
nk
De modo que, además del error de cálculo en la estimación de la varianza de los

parámetros, todos aquellos contrastes o tests basados en este estimador insesgado serán
también incorrectos.
3.- Utilizar Mínimos Cuadrados Generalizados (MCG)
Es evidente que esta parece la mejor de las soluciones aunque también debe observarse
que la utilización de este estimador exigiría conocer o estimar de antemano los
valores de los elementos de Σ.
Estimar las “n” varianzas distintas de Σ partiendo de “n” observaciones y “k” variables
explicativas es imposible, de modo que, como se verá más adelante, la utilización de
este estimador exigirá asumir algún supuesto simplificador sobre la causa de una
80
eventual heterocedasticidad, un supuesto simplificador que permita a su vez determinar,
de forma también simplificada, la forma de la matriz Σ.
Evidentemente, encontrar una simplificación correcta de Σ dotará de plena utilidad

(eficiencia) a la estimación con MCG pero, a sensu contrario, un mal diseño de la causa
de la heterocedasticidad y su expresión en Σ no garantizará esa eficiencia.
11.4. ¿Cómo se detecta la presencia de Heterocedasticidad?
Antes de entrar a enumerar y revisar brevemente los principales procedimientos deben

quedar claras dos cuestiones preliminares:
1.- Resultará imposible observar directamente la presencia de heterocedasticidad ya que,

en la mayoría de los análisis econométricos, sólo dispondremos de un valor de “Y” para
cada valor de “X” (y por tanto de un único valor de “U”) por lo que resulta
conceptualmente imposible observar si la varianza de las “U” para cada valor de “X” es
la misma.
Por tanto, la mayor parte de los métodos se apoyarán en los residuos obtenidos en
un modelo previo (estimado generalmente con MCO); estos residuos, se utilizarán
como una muestra válida de las perturbaciones aleatorias desconocidas.
2.- Antes de la aplicación de métodos técnicos (más o menos informales) debemos

preguntarnos por la existencia de heterocedasticidad desde un punto de vista
teórico considerando la naturaleza del problema analizado, las exógenas incluidas y, en
definitiva, la propensión teórica del modelo hacia la heterocedasticidad.
11.4.1. Contrastes Gráficos
11.4.1.1. Gráfica del error a través de las distintas observaciones del modelo
Dado que las series económicas presentan casi siempre una tendencia definida (positiva
o negativa), la simple gráfica de error puede servir para conocer intuitivamente si
el mero transcurso del tiempo da lugar a un incremento/decremento continuado
81
del error, lo que sería significativo de una relación entre la evolución de las variables
del modelo y los valores cada vez mayores o cada vez menores de éste.
Gráficos del error sintomáticos de presencia de heterocedasticidad
10 6
8 4
6
4 2
2 0
0 -2
-2
-4 -4
-6 -6
1 3 5 7 9 11 13 15 17 19 1 3 5 7 9 11 13 15 17 19
En ambos, la mera evolución del tiempo está correlacionada con valores cada vez
mayores (izquierda) del error o cada vez menores (derecha), con lo que el cálculo
de la varianza por subperíodos arrojaría valores significativamente diferentes; es
decir la serie del error sería heterocedástica.
Evidentemente, este tipo de gráficos SÓLO tiene sentido si el modelo es temporal ya

que, en el caso del modelo transversal, la ordenación de valores del eje “X” dependerá
del criterio elegido para ordenar la muestra.
11.4.1.2. Gráfica del valor cuadrático del error y los valores de “Y” y “X’s”
La representación de los valores del error al cuadrado7 y la variable endógena o

cada una de las variables exógenas puede revelar la existencia de algún patrón
sistemático en la varianza de la perturbación (se entiende que el error al cuadrado
se asocia con la dispersión del error).
Este tipo de gráfico, no sólo permite obtener una idea preliminar de si existe o no
heterocedasticidad sino también de la o las variables que pudieran estar conectadas con
la misma.
7
Eventualmente podrían también realizarse los gráficos con valores absolutos del residuo.
82
11.4.2. Contrastes numéricos
Todos los procedimientos presentados aquí tratan de cuantificar la presencia de

heterocedasticidad.
Algunos de ellos, no sólo se limitan a cuantificarla sino que, además, permiten valorar
la existencia de heterocedasticidad en términos de probabilidad recurriendo a
distribuciones estadísticas conocidas; este último grupo de contrates se denominan, por
ello, contrastes "paramétricos".
11.4.2.1. Contraste de Glesjer
De forma similar al caso anterior, Glesjer propone descartar la variación del error en
función de una variable z, que ahora pueden estar elevadas a una potencia "h" que
estaría comprendida entre -1 y 1. El modelo que se propone es:
1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinar los errores.
yi   0  1 x1i   2 x2i  ...   k xki  ui

ˆ  X ' X 1 X ' Y
ei  yi  yˆ i
2. Estimar cuatro regresiones para los valores absolutos del error del modelo
anterior en función de una variable elevada consecutivamente a "h", que para
cada modelo tomaría los valores -1, -0,5, 0,5 y 1.
| ei |  0  1 z h   i h 1,0.5,0.5,1
Se escogerá la regresión con parámetros significativos y con mayor R2.
3. Se entiende que, si el valor de esta R2 es suficientemente grande y 1 es

significativo se estará confirmando que existe heterocedasticidad producida
por la variable z, ya que esta es capaz de explicar la evolución del error como
estimación de la evolución de las perturbaciones aleatorias.
Esta conclusión es especialmente válida para muestras grandes según las

propias conclusiones ofrecidas por Glesjer por lo que su utilización parece
especialmente adecuada en este tipo de condiciones muestrales.
83
11.4.2.2. Contraste de Breusch-Pagan
La idea del contraste es comprobar si se puede encontrar un conjunto de variables

Z que sirvan para explicar la evolución de la varianza de las perturbaciones
aleatorias, estimada ésta a partir del cuadrado de los errores del modelo inicial sobre el
que se pretende comprobar si existe o no heterocedasticidad.
El proceso a seguir para llevar a cabo este contraste es el siguiente:
1. Estimar el modelo inicial, sobre el que se pretende saber si hay o no

heterocedasticidad, empleando MCO y determinando los errores.
yi   0  1 x1i   2 x2i  ...   k xki  ui

ˆ  X ' X 1 X ' Y
ei  yi  yˆ i
2. Calcular una serie con los errores del modelo anterior al cuadrado
estandarizados:
e2
e~i 2  i 2
ˆ
e' e
ˆ 2 
n
3. Estimar una regresión del error calculado en el paso (2) explicado por una
constante y el conjunto de las variables Z que se pretende saber si producen o no
heterocedasticidad en el modelo, obteniéndose la R2 de este modelo y la varianza
de la estimada:
e~i 2   0  1 z1i   2 z 2i  ...   p z pi   i
4. En principio, dado que el modelo tiene término constante, se cumple la regla

general de las regresiones según la cual la varianza de la endógena real es
igual a la suma de la varianza de la endógena estimada más la varianza del
error obtenido en el modelo
84
S e~22  S e~ˆ22  S2ˆ
Por ello, si el modelo es "malo" la varianza de la endógena estimada será

pequeña (es lo mismo que decir que la varianza del error estimado es grande o
que el "modelo tiene mucho error").
En definitiva, y siguiendo el interés que aquí buscamos, si la varianza de la

endógena estimada en este segundo modelo es muy pequeña, estaremos
afirmando que el poder explicativo del conjunto de variables Z sobre la
representación de la varianza de las perturbaciones aleatorias es escaso.
A partir de esta afirmación, podríamos generar un contraste calculado con

la suma residual, a sabiendas de que cuanto más cerca de cero se encuentre,
más probabilidades de homocedasticidad habrá en el modelo. El contraste
propuesto es:
S e~ˆ22 * n
2
los autores demuestran que, en el caso de un modelo homocedástico, se

distribuye como una  p , con lo que, si el valor de la ratio supera al valor
2
de tablas, se rechaza la hipótesis nula (homocedasticidad); es decir, se

acepta que el conjunto de variables Z está produciendo heterocedasticidad
en el modelo original.
El contraste de Breusch Pagan efectivamente nos servirá para aceptar o descartar la

presencia de heterocedasticidad debida a ese conjunto de variables Z citado.
La lista de variables Z debe ser necesariamente pequeña para poder realizarse el

contraste.
85
11.4.2.3. Contraste de White (prueba general de heterocedasticidad de White)
Aunque en apariencia esta prueba es parecida a las mencionadas anteriormente, parece

admitido que es algo más robusta al no requerir supuestos previos como, por ejemplo, la
normalidad de las perturbaciones.
Por otro lado, tal y como se verá a continuación, la prueba no exigirá determinar a
priori las variables explicativas de la heterocedasticidad (lo cual no es
necesariamente una virtud) y es por esta razón por lo que se denomina “prueba
general”.
En este contraste la idea subyacente es determinar si las variables explicativas del

modelo, sus cuadrados y todos sus cruces posibles no repetidos sirven para determinar
la evolución del error al cuadrado. Es decir, si la evolución de las variables explicativas
y de sus varianzas y covarianzas son significativas para determinar el valor de la
varianza muestral de los errores, entendida ésta como una estimación de las varianzas de
las perturbaciones aleatorias.
El proceso a seguir para realizar este contraste sería el siguiente:
1. Estimar el modelo original por MCO, determinando la serie de los errores.

Escrito esto en forma matricial para un modelo con "n" observaciones y "k"
variables explicativas:
Y  X  U
ˆ  X ' X 1 X ' Y
Yˆ  Xˆ
e  Y  Yˆ
2. Estimar un modelo en el que la endógena sería los valores al cuadrado de los

errores obtenidos previamente (paso 1) con todas las variables explicativas del
modelo inicial, sus cuadrados y sus combinaciones no repetidas.
ei2   0  1 x1i  ...   k xki   k 1 x12i  ...   k k xki2   k k 1 x1i x2i 

 k k 2 x1i x3i  ...   3k 1 x2i x3i  ...   i
86
3. El valor de la Re2 de este segundo modelo (paso 2) nos dirá si las variables
elegidas sirven o no para estimar la evolución del error al cuadrado,
representativo de la varianza estimada de las perturbaciones aleatorias.
Evidentemente, si la varianza de éstas fuera constante (homocedasticidad), el

carácter no constante de las variables explicativas implicadas en el modelo no
serviría para explicar la endógena, luego la Re2 debiera ser muy pequeña.
Dicho esto, evidentemente un valor de la R2 suficientemente pequeño servirá para

concluir que no existe heterocedasticidad en el modelo. Para encontrar el valor
crítico en esa consideración de “suficientemente pequeño” se emplea la expresión
deducida por Breusch y Pagan como producto del coeficiente R2 por el número de datos
del modelo, que se distribuiría del siguiente modo:
n·Re2   p 1
En definitiva, si obtenemos un valor del producto n·Re2 mayor que el reflejado por
las tablas de  p 1 , afirmaremos que existe heterocedasticidad y viceversa, si este
2
valor es más pequeño diremos que se mantiene la homocedasticidad (luego la hipótesis

nula de este contraste es la homocedasticidad).
11.4.2.4. Otros contrastes
Aunque no se comentarán aquí, si es conveniente citar otros contrastes habituales para

la determinación de la heterocedasticidad, como:
- Contraste de Spearman
- Contraste de Harvey
- Contraste test de Park
- Contraste RESET de Ramsey
- Golfeld-Quandt
- Contraste de picos
- LM Arch
87
11.5. ¿Cómo se corrige la heteroscedasticidad?
Antes de entrar en los métodos operativos que permiten la estimación en presencia de

heterocedasticidad, deben hacerse dos puntualizaciones:
a. La corrección que se verá en este apartado se plantea como una estrategia

adaptativa, de convivencia con la heterocedasticidad pero, en todo caso, debe
entenderse que, en algunas ocasiones, el problema que genera un
comportamiento heterocedástico de la perturbación puede resolverse
variando la especificación lo que, sin duda alguna, sería una verdadera
corrección del problema.
b. La estimación alternativa al uso de MCO en situaciones de heterocedasticidad es

la utilización de MCG y, por tanto, esta es la única estrategia analíticamente
correcta para la solución del problema. No obstante, y como ya se ha dicho, esto
implicaría conocer el verdadero valor de la matriz sigma de varianzas y
covarianzas, situación que, en la práctica, no es habitual. Por tanto, los métodos
que se presentan aquí suponen una alternativa operativa a esta hipotética
situación ideal.
1.- Estimación consistente de White
El procedimiento propuesto por White permite una estimación que, en términos

asintóticos, permite la utilización de los procedimientos de inferencia estadística clásica.
Básicamente, la idea consiste en utilizar los errores cuadráticos de una estimación

previa de MCO como elementos de la matriz de varianzas-covarianzas de la
perturbación (matriz Σ).
White demostró que esta estrategia de “ponderación” permite obtener estimadores

consistentes de las varianzas de los parámetros.
La mayor parte de los paquetes informáticos incorporan este cálculo de modo que, en
general, su utilización parece recomendable, al menos con fines exploratorios.
88
uˆ12 0 ... 0
 
0 uˆ 22 ... 0 

ˆ
0 0 ... 0 
 
 0 0 ... uˆ n2 
De esta manera, es posible estimar las varianzas de los estimadores MCO (y sus
errores estándar) utilizando ̂ :
cov var(ˆ )   2 X ' X  X ' ˆ X X ' X 

1 1
Los errores estándar basados en este procedimiento se llaman “errores estándar

robustos” o “errores estándar White-Huber”. A este tipo de estimación también se
la denomina como “estimación sándwich de la varianza”.
En todo caso, deben hacerse dos puntualizaciones que quizá resulten interesantes al que,
por vez primera, se asome a este procedimiento.
a. Los parámetros estimados consistentemente con White coincidirán con los

de la regresión original MCO (en todo caso, recuerde que el problema de la
heterocedasticidad no es un problema de sesgo ni inconsistencia).
b. Nada garantiza, a priori, que las varianzas de los parámetros estimados con
White sean menores que las originales, dado que debe recordarse que las
MCO originales (mal calculadas) presentaban un sesgo indeterminado, pero
generalmente de infravaloración de la varianza real.
2.- Transformación de las variables originales
89
Como hemos venido viendo repetidas veces a lo largo del tema, la heterocedasticidad
viene producida por la dependencia de la varianza de las perturbaciones aleatorias
de una o más variables que, a su vez, pueden estar presentes en el modelo o no.
Los distintos métodos de detectar este problema servían para probar la dependencia de
la varianza de la perturbación aleatoria de un conjunto de variables, a partir de lo que
hemos llamado un supuesto simplificador:
 i2  f ( 2 Z i )
Por lógica, el modo de subsanar el problema detectado será operar convenientemente las
variables del modelo precisamente eliminando la fuente de heterocedasticidad que
habremos podido definir cuando detectamos la misma.
Como veremos a continuación, si el conjunto total de las variables del modelo
(endógena incluida) es dividido por la forma estimada de esta función de la raíz de
la varianza heterocedástica (una vez algún método de detección nos haya confirmado
que efectivamente el comportamiento de esta varianza se puede seguir
convenientemente con dicha función) estaremos corrigiendo el modelo.
Para comprobar esto, podemos volver a la forma matricial de varianzas-covarianzas:
 E (u1 ) 2 .   E (u1 ) 2 . 
   
E (u1u 2 ) E (u 2 ) 2 2
E (UU ' )    0    2 I   2
E (u 2 )
 ...   0 0 ...  i n
   
 E (u1u n ) E (u 2 u n ) E (u n ) 2   0 0 0 E (u n ) 2 
En esta matriz, si dividimos por  i  f ( Z i ) , obtendremos una diagonal

2 2
principal de unos; es decir, volveríamos al caso de una matriz de varianzas

covarianzas escalar tal y como la que se supone en el modelo básico de regresión
lineal.
Formalmente, para probar esto seguimos los siguientes pasos. Dado que la matriz Σ es
una matriz semidefinida positiva (todos los elementos de su diagonal principal son
90
necesariamente positivos), siempre podremos descomponerla en dos matrices de la
forma:
  PP'   1  P 1 P 1 '
Volviendo a la matriz de varianzas-covarianzas no escalar:
 E (u1 ) 2 .   12 . 
   
 0 E (u 2 ) 2
 0 2 2
   2 
 0 0 ...   0 0 ... 
   2
 0 0 0 E (u n ) 2   0 0 0  n 
'
 1 .   1 . 
  
2 0 2  0 2    2 PP '

0 0 ...  0 0 ... 
  
 0 0 0  n   0 0 0  n 
Si multiplicamos cada variable del modelo por la inversa de esta matriz P, tal y como se
ha sugerido, obtenemos unas nuevas variables del siguiente tipo:
P 1Y  P 1 X  P 1U
Y *  X *  U *
donde:
E (UU ' )   2 
E (U *U * ' )  E ( P 1UU ' P 1 ' )  P 1 P 1 ' E (UU ' )   1 1 1 
  1 2    2 I n
 P P '   
91
Por lo que podemos afirmar que el modelo transformado (aquel por el que se han
dividido todas las variables por la desviación típica estimada de las perturbaciones
aleatorias) soporta una matriz de varianzas covarianzas de las perturbaciones
aleatorias escalar, con lo que se puede estimar con toda garantía por MCO.
En definitiva, y a modo de breve “receta”, los pasos para la corrección de la

heterocedasticidad serían los siguientes:
a) Se estiman los parámetros del modelo por MCO, ignorando por el momento
el problema de la heterocedasticidad de las perturbaciones aleatorias
b) Se establece un supuesto acerca de la formación de  i2 y se emplean los

residuos de la regresión por MCO para estimar la forma funcional supuesta
c) Se divide cada observación por ˆ i2 según el paso anterior (según el valor

de esa heterocedasticidad supuesta estimada)
d) Se estima el modelo original ahora con todas las variables transformadas

según el paso c)
92
Tema 12: La Autocorrelación
12.1. Introducción
La siguiente regresión muestra una ecuación en la que tratamos de explicar el valor real de
las importaciones trimestrales (IMPK) en función de tres explicativas: el valor real de la
formación bruta de capital fijo (FBCK), el valor real del consumo privado de los hogares
(GTOHOGK) y los precios de importación de productos energéticos (PIMPENER).
Dependent Variable: IMPK
Method: Least Squares
Simple: 1981:1 2002:2
Included observations: 86
Variable Coefficient Std. Error t-Statistic Prob.
C -56823.91 2537.860 -22.39049 0.0000
FBCK -0.149782 0.166913 -0.897365 0.3722
GTOHOGK 1.265278 0.100670 12.56854 0.0000
PIMPENER 30.80776 3.582319 8.599948 0.0000
R-squared 0.983182 Mean dependent var 21327.70
Adjusted R-squared 0.982566 S.D. dependent var 12136.72
S.E. of regression 1602.487 Akaike info crit. 17.64190
Sum squared resid 2.11E+08 Schwarz criterion 17.75605
Log likelihood -754.6015 F-statistic 1597.883
Durbin-Watson stat 0.290346 Prob(F-statistic) 0.000000
La ecuación presenta signos incorrectos en los parámetros estimados de FBCK y

PIMPENER.
Para el caso de la inversión, la relación entre inversión e importaciones debería ser positiva;
para el caso de los precios de importación energéticos, la relación más razonable parecería
ser inversa (negativa).
93
Los contrastes individuales son significativos para todos los coeficientes a excepción de
FBCK cuyo p-value es inadmisiblemente elevado: sólo puede rechazarse la hipótesis de
nulidad del parámetro real con un (1-0,37)=0,63% de nivel de confianza.
Pese a la incorrección de dos de los signos y un bajo contraste de significación para

FBCK, la R2 es muy elevada.
A la vista de esta falta de sintonía evidente, cabe sospechar que estamos ante un error
de especificación.
Efectivamente, y aunque se verá con detalle más adelante, un simple vistazo al valor
del DW indica una fuerte autocorrelación positiva que, seguramente, viene causada por
una indebida especificación en niveles.
Resulta muy probable que la ecuación exhiba, así mismo, problemas de multicolinealidad,
heterocedasticidad u otros incumplimientos básicos pero, por el momento, nos
concentraremos en utilizar este ejemplo con el fin de ilustrar el problema de la
autocorrelación.
La autocorrelación se presenta cuando los valores de una serie están relacionados en

diferentes momentos del tiempo.
Si un valor positivo (o negativo) de genera una sucesión de valores positivos (o

negativos) estaremos frente a una autocorrelación positiva.
Por el contrario habrá autocorrelación negativa cuando haya alternancia de signos en

la sucesión de valores.
12.2. Detección de la autocorrelación
12.2.1. Aproximación gráfica
El análisis gráfico del residuo de la estimación indica un claro patrón de autocorrelación

positiva (patrón sinusoidal o de “ondas”); pese a que la evolución de la endógena real y la
estimada parece muy similar, lo cierto es que el componente auto - regresivo del error es
muy claro.
94
50000
40000
30000
20000
4000
10000
2000
0
-2000
-4000
82 84 86 88 90 92 94 96 98 00 02
Residual Actual Fitted
De igual modo, puede apreciarse el elevado grado de autocorrelación realizando un gráfico

X/Y para los pares de puntos representados por cada residuo y el residuo del período previo.
La nube de puntos se distribuye con claridad alrededor de una hipotética recta de

regresión con elevada pendiente lo que, lógicamente, revela una innegable relación
entre cada error y el error estimado del período previo.
4000
2000
RESID(-1)
-2000
-4000
-4000 -2000 0 2000 4000
RESID
95
12.2.2. Métodos numéricos
12.2.2.1. Prueba de Durbin Watson
Si ut es el residual asociado a la observación en el tiempo t, entonces la prueba

estadística es:
∑ )
∑
Donde T es el número de observaciones.
Puesto que d es aproximadamente igual a 2(1 − r), donde r es la autocorrelación de la

muestra de los residuos, d = 2 indica que no hay autocorrelación.
El valor de d siempre está entre 0 y 4.
Para testear autocorrelación positiva a la significancia α, el estadístico de prueba d

se compara con los valores críticos inferiores y superiores (dL,α and dU,α):
 Si d < dL,α, existe evidencia estadística de que los términos de error están
autocorrelacionados positivamente
 Si d > dU,α, no hay evidencia estadística de que los términos de error están
autocorrelacionados positivamente
 Si dL,α < d < dU,α, la prueba no es concluyente
Recordemos que correlación serial positiva es la correlación en serie en la que un error

positivo para una observación aumenta las posibilidades de un error positivo para otra
observación.
Para testear autocorrelación negativa a la significancia α, el estadístico de prueba

(4 - d) se compara con los valores críticos inferiores y superiores (dL,α and dU,α):
 Si (4 − d) < dL,α, existe evidencia estadística de que los términos de error

están autocorrelacionados negativamente
 Si (4 − d) > dU,α, no hay evidencia estadística de que los términos de error

están autocorrelacionados negativamente
 Si dL,α < (4 − d) < dU,α, la prueba no es concluyente.
96
Recordemos que la correlación serial negativa implica que un error positivo para una
observación aumenta la probabilidad de un error negativo para otra observación y un
error negativo para uno aumenta las posibilidades de un error positivo para otra
observación.
Los valores críticos, dL,α y dU,α, varían según el nivel de significancia (α), el número
de observaciones y el número de predictores en la ecuación de regresión. Su
derivación es compleja. Los estadísticos suelen obtenerse a partir de los apéndices
de textos estadísticos.
En nuestro ejemplo el valor del DW es extremadamente bajo (0,29) lo que, dados los límites
inferior y superior de la distribución DW (1,575 y de 1,721 respectivamente al 5% para K=4
y n=86), confirman la presencia de una fuerte autocorrelación positiva.
De hecho, el valor del coeficiente “ρ” asociado a este valor del Durbin Watson, que
correspondería a un hipotético proceso autorregresivo de orden uno subyacente en el
residuo, resulta ser de 0.85, lo cual es muy indicativo de autocorrelación positiva:
ut    ut 1   t
DW
DW  2  (1  ˆ )  ˆ  1   ˆ  0,85
2
12.2.2.2. Test de Wallis
Dada la naturaleza trimestral de algunos datos, cabe preguntarse si existe o no

autocorrelación de orden cuatro, es decir:
ut   4  ut 4   i
Para contrastar la hipótesis nula de ausencia de autocorrelación estacional de orden cuatro

(H0: ρ4=0), Wallis propuso computar sobre los residuos MCO de la regresión analizada la
siguiente expresión “alternativa” al DW:
97
N
 u  ut 4 
2
t
d4  t 5
N
u
t 1
2
t
En nuestro caso, este cálculo resulta ser:
d 4  0,78
Los límites inferiores y superiores que corresponden al test de Wallis son, al 95% y
para K=4 y N=86, de d4i=1.48 y d4s=1.67 por lo que, nuevamente, podemos rechazar la
hipótesis nula de ausencia de autocorrelación de orden 4 (es decir, existen también
indicios de autocorrelación estacional).
12.2.2.3. Test Breusch – Godfrey
La prueba General de autocorrelación de Breusch – Godfrey implica estimar una

ecuación para los residuos MCO de la regresión inicial en función de los retardos
requeridos (según los esquemas teóricos de autocorrelación a analizar) y las exógenas
originales.
En nuestro caso, vamos a incluir el retardo de orden 1 y 4 para el residuo además de las
exógenas, obteniendo como resultado de la estimación:
Dependent Variable: ERROR
Sample(adjusted): 1982:1 2002:2
Included observations: 82 after adjusting endpoints
C -311.8908 1376.993 -0.226501 0.8214
ERROR(-1) 0.778450 0.086592 8.989872 0.0000
ERROR(-4) 0.121140 0.095436 1.269338 0.2082
FBCK -0.077377 0.094699 -0.817078 0.4164
98
GTOHOGK 0.040605 0.056615 0.717215 0.4754
PIMPENER -3.637398 2.159248 -1.684567 0.0962
R-squared 0.731172 Mean dependent var -73.66262
Sum squared resid 54010584 Schwarz criterion 16.55829
Los autores propusieron el estadístico de contraste (N-p) x R2 (siendo “p” el número de

retardos del residuo incluidos en la regresión auxiliar) que se distribuye, para la hipótesis
nula de ausencia de autocorrelación, como una χp. En nuestro ejemplo:
( N  p) R 2  (86  2)  0,73  61,32
El valor obtenido es claramente superior al valor crítico de tablas (5,99 al 95% para 2 grados
de libertad) lo que obliga al rechazo de la nula y evidencia de nuevo la presencia de
autocorrelación.
12.3. Diagnóstico de la regresión
Evidentemente, la autocorrelación es el síntoma de algún error de especificación que, sin

embargo, no parece reflejarse en el coeficiente de determinación R2.
Más allá del problema adicional de los signos o la significatividad de FBCK (podríamos
habernos encontrado en la misma situación sin haber observado ninguna incongruencia en
los signos o en la “t”), este tipo de regresiones con buenos valores en los contrastes de
significación y, sin embargo, una acusada autocorrelación, son relativamente
frecuentes y se conocen como Regresiones Espurias.
El problema de la aparición de regresiones espurias en los resultados de un buen número de

análisis económicos es siempre atribuido, no sin razón, a Granger y Newbold (1974).
99
Sin embargo, a finales de la década de los años 20, Yule (1926) ya había arrojado su
particular “primera piedra” en el Journal of the Royal Statistical Society con un artículo con
el inquietante, pero muy descriptivo título: Why do we sometimes get nonsense correlations
between time series? Efectivamente, el problema de las regresiones espurias es que
tienden a admitirse como buenas relaciones económicas que, en realidad, sólo se deben
a aspectos casuales.
Por regresión espuria entendemos técnicamente aquellas ecuaciones de regresión que

presentan una elevada significatividad conjunta, medida en términos del coeficiente de
determinación R2 o R2 corregida y, sin embargo, fuertes problemas de autocorrelación
positiva reflejados en bajos valores del estadístico Durbin Watson.
La presencia de un término de error fuertemente autocorrelacionado impide efectuar

un proceso de inferencia con mínimas garantías.
La probabilidad de un error en el cálculo y en la aplicación de los test de significatividad

individual convencionales es muy importante, sin contar los insalvables problemas de
ineficiencia en la estimación propios de una situación de matriz de varianzas y covarianzas
no escalar para la perturbación aleatoria. (Granger y Newbold (1974 y 1977), Plosser y
Schwert (1978)).8
El problema de este tipo de regresiones es que, a diferencia de las ecuaciones claramente
deficientes, el buen ajuste en términos de “t” y “R2” puede llevarnos a una equivocada
percepción de que estamos ante la evidencia empírica de una relación causal de interés; nada
más lejos, sin embargo, de la realidad.
Una regresión con evidencias tan claras de autocorrelación debe descartarse inmediatamente
como herramienta de utilidad, sin necesidad de realizar ninguna prueba adicional y por
mucho que nos parezca atractivo el alto grado de significatividad individual o conjunta.
¿Cómo es posible encontrar esta combinación de resultados tan contradictoria? En

nuestro caso, el origen de los problemas de la autocorrelación está asociado a la
utilización de variables en niveles, en lugar de la realización de esta misma
especificación usando tasas de crecimiento o diferencias en los datos.
8
Si bien Granger y Newbold (1974) no explicitaron estadísticamente las razones que
explicaban el fallo de los procedimiento habituales, esto puede encontrarse con detalle en
Phillips (1986).
100
12.4. Corrección de la autocorrelación
Dado que en la mayor parte de las ocasiones9 la autocorrelación es un síntoma de una

especificación deficiente (modelización en niveles con variables no estacionarias,
omisión de alguna variable relevante, etc.), se sigue que en la mayor parte de las
ocasiones la forma adecuada de corregir un problema de autocorrelación es la
corrección de la especificación.
Es decir, la autocorrelación es, en muchas ocasiones, un “síntoma de…” no es una

enfermedad; por tanto, podemos optar por camuflar el síntoma, pero siempre será más
razonable intentar eliminar la enfermedad.
1.- Adaptando la especificación a la naturaleza de los datos
En el caso en que se comprobase, como sucede en nuestro ejemplo, y con la adecuada

utilización de contrastes de No Estacionariedad10, la existencia de variables
“integradas”, convendría utilizar diferencias de las variables originales o bien tasas de
crecimiento, estimando entonces de nuevo la ecuación.
Puede comprobarse como, en ambos casos, los resultados en términos de significatividad

son decepcionantes.
9
Algunos autores distinguen esta situación de aquella en la que la autocorrelación no viene provocada por
una deficiente especificación. Gujarati, por ejemplo, define esta situación como Autocorrelación Pura.
10
Existen varios contrastes muy utilizados para detectar la No Estacionariedad en varianza de las series. Los
más sencillos y populares son los contrates DF y ADF (Dickey-Fuller y Augmented Dickey-Fuller), el contraste
PP (Phillips – Perron), ambos incluidos desde hace tiempo en E-Views.
101
Regresión con variables en diferencias
Dependent Variable: D(IMPK)
C 291.8475 65.10598 4.482653 0.0000
D(FBCK) 0.670183 0.114304 5.863145 0.0000
D(GTOHOGK) -0.033462 0.115973 -0.288528 0.7737
D(PIMPENER) 1.173410 2.967580 0.395410 0.6936
Regresión con variables en tasas intertrimestrales
Dependent Variable: @PCH(IMPK)
C 0.016229 0.003206 5.062309 0.0000
@PCH(FBCK) 0.787737 0.125760 6.263833 0.0000
@PCH(GTOHOGK) -0.382166 0.352991 -1.082650 0.2822
102
@PCH(PIMPENER) -0.015416 0.018807 -0.819696 0.4148
S.E. of regression 0.022344 Akaike info crit. -4.718590
Sum squared resid 0.040440 Schwarz criterion -4.603641
Log likelihood 204.5401 F-statistic 13.96121
Dicho de otro modo, el satisfactorio resultado obtenido en la estimación preliminar era

“ficticio” y originado, más que probablemente, por la utilización de variables no
estacionarias: cuando se elimina la tendencia estocástica de estas variables, la relación de
causalidad se diluye.
2.- “Camuflando” la autocorrelación
En el caso concreto ilustrado por nuestro ejemplo, la única solución al problema de la

autocorrelación consiste en la mejora de la especificación; no obstante, una vez que
renunciamos a una corrección genuina, o una vez agotados todos los recursos para ajustar la
especificación del modelo, siempre cabe la alternativa de corregir los síntomas evitando en
parte los efectos indeseables de una inadecuada estimación MCO en un contexto en que esta
estrategia no es válida.
La estrategia para eliminar los efectos en la estimación de un modelo de

autocorrelación consiste, evidentemente, en la utilización de Mínimos Cuadrados
Generalizados considerando para ello la matriz Σ de varianzas y covarianzas que
corresponde al patrón de autocorrelación detectado.
En caso de verificarse la existencia de un proceso AR(1) en los residuos, la forma de la

matriz de autocorrelación es bien conocida pero si no pudiésemos verificar que el proceso de
autocorrelación sigue ese modelo AR(1) deberíamos considerar estimaciones alternativas de
sigma.
Así como en el caso de la heterocedasticidad, el riesgo de la transformación o de la

utilización de MCG radica, evidentemente, en la verosimilitud del modelo de
autocorrelación supuesto; si el modelo de autocorrelación resulta desconocido o
complejo, los eventuales beneficios de eficiencia derivados de la utilización de un
procedimiento de MCG o MCO sobre variables corregidas podrían ser menores de los
previstos en cuanto que estarán condicionados a la decisión sobre el patrón de
autocorrelación considerado.
Quizá la forma más burda de hacer una corrección “factible” sea simplemente
camuflar el mal dato del DW añadiendo la endógena retardada en la regresión; como
103
puede imaginarse, esta táctica, ni siquiera trata de adaptar la ineficiente herramienta de
estimación MCO al problema de la autocorrelación sino, directamente, distorsionar el
modelo de forma que el DW no refleje la verdadera dimensión de la autocorrelación.
C 5585.058 2395.831 2.331157 0.0223
FBCK 0.089965 0.052576 1.711143 0.0909
GTOHOGK -0.134891 0.059548 -2.265243 0.0262
PIMPENER -4.880665 1.705419 -2.861856 0.0054
IMPK(-1) 1.082308 0.039181 27.62295 0.0000
Efectivamente, aunque el valor del nuevo DW parece ahora aceptable, en realidad, en

presencia de autocorrelación, se propone utilizar el estadístico “h” de Durbin en lugar del
estadístico DW original:
n
h  ˆ
1  nˆ 2 ( 1 )
Donde ˆ ( 1 ) es la desviación típica estimada para el parámetro de la endógena retardada.

2
104
Es decir, en nuestro caso, el DW obtenido en la regresión que incluye la variable endógena
retardada es 1.434, que se corresponde con una estimación aproximada del coeficiente
autorregresivo “ρ” de 0.283.
Así pues, el valor de la h de Durbin es:
n 85
h  ˆ  0.283  2.798
1  nˆ (b1 )
2
1  85  (0.039181) 2
El valor de este estadístico se contrasta suponiendo una distribución normal (0,1).
Así, con un nivel de significación del 5%, el valor a superar es 1,645.

Si el estadístico calculado supera este valor, debe rechazarse la hipótesis de autocorrelación
nula; en nuestro caso, el valor 2.798 supera ampliamente el valor crítico por lo que,
evidentemente, la “h” de Durbin refleja la existencia de autocorrelación por mucho
que el valor del DW haya mejorado artificialmente.
Una transformación algo más elegante, es optar por utilizar la transformada de las
variables originales, es decir, la denominada MCG Factibles (MCGF) o Mínimos
Cuadrados Generalizados Estimados (MCGE):
yt*  yt  ˆ  y t 1
x *jt  x jt  ˆ  x jt 1
Partiendo de la serie de residuos obtenida en la estimación analizada, puede realizarse

fácilmente la estimación minimocuadrática del coeficiente “ρ” anterior cuyo resultado
se muestra a continuación y en donde se observa un valor muy parecido al estimado
directamente a partir del estadístico Durbin Watson.
Este parecido entre el valor de ρ derivado del estadístico DW o el obtenido a partir de

una estimación MCO directa del mismo se garantiza siempre en presencia de muestras
grandes.
105
Dependent Variable: R
R(-1) 0.857483 0.057251 14.97773 0.0000
R-squared 0.727543 Mean dependent var -14.75610
Log likelihood -690.7401 Durbin-Watson stat 2.120850
Expresando las variables en “semi – diferencias”11 obtenemos la estimación de MCGF12:
11
Hemos denominado a las variables corregidas con el nombre original terminado en una “C”
12
Debe observarse que hemos corregido todas las variables incluido el término independiente. En realidad, la
corrección para la variable del término independiente exige utilizar ahora un vector con el valor de 1-ρ en
lugar del valor de “1” si queremos observar el término constante equivalente a la ecuación original. No
obstante, esta transformación para el término independiente no alteraría los resultados observados en el
resto de la ecuación.
106
Dependent Variable: IMPKC
0.15 -39256.67 3377.876 -11.62170 0.0000
FBCKC 0.686680 0.158123 4.342694 0.0000
GTOHOGKC 0.717545 0.100133 7.165918 0.0000
PIMPENERC 8.369428 4.015530 2.084265 0.0403
Como puede observarse, hemos perdido una observación al realizar la regresión de MCGF.
Con el fin de no perder esta primera observación, aspecto especialmente relevante en

muestras pequeñas, puede optarse por utilizar la denominada transformación de Prais
– Winsten que permite mantener la primera observación de la variable endógena y de las
variables exógenas considerando para su cálculo:
Yi*  Yi 1  ˆ 2
X *ji  X ji 1  ˆ 2
En realidad, dado que el cálculo directo del “rho” implica cierta probabilidad de error, suele
ser conveniente utilizar el procedimiento de cálculo iterativo de ρ conocido como Cochrane
– Orcutt.
Conviene observar, no obstante, las importantes alteraciones sufridas en el valor de los

coeficientes como resultado de haber transformado los datos originales. Este cambio
resulta particularmente incómodo en cuanto que los efectos teóricos de la
autocorrelación no afectan al valor de los parámetros y, por tanto, su corrección no
debería generar valores tan diferentes respecto a los iniciales.
107
El cambio, sin embargo, resulta inevitable dado que hemos pasado desde un modelo
original en niveles a tratar de explicar las diferencias (o semidiferencias), es decir, el
movimiento de las series originales.
Con el fin de concentrar la corrección exclusivamente en la varianza (y no en el valor

de los parámetros) existe, para finalizar, una propuesta de corrección similar a la
estimación automática corregida de heterocedasticidad de White, pero ideada para el
contexto en el que exista un problema de autocorrelación.
Esta corrección, que no se desarrollará teóricamente en este texto, y que en esencia sigue la
misma estrategia que la expuesta para la corrección de heterocedasticidad de White, se
denomina Estimación de Newey – West pero sólo resulta conveniente para muestras
muy grandes.
La mayor parte de los programas informáticos incorporan esta corrección automática

bajo la denominación Estimador Newey – Wets o bien estimación con errores estándar
CHA (consistentes con la heterocedasticidad y la autocorrelación).
Como puede observarse, la estimación de Newey – West realizada en E-Views conserva

el valor original de los parámetros pero altera la estimación de las varianzas, un nuevo
cálculo de las varianzas consistente con el verdadero valor en presencia de
autocorrelación.
108
Sample: 1981:1 2002:2
Included observations: 86
Newey-West HAC Standard Errors & Covariance (lag truncation=3)
C -56823.91 4607.825 -12.33205 0.0000
FBCK -0.149782 0.324371 -0.461762 0.6455
GTOHOGK 1.265278 0.194668 6.499658 0.0000
PIMPENER 30.80776 5.283256 5.831207 0.0000
Sum squared resid 2.11E+08 Schwarz criterion 17.75605
109
Tema 13: Modelos de elección discreta
13.1. Introducción
Se dice que una variable es discreta cuando está formada por un número
finito de alternativas que miden cualidades.
Esta característica exige la codificación como paso previo a la modelización,

proceso por el cual las alternativas de las variables se transforman en códigos o valores
cuánticos, susceptibles de ser modelizados utilizando técnicas econométricas.
La modelización de este tipo de variables se conoce genéricamente con el

nombre de modelos de elección discreta, dentro de la cual existe una amplia tipología de
modelos.
En concreto, según el número de alternativas incluidas en la variable

endógena, se distinguen los modelos de respuesta dicotómica frente a los
denominados modelos de respuesta o elección múltiple.
Según la función utilizada para la estimación de la probabilidad existe:
1. El modelo de probabilidad lineal truncado

2. El modelo Logit
3. El modelo Probit
A continuación veremos cuáles son las características de cada uno de estos modelos.
110
13.2. Modelo lineal de probabilidad (MLP)
13.2.1. Especificación e interpretación del MLP
La primera tentativa teórica desarrollada para estudiar modelos con variables

dicotómicas se planteó como una extensión del Modelo Lineal General que viene
expresado por:
yi   0  1 X 1  ...   k X k  ei (1)
Donde:
yi  1 si ocurre una alternativa
yi  0 en caso contrario
X 1 ,..., X k Variables explicativas
ei Variable aleatoria que se distribuye normal )
La distribución de la muestra en este tipo de modelos se caracteriza por

configurar una nube de puntos de tal manera que las observaciones muestrales se
dividen en dos subgrupos:
1. Uno de ellos formado por las observaciones en las que ocurrió el acontecimiento
objeto de estudio ( yi  1)
2. Y el otro, por los puntos muestrales en los que no ocurrió ( yi  0)
La elaboración del modelo lineal de probabilidad requiere el ajuste de esa

nube de puntos a una función lineal (recta de regresión) capaz de explicar de la
mejor manera el comportamiento de la muestra.
111
El Modelo Lineal de Probabilidad, ecuación (1), se puede interpretar en términos
probabilísticos, en el sentido de que un valor concreto de la recta de regresión mide
la probabilidad de que ocurra el acontecimiento objeto de estudio.
Es decir, Yi estimado se puede considerar como la estimación de la

probabilidad de que ocurra el acontecimiento objeto de estudio (Yi=1) siguiendo el
siguiente criterio: valores próximos a cero se corresponden con una baja probabilidad de
ocurrencia del acontecimiento analizado (menor cuanto más próximos a cero); mientras
que a valores próximos a uno se les asigna una probabilidad elevada de ocurrencia
(mayor cuanto más próximos a uno).
La interpretación de los coeficientes estimados en los Modelos Lineales de

Probabilidad (MLP) es la misma que la del Modelo Lineal General, recogiendo el valor
del parámetro el efecto de una variación unitaria en cada una de las variables
explicativas sobre la probabilidad de ocurrencia del acontecimiento objeto de
estudio.
Así, si se produce un incremento de una unidad en la variable explicativa Xi,

ese aumento provocaría una variación igual a  i en la probabilidad de ocurrencia
de la variable endógena.
112
13.2.2. Limitaciones de la estimación por MCO
La estimación del modelo anterior por Mínimos Cuadrados Ordinarios plantea

una serie de limitaciones que se pasan a comentar a continuación:
1. El valor estimado puede estar fuera del rango (0 - 1).
La estimación del Modelo Lineal de Probabilidad a través de MCO no garantiza que los
valores estimados de Yi estén entre 0 y 1, lo cual carece de lógica al interpretarse el
valor estimado como una probabilidad.
2. La perturbación aleatoria puede no seguir una distribución Normal.
Dados los valores que toma la perturbación aleatoria no se puede asegurar que
ésta se distribuya como una normal, al tratarse de una distribución binaria o
dicotómica.
Si bien el incumplimiento de la hipótesis de normalidad no invalida la estimación por

MCO, la ausencia de normalidad imposibilita el uso de los estadísticos habituales
utilizados para realizar el contraste de hipótesis tales como la t-Student, la F, etc.,
al basarse dichos contrastes en la hipótesis de normalidad de la perturbación aleatoria.
3. Problemas de heterocedasticidad: No se cumple la hipótesis de varianza

constante, es decir, la perturbación aleatoria no es homocedástica.
La perturbación aleatoria es heterocedástica y la estimación del modelo mediante el

método de MCO obtiene unos estimadores de los coeficientes de regresión con varianza
no mínima, es decir, no eficientes.
Este problema podría solucionarse estimando el modelo a través de Mínimos

Cuadrados Generalizados (MCG). A este tipo de modelos se les denomina Modelos
Lineales Probabilísticos Ponderados.
113
La estimación por MCO del modelo transformado es equivalente a aplicar MCG en el
modelo (1) y en ambos casos se obtienen estimaciones eficientes de los coeficientes de
regresión.
Sin embargo, uno de los problemas que presenta la estimación por MCG es la
pérdida del término independiente en el modelo.
La omisión del término independiente puede provocar que la suma de los residuos
sea distinta de cero lo que puede tener consecuencias sobre el coeficiente de
determinación (puede ser negativo), la función de verosimilitud estimada a partir
de los residuos y los estadísticos que se obtienen a partir de ella.
4. El coeficiente de determinación está subestimado.
13.3. Modelos de probabilidad no lineal
La estimación e interpretación de los modelos probabilísticos lineales plantea

una serie de problemas que han llevado a la búsqueda de otros modelos alternativos que
permitan estimaciones más fiables de las variables dicotómicas.
Para evitar que la variable endógena estimada pueda encontrarse fuera del
rango (0, 1), las alternativas disponibles son utilizar modelos de probabilidad no
lineales, donde la función de especificación utilizada garantice un resultado en la
estimación comprendido en el rango 0-1.
Las funciones de distribución cumplen este requisito, ya que son funciones

continuas que toman valores comprendidos entre 0 y 1.
Especificación de los modelos de elección discreta (Logit y Probit)
114
Dado que el uso de una función de distribución garantiza que el resultado de la
estimación esté acotado entre 0 y 1, en principio las posibles alternativas son varias,
siendo las más habituales:
1. La función de distribución logística, que ha dado lugar al modelo Logit
2. La función de distribución de la normal tipificada, que ha dado lugar al

modelo Probit
En el caso del modelo Logit, la función utilizada es la logística:
exp( z )
G( z )  (2)
1  exp( z)
En el caso del modelo Probit la función de distribución utilizada es la de la

normal tipificada:
z
G( z )    (v)dv (3)

Dada la similitud existente entre las curvas de la normal tipificada y de la

logística, los resultados estimados por ambos modelos no difieren mucho entre sí.
Las diferencias son operativas, debido a la complejidad que presenta el cálculo

de la función de distribución normal frente a la logística, ya que la primera solo puede
calcularse en forma de integral.
La menor complejidad de manejo que caracteriza al modelo Logit es lo que ha

potenciado su aplicación en la mayoría de los estudios empíricos. Sin embargo, con el
desarrollo computacional actual este problema ya perdió peso.
Al igual que en el Modelo Lineal de Probabilidad, el Modelo Logit (2) se puede
interpretar en términos probabilísticos, es decir, sirve para medir la probabilidad de que
ocurra el acontecimiento objeto de estudio (Yi=1).
115
En cuanto a la interpretación de los parámetros estimados, el signo de los
mismos indica la dirección en que se mueve la probabilidad cuando aumenta la
variable explicativa correspondiente.
Sin embargo, la cuantía del parámetro no coincide con la magnitud de la

variación en la probabilidad (como ocurría en el MLP).
En el caso de los modelos Logit, al suponer una relación no lineal entre las
variables explicativas y la probabilidad de ocurrencia del acontecimiento, cuando
aumenta en una unidad la variable explicativa los incrementos en la probabilidad
no son siempre iguales ya que dependen del nivel original de la misma.
13.4. Estimación de los parámetros en los modelos Logit
La naturaleza dicotómica de la variable dependiente en este tipo de modelos

impide la utilización de los métodos tradicionales en la estimación de los parámetros.
Para la estimación de los parámetros se utiliza el método de Máxima

Verosimilitud.
13.5. Interpretación de los coeficientes: efectos marginales
p( x)
 g ( x )  j
x j
dG
Donde g ( z )  ( z)
dz
El efecto marginal de xj en la probabilidad depende de X a través de g(Xβ).
Sin embargo, el signo del efecto viene dado por el signo de βj.
116
13.6. Contraste y validación de hipótesis
A. Significatividad estadística de los parámetros estimados
La distribución del estimador del parámetro es aproximadamente:
√ (̂) )
En tal situación, se puede construir un intervalo de confianza del parámetro

estimado, para testar si dicho valor es significativamente distinto de cero de forma
individual. El contraste a realizar quedaría definido como:
H0: =0 El parámetro es igual a cero

H1: ≠0 El parámetro es distinto de cero
B. Medidas de bondad de ajuste del modelo
El uso de la función de verosimilitud en la estimación, hace que la bondad

del ajuste en los modelos de elección discreta sea un tema controvertido, ya que en
estos modelos no existe una interpretación tan intuitiva como en el modelo de regresión
clásico.
El contraste más utilizado en la literatura econométrica para medir la

bondad de ajuste en un modelo Logit es el índice de cociente de verosimilitudes
(ICV).
Índice de cociente de verosimilitudes
La función de verosimilitud puede también utilizarse para obtener un estadístico,

que tiene cierta semejanza con el coeficiente de determinación calculado en la
estimación lineal, conocido “índice de cociente de verosimilitudes”.
117
Este estadístico compara el valor de la función de verosimilitud de dos
modelos: uno corresponde al modelo estimado que incluye todas las variables
explicativas (modelo completo) y el otro sería el del modelo cuya única variable
explicativa es la constante (modelo restringido).
El estadístico, también conocido como R2 de McFadden ya que fue propuesto

por McFadden en 1974, se define como:
Donde L es el valor de la función de verosimilitud del modelo completo (el

estimado con todas las variables explicativas) y L(0) es el valor correspondiente del
modelo restringido (el que incluye únicamente en la estimación el término
constante).
El ratio calculado tendrá valores comprendidos entre 0 y 1 de forma que:
- Valores próximos a 0 se obtendrán cuando L(0) sea muy parecido a L, situación

en la que nos encontraremos cuando las variables incluidas en el modelo sean poco
significativas.
En este caso la capacidad explicativa del modelo será muy reducida.
- Cuanto mayor sea la capacidad explicativa del modelo, más se aproximará el

ratio de verosimilitud calculado al valor 1.
Una medida del error: el estadístico de Pearson
Para medir la bondad del ajuste también se utilizan medidas del error que
cuantifican la diferencia entre el valor observado y el estimado.
118
En concreto, para contrastar la hipótesis nula de que:
̂
Lo que equivale a:
A través del contraste de multiplicadores de Lagrange, se puede calcular el

estadístico conocido con el nombre de de Pearson, que se define como:
̂)
∑ ∑
̂ ̂)
Este estadístico es similar a la suma de cuadrados de los residuos del modelo de

regresión convencional.
El ajuste del modelo será mejor cuanto más cerca de cero esté el valor del
estadístico.
Para saber a partir de qué valor puede considerarse el ajuste como aceptable es
necesario conocer la distribución del estadístico.
Éste estadístico, bajo la hipótesis nula, se distribuye como una chi-cuadrado

con (n-k) grados de libertad, por lo que su valor se compara con el valor teórico de
las tablas de la chi-cuadrado para contrastar la hipótesis nula.
Si el valor calculado es superior al valor teórico se rechaza la hipótesis nula lo

que equivale a decir que el error cometido es significativamente distinto de cero, es
decir, se trataría de un mal ajuste.
119
Tema 14. Introducción a los datos de panel
En una de las referencias clásicas en la literatura, Hsiao (1986) describe a los

datos de panel como “secciones cruzadas de individuos observadas a lo largo del
tiempo”.
Es decir, se trata de una base de datos que va “siguiendo” a los individuos de una
muestra aleatoria a lo largo de varios periodos consecutivos de tiempo (“datos
longitudinales”).
También se puede hablar de “observaciones de series temporales sobre una

muestra de unidades individuales” (Arellano y Bover 1990).
Ejemplos
 Entrevistas sucesivas llevadas a cabo a un conjunto de hogares.
 Conjuntos de países (OCDE, EU, AL) de los que se dispone de informaciones

agregadas relativas a su PIB, Consumo, Ingreso, Exportaciones, etc.
Algunas características de los paneles de datos
En primer lugar la situación típica parece ser aquella en la que el número de

individuos (i = 1,...,N) es relativamente elevado, especialmente si se lo compara con
los periodos temporales de los que se dispone (t = 1,..., T).
No tiene qué ser así necesariamente, pero en general subyace esto como
hipótesis de trabajo.
120
En segundo lugar, resulta común enfrentarse a paneles incompletos en los
que para algunos individuos se tiene un mayor número de observaciones
temporales consecutivas que para otros (que se “pierden”, “salen”, “mueren”).
Siempre que esas diferencias tengan un origen aleatorio las técnicas de

estimación (efectos fijos, efectos aleatorios) siguen siendo válidas.
Además, implícito en la definición y el empleo de un panel de datos se

encuentra la consideración de que los individuos (las empresas, los hogares, los
países, etc.) son intrínsecamente diferentes entre sí.
No obstante, la principal ventaja del empleo de datos de panel no es tanto el

estimar estas diferencias sino la posibilidad de controlar la heterogeneidad
inobservable de los individuos.
Por ejemplo, en una ecuación de salarios parece lógico considerar una variable
explicativa que haga referencia a las “habilidades” o la “destreza” que tengan los
individuos.
Un caso análogo se plantearía en la estimación de funciones de producción tipo

Cobb–Douglas en las que la variable dependiente es el logaritmo de la producción y las
dependientes el logaritmo del capital, el logaritmo del trabajo y la (inobservable)
“habilidad de los administradores” o “Management”.
14.1. Modelos de Efectos Fijos (FE) y Efectos Aleatorios (RE)
Un modelo de datos de panel podría formularse en términos plenamente

genéricos como:
121
Lo trascendental radica en si la heterogeneidad se considera fija,
determinista, o por el contrario se define como la composición de una parte fija
común, más una aleatoria específica para cada individuo.
14.2. Estimación con datos de panel estáticos
14.2.1. Estimación con efectos fijos
Suponemos en este caso que existe heterogeneidad transversal inobservable

de carácter no aleatorio, constante en el tiempo y permitiremos la presencia de
términos independientes diferentes para cada individuo del panel.
En este contexto, la estrategia para la estimación de parámetros podría será:
Utilizar el estimador MCO sobre el modelo en diferencias respecto a las

medias grupales,
Esta transformación permitiría concentrar la estimación en un único conjunto de

parámetros “ ” pudiendo calcularse posteriormente los parámetros individuales
simplemente como:
Esta estrategia resulta generalmente válida por lo que es en la práctica la

forma más común de resolver la estimación de un modelo de efectos fijos.
El estimador anterior, recibe el nombre de Estimador Intragrupos por

considerarse para su aplicación la desviación intragrupal para X e Y.
También recibe el nombre de estimador de efectos fijos o de covarianzas.
122
14.2.2. Estimación con efectos aleatorios
En el modelo de efectos aleatorios se supone una sola ordenada en el origen

“ ” y las N ordenadas específicas correspondientes a cada individuo del panel se
integran en la perturbación aleatoria de modo que:
vit =hi + e it
Por esta razón a estos modelos se les llama también modelos con errores
compuestos (error components models).
La estimación de los parámetros de un modelo de efectos aleatorios no requiere,

como en el caso de efectos fijos, diferencias o desviaciones o cualquier otra
transformación que elimine la presencia del efecto fijo “ ”.
Muy al contrario, junto con la estimación de los parámetros “ ” y “ ”

interesa la estimación diferenciada de la varianza de los efectos aleatorios
dentro de la estimación global de la varianza de la perturbación aleatoria, por lo
que no conviene que el efecto “ ” sea obviado en el procedimiento de estimación.
La matriz de varianzas y covarianzas de la perturbación quedará como:
La estrategia consistirá en usar MCG sobre el modelo en niveles utilizando

una estimación adecuada de la anterior matriz .
123
A este estimador se le denomina estimador Balestra-Nerlove ó Estimador
Entre Grupos, nombre este último que proviene de la equivalencia entre estos
resultados y los que se obtendrían planteando la estimación MCO entre las medias
grupales de “y” y “x”.
14.3. El test de Hausman
Para testear la H0 de las condiciones de ortogonalidad impuestas por efectos

aleatorios podemos usar el test de Hausman.
Si los regresores están correlacionados con las ui el estimador de efectos fijos es

consistente pero el estimador efectos aleatorios no es consistente.
Si los regresores están incorrelacionados con los ui el estimador de efectos fijos

es consistente pero ineficiente, mientras que el estimador de efectos aleatorios es
consistente y eficiente.
Estas alternativas se consideran en el test de Hausman.
Se estiman ambos modelos y se comparan los coeficientes comunes.
Si ambos generan estimadores consistentes de los parámetros entonces no

difieren significativamente.
Si las condiciones de ortogonalidad se violan, entonces la inconsistencia de los

estimadores de efectos aleatorios implicará que difieran significativamente de los de
efectos fijos.
124
Implementación del test:
quietly xtreg fatal beertax spircons unrate perincK , fe

estimates store fix
quietly xtreg fatal beertax spircons unrate perincK , re
estimates store ran
hausman fix ran
---- Coefficients ----

| (b) (B) (b-B) sqrt(diag(V_b-V_B))
| fix ran Difference S.E.
-------------+----------------------------------------------------------------
beertax | -.4840728 .0442768 -.5283495 .1090815
spircons | .8169652 .3024711 .514494 .0462668
unrate | -.0290499 -.0491381 .0200882 .
perincK | .1047103 -.0110727 .115783 .0067112
------------------------------------------------------------------------------
b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test: Ho: difference in coefficients not systematic
chi2(4) = (b-B)'[(V_b-V_B)^(-1)](b-B)
= 130.93
Prob>chi2 = 0.0000
(V_b-V_B is not positive definite)
La H0 se rechaza claramente (tal como hubiéramos sospechado)
Entonces, los efectos individuales parecen estar correlacionados con los regresores
125

Guía de Clases Econometria PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Guía de Clases Econometria PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSIDAD CATÓLICA BOLIVIANA “SAN

1.1 ¿Qué es la econometría?

La econometría se basa en el desarrollo de métodos estadísticos que se utilizan para

La econometría se ha convertido en una disciplina independiente de la estadística

Datos no experimentales son datos sobre individuos, empresas o segmentos de la

En las ciencias naturales los datos experimentales suelen ser obtenidos en el

Aunque es posible idear experimentos sociales, suele ser imposible, prohibitivamente

1.2 ¿Qué es una regresión?

El análisis de regresión trata del estudio de la dependencia de una variable (variable

El objetivo es estimar o predecir la media o valor promedio poblacional de la

1. Al estudiar la dependencia del consumo personal respecto del ingreso personal

En el análisis de consumo keynesiano, se formula la siguiente expresión de

1.3. Relaciones estadísticas y relaciones deterministas

En el análisis de regresión interesa lo que se conoce como dependencia estadística

En las relaciones estadísticas entre variables se analizan, en esencia, variables

El rendimiento de un cultivo depende de la temperatura, lluvia, Sol, fertilizantes,

Dicha dependencia es de naturaleza estadística porque las variables explicativas,

Esto sucede debido a los errores en la medición de estas variables y a otra

De esta manera, habrá alguna variabilidad “intrínseca” o aleatoria en la

Ilustración 1: Isaac Newton (1642-1727)

En econometría no interesan las relaciones deterministas.

1.4. Regresión y causalidad

El sentido común indica que la relación no puede ser a la inversa, pues no es

2. En el ejemplo del consumo keynesiano es posible recurrir a la teoría económica

1.5. Regresión y correlación

El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque

En el análisis de correlación, el objetivo principal es medir la fuerza o el grado de

Gráfico 2. Tipos de correlación

1. El hábito de fumar y el cáncer del pulmón

Las correlaciones son difíciles de interpretar.

2. Número de iglesias y número de bares

Gráfico 4. Número de iglesias y número de bares

Tabla 1: Propensión marginal a consumir (PMC)

Autor País PMC

La regresión y la correlación presentan diferencias fundamentales que vale la pena

1. En el análisis de regresión hay una asimetría en el tratamiento a las variables

Se supone que la variable dependiente es estadística, aleatoria o estocástica,

2. En el análisis de correlación, por otra parte, se tratan dos variables cualesquiera

Después de todo, la correlación entre las muertes por cáncer de pulmón y el

Además, las dos variables se consideran aleatorias.

1.6. Terminología y notación

En las publicaciones especializadas, los términos variable dependiente y variable

Otros nombres de la variable dependiente

Variable explicada; Predicha; Regresada; Respuesta; Endógena; Resultado; Variable

Otros nombres de la variable explicativa

Variable independiente; Predictora; Regresora; Estímulo; Exógena; Covariante;

Sin embargo, si se estudia la dependencia de una variable respecto de más de una

El término aleatorio es sinónimo de estocástico. Una variable aleatoria o estocástica es

La letra Y representa la variable dependiente.

N (o T) representa el número total de observaciones o valores en la población, y n (o t),

1.7. Naturaleza y fuentes de datos para el análisis económico

1.7.1. Tipos de datos

1. Datos de series de tiempo

Tal información debe recopilarse en intervalos regulares, es decir, en forma diaria

El análisis de las series de tiempo corresponde a econometría 2.

Los datos transversales consisten en datos de una o más variables recopilados en el

Supongamos que en Bolivia se realizan dos encuestas de corte transversal a los

1. En 1985 se encuesta a los hogares de una muestra aleatoria acerca de

2. En 1990 se toma otra muestra aleatoria de hogares usando las preguntas de

4. Datos en panel, longitudinales o en micropanel

1.7.2. Fuentes de datos

Los datos para el análisis empírico pueden provenir de:

 una dependencia gubernamental (por ejemplo, El Instituto Nacional de