Alfonso Novales
Departamento de Economa Cunatitativa
Universidad Complutense
20 de Septiembre de 2010
@Copyright Alfonso Novales
Contents
1 Momentos poblacionales: momentos de una distribucin de probabilidad.
4
1.1 Distribuciones marginales y condicionadas: Un ejemplo . . . . . . . . . . . . . . . .
8
1.2 Media, Varianza, Desviacin Tpica, Covarianza y Coeciente de correlacin muestrales: 8
1.3 Distribuciones condicionales e incondicionales en procesos temporales: El caso del
proceso autoregresivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2 El modelo de regresin lineal
11
2.1 El modelo de regresin lineal simple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Componentes del modelo de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 Supuestos del modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . 16
3 El estimador de Mnimos Cuadrados Ordinarios
3.1 Estimador de Mnimos Cuadrados . . . . . . . . . . . . . . . . . . . .
3.1.1 Ecuaciones normales . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Expresiones para el estimador de Mnimos Cuadrados . . . . .
3.1.3 Regresin inversa . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4 Interpretacin del estimador de Mnimos Cuadrados . . . . . .
3.2 Ejemplo: Peso de bebs recin nacidos1 . . . . . . . . . . . . . . . . .
3.2.1 Descripcin del ejemplo . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Caractersticas muestrales de las variables (archivo bwght.wf1)
3.2.3 Asociacin con la variable dependiente, peso del recin nacido.
3.2.4 Anlisis de regresin . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Ejemplo: Discriminacin salarial2 . . . . . . . . . . . . . . . . . . . . .
3.3.1 Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Estadsticos descriptivos . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Anlisis de regresin . . . . . . . . . . . . . . . . . . . . . . . .
1 Fichero
2 Fichero
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
22
23
24
24
25
25
26
27
28
30
32
32
33
34
Kuleuven
6.7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
80
80
83
83
83
84
85
86
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
88
89
89
90
90
90
91
. . . . . . .
. . . . . . .
. . . . . . .
publicidad
.
.
.
.
93
93
95
95
96
.
.
.
y
. .
. .
. .
del
. . . . .
. . . . .
. . . . .
gasto en
.
.
.
.
.
.
.
.
.
.
.
.
101
102
103
104
105
106
107
109
111
112
112
116
4 En el caso de una regresin mltiple, las expresiones de la varianza del residuo recursivo que aparecen en esta
seccin son ms complejas. Sin embargo, la construccin de los estadsticos, su interpretacin y la resolucin de los
contrastes de estabilidad son iguales a los que aqu se presentan.
Toda variable aleatoria est caracterizada por su distribucin de probabilidad, que no es sino el
conjunto de valores posibles de la variable aleatoria, acompaados de sus respectivas probabilidades.
El modo en que se representa la distribucin de probabilidad depende de que la variable aleatoria
en cuestin sea de naturaleza discreta o continua.
Si denotamos por P (xi ) la masa de probabilidad en cada punto xi del soporte de la distribucin
de probabilidad de una variable aleatoria X; (conjunto de valores posibles de la variable aleatoria
X), y por f (xi ) la funcin de densidad que la representa, cuando sta existe (distribuciones de tipo
continuo), la esperanza matemtica de la variable X se dene:
Z 1
xf (x)dx;
E(X) = x =
1
xi dP (xi )
xi
si la medida de probabilidad es discreta. En este ltimo caso, xi denota cada uno de los valores
posibles de la variable aleatoria X, en nmero nito o no.
La mediana m est denida por el punto del soporte valor numrico para el cual se cumple:
Z m
1
f (x)dx =
2
1
en el caso de una variable aleatoria o distribucin de probabilidad continuas, y:
(
)
m
X
1
M ed(X) = inf m j
dP (xi ) =
2
x
i
en el caso de una variable discreta. Esta formulacin de la denicin se debe a que en distribuciones discretas puede aparecer alguna ambigedad en su clculo.
La moda es el valor ms probable de una distribucin, es decir, el punto xM del soporte de
la distribucin, tal que:
P (X = xM )
P (X = x) 8x 2 ;
La moda puede no ser nica. No existen condiciones bajo las cuales la mediana o la moda deban
preferirse a la esperanza matemtica como medida representativa de la distribucin, pero hay que
considerar tal posibilidad, dependiendo de las caractersticas de la distribucin de probabilidad.
La esperanza matemtica [suma de los valores numricos ponderada por probabilidades] de las
desviaciones entre los valores del soporte de la distribucin y su esperanza matemtica es igual a
cero:
E(X
x)
= E(X)
E(
x)
=0
h
i
2
El valor numrico que minimiza la expresin: E (X a) es: a = x . El valor minimizado es
la varianza de X.
El valor numrico que minimiza la expresin: E(j X a j) es: a = m.
La varianza de una variable aleatoria (cuando existe), es la esperanza matemtica del cuadrado
de las desviaciones entre los valores de la variable y su esperanza matemtica:
2
x
= E (X
X
=
(xi
2
x
x) =
2
x)
(x
2
x)
f (x)dx
dP (xi )
xi
X
xi
x2i dP (xi )
xi
xi dP (xi ) +
2
x
xi
xi
xi
dP (xi ) = E(x2i )
2
x dP (xi )
2
x
2
x
= E(x2i )
2
x
xi
Como en muchas ocasiones se quiere poner dicho indicador en relacin con el valor medio de la
variable, se preere un indicador que tenga unidades comparables a las de la rentabilidad por lo
que, cuando hablamos de volatilidad solemos referirnos a la desviacin tpica: raz cuadrada de la
varianza, tomada con signo positivo:
p
2
DT (X) = x =
x
Otros momentos poblacionales son:
que considera la desviacin tpica (volatilidad) como porcentaje del nivel alrededor del cual
ucta la variable, lo cual es til al comparar la volatilidad de variables que tienen una esperanza
matemtica diferente; por ej., al comparar la volatilidad de dos ndices burstiles distintos.
h
i
3
E (x
)
x
Coef iciente de asimetr{a =
3
x
que es positivo cuando la distribucin es asimtrica hacia la derecha, en cuyo caso la moda es
inferior a la mediana, y sta es, a su vez, inferior a la media aritmtica. El coeciente de asimetra
es negativo cuando la distribucin es asimtrica hacia la izquierda, en cuyo caso la moda es mayor
que la mediana, y sta es, a su vez, superior a la media aritmtica. Toda distribucin simtrica
tiene coeciente de asimetra igual a cero.
h
i
4
E (x
)
x
Coef iciente de curtosis =
4
x
EX)(Y
EY )] = E(XY )
E(X)E(Y )
EY )] = E [(X
EX)Y ]
Cov(X; Y )
p
V ar(X) V ar(Y )
Mientras que la covarianza puede tomar cualquier valor, positivo o negativo, el coeciente de
correlacin solo toma valores numricos entre -1 y +1. Esto ocurre porque, por la desigualdad de
Schwarz, la covarianza est acotada en valor absoluto por el producto de las desviaciones tpicas de
las dos variables.
Un caso importante es el de la covariacin entre los valores de una variable con sus propios
valores pasados. As, tenemos, para cada valor entero de k:
k
= Cov(Xt ; Xt
k );
k = 0; 1; 2; 3; :::
Cov(Xt ; Xt k )
=
V ar(Xt )
k
0
PXY (X = x; Y = y)
PY (Y = y)
P (Y = y=X = x) =
Ver Ejemplo 1.
Es fcil probar que si dos variables aleatorias son independientes, entonces su covarianza es cero.
La varianza de una suma o de una diferencia de dos variables aleatorias es:
V ar(X + Y )
V ar(X Y )
de modo que solo si ambas variables son independientes se tiene que la varianza de su suma es
igual a la varianza de su diferencia:
V ar(X + Y ) = V ar(X) + V ar(Y )
En tal caso, el riesgo (medido por la desviacin tpica) de una cartera sera funcin de las
ponderaciones con que entran en ella cada uno de los activos que la conguran y del riesgo de cada
uno de dichos activos, pero no dependera de si la posicin adoptada en cada activo es corta o larga,
es decir, de si estamos comprados o vendidos en cada uno de ellos.
Estas expresiones pueden extenderse anlogamente a cualquier combinacin lineal den variables.
Un ejemplo sera la suma de dichas n variables.
Desigualdad de Chebychev:
Z 1
Z
E [g(X)] =
g(x)f (x)dx "2
f (x)dx
1
siendo S el conjunto de puntos del soporte de X donde la funcin g es superior o igual a "2 : Por
tanto,
Z
E [g(X)] "2
f (x)dx = "2 P g(X) "2
S
y, nalmente:
P g(X)
"2
E [g(X)]
"2
1.1
1.2
En general, contamos con observaciones histricas acerca de una o varias variables (precios, rentabilidades, etc.) y queremos calcular medidas de posicin central, de dispersin y de correlacin con el
objeto de resumir las propiedades bsicas de dichos datos.
El conjunto de datos observados dene un histograma de frecuencias, o distribucin muestral
de frecuencias, que contiene toda la informacin disponible acerca de la variable considerada. Un
histograma de frecuencias es similar a una distribucin de frecuencias, pero es diferente de ella.
Para entender la diferencia entre ambos, hemos de comprender el concepto de proceso estocstico,
y el modo de utilizarlo en el anlisis de datos de series temporales.
Pn
(xi x)
; DTx = Sx2
n
n 1
mientras que la covarianza y coeciente de correlacin muestrales son:
x=
i=1
Cov(X; Y ) =
xi
Sx2
T
1X
(xt
T t=1
i=1
x) (yt
y) =
T
1X
xt yt
T t=1
xy
(xi
x) =
n
X
n
X
xi
x = nx
nx = 0
i=1
i=1
i=1
x; i = 1; 2; :::; n es
Cov(X; Y ) =
T
1X
xt yt = E(XY )
T t=1
1X
(xi
n i=1
x) =
1X 2
x
n i=1 i
1X
1X 2
1X 2
xi x +
x =
x
n i=1
n i=1
n i=1 i
x2
1
T
PT
DTx
x
(xt
DTx3
t=1
PT
(xt
DTx4
t=1
x)
x)
= Cov(Xt ; Xt
k)
T
1 X
(xt
T
x) (xt
x)
t=k+1
siendo siempre:
1.3
Cov(Xt ; Xt k )
= Corr(Xt ; Xt k ) = p p
=
Sx2 Sx2
0
= V ar(Xt ) y
1
T
PT
xt xt
Sx2
t=k+1
x2
= 1.
1 yt 1
+ ut ;
1<
<1
donde suponemos que ut es un proceso sin autocorrelacin (correlacin temporal consigo mismo).
Es decir, Corr(ut ; ut k ) = 0 8k:
En estas condiciones, si ut sigue una distribucin Normal ut N (0; 2u ), entonces yt sigue una
distribucin
yt
N(
;
1
2
u
2)
1
10
yt
N(
1 yt 1 ;
2
u)
que tiene una menor varianza. De hecho, la varianza incondicional de yt es tanto mayor cuanto
ms se acerque el parmetro 1 a 1, creciendo dicha varianza sin lmite. Sin embargo, la varianza
condicional es siempre 2u ; con independencia del valor numrico del parmetro 1 :
La varianza condicional de yt es igual a la varianza de ut , 2u ; mientras que la varianza incondicional de yt es siempre mayor que 2u :
Adems,
E(yt =yt
1)
1 yt 1 ;
E(yt ) =
1 X1
2 X2
3 X3
+ ::: +
k Xk
en el que resulta evidente que los parmetros transmiten directamente efectos inducidos por los
valores de las variables Xi sobre la variable Y , que se pretende explicar.
La estimacin de tales relaciones se efecta a partir de informacin muestral acerca de los
valores tomados por Y; X1 ; X2 ; :::; Xk , y trata de cuanticar la magnitud de la dependencia entre
ellas.
Con objeto de ganar precisin y aprender ms acerca del proceso de relacin entre las variables
consideradas querremos evaluar crticamente la validez de las hiptesis propuestas por la Teora
Econmica acerca de las relaciones estimadas que, en ocasiones, consistirn en si determinada
variable explicativa entra o no en la relacin que se analiza, o si aparece con un determinado
coeciente, por ejemplo, 1 -1. Ejemplos del primer tipo son las cuestiones:
1)
Inuye el dcit sobre los tipos de inters?
2)
Afecta el precio de la competencia a la demanda de nuestro producto?
mientras que ejemplos del segundo tipo son:
11
3)
Es el crecimiento monetario neutral, es decir, incide con coeciente unitario sobre la
inacin?
4)
Tiene la demanda de nuestro producto elasticidad-precio unitaria? es decir, el efecto
de un aumento de un 10% en el precio es una cada del 10% en la demanda?
Estos son problemas de inferencia estadstica, similares a los que resolvimos para contrastar
hiptesis acerca de la esperanza o la varianza, desconocidas, de una determinada distribucin de
probabilidad. Por ltimo, especialmente en cuestiones macroeconmicas, estaremos interesados en
efectuar un ejercicio de seguimiento coyuntural y de previsin de las variables analizadas. Todo
ello puede realizarse de modo riguroso mediante la utilizacin de procedimientos economtricos que
vamos a estudiar en ste y en los dos prximos captulos.
As, mediante mtodos economtricos, el analista econmico puede tratar de responder a
preguntas como:
1)
cules son los determinantes de la tasa de inacin?
2)
sobre la base de la informacin histrica disponible, cul es la importancia cuantitativa
de cada uno de dichos determinantes?
3)
podemos contrastar algunas de las implicaciones de la Teora Econmica acerca del efecto
que variables como el crecimiento monetario tienen sobre la tasa de inacin?
4)
qu sugiere el modelo que hemos estimado para la tasa de inacin acerca del comportamiento de esta variable durante el prximo ao?
Es crucial que el analista econmico:
a)
comience delimitando muy claramente la cuestin terica que va a ser el centro de su
ejercicio emprico,
b)
a continuacin, debe tratar de identicar cul es la variable cuyo comportamiento pretende explicar, y cules son sus determinantes potenciales. Denominamos a este proceso especicacin de un modelo de relacin entre variables econmicas. Como parte del proceso de especicacin, el investigador toma posicin acerca de qu variable inuye sobre cul, es decir, propone
una relacin causal. A diferencia del anlisis que pudo efectuarse mediante un coeciente de correlacin, que no descansa en una determinada direccin en la relacin entre dos variables, un anlisis
de regresin en Econometra supone que una variable X inuye sobre otra variable Y , y no al revs;
c)
luego, el analista debe escoger cuidadosamente la informacin estadstica relevante para
cuanticar tal relacin, y
d)
debe proceder a su cuanticacin, es decir, debe estimar los parmetros desconocidos que
aparecen en la relacin antes especicada;
e)
por ltimo, utilizar el modelo de relacin estimado, ya sea a efectos de contrastacin de
algn supuesto terico, mediante un proceso de inferencia, o como elemento de anlisis y seguimiento
de la variable cuyo comportamiento escogi explicar.
2.1
Vamos a limitarnos inicialmente al estudio del denominado modelo de regresin lineal simple,
que considera una sola variable explicativa X:
Y =
1X
(1)
1 Yt ;
t = 1; 2; :::; T
donde Yt denota el PIB del pas, o la renta disponible del sector privado (renta total, menos
impuestos, ms transferencias), segn el alcance que se quiera dar al anlisis. Los subndices t hacen
clara referencia al hecho de que ste ser un modelo a estimar con datos de series temporales. El
coeciente 1 indica la variacin que experimenta el consumo privado del pas al variar, a lo largo
del ciclo econmico, la variable renta que hayamos incorporado como variable explicativa en (1).
En otros casos se dispondr de una muestra de seccin cruzada o de datos transversales, y
tendremos una relacin como (1) para cada una de las unidades muestrales que, en datos transversales, estn constituidas por familias, empresas, pases, comunidades autnomas, etc.. Por ejemplo,
si disponemos de datos de observaciones de consumo y renta disponible de un conjunto de familias,
podramos especicar:
Ci =
1 Yi ;
i = 1; 2; :::; n
(2)
siendo ste un modelo en que la interpretacin del coeciente 1 sera ahora diferente de la
que hicimos con datos de series temporales; en tal caso, 1 nos proporciona el incremento que se
produce en el gasto en consumo de una familia cuando aumenta su renta. No tendra ninguna
connotacin temporal, pues no hemos utilizado datos de tal tipo. De hecho, si dispusisemos de dos
muestras de seccin cruzada, de las mismas familias, pero obtenidas en distintos momentos de un
ciclo econmico, bien podra ocurrir que la estimacin del coeciente 1 variase signicativamente
entre ambas muestras.
En otras ocasiones, se pretende estimar una relacin que no es de comportamiento, sino
que reeja, ms bien, un determinado proceso econmico, como pueda ser la produccin de bienes.
As, un modelo como:
Ct =
1 Kt
2 Lt ;
t = 1; 2; :::; T
podra interpretarse como la linealizacin de una funcin de produccin agregada del tipo CobbDouglas para una determinada economa real, en la que los coecientes 1 y 2 seran las elasticidades de produccin de ambos inputs. En este caso, necesitaramos un modelo de regresin algo
ms complejo que el modelo de regresin simple, que incluya varias variables explicativas.
El problema que nos interesa en economa estriba en la estimacin de los valores numricos
de los dos coecientes del modelo de regresin, por ejemplo, 0 y 1 en (2), as como en la posibilidad
de contrastar hiptesis acerca de sus verdaderos valores numricos, que son desconocidos.
2.2
Por razones de exposicin, y sin prdida alguna de generalidad, suponemos en lo sucesivo que
disponemos de una muestra de seccin cruzada, y mantenemos el criterio notacional que venimos
utilizando, designando con maysculas las variables genricas con las que trabajamos: Y; X, y
por minsculas las observaciones numricas incluidas en las muestras: y1 ; y2 ; :::; yn ; x1 ; x2 ; :::; xn .
Denotamos el modelo de regresin, como relacin entre las variables: Y = 0 + 1 X, mientras que
13
denotamos la relacin entre cada par de observaciones por: yi = 0 + 1 xi : Resulta evidente que
es imposible que una relacin como (1) se satisfaga para todas y cada una de las observaciones:
i = 1; 2; :::; n. Si ello ocurriese, podramos sustituir las dos primeras observaciones muestrales de
ambas variables en (1), y determinar exactamente los valores de los coecientes 0 y 1 :
y1
y2
=
=
+
0+
1 x1
1 x2
obteniendo las estimaciones de dichos coecientes con tan slo estas dos observaciones muestrales. Sin embargo, no debe sorprendernos que al incorporar los valores numricos de ambos
coecientes, junto con los de las variables Y y X correspondientes a la tercera observacin en (1),
y3 = 0 + 1 x3 ; la relacin no se cumpla, salvo por una enorme casualidad.
Queda claro, por tanto, que no es obvio cmo obtener estimaciones de los coecientes
del modelo lineal simple a partir de una determinada muestra de T observaciones temporales, o
n observaciones de seccin cruzada. A ello dedicaremos algunas de las siguientes secciones. En
cualquier caso, nos enfrentamos a una aparente paradoja: el modelo (1) no se satisfar para todas
las observaciones muestrales, no importa qu valores numricos asignemos a sus coecientes 0 y
1 . Por ello, no consideramos exactamente el modelo (1), sino una variante del mismo:
yi =
1 xi
+ ui ; i = 1; 2; 3; :::; n
donde la ltima variable, ui , denominada perturbacin estructural o trmino de error del modelo
de regresin no es observable, y permite explicar las diferencias entre los dos miembros de la igualdad
en (1). El problema de inters estriba en la estimacin de los dos coecientes en el modelo (2),
cuando se dispone de una muestra de observaciones para las variables Yi y Xi , aunque sin disponer
de observaciones de la variable ui .
La variable cuyo comportamiento se pretende explicar, Yi , recibe el nombre de variable
dependiente, mientras que la variable Xi recibe el nombre de variable independiente. En ocasiones,
tambin se denomina a Yi variable endgena o variable a explicar, mientras que a Xi se le denomina
variable exgena o explicativa. Los coecientes 0 y 1 se denominan trmino constante y pendiente
del modelo de regresin simple, respectivamente.
La perturbacin aleatoria o trmino de error del modelo economtrico es una variable
no observable para la que, en consecuencia, no dispondremos nunca de observaciones muestrales.
Suponemos que su distribucin de probabilidad, que puede ser diferente para distintas observaciones
muestrales, es independiente de los valores tomados por la variable Xi . Su interpretacin es diversa:
a)
en primer lugar, puede contener otras variables explicativas que, aun siendo relevantes,
no acertamos a especicar;
b)
tambin pudiera ser que, aun siendo conscientes de la existencia de tales variables, no
dispusiramos de observaciones muestrales para las mismas;
c)
por ltimo, el trmino de error puede estar reejando errores de medida en la variable
dependiente Yi , que suelen surgir porque las variables que utilizamos en la estimacin reejan
aproximadamente, pero no exactamente, los conceptos que querramos incorporar en el modelo.
En el caso de la funcin de consumo anterior, es difcil en la prctica disponer de datos
precisos acerca de los gastos en consumo de una determinada familia: en primer lugar, el consumo
es un ujo, y la recogida de datos en un determinado instante de tiempo puede producir todo tipo
de distorsiones en dicha variable. Para evitar este tipo de dicultades, en ocasiones, se utiliza como
14
variable de consumo el resultado de sustraer de los ingresos declarados por la familia, el ahorro
realizado durante el perodo.
Una vez estimados los coecientes 0 y 1 en (2), tendramos una ecuacin lineal, una recta,
entre el gasto en consumo y la renta de un conjunto de familias, denominada recta de regresin.
La recta de regresin proporciona la mejor relacin existente entre las variables Y y X;
en el caso de una regresin simple, o entre la variable dependiente, Y y el conjunto de variables
explicativas, en una regresin lineal mltiple. Es tentador interpretar la recta de regresin como
si nos proporcionase el valor esperado de Y condicional en los valores que pueda tomar la variable
X: El concepto de esperanza condicional es, desde luego, muy importante en el anlisis estadstico
de datos econmicos. Por ejemplo, un banco central puede estar interesado en un determinado
momento en estimar la trayectoria que seguira la tasa de inacin condicional a que dicho banco
siga una poltica monetaria restrictiva. Querra asimismo caracterizar la trayectoria esperada de la
inacin condicional a que se ponga en prctica una poltica monetaria expansiva, y as comparar
ambas trayectorias esperadas, y escoger la poltica monetria acorde a la senda de inacin preferible.
De modo simple, este es un ejemplo del importante problema de diseo de poltica monetaria.
Los modelos economtricos pueden ayudar en este tipo de situaciones. Una vez estimados los
coecientes ; disponemos de valores numricos para ellos, y jando una senda numrica para X
(tasa de crecimiento monetario) podemos calcular una senda numrica para Y (tasa de inacin).
Este ejercicio tambin se conoce como prediccin por escenarios. Se trata de establecer sendas o
escenarios alternativos para X; cuyos efectos se quieren comparar entre s, estimar la senda de Y
bajo cada uno de dichos escenarios, y calcular el resultado econmico o de cualquier otro tipo.
El mismo esquema aplica a la gestin de la empresa, o en muchos contextos nancieros. Por
ejempo, una empresa se est planteando la conveniencia de dos polticas de publicidad alternativa,
una de bajo y otra de alto coste. Si, utilizando datos histricos, estima un modelo de regresin que
explique las cifras de ventas (Y ) utilizando el gasto en publicidad (X) durante los ltimos 40 aos,
puede utilizar el modelo estimado para calcular aproximadamente las ventas que puede esperar
bajo cada una de las dos polticas de publicidad. A continuacin, un sencillo clculo, aplicando
los mrgenes con que opera a las cifras de ventas estimadas y sustrayendo el coste de la campaa
publicitaria, podr decidir la preferencia por una u otra de las dos campaas.
Existe una limitacin, sin embargo, y es que si recordamos el concepto de esperanza condicional,
sabemos que dicha esperanza condicional es, en general, una funcin no lineal. Es decir, para
calcular el valor esperado de Y para un determinado valor numrico de X; deberamos utilizar la
esperanza de la distribucin de Y condicional en X , y sta es, en general, una funcin no lineal.
Cuando ambas variables, Y y X; tienen una distribucin conjunta Normal, entonces, la esperanza
condicional es una funcin lineal, pero no lo es en cualquier caso. Si no aceptamos la Normalidad
de la distribucin conjunta, entonces la regresin slo se puede entender como una aproximacin a
la esperanza condicional de Y; dado X:
Por tanto, en este captulo imponemos una forma funcional lineal para la dependencia de Y
respecto de X y no hay ningn razn para pensar que la recta de regresin es una esperanza
condicional. Para cada nivel de renta concreto como Yi = y , la recta estimada nos proporciona
una estimacin o prediccin de gasto en consumo, Ci = c . Si hay alguna familia en la muestra
con dicha renta, su gasto en consumo observado no coincidir, salvo por casualidad, con el nivel
previsto por la recta estimada. La diferencia:
u
^i = Ci
(^0
15
^ Yi );
1
que puede ser positiva, si el gasto en consumo excede del estimado por la recta, o negativa, si
el gasto observado es inferior al estimado, se conoce como residuo de dicha observacin muestral,
denotado por u
^i y, como veremos en la seccin 2, juega un papel fundamental en la estimacin
del modelo de regresin. Es importante observar que la recta de regresin estimada proporciona el
nivel de consumo que deberamos prever para cualquier nivel de renta, incluso si y no coincide con
el de ninguna familia en la muestra. En tal caso tenemos un verdadero ejercicio de prediccin.
En resumen, cuando se lleva a cabo un ejercicio emprico como la estimacin del modelo de
consumo (2), se tiene en mente un argumento del siguiente tipo: con el modelo (2) no se pretende
explicar el comportamiento de la renta disponible de las familias, sino de su nivel de gastos en
consumo. Para ello, consideramos las observaciones de la variable explicativa, la renta Yi , como
jas: es decir, creemos que si hubisemos entrevistado a otras n familias, hubiramos generado
los mismos datos para dicha variable. Sin embargo, las observaciones muestrales de la variable
dependiente, el consumo Ci , habran sido diferentes, como consecuencia de: a) aspectos especcos,
no observables, de las familias encuestadas, b) errores de medida de diferente cuanta a aquellos
en los que hemos incurrido en la muestra actualmente disponible, etc., y que aparecen recogidos
en la perturbacin aleatoria. El trmino de error es una variable aleatoria, diferente para cada
observacin muestral, y su realizacin no es observable. Por el contrario, el residuo es observable,
puesto que se construye a partir de las estimaciones y de los datos de las variables dependiente e
independiente. Trmino de error y residuo son entes de diferentes naturaleza.
Desde el punto de vista puramente estadstico, el modelo de regresin no tiene necesariamente una connotacin de causalidad en la relacin entre variables. Del mismo modo que podemos
estimar una regresin de una variable Y sobre otra variable X, podemos estimar una regresin en el
orden inverso. Sin embargo, el anlisis de este modelo elemental no trata a ambas variables de igual
modo: las variables explicativas se consideran deterministas, mientras que la variable dependiente
se considera de naturaleza aleatoria. El papel que juega cada una de las variables debe decidirse en
funcin del aspecto terico que est siendo objeto de estudio. En el ejemplo de consumo y renta,
es evidente que queremos explicar los gastos en consumo en funcin de la renta, y no al revs; el
consumo es la variable dependiente, y la renta es la variable independiente. Por eso, el investigador
debe decidir de antemano el papel que juega cada una de estas dos variables, porque el tratamiento
estadstico del modelo de regresin no concluye nada a este respecto. Sin embargo, su utilizacin
en Econometra se efecta condicional en una determinada hiptesis acerca de la direccin de la
relacin, y no al revs.
El modelo de regresin presupone que los valores numricos de la variable dependiente gastos
de consumo, Ci , se generan, en la realidad, a partir de los valores tomados por la variable renta Yi y
precisamente a travs de la relacin (2). En general, creemos que los procesos econmicos son algo
ms complejos, y que se precisa ms de una causa para explicar adecuadamente el comportamiento
de una variable como el consumo, Ci , o bien formas funcionales ms complicadas que la lineal. Sin
embargo, el modelo de regresin simple es tambin una herramienta til, al menos en una primera
aproximacin, desde la que no es muy complejo pasar al anlisis del modelo de regresin lineal
mltiple, cuyo estudio en profundidad dejamos para temas posteriores.
Comentemos un poco ms en detalle estos aspectos:
2.3
1. Linealidad en las variables: en algunos casos, el supuesto de que la determinacin de los valores
del gasto en consumo, Ci , a partir de los de la renta, Yi , se produce a travs de un modelo lineal
16
1 Yi
2Y
+ ui ; i = 1; 2; :::; n
Este tipo de no linealidad en las variables puede incorporarse al anlisis sin gran dicultad,
del modo que veremos en el prximo captulo,
2. Linealidad en los parmetros: muy diferente es la situacin en que los parmetros entran en
la relacin entre variable dependiente e independientes de modo no lineal. El tratamiento
que requieren tales modelos, con excepcin de algunos casos sencillos, es sustancialmente ms
complejo, por lo que no es discutido en este texto,
3. Esperanza matemtica nula: suponemos que la esperanza matemtica del trmino de error ui
del modelo es cero: E(ui ) = 0; i = 1; 2; :::; n. Si, por el contrario, tuvisemos: E(ui ) = a 6= 0
, ste sera un efecto constante sobre Yi y, por ello, determinista, y debera incluirse como
parte del trmino constante 0 en (1). Una situacin en que este supuesto no se cumplira es
cuando el investigador, por error, omite del modelo una variable explicativa relevante. As,
supongamos que en vez de especicar el modelo:
yt =
1 xt
2 x2t
+ ut ; t = 1; 2; 3; :::; T
se especica el modelo:
yt =
1 xt
+ vt ; t = 1; 2; 3; :::; T
17
tal caso, trabajamos generalmente bajo el supuesto de distribucin Normal conjunta de todas
las variables que aparecen en el modelo de regresin, e interpretamos ste como la esperanza
condicional ya mencionada, lo cual puede extenderse al caso de varias variables explicativas.
1 xi
+ ui ; i = 1; 2; 3; :::; n
donde suponemos que: 1) ui es una variable aleatoria con E(ui ) = 0 y V ar(ui ) = 2u para
todo i, 2) los valores xi son jos, 3) 0 y 1 son constantes desconocidas. Esta es la especicacin
del modelo de regresin lineal simple. Para ello, el investigador dispone de una muestra de 16
observaciones acerca de dos variables X e Y , la ltima de las cuales queremos explicar por medio
de la primera:
Cuadro 1
Producto de
Desviaciones Desviaciones
Residuo en X al en X e Y respecto
cuadrado cuadrado de sus medias
Valor
explicado Residuo
n
X2
XY
Y-ajustada
Xu
u2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16
18
8
9
9
10
12
14
13
10
7
15
16
18
15
13
15
13
11
8
6
8
9
12
10
5
9
12
13
18
10
8
225
169
121
64
36
64
81
144
100
25
81
144
169
324
100
64
240
234
88
72
54
80
108
168
130
50
63
180
208
324
150
104
16.3
14.7
13.1
10.7
9.1
10.7
11.5
13.9
12.3
8.3
11.5
13.9
14.7
18.7
12.3
10.7
-0.33
3.26
-5.14
-1.74
-0.14
-0.74
0.46
0.06
0.66
1.66
-4.54
1.06
1.26
-0.73
2.66
2.26
-5.0
42.4
-56.5
-13.9
-0.9
-5.9
4.1
0.8
6.6
8.3
-40.9
12.8
16.4
-13.1
26.6
18.1
0.11
10.66
26.39
3.03
0.02
0.55
0.21
0.00
0.44
2.75
20.60
1.13
1.60
0.53
7.09
5.11
20.8
6.6
0.3
5.9
19.7
5.9
2.1
2.4
0.2
29.6
2.1
2.4
6.6
57.2
0.2
5.9
15.1
13.6
-2.6
9.0
16.4
6.6
1.0
2.1
-0.1
14.6
8.2
3.6
8.5
40.2
-1.0
-0.8
Sumas :
Medias :
Varianzas:
203
12.69
11.71
167
10.44
10.50
1911
119.44
2253
140.81
203.00
12.69
6.70
0.00
0.00
5.01
0.00
0.00
80.22
5.01
167.94
10.50
134.19
8.39
19
(X-mX)2 (Y-mY)(X-mX)
11
16
18
8
13
^ + 15 ^ + u
^1 ;
0
1
^ + 13 ^ + u
^2 ;
0
^ + 11 ^ + u
^3 ;
0
1
:::
= ^0 + 8^1 + u
^16
=
que no puede resolverse, pues contiene 18 incgnitas, 0 y 1 , junto con los 16 residuos u
^i
pero slo 16 ecuaciones. Podramos jar los residuos igual a cero en dos ecuaciones y utilizarlas
para obtener estimaciones ^ 0 y ^ 1 . Pero dichas estimaciones dependern del par de ecuaciones
seleccionadas, por lo que tal procedimiento no es adecuado. El mtodo apropiado consiste en
obtener valores numricos para 0 y 1 que satisfagan de la manera ms aproximada posible,
simultneamente, las 16 ecuaciones del sistema anterior.
Una vez estimados los coecientes, se puede calcular para cada observacin i:
y^i = ^ 0 + ^ 1 Xi
(3)
( ^ 0 + ^ 1 xi );
20
Grco 1
Y0
Y0
Y= (+ X )
u= Y 0 Y
0 = Y0 ( + X 0 )
(Y0 , X 0 ) *
Y0
X0
Hay muchos modos posible sde utilizar la informacin muestral para asignar valores numricos
a los dos parmetros desconocidos del modelo, 0 y 1 : Parece razonable que queramos utilizar un
procedimiento que genere unos residuos o errores de ajuste que sean reducidos, en algn sentido que
hemos de denir. Pero tenemos tantos residuos como observaciones muestrales, y no cabe pensar
que podamos conseguir que todos y cada uno de ellos sea pequeo. Generalmente, preferiremos
no tener ningn residuo muy grande, sea positivo o negativo, por lo que supondra de tener un
importante error de ajuste para la observacin muestral correspondiente. Entonces, la posibilidad
ms inmediata sera utilizar un estimador que consiga que la suma de los residuos sea igual a cero.
Pero enseguida vemos que esta idea no funciona:
21
Grco 2
Y
Y2
*B
A
B
Y1
*A
X1
X2
un posible criterio que dena a un estimador sea la minimizacin de la magnitud de los residuos
que dicho estimador genera. Tal idea es correcta, pero hay varias dicultades para hacerla prctica:
en primer lugar, tenemos no un residuo, sino un conjunto de n residuos, por lo que no se trata de
minimizar un residuo determinado, sino una medida conjunta del tamao global de todos ellos.
Una vez obtenidas unas estimaciones
numricas de los coecientes, podra pensarse en
Pn
sumar los n residuos generados:
u
^
,
y
escoger
como estimacin el par de valores ^ 0 y ^ 1
i
i=1
que produce la menor suma de residuos. Una dicultad con tal procedimiento es la cancelacin
de residuos negativos con residuos positivos. Adems, si realmente se pretendiese minimizar la
suma de residuos, bastara generar residuos de tamao muy grande, pero negativos, lo cual no es
adecuado.
3.1
El estimador de mnimos cuadrados que introducimos en esta seccin utiliza como criterio la
minimizacin de la Suma de los Cuadrados de los Residuos (SCR), o tambin Suma Residual,
aunque hay que recordar que es una suma de cuadrados. Se trata, por tanto, de seleccionar valores
de los coecientes 0 y 1 que resuelvan el problema:
M inimizar SCR =
^ ;^
0
1
n
X
u
^2i
i=1
Ntese que el residuo asociado a cada observacin i; i = 1; 2; :::; n; depende de los valores de los
coecientes escogidos, porque:
22
( ^ 0 + ^ 1 xi )
u
^ i = yi
n
X
yi
yi
yi
^ xi
1
i=1
@SCR
@ 1
2
2
n
X
i=1
n
X
^ xi = 0
1
(4)
^ xi xi = 0
1
(5)
i=1
DET = 4 @n
n
X
i=1
x2i
Pn
2 P i=1 xi
n
2 i=1 x2i
@ 2 SCR
2n
= Pn
2 i=1 xi
@ 0@ 1
n
X
i=1
!2 1
xi A = n2
Pn
i=1
x2i
=n
Pn
i=1
(xi
n
x)
= n2 Sx2
Pn
2
siendo Sx2 la varianza muestral de X : Sx2 =
x) =n: Como el primer menor, el
i=1 (xi
elemento (1,1) de esta matriz, que es 2n, es tambin positivo, podemos armar que la solucin
al sistema de ecuaciones (4) y (5) sern, los valores numricos de los coecientes 0 y 1 que,
efectivamente, alcanzan un mnimo de la Suma Residual.
3.1.1
Ecuaciones normales
yi
= n^0 + ^1
i=1
n
X
i=1
yi xi
n
X
xi
(6)
i=1
n
X
i=1
23
xi + ^ 1
n
X
i=1
x2i
(7)
yi
^ Pn
xi
= y ^1x
(8)
n
que podremos utilizar para obtener el estimador MCO de 0 , una vez que tengamos el estimador
de 1. Substituyendo en (7), tenemos:
^ =
0
^ =
1
Pn
1
n
2
i=1 xi
yi xi
Pn
i=1
i=1
i=1
Pn
Pn
Pn
( i=1 xi ) ( i=1 yi )
(xi x) (yi y)
nSxy
=
=
= i=1
Pn
Pn
2
2
1
nSx2
x)
i=1 (xi
i=1 xi )
n (
xy
Sy
Sx
(9)
Regresin inversa
Supongamos ahora que estimamos la regresin lineal inversa de la anterior, es decir, la regresin
que tiene a Y como variable explicativa, y a X como variable dependiente:
xi =
1 yi
+ vi
Sxy
Sy2
regresin original. Sin embargo, existe una relacin entre ambos. En efecto, si multiplicamos
ambos estimadores, tenemos:
2
2
xy
luego el producto de ambos estimadores es igual al cuadrado del coeciente de correlacin lineal
entre ambas variables.
3.1.4
Podemos ahora deducir la relacin que existe entre el estimador MCO de la pendiente
de regresin lineal simple y el coeciente de correlacin de X e Y :
^ = Sxy = Sxy Sy =
1
Sx2
Sx Sy Sx
xy
del modelo
Sy
Sx
3.2
25
3.2.1
114; 52
(3;73)
+0; 472educpi
(0;283)
0; 370educmi + ui ; i =
(0;037)
(0;659)
1; 2; :::; N
(0;320)
R2
donde se muestran entre parntesis las desviaciones tpicas estimadas de cada uno de los coecientes. El autor contrasta la signicacin conjunta de los niveles educativos de ambos padres
mediante el estadstico F , en la forma del R2 , no rechazando la hiptesis nula de ausencia de capacidad explicativa de ambas variables, conjuntamente consideradas. Por tanto, el nivel educativo
de los padres no parece ser un condicionante signicativo del peso de los bebs al nacer.
La discusin que llevamos a cabo en la Seccin XX ya sugiere que, en cualquier caso, la interpretacin de este resultado no debe hacerse con carcter absoluto. El investigador debera decir
que una vez incluidas considerados como posibles factores explicativas del peso del recin nacido la
renta de la familia, el nmero de cigarrillos fumados por la madre durante el embarazo y el nmero
de orden del recin nacido entre sus hermanos, los indicadores educativos de los padres no aportan
informacin adicional relevante.
El segundo matiz que hemos de hacer es que podra darse el caso de que los indicadores educativos
contengan informacin relevante incluso una vez que ya se ha tenido en cuenta la informacin
aportada por las variables mencionadas pero, por alguna razn, la informacin muestral disponible
no permite medir con suciente precisin el impacto que sobre el peso del beb tiene el nivel
educativo de los padres. Una reducida precisin podra conducir a un estadstico-t reducido y, con
ello, a no rechazar la hiptesis nula de ausencia de relacin entre nivel educativo de los padres y
peso del beb.
6 El archivo Bwght.des contiene la descripcin de las variables incluidas en el archivo Bwght.raw, algunas de las
cuales se han utilizado en el ejemplo.
26
La tercera consideracin a efectuar es que el contraste tipo F efectuado para analizar conjuntamente la informacin proporcionada por las dos variables educativas descansa sobre el supuesto de
Normalidad del trmino de error del modelo de regresin, cuestin que habramos de analizar.
Comenzamos nuestro anlisis indagando la informacin que cada una de las potenciales variables
explicativas contiene sobre el peso del recin nacido. Al hacerlo individualmente, estamos ignorando
el hecho de que distintas variables pueden contener informacin comn; debemos interpretar que se
trata de un anlisis que trata de detectar la ausencia de capacidad explicativa en alguna variable.
Si, como es habitual, nos limitsemos al anlisis de los estadsticos tipo t, diramos que, entre las
variables consideradas, el nmero de cigarrillos fumados por la madre afecta al peso del recin
nacido, habiendo asimismo un efecto estadsticamente signicativo en relacin con el nmero de
orden que el recin nacido ocupa entre los hijos de la familia. Los indicadores de educacin no
parecen aportar informacin relevante, al igual que tampoco parece haber relacin con la renta de
la familia en la que se produce el nacimiento.
3.2.2
Los histogramas7 de las variables revelan caractersticas interesantes (ver HIS_nombre variable en
el chero bwght.wf1): la variable dependiente peso es una variable continua, cuyo exceso de curtosis genera un comportamiento no Normal en la muestra, rechazndose claramente dicha hiptesis
mediante el test de Jarque-Bera. Este resultado despierta dudas acerca del uso de las distribuciones habituales tipo t de Student y F de Fisher-Sendecor para los estadsticos utilizados en la
contrastacin de hiptesis.
Las variables cigarrillos y paquetes tienen una correlacin exactamente igual a 1,0. Esto signica
que se han construido una a partir de la otra, pues si se hubiera encuestado sobre ambas existira una
relacin algo menos que perfecta entre ellas. Examinando sus valores, vemos que la primera es igual
a 20 veces el valor numrico de la segunda en todos los casos, por lo que utilizaremos nicamente la
variable cigarrillos. Esta es una variable discreta, con un valor mnimo de 0 y un valor mximo de
50; la mediana es 0, reejando el hecho de que en casi un 85% de los 1.388 nacimientos recogidos en
la muestra, la madre declar no haber fumado durante el embarazo8 . Slo en 212 casos, la madre
del recin nacido declar haber fumado un nmero medio de cigarrillos por da mayor que cero. Esto
sugiere que disponemos de una informacin relativamente reducida para estimar la contribucin al
peso del beb de un cigarrillo adicional, lo que podra hacer que dicha estimacin se obtenga con
una precisin no muy alta, salvo si la diferencia entre el peso de los bebs de madres fumadoras y
no fumadoras es muy sistemtica.
La educacin de la madre toma valores entre 2 y 18 aos, con una mediana de 12 aos; sta es
tambin la moda, recogiendo el 40,5% de las observaciones muestrales. La educacin del padre toma
valores entre 1 y 18 aos, tambin con una mediana y moda igual a 12 aos; valor que aparece en un
37,2% de los nacimientos. El elevado nmero de observaciones en el nivel educativo correspondiente
a 12 aos segmenta la muestra de padres y madres entre los que alcanzan el grado medio y los que
continan con estudios superiores.
La informacin numrica sobre la renta familiar, en miles de dlares, tiene el aspecto de haber
sido redondeada, apareciendo nicamente valores numricos entre 0,5 y 19,5, adems de 22,5, 27,5,
32,5, 37,5, 42,5, 47,5, 65,0. Por tanto, la variable renta tiene naturaleza discreta, tomando un
nmero relativamente alto de valores igualmente espaciados en el primer rango mencionado, para
7 Los
8 Por
nombres en cursivas, entre parntesis, denotan elementos del archivo de trabajo Bwght.wf1.
tanto, la moda de esta variable es cero.
27
Los coecientes de correlacin habituales son reducidos (Tabla correlaciones), siendo el ms elevado numricamente (-0,16) el del nmero de cigarrillos fumados, que es de signo negativo, como
esperaramos. Recurdese que una desviacin tpica aproximada del coeciente de correlacin es el
inverso de la raz cuadrada del tamao muestral, que estara en torno a 0,027. Ello hara que la
correlacin mencionada, aun siendo reducida, fuese estadsticamente signicativa. Sin embargo, el
resto de las correlaciones recogidas en la tabla sugiere que la bsqueda de capacidad explicativa del
peso del recin nacido en las variables disponibles puede resultar poco fructfera. Entre las variables
explicativas, la renta de la familia tiene coecientes de correlacin superiores a 0,40 con los niveles
educativos del padre y la madre que, a su vez, muestran una correlacin de 0,64 entre ellos.
Sin embargo, las variables explicativas tienen naturaleza discreta, por lo que los coecientes de
correlacin habituales no estn plenamente justicados. Esto mismo hace que las nubes de puntos
con la variable dependiente no sean tan informativas como en otros casos; como muestra, recogemos
en el chero de trabajo la nube de puntos entre el peso y el orden que el recen nacido ocupa entre
los hijos. Un efecto negativo, por ejemplo, vendra dado por una reduccin del peso al aumentar
el valor de la variable ordenac i : La nube de puntos nos da un intervalo de pesos observados entre
los recin nacidos que comparten un mismo valor de la variable ordenac i , y se tratara de ver si el
valor representativo de cada intervalo de pesos es decreciente al aumentar ordenac i .
9 Esto se muestra en Bwght.xls, multiplicando las columnas de variables dicotmicas {0,1} Fuma y Blanco, y
hallando la suma de dicho producto, y repitiendo el clculo con Blanco y 1-Fuma. Suponemos aqu que la raza
de la madre y del recin nacido son las mismas. De modo anlogo, puede verse que de las 212 madres que declararon
haber fumado, 100 tuvieron un hijo varn. Esta divisin aproximada entre hijos varones y mujeres es, por supuesto,
muy razonable.
28
Esto nos dirige a estimar la asociacin entre variables mediante tablas de clasicacin de sus
valores, as como contrastando la igualdad de medias y medianas entre clases. Por ejemplo, para
analizar la posible asociacin entre el peso del beb y la educacin de la madre, calculamos la
mediana del peso de los bebs para cada uno de los posibles niveles educativos de la madre, contrastando la igualdad de dichos valores mediana. Si estas dos variables no estuvieran relacionadas,
las medidas de posicin central (mediana o media) de la variable peso seran similares para los
distintos niveles educativos; si existe una asociacin positiva entre ambas variables, esperaramos
que la media o mediana de peso fuese creciente con el nivel educativo, y lo contrario ocurrira si
existiera una relacin negativa entre ambas. En ambos casos se rechazara la hiptesis nula de
igualdad de medias as como la de igualdad de medianas. Para ello, debe calcularse la media o
mediana de la variable dependiente para cada uno de los distintos rangos de valores numricos de
la variable explicativa que se considera. Nos centramos en las medianas y no en las medias debido
a la fuerte desviacin que muestran las distribuciones de estas variables respecto de la Normalidad,
tanto por razn de la muy elevada frecuencia observada en el valor modal, como de su asimetra. El
lector interesado puede reproducir nuestro anlisis contrastando la igualdad de medias muestrales
del peso para los distintos niveles educativos de la madre o el padre.
Al comparar las variables peso y educm, los contrastes Kruskal-Wallis y van der Waerden de
igualdad de medianas rechazan la igualdad de medianas, sugiriendo asociacin entre ambas variables (M EDN _P ESO_EDU CM ). Repetimos el contraste llevando a cabo cierta agrupacin
de los niveles educativos, para eliminar el problema de que algunos niveles educativos recogen un
nmero muy reducido de observaciones: para algunos niveles educativos hay una sla observacin
muestral. La agrupacin proporciona indicios an ms claros en contra de la igualdad de medianas.
Los valores numricos de las medianas por clases de niveles educativos10 despus de la agregacin,
recogidas en (M EDN _P ESO_EDU CM 2) sugiere cierta asociacin positiva entre ambas variables, puesto que la mediana del peso parece ser creciente con el nivel educativo de la madre. As
lo sugieren asimismo los valores p de los contrastes de la chi-cuadrado, de Kruskal-Wallis y de van
der Waerden que aparecen en la tabla. Tal asociacin podra reejarse en un grco de barras
que mostrase los pesos medianas que aparecen debajo del rtulo Category Statistics en la tabla
M EDN _P ESO_EDU CM 2 como funcin de los valores centrales de los intervalos que aparecen
para la variable educmi . Sin embargo, tal como muestra el grco de barras de Med_peso_educm2,
la asociacin, si existe, es dbil.
Tambin en la relacin con el nivel educativo del padre, hemos efectuado dos veces el contraste
de igualdad de medianas: una, sin agrupar los niveles educativos (M EDN _P ESO_EDU CP ), y
otra, agrupndolos (M EDN _P ESO_EDU CP 2); la segunda es preferible, a pesar de que el nivel
de agrupacin es relativamente arbitrario. En casos como los que estamos analizando, 15 clases
parece un nmero razonable, pues permite que aore cierta disparidad entre medianas, a la vez que
permite recoger una mnima frecuencia dentro de cada clase. Si juzgamos por los valores p de los
contrastes, la evidencia contraria a la hiptesis nula de igualdad de medianas, lo que sugerira una
posible asociacin entre las variables peso y educp, es claramente menor que en el caso del nivel
1 0 Para obtener una clasicacin de la variable Peso utilizando como clasicador los niveles educativos de la madre,
seleccionar Peso y entrar en Descriptive Statistics/Stats by Classication escribiendo EDUCM en la ventana
Series/Group for Classify. Para contrastar la igualdad de medianas entre grupos a la vez que se lleva a cabo la
clasicacin, entrar en Tests for Descriptive Statistics/ Equality Tests by Classication, escribiendo EDUCM en
Series/Group for Classify, y marcando Mediana, en vez de Media bajo Test Equality of . Para obtener
una clasicacin con agrupacin de niveles educativos, a la derecha, donde aparece Group into Bins if marcar
un nmero reducido (por ej., 10) en la ventana # of values, que se reere al nmero de rangos de valores que se
quieren utilizar para la variable que se utiliza como clasicador, en este caso, EDUCM.
29
educativo de la madre, sugiriendo que el nivel educativo del padre podra no ser muy relevante para
explicar el peso del beb. Sin embargo, no hemos de olvidar que estamos comparando nicamente
una medida de posicin central de la variable peso para los distintos grupos denidos para educm
o educp; no examinamos el conjunto de todos los valores de peso observados dentro de cada nivel
educativo, lo que podra arrojar ciertas diferencias entre distintos niveles de educmi . Por ejemplo,
podramos observar que los rangos observados para pesoi se amplan o se estrechan al aumentar
educmi ; sugiriendo que la varianza de la variable pesoi es funcin del nivel educativo de la madre.
Una evolucin creciente de los pesos mnimo y mximo sugerira asimismo una relacin positiva,
siendo negativa si si se observase la evolucin contraria; esto podra ocurrir sin observar variaciones
signicativas en los valores mediana.
La evidencia a favor de asociacin es bastante ms clara en la comparacin de peso y renta
(M EDN _P ESO_REN T A), y todava ms clara en el caso de peso y cigarrillos (M EDN _P ESO_CIGS2).
Un diagrama de barras de las medianas de peso por clases de renta sugiere una asociacin positiva (M ED_P ESO_REN T A), mientras que un diagrama de medianas de peso por clases de
valores de cigarrillos sugiere una asociacin negativa (M ED_P ESO_CIGS2), si bien esta ltima
clasicacin est contaminada por el elevado porcentaje muestral con un valor cero de la variable
cigarrillos. En el chero de trabajo se incluye asimismo la variable F U M A, que hemos denido de
modo que el valor 0 si la madre no fum durante el embarazo, y el valor 1 si lo hizo. El valor mediana de los pesos de los bebs fue de 111 y 120 onzas, respectivamente, en cada caso, lo que sugiere
cierta dependencia negativa entre el peso y el hbito de fumar. Los valores p de los contrastes en
M ED_P ESO_F U M A son bastante concluyentes respecto a la existencia de tal dependencia.
La igualdad de medianas no se rechaza cuando se clasica la variable peso de acuerdo con los
valores de la variable ordenac, sugiriendo que el orden del recin nacido entre sus hermanos podra
no ser informacin relevante para explicar su peso. Este anlisis descriptivo es preliminar, habiendo
relacionado, alternativamente, cada una de las variables explicativas, con la variable dependiente.
No hemos considerado, por tanto, la posible colinealidad entre variables explicativas, es decir,
que stas puedan proporcionar informacin comn. A ttulo preliminar, podramos concluir con
una ordenacin de variables por niveles de capacidad explicativa, comenzando con el nmero de
cigarrillos y la renta familiar, junto con una posible dependencia dbil respecto del nivel educativo
de la madre, mientras que el orden del recin nacido dentro de los hijos de la familia parece no
aportar informacin relevante acerca de su peso. Esta evidencia es coherente con la obtenida en la
regresin mostrada al inicio en lo relativo al efecto del nmero de cigarrillos fumados, pero no en
cuanto a los posibles efectos de las variables rentai ; ordenaci ; o educmi .
3.2.4
Anlisis de regresin
Nuevamente hay que hacer notar que aunque esta seccin debera comenzar presentando las nubes
de puntos de las variables de la regresin pero, debido a la naturaleza de las variables explicativas,
no lo hacemos. Si lo desea, el lector puede utilizar el chero de trabajo para construir dichos
grcos. Estimamos regresiones individuales sobre las dos variables aparentemente ms relevantes,
cigarrillos y renta, obteniendo,
30
P esoi
R2
P esoi
119:77
(0;57)
(209:3)
R2
0; 514 cigarrillosi + u
^i ;
(10)
(0;090)
( 5;68)
(11)
(12)
(0;029)
(4;08)
(13)
donde Ratio denota el cociente entre la desviacin tpica muestral de los residuos, y la de la
variable peso, que es de 20,35.
Estos modelos de regresin simple puedan estar incorrectamente especicados por omitir algn
efecto signicativo. Si as fuese, el coeciente estimado (la pendiente del modelo de regresin) en
la primera estara sesgado, en el sentido de no medir el efecto que sobre el peso tiene la nica
variable explicativa includa en la regresin, cigarrillos; la estimacin de dicho coeciente estara
recogiendo asimismo los efectos de variables omitidas que no sean independientes de la variable
incluida, por ejemplo, la renta de la familia, o la ordenacin del recin nacido entre sus hermanos.
Sabemos algo ms: de acuerdo con la discusin terica relativa al sesgo por variables omitidas, al
omitir una variable explicativa negativamente correlacionada con cigarrillos, el coeciente de sta
se subestimar,sobreestimndose si la variable omitida tiene correlacin positiva con cigarrillos
pues, en ambos casos, asignaramos a cigarrillos el efecto combinado de ambas variables. Esto es
precisamente lo que dira nuestra intuicin.
El primer parntesis debajo de cada coeciente estimado contiene la desviacin tpica de la
estimacin, mientras que el segundo contiene el estadstico tipo-t, cociente entre la estimacin y su
desviacin tpica. En muestras amplias de seccin cruzada es habitual obtener un valor numrico
muy reducido para el coeciente de determinacin, si bien desearamos que fuese algo mayor del
obtenido en estas regresiones individuales. En todo caso, los niveles obtenidos del R2 en absoluto
indican ausencia de relacin.
Este es un caso en el que el uso habitual de los estadsticos tipo-t sugerira que ambas variables
tienen capacidad explicativa relevante, siendo estadsticamente signicativas; de acuerdo con tal
criterio, nadie dudara en incluirlas en un modelo de regresin. Sin embargo, las desviaciones
tpicas residuales, y los Ratios indican que la capacidad explicativa de cada una de estas variables
por separado es, verdaderamente, muy reducida. El coeciente estimado para cigarrillos, implica
que, para el valor mediana de los cigarillos fumados durante el embarazo (cuando no son cero),
que es de 10, la diferencia en peso de bebs de madres fumadoras y madres no fumadoras sera
de 5 onzas, menor que la diferencia observada en la muestra, de 112 a 121 onzas, a que antes nos
referimos.
Evidencia adicional acerca de la reducida informacin que cigarrillos y renta proporcionan sobre
peso aparece en F IG_RES_CIGS y F IG_RES_REN T A, que representan los valores ajustados
y los residuos de ambas regresiones. Este es un tipo de grcos que siempre hemos de examinar, tras
estimar un modelo de regresin. Estos grcos son la evidencia ms clara acerca de la reducidsima
capacidad explicativa de las dos variables, ya que la mayor parte de la uctuacin en peso de unos
bebs a otros permanece en los esiduos, npo habiendo sido explicada por las variables utilizadas
como explicativas en la regresin.
Indicios adicionales acerca de la baja capacidad explicativa aparecen en CORR_P ESO_AJU ST E,
31
que muestra coecientes de correlacin entre peso y los residuos de las dos regresiones, as como
de la regresin que incluye ambas variables, cigarrillos y renta, como variables explicativas, y de
otras regresiones que analizaremos posteriormente. Las variables mencionadas son las que han sido
incluidas como explicativas en cada regresin. Todas las correlaciones son muy elevadas, lo que
signica que la parte de la variable Peso que queda sin explicar por las variables renta y cigarrillos
es muy similar a la propia variable Peso, es decir, que las regresiones apenas explican las diferencias
en peso entre bebs. Es interesante que la correlacin sea algo menor cuando se utilizan ambas
variables, lo que sugiere que la informacin que contienen no es exactamente comn, si bien es
reducida en ambos casos.
Correlaciones tan elevadas pueden interpretarse asimismo en el sentido de que, si utilizsemos las
regresiones estimadas para predecir el peso de un recin nacido utilizando las variables cigarrillos y
renta como predictores, la correlacin entre la previsin resultante y el peso observado del beb sera
muy pequea o, lo que es equivalente, la calidad de la prediccin sera muy baja. Por ejemplo, para
el nivel mediana de renta, 27,5, el modelo (12) predice un peso de 118,52 onzas. En la muestra se
observa11 , para dicho nivel de renta, un rango de pesos entre 80 y 167 onzas; demasiada dispersin
para poder prever con precisin, lo que explica el bajo ajuste del modelo.
3.3
Este ejemplo tiene como objetivo describir la utilizacin de variables cticias para contrastar la
estabilidad del modelo de regresin entre submuestras. En la primera parte del ejercicio, utilizamos
un modelo de determinacin de salarios en funcin del nivel educativo y la experiencia laboral del
trabajador, y se examinan las posibles diferencias en el modelo estimado entre las submuestras de
hombres y mujeres. Tras detectar evidencia consistente con la existencia de discriminacin salarial
en contra de las mujeres, se profundiza en analizar si la dscriminacin se debe a una menor valoracin
del nivel educativo, la experiencia laboral, o de ambos factores. En la segunda parte explicamos
diversas maneras en que el uso de variables citicias, convenientemente denidas e introducidas en
el modelo economtrico, permite contrastar la homogeneidad salarial entre trabajadores de distintas
caractersticas. En esta segunda parte nos centramos en caracterizar el posible impacto diferencial
que sobre el salario tengan la experiencia laboral y el nivel educativo.
3.3.1
El archivo Bwages.wf1 contiene datos relativos a 1.472 personas encuestadas en Blgica en 1994,
como parte del European Community Household Panel, a las que se ha preguntado por: a) su
salario en Bef. (40 Bef. equivalen aproximadamente a 1 euro), b) su nivel de educacin, indicando
uno entre cinco niveles posibles, y c) su experiencia laboral, en trminos del nmero de aos que el
encuestado ha trabajado hasta el momento. El salario es una variable de naturaleza continua, si bien
toma nicamente valores positivos; la experiencia profesional es una variable discreta, observable
numricamente, por lo que no se trata de una variable cticia. Por el contrario, el nivel educativo
es una variable cualitativa, para la que hay que denir un variable cticia. Esto podra hacerse
de muchas formas distintas, pero lo ms natural es utilizar los cinco primeros nmeros enteros,
asignndolos a cada nivel educativo, en orden creciente. Hay que entender, sin embargo, que
cualquier otra asignacin numrica sera asimismo posible.
1 1 Ver
Bwght.xls
de trabajo: Bwages.wf1. La base de datos Bwages.txt est tomada de los archivos que acompaan a
Kuleuven
1 2 Fichero
32
A priori, es logico considerar que ambas variables, experiencia y educacin, pueden incidir
positivamente sobre el nivel salarial del trabajador. Un aspecto a tener en cuenta en la interpretacin
del modelo es que, a diferencia de la experiencia laboral, cuyos valores numricos sucesivos estn
separados siempre por un ao ms de experiencia, los valores sucesivos de la variable educacin
recogen distintos niveles educativos, no siendo en absoluto evidente que la diferencia entre dos
cualesquiera de dichos niveles sucesivos haya de tener siempre un mismo efecto sobre el salario.
Por ltimo, disponemos asimismo de informacin acerca de si el encuestado es hombre o mujer;
sta es tambin una variable cualitativa, para la que el investigador debe construir, por tanto, una
variable cticia. Dicha variable, con el nombre male, ya est incluida en el chero de trabajo. En
la descripcin del archivo (Bwages:txt)se nos dice que el valor male = 1 corresponde a varones;
en la base de datos, la variable solo toma valores 0 1, por lo que se ha asociado male = 0 a las
mujeres encuestadas.
3.3.2
Estadsticos descriptivos
33
Anlisis de regresin
(14)
Las desviaciones tpicas y los estadsticos t aparecen entre parntesis, bajo el valor estimado de
la pendiente de la recta de regresin. Como la desviacin tpica muestral de la variable salario es
179,53, el Ratio 1 ^ uy = 0; 08. El salario parece aumentar, en media, en algo ms de 58 Bef. por
ao de educacin; por el modo en que se ha denido la variable Educacin, la regresin estimada
sugiere, adems, que el incremento salarial por ao de educacin adicional es siempre el citado,
con independencia de que se trate del paso del nivel educativo 1 al 2, o del nivel 4 al nivel 5. La
regresin,
1 6 Como se puede ver clasicando la variable EXPER utilizando MALE como clasicador. View_Descriptive
statistics_Stats by classication, escribiendo male en la ventana de Series/Group for Classify.
34
Salarioi = 352; 36 +
(15)
proporciona una estimacin de que el salario aumenta en unos 5,4 Bef. por ao de experiencia
laboral. Nuevamente, la regresin estimada restringe a que el incremento salarial por ao de
experiencia adicional sea el mismo tanto si el aumento se produce a un nivel reducido como a
un nivel elevado de experiencia.
Hasta aqu, hemos propuesto un criterio, de entre los muchos posibles, para obtener estimadores
de los coecientes del modelo de regresin lineal simple: minimizar la suma de los cuadrados
de los residuos, y hemos obtenido las expresiones analticas de los estimadores resultantes, as
como de sus varianzas y su covarianza. Cada uno de estos estimadores es una funcin de las
observaciones muestrales de ambas variables, X e Y, y son, por tanto, variables aleatorias; por
eso hemos calculado sus esperanzas matemticas y varianzas. Si alguno de ellos fuese funcin
nicamente de las observaciones de la variable X tendra naturaleza determinista, y su valor no
cambiara si en vez de utilizar en la estimacin del modelo la muestra de que disponemos, pudisemos
utilizar otra muestra diferente de igual tamao.
Sin embargo, ste no es el caso: ambos estimadores dependen tambin de las observaciones
de la variable Y, por lo que tienen naturaleza estocstica, es decir, su valor numrico sera distinto
con muestras diferentes. Variando la muestra, obtendramos distintos valores de 0 y 1, todos los
cuales nos describiran el histograma de frecuencias correspondiente a su distribucin de probabilidad. En los prrafos anteriores hemos demostrado que la esperanza matemtica de cada uno de
estos estimadores es el verdadero valor, que es desconocido, del parmetro que pretende estimar,
y hemos deducido las expresiones analticas de las varianzas de cada una de sus distribuciones de
probabilidad.
El procedimiento MCO que hemos utilizado garantiza que la recta de regresin obtenida es
la que proporciona la menor Suma de Cuadrados de Residuos que es posible obtener trazando rectas
a travs de la nube de puntos. Sin embargo, en unas ocasiones tal mejor ajuste puede ser excelente,
en otras, el mejor ajuste puede no ser muy bueno. Necesitamos, en cualquier caso, disponer de
criterios que puedan resumir en un indicador el grado de ajuste de la regresin MCO a la nube de
puntos de que partimos.
Recordemos que:
u
^ i = yi
y^i = yi
( ^ 0 + ^ 1 xi )
35
2
u
de modo que, de acuerdo con el modelo, todas las observaciones de la variable endgena tienen
la misma varianza, pero diferente esperanza matemtica, pues sta depende del valor numrico de
la variable X, que vara a lo largo de la muestra.
Puede probarse que el residuo correspondiente a cada observacin es una combinacin lineal
de todos los trminos de error del modelo y, por tanto, si la perturbacin aleatoria del modelo es
Normal, el residuo tambin tiene distribucin Normal. Su esperanza matemtica es:
E(^
ui )
= E(yi
=
0+
E( ^ 0 + ^ 1 xi ) = E (
0
1 xi = 0
y^i ) = E(yi )
1 xi + E(ui )
1 xi
+ ui )
E( ^ 0 )
E( ^ 1 xi ) =
= V ar(yi
Pn
2
u
h
y^i ) = V ar (
1 xi
i
( ^ 0 + ^ 1 xi ) =
+ ui )
j=1 (xj
Pn
j=1 (xj
xi )
x)
Al tener esperanza cero, la varianza del residuo es un adecuado indicador de su tamao. Podemos
ver que la varianza es tanto mayor (lo cual no es deseable), cuanto mayor es 2u , pero es menor
cuanto mayor sea el tamao muestral. Tambin es menor cuanto mayor es la varianza muestral de la
variable explicativa, lo cual es, por tanto, un aspecto deseable: un apreciable grado de uctuacin
en X no es negativo, sino positivo. Por ltimo, ntese que la observacin xi correspondiente al
residuo i aparece en el numerador. Cuanto ms se separe sta de la media de todas las xi , mayor
ser la varianza del residuo correspondiente a dicha observacin muestral.
4.1
^ 2u
X u
SCR
^2i
1 X
=
=
u
^ i yi
n 2
n 2
n 2 i=1
i=1
1
n
n
X
i=1
u
^ i yi =
1
n
n
X
i=1
36
yi2
n
X
i=1
yi
^ xi =
1
^
n
X
i=1
xi yi
Su raz cuadrada, la desviacin tpica estimada, recibe el nombre de error estndar de la regresin
EER:
sP
q
n
^2i
i=1 u
EER =
= ^ 2u = ^ u
n 2
Es claro que minimizar la varianza residual equivale a minimizar el error estndar de la regresin,
EER. Sin embargo, recordemos que la desviacin tpica tiene, respecto a la varianza, la ventaja de
estar medida en las mismas unidades que la variable a la que se reere, el residuo, que tiene, a su
vez, las mismas unidades que la variable endgena yi . Para valorar si el ajuste obtenido por la recta
MCO a la nube muestral de puntos es bueno, es conveniente utilizar el valor numrico del EER en
relacin con alguna referencia, y la media muestral de la variable endgena es un buen indicador.
Ello nos permite presentar el porcentaje que de la media de yi representa el EER, pudiendo decir,
por ejemplo: el modelo estimado es bueno, puesto que el EER es tan slo un 4% de la media de
la variable endgena o, por el contrario: "el ajuste obtenido no es muy bueno, porque el tamao
medio de los residuos, indicado por el EER, es de un 65% de la media de Y ".
4.2
El coeciente de determinacin
El inters del EER como indicador del grado de ajuste de un modelo de regresin disminuye
cuando queremos comparar la bondad del ajuste de dos modelos que tienen una variable dependiente
diferente. En tal caso, no es en absoluto cierto que el modelo con menor EER sea el modelo con
mejor ajuste; de hecho, no podremos armar nada al respecto, salvo que establezcamos alguna
medida relativa de grado de ajuste, que es lo que hacemos en esta seccin. A diferencia del EER, el
coeciente de determinacin que ahora denimos, denotado por R2 , es un indicador sin unidades,
que no es preciso ni tiene sentido poner en relacin con ninguna de las variables del modelo.
En primer lugar, escribamos para cada observacin i :
yi
y = (^
yi
y) + (yi
y^i ) = (^
yi
y) + u
^i
que muestra que la distancia entre una observacin yi y su media y puede escribirse como la
distancia entre su valor ajustado y^i y dicha media, ms el residuo correspondiente. La distancia
a la media del valor ajustado puede ser mayor o menor que la de la observacin yi , por lo que
el residuo puede ser negativo o positivo. La regresin estimada por MCO proporciona el valor
numrico de y^i y, que es una aproximacin a la distancia yi y. El resto es la parte no explicada,
o residuo. Como hemos mencionado, la explicacin puede exceder o no de yi y. La igualdad
anterior muestra cmo la desviacin total respecto a la media puede escribirse como la suma de la
desviacin explicada y el residuo.
Si elevamos al cuadrado ambos miembros, tenemos:
2
(yi
y) = (^
yi
y) + u
^2i + 2 (^
yi
y) u
^i
Pero:
(yi
y) =
n
X
(^
yi
y) +
i=1
n
X
i=1
37
u
^2i
+2
n
X
i=1
(^
yi
y) u
^i
(16)
n
X
u
^i (^
yi
y)
i=1
n
X
u
^i y^i
i=1
n
X
n
X
u
^i =
i=1
u
^i + ^ 1
i=1
n
X
u
^i y^i =
i=1
n
X
n
X
u
^i ( ^ 0 + ^ 1 xi ) =
i=1
u
^i xi = ^ 0 (0) + ^ 1 (0) = 0
i=1
donde hemos utilizado repetidamente el hecho de que la suma de los residuos MCO es igual a
cero, as como que la suma de sus productos por xi tambin es igual a cero. Ambas condiciones
provienen de las ecuaciones normales.
Finalmente, substituyendo en (16), llegamos a:
n
X
(yi
y) =
i=1
es decir:
n
X
(^
yi
y) +
i=1
n
X
u
^2i
i=1
Sy2 Su^2
nSy^2
=
=1
2
nSy
Sy2
Pn
Pn
i=1
i=1
(yi
u
^2i
Pn
(^
yi
=
Pni=1
2
y)
(y
i
i=1
y)
y)
Variacin explicada en Y
Variacin no explicada en Y
=
Variacin total en Y
Variacin total en Y
4.3
Correlacin es el grado de dependencia que existe entre variables. Cuando se trata de slo dos
variables, existe una medida, el coeciente de correlacin, introducido por K.Pearson:
xy
Cov(x; y)
p
=p
V ar(x) V ar(y)
variables, X e Y .
Para ello, partimos del coeciente de determinacin de una regresin lineal simple, y extraemos su raz cuadrada, denotando por rxy al estadstico que as se obtiene:
s
p
Su^2
rxy = R2 = 1
Sy2
Ahora bien, puesto que:
y^i = ^ 0 + ^ 1 xi = y
^ x + ^ xi = y + ^ (xi
1
1
1
x)
tenemos:
Su^2
n
n
1X
1X
(yi y^i )2 =
yi
n i=1
n i=1
"
n
2
1X
(Sxy )
2
(yi y) +
2 (xi
n i=1
(Sx2 )
= Sy2 +
(Sxy )
2
(Sx2 )
Sx2
(Sxy )
= Sy2
Sx2
y+
2
x)
Sxy
(xi
Sx2
x)
Sxy
2 2 (xi
Sx
x) (yi
y) =
(Sxy )
Sx2
y, en consecuencia:
rxy =
R2 =
Su^2
Sy2
v
u
u
t
= 1
Sy2
(Sxy )2
2
Sx
2
Sy
(Sxy )
Sxy
=
=
2
2
Sx Sy
Sx Sy
xy
40
por lo que, si dos variables son independientes, entonces su coeciente de correlacin lineal es igual
a cero. Ello no puede sorprendernos en modo alguno: estamos armando que si dos variables X e
Y son independientes, y ajustamos una recta de regresin, es decir, un modelo lineal, a un conjunto
de observaciones muestrales de ambas variables, entonces detectaremos un grado de asociacin nulo
entre ambas.
Tambin podramos ajustar modelos de otro tipo, con funciones no lineales; aunque no los
hemos examinado aqu, existen procedimientos de estimacin de tales modelos. Hecho tal ejercicio,
volveramos a detectar una capacidad nula del modelo no lineal, para relacionar X e Y , si bien es
cierto que deberamos utilizar algn estadstico adecuado, que relacionase la suma de cuadrados
de los residuos con la suma de cuadrados de la variable Y . En resumen, si dos variables son
independientes, no podemos estimar ninguna forma funcional de relacin entre ellas que genere
capacidad explicativa alguna; en particular, una recta no explicar ninguna asociacin.
Por el contrario, si el coeciente de correlacin de Pearson es nulo, slo podremos armar
que la relacin lineal entre ambas variables no es muy buena, pues no se detecta un grado apreciable
de asociacin entre ambas, supuesto que la forma funcional de tal hipottica relacin sea lineal. Sin
embargo, ello no excluye la posibilidad de que otra forma funcional, no lineal, reejase un grado
de asociacin notable entre ambas variables que, en tal caso, seran dependientes. Por tanto,
ausencia de correlacin lineal entre dos variables, o incorrelacin, que es lo que mide el coeciente
de correlacin de Pearson, no implica en modo alguno su independencia.
Ahora que conocemos la estrecha relacin entre coeciente de correlacin de Pearson y
coeciente de determinacin, podemos apreciar que el primero nos proporciona una informacin
acerca de la relacin entre las variables que el coeciente de determinacin no consigue transmitirnos.
Ello se debe a que el coeciente de determinacin es el cuadrado del coeciente de correlacin,
por lo que pierde la informacin concerniente a su signo; sta es relevante, excepto en algunas
situaciones en que es perfectamente conocido a priori, dada la naturaleza de las variables X e Y .
Por ejemplo, si estimamos una regresin de la cantidad vendida de un producto en un mercado
con cierto poder de monopolio, sobre su precio, sabemos a priori que sta ser una relacin de
signo negativo: un coeciente 1 negativo implicar que variaciones positivas, es decir, aumentos
en el precio del producto, se transmiten en variaciones negativas, es decir, descensos, en la cantidad
vendida, y viceversa. En este ejemplo, nos interesar tan slo tratar de estimar el grado en que el
precio explica la cantidad vendida: si lo hace en gran medida o si, por el contrario, la capacidad
explicativa no es muy elevada y debemos encontrar otros factores explicativos (quiz precios de otros
productos con cierto grado de sustitucin del nuestro, la renta de las familias, etc.) que aadir al
modelo de regresin.
Cuando no contamos con esta informacin, queremos estimar no slo la capacidad que X
tiene para explicar las variaciones que experimenta Y , sino tambin el signo de su relacin. Para
ello, observemos que el signo del coeciente de correlacin es el mismo que el de la covarianza,
de modo que si sta es positiva, la relacin entre ambas variables es positiva o creciente, siendo
negativa o decreciente en el caso alternativo. Por otra parte, los valores numricos absolutos del
coeciente de correlacin de Pearson evolucionan muy en relacin con los que toma el coeciente
de determinacin: si uno es cero, lo es el otro, mientras que si el valor absoluto del coeciente de
correlacin es uno, tambin es igual a uno el coeciente de determinacin. Adems, puesto que el
coeciente de determinacin slo toma valores numricos entre 0 y 1, necesariamente el coeciente
de correlacin toma valores numricos entre -1 y +1.
As, decimos que cuando el coeciente de correlacin lineal es prximo a +1, la relacin entre
ambas variables es estrecha y directa, o de signo positivo, es decir, cuando una aumenta, tambin
41
lo hace la otra, y tambin tienden a disminuir simultneamente. Cuando una de las variables
est por encima de su media, la otra variable tiende a estar tambin por encima de su media, y
cuando una est por debajo, tambin tiende a estarlo la otra. Si fuese exactamente igual a +1, lo
que es prcticamente imposible cuando se trabaja con datos reales, diramos que la relacin entre
ambas variables es perfecta, y positiva o directa. Cuando el coeciente de correlacin es prximo
a -1, entonces la relacin es muy estrecha, pero inversa, o de signo negativo, es decir, cuando una
variable aumenta la otra tiende a disminuir, y viceversa. Cuando una variable est por encima de
su media, la otra avriable tiende a estar por debajo de su media. Si fuese exactamente igual a -1,
diramos que la relacin entre las variables es perfecta y negativa, o inversa. Cuando el coeciente
de correlacin es prximo a cero, tambin lo es el coeciente de determinacin, por lo que decimos
que la relacin lineal entre las variables X e Y es prcticamente inexistente.
No debe olvidarse, sin embargo que, a diferencia del coeciente de determinacin, el coeciente de correlacin no es estrictamente cuantitativo: si tenemos dos modelos de regresin para una
misma variable dependiente, con coecientes de correlacin de .35 y .70, no podemos decir que el
segundo tiene un ajuste doblemente mejor que el primero, si bien podemos armar que muestra un
ajuste claramente mejor. Tales armaciones acerca de comparaciones estrictamente cuantitativas
slo pueden hacerse para el coeciente de determinacin, por su signicado como porcentaje de la
variacin en la variable dependiente que el modelo es capaz de explicar. Si los anteriores valores
numricos correspondiesen a los coecientes de determinacin de ambos modelos, entonces s que
podramos armar que el segundo muestra un ajuste doblemente superior al primero.
En denitiva, los anlisis de correlacin y de regresin proporcionan respuestas similares
acerca de la evolucin conjunta de dos variables (o ms de 2 variables, en el caso de la regresin
mltiple). El anlisis de correlacin, basado estrictamente en el clculo del coeciente de correlacin
de Pearson, facilita el grado y signo de la asociacin, pero no proporciona una idea acerca de la
forma funcional de dicha relacin, ni tampoco su direccin. Esta, que s se obtiene con el anlisis
de regresin, es una ventaja del mismo, pero est condicionada a que se satisfagan las hiptesis
del modelo de regresin lineal, que condicionan la validez del mtodo MCO para la estimacin del
modelo lineal de regresin: as, si a) la verdadera funcin de relacin entre variables, que el analista
desconoce, es realmente lineal, b) no se omiten variables explicativas relevantes, c) el trmino de
error del modelo no tiene media signicativa, d) ni sus valores para distintas observaciones estn
correlacionados entre s, e) si su varianza es la misma para todas las observaciones, y f) si no
existe una relacin causal de Y hacia X, entonces el anlisis de regresin mediante la estimacin
MCO est plenamente justicada y ser conveniente utilizarlo, por cuanto que nos proporciona ms
informacin que el mero anlisis de correlacin.
Adems, el uso del estimador MCO en el modelo de regresin lineal simple est justicado
por sus propiedades de eciencia: es el estimador lineal de mnima varianza y si, adems de las
condiciones anteriores, las perturbaciones tienen distribucin Normal, entonces es eciente, pues su
varianza alcanza la cota de Cramer-Rao.
Por el contrario, si tenemos razones para creer que una o ms de tales hiptesis dejan
de cumplirse en un grado apreciable, podemos perder conanza en los resultados que el anlisis de
regresin pueda facilitarnos, preriendo efectuar un anlisis de correlacin, cuya validez no descansa
sobre tantas hiptesis, si bien precisa del supuesto acerca de que la verdadera funcin de relacin
entre X e Y sea lineal.
42
4.3.1
u
^i
xi u
^i
i=1
n
X
i=1
4.4
Esperanza matemtica
La expresin del estimador MCO de la pendiente del modelo de regresin lineal simple puede
escribirse:
^ =
1
Pn
(xi
Pn
i=1
i=1
x) (yi
(xi
y)
2
x)
Pn
(xi
Pi=1
n
i=1 (xi
x) yi
2
x)
n
X
Pn
xi
i=1
i=1
(xi
x
2
x)
yi =
n
X
i yi
(17)
i=1
como una combinacin lineal ponderada de las observaciones de la variable endgena, con ponderaciones:
i
= Pn
xi
i=1
(xi
x
2
x)
En esta cadena de igualdades hemos utilizado el hecho de que la suma de las desviaciones de una
variable con respecto a su media muestral, es siempre igual a cero. Las ponderaciones en esta
expresin suman cero:
!
Pn
n
n
X
X
(xi x)
xi x
0
= Pni=1
Pn
i =
2
2 = Pn
2 =0
x)
x)
x)
i=1 (xi
i=1 (xi
i=1 (xi
i=1
i=1
Adems:
n
X
i xi
i=1
n
X
2
x)
i=1 (xi
Pn
2
nx2
i=1 xi
Pn
2
2x (nx) +
i=1 xi
i=1
Pn
xi
xi =
nx2
Pn
(xi
Pi=1
n
i=1 (xi
Pn
x2i
Pi=1
n
2
i=1 xi
43
x) xi
2
x)
Pn
x2
= Pni=1 2i
i=1 (xi
nx2
=1
nx2
Pn
x i=1 xi
=
2xxi + x2 )
2
i
i=1
n
X
i=1
Pn
xi
i=1
x
2
(xi
x)
!2
Pn
(xi
= hP i=1
n
i=1 (xi
x)
x)
i2 = Pn
i=1
(xi
x)
1
nSx2
Recordemos que estamos suponiendo que los valores x1 ,x2 ,... tomados por la variable X son jos, es
decir, no estn sujetos a ninguna incertidumbre, de modo que, si volvisemos a tomar otra muestra
de igual tamao, tendramos para dicha variable las mismas observaciones numricas, una por una,
que las que ya disponemos. Tan slo las observaciones y1 , y2 ,... de la variable endgena Y diferiran
de las actualmente disponibles, debido a que las realizaciones muestrales de la perturbacin aleatoria
ui , el nico componente aleatorio de Y , seran diferentes de las actuales. Vamos a utilizar ahora
repetidamente el carcter determinista no aleatorio, de la variable X.
Si sustituimos en (17) yi por su expresin a travs del modelo de regresin, tenemos:
^
n
X
0+
1 xi + ui ) =
i=1
n
X
i+
i=1
i=1
n
X
n
X
i xi
n
X
i=1
n
X
i 0
n
X
i 1 xi
i=1
i ui
0 :0
1 :1
i=1
n
X
i=1
n
X
i ui
i ui
(18)
i=1
i ui
i=1
donde hemos utilizado las dos propiedades antes demostradas. Esta es una representacin muy
til, que presenta el estimador de mnimos cuadrados de la pendiente como una combinacin lineal
de las perturbaciones del modelo, con coecientes i ; ms una constante desconocida, el verdadero
valor de dicha pendiente. Los coecientes i en dicha combinacin lineal varan de una muestra
a otra con los valores de la variable explicativa, X; por lo que el valor numrico del estimador de
mnimos cuadrados tambin variara si dispusiramos de distintas muestras recogidas en distintos
perodos de tiempo, por ejemplo.
Es importante recordar que suponemos que la variable explicativa es determinista. Es decir, que
los valores numricos observados en la muestra para dicha variable son los nicos posibles, dadas las
unidades de observacin muestral, sean individuos, empresas, familias, o un conjunto de observaciones de detemrinada frecuencia (diaria, mensual, trimestral anual) a lo largo de un determinado
intervalo de tiempo. Recordemos que de una muestra a otra, cambiaran los valores observados de
la variable dependiente, yi porque cambiara la realizacin numrica de las perturbaciones ui ; pero
no porque cambiasen los valores de la variable explicativa xi ; que seran los mismos entre distintas
muestras extradas de las mismas unidades de observacin.
A continuacin, vamos a obtener la esperanza matemtica y la varianza de los estimadores
de mnimos cuadrados de ^ 0 y ^ 1 : Esto es necesario para poder proceder a contrastar hiptesis
acerca de sus verdaderos valores que, recordemos, son desconocidos. Disponemos de una estimacin
numrica, obtenida con la muestra disponible, que sera diferente si pudisemos calcularla con otra
muestra distinta.
4.4.1
E ( i ui ) =
i0
=0
tenemos:
E ^1 =
+E
n
X
i ui
i=1
n
X
E ( i ui ) =
i=1
n
X
iE
(ui ) =
i=1
lo que prueba que el estimador MCO del parmetro 1 es insesgado, puesto que su esperanza
matemtica coincide con el verdadero valor del parmetro que se pretende estimar, que es desconocido.
Por tanto, el supuesto E(ui ) = 0; i = 1; 2; :::; N es suciente para garantizar la ausencia de sesgo
del estimador de mnimos cuadrados de la pendiente: ^ 1 . Notemos que el supuesto de que la variable
explicativa no es aleatoria es crucial para probar la ausencia de sesgo del estimador de mnimos
cuadrados. En las expresiones anteriores nos hemos encontrado con E ( i ui ) ; y cada i depende
de todas las observaciones xj ; j = 1; 2; :::; n: Si fuese aleatoria, no sabramos decir nada acerca de la
esperanza matemtica E(xi ui ); salvo haciendo supuestos especcos acerca de la covarianza entre
ambas variables aleatorias, xi y ui ; pero mucho menos acerca de la esperanza E ( i ui ) :
Recordando que la expresin del estimador MCO del trmino independiente 0 es:
^ =y
0
^ x
1
notemos que:
E (y) =
+ E ^ 1 x + E (u) =
1x
por lo que:
E ^ 0 = E(y)
E( ^ 1 x) = (
1 x)
E( ^ 1 ):x = (
1 x)
1x
de modo que, al igual que ocurra con la estimacin de 1 , el estimador MCO de 0 es tambin
insesgado.
La recta de regresin estimada pasa por el punto (x; y) : Es decir, el valor numrico que la recta
de regresin estimada asocia a la variable dependiente Y cuando X = x es, precisamente, Y = y:
En efecto:
y = ^0 + ^1x = y
^ x +^ x=y
1
1
4.5
Matriz de covarianzas
Todo estimador puntual debe ir siempre acompaado de una medida de dispersin del mismo,
generalmente su varianza, de modo que podamos juzgar el grado en que se aproxima al verdadero
valor del parmetro que pretendemos estimar. Pero adems, para poder llevar a cabo un anlisis de
inferencia estadstica, es decir, para poder contrastar si alguno de los coecientes 0 1 , o ambos,
toman determinados valores tericos, es preciso disponer de desviaciones tpicas de sus estimaciones.
45
Estos no son sino un caso particular de los problemas de estimacin e inferencia estadsticos, y los
resolvemos de modo similar, mediante la construccin de intervalos de conanza, al nivel deseado,
alrededor del valor hipottico que se pretende contrastar.
4.5.1
Recordemos el supuesto de que las perturbaciones aleatorias del modelo correspondientes a todas
las unidades muestrales tienen la misma varianza, 2u : Por tanto, si partimos de la expresin (18)
que antes obtuvimos para el estimador de 1 , tenemos:
V ar( i ui ) =
2
iV
ar(ui ) =
2 2
i u
para cualquier i = 1; 2; ::: . Entonces, puesto que la covarianza entre ui y uj es igual a cero, se
tiene:
V ar
n
X
i=1
n
X
i=1
i ui
i ui
n
X
i=1
n
X
E ( i ui ) =
V ar( i ui ) =
Pn
1
2
x)
i0
ar(ui ) =
2
u
=0
i=1
2
iV
i=1
i=1 (xi
n
X
i E (ui ) =
i=1
n
X
i=1
n
X
1
nSx2
n
X
i=1
2
i
Como el estimador ^ 1 es la suma de una constante (el verdadero valor 1 ) y una variable
aleatoria (la suma ponderada de las perturbaciones) [ver (18)], la varianza de ^ 1 ser igual tan slo
a la varianza de esta ltima suma:
!
!
n
n
2
2
X
X
u
u
2
2
^
V ar 1 = V ar
= u
= Pn
i ui
i
2 = nS 2
(x
x)
x
i
i=1
i=1
i=1
Resaltemos que esta expresin es vlida bajo los supuestos de que todos los trminos de error
tienen la misma varainza (es decir, que la varianza es constante a lo largo de la muestra), y de
independencia entre dos cualesquiera de los trminos de error.
4.6
Conociendo las expresiones analticas de las varianzas de ambos estimadores, as como tambin
de su covarianza, podremos contrastar hiptesis acerca de valores tericos para alguno de los dos
coecientes, y tambin contrastar hiptesis conjuntas, acerca de ambos simultneamente. Pero en
ellas aparece la varianza del trmino de error 2u , que es desconocida. Debemos, por tanto, estimar
este parmetro, y utilizar su estimacin en lugar de su verdadero valor, que es desconocido.
Por similitud, parece razonable utilizar la varianza muestral de los residuos como un estimador
de la varianza poblacional 2u . Los residuos de mnimos cuadrados tienen media cero, como muestra
46
1
n
n
X
u
^2i =
i=1
n
n
1
n
Pn
i=1
u
^2i = SCR=n: Pero
Su2^
^ 2u
R2
=
=
n
X
u
^2i =
80; 2
= 5; 729 ) ^ u = 2; 393
16 2
i=1
5; 014
=1
11; 715
0; 428 = 0; 572
Podemos utilizar ahora la estimacin de 2u en las expresiones de las varianzas de los estimadores
de Mnimos Cuadrados que aparecen en el Apndice:
V ar ^ 1
Pn
i=1
V ar ^ 0
Cov ^ 0 ; ^ 1
2
u
2
(xi
Pn
x)
5; 729
= 0; 03417 ) DT ^ 1 = 0; 185
167; 9
2
2
i=1 xi
u Pn
2 =
x)
i=1 (xi
x 2u
Pn
2 =
x)
i=1 (xi
5; 729 1911
= 4; 075 ) DT ^ 2 = 2; 02
16 167; 9
5; 729
(10; 4) =
167; 9
0; 354
Finalmente, el modelo estimado se representa escribindolo como la funcin lineal que es, anotando debajo de los coecientes estimados sus desviaciones tpicas que son, asimismo, estimadas,
como acabamos de ver, pues sus verdaderos valores dependen de 2u :
yi = 4; 35 + 0:799 xi + ui ; R2 = 0; 572; ^ u = 2; 393
(2;02)
4.7
(0;185)
Como hemos visto en la seccin anterior, a partir del modelo de regresin lineal:
yi =
1 xi
+ ui ; i = 1; 2; 3; :::; n
se deduce que:
y=
+
47
1x
+u
y=
(xi
x) + (ui
u) ; i = 1; 2; 3; :::; n
Ntese que la primera y tercera ecuaciones son vlidas para cada observacin muestral y tenemos,
en cada una de ellas, tantas relaciones como observaciones muestrales, mientras que la segunda
ecuacin aplica slo a las medias muestrales y constituye, por tanto, una nica relacin.
En el modelo en desviaciones no hay trmino independiente, y el trmino de error es distinto
del trmino de error del modelo original.
Si estimamos este modelo en diferencias por mnimos cuadrados, tendremos el mismo estimador
de 1 que en el modelo original, ya que:
Cov [(xi
V ar (xi
x) ; (yi
x) = V ar (xi )
y)] = Cov (xi ; yi )
Aunque no habremos estimado 0 ; puesto que dicho parmetro ha desaparecido del modelo,
podemos utilizar la relacin que obtuvimos antes para calcular ^ 0 = y ^ 1 x:
La varianza del trmino de error del modelo en diferencias es ligeramente distinta del modelo
original, puesto que:
V ar (ui
u)
= E [ui (ui
= E(u2i )
2
u
Los residuos del modelo estimado con las variables en desviaciones respecto de la media son:
v^i = (yi
y)
^ (xi
1
x) = yi
(y
^ x)
1
^ xi
1
y, por tanto, coinciden numricamente, con los que se obtienen estimando el modelo con las
variables originales.
4.8
El modelo constante
+ ui ;
en el que aparece una constante como nica variable explicativa, por lo que se denoomina modelo
constante de regresin. El estimador MCO ser el estadstico muestral que minimice la suma de los
residuos, que en este caso es:
SCR =
n
X
u
^2i =
i=1
n
X
(yi
2
0)
i=1
por lo que se trata de minimizar la suma de las desviaciones al cuadrado entre los valores
muestrales de la variable Y y un estadstico. La solucin a dicho problema de minimizacin est dada
48
por la media muestral, y el valor minimizado es, por tanto, la varianza muestral. En consecuencia,
el estimador del modelo constante de regresin es la media muestral. Ello signica que la media
muestral es el estimador ptimo, cuando no se dispone de informacin acerca de ninguna otra
variable. En tal situacin, lo mejor que podemos hacer es aproximar cada valor potencialmente
observable de la variable Y por la media muestral de que dispongamos. Es, desde luego, un estimador
algo pobre, pero nos sirve de referencia a la que hay que mejorar; es decir, contando con informacin
muestral acerca de alguna otra variable, hemos de conseguir estimaciones MCO de un modelo de
regresin tales que la Suma de Cuadrados de Residuos que generan sea inferior a la varianza muestral
de Y. Pero ello va a ocurrir siempre. Cuando se estima el modelo constante, la Suma de Cuadrados
de Residuos, que es la varianza de Y, coincide con la Suma Total, por lo que el coeciente de
determinacin es igual a cero. Ningn otro modelo tendr un coeciente de determinacin inferior.
4.9
Eciencia
= y
^ x=y
1
n
X
i ui
i=1
= y
1x
n
X
i yi
0x
i=1
= y
n
X
i=1
i yi
1X
yi
n i=1
x=y
n
X
i (yi
1 xi
n
X
i yi
i=1
i=1
n
X
1x
n
X
+
i yi
1x
i=1
n
X
i=1
n
X
i=1
i xi
=y
1x
=
0 x:0
1 x:1
i=1
1
n
yi
Pues bien, el estimador MCO es de mnima varianza dentro de la clase de estimadores lineales:
Theorem 2 (Teorema de Gauss-Markov).- Bajo los supuestos del modelo llineal de regresin, el
estimador MCO es el estimador lineal insesgado de mnima varianza de los coecientes del modelo
de regresin.
Proof. Consideremos un estimador lineal de la pendiente del modelo de regresin:
~ =
1
n
X
ci yi
i=1
que supondremos distinto del estimador de mnimos cuadrados, es decir, que no todas las constantes ci son iguales a las i : Para que este estimador sea insesgado ha de cumplirse:
49
E ~1
= E
=
n
X
ci yi
i=1
n
X
ci +
i=1
!
1
n
X
=E
ci (
0+
1 xi + ui )
i=1
n
X
=E
n
X
ci
i=1
1E
n
X
ci xi + E
i=1
n
X
ci ui =
i=1
xi + 0
i=1
ci
ci xi
i=1
n
X
i=1
Suponemos,
las constantes ci satisfacen ambas condiciones. Teniendo en cuenta
Pn por tanto,
Pque
n
que tanto i=1 ci como i=1 ci xi son constantes, la varianza de este estimador es:
!
n
n
n
X
X
X
V ar ~ = V ar
ci ui =
V ar (ci ui ) = 2
c2
1
i=1
i=1
i=1
de modo que, para probar que el estimador de mnimos cuadrados tiene menor varianza que
este estimador lineal insesgado genrico, habremos de probar que:
n
X
Pn
i=1
(xi
x)
c2i
i=1
n
X
c2i
i=1
i=1
n
X
i=1
2 Pn
c2i
Pn
i=1
(xi
x)
1
(xi
x)
n
X
i=1
hP
(xi
n
i=1
x)
(xi
x)
i2 =
n
X
i=1
c2i
2 Pn
Pn
i=1
xi
i=1
1
(xi
(xi
x)
!2
Pn
i=1 (xi
2 + hP
n
x)
i=1 (xi
donde la ltima desigualdad proviene del hecho de que el punto de partida es una suma de
cuadrados y por tanto, necesariamente positiva.
Pero esto signica que, como queramos mostrar:
n
X
i=1
c2i
Pn
i=1
50
1
(xi
x)
x)
x)
i2 =
El teorema de Gauss-Markov es importante, por cuanto que arma que la matriz de covarianzas del estimador MCO es inferior a la de cualquier otro estimador lineal e insesgado. Es decir,
la diferencia entre ambas matrices, en el orden citado, es semidenida negativa. Ello tiene implicaciones ms tiles: la varianza del estimador MCO de 0 es inferior a la varianza de cualquier otro
estimador lineal e insesgado de dicho coeciente, y lo mismo ocurre con la varianza del estimador
MCO de 1 .
Cuando el trmino de error del modelo tiene una distribucin Normal, tenemos un resultado
an ms importante, que arma que el estimador MCO es eciente, es decir, tiene la menor varianza
posible (la menor matriz de covarianzas), dentro de la clase de los estimadores insesgados, sean estos
lineales o no.
Theorem 3 Teorema de Rao.- Si se cumplen las condiciones de la Seccin 13.1 y, adems, el
trmino de error del modelo tiene distribucin Normal, entonces el estimador MCO es el estimador
insesgado de mnima varianza de los coecientes del modelo de regresin.
La demostracin se basa en probar que, cuando el trmino de error del modelo de regresin tiene
distribucin Normal, ui N (0; 2u ); entonces el estimador de Mnimos Cuadrados coincide con el
estimador de Mxima Verosimilitud. Como este ltimo es siempre (bajo condiciones muy generales
y, por tanto, fciles de satisfacer) el estimador de mnima varianza o eciente, habremos probado
que, en este caso especial, el estimador de mnimos cuadrados tambin lo es.
Consideremos el modelo de regresin con trmino de error Normal:
yi =
1 xi
+ ui ui
N (0;
2
u)
0;
1;
2
u =y1 ; x1 ; y2 ; x2 ; :::; yn ; xn )
n
Y
i=1
y su logaritmo:
ln L(
0;
1;
2
u =y1 ; x1 ; :::; yn ; xn )
1
p
n
ln
2
2
u
n
ln (2 )
2
n
ln
2
2
u
n
ln (2 )
2
u2i =2
2
u
n
X
u2i
=
2 2u
i=1
n
X
(yi
i=1
2
1 xi )
2
u
especilamente importante recordar que la eciencia del estimador de Mnimos Cuadrados se obtiene
si el trmino de error del modelo sigue una distribucin Normal, pero no necesariamente en otro
caso.
El estimador de Mxima verosimilitud de la varianza del trmino de error es:
n
^ 2M V =
1X 2
u
^
n i=1 i
que es parecido, aunque no idntico, al estimador MCO de dicho parmetro. De hecho, como
2
sabemos [ver Apndice] que el estimador MCO de
u es insesgado, podemos asegurar que el
estimador de mxima verosimilitud es sesgado:
E ^ 2M V = E
(n
2
n
^ 2M CO
2
n
E ^ 2M CO =
2
n
2
u
Sin embargo, su sesgo desaparece al aumentar el tamao muestral por cuanto que el factor
2)=n tiende a uno. El estimador MV de la varianza es, por tanto, asintticamente insesgado.
4.10
4.10.1
En ocasiones, es conveniente multiplicar o dividir una variable por una constante. Por ejemplo, esto
sucede cuando los valores numericos de una variable son muy elevados, por estar dados en euros, y
para facilitar su lectura preferimos utilizar la variable en millones de euros, lo que equivale a dividir
sus datos por 1.000.000. En otras ocasiones, podemos estar interesados en multiplicar todos los
valores de una variable por una misma constante, por ejemplo, 100. Aunque habitualmente esto
afectar a una de las variables del modelo, puede suceder simultaneamente tanto con la variable
dependiente como con alguna de las variables explicativas. En el caso de un modelo de regresin
simple, se tratara de comparar el modelo:
yi = ^ 1 + ^ 2 xi + u
^i
en el que aparecen las variables originales, con:
yi = ^ 1 + ^ 2 xi + u
^i
donde: yi = yi ; xi = xi ; i = 1; 2; :::; N; siendo y constantes conocidas. Si solo la variable
x cambia, estaramos en una situacin con = 1; mientras que si es la variable y la que cambia,
entonces = 1: Si lo que hacemos es pasar los valores de x de euros a millones de euros, entonces
= 1 y = 1=1000000: Como se ve, consideramos la posibilidad de que tanto la constante como
la pendiente del modelo se vean afectados por este cambio de escala. Tambin los residuos pueden
variar y, con ellos, el R2 ; la Suma de cuadrados de residuos y la varianza residual, por lo que
tambin el valor numrico de los estadsticos de contraste t y F podran verse afectados.
Es sencillo analizar los posibles efectos de un cambio de escala, pues todo se basa en propiedades
conocidas de la covarianza y varianza. En este caso,
52
E(x ) =
E(x); E(y ) = E(y)
Cov(x ; y ) = E [(x
x ) (y
y )] = E [( x
x) ( y
y)] =
= E [ (x x) (y y)] = E [(x x) (y y)] = Cov(x; y)
h
i
h
i
h
i
2
2
2
V ar(x ) = E (x
x ) =E ( x
x) = E 2 (x x) = 2 V ar(x)
Por tanto,
^
^
Cov(x ; y )
=
V ar(x )
= y
Cov(x; y)
=
ar(x)
^ ( x) =
2
2V
^ x = y
2
^ x = ^
2
1
es decir, que la estimacin de la pendiente se ve afectada por ambas constantes, mientras que
la estimacin de la constante slo se ve afectada por un posible cambio de escala en la variable
dependiente. Por ejemplo, si dividimos los datos de x por 1000000, es decir, = 1=1000000; y no
alteramos los datos de la variable dependiente, la estimacin de la pendiente queda multiplicada
por 1:000:000, mientras que la constante no cambiar.
Tambin tendremos:
u
^i
SCR
= yi
=
N
X
^ x = yi
2 i
1
2
(^
ui ) =
i=1
^ 2u
ST
N
X
( u
^i ) =
i=1
^ ( xi ) = yi
2
N
X
2 2
u
^i
i=1
SCR
SCR
= 2
= 2 ^ 2u
T k
T k
N
N
X
X
2
=
(yi y ) =
( yi
N
X
u
^2i =
^ xi = u
^i
2
SCR
i=1
i=1
SCR
=1
ST
i=1
2
y) =
N
X
[ (yi
y)] =
i=1
SCR
=1
ST
N
X
(yi
y) =
ST
i=1
SCR
= R2
ST
de modo que el ajuste del modelo no se ve afectado por posibles cambios de escala ni en la
variable dependiente ni en las variables explicativas. Como hemos visto, los coecientes en las
variables explicativas y la constante del modelos se modican con los posibles cambios de escala,
pero el grado del ajuste del modelo no se ve afectado por los posibles cambios de escala.
Cmo se vera afectado el estadstico t para le contraste de signicacin estadstica de la
pendiente del modelo? En el contraste de signicacin, el valor terico 02 que estamos contrastando
para la pendiente es cero, por lo que el estadstico t es igual a:
^
t =
0
2
DT ( ^ 2 )
^
=
DT ( ^ 2 )
^
=
DT ( ^ 2 )
^
=
DT ( ^ 2 )
=t
4.10.2
Cambios de origen
4.11
; i = 1; 2; :::; N; siendo
2xCov(y; ^ 1 )
donde aparece la varianza de la media muestral de la variable endgena, que podemos calcular,
del siguiente modo: si sumamos la expresin (1) del modelo lineal simple para todas las observaciones
muestrales, tenemos:
n
X
yi =
n
X
1 xi )
ui = n
n
X
xi +
i=1
i=1
i=1
i=1
n
X
1x
n
X
ui
i=1
+u
V ar(y)
Cov y; ^ 1
1x
V ar ^ 0
= V ar(y) + x2 V ar( ^ 1 )
=
2
u
1
x2
+ Pn
n
i=1 (xi
2xCov(y; ^ 1 ) =
x)
54
2
u
+ x2 Pn
Pn
2
2
i=1 xi
u Pn
2
x)
i=1 (xi
i=1
2
u
(xi
x)
=0
4.11.1
= Cov (
=
1 x + u; ui ) = Cov ( 0 ; ui ) + xCov (
n
X
1 2
1
Cov(uj ; ui ) =
0+0+
n j=1
n u
0
1 ; ui )
+ Cov (u; ui ) =
por lo que:
Cov ^ 0 ; ^ 1
xV ar ^ 1 =
^ x; ^ = xCov y; ^
1
1
1
= Cov y
x Pn
i=1
2
u
(xi
x)
Pn
i=1
2
u
(xi
x)
que indica, entre otras cosas, que el signo de la covarianza entre ^ 0 y ^ 1 es el opuesto al signo
de la media muestral de la variable X.
Supongamos que dicha media fuese positiva, y tambin que el error de estimacin de 1 fuese
asimismo positivo, es decir, que hubisemos estimado (sin saberlo), un valor ^ 1 superior al terico.
Su producto por la media de X generara, en promedio, una contribucin positiva del error de
estimacin a la explicacin de la variable Y :
h
i
^
y = 0 + 1 x + u = [ 0 + 1 x] + ^ 0
0 +
1
1 x
donde en el corchete de la derecha, el segundo sumando est teniendo una contribucin positiva.
Para compensarlo, la estimacin MCO de 0 estara por debajo de su valor verdadero: 0 >
^ . Es decir, si el estimador de Mnimos Cuadrados sobreestima ; entonces infraestima : Si
0
1
1
infraestimamos 1 ; entonces sobreestimamos 0 : Lo contrario ocurrira si la media muestral de X
fuese negativa.
55
4.11.2
Argumento alternativo
^
E ^0
V ar ^ 0
^ x=(
1
= y
=
= E
Luego:
Cov ^ 0 ; ^ 1
V ar ^ 0
= E
= E u ^1
1x
^ x=
1
+ u)
x+u
x+u
E ^1 x + u
= x2 V ar ^ 1 +
Pero
2
u
i2
=E
h
x2 + E u2 + 2E
i
E ^ 1 xu =
E ^1 u
13
!0 n
n
n
i
2 X
X
X
1
@
E ^1 u = E 4
uj A5 = u
i ui
i =0
n j=1
n i=1
i=1
!
Pn
2
2
2
x
1
u
2
2
2
i=1 xi
= u
+ Pn
= x V ar ^ 1 +
=
P
u
2
n
2
n
n
x)
x)
i=1 (xi
i=1 (xi
i
h
i
^
^
=E u
x ^
=
n
2xE
2
xE
=0
xV ar ^ 1 =
Pn
i=1
Contrastacin de hiptesis
2
u
(xi
x)
En esta seccin describimos los procedimientos para la contrastacin de hiptesis acerca de los
valores numricos que toma uno o varios de los coecientes del modelo de regresin. Comenzamos
prestando atencin a los contrastes de hiptesis acerca del valor numrico de un slo parmetro, para
pasar despus a considerar hiptesis o restricciones sobre el valor numrico de varios parmetros y,
nalmente, hiptesis o restricciones acerca del valor numrico de una o ms combinaciones lineales
de parmetros. Para todo ello, utilizamos el siguiente resultado:
Una combinacin lineal de variables aleatorias con distribucin Normal, sigue tambin una
distribucin de probabilidad Normal: Si z1 ; z2 ; :::; zn son variables aleatorias independientes, cada
una de ellas con una distribucin N ( i ; 2i ), la combinacin lineal: w = a1 z1 + a2 z2 + ::: + an zn ;
tambin sigue una distribucin Normal:
!
n
n
X
X
2 2
2 2
2 2
2 2
w N (a1 1 + a2 2 + ::: + an n ; a1 1 + a2 2 + ::: + an n ) = N
ai i
i i;
i=1
i=1
Para este resultado no es necesario que las variables z1 ; z2 ; :::; zn sean independientes. Si no lo
son, entonces en la expresin de la varianza de w hay que aadir sumandos adicionales correspondientes a la covarianza entre cada dos variables del conjunto: z1 ; z2 ; :::; zn .
El estimador de mnimos cuadrados de la pendiente del modelo de regresin simple puede escribirse:
^ =
1
1+
N
X
i=1
56
i ui
(19)
por lo que, si el trmino de error del modelo, que es una variable aleatoria distinta para cada
observacin muestral, sigue una distribucin Normal, entonces el estimador ^ 1 tambin tendr una
distribucin Normal.
Tambin el estimador de mnimos cuadrados del trmino independiente de la regresin, ^ 0 ;
puede escribirse como combinacin lineal de los trminos de error del modelo. Para ello, notemos
PN
PN
PN
1
que: ^ 0 = y ^ 1 x = N1 i=1 yi
i x yi :Por tanto, tambin este
i=1 i yi x =
i=1 N
estimador sigue una distribucin Normal, aunque pocas veces estaremos interesados en contrastar
hiptesis acerca del verdadero valor de dicho coeciente.
5.1
En secciones anteriores obtuvimos las condiciones bajo las cuales el estimador de mnimos cuadrados
de la pendiente del modelo de regresin simple es insesgado, y tiene por varianza V ar ^ 1 =
2
u
: Si, adems, los trminos de error correspondientes a cada observacin siguen una
distribucin Normal, entonces, vimos que ^ 1 tambin seguir una distribucin Normal. Tipicando
la variable aleatoria ^ 1 es decir, restando su esperanza matemtica y dividiendo por su desviacin
tpica, tenemos:
PN
2
i=1 (xi x)
^
1
r 1
V ar ^ 1
=q
N (0; 1)
2
u
PN
i=1 (xi
x)2
Este resultado podra utilizarse para llevar a cabo contrastes de hiptesis acerca del verdadero
valor numrico de la pendiente 1 ; comparando el valor numrico obtenido en la muestra para el
estadstico
2
u
PN
(x
i=1 i
x)2
^ 2u
PN
2
i=1 (xi x)
DT ( ^ 1 )
tN
Lo importante es que la variable que acabamos de probar que sigue una distribucin tN 2 es la
misma que antes probamos que segua una distribucin N (0; 1), slo que sustituyendo la varianza
desconocida del trmino de error, 2u ; que hemos supuesto constante para todas las observaciones
PN 2
muestrales, por su estimacin de mnimos cuadrados: ^ 2u = N 1 2 i=1 u
^i : En el denominador de
la expresin hemos hecho explcito el hecho de que la raiz cuadrada no es sino la estimacin de la
^
desviacin tpica del estimador de ^ 1 : La propiedad DT1 ( ^ 1)
tN 2 es la que utilizaremos para
1
disear contrastes de hiptesis en el modelo de regresin lineal simple, puesto que el valor numrico
del estadstico puede ahora calcularse con la informacin muestral.
Introducimos ahora el principio que regir el modo en que vamos a resolver todo tipo de contrastes de hiptesis:
57
En cualquier contraste de hiptesis, el estadstico muestral mide el grado de incumplimiento muestral de la hiptesis nula.
As sucede con el estadstico t anterior, en cuyo numerador aparece la diferencia ^ 1
1 ; entre
la estimacin obtenida con nuestra muestra, y el valor hipottico de dicho coeciente. PEro, como
sabemos si una discrepancia, digamos que de 0,40, por ejemplo, entre ambos valor numricos, el
estimado y el terico, es sucientemente grande? Hay que utilizar una unidad de medida, y eso
es lo que hacemos al dividir por la desviacin tpica del estimador. De este modo, evaluamos si
la discrepancia ^ 1
1 es igual a una vez, dos veces, o una vez y media la desviacin tpica del
estimador ^ 1 : Una vez calculado, queremos decidir si el grado de incumplimiento muestral es grande
o pequeo. En el primer caso, rechazaremos la hiptesis nula, no rechazndola si el grado de incumplimiento muestral es pequeo. Para decidir acerca de esta importante cuestion, comparamos el
^
nmero resultante de calcular el cociente DT1 ( ^ 1) , que resume el grado de incumplimiento muestral
1
de la hiptesis nula, con el valor crtico de las tablas de la distribucin tN 2 al nivel de signicacin
escogido. Si el estadstico muestral es mayor que el valor crtico de las tablas, decimos que el incumplimiento muestral es grande, por lo que rechazamos la hiptesis nula. Si, por el contrario, el
estadstico muestral es menor que el valor crtico de las tablas, decimos que el grado de incumplimiento muestral de la hiptesis nula es pequeo, y no rechazamos la hiptesis nula. Por ejemplo,
al nivel de signicacin del 5%, si el tamao muestral es sucientemente grande (mayor que 120
observaciones), el valor crtico de las tablas es de 1,96 (aproximadamente 2,0). En consecuencia, si
la diferencia entre la estimacin numrica y el valor terico contenido en la hiptesis nula es mayor
que dos veces la desviacin tpica del estimador de ^ 1 ; decimos que el incumplimiento muestral de
la hiptesis nula es sufucientemente grande, y rechazamos la hiptesis nula. Hacemos lo contrario
si la diferencia es menor de dos veces la desviacin tpica del estimador de ^ 1 : En cada caso, para
el nivel de signicacin escogido, y el nmero de grados de libertad, N 2; con que contemos, las
tablas nos darn el valor crtico con el que hemos de comparar.
5.1.1
Contrastes de dos colas (bilaterales) acerca del valor numrico de un solo coeciente
58
5.1.2
H0
=0
Regin crtica
0, 26
Valor p = P > 0, 26 / = 0 = P
/ = 0 =
>
DT ( )
DT ( )
0, 26
= P N (0,1) >
= 2, 3636 = 1 0, 9910 = 0, 009
0,11
5.2
^ + 0:85 ln(Lotsizei ) + u
^i
0
^ + 0:05 ln(Lotsizei ) + u
^i
0
(0:50)
(0:02)
Son dos modelos que explican el precio de una vivienda en funcin nicamente del tamao de la
parcela que ocupa. Estamos interesados en saber si el tamao de la parcela condiciona el precio o
si, por el contrario, ste est determiando exclusivamente por las caractersticas de la construccin,
pero no por el tamao de la parcela. Por tanto, queremos contrastar: H0 : 1 = 0, y supongamos
que consideramos como hiptesis alternativa:17 H1 : 1 6= 0: El estadstico t para el contraste de
0
^
una hiptesis acerca del valor de un nico coeciente es: DT ( ^ ) tN coef s : En este caso concreto,
0
61
cero estadsticamente, acompaando a una variable econmicamente importante (como podra ser
el caso del primer modelo).
Tenemos que distinguir entre estos dos efectos.
Lo que sucede en el primer modelo es que estimamos con poca precisin, como se aprecia en el
hecho de que la desviacin tpica sea elevada, en relacin con la estimacin numrica del coeciente.
En consecuencia, no tenemos mucha seguridad en que 0,85 sea un valor de referencia muy exacto.
Asimismo, el intervalo de conanza que podamos construir ser muy amplio. Pero, si bien es cierto
que no podemos ser muy precisos acerca de su valor numrico concreto, es dudoso que debamos
suponer que puede aproximarse por cero.
En el segundo modelo, por las razones que sea (por ejemplo, esto suele suceder con muestras muy
grandes) hemos estimado con mucha precisin. La desviacin tpica es realmente muy reducida.
Pero es dudoso que queramos decir que el efecto antes descrito sea econmicamente relevante.
Debemos examinar siempre la situacin de la precisin de las estimaciones numricas que hemos
obtenido para los coecientes del modelo.Y no podemos olvidar que nos interesa pronunciarnos
acerca de la relevancia econmcia de las variables explicativas, no necesariamente acerca de la
signicacin estadstica de los coecientes asociados a ellas.
Otra manera de ver este efecto es apreciar que el estadstico t es el producto de dos factores:
0
por un lado, el incumplimiento muestral ^
; por otro, la precisin en la estimacin
del parmetro: DT1( ^ ) : As, el estadstico t puede ser bajo (inferior a 2; 0) bien porque el incumplimiento muestral sea pequeo, o porque, incluso siendo apreciable, la precisin es muy
reducida. En este segundo caso, con un incumplimieno alto, querramos rechazar la hiptesis
nula; sin embargo, puede que no lo hagamos porque el producto de los dos factores resulte
inferior a 2; 0:Este es el caso del primer modelo del ejemplo anterior.
Tambien podra resultar que el producto de un pequeo incumplimiento de la hiptesis nula y
una elevada precisin, produzcan un valor superior a 2; 0 del estadstico t, a pesar de que, en este
caso, no querramos rechazar la hiptesis nula. este es el caso del segundo modelo en el ejemplo
anterior.
Un modo alternativo de contrastar una hiptesis acerca de un nico coeciente consiste en
construir el intervalo de conanza, al nivel de conanza adecuado (recordemos que el nivel
de conanza es igual a 1; 0 menos el nivel de signicacin), y analizar si el valor hipottico,
el que aparece en la hiptesis nula, est dentro de dicho intervalo. Si es as, no podremos
rechazar dicha hiptesis nula, ya que el valor terico est dentro del rango de conanza que
hemos construido.Lo contrario sucede si en valor terico cae fuera del intervalo de conanza,
en cuyo caso rechzaremos la hiptesis nula. Este procedimiento es completamente equivalente
al uso dle estadstico t que antes describimos.
Contrastes unilaterales: Para rechazar una hiptesis nula se deben dar 2 condiciones simultneamente:
1. que la evidencia muestral sea contraria a la hiptesis nula
2. que la evidencia muestral sea favorable a la hiptesis alternativa.
En contrastes bilaterales como los que hemos visto hasta ahora, que son aquellos cuya hiptesis alternativa es del tipo: H0 : 1 =
6 0; ambas condiciones son equivalentes, por lo que basta
62
que se cumpla una cualquiera de ellas. Pero no sucede as en el caso de un contraste unilateral.
Consideremos el contraste:
H0
H1
:
:
1
1
=1
<1
5.3
u
^2i = N
1 8 Recordemos
^ 2u
2
u
2
N 2
que en los contrastes bilaterales, buscamos en las tablas el valor numerico asociado a la mitad del
nivel de signicacin.
63
^
PN
2
u
2
i=1 (xi x)
1
1
2
u
N 2
PN
^2i
i=1 u
1
2
u
=r
PN
1
PN
^2i
i=1 u
N 2
P
N
2
(x
x)
i
i=1
u
^2i
i=1
ui = u + ^ 1
2
N 2;
(xi
=r
PN
tN
^ 2u
i=1 (xi
x)2
utilizamos la descomposicin:
x) + u
^i
2
u
=N
u2
2
u
^
+
2
1
1
2
u
N Sx2 +
N
1 X
2
u i=1
u
^2i
El trmino a la izquierda de la igualdad sigue una distribucin 2N ; por ser la suma de cuadrados
de variables N (0; 1) que suponesmo independientes. El primer trmino de la derecha sigue una
distribucin 21 ; por ser el cuadrado de una variable N (0; 1): Lo mismo sucede con el segundo
trmino de la derecha. Por ltimo, podemos utilizar el resultado de que el nmero de grados de
libertad de variables 2 independientes es aditivo, es decir, que si 2m y 2n son independientes,
entonces: 2m + 2n = 2m+n : Los trminos de la igualdad anterior son independientes, lo que aqu
no probamos.
1 x1i
2 x2i
+ ui ; i = 1; 2; :::n
0;
1;
0;
1;
2)
= M in
0;
1;
n
X
(yi
1 x1i
2
2 x2i )
i=1
64
yi
yi x1i
yi x2i
X
X
= n^0 + ^1
x1i + ^ 2
x2i
X
X
X
= ^0
x1i + ^ 1
x21i + ^ 2
x1i x2i
X
X
X
= ^0
x2i + ^ 1
x1i x2i + ^ 2
x22i
donde los circunejos denotan que la solucin al sistema de ecuaciones ser el estimador de
Mnimos Cuadrados. Una vez resuelto este sistema, la diferencia: u
^i = yi ^ 0 + ^ 1 x1i + ^ 2 x2i ser
el residuo correspondiente a la observacin i-sima. Por tanto, aun antes de resolver el sistema de
ecuaciones normales:
X
X
X
u
^i
u
^i x1i
u
^i x2i
que muestra propiedades similares a las que obtuvimos en el modelo de regresin lineal simple:
a) la suma de los residuos de mnimos cuadrados es igual a cero, y b) los residuos de mnimos
cuadrados estn incorrelacionados con las variables explicativas del modelo.
La segunda propiedad se deduce
Pde la propiedad a), que implica que los residuos tienen media
cero. Entonces las sumas del tipo
u
^i x1i no son sino la covarianza entre ambas variables, multiplicada por el tamao muestral. Por tanto, la covarianza es cero, y tambin es cero el coeciente
de correlacin. Estas propiedades no se cumplirn con otro procedimiento de estimacin. Si en el
modelo hubiera k variables explicativas (k > 2), el razonamiento sera similar, y se tendran las
mismas propiedades.
Para resolver el sistema y hallar el estimador de Mnimos Cuadrados Ordinarios (MCO), primero
despejamos ^ 0 en la primera ecuacin:
X
^ = 1
yi
0
n
y sustituimos en las otras dos:
X
yi x1i
yi x2i
1X
yi
n
1X
yi
n
X
^ 1
x1i
1
n
X
^ 1
x1i
1
n
X
^ 1
x1i
1
n
Sx1 y
Sx2 y
X
^ 1
x2i
2
n
X
X
X
X
^ 1
x2i
x1i + ^ 1
x21i + ^ 2
x1i x2i
2
n
X
X
X
X
^ 1
x2i
x2i + ^ 1
x1i x2i + ^ 2
x22i
2
n
^ S 2 + ^ Sx x
1 x1
2
1 2
^ Sx x + ^ S 2
1
donde:
65
2 x2
(20)
Sx1 y
Sx21
X
X
(x1i
x1 )(yi
y); Sx2 y =
X
x1 )2 ; Sx22 =
(x2i
(x1i
(x2i
x2 )(yi
x2 )2 ; Sx1 x2
y);
X
=
(x1i
x1 )(x2i
x2 );
El sistema (20) es lineal con dos ecuaciones en dos incgnitas, sencillo de resolver, que conduce
a:
2
^ = Sx1 y Sx2
1
Sx21 Sx22
Sx2 y Sx1 x2
2
(Sx1 x2 )
Sx y S 2
; ^ 2 = 2 x1
Sx21 Sx22
Sx1 y Sx1 x2
2
(Sx1 x2 )
; ^0 = y
^ x1
1
^ x2 ;
2
(21)
Obtener las expresiones analticas de las varianzas y covarianzas de los estimadores de los coecientes es complejo. Baste dar aqu las expresiones:
V ar( ^ 1 )
2
u
V ar( ^ 2 )
2
u
Cov( ^ 1 ; ^ 2 )
V ar( ^ 0 )
Sx22
Sx21 Sx22
Sx21
Sx21 Sx22
2
u
2
u
2;
(Sx1 x2 )
2;
(Sx1 x2 )
Sx1 x2
Sx21 Sx22
(Sx1 x2 )
La expresin de la covarianza ser til para contrastar hiptesis que involucren simultneamente
a ambos parmetros, como veremos en ejercicios.
Proposition 4 El estimador de Mnimos Cuadrados es insesgado
Proof. El estimador MCO puede escribirse:
=
=
Sx22
2
Sx21 Sx22
(Sx1 x2 )
Sx22
Sx21 Sx22
(Sx1 x2 )
X
X
(x1i
x1 )(yi
(x1i
x1 )(
Sx1 x2
Sx21 Sx22
=
1+
(Sx1 x2 )
Sx22
Sx21 Sx22
(Sx1 x2 )
(x1i
(x2i
x1 )(ui
Sx21 Sx22
1 x1i
x2 )(
u) +
(Sx1 x2 )
2 x2i
1 x1i
+ ui
2 x2i
(x2i
x2 )(yi
y) =
y)
+ ui
Sx1 x2
Sx21 Sx22
Sx1 x2
y)
(Sx1 x2 )
y) =
(x2i
x2 )(ui
u)
Para llevar a cabo contrastes de hiptesis acerca de posibles valores numricos de los coecientes del modelo, es preciso disponer de las varianzas de los estimadores, al igual que ocurra
en el modelo simple. Sin discutir aqu su deduccin analtica, que es compleja, baste decir que las
varianzas de los tres coecientes pueden escribirse:
Adems, el estimador MCO es el estimador lineal insesgado de mnima varianza, puesto que
el mismo Teorema de Gauss-Markov que enunciamos en el caso del modelo lineal simple contina
siendo vlido en este modelo ms general. Asimismo, el Teorema de Rao tambin se cumple,
de modo que el estimador de Mnimos Cuadrados es eciente cuando el trmino de error sigue
una distribucin Normal, es decir, tiene la menor varianza posible de entre todos los estimadores
insesgados, sean estos lineales o no lineales.
6.1
Este ejemplo utiliza 10 observaciones anuales sobre las ventas, gastos en publicidad y precio del
producto de una empresa. El inters del ejemplo es:
ilustrar el modo de interpretar los valores numricos estimados para coecientes individuales
en un contexto de colinealidad,
mostrar la manera de analizar el contenido informativo de las variables explicativas en un
contexto de alta colinealidad,
proponer un modo de tratar la colinealidad entre variables explicativas,
6.1.1
El archivo de trabajo contiene informacin acerca de la cifra de ventas anuales Vt de una empresa, junto con sus gastos en publicidad, P ubt ; ambos en miles de euros, y el precio de venta de
su producto, Pt ; asimismo en miles de euros por unidad: Son datos articiales, formados por 10
observaciones de cada variable, pero sern suciente para ilustrar las cuestiones que nos interesan. Las tres variables muestran, dentro del breve espacio de tiempo cubierto por la muestra, un
comportamiento tendencial, que es creciente en el caso de las ventas y los gastos en publicidad, y
decreciente en el caso del precio del producto.
Las nubes de puntos representan la relacin entre la cifra de ventas anual y cada una de las dos
potenciales variables explicativas, precio y gasto en publicidad (N U BE_V EN T _P RECIO; N U BE_V EN T _P U B) ;
mostrando claramente una asociacin negativa entre Vt y Pt ; y positiva entre Vt y P ubt .
Las covarianzas y coecientes de correlacin entre las variables pueden resumirse en la matriz,
1 9 Fichero
67
1
Pr ecio
C
SV;P
C=
SP ub;P A
SP2
que muestra en su diagonal las varianzas de las tres variables; sus coecientes de correlacin
consigo mismas son igual a uno, por lo que no es preciso mostrarlos. Debajo de la diagonal aparecen
los coecientes de correlacin entre cada par de variables, todos ellos entre -1 y +1, mientras que
por encima de la diagonal aparecen las covarianzas. Como puede verse, los tres coecientes de
correlacin son muy elevados en valor absoluto.
Las desviaciones tpicas muestrales de las variables son,
D:T:(Vt ) =
p
p
p
443; 5 = 21; 06; D:T:(P ubt ) = 38; 5 = 6; 20; D:T:(Pt ) = 27; 2 = 5; 22:
Para obtener una medida comparable entre variables, debe utilizarse el coeciente de variacin,
denido como cociente entre la desviacin tpica y media muestral de una variable.20
El modelo de ventas estimado utilizando tanto los gastos en publicidad como el precio del bien
como variables explicativas es,
Vt = 247; 6 + 2; 204 P ubt
(67;3)
(0;545)
1; 464 Pt ;
(22)
(0;649)
2
RV:[P
ub;P ]
^ 2u
2
SRV:[P
ub;P ]
T:SV2
2
SRV:[P
ub;P ]
= 0; 943
p
250; 6
= 35; 8 ) ^ u = 35; 8 = 5; 98
10 3
68
Ratio = 1
5; 98
= 0; 717
21; 1
^
p u
=1
V ar(Vt )
indicando que el 72% del tamao medio de las uctuaciones anuales en ventas ha quedado
explicada por el modelo anterior.22
6.1.2
Qu explica cada variable? En sus estudios sobre los ciclos econmicos, Tinbergen (1939)
propuso un interesante mtodo para reejar la informacin contenida en cada variable explicativa
a lo largo de la muestra.23 Trabajando en desviaciones respecto de la media, Tinbergen sugera
mostrar un grco representando simultneamente los valores observados de y y los ajustados por
el modelo, un grco para cada producto ^ i xi , y un grco de residuos. Para ello se utilizan
los coecientes estimados en el modelo de regresin llineal mltiple. Hemos optado por presentar
en Ventas_niveles.doc:24 un grco de los valores anuales observados de y; junto con los valores
anuales ajustados por el modelo; dos grcos que confrontan los valores anuales observados para
y con los valores explicados por cada una de las variables explicativas por separado, y un ltimo
grco que representa los valores observados de y frente a los residuos del modelo.
Comparacin de coecientes: limitaciones Varias son las cuestiones que han de tenerse
en cuenta al tratar de evaluar, en trminos relativos, el contenido informativo que cada variable
explicativa tiene sobre la variable dependiente. En primer lugar, podramos utilizar el hecho de
que el coeciente estimado para P ub en (22) es mayor en valor absoluto que el estimado para Pt
para decir que la primera variable es ms relevante al explicar las ventas de la empresa. Esto sera
incorrecto por dos razones: una de ellas ha sido explicada en la seccin anterior, donde hemos visto
que en un contexto de colinealidad, un coeciente individual no puede interpretarse como el impacto
que sobre la variable dependiente tiene una variacin unitaria en la variable que acompaa a dicho
coeciente estimado. La segunda razn es que, en todo caso, los coecientes individuales mediran
el impacto que sobre las ventas tiene una variacin unitaria, positiva o negativa, en cada una de las
variables explicativas; el problema es que una variacin de una unidad o de 100 unidades puede ser
muy grande para una variable, y muy pequea para otra. Ello depender de las variaciones medias
que cada una de las variables experimenta a lo largo de la muestra, lo que nos lleva al siguiente
epgrafe,
La volatilidad de la variable explicativa Para armar que la publicidad es ms importante
que las ventas porque el valor absoluto del coeciente estimado para la primera en (22) es mayor
que el de la segunda, deberamos tener en cuenta el tamao medio de la variacin anual media
en ambas variables, medido por sus respectivas desviaciones tpicas.25 El efecto promedio de una
2 2 Recordemos
que R2 = 1
SR2
;
ST
R2 )ST; y ^ 2u = TSR k = (1
R2 ) TSTk =
q
T
(1 R2 ) T k . Para valores grandes de T en
p ^u
R2 ) T T k V ar(yt ); por lo que, Ratio = 1
= 1
V ar(Vt )
p
2
relacin con k; Ratio = 1
(1 R ); siendo siempre Ratio inferior a R2 :
2 3 Este procedimiento, olvidado por mucho tiempo, ha sido recordado por Johnston y DiNardo (1997).
2 4 Recordamos nuevamente que utilizar desviaciones respecto de la media muestral en presencia de tendencias
temporales puede no tener mucho signicado. Puede conducir, adems, a conclusiones errneas.
2 5 De nuevo, esta interpretacin es correcta nicamente si las variaciones anuales son independientes entre s. Slo
en tal caso pueden interpretarse como uctuaciones alrededor del valor promedio de la variable.
(1
69
70
comparacin entre el valor absoluto de dicho estadstico y el umbral crtico de 2,0 es el procedimiento
habitual para analizar si una variable contiene capacidad explicativa sobre la variable endgena. Es
decir, la signicacin estadstica de una variable se interpreta directamente como su capacidad de
explicar los valores numricos de la variable dependiente. De dicho procedimiento parece inferirse
que cuanto mayor sea el valor absoluto del estadstico tipo-t, mayor es la capacidad explicativa de
la variable en cuestin.
Este procedimiento es generalmente inapropiado porque el economista est interesado en el impacto cuantitativo que cambios en una variable explicativa implican sobre la variable dependiente, y
la signicacin estadstica de una variable explicativa puede ser simultnea con un efecto cuantitativo muy reducido de dicha variable sobre la variable dependiente. Esta confusin entre signicacin
estadstica y relevancia cuantitativa ha sido muy daina en la ionterpretacin de las estimaciones
de modelos de regresin en Economa.
Hay diversas razones por las que una variable explicativa que tiene un notable efecto cuantitativo
sobre la variable dependiente puede resultar estadsticamente no signicativa. Dada la estructura
del estadstico tipo-t, ste conjuga la estimacin del impacto numrico de cambios en la variable
explicativa, con la precisin con que dicho impacto se estima. As, la ausencia de signicacin estadstica puede surgir bien porque el impacto numrico de dicha variable es muy reducido, o porque,
siendo importante, no se mide con suciente precisin, es decir, con una varianza sucientemente
pequea. De este modo, no puede interpretarse un valor pequeo del estadstico tipo-t como evidencia de una reducida capacidad explicativa; en particular, un valor de dicho estadstico inferior a
2 no necesariamente signica que la variable explicativa en cuestin no tenga contenido informativo
sobre la variable dependiente. Ignorar el papel que la precisin en la estimacin de un coeciente
del modelo de regresin tiene sobre los contrastes de signicacin estadstica es la segunda fuente
tradicional de error en la interpretacin de las estimacioens de modelos de relacin entre variables
econmicas.
6.2
Una vez obtenidas las estimaciones numricas MCO de los coecientes del modelo, los valores
explicados de la variable endgena, y^i , as como los residuos u
^i , se denen de modo anlogo a como
hicimos en el modelo lineal simple.
P 2
u
^i
Estimamos la varianza del trmino de error mediante la varianza residual: ^ 2u = SCR
n k = n k =
2
Sy:x
1 x2
n k
2
: En el modelo de la seccin anterior, k = 3: Hemos introducido la notacin Sy:x
para
1 x2
denotar la Suma de Cuadrados de Residuos en la regresin que tiene a y como variable dependiente,
y a x1i y x2i como variables explicativas. El Error Estndar de la Regresin (EER) es la raz
cuadrada de dicha estimacin. Al ser una estimacin de la desviacin tpica residual, es un indicador
del tamao medio de los residuos.
La Suma de Cuadrados de los Residuos puede calcularse sin necesidad de obtener los residuos,
mediante:
71
SCR
X
X
2
= Sy:x
=
u
^2i =
(yi ^ 0 ^ 1 x1i ^ 2 x2i )^
ui =
1 x2
X
X
X
X
=
yi u
^i ^ 0
u
^i ^ 1
x1i u
^i ^ 2
x2i u
^i =
X
X
=
yi u
^i =
yi (yi ^ 0 ^ 1 x1i ^ 2 x2i ) =
X
X
X
X
=
yi2 ^ 0
yi ^ 1
yi x1i ^ 2
yi x2i
X
X
2
= Sy2 =
(yi y)2 =
[(yi y^i ) + (^
yi y)] =
X
X
X
=
(yi y^i )2 +
(^
yi y)2 + 2
(yi y^i )(^
yi y)
donde todos los sumandos son igual a cero. Por tanto, la Suma Total puede escribirse:
X
X
X
2
Sy2 =
u
^2i +
(^
yi y)2 = Sy:x
+
(^
yi y)2
1 x2
y tenemos nuevamente la descomposicin:
2
Sy:x
1 x2
Sy2
P
(y
2
P i
Ry:x
=
1 x2
(yi
2
^ P yi + ^ P yi x1i + ^ P yi x2i
y^i )
2
1
0
P
=
y)2
(yi y)2
ny 2
^ Sx y + ^ Sx y
1
2
1
2
Sy2
6.3
6.3.1
R2 ) = (1
R2 )
que el coeciente de correlacin entre los residuos de ambas regresiones es muy elevado; algunas de
estas correlaciones aparecen en CORR_P ESO_AJU ST E; signicando que la inclusin del nivel
educativo de los padres no ha aadido capacidad explicativa signicativa a las variables cigarrillos
y renta. Las nubes de puntos COM P _RES_1 a COM P _RES_4 aportan una evidencia similar:
COM P _RES_1 y COM P _RES_2 relacionan la variable dependiente, Peso, con los residuos de
dos regresiones simples, la primera utilizando cigarrillos como unica variable explicativa, mientras
la segunda utiliza Renta en su lugar. COM P _RES_3 compara los residuos de la regresin simple
sobre cigarrillos, con los que se obtienen de una regresin que incluye cigarrillos y renta como
variables explicativas; el hecho de que ambos residuos sean tan similares sugiere que la variable renta
no aporta mucho a la variable cigarrillos para explicar el peso del recin nacido.26 COM P _RES_4
compara los residuos de la regresin simple sobre cigarrillos, con los que se obtienen de una regresin
que incluye cigarrillos, renta, los niveles educativos del padre y de la madre, y el nmero de orden
del recin nacido entre sus hermanos como variables explicativas; la interpretacin es similar, y no
parece que el resto de las variables aporte mucha informacin a la que pueda incorporar el nmero
de cigarrillos.
Para profundizar en la informacin proporcionada por los niveles educativos, y dada la excesiva
concentracin de cada una de estas dos variables en el nivel 12 aos, denimos una variable cticia
en el caso de las mujeres, edm, que es igual a 0 si educm es inferior a 12 aos, es igual a 1 si
educm es igual a 12 aos, y es igual a 2 si educm toma cualquier valor numrico superior a 12 aos.
En ocasiones, es difcil medir con precisin el efecto de cambios unitarios en una variable como
educm, pero se mide mejor el efecto que tiene sobre la variable dependiente el paso de un nivel de
educm a otro. Aunque no incidimos aqu en los resultados, la variable cticia as construida, que se
incluye en el archivo de trabajo, no parece aportar capacidad explicativa signicativa. Finalmente,
concluimos que los niveles educativos no son relevantes para explicar el peso de los recin nacidos,
una vez que se tiene en cuenta la informacin proporcionada por cigarrillos. Algo similar puede
decirse del nivel educativo del padre.
Cuando se considera la variable ordenac, la escasa contribucin informativa es an ms evidente,
como ya sugera el anlisis descriptivo que antes hicimos, por lo que concluimos que esta variable
no aporta informacin relevante a la ya proporcionada por las variables renta y cigarrillos. Esto
ocurre a pesar de que esta variable aparece con un valor numrico del estadstico t de Student
superior a 2 en la regresin que incluye todas las variables explicativas [REG_T ODAS], propiedad
que se mantiene si excluimos de dicha regresin todas las variables explicativas con estadstico t
inferior a 2 en valor absoluto, y volvemos a estimar el modelo. Si siguiramos este procedimiento,
habitual en el anlisis emprico, pero en absoluto recomendable, nos quedaramos con una regresin
que utiliza cigarrillos y ordenac como nicas variables explicativas [REG_CIGS_ORDEN AC].
Sin embargo, la correlacin entre los residuos de esta regresin [RES_CIGS_ORDEN ] y los
que utiliza nicamente la variable cigarrillos como explicativa [RES_CIGS] es superior a 0,997,
indicando que ordenac apenas aade informacin a la que pueda incluir la variable cigarrillos.
Finalmente, si el investigador decidiera utilizar todas las variables simultneamente, como hicimos en la regresin mostrada en primer lugar, obtendra unos residuos muy altamente correlacionados con los de las regresiones previas, as como con la variable Peso original [ver la correlacin entre RES_TODAS (el residuo de la regresin con todas las variables explicativas) y
RES_CIGS, RES_REN T A, en la tabla CORR_P ESO_AJU ST E; as como la nube de puntos
2 6 Ntese que esto no signica en modo alguno que cigarrillos tenga ms o menos capacidad explicativa, sino tan
slo que la informacin proporcionada por la renta familiar no aporta nada a la contenida en el nmero de cigarillos
fumado porla madre durante el embarazo, que podra ser relevante o no serlo.
74
COM P _RES_4]. Nuevamente, la interpretacin es la misma, en trminos de la reducida capacidad explicativa del conjunto de variables considerado, como perfectamente ilustra F IG_RES_T ODAS.
En general, el ejemplo que estamos considerando ilustra la necesidad de huir de la aplicacin
mecnica de los estadsticos tipo t de Student. A pesar del elevado valor numrico de este estadstico,
especialmente en las regresiones individuales, la nica conclusin razonable en el anlisis que hemos
presentado, es que ninguna de las variables, tal como aparece recogida en la muestra, explica de
manera importante el comportamiento del peso de los recin nacidos27 . Por ejemplo, la regresin
REG_EDU CP _EDU CM; que explica el peso del recin nacido utilizando nicamente por los
niveles educativos de los padres nicamente, tambin genera un estadstico t superior a 2,0 en valor
absoluto para la variable EDU CP; sin que de ello deba inferirse que esta variable aporta capacidad
explicativa alguna, ni siquiera cuando se utiliza por s sla, como ya hemos discutido ampliamente.
Tambin es interesante observar que el estadstico tipo F habitual para el contraste de signicacin global del modelo, es decir, para contrastar la hiptesis nula que arma que las variables
explicativas, consideradas conjuntamente, no aportan capacidad explicativa alguna, arroja un valor
numrico de 9,55, con un valor-p igual a 0, por lo que una interpretacin estricta del mismo conducira a admitir la capacidad explicativa conjunta de las variables consideradas acerca del peso de
los recin nacidos, contrariamente a las conclusiones que hemos obtenido.
Sin embargo, un investigador todava debera pronunciarse acerca de la posible evidencia existente en la informacin muestral sobre la inuencia que las distintas variables consideradas pueden
tener sobre el peso del recin nacido. En este sentido, si consideramos los cigarillos fumados durante
el embarazo, la diferencia entre las medianas que antes mencionamos para los pesos de los bebs
nacidos de mujeres no fumadoras y de mujeres fumadoras es notable, siendo menor la mediana
del peso para los hijos de mujeres fumadoras, lo que sugiere una relacin negativa entre estas dos
variables, como quiz cabra esperar. Esta es la nica variable recogida en la muestra para la que
detectamos un efecto signicativo; los datos disponibles sugieren que el consumo de cigarrillos durante el embarazo tiende a disminuir signicativamente el peso de los bebs al nacer, lo que ocurre es
que la informacin muestral no nos permite estimar con precisin las variaciones en peso producidas
por cada incremento en el nmero de cigarrillos fumados por la madre durante el embarazo.
Hay otros aspectos, potencialmente relevantes, que no hemos considerado en la discusin previa:
los residuos de la regresin ms completa, REG_T ODAS; tienen una media de -3,70 para los recien
nacidos de raza no blanca (186 bebs), y de 0,68 para los de raza blanca (1.005 bebs). Esto est
en consonancia con la posibilidad de que los bebs de raza blanca tengan ms peso. Dichos residuos
tienen media de -1,92 para las mujeres, y de 1,78 para los varones, sugiriendo asimismo que los
varones puden tener un peso al nacer mayor que el de las mujeres. Ambos efectos son adems
acordes a la intuicin, por lo que procede analizarlos en algn detalle.
Al incluir ambas variables cticias junto con las cinco variables antes analizadas, el R2 de la
regresin aumenta apreciablemente, a 0,049, a la vez que la desviacin tpica residual se reduce a
19,65, y el Ratio de ajuste se eleva a 3,4%. Si restringimos el modelo a incluir las dos variables
cticias, de sexo y raza, junto con cigarrillos, la regresin apenas vara, con residuos muy altamente
correlacionados con los obtenidos en todas las regresiones consideradas, un R2 de 0,042, desviacin
tpica de 19,92, y Ratio de ajuste de 2,1%.
Esta ltima [REG_CIG_F IC] es, sin embargo, quiz la regresin ms razonable,
2 7 Por supuesto, la ilustracin en Wooldridge (2001) acerca de la ausencia de capacidad explicativa de las dos
variables de educacin es cierta. Sin embargo, el resultado es an ms estricto, por cuanto que tampoco las variables
renta, cigarrillos, ordenac, tienen verdaderamente una capacidad explicativa de gran signicacin.
75
P esoi
113; 277
(1;306)
(1;071)
(1;301)
P eso
108,217
111,269
113,277
114,447
116,329
117,499
119,507
122,559
Como puede apreciarse, la diferencia entre los pesos estimados de dos recin nacidos que slo
dieren en que su madre declarase ser fumadora, es siempre de 5 onzas, procedente del producto
de 10 cigarrillos, escogido como representativo del nivel de tabaco consumido diariamente, por el
coeciente estimado en la regresin. Esta diferencia estimada es inferior a la diferencia de 9 onzas
entre las medianas de los pesos para ambos grupos de madres.
6.4
6.4.1
Ninguna de las dos variables consideradas parecen tener, por s slas, gran capacidad explicativa
sobre el salario. Si estimamos una regresin con ambas, tenemos un R2 ajustado de 0,344, con
^ u = 145; 4; y ratio de ajuste 1 ^ uy = 0,19.
76
Salarioi
R2
(23)
Es interesante que los dos coecientes estimados dieren apreciablemente de los obtenidos en
las regresiones individuales, siendo en ambos casos superiores a los estimados en dichas regresiones
simples. Ahora, estimamos que el salario aumenta en casi 78 Bef. por ao de educacin, y en ms
de 8 Bef. por ao de experiencia.
Que los coecientes hayan aumentado respecto de la regresin simple, sugiere que ambas variables estn negativamente correlacionadas; en efecto, si as fuera, un ao ms de educacin vendra
generalmente asociado con una menor experiencia laboral, como por otra parte parece razonable. De
hecho, el coeciente de correlacin habitual entre ambas variables es -0,29, reejando tal correlacin
negativa si bien, tratndose de variables cualitativas, el uso de dicho estadistico es cuestionable. Los
niveles de experiencia medios son de 25,9, 20,7, 17,0, 14,9 y 14,5 aos para los niveles educativos
de 1 a 5, respectivamente, con una media global de 17,2 aos. La ordenacin decreciente de dichos
promedios sugiere asimismo la correlacin negativa entre ambas variables.
6.4.2
Aunque los resultados parecen claros, un investigador podra dudar de la verdadera relevancia de la
informacin aportada por la variable experiencia sobre los salarios, pues la evidencia proporcionada
en este sentido por el modelo de regresin simple, as como por los estadsticos descriptivos podra
sugerirlo. Para ello, estimaramos el modelo omitiendo la experiencia laboral y, utilizando, por
tanto, el nivel educativo y la variable cticia para explicar los salarios,
Salario =
1 Experiencia
2 Educacion
3 M ale
y compararamos los residuos de esta ecuacin restringida, con los de (37). Adems del claro descenso en los estadsticos de ajuste (reg_w_edu_male), la nube de puntos (SIGN IF ICA_EXP ER)
que representa ambos conjuntos de residuos indica claramente las diferencias entre ellos o, lo que es
lo mismo, que la experiencia profesional es una variable signicativa para explicar la determinacin
de los salarios en este grupo de trabajadores. El coeciente de correlacin entre los residuos de
ambos modelos, incluyendo y excluyendo la variable Experiencia es 0,88, claramente por debajo de
1,0, en coherencia con la interpretacin de que la Experiencia aporta contenido informativo que no
est incorporado en la variable .
6.5
Ejemplo 15.1
6.6
En las expresiones del estimador de mnimos cuadrados de los coecientes del modelo de regresin
mltiple:
77
2
^ = Sx1 y Sx2
1
Sx21 Sx22
Sx2 y Sx1 x2
2
(Sx1 x2 )
Sx y S 2
; ^ 2 = 2 x1
Sx21 Sx22
Sx1 y Sx1 x2
(24)
(Sx1 x2 )
observamos que la estimacin del efecto que sobre y tiene una variacin unitaria en una de las
variables explicativas diere de la estimacin que de dicho efecto tendramos estimando un modelo
de regresin simple. En el modelo de regresin simple, el estimador de mnimos cuadrados del
coeciente asociado a la nica variable explicativa sera igual, como sabemos, al cociente entre la
covarianza de las variables dependiente y explicativa, y la varianza de la variable explicativa de la
regresin.
Sin embargo, existe un caso especial en que ambos estimadores coinciden. Supongamos que las
dos variables explicativas del modelo, x21 y x3i estn incorrelacionadas. En tal caso, Sx1 x2 = 0; y
tendramos en el modelo de regresin mltiple las expresiones:
2
2
^ = Sx1 y Sx2 = Sx1 y ; ^ = Sx2 y Sx1 = Sx2 y
2
1
Sx21 Sx22
Sx21
Sx21 Sx22
Sx22
=
=
+ 1 x1i + ui
0 + 1 x21 + vi
tendramos en las
(25)
(26)
y1
^ ^
y2 21
^ ^
; ^2 =
12 21
y2
^ ^
y1 12
^ ^
12 21
^ =
1
Sx1 y
2
Sx
1
Sx2 y Sx1 x2
2 S2
Sx
1 x2
2
(Sx1 x2 )
Sx1 y
2
Sx
1
p 2
S
p y2
Sx2 y Sx1 x2
2 S2
Sx
1 x2
Sy
p 2
S
p y2
2
12
2 S2
Sx
1 x2
Sy
y1
y2 12
2
12
Sy
Sx1
^ =
2
y1 12
2
12
Sy
Sx2
donde los subndices tienen la misma interpretacin que en las expresiones anteriores.
6.7
El coeciente de correlacin guarda una estrecha relacin con los estadsticos t de las variables.
Asi, si contrastamos la signicacin estadstica de la nica pendiente estimada en un modelo de
regresion simple, se tiene:
R2 n 2
1 R2 1
Pero una distribucin F cuyo primer grado d elibertad es igual a 1; es igual al cuadrado de
una distribucin t de Student con el segundo nmero de grados de libertad de la distribucin F :
F1;n 2 = t2n 2 :
Por tanto,
F1;n
R2 =
t2n
t2n 2
2 + (n
2)
El resultado se mantiene, por supuesto, cuando la regresion simple que estimamos es una regresion parcial, en la que hemos descontado tanto de y como de x1 el efecto que sobre ambas variables
tiene x2 ; y tenemos:
2
yx1 :x2
t21
t21 + (n
k)
t22
79
t22
+ (n
5)
6.7.1
El coeciente de correlacin parcial es una herramienta til para decidir si aadir una variable
explicativa adicional a un modelo estimado. Supongamos que hemos estimado el modelo:
yi =
1 x1i
2 x2t
3 x3t
+ ui
y nos planteamos la conveniencia de aadir una variable explicativa x4i : Es claro que en dicha
decisin no debemos guiarnos del coeciente de correlacin simple habitual yx4 : Este coeciente
nos medira toda la informacin que x4 contiene sobre y: Pero una parte de dicha informacin, ya
est presente en el modelo, a travs de x1 ; x2 ; x3 : Por tanto, queremos decidir sobre la base del
coeciente de correlacin parcial: yx4 :x1 x2 x3 que, como hemos visto en la seccin anterior, guarda
una estrecha relacin con el estadstico t del coeciente de la variable x4 en la regresin mltiple.
Supongamos que hemos estimado un modelo de regresin, con una estimacin de la varianza del
trmino de error igual a:
SCRSR
n k
y consideramos la posibilidad de excluir del modelo r variables explicativas. Si lo hacemos as,
y volvemos a estimar, tendremos:
^ SR =
SCRR
n k+r
El contraste F de signicacin conjunta de loscocientes de dichas r variables es:
^R =
Fr;n
(n
SCRR SCRSR n k
=
SCRSR
r
k + r)^ R (n k)^ SR n k
(n k)^ SR
r
de modo que:
F + nr k
^R
=
^ SR
1 + nr k
por lo que:
Sy2
^ R < ^ SR , F < 1
(1 R )
pero: ^ R =
; de modo que ^ R disminuye si y slo si R2 aumenta, puesto que Sy2 y n
n 1
estn dados y no dependen del nmero de variables explicativas que incluyamos en el modelo de
regresin.
6.8
Recordemos la interpretacin del residuo de una regresin como el componente de la variable dependiente y no explicado por la variable dependiente x: En el caso de una regresin mltiple, es el
componente de y no explicado por el conjunto de las variables explicativas. Por simplicidad, vamos
a considerar una regresin mltiple con dos variables explicativas, x1 y x2 ; aunque el argumento
puede extenderse al caso ms general en que x1 y x2 son vectores, es decir, estn formados por
varias variables.
80
1 x1i
2 x2i
+ ui ; i = 1; 2; :::n
=
=
+ 1 x2i +
0 + 1 x2i +
^i
^
= yi
i
i
= x1i
^0
^0
^ 1 x2i
^1 x2i
^i
(yi
(x1i
Cov(yi ; x2i )
(x2i x2 ) = (yi y)
V ar(x2i )
Cov(x1i ; x2i )
x1 )
(x2i x2 ) = (x1i
V ar(x2i )
y)
Sx2 y
(x2i x2 )
Sx22
Sx1 x2
x1 )
(x2i
Sx22
x2 )
^ + "i
1 i
P ^
Cov(^i ; ^i )
^
= P i2 i
^
^
V ar( i )
i
debido a que ambos residuos tienen media cero, por lo que sus covarianzas y varianzas se denen
mediante productos y cuadrados simples, sin necesidad de restar la media muestral.
81
Pero:
X
^i ^i
Sx1 x2
Sx2 y
(x2i x2 )
(x1i x1 )
(x2i x2 ) =
Sx22
Sx22
Sx1 x2
Sx2 y
Sx y Sx1 x2 2
Sx1 x2
Sx2 y
Sx2 x1 + 22
S = Sx1 y
Sx2 y
Sx22
Sx22
Sx2 Sx22 x2
Sx22
(yi
= Sx1 y
^2
i
(x1i
y)
Sx1 x2
(x2i
Sx22
x1 )
Sx1 x2
Sx22
= Sx21 +
x2 )
Sx22
Sx1 x2
Sx1 x2 =
Sx22
Sx1 x2
Sx1 x2
Sx22
= Sx21
^2i
(yi
y)
Syx2
(x2i
Sx22
x2 )
Syx2
Sx22
= Sy2 +
Sx22
Syx2
Syx2 =
Sx22
(Syx2 )
Sx22
= Sy2
Finalmente:
^1 =
P ^
Sx y S 2
Sx1 x2 Sx2 y
^
Cov(^i ; ^i )
= P i 2 i = 1 2 x22
Sx1 Sx2 Sx21 x2
^
V ar(^i )
i
^ + &i
1 i
Pero:
X
yi ^i =
yi (x1i
x1 )
P ^
yi i
P ^2
1
n
1
n
Cov(x1i ; x2i )
(x2i
V ar(x2i )
82
x2 ) = Sx1 y
Sx1 x2
Sx2 y
Sx22
^2 = S 2
i
x1
Sx1 x2
Sx1 x2
Sx22
por lo que:
Sx1 y
Cov(yi ; ^i )
^1 =
=
V ar(^i )
Sx21
Sx1 x2
2
Sx
Sx2 y
2
2
Sx
1 x2
2
Sx
2
que es el mismo estimador que obtuvimos en la regresin anterior. Sin embargo, las desviaciones
tpicas del estimador sern diferentes en ambas regresiones.
6.9
6.9.1
Aplicaciones
Extraccin de tendencias
Estos resultados se prestan a la siguiente aplicacin: Supongamos que tenemos dos variables cuya
relacin queremos caracterizar, y ambas presentan una clara tendencia temporal. La presencia
comn de una tendencia generar una impresin de relacin entre ambas variables que quiza no
se corresponde con la relacin que entre ellas existe una vez que descontemos la presencia de
dicha tendencia. Si quisiramos medir esta ltima correlacin, podramos estimar primero sendas
regresiones de y y x1 sobre una tendencia t; y tomar los residuos de ambas regresiones. Estos
podrian interpretarse como el resultado de extraer la tendencia temporal de las variables y y x1 :
Por tanto, la correlacin entre dichos residuos nos dar la correlacin entre las variables y y x1 que
no es debida a la presencia de una tendencia comn.
Este procedimiento sera correcto, pero el resultado anterior nos dice que se puede obtener la
estimacin del coeciente con que x1 inuye sobre y de dos maneras ms sencillas. Una, estimando
una regresin de y sobre el componente que queda en x1 tras extraer la tendencia de esta variable.
Esto evitara una de las regresiones anteriores. Pero hay un procedimento que en general resultar
an ms simple, que consiste en estimar la regresin:
yi =
1 x1i
2t
+ ui
donde, en este caso, no hemos eliminado la tendencia temporal de ninguna de las dos variables.
Las dos proposiciones anteriores muestran que la estimacin de mnimos cuadrados del parmetro
1 en esta ltima regresin sera idntico al obtenido en cualquiera de las dos regresiones que hemos
mencionado al inicio de este prrafo.
6.9.2
Desestacionalizacin
Algo similar puede aplicarse al caso en que existen componentes estacionales apreciables tanto en
y como en x1 : Con datos trimestrales, estos pueden representarse mediante variables citicas, una
para cada trimestre, que toman el valor 1 en el trimestre correspondiente, y 0 en los restantes. Si
estamos interesados en estimar la relacin entre ambas variables que no es debida a los factores
estacionales, podemos desestacionalizar ambas variables, y estimar una regresin entre sus versiones desestacionalizadas. Cmo se desestacionaliza? Estimando una regresin de cada variables
sobre las 4 variables cticias trimestrales, y conservando el residuo as obtenido. Alternativamente,
83
sabemos que bastara con desestacionalizar x1 : Pero lo que puede ser ms sencillo, es que tambin
basta con estimar la regresin:
yi =
1 x1i
1 D1t
2 D2t
3 D3t
4 D4t
+ ui
donde D1t denota la variable cticia correspondiente al primer trimestre, y D2t D3t ; D4t las
correspondientes a las restantes. En esta regresin, hemos eliminado la constante para evitar
multicolinealidad exacta por la llamada trampa de las variables cticias. Anlogamente, podramos
haber excluido alguna de las variables cticias, por ejemplo la correspondiente al primer trimestre,
estimando,
yi =
1 x1i
2 D2t
3 D3t
4 D4t
+ ui
6.10
Correlacin parcial
El coeciente de correlacin parcial entre dos variables, y y x1i ; mide el grado de relacin entre estas
dos variables que no es debida al efecto comn que las restantes variables del modelo tienen sobre
ambas. Este coeciente se obtiene como el coeciente de correlacin simple entre y y x1i cuando
de cada una de ellas se extrae previamente el efecto de las dems variables. Esta es una manera
sencilla de calcular el coeciente de correlacin parcial.
Otro modo de calcular la correlacim parcial, ms complejo, pero ilustrativo, porque utiliza
propiedades ya conocidas de las regresiones es el siguiente: Estimamos una regresin de cada una
de ellas, y y x1i , sobre las dems variables explicativas del modelo, y reservando los residuos de
dichas regresiones. Los residuos sern los componentes de y y x1i que no estn explicados por las
restantes variables.
Denition 7 El coeciente de correlacin parcial entre yi y x1i se dene como el coeciente de
correlacin lineal simple entre ambos residuos ^i e ^i , los componentes de yi y x1i no explicados
por x2i ;
yx1 :x2
Pn
^
i=1 ^i i
q
=q
=q
Pn
Pn ^2
Pn
2
^
i=1 i
i=1 i
Pn
i=1
i=1
(yi
(yi
^0
^ 1 x2i ) x1i ^0
r
Pn
2
^ 1 x2i )
i=1 x1i
^0
^1 x2i
^0
^1 x2i
El coeciente de correlacin parcial al cuadrado, 2yx1 :x2 ; se conoce como coeciente de deter2
2
minacin parcial, Ryx
. El coeciente de determinacin parcial Ryx
mide el porcentaje de
1 :x2
1 :x2
la Suma de cuadrados de los residuos u
^y:x2 (porque hemos eliminado de y el componente explicadopor x2 ) que est explicada por la variable x1 (aunque de ella hemos extrado asimismo su
componente explicado por x2 ): En general, el coeciente de determinacin parcial puede ser mayor,
igual o menor que el coeciente de determinacin simple, ya que son proporciones calculadas sobre
cantidades distintas.
Es fcil obtener una representacin del coeciente de correlacin parcial en trminos de los
coecientes de correlacin simples:
yx1 :x2
Pn
^^
qi i
Pn
2
i=1
=q
Pn
i=1
^i
i=1
^2
i
Sx1 x2
2
Sx
Sx1 y
=r
(Syx2 )
Sy2
2
Sx
2
r
Sx21
6.11
yx1
=q
1
x1 x2 yx2
p
2
1
yx2
Sx2 y
Sx1 x2
2
Sx
2
Sx1 x2
q
Sy2 Sx21 ;tenemos:
2
x1 x2
Puede probarse que, en una regresin con dos variables explicativas, adems de la constante, se
tiene:
1
2
Ry:x
= (1
1 x2
2
yx1 )(1
2
yx2 :x1 )
mientras que en una regresin con 3 variables explicativas, adems del trmino constante, se
tiene:
1
2
Ry:x
= (1
1 x2 x3
2
yx1 )(1
2
yx2 :x1 )(1
2
yx3 :x1 x2 )
2
Para demostrar el primer resultado, notemos que 1
yx2 :x1 es igual a 1 menos el coeciente
de determinacin de la regresin parcial de y sobre x2 cuando se ha extraido de ambas variables el
efecto de la variable x1 : Los residuos de dicha regresin sern igual al componente de y no explicado
ni por x1 ; cuyo efecto se elimin previamente, ni por x2 ; que se ha incluido como explicativa (en
realidad, se ha incluido como explicativa el componente de x2 que no est explicado por x1 ): Por
tanto, la Suma de cuadrados de residuos ser: SCRy:x1 x2 : Por otra parte, la Suma Total de dicha
regresin es igual a la suma de cuadrados de residuos de la regresin de y sobre x1 ; es decir, SCRy:x1 :
Por tanto,
2
yx2 :x1
SCRy:x1 x2
SCRy:x1
En denitiva,
(1
2
yx1 )
2
yx2 :x1
SCRy:x1 SCRy:x1 x2
SCRy:x1 x2
=
=1
STy
SCRy:x1
STy
85
2
Ry:x
1 x2
De estas expresiones se deduce que un coeciente de correlacin parcial puede ser mayor o
menor que un coeciente de correlacin simple. Por ejemplo, la variable x1 puede explicar por s
sla un 20% de las uctuaciones en y; pero una vez que se descuenta el efecto de x2 ; puede ser que
x1 explique un 40% de la varianza residual, slo que ahora no son residuos de la variable y; sino
del componente de y que no esta explicado por x2 . En este caso, el cuadrado del coeciente de
correlacin simple sera 2yx1 = 0; 20; mientras que el cuadrado del coeciente de correlacin parcial
sera: 2yx1 :x2 = 0; 40: Simplemente, la variabilidad total en y; y la variabilidad en el componente
de y no explicado por x2 ; no son comparables. En nuestro ejemplo, x1 explica ms del segundo que
del primero, lo que perfectamente puede suceder.
6.12
En este ejemplo podemos denir el coeciente de correlacin parcial entre Ventas y Publicidad,
V;P ub:P como el coeciente de correlacin simple entre las variables transformadas que resultan al
extraer de ambas variables el efecto comn que sobre ellas tiene el Precio del producto. Anlogamente, podemos denir el coeciente de correlacin parcial entre Ventas y Precio, V;P:P ub como el
coeciente de correlacin simple entre las variables transformadas que resultan al extraer de ambas
variables el efecto comn que sobre ellas tiene el gasto en Publicidad.
En funcin de los coecientes de correlacin simples habituales, demostramos en la Seccin XX
las expresiones,
V;P ub:P
V;P:P ub
r
r
V;P ub
V;P P ub;P
2
V;P
1
V;P
2
P ub;P
V;P ub P ub;P
2
V;P ub
2
P ub;P
0; 901
0; 950( 0; 829)
p
=
1 ( 0; 829)2
0; 9502
0; 650
que nos proporcionan los valores numricos de ambnos coecientes de correlacin simples.
Vimos asimismo en el texto expresiones para el clculo de los coecientes de determinacin y
correlacin parcial en funcin de Sumas Residuales,
RV2 =P ub:P
RV2 =P:P ub
2
SRV:=P
ub;P ]
SRV2 =P
SRV2 =[P ub;P ]
SRV2 =P ub
V;P ub:P
V;P:P ub
q
RV2 =P ub:P
q
RV2 =P:P ub
Teniendo en cuenta que la relacin entre la Suma Residual de un modelo de regresin que tiene
como variable dependiente a y y el coeciente de determinacin de la misma es: SR2 = T:Sy2 (1 R2 );
tenemos,28
2 8 SR2
V =[P ub;P ]
2
denota la Suma Residual que resulta cuando Publicidad y Precio explican Ventas, mientras SRV
=P ub
2
denota la suma de cuadrados de residuos en una regresin de Ventas sobre gastos en publicidad. SRV
sera
=P ub:P
86
= T:SV2 (1
=
T:SV2
(1
= T:SV2 (1
0; 943) = 252; 80
0; 902) = 434; 63
0; 812) = 833; 78
RV2 =P ub:P
RV2 =P:P ub
=1
252; 80
= 0; 697 )
833; 78
V;P ub:P
=1
252; 80
= 0; 418 )
434; 63
V;P:P ub
0:697 = 0; 835
0:418 =
0; 647
donde hemos asignado un signo negativo a V;P:P ub debido a ser una correlacin entre ventas y
nivel de precios. La ligera variacin observada en los resultados proporcionados por ambos enfoques
se debe a la aproximacin numrica en las diferentes operaciones realizadas en cada caso.
El coeciente de correlacin simple entre ventas y gastos en publicidad es de 0,950, reducindose
a 0,835 si excluimos la simultaneidad que ambas variables muestran debido a su correlacin comn
con el nivel de precios. El coeciente de correlacin simple entre ventas y nivel de precios es de
-0,901, reducindose en valor absoluto al caer el coeciente a -0,647 cuando excluimos la informacin
comn que sobre los valores anuales de ambas variables tiene el gasto en publicidad. Por tanto, el
gasto en publicidad explica casi un 30% de la correlacin entre venta y nivel de precios, mientras
que el nivel de precios es responsable de slo un 12% de la correlacin entre ventas y gastos en
publicidad. De ello concluimos que el gasto en publicidad es la variable ms importante para
explicar la evolucin temporal de la cifra de ventas.
Tal conclusin coincide con la que alcanzamos al examinar las correlaciones entre Ventas y los
residuos de las regresiones simples, as como al comparar los residuos de la regresin mltiple con los
que se obtienen en cada una de las regresiones simples. Estos son los procedimientos que sugerimos
utilizar para el anlisis de este tipo de cuestiones. En este ejemplo se alcanzara la misma conclusin
por los procedimientos habituales de comparar el valor numrico de los coecientes individuales
estimados en el modelo de regresin mltiple, o el valor absoluto de los estadsticos tipo-t asociados
a ambos coecientes. Sin embargo, ya hemos indicado como ninguna de tales comparaciones est
justicada y la coincidencia es casual. Veremos en otros ejemplos que los resultados no son siempre
coincidentes29 .
Debe recordarse, de la discusin terica en la Seccin XX, que 0,835 es asimismo el coeciente de
correlacin que obtendramos entre los residuos de regresiones que explican las ventas y los gastos
en publicidad, respectivamente, por la variable precio (RES_V _P REC; RES_P U B_P RECIO).
la Suma Residual que se tendra en una regresin de ventas sobre gastos en publicidad, despus de excluir de ambas
2
variables el componente comn que tienen por incorporar informacin sobre el precio. SRV
se interpreta
=P:P ub
anlogamente.
2 9 W. Kruskal, The American Statisticiam (1987), propuso utilizar el promedio de los cuadrados de los coecientes
de correlacin simple y parcial entre Y y cada variable explicativa para evaluar la proporcin de la uctuacin en Y
2
2
que es explicada por cada una de stas. En nuestro ejemplo tendramos para los gastos en publicidad: 0:950 +0:837
2
=0, 801; y para el nivel de precios:
pg.80].
( 0:901)2 +( 0:650)2
2
87
De modo similar, -0,647 es el coeciente de correlacin entre los residuos de regresiones que explican las ventas y el precio, respectivamente, utilizando los gastos en publicidad como nica variable
explicativa (RES_V _P U B; RES_P REC_P U B). Ambos resultados pueden comprobarse utilizando las variables descritas, que se contienen en el chero de trabajo.
Esto nos recuerda el signicado de los coecientes de correlacin parcial: al estimar las regresiones de ventas y precios sobre publicidad, estamos extrayendo de estas variables la informacin
comn con los gastos en publicidad, y luego correlacionamos los componentes as medidos, obteniendo el grado de asociacin entre ventas y precio, excluyendo aquella correlacin que pueda estar
debida al hecho de que ambas se relacionan con el gasto en publicidad.
En la mayora de los modelos de regresin que nos encontramos, las variables explicativas tienen
correlacin no nula. Esto se debe a que los datos econmicos no proceden de un diseo experimental,
como pueda suceder en otro tipo de ciencias. Sus valores proceden de modo complejo de las
decisiones de los agentes econmicos, que hacen que las distintas variables se inuyan mutuamente.
Cuando dicha correlacin es elevada, sea de signo positivo o negativo, se hace difcil discriminar
entre la relevancia que para explicar la variable dependiente tienen las variables explicativas que
presentan correlacin elevada.
La implicacin de este hecho es que es difcil precisar, a partir de la informacin muestral acerca
de los valores numricos de los coecientes asociados a dichas variables. En consecuencia, dichos
coecientes se estiman con una reducida precisin.
Como sabemos, ello se maniesta en unos valores numricos reducidos de los estadsticos t, por
lo que es probable que para alguno de dichos coecientes (o quiz para todos ellos) no rechacemos
la hiptesis nula de ausencia de signicacin estadstica. Aunque sabemos que tal identicacin
carece de justicacin, esta observacin puede conducir a creer que las variables asociadas carecen
de relevancia para explicar la variable dependiente.
La reducida precisin en la estimacin hace que la varianza de la distribucin de probabilidad
del estimador de cada coeciente sea elevada. En consecuencia, el valor numrico del estimador,
que no es sino una extraccin aleatoria de dicha distribucin de probabilidad, puede diferir bastante
del verdadero valor numrico del coeciente, a pesar de tratarse de un estimador insesgado. Esto
es debido a que aun siendo insesgado, el estimador tiene una varianza grande.
De hecho, una regresin en que los estadsticos t son todos reducidos (por debajo de 2,0 en
valor absoluto), y, sin embargo, el coeciente de determinacin R2 es claramente mayor que cero,
es un indicio claro de colinealidad entre todas las variables explicativas. De hecho, en este tipo de
situaciones, el estadstico habitual para el contraste de de la hiptesis nula de ausencia de capacidad
explicativa global de la regresin estimada rechazar fcilmente la hiptesis nula, mostrando una
capacidad explicativa signicativa del modelo, a pesar de tener los coecientes estimados de todas
sus variables explicativas un estadstico t inferior a 2,0 en valor absoluto.
Por el mismo argumento, si se excluyen de una regresin dos o ms variables explicativas que
tienen un estadstico t muy reducido, y ello reduce apreciablemente el coeciente de determinacin,
ello indica que las variables excluidas estn altamente correlacionadas, y el reducido valor numrico
de los estadsticos t de sus coecientes se deba a la reducida precisin con que se estiman.
88
7.1
Consecuencias de la colinealidad
Las estimaciones numricas de los coecientes del modelo obtenidas por mnimos cuadrados,
y sus desviaciones tpicas pueden variar notablemente al cambiar (aadir o excluir) unas pocas
observaciones de la muestra.
varianzas altas para los estimadores de mnimo cuadrados, lo que conduce a:
posiblemente, signos sorprendentes en los coecientes estimados
intervalos de conanza demasiado amplios, lo que
diculta la caracterizacin del impacto numrico que cambios en una variable explicativa
tienen sobre la variable dependiente, y a una
prdida de potencia en los contrastes de hiptesis sobre los coecientes del modelo. En
particular, tenderemos a
mantener demasiado frecuentemente la hiptesis nula de ausencia de signicacin estadstica de cada coeciente del modelo
sin que ello implique que el modelo, globalmente considerado, carece de capacidad explicativa sobre la variable dependiente. Esto se reejara en un R2 relativamente alto con pocos (o
ningn) estadsticos t superiores a 2,0 en valor absoluto.
7.2
Deteccin de la colinealidad
2
u
(xj
j=1
x)2 (1
Ri2 )
Esta expresin muestra, por otra parte, que la existencia de colinealidad entre variables explicativas no necesariamente generar una elevada varianza para las estimaciones de mnimos cuadrados
de los coecientes del modelo.
89
7.3
No existe un tratamiento de la colinealidad que pueda recomendarse en todas las situaciones, por
lo que el cuidado del analista de datos en estas situaciones es muy importante.
Exclusin de una variable: si se detecta la presencia de dos variables explicativas muy correlacionadas, ello signica que ambas variables tienen mucha informacin en comn, por lo que excluir
una de ellas en el modelo que explica una determinada variable dependiente puede no ser muy grave
y, por supuesto, eliminar el problema creado por la alta colinealidad. Sin embargo, hay que tener
en cuenta que excluir una variable que contiene informacin relevante sobre la variable dependiente
generar un sesgo en el coeciente que estimamos para la variable que dejamos en el modelo.
Transformacin de variables: en algunos casos, la colinealidad se reduce si se agrupa el efecto
de dos variables (por ejemplo, sustituyendo ambas por su suma), sustituyendo dos variables muy
relacionadas por su valor relativo (su cociente) o normalizando la regresin dividiendo la variable
dependiente y algunas o todas las variables explicativas por una de ellas, habitualmente un factor
de escala, como la poblacin, la renta, etc..
Una estrategia de especicacin de un modelo que puede funcionar bien en un contexto de colinealidad consiste en comenzar detectando la variable explicativa con mayor contenido informativo
sobre la variable dependiente y estimando la regresin simple con dicha variable. El residuo de dicha
regresin proporciona el componente de Y que no est explicado por X1 . Correlacionamos dicho
componente de Y con las variables explicadas no incluidas en la regresin, y aadimos a la regresin
simple anterior la variable explicativa con mayor contenido informativo sobre el componente mencionado de Y . Procedemos de este modo utilizando en cada paso el residuo de la regresin de Y , y
calculando el coeciente de correlacin con cada una de las variables explicativas an no incluidas
en el modelo. Ntese que buscamos, en cada etapa, aadir al modelo la mayor informacin posible
que an no est incorporada en las variables explicativas que ya estn incluidas en el modelo.
7.4
7.4.1
Un investigador podra estimar asimismo dos modelos que tratan de recoger la correlacin existente
entre las variables explicativas,
P ubt
2
107; 11 0; 986 Pt ; RP
ub:P = 0; 687; ^ u = 3; 88
()
Pt
103; 52
()
(27)
(0;235)
2
0; 697 P ubt ; RP:P
ub = 0; 687; ^ u = 3; 26
(28)
(0;166)
en las que:
el investigador detecta fuerte correlacin entre ambas variables, con un coeciente de determinacin que es igual, por supuesto, al cuadrado del coeciente de correlacin simple entre ambas
variables. Por eso el coeciente de determinacin es el mismo en ambas regresiones, puesto
que el coeciente de correlacin no encierra ninguna idea de causalidad y es, independiente,
por tanto, de qu variable tomemos como dependiente y cul como independiente.
90
sin embargo, sera imposible concluir, utilizando estas regresiones estimadas, si la correlacin
entre precios y gastos en publicidad es fruto o no de una poltica explcita de comercializacin.
a pesar de la coincidencia entre coecientes de determinacin, las desviaciones tpicas del
trmino de error no son iguales, sin embargo, ya que las regresiones explican variables dependientes diferentes. Sin embargo, nuestros ratios habituales coinciden,
3:26
3:88
= 0; 626; Ratio (Pt =P ubt ) =
= 0; 625
6:20
5:22
donde la leve diferencia se debe exclusivamente a los redondeos a tres decimales.
Ratio (P ubt =Pt ) =
las pendientes estimadas en ambas regresiones no son iguales. Su producto es: ( 0; 986)( 0; 697) =
0; 687 que es, precisamente, el coeciente de determinacin entre ambas variables, gastos en
publicidad y nivel de precios. Esta es una propiedad de la regresin lineal simple: si se estiman por mnimos cuadrados regresiones de Y sobre X y de X sobre Y , el producto de las
pendientes resultantes es siempre igual al cuadrado del coeciente de correlacin lineal simple
entre ambas variables.
7.4.2
Tratamiento de la colinealidad
La regresin auxiliar entre nivel de precios y gastos en publicidad (28), nos permite estimar el
componente de la evolucin temporal del nivel de precios que no est explicado por las uctuaciones
que anualmente experimenta el gasto en publicidad,
P nP ubt = Pt
(29)
que no es sino el residuo de la regresin (28). Las propiedades del estimador de mnimos
cuadrados garantizan que dicho residuo tiene correlacin nula con los gastos en publicidad, por ser
sta la variable explicativa en la regresin a partir de la cual se han generado los residuos. Por
tanto, Corr(P ubt ; P nP ubt ) = 0:
Si ahora estimamos una regresin que pretende explicar las ventas mediante los gastos en publicidad y el componente de precios no explicado por estos, tenemos,
Vt = 95; 99 + 3; 224 P ubt
(5;26)
(0;305)
(30)
(0;649)
donde puede observarse que el coeciente estimado para P nP ubt es el mismo que obtuvimos en
la regresin inicial (22), y se estima con la misma precisin.
Sin embargo, el coeciente estimado para los gastos en publicidad es ahora mayor que en (22); la
razn es que en (22), al impacto directo sobre las ventas de un aumento en los gastos en publicidad
haba que aadir el impacto de la reduccin en precios que usualmente acompaa el mayor gasto
en publicidad. El efecto global es superior al medido por el coeciente 2; 204 que los gastos en
publicidad reciben en (22), y eso aparece claro en (30). De hecho, el coeciente estimado para
P ubt en (30) es el mismo que obtuvimos en la regresin simple con esta variable, slo que ahora lo
estimamos con una mayor precisin.30 Aunque numricamente es mayor, tambin se estima dicho
3 0 Que ambas estimaciones numricas coincidan no es sino reejo del resultado terico que arma que las estimaciones numricas del coeciente de mnimos cuadrados de una variable explicativa no cambia si se excluyen o se
incluyen en el modelo variables explicativas incorrelacionados con la primera.
91
coeciente con mayor precisin (menor desviacin tpica) en (30) que en la regresin inicial (22),
gracias a que la ausencia de correlacin entre las variables explicativas en (30) permite discriminar
mejor el efecto de cada variable.
Podra pensarse que una limitacin del modelo (30) es el hecho de que en l no aparece el
precio del producto, sino tan slo el componente del mismo que no est explicado por los gastos en
publicidad. Esto es, en cierta forma, slo aparente, pues si combinamos (30) con (29) se recuperan
exactamente los mismos coecientes estimados en la regresin original (22), excepto por el hecho
de que el coeciente de los gastos en publicidad se ha estimado con una precisin superior.
Alternativamente, podramos utilizar (27) para estimar el componente de los gastos en publicidad no explicado por el nivel de precios,
P ubnPt = P ubt
107; 11 + 0; 986 Pt ;
(0;545)
(31)
(0;363)
siendo ahora el coeciente de la variable auxiliar P ubnPt el que coincide con el obtenido en el
modelo original (22) para P ubt ; mientras que el coeciente estimado para el nivel de precios es
ahora mayor en valor absoluto que en (22), por las mismas razones antes descritas. Coincide con el
obtenido en la regresin simple (33), aunque se estima con mayor precisin que en dicha regresin,
y tambin con mayor precisin que en la regresin inicial. El investigador debera quedarse con una
de las dos regresiones (30) o (31), dependiendo de la direccin de causalidad en la que interprete la
correlacin existente entre nivel de precios y gasto en publicidad.
La incorporacin del componente del precio no relacionado con los gastos en publicidad eleva
el coeciente de determinacin de la regresin de ventas sobre gastos en publicidad desde 0,902 a
0,943. De modo similar, la inclusin del componente del gasto en publicidad no relacionado con
el precio en la regresin de ventas sobre precios, eleva el coeciente de determinacin de 0,812 al
mismo nivel citado, 0,943. Esto sugiere que el contenido informativo de los gastos en publicidad
sobre las ventas es mayor que el que tiene la variable Precio. Sin embargo, la comparacin de
coecientes de determinacin reduce toda la informacin muestral relativa a la explicacin de las
cifras de ventas a una sla cifra. Preferimos comparar los residuos de modelos que incluyen o
excluyen una variable explicativa, pues nos permiten analizar el impacto que dicha variable tiene,
observacin a observacin. Es perfectamente imaginable que tal efecto sea muy notable pero est
concentrado en unas pocas observaciones que tengan alguna caracterstica en comn.31 Ello hara
que la comparacin de medidas agregadas, como los coecientes de determinacin, no detectase
la contribucin de la variable explicativa. Si, por el contrario, una comparacin detallada de los
dos conjuntos de residuos nos detecta variaciones importantes en los residuos correspondientes a
ese reducido conjunto de observaciones, podramos denir una variable cticia apropiadamente,
mejorando con ello la capacidad explicativa del modelo.
3 1 Por ejemplo, cinco aos consecutivos durante los que se produjo una gran elevacin en los precios del petrleo,
en una muestra de 60 aos. En una muestra de seccin cruzada correspondiente a un amplio conjunto de pases,
podran ser los residuos correspondientes a los pases subsaharianos los que experimentan una variacin muy notable
al incluir una determinada variable epxlicativa en el modelo.
92
8.1
La omisin en una regresin de variables relevantes causa sesgos en la estimacin de los efectos
individuales de las variables incluidas en el modelo. Supongamos que el verdadero modelo es:
yi =
1 x1i
2 x2i
+ ui
1 x1i
+ ui
pero estimamos:
yi =
lo que nos genera una estimacin de
Sx y
^ 1 = 21 =
Sx1
P
(x1i
x1 )( 0 +
P
(x1i
1 x1i
+
x1 )2
2 x2i
+ ui )
P
(x1i x1 )
+
= 1+ 0
Sx21
Sx1 x2
Sx u
+ 21
2
Sx1
Sx1
La primera fraccin tiene esperanza matemtica igual a cero. Por otro lado, la covarianza entre
x1i y ui es tambin igual a cero. Por tanto, tenemos:
E(^ 1 ) =
Sx1 x2
=
Sx21
2 21
1 x1i
2 x2i
+ ui
1 x1i
+ ui
pero estimamos:
yi =
1;
2
u
Sx21
2
u
Sx21 (1
2
x1 x2 )
por lo que no es claro qu estimador de dicho efecto individual es preferible. Recordemos que un
criterio razonable para escoger un estimador frente a otro el es el Error Cuadrtico Medio, denido:
2
Sin embargo, no es claro que la estimacin de la desviacin tpica del estimador ~ 1 sea menor
que la estimacin de la desviacin tpica de ^ 1 ; debido a que la estimacin del parmetro 2u
tampoco ser la misma en ambos modelos, siendo mayor en el modelo mal especicado. Como
dicha estimacin es el cociente entren la Suma de Cuadrados de los Residuos y el nmero de grados
de libertad, se tiene que:
1
S2(^1)
=
1
S2(~1)
2
x1 x2
yx2 :x1
la desviacin tipica estimada de ~ 1 ser menor que la desviacin tpica estimada de ^ 1 si y solo
si: 2x1 x2 < yx2 :x1 :
El resultado se generaliza facilmente. Si el verdadero modelo es:
yi =
1 x1i
2 x2i
3 x3i
1 x1i
2 x2i
+ ui
+ ui
el sesgo en las estimaciones de 1 y 2 es igual al producto del coeciente que tendra la variable
omitida en la regresin, 3 ; por los coecientes de una regresin de la variable excluida, x3 sobre
las dos variables incluidas, (x1i ; x2i ): Al hacer este producto, es importante conservar el orden de
las variables y los coecientes:
^1
^2
Sesgo
Por tanto, el sesgo en
31
sera igual a
3 31
32
3 32
sera igual a
3 32 :
1 x1i
2 x2i
3 x3i
1 x1i
+ ui
+ ui
entonces, el sesgo en la estimacin de 1 es igual al producto de los coecientes que tendran las
dos variables omitidas en la regresin, 2 y 3 ; por los coecientes de una regresin de cada una de
ellas sobre la variable incluida, x1i : En esas regresiones:
x2i
x3i
por lo que el sesgo en
=
=
+
+
30
20
21 x1i
+ ui
x
+
ui
31 1i
sera:
Sesgo (^ 1 ) = (
2;
E (^ 1 ) =
21
3)
31
+(
94
2 21
2 21
3 31 )
3 31
8.2
8.3
2 21
95
efecto total de una variacin en x1 sobre y: Este efecto se estima precisamente de manera inesgada
en una regresn de y sobre la variable x1 exclusivamente.
Por tanto, cada modelo proporciona una respuesta insesgada a una de las dos preguntas siguientes, y una respuesta sesgada a la otra:
Cul es el impacto que sobre y tendra una variacin unitaria en x1i si las dems variables
explicativas del modelo no variasen? Respuesta: Efecto parcial ) Estimacin insesgada:
Regresin mltiple
Cul es el impacto total que sobre y tendra una variacin unitaria en x1i ? Respuesta: Efecto
total ) Estimacin insesgada: Regresin simple.
8.4
Una lectura del modelo (22) sugerira que las cifras de ventas aumentan en 220,4 euros por cada 100
euros de incremento en gastos de publicidad, suponiendo que el precio del producto no variase. Esta
es la interpretacin ceteris paribus, tan habitualmente utilizada, pero tambin tan poco consisitente
con la mayora de las situaciones a que se enfrenta un analista de datos econmicos, con variables
epxlicativas correlacionadas entre s. De modo anlogo, las ventas disminuiran en 146,4 euros por
cada 100 euros de incremento en el precio unitario del articulo comercializado por la empresa.
Pero, al existir la simultaneidad mencionada entre los niveles de gastos en publicidad y de precios,
la interpretacin ceteris paribus no es rigurosa, puesto que, como indica el elevado coeciente de
correlacin negativo entre ambas variables, de -0,829, indicando que la empresa gasta ms en
publicidad en perodos en que el precio del producto es bajo, y menos cuando el precio del producto
es alto, lo cual podra ser esprio o, por el contrario, fruto de una estrategia deliberada de marketing.
Con independencia de las razones que generan dicha correlacin, un mayor gasto en publicidad
suele venir asociado a una reduccin en el precio del producto, siendo el efecto sobre las ventas la
conjuncin de ambos efectos. En consecuencia, al incrementar el gasto en publicidad en 100 euros,
las ventas aumentaran en ms de 220,4.
De hecho, las regresiones simples de las ventas anuales sobre cada variable explicativa son,
Vt
2
96; 0 + 3; 224 P ubt ; RV:P
ub = 0; 902; ^ u = 7; 36
(32)
2
483; 6 3; 637 Pt ; RV:P
= 0; 812; ^ u = 10; 22
(33)
(0;375)
Vt
(0;619)
cuyos coecientes de determinacin son, por supuesto, el cuadrado de los coecientes de correlacin simples que aparecen en la matriz . En ambos casos estimamos unos coecientes mayores
en valor absoluto a los obtenidos en el modelo de regresin mltiple, por las razones que acabamnos
de exponer.
Veamos qu implicaciones tiene el coeciente de correlacin estimado, de -0,829. Puesto que,
P ub;P
=E
P ub
E(P ub) P
P ub
E(P )
P
tenemos que P ub;P mide el valor medio que toma el producto de las uctuaciones en P ub y
P alrededor de sus respectivas medias. Supongamos que ambas variables estn permanentemente
96
en torno a sus valores medios, de los cuales se desvan cada perodo en una cuanta media igual
a sus respectivas desviaciones tpicas.32 Esto signica que un incremento nominal de 6,20 euros
en el gasto en publicidad, equivale a un aumento de una desviacin tpica en dicha variable. La
expresin anterior, junto con P ub;P = 0; 829; sugiere que dicho incremento venga asociado con
un descenso de 0,829 desviaciones tpicas en el precio.33 Teniendo en cuenta que P = 5; 22; dicho
descenso equivale a una reduccin en el precio del producto de 4,327 euros. La estimacin del
modelo de regresin mltiple sugiere que el mayor gasto en publicidad eleva las ventas en 13,665
euros, mientras que el descenso en el precio aumenta las ventas en 6,335 euros, siendo la suma de
ambos efectos de 20,00 euros. Este es el efecto que sobre las ventas tiene un incremento de 6,20
euros en el gasto en publicidad, teniendo en cuenta la relacin que existe a lo largo de la muestra
entre esta variable y el precio unitario del producto. Si consideramos un incremento de 100 euros en
el gasto en publicidad, como 100 = (6; 20) (16; 13) ; tendramos un efecto estimado sobre las ventas
de: (20; 00) (16; 13) = 322; 6 euros en ventas, aproximadamente igual a lo obtenido al estimar el
modelo (32) :34 Por tanto, los coecientes estimados en las regresiones simples incorporan el efecto
que simultneamente se produce en la variable omitida cuando cambia el valor numrico de la
variable incluida en la regresin simple.
El razonamiento que hemos hecho en el prrafo anterior es, exactamente, la aplicacin prctica de
las expresiones sobre el sesgo que se produce en el estimador de mnimos cuadrados cuando se omiten
del modelo variables relevantes. Consideremos un modelo de regresin mltiple con dos variables
explicativas, xi ; xe ; cuyos subndices denotan que una se incluye en la regresin simple, y otra queda
excluida de dicha regresin. Es decir, la regresin mltiple es: y = im xi + em xe + u; mientras que
la regresin simple es, y = is xi + v: En el razonamiento previo hemos descompuesto el efecto is
de una variacin unitaria en la variable incluida en una regresin simple xi , en dos componentes: el
efecto directo, medido por el coeciente de la variable que en el modelo de regresin mltiple tiene la
variable incluida im ; y el efecto indirecto. Para estimar ste ltimo, hemos calculado la variacin
unitaria en trminos de desviaciones tpicas, 1i : A continuacin, hemos utilizado la denicin de
coeciente de correlacin para inferir que, en media, esta variacin ir acompaada de una variacin
de 1i ie desviaciones tpicas en la variable excluida, xe . Esto equivale a una variacin nominal de
1
e en dicha variable. Utilzando las estimaciones de la regresin mltiple, su impacto sobre la
i ie
variable dependiente ser 1i ie e em : Pero esto es igual a ei2 em ; y ei2 no es sino la estimacin
i
i
de mnimos cuadrados del coeciente e=i de la regresin simple de la variable omitida xe ; sobre la
incluida, xi : En denitiva, el efecto global de una variacin unitaria en la variable incluida en la
regresin simple, xi , sobre la variable dependiente, es,
im
em e=i
Esta es precisamente la expresin de la esperanza matemtica del estimador de mnimos cuadrados del modelo de regresin mltiple E ( is ) que incluye a xi como nica variable explicativa.
3 2 Estrictamente hablando, este supuesto es apropiado nicamente en situaciones en que las desviaciones respecto del
valor medio en perodos sucesivos son independientes. Esto no ocurre en presencia de comportamientos tendenciales
como los de las variables en este ejemplo.
3 3 Esta interpretacin es estrictamente vlida si entendemos que el nivel de precios se ja por la empresa en respuesta
al gasto en publicidad acometido, y no al revs; es decir, si interpretamos la alta correlacin entre estas variables en
el sentido P ublicidad ! Pr ecio:
3 4 El lector puede repetir el ejercicio partiendo de un descenso de una desviacin tpica en el precio del producto.
Comprobar que el efecto global que obtiene sobre las ventas debido a un descenso de 100 euros en el precio del
producto es el que estimara a partir del modelo de regresin simple (33) :
97
En un modelo de regresin lineal mltiple surgen con frecuencia hiptesis ms generales. En unos
casos, se trata de contrastar varias hiptesis a la vez acerca de valores numricos para distintos
coecientes; en otros, contrastamos un valor terico acerca de una o varias combinaciones lineales
de coecientes. Por ejemplo:
H0
H1
H0
H1
H0
H1
:
:
:
:
+
1+
1
= 0;
6= 0
1
1
:
:
2
2
=1
6= 1
2
2
=1
2 6= 1
=1
6= 1
que contrastan una sola restriccin en el primer y tercer ejemplos, en cada caso involucrando a
dos coecientes, mientras que el segundo caso es un contraste conjunto de 2 restricciones, cada una
de ellas sobre un slo coeciente. El nmero de restricciones es igual al nmero de condiciones de
igualdad, que es 1 en el primer y tercer casos, e igual a 2 en el segundo ejemplo. A diferencia de lo
que sucede cuando contrastamos una sla hiptesis o restriccin, cuando se rechaza una hiptesis
nula compuesta de dos o ms restriccines, podemos decir que alguna de ellas es falsa, pero no
necesariamente todas, y podemos indagar cules son falsas y cules no lo son.
En estos casos, existen varios enfoques para resolver los contrastes. Quiz el ms prctico
consiste en estimar dos modelos: el Modelo Sin Restringir (M SR), y el Modelo Restringido (M R) ;
para comparar sus Sumas de Cuadrados de Residuos, SCRSR y SCRR; respectivamente. Si las
restricciones son ciertas, imponerlas o no imponerlas dar igual, pues an si no las imponemos, las
estimaciones que obtengamos a partir de los datos satisfarn, aproximadamente dichas restricciones,
ya que estamos suponiendo que son ciertas. Esto signica que las dos Sumas de Cuadrados de
Residuos, sern aproximadamente iguales, y lo contrario suceder si las restricciones son falsas.
En denitiva, parece razonable comparar ambas Sumas de cuadrados de residuos, en trminos
porcentuales:
SCRR SCRSR
SCRSR
Al imponer restricciones a los valores numricos de los estimadores, el ajuste del modelo nunca
puede mejorar. Generalmente, empeorar. La cuestin, es en cunto se deteriora el ajuste. Si se
deteriora en mucho, es que los datos son contrarios a las restricciones y debemos rechazarlas. Por
eso es que tomamos el deterioro, es decir, el aumento, que se produce en la Suma de Cuadrados de
Residuos al imponer las restricciones, como porcentaje del valor que tenamos antes de imponerlas.
El cociente anterior no tiene una distribucin conocida, pero una correccin del mismo:
98
SCRR SCRSR N
SCRSR
ncoef s
q
Fq;N
ncoef s
(34)
donde ncoef s es el nmero de coecientes estimados en el Modelo Sin Restringir, inclu yendo,
como siempre, el trmino independiente, y q es el nmero de restricciones que se contrastan.
Ejemplo: Consideremos el modelo: yi = 0 + 1 x + 2 z + ui ; en el que queremos contrastar la
hiptesis nula:
H0
H1
:
:
1
1
= 0;
6= 0
=1
2 6= 1
El Modelo Sin Restringir es siempre el modelo original, que en este ejemplo es: yi = 0 + 1 xi +
+ 3 vi + ui : El Modelo Restringido debe incorporar las dos restricciones 1 = 0; 2 = 1 ; por
lo que se trata de: yi = 0 + 0:xi + 1:zi + 3 vi + ui = 0 + zi + 3 vi + ui : A la derecha la variable
zi no tiene coeciente, por lo que no hay nada que estimar en dicho trmino. Cuando esto sucede,
pasamos dichos trminos a la izquierda. As, tenemos: yi zi = 0 + 3 vi + u
~i : Si denimos una
nueva variable mediante: y~i = yi zi podemos estimar el Modelo Restringido y~i = 0 + 3 vi + u
~i
y comparar las Sumas de Cuadrados de Residuos que generan, mediante el estadstico que hemos
presentado. En este caso, q = 2 y ncoef s = 4:
Ejemplo: Consideremos el modelo: yi = 0 + 1 x + 2 z + ui ; en el que queremos contrastar la
hiptesis nula:
2 zi
H0
H1
:
:
1
1
=
6
=
2
2
Este es una caso interesante, pues se trata de contrastar un valor numrico (cero) para una sla
combinacin lineal de coecientes: 1
2 = 0; lo que nos permite considerar tres procedimientos
distintos, que son numricamente equivalentes.
Procedimiento 1 : Comenzamos por la comparacin entre los Modelos Restringido y Sin Restringir. El Modelo Sin Restringir es siempre el modelo original, que en este ejemplo es: yi =
0 + 1 xi + 2 zi + ui : El Modelo Restringido debe incorporar la restriccin 1 = 2 ; por lo que
se trata de: yi = 0 + 2 xi + 2 zi + u
~i = 0 + 2 (xi + zi ) + u
~i : Si denimos una nueva variable:
x
~i = xi + zi ; i = 1; 2; :::; N; el Modelo Restringido es: yi = 0 + 2 x
~i + u
~i : Se trata de estimar ambos
modelos y comparar las Sumas de Cuadrados de Residuos que generan, mediante el estadstico
que hemos presentado. En este caso, q = 1 y ncoef s = 3: En el Modelo Restringido estimamos
nicamente 0 y 2 : La estimacin restringida de 1 es igual a la que obtengamos para 2 :
Procedimiento 2: Una vez estimado el modelo, las estimaciones numricas no satisfarn exactamente la igualdad: ^ 1 = ^ 2 ; y el grado de incumplimiento muestral de dicha hiptesis puede
evaluarse mediante la discrepancia ^ 1 ^ 2 : De acuerdo con la hiptess nula, esta diferencia debera
ser exactamente igual a cero. Para saber si su valor numrico ^ 1 ^ 2 puede considerarse cero o,
por el contrario, debe considerarse signicativamente distinta de cero, hemos de compararla con su
desviacin tpica.
Para ello, calculamos la varianza de dicha discrepancia:
V ar ^ 1
= V ar ^ 1 + V ar ^ 2
99
2Covar ^ 1 ; ^ 2
y calculamos el estadstico:
^
^
1
2
r
V ar ^ 1 ^ 2
tN
Por qu sigue esta distribucin t de Student? Recordemos que una combinacin lineal de variables Normales es asimismo Normal. Por tanto, la diferencia de dos variables Normales (los estimadores de los dos coecientes) tienen distribucin Normal. Su esperanza matemtica es igual
a la diferencia de las esperanzas matemticas de ^ 1 y ^ 2 : Su varianza es la expresin que hemos
calculado arriba. Si restamos a una variable Normal su esperanza matemtica (que en este caso
es cero, porque bajo H0 ; ambos coecientes son iguales entre s) y dividimos por su desviacin
tpica obtenemos una variable con distribucin N (0; 1): Si sustituimos la desviacin tpica por una
estimacin de la misma, la distribucin pasa a ser una t: Los grados de libertad son siempre igual
al nmero de observaciones menos el nmero de coecientes estimados.
Procedimiento 3: Una alternativa sera comparar el cuadrado de la discrepancia con su varianza,
y entonces la distribucin sera una F1;N k :
^
2
2
V ar ^ 1
F1;N
Ambos procedimientos son equivalentes, porque los valores de una distribucin F1;m son siempre
iguales al cuadrado de los valores de una distribucin tm :
Ejemplo: Otro ejemplo: supongamos que en el modelo yi = 0 + 1 x + 2 z + ui ; queremos
contrastar: H0 : 1 = 0 frente a la alternativa H0 : 1 6= 0: El Modelo sin Restringir es el modelo
original, mientras que el Modelo Restringido es: yi = 0 + 2 z + ui : Una vez estimados ambos
modelos, utilizamos el estadstico 34 que ser en este caso:
SCRR SCR N 3
SCR
1
F1;N
Puede probarse (com veremos en algn ejemplo numrico con ordenador), que el valor numrico
de este estadstico es exactamente igual al cuadrado del estadstico t correspondiente al coeciente
2
1 : Nuevamente, como F1;N k = (tN k ) ; ambos contrastes son equivalentes.
Ejemplo: Supongamos que en el modelo yi = 0 + 1 xi + 2 zi + ui ; queremos contrastar:
H0
H1
:
:
2
2
=1
6= 1
que se trata nuevamente de una sola combinacin lineal de cocientes. Para obtener el Modelo
Restringido, incorporamos al modelo original (Modelo Sin Restringir) la restriccin 2 1
2 = 1
o, lo que es lo mismo: 2 = 1 + 2 1 ; obteniendo: yi = 0 + 1 xi + (1 + 2 1 )zi + u
~i = 0 + 1 xi +
zi + 2 1 zi + u
~i = 0 + zi + 1 (xi + 2zi ) + u
~i ; por lo que si denimos nuevas variables: y~i = yi zi
,x
~i = xi + 2zi ; el Modelo Restringido es: y~i = 0 + 1 x
~i + u
~i ; en el que estimamos los coecientes
^ = 1 + 2 ^ : En este caso, q = 1 y ncoef s = 3:
y
:
La
estimacin
de
se
obtiene
de:
0
1
2
2
1
Podemos utilizar el estadstico t; sin ms que observar que V ar(2 ^ 1 ^ 2 1) = 4V ar( ^ 1 ) +
V ar( ^ 2 ) 2Cov( ^ 1 ; ^ 2 ); cuyo valor numrico tendremos que obtener a partir de la matriz de
varianzas-covarianzas de los estimadores de mnimos cuadrados.
100
:
:
+2
1+2
2
2
1 xi
2 zi
+ ui ; queremos contrastar la
=3
6= 3
9.1
SCR N (k + 1)
Fk;N (k+1)
SCR
k
donde hesmo tenido en cuenta que el Modelo sin Restringir es el modelo original y, por tanto,
SCRSR = SCR; que el nmero de coecientes estimados es igual a k + 1; y que el nmero de
restricciones es igual al nmero de variables explicativas, k: Notemos que en el contraste de Ausencia
de Signicacin Global, no se impone que la constante del modelo sea igual a cero. En primer lugar,
no es preciso pues, com sabemos, dicha constante no explica nada, como recoge el hecho de que el
R2 del modelo constante sea igual a cero. En segundo lugar, porque incluso sin ninguna variable
explicativa, la variable y tiene media, en general no nula, y necesitamos un trmino constante para
igualar las medias muestrales a ambos lados de la igualdad.
Recordando la denicin del coeciente de determiancin, el estadstico anterior puede escribirse:
SE N
SCR
10
(k + 1)
R2 N
=
k
1 R2
(k + 1)
k
Fk;N
(k+1)
En sentido general, podemos decir que existe cambio estructural en un modelo de regresin cuando
los parmetros del mismo no son constantes a lo largo de toda la muestra. El problema es tpico
de muestras de datos temporales aunque como veremos ms adelante, puede plantearse asimismo
como contraste de homogenidad en muestras de corte transversal.
101
10.1
En muchas ocasiones, cuando se habla de cambio estructural en regresin, se tiene en mente una
muestra de datos temporales, y el investigador se cuestiona si se ha producido en algn momento
una cambio en la relacin existente entre variables explicativas y variable dependiente. Un ejemplo
sera la estimacin de un modelo de determiancin de la tasa de inacin:
t
1 rt
2 mt
+ ut
en funcin del crecimiento del agregado monetario y del nivel del tipo de inters. Imaginemos el
caso de Espaa, y el investigador, que dispone de datos mensuales de los ultimos 40 aos, se plantea
la posibilidad de que la entrada en el euro haya supuesto un cambio signicativo en el modo en que
los tipos de inters o el crecimiento monetario afecten a la tasa de inacin. Alternativamente, un
investigador que trabajase con datos de EEUU podra plantearse si el cambio a nales de los 70
de una poltica de control de agregados monetarios a una poltica de control de tipos de interes ha
podido afectar a la relacin que pretende estimar.
En estos casos, generalmente se considera que han podido variar todos los coecientes del modelo.
Las restricciones consisten entonces en suponer que los coecientes son iguales antes que despus
del hecho que se considera relevante. El Modelo Restringido impone las restricciones y estima, por
tanto, un nico conjunto de coecientes, utilizando toda la muestra. La Suma de Cuadrados de
Residuos restringida es la que se obtiene de esta estimacin.
El Modelo Sin Restringir, al no imponer las restricciones, permite que los coecientes sean
diferentes, y estima el modelo dos veces: una, con los datos hasta la fecha en que se produjo el
acontecimiento de inters, y otra, con los datos posteriores a dicha fecha. La Suma de Cuadrados
102
Fn
2k;k
Fn
2k;k
Ntese que no hay razn para variar el nmero de grados de libertad del Modelo Sin Restringir.
10.2
El cambio estructural puede tratarse, de modo alternativo al que acabamos de indicar, mediante
el uso de una variable cticia que discrimine entre las dos submuestras. As, supongamos que
disponiendo de una muestra de tamao T; tenemos la sospecha de que ha podido producirse un
cambio estructural a partir del perodo t0 (t0 < T ): denimos una variable cticia Dt que toma el
valor 1 para los aos posteriores a t0 ; y es igual a 0 en los aos previos a dicha fecha. A continuacin,
si nuestro modelo es:
yt =
1 x1t
2 x2t
+ ut ; t = 1; 2; :::T
estimamos el modelo,
yt =
0 Dt
1 x1t
1 (Dt x1t )
2 x2t
2 (Dt x2t )
+ ut ; t = 1; 2; :::T
3 5 Salvo que supongamos que algn coeciente es invariante entre submuestras. En tal caso, hay que realizar el
test mediante el uso de variables cticias, como explicamos ms adelante.
103
2 x2t
+ ut ; t = 1; 2; :::t0
1 + 1 )x1t + ( 2 + 2 )x2t + ut ; t = 1; 2; :::t0
= ::: =
=0
frente a la hiptesis alternativa de que al menos uno de dichos coecientes sea distinto de cero.
10.3
Un ejemplo de esta situacin sera una posible discriminacin salarial en la que la remuneracin que
recibe un trabajador como salario por su experiencia profesional, es distinta para hombre y para
mujeres. Este hecho podra investigarse mediante la consideracin de una variable cticia, Mujer i ,
que tomase el valor 1 en el caso de las mujeres incluidas en la muestra, y fuese igual a cero para los
hombres. Estimaramos un modelo:
Salarioi =
1 Educacioni
2 Experienciai
3 (Experienciai :M ujeri )
(35)
2 Educacioni
3 Experienciai
(36)
que se estimara una sla vez, utilizando todos los datos. El modelo Sin Restringir sera (35) ; y
formaramos el estadstico:
SCRR SCR n 6
Fn 6;3
SCR
3
Como es sabido, el Modelo Sin Restringir puede estimarse tambin mediante dos regresiones
como (36) ; una estimada con los datos de hombres, y otra estimada con los datos de mujeres. El
agregado de las Sumas de Cuadrados de Residuos obtenidas con las dos submuestras sera igual a la
Suma de Cuadrados de residuos que obtendramos estimando con toda la muestra el modelo (35) :
104
10.4
1 xt
+ ut
con una muestra hasta T; se conoce como residuo recursivo el error que se comete al ajustar el
valor numrico de yT +1 con dichas estimaciones, es decir,
^T
e^t = yT +1
^ T xT +1
Este residuo recursivo puede interpretar como el error cometido al utilizar las estimaciones
obtenidas con datos hasta T para predecir el valor de yT +1 , suponiendo que xT +1 es conocido:
Suponemos que el valor futuro de la variable explicativa xT +1 es conocido. Dicho error es aleatorio,
pues con los datos hasta T ignoramos lo que puede suceder en T + 1; y puede demostrarse que
tiene una varianza:37
!
2
x
V ar (^
et ) = 2u 1 + PT T +1
x)2
t=1 (xt
Si normalizamos el residuo recursivo mediante el cociente:
e~t = r
1+
e^t
PT
x2T +1
t=1 (xt
x)2
s=t
X
e~s
; k+1
^
s=k+1
Ps=T
1
T
s=T
X
e~s
e~
s=k+1
105
10.5
Los residuos de la regresin combinada tienen, por supuesto, una media muestral igual a cero. Sin
embargo, su media es de -31,8 entre las mujeres (observaciones con male = 0) y de 20,6 entre
hombres (observaciones con male = 1), sugiriendo claramente un diferente comportamiento de los
salarios entre ambos grupos. Ello signica que dados un mismo nivel de educacin y de experiencia,
el salario es 52,4 Bef. inferior para las mujeres que para los hombres; esta observacin constituye
evidencia ms clara a favor de discriminacin salarial contra las mujeres. Cuando incluimos en la
regresin anterior la variable cticia MALE, obtenemos un R2 ajustado de 0,364, con ^ u = 143; 1;
y el ratio de ajuste aumenta a 0,20. La regresin estimada es,
Salario = 8; 62 +
(15;6)
(37)
que sugiere que tanto el nivel educativo como la experiencia profesional explican el salario de
un trabajador, y tambin que existen diferencias entre los salarios que reciben mujeres y hombres
que tienen un mismo nivel educativo e igual experiencia laboral.
106
Puesto que la variable M ale toma el valor 0 para las mujeres, y el valor 1 para los hombres, la
regresin anterior equivale al par de regresiones,
Salario
Salario
Como ejemplo, nuestra estimacin sugiere que un hombre de 10 aos de experiencia laboral y
4 aos de educacin recibira un salario de 62:92 + (7:76)10 + (80:11)4 = 460: 96; mientras que una
mujer de igual cualicacin recibira un salario igual a 8:62 + (7:76)10 + (80:11)4 = 406: 66:
Todo ello proporciona evidencia clara acerca de discriminacin salarial en el sentido antes descrito: a igualdad de experiencia y educacin, un hombre recibe un salario superior en 54,3 unidades
monetarias al de una mujer38 . No parece preciso contrastar explcitamente tal hiptesis. Adems,
el histograma de frecuencias de la variable salarios se desvia claramente respecto de una distribucin
Normal por lo que la teora estadstica habitual basada, entre otros, en el supuesto de Normalidad
de la perturbacin del modelo y el carcter determinista de las variables explicativas, no es estrictamente aplicable en este caso. Afortunadamente, como hemos dicho, tampoco parece necesaria su
aplicacin.
Las dos regresiones anteriores se diferencian tan slo en la estimacin de la constante, por lo que
grcamente pueden visualizarse como dos lneas de regresin paralelas, con igual pendiente, pero
con mayor ordenada en el origen para la regresin de hombres que para la correspondiente a las
mujeres. Es decir, la regresin de hombres est sistemticamente por encima de la de las mujeres,
lo que hace que para cada posible combinacin de nivel educativo y experiencia, el salario de los
hombres (la variable dependiente del modelo) sea mayor que el de las las mujeres39 .
10.5.1
Una vez obtenida la evidencia anterior acerca de la existencia de discriminacin salarial, podramos
profundizar algo ms, en el sentido de preguntarnos si la discriminacin salarial en contra de la
mujer tiene carcter general, que es lo que hemos supuesto hasta ahora, o alguna forma especca.
Concretamente, con la informacin disponible, podramos contrastar si la mujer trabajadora es
discriminada al reconocer en trminos salariales, bien la experiencia profesional, o bien el nivel
educativo del trabajador. Para ello necesitamos denir nuevas variables, mediante el producto de
la variable cticia por cada una de las mencionadas. Por ejemplo, en la regresin,
Salarioi =
1 Educacioni
(Educacioni :M alei ) + ui
(38)
la variable producto Educacioni :M alei toma un valor igual a cero para las mujeres incluidas en
la muestra, mientras que coincide con la variable Educacioni en el caso de los hombres. Por tanto
el modelo anterior equivale a los dos modelos,
Salarioi
Salarioi
=
=
3 8 No es casualidad que esta diferencia coincide con la disparidad antes mencionada entre las medias muestrales de
los residuos en ambos grupos de trabajadores: 20,6-(-31,8)=52,4
3 9 Si bien este argumento no es estrictamente vlido porque con dos variables explicativas, experiencia y educacin,
no tenemos rectas de regresin, sino planos de regresin. Sin embargo, la idea intuitiva es la misma.
107
en los que si 2 = 0 ambos modelos coinciden, lo que signicara que el salario recoge el nivel de
educacin del trabajador en igual manera en hombres que en mujeres, no habiendo discriminacin
salarial en este sentido. As, el contraste de signicacin del coeciente 2 en el modelo (38) equivale
a un contraste de discriminacin en el reconocimiento del nivel educativo del trabajador. Este modelo, al igual que el modelo que se obtiene aplicando un tratamiento anlogo a la experiencia laboral,
aparecen estimados en el chero de trabajo (REG_W _CROSSEXP ER; REG_W _CROSSEDU ).
Estimar (38) equivale a considerar dos rectas de regresin con igual ordenada en el origen, 0 ; pero
con una pendiente diferente para hombres y para mujeres. Ser mayor la primera si 2 > 0; siendo
menor si 2 < 0: Sin embargo, dada la evidencia ya obtenida acerca de la posible discriminacin
salarial en contra de las mujeres, en las regresiones citadas se ha incluido asimismo explcitamente
la variable Male, con el objeto de captar cualquier posible evidencia de discriminacin sistemtica.
De este modo, las regresiones estimadas tienen distinta ordenada en el origen y distinta pendiente
para hombres y mujeres.
Es interesante preguntarse en cul de los aspectos, experiencia o educacin, se ve ms discriminada la mujer. En ambas regresiones, la variable cticia MALE y los efectos cruzados, representados
por las variables producto, tienen estadsticos t inferiores a 2,0 en valor absoluto. Estas son situaciones que suelen producirse en el anlisis aplicado, generando muchas dudas en el investigador,
que podra comenzar a cuestionarse si realmente hay diferencias salariales entre hombres y mujeres.
Sin embargo, no hay razn para ello: desde que hemos estimado el modelo (37) ; sabemos que las
dos regresiones que ahora consideramos estn mal especicadas, pues falta un indicador en cada
una de ellas. En consecuencia, la omisin de variables explicativas relevantes hace que tanto las
estimaciones numricas de los coecientes, como de sus desviaciones tpicas, sean sesgadas.
Si, a pesar de ello, nos atenemos a las estimaciones obtenidas, estas regresiones muestran que
cada ao de experiencia se valora a los hombres un 37,7% ms que a las mujeres (1; 57/4; 16) ;
mientras que el paso de un nivel educativo al siguiente se valora en los hombres un 9,8% ms
que en las mujeres (5; 71/58; 4). Por tanto, parece haber mayor evidencia de discriminacin en el
reconocimiento de la experiencia profesional que en el reconocimiento del nivel educativo. En los
dos casos estimamos una recta con mayor ordenada en el origen y mayor pendiente para los salarios
de hombres que para los de mujeres. Esto es evidencia clara sugiriendo discriminacin en contra de
las mujeres.
Aunque este anlisis ha sido ilustrativo, no queremos que la posible deteccin de evidencia
sugiriendo una valoracin inferior de la educacin en mujeres que en hombres pueda deberse a
una mala especicacin de los posibles modos de discriminacin. Para ello, incluimos ahora los
dos indicadores, experiencia y nivel educativo en el modelo de salarios, permitiendo que ambos
coecientes, as como la ordenada en el origen, dieran para hombres y mujeres. As, necesitamos
estimar una regresin,
Salarioi
(39)
que la experiencia profesional se valora en los hombres un 1; 80=6; 61 = 27; 2% ms que en las
mujeres, y la educacin en un 6; 77=75; 54 = 8; 9% ms en hombres que en mujeres. La variable
cticia MALE tiene una contribucin reducida, como indica su coeciente estimado, pero ello es slo
aparente, pues sus posibles efectos estn recogidos asimismo a travs de la variables de interaccin
Experienciai :M alei y Educacioni :M alei :
De acuerdo con esta estimacin, un varn recibe por cada ao de experiencia profesional 8,41
Bef., mientras una mujer recibe tan slo 6,61 Bef.. Por cada salto en el nivel educativo, un hombre
ve incrementado su salario en 82,31 Bef., mientras que dicho incremento es de 75,54 para la mujer.
La discriminacin salarial estimada entre trabajadores de distinto sexo, pero de igual nivel educativo
y experiencia laboral es de 1,30 Bef., ms 1,80 Bef. por el nmero de aos de experiencia, ms 6,77
Bef. por el nmero asignado a su nivel educativo comn.
Como alternativa, si hubiramos optado por aceptar la restriccin 2 = 0 (coeciente de
Educacioni :M alei ) como razonable, habramos estimado el modelo,
Salarioi
(3;25)
(0;62)
(14;85)
que sugiere que hay una evidencia sistemtica de discriminacin que hace que, a igual nivel
educativo, una mujer sin experiencia laboral reciba 28,41 Bef. menos que un trabajador varn
que asimismo carezca de experiencia laboral. Adems, un varn recibe 8,34 Bef. por cada ao
de experiencia profesional (la suma de 8,76 y 1,58 Bef.), mientras que una mujer recibe tan slo
6,76 Bef.. Por tanto, la discriminacin entre trabajadores de igual nivel educativo pero de distinto
sexo se estima en 28,41 Bef. ms 1,58 Bef. por el nmero de aos de experiencia profesional de
ambos trabajadores. Segn este ltimo modelo, el nivel educativo tiene un efecto igual sobre el
salario de hombres y de mujeres, por lo que incorpora el supuesto de que no hay discriminacin en
la remuneracin del mismo. Sin embargo, incorpora la idea de que la Experciencia se remunera de
manera diferente a hombres y a mujeres.
10.5.2
El lector debe apreciar las similitudes y diferencias entre las conclusiones numricas alcanzadas en
los dos ltimos modelos: la primera, que permite la posibilidad de que la remuneracin salarial del
nivel educativo sea distinta en hombres y mujeres, y la segunda, que impone la restriccin de que
dicha remuneracin es igual entre ambos grupos de trabajadores. De acuerdo con el primero de los
modelos, un aumento de nivel educativo incrementa el salario de hombres en 82,31 Bef., y el de las
mujeres en 75,54; segn el modelo que acabamos de estimar, el incremento es de 80,12 Bef., comn
a hombres y mujeres que, por supuesto, est entre los dos valores que estimamos con el modelo que
incorporaba este tipo de discriminacin. Ambos modelos implican discriminacin salarial por razn
de sexo, y tambin que la experiencia laboral se remunera de manera diferenciada en hombres y
en mujeres. El primer modelo arma lo mismo acerca del nivel educativo, mientras que el ltimo
modelo impone igual remuneracin salarial por nivel educativo en hombres que en mujeres.
Es difcil decidir cul de los dos modelos es preferible. La ltima regresin tiene practicamente
el mismo R2 y la misma desviacin tpica residual que la anterior. En consecuencia, la aplicacin
de los contrastes estadsticos habituales, basados en Normalidad del trmino de error, variables
109
explicativas deterministas, etc., no permiten distinguir entre ambos modelos. En esta situacin,
parece preferible escoger el modelo ms sencillo, y concluir que no hay evidencia en la muestra de
trabajadores disponible acerca de diferencias en el reconocimiento salarial del nivel educativo entre
trabajadores de ambos sexos.
Dada la similitud de estadsticos, es frecuente que el investigador concluya que ambos modelos
son idnticos. Sin embargo, esto no es completamente exacto. Una interpretacin alternativa del
reducido estadstico t del producto Educacion M ale es que, aunque el nivel educativo recibe distinta
valoracin salarial en hombres que en mujeres, las diferencias no se miden con suciente precisin
con los datos disponibles. Esta apreciacin se basara en el hecho de que el efecto discriminatorio
estimado en (39) es de un 9%, que no parece que pueda considerarse despreciable. El problema
es que la desviacin tpica con que se estima el coeciente es prcticamente de igual tamao que
ste, revelando que es un problema de reducida precisin (alta varianza) en las estimacin, lo que
conduce a un estadstico t reducido, en torno a 1,0. En denitiva, el primero de los dos modelos
permite ms variedad salarial y puede considerarse, en tal sentido, ms informativo.
El peligro es que, por estimar tal parmetro con baja precisin, las inferencias numricas que
se obtengan sobre los salarios estn poco justicadas. Dichas estimaciones son, en algunos casos
particulares,
SALARIOS
Educ = 1; Exper = 3
Educ = 1; Exper = 17
Educ = 1; Exper = 30
Educ = 4; Exper = 3
Educ = 4; Exper = 17
Educ = 4; Exper = 30
Modelo restringido
Mujeres Hombres Ratio
124,2
157,3
78,9%
218,9
274,1
79,8%
306,7
382,5
80,2%
364,5
397,7
91,7%
459,2
514,5
89,3%
547,1
622,9
87,8%
Modelo no restringido
Mujeres Hombres Ratio
137,9
151,3
91,1%
230,4
269,1
85,6%
316,3
378,4
83,6%
364,5
398,3
91,5%
457,0
516,0
88,6%
542,9
625,3
86,8%
Para niveles educativos bajos, el modelo restringido implica diferencias salariales entre hombres y
mujeres bastante mayores que el modelo no restringido. Lo contrario ocurre para niveles educativos
altos, en los que el modelo restringido genera menores diferencias salariales entre hombres y mujeres.
Es decir, el modelo que incluye explcitamente una valoracin diferente para el nivel educativo
de hombres y mujeres produce una estimacin de la discriminacin salarial ms uniforme, sin
que dependa del nivel educativo de los trabajadores que se comparen. Esta caracterstica podra
hacerlo preferible, pero ha de ser en ltima instancia la creencia del investigador acerca de si el nivel
educativo se valora igual en ambos sexos o no, lo que debe llevarle a escoger uno u otro modelo.
Otra forma de analizar esta cuestin se basa en examinar los residuos del modelo restringido,
el que estimamos en ltimo lugar. Si la remuneracin de la educacin fuese sistemticamente
mayor en hombres que en mujeres, esperaramos ver residuos mayores en hombres que en mujeres,
dentro de cada nivel educativo. Ello se debe a que, al no permitir diferencias por sexo, nuestra
estimacin de la remuneracin a la educacin estara comprendida entre los niveles percibidos
por hombres y mujeres; de este modo, estaramos infravalorando la remuneracin a la educacin
percibida por los hombres, y sobrevalorando la que perciben las mujeres. En consecuencia, los
residuos correspondientes a los varones deberan ser superiores a los de las mujeres en cada nivel
educativo. Si examinamos los residuos del modelo para cada nivel educativo, obtenemos medias
aritmticas de 8,6 y 3,1 para hombres y mujeres en el primer nivel educativo, 4,5 y 0,0 en el segundo,
-1,6 y 11,3 en el tercero, -12,9 y -5,5 en el cuarto, y 17,9 y -6,3 en el superior. Por tanto, en este
110
=
=
(40)
Salarioi
R2
(41)
Por supuesto, que estas regresiones son comparables a la estimacin del modelo (39) : De hecho,
el lector debe comprobar que de dicho modelo se deducen dos relaciones, una vlida para hombres
y otra para mujeres, y que coinciden exactamente con las dos regresiones que acabamos de estimar.
El contraste de cambio estructural se basa en la comparacin de las Sumas Residuales de los
modelos restringido y sin restringir. Las restricciones en este caso consisten en el supuesto de que
los coecientes del modelo de salarios son iguales para hombres y mujeres; en tal caso, el modelo
sera estable y concluiramos que no hay evidencia de cambio estructural. El Modelo Sin Restringir
est formado por las dos regresiones anteriores, mientras que el Modelo Restringido es (23). El
estadstico tipo-F se construye, en este caso,
Fq;gdlM SR =
111
hemos hecho en (40) y (41). La Suma Residual de dicho modelo es el agregado de las Sumas
Residuales de cada una de las dos regresiones, para hombres y mujeres. El nmero de grados
de libertad de dicho modelo es igual a la suma de los grados de libertad de las dos regresiones:
nmero de observaciones correspondientes a hombres, menos 3, ms el nmero de observaciones
correspondientes a mujeres, menos 3, Nh + Nm 6.
El valor numrico del estadstico F est claramente por encima de los valores crticos de la
distribucin de probabilidad F3;1466 a los niveles de signicacin habituales, 1%, 5%, 10%, por lo
que rechazamos la hiptesis nula a cualquiera de dichos niveles. La hiptesis nula especica la
igualdad de coecientes entre los modelos de salarios de hombres y mujeres, H0 : h = m , por
lo que concluiramos que los modelos de salarios son diferentes. Hay que notar, sin embargo, que
el estadstico utilizado slo tendra distribucin F si el trmino de error del modelo de salarios
tuviera distribucin Normal, lo que ya hemos comentado que parece altamente improbable, dado
el histograma de frecuencias de los salarios.
Por s slo, este contraste no dice nada acerca del sentido en que se producen las diferencias,
por lo que sera dicil concluir de l nada relativo a la discriminacin salarial. Sin embargo, el
hecho de que los coecientes asociados tanto a nivel de educacin como a la experiencia laboral
sean mayores para los hombres que para las mujeres sugiere que las diferencias son en perjuicio de
las mujeres. Como los trminos constantes estimados son muy similares, es fcil ver que entre dos
trabajadores de distinto sexo, pero de igual nivel educativo y experiencia laboral, el hombre recibe,
generalmente, un salario superior al de la mujer.
10.5.4
En esta segunda parte del ejercicio, vamos a ilustrar el modo en que pueden utilizarse variables cticias para proponer distintos grados de homogeneidad en el mecanismo de determinacin salarial.
Trabajando con la misma base de datos, continuamos utilizando el nivel educativo y el grado de
experiencia laboral como posibles determinantes salariales. La hiptesis que ahra consideramos es
que la experiencia laboral se remunera de igual modo en todos los niveles educativos. Dada la evidencia ya presentada acerca de la existencia de discriminacin salarial por razn de sexo, utilizamos
inicialmente las observaciones procedentes de trabajadores varones, para centrarnos exclusivamente
en analizar las diferencias que puedan provenir de los dos factores citados.
10.5.5
Comentbamos al inicio de este ejercicio cmo las diferencias entre cada dos niveles sucesivos de
educacin pueden ser muy distintas, dependiendo de los niveles educativos que se comparen. Esto no
ha sido recogido en nuestro anlisis hasta ahora, porque la denicin que se ha hecho de la variable
educacin conduce a que estimemos un incremento salarial con cada cambio de nivel educativo, con
independencia de los niveles en los que se produzca. Para analizar esta cuestin en ms detalle,
estimamos por separado la contribucin media de cada nivel educativo a la retribucin salarial.
Como ya sabemos que existe discriminacin salarial por sexos, vamos a utilizar nicamente las
observaciones correspondientes a los hombres.
Para ello, estimamos cinco regresiones del tipo (15), utilizando en cada caso datos de varones
de un mismo nivel educativo41 . Los resultados son,
4 1 Al
estimar la regresin, introducir en la ventana Sample, el mensaje 1 1472 IF MALE=1 AND EDUC=1, e
112
nivel 1
Ni
nivel 2
Ni
nivel 3
Ni
nivel 4
Ni
nivel 5
Ni
:
=
:
=
:
=
:
=
:
=
(42)
en los que se aprecia un aumento en el coeciente estimado para la variable Experiencia, segn
aumenta el nivel educativo. Ello sugiere que el reconocimiento salarial de la experiencia profesional
entre varones es mayor cuanto ms alto sea su nivel educativo, quiz por ser entonces la experiencia
laboral de mayor calidad, un resultado sin duda interesante.
Otro resultado que surge de este modelo estimado es que el salario para trabajadores sin experiencia laboral es creciente con el nivel educativo, excepto entre los dos primeros niveles. Esta
comparacin no es, sin embargo, la ms interesante, por cuanto que apenas hay trabajadores sin
experiencia laboral. Otra manera de interpretar el modelo consiste en acudir al promedio de la
experiencia laboral, que es de 17,22 aos para toda la muestra, pero es42 de 26,57 aos para los
hombres de nivel educativo 1, siendo de 20,42 aos, 18,28, 16,19, y 15,85 aos para los restantes
niveles educativos. Por tanto, el salario medio para los trabajadores del primer nivel educativo se
estima en 318:03 + (1:67)(26:57) = 362: 4; siendo para los sucesivos niveles: 275:19 + (5:48)(20:42) =
387:09; 312:10 + (6:63)(18:28) = 433: 3; 323:86 + (10:56)(16:19) = 494: 83; 389:43 + (13:46)(15:85) =
602: 77:
As, en promedio, un trabajador varn del nivel educativo 2 recibe un salario superior en 24.7
Bef. al del nivel educativo 1. Las remuneraciones promedio asignadas a los cambios sucesivos en
nivel educativo son: 46,2 Bef. entre los trabajadores de niveles educativos 2 y 3; 61,5 Bef. para el
salto de niveles educativos 3 a 4, y 108 Bef. para el paso de nivel educativo 4 a nivel 5.
Como se ve, estimamos una remuneracin creciente para el salto entre cada par de niveles educativos sucesivos, valorndose ms un aumento de nivel educativo cuanto ms alto sea el nivel educativo de partida. Esto hace que el modelo (41) sea excesivamente restringido; en l, estimbamos en
82,31 Bef. la valoracin de cada nivel educativo adicional, con independencia del nivel de partida.
Tal estimacin debe verse como un promedio de las cuatro remuneraciones que calculamos a partir
de (42), pero es inapropiada, dados los resultados de este ltimo modelo.
Un modelo algo menos resringido que (41) sera,
Salarioi =
0 + 1 Educacioni + 2 Experienciai + 3
113
educativo
educativo
educativo
educativo
educativo
1
2
3
4
5
:
:
:
:
:
Salarioi
Salarioi
Salarioi
Salarioi
Salarioi
=(
=(
=(
=(
=(
+ 1 ) + ( 2 + 3 ):Experienciai + ui ;
0 + 2 1 ) + ( 2 + 2 3 ):Experienciai + ui ;
0 + 3 1 ) + ( 2 + 3 3 ):Experienciai + ui ;
0 + 4 1 ) + ( 2 + 4 3 ):Experienciai + ui ;
0 + 5 1 ) + ( 2 + 5 3 ):Experienciai + ui ;
que impone sobre (42) dos tipos de restricciones: a) que la diferencia en la remuneracion que
recibe cada ao de experiencia en trabajadores de dos niveles educativos sucesivos es la misma,
3 , independientente de los niveles de educacin considerados, y b) que la diferencia salarial entre
trabajadores de igual experiencia y niveles de educacin consecutivos es siempre la misma, 1 :
Como consecuencia, este modelo implica que para caracterizar las diferencias salariales entre
trabajadores de igual experiencia laboral slo importa la diferencia que exista entre sus niveles
educativos, pero no cules sean estos. Si k denota la diferencia entre los niveles educativos de dos
trabajadores de igual experiencia, donde k podra ser igual a 0; 1; 2; 3 4; la diferencia entre sus
salarios sera: k 1 + k 3 Experiencia, siendo Experiencia el nmero de aos de experiencia de
ambos trabajadores.43 El lector debe asegurarse de que entiende que en (42) no se ha impuesto
ninguna de estas dos restricciones.
Por supuesto que estas restricciones pueden contrastarse conjuntamente utilizando los estadsticos habituales, sin ms que considerar a (42) como Modelo Sin Restringir, y a (43) como Modelo
Restringido.
Un modelo ms restrictivo considerara que la remuneracin salarial a cada ao de experiencia
laboral del trabajador es independiente de su nivel educativo. Dicho modelo sera,
Salarioi =
2 D2i
3 D3i
4 D4i
5 D5i
1 Experienciai
+ ui ;
(44)
donde la variable cticia D2i se dene mediante D2i = 1 si la observacin i-sima se reere a un trabajador varn en el segundo nivel educativo, y D2i = 0 en todos los dems casos.
El resto de las variables cticias se dene de manera anloga. Una vez estimado este modelo
tendramos para los varones del primer nivel educativo, Salarioi = ^ 0 + ^ 1 Experienciai + u
^i ;
para los del segundo nivel educativo: Salarioi = ( ^ 0 + ^2 ) + ^ 1 Experienciai + u
^i ; y as sucesivamente; por ejemplo, para los trabajadores varones del ms alto nivel educativo, tendramos,
Salarioi = ( ^ 0 + ^5 ) + ^ 1 Experienciai + u
^i : Al estimar 2 obtenemos el diferencial salarial que
reciben los trabajadores varones del segundo nivel educativo respecto de los del primero, con independencia de su experiencia laboral. Los restantes coecientes 3 ; 4 ; 5 ; se interpretan de manera
anloga, por lo que esperaramos que fueran todos ellos positivos.
La estimacin del modelo conduce a,
Salarioi = 133; 19+73; 12D2i +142; 27D3i +208; 54D4i +313; 62D5i +8; 00Experienciai +ui ; (45)
A diferencia de los modelos (43) y (42), la diferencia salarial entre trabajadores de distinto
nivel educativo pero que tienen igual experiencia, se supone ahora independiente de dicho nivel de
4 3 Cul
114
experiencia. Por tanto, (44) es un modelo ms restringido que los dos anteriores. En (44) tenemos
cinco regresiones paralelas, con distinta ordenada en el origen pero igual pendiente. Por el contrario,
(42) genera cinco rectas de regresin con distinta ordenada en el origen y diferente pendiente, eds
decir, cinco rectas completamente distintas:
En (43) permitimos que la remuneracin a la experiencia vare con el nivel educativo, lo cual es
ms general que (44). Es algo ms restrictivo en cuando que hace que las diferencias en la ordenada
en el origen sean iguales entre niveled educativos. Los modelos (44) y (43) no son directamente
comparables, pues uno no puede obtenerse imponiendo restricciones sobre el otro.
El modelo alternativo,
Salarioi =
2 Experienciai
(Educacioni :Experienciai ) + ui ;
no es muy interesante, pues si se piensa que puede haber distinta remuneracin salarial a la
experiencia dependiendo del nivel educativo, es an ms probable que haya diferencias entre trabajadores de igual experiencia, pero distinto nivel educativo. En consecuencia, los modelos (44) y
(43) son generalmente preferibles.
Un modelo an ms restrictivo impondra coecientes comunes a todos los niveles educativos,
T odos los varones
Ni
(46)
115
las sumas residuales en ellas, mientras que el Modelo Restringido es el constituido por la ltima
regresin, teniendo, por tanto el estadstico F ,
Fq;gdlM SR
=
=
(SRR SRS) =q
=
SRS=gdlM SR
(29723552 (333565:4 + 2244014 + 4010484 + 2896499 + 10162534)) =8
= 56; 6
(333565:4 + 2244014 + 4010484 + 2896499 + 10162534) = (893 10)
1 D1i
2 D2i
3 D3i
4 D4i
5 D5i
1 Experienciai
+ ui ;
(47)
tras denir una variable cticia D1i del mismo modo que denimos las restantes. En este caso,
para los varones del primer nivel educativo tendramos, Salarioi = ^1 + ^ 1 Experienciai + u
^i ; para
los del segundo nivel educativo: Salarioi = ^2 + ^ 1 Experienciai + u
^i ; y as sucesivamente; para los
trabajadores varones del ms alto nivel educativo, tendramos, Salarioi = ^5 + ^ 1 Experienciai + u
^i :
Por supuesto, los valores numricos de los coecientes seran diferentes ahora que en el modelo
anterior. Esperaramos que las estimaciones numricas de los coecientes fuesen crecientes para
los distintos niveles educativos.
La suma de las cinco variables cticias incluidas en el modelo (47) es igual a uno para todas
las observaciones, pues slo una de ellas es igual a uno en cada observacin, siendo las restantes
iguales a cero, y esto ocurre para todas las observaciones disponibles. Por tanto, su suma es igual
al valor de la variable que acompaa al trmino constante, por lo que ste no puede incluirse en la
regresin, pues tendramos colinealidad perfecta, no pudiendo estimarse dicho modelo. En el caso
de (44) las cuatro variables cticias suman uno para todas las observaciones, excepto las del primer
nivel educativo, para el que suman cero; por tanto, su suma no coincide con el valor numrico de
la variable que acompaa al trmino constante, y el modelo puede estimarse. En dicho modelo,
podamos haber optado por incluir D1i y excluir otra cualquiera de las variables cticias, y la
interpretacin de los coecientes estimados sera anloga a la que propusimos para el modelo (44).
116