Anda di halaman 1dari 33

GRADO EN FINANZAS Y CONTABILIDAD

INTRODUCCIN A LA ECONOMETRA
PARA LAS FINANZAS

CURSO 2013-2014











TEMA 2:
MODELO DE REGRESIN LINEAL GENERAL





Francisco Trujillo Aranda
Catedrtico de Economa Aplicada (Econometra)
Departamento de Estadstica y Econometra (68)
Facultad de Ciencias Econmicas y Empresariales
Universidad de Mlaga














Febrero de 2014


Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
2
2.1.- Introduccin
El modelo de Regresin Lineal Simple se establece entre dos variables, Y y X, que
se consideran respectivamente como dependiente (endgena) e independiente (exgena).
De manera que:
i.- Se sabe, porque as lo indica la Teora Econmica, que las variaciones de Y
vienen provocadas por las de X.
ii.- Se supone que la relacin entre ambas variables es lineal y que no hay otras
variables explicativas relevantes.
iii.- Se dispone de un conjunto de n observaciones muestrales, extradas mediante
muestreo aleatorio simple, de ambas variables.

Supngase que la relacin entre las variables en la poblacin viene dada por la
relacin (modelo) lineal simple:
y
i
= + x
i
+ u
i

; i = 1, 2, ....., N. [1]
Donde:
- El subndice i denota al elemento i-simo de la poblacin, de tamao N, de las
variables Y y X.
- u
i
denota el trmino de perturbacin aleatoria, esto es, un conjunto de variables
aleatorias (v.a.) inobservables que se suponen distribuidas NIID(0,
2
u
).
- Los parmetros poblacionales del modelo son , y
2
u
.
El modelo as considerado se denomina recta de regresin poblacional.

Si la relacin poblacional propuesta es cierta, tambin deber mantenerse en una
muestra aleatoria simple de n observaciones de cada variable, permitiendo escribir
y
i
= + x
i
+ u
i

; i = 1, 2, ....., n. [1 bis]
Donde el subndice i denota ahora la observacin i-sima de la muestra y u
i
(trmino de
perturbacin aleatoria) el conjunto de n v.a. inobservables que corresponden a los
elementos de la poblacin incluidos en la muestra (vanse los grficos 1 y 1B).

El objetivo es estimar de manera precisa y eficiente los parmetros poblacionales
desconocidos ( , y
2
u
) con la informacin contenida en la muestra de las variables X e
Y, haciendo uso de los supuestos realizados sobre la distribucin de las perturbaciones.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
3

REPRESENTACIN GRFICA DE LA NUBE DE PUNTOS POBLACIONAL Y MUESTRAL

Grfico 1 Grfico 1B

N = 10000 elementos; n = 1000 elementos


El mtodo de estimacin ms utilizado es el de Mnimos Cuadrados, que se basa
en obtener los estimadores de y que minimizan la suma de los cuadrados de los
residuos, esto es,

2 2

( , ) ( , )
1 1

Min. Min. [ ( )]
n n
i i i
i i
e y x


= =
= +

,
garantiza que:
1
0
n
i
i
e
=
=

y que 0
1
=

=
i
n
i
i
x e
Una vez estimados los parmetros se tendr la recta de regresin muestral
y
i
=

i i
x e + +

; i = 1, 2, ....., n, [2]
en la que los parmetros poblacionales se han sustituido por sus estimaciones muestrales,

y , y en la que e
i
denota los errores de ajuste que se producen, esto es, la diferencia
entre el valor observado de la variable endgena, y
i

, y el ajustado,


i i
y x = + (vanse los
grficos 2 y 2B).


0
4
8
12
16
Y
0 2 4 6 8 10 12 14
X
4
6
8
10
12
14
16
Y
5 6 7 8 9 10 11 12 13 14
X
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
4
REPRESENTACIN GRFICA DE LAS NUBES DE PUNTOS Y DE LAS
RECTAS DE REGRESIN POBLACIONAL Y MUESTRAL

Grfico 2A Grfico 2B

Ntese que:
La recta de regresin poblacional no coincide con la muestral, que ha sido estimada
con las 1000 observaciones de la muestra. En la regresin poblacional los parmetros
(poblacionales) son = 1,65 y = 0,84, mientras que en la regresin muestral las
estimaciones han sido 02 2, = y 81 0,

= .
Si se eligiese otra muestra de 1000 observaciones se obtendran otras estimaciones de
los parmetros poblacionales. Esto es, los estimadores y

son variables aleatorias


en el muestreo, tienen su propia distribucin de probabilidad y sus momentos.
Suponiendo que x es no estocstica (fija en el muestreo) la distribucin de probabilidad
de los estimadores depender de cul sea la de la perturbacin.
Las perturbaciones, u
i
, son v.a. inobservables en la muestra (realizaciones de su
proceso generador en la poblacin), mientras que los errores, e
i
, son observables, pues
son la diferencia entre y
i
e
i
y (valor ajustado con la regresin muestral).
En la realidad no se dispone de los datos de la poblacin, por tanto no se conoce el
valor de los parmetros poblacionales, slo el de las estimaciones muestrales.

4
6
8
10
12
14
16
5 6 7 8 9 10 11 12 13 14
X
Y
POBLACIN (N=10000): Y = 1,65 + 0,84 X + u
4
6
8
10
12
14
16
5 6 7 8 9 10 11 12 13 14
x
y
MUESTRA (n=1000): y = 2,02 + 0,81 x + e
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
5
2.2.- Hiptesis del Modelo de Regresin Lineal general
El modelo de regresin lineal simple es demasiado sencillo para representar
adecuadamente las relaciones entre la mayora de las variables econmicas, por tanto se ha
generalizado al considerar que existen k variables explicativas (exgenas) potencialmente
relevantes, dando lugar al Modelo de Regresin Lineal General:
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

; i = 1, 2, ....., n. [3]
Escribiendo el modelo para las n observaciones disponibles de las k variables
exgenas se tendr un sistema de n ecuaciones, en las que los parmetros son
desconocidos, ese sistema se puede escribir matricialmente definiendo las siguientes
matrices y vectores:
1 21 1 1 1
( ) ( 1)
( 1) ( 1)
2
1
; ; ;
1
y X u
k
nxk nx
kx nx
n n kn k n
y x x u
y x x u
( ( ( (
( ( ( (
= = = =
( ( ( (
( ( ( (

L
M M M L M M M
L

, [4]
de manera que el modelo se escribe matricialmente como
y = X + u; [5]
Para que este modelo se pueda estimar convenientemente y los estimadores tengan las
mejores propiedades se formulan una serie de Hiptesis:
1.- uNIID(0,
2
u
I). cuatro hiptesis:
1.1.- Perturbaciones de media nula: E(u
i
) = 0; i,
1.2.- Perturbaciones no Autocorrelacionadas: E(u
i
u
j
) = 0; i j,
1.3.- Perturbaciones Homoscedsticas: V(u
i
) = E(u
2
i
) =
2
u
; i.
Las hiptesis 1.1 a 1.3 implican que la matriz de varianzas y covarianzas de u tiene
la forma

(
(
(
(

= =
1 0 0
0 1 0
0 0 1
) ' (
2 2
L
M M M M
L
L
u n u
I E uu [6]
1.4.- Las perturbaciones tienen una Distribucin Normal
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
6
La hiptesis 1.1 se justifica porque los errores de medida tienden a tener media
nula, porque los efectos de las perturbaciones, en promedio, deben ser despreciables
y por la aleatoriedad del comportamiento humano. No es una hiptesis contrastable.

Las hiptesis 1.2 y 1.3 se violan frecuentemente en la prctica y son contrastables.
En el Grfico 3 se representan sendos casos de perturbaciones homoscedsticas y
heteroscedsticas.

La hiptesis 1.4 se justifica por la teora de los errores de medida: errores positivos
y negativos, ms frecuentes los errores pequeos que los grandes y distribucin
simtrica. Adems, el Teorema Central del Lmite justifica la distribucin Normal
con muestras no excesivamente grandes. Es una hiptesis contrastable a travs de la
distribucin de los errores de ajuste.

Si se verifican las tres primeras hiptesis, las perturbaciones constituyen un proceso
estocstico puramente aleatorio denominado ruido blanco. Si adems son
normales seran un ruido blanco gaussiano.


Grfico 3
Perturbaciones homoscedsticas Perturbaciones heteroscedsticas




Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
7
2.- Las variables explicativas son exgenas: independientes de las perturbaciones.
Ello implica que, si las x son estocsticas, se debe verificar que:
E(u
i
x
ji
) = E(u
i
) E(x
ji
) = 0; i,j Cov(u
i
x
ji
) = 0,
matricialmente E(X'u) = E(X') E(u) = 0.
Alternativamente, si se supone que las x no son estocsticas, sino fijas en el
muestreo, la nica fuente de variacin en el muestreo son las perturbaciones, lo que
implica la variacin muestral de la y. En esas condiciones es fcil demostrar que:
Cov(u
i
x
ji
) = E(u
i
(x
ji
-
j
x ) = E(u
i
x
ji
) - E(u
i

j
x ) = x
ji
E(u
i
) -
j
x E(u
i
) = 0,
matricialmente E(X'u) = X' E(u) = 0.
La hiptesis de que las x no son estocsticas, sino fijas en el muestreo, es poco
realista, slo se justificara si realmente el investigador controlase los valores de las x
en el muestreo, o si slo se est interesado en los resultados condicionados a unos
valores muestrales determinados de las x. Desde un punto de vista pedaggico s
resulta conveniente y por eso la admitiremos inicialmente. Ms adelante se tratar el
caso de los regresores estocsticos y la incidencia que ello tiene sobre las
propiedades de los estimadores.

Si las x son estocsticas e independientes de la perturbacin, E(X'u)=E(X')E(u)=0,
se tiene que:
E(y) = E(X ) + E(u) = E(X ) = E(X) ,
la esperanza de y depende de los valores esperados de las exgenas (X). Esto es, la
esperanza condicional de y
i
ser:
E(y
i
/x
2i
, x
3i
,..., x
ki
) =
1
+
2
x
2i
+
3
x
3i
+ ....+
k
x
ki
.
La varianza de y tambin depender de los valores esperados de las exgenas (X) y
de la varianza de la perturbacin
E(yy') = E[(X +u - E(X) ) (X +u - E(X) )']
= E[(X +u - E(X) ) ( 'X' +u' - 'E(X'))]
= E(X 'X') - E(X) 'E(X') +
2
u
I.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
8
La distribucin de y depende de la distribucin de las exgenas y de la
perturbacin.
Si las x no son estocsticas, sino fijas en el muestreo, E(X'u) = X' E(u) = 0,
E(y) = E(X ) + E(u) = X ,
con lo que la esperanza de y
i
es incondicional dados los valores "fijos" de las
exgenas
E(y
i
) =
1
+
2
x
2i
+
3
x
3i
+ ....+
k
x
ki
,
y la lnea de regresin se interpreta como la "lnea media o promedio". En este caso
la varianza de y slo depende de la varianza de la perturbacin
E(yy') = E[(X +u - X ) (X +u - X )']
= E (uu') =
2
u
I.
La distribucin de y slo depende de la distribucin de la perturbacin.

3.- No existe Multicolinealidad Perfecta: (X) = k.
La matriz de las exgenas, X, es de rango completo, ello garantiza que no existe
ninguna combinacin lineal perfecta entre las columnas de dicha matriz. Si
existiese dicha combinacin al menos una de las exgenas se podra expresar
exactamente como una combinacin lineal de las dems, con lo que la
especificacin sera redundante, y se verificara que
(X'X) <k | X'X| = 0 (matriz singular) imposibilidad de aplicar MCO.
La multicolinealidad perfecta es una situacin extrema que no se produce en la
prctica, salvo error al definir las exgenas. Sin embargo, un cierto grado de
multicolinealidad (relacin lineal) entre las exgenas es muy comn. Dependiendo
de si la relacin lineal entre las exgenas es ms o menos estrecha, los efectos sobre
las estimaciones sern ms o menos perjudiciales. La cuestin no es si existe
multicolinealidad, o no, sino su grado. Esta cuestin se tratar en un tema
posterior.
La situacin extrema opuesta a la multicolinealidad perfecta sera la de
ortogonalidad entre los regresores (exgenas). En este caso no existira ninguna
relacin lineal entre los regresores (covarianzas nulas). Esta situacin tampoco se
produce e la prctica operando con datos econmicos.

Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
9
4.- Los parmetros poblaciones (
1
,
2
, ....
k
,
2
u
) son estructurales, no cambian
en el tiempo, ni en los elementos de la poblacin. Esta hiptesis se puede contrastar y
existen procedimientos de estimacin con parmetros cambiantes.

5.- Las variables exgenas se miden sin error y no se comete error de
especificacin al decidir las que intervienen en el modelo. Si las exgenas se miden
con error no seran independientes de la perturbacin si dichos errores y la
perturbacin no fuesen independientes. Se han desarrollado contrastes de
especificacin con objeto de poner a prueba las especificacin de un modelo. Se
tratarn en un tema posterior.

6.- Las observaciones son el resultado de un muestreo aleatorio simple, si son datos
de corte transversal, o realizaciones de los procesos estocsticos generadores de
las variables del modelo si son temporales.

7.- La forma funcional es correcta. Esto es, no se produce error de especificacin
debido a que la funcin elegida no es la adecuada. Existen contrastes indirectos para
esta hiptesis.

8.- La agregacin se ha realizado de la forma adecuada.


2.3.- Estimacin por Mnimos Cuadrados
Dado el modelo de regresin lineal general:
y = X + u; uNIID(0,
2
u
I),
los estimadores mnimo-cuadrticos se obtienen minimizando la suma de los errores de
ajuste al cuadrado. Sea

y = X e + [7]
el modelo estimado con n observaciones de las variables, donde

denota el vector (kx1)


de estimadores y e el vector (nx1) de errores de ajuste. Se deduce que:
e = y - X

, [8]
por lo que
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
10
=

=
n
i
i
e
1
2
e'e = (y - X

)'(y - X

)
= y'y - y'X

' X'y +

'X'X


= y'y - 2

'X'y +

'X'X

. [9]
Minimizando la suma de errores al cuadrado
X X' y X'

e e'

2 2

1
2
+ =

=
n
i
i
e
= 0, [10]
) ( 2

1
2 2
X X'
'
=


=
n
i
i
e
. [11]
Si (X'X) es definida positiva, lo que se demuestra fcilmente si (X) = k, la solucin
obtenida para los estimadores implica un mnimo de la suma de los errores al cuadrado. De
la primera igualdad se obtiene,
y X' X X' =

, [12]
que constituye el Sistema de Ecuaciones Normales. Despejando se obtiene la expresin del
vector (kx1) de Estimadores Mnimo Cuadrticos Ordinarios (MCO),

1

( ' ) ' X X X y

= . [13]

Operando con el sistema de ecuaciones normales [12] y sustituyendo y por su
expresin en [7] resulta
)

e X X' X X' + =
e X' X X' X X' + =

= e X' 0.
Ntese que:

(
(
(
(

=
(
(
(
(
(
(
(
(

=
=
=
0
0
0
1
2
1
1
M
M
ki
n
i
i
i
n
i
i
n
i
i
x e
x e
e
e X' , [14]
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
11
por tanto, al aplicar MCO se garantiza que la suma de los errores es nula, as como que los
errores y cada una de las regresores (exgenas) no estn relacionados, de manera que no
existe correlacin muestral entre errores y regresores. La media nula de los errores implica
que el plano de regresin pasa por el centro de gravedad de la nube de puntos k-
dimensional.


2.4.- Propiedades de los estimadores por Mnimos Cuadrados
Ordinarios
Si las hiptesis antes expuestas se verifican, los estimadores MCO son lineales,
insesgados y ptimos (ELIO).
Linealidad:

1

( ' ) ' X X X y

=
= ) ( ) ( u X X' X X'
1
+


= u X' X X' X X' X X'
1 1
+ ) ( ) (
= u X' X X'
1
+ ) ( [15]
Queda demostrado que los estimadores son una combinacin lineal de las perturbaciones,
u. Supuesto que las X no son estocsticas, toda la variabilidad muestral de los

proviene
de las perturbaciones. Por tanto, los

tambin se distribuyen Normalmente.


Insesgadez:
) ) ( ( E ) ( E u X' X X'

1
+ =
= ) ( E ) ( u X' X X'
1
+
= [16]
Queda demostrado que, suponiendo que se cumplen las hiptesis 1.1 y 2, los

son
estimadores insesgados.
ptimos:
La matriz de varianzas y covarianzas de los estimadores MCO es:
] )) E( ))( E( E[( ) V( '

=
] ) ( ) E[( ) V(
1 1
X X' X uu' X' X X'


=
=
1 1
X X' X uu' X' X X'

) ( ) E( ) (
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
12
=
1
u
) )( ( ) (

X X' X X' X X'
1 2

=
1
X X'

) (
u
2
. [17]
Teorema de Gauss-Markov: Dada una combinacin lineal de los estimadores MCO,

c' h

= ,
donde c es un vector (1xn) de constantes, h

es un estimador insesgado de c' h = , si se


define otro estimador insesgado de h,
y a' h
~
= ,
donde a es un vector (1xn) de constantes, se puede demostrar que:
0
2
= Ma a' h

h
~
u
) V( ) V( . [18]
Por tanto, se demuestra que no existe otro estimador lineal insesgado cuya varianza sea
menor que la de los estimadores MCO, por eso se dice que son ptimos
1
.

La matriz M, de orden (nxn), que figura en [18] se define como
M = I X(XX)
-1
X, [19]
y tiene la siguientes propiedades:
Es simtrica: M = M,
Es idempotente: MM = MM= M,
Es semidefinida positiva: (M) = n k.
Esta matriz interviene en la obtencin del estimador insesgado de la varianza de las
perturbaciones. Efectivamente, es fcil demostrar que:
=

=
n
i
i
e
1
2
ee = uMu, [20]
E(ee) = E(uMu)
= E[tr(Muu)]
= tr(M) E(uu)
=
2
u
tr(M)
=
2
u
tr(I X(XX)
-1
X)
=
2
u
[tr(I) tr( (XX)
-1
XX)]
=
2
u
(n-k). [21]

1
Si la perturbacin se distribuye Normal, los MCO son eficientes porque su varianza alcanzan la cota de
Cramer-Rao, que es el valor mnimo que puede alcanzar la varianza de cualquier estimador insesgado.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
13
Teniendo en cuenta [21], se deduce que el estimador insesgado de la varianza de las
perturbaciones,
2
u
, es la varianza residual corregida,
2
e
S , definida como:

k n k n
e
S
n
i
i
e

=
e e'
1
2
2
. [22]


2.5.- Estimadores Mximoverosimiles

En general, si z es un vector (nx1) de v.a., tal que z N( ,
z
), donde
z
denota la
matriz de varianzas y covarianzas
2
, su funcin de densidad conjunta ser Normal
Multivariante, con la siguiente expresin:

)
`

=

) ( ) ( exp ) ( f
z
z
n
z ' z

z
1
2 1
2
2
1
2
1

[23]
En el caso del modelo de regresin lineal general, y = X + u, hemos supuesto X no
estocstica y que
u NIID(0,
2
u
I) p(y) = p(u)
y
u

= p(u),
esto es
3
, la variable endgena tambin se distribuye normalmente
E(y) = X ;
V(y) = E[(y - X )(y - X )] = E(uu) =
2
u
I,
y N(X ,
2
u
I). [24]
Luego,
y
=
2
u
I |
y
| = ( )
n
u
2
, I
2
1
1
u
y

, por tanto la funcin de densidad


conjunta de las y
i
, condicionada a los valores de las exgenas y a los parmetros
poblacionales tendr la expresin:

2

z
ser definida positiva si es de rango n, esto es, si no existe ninguna combinacin lineal entre las z
i

variables que integran el vector z.
3

y
u

denota el jacobiano de la transformacin: matriz de derivadas parciales de las u


i
respecto a las y
i
. Bajo
el supuesto de que las u
i
no estn autocorrelacionadas, coincide con la matriz identidad.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
14
)
`

= ) ( ) ( exp
) (
) / ( f
u
n
u
n u
X y ' X y , , X y
2 2 2 2
2
2
1
2
1


Si consideramos dados (conocidos) los valores de las variables, endgena y exgenas, y
desconocidos los parmetros poblacionales se podr escribir:

)
`

= = ) ( ) ( exp
) (
) / ( f L
u
n
u
n u
X y ' X y X , y ,
2 2 2 2
2
2
1
2
1

, [25]
que se denomina Funcin de Verosimilitud. En esta funcin los parmetros poblacionales
estn condicionados a los valores muestrales observados de la variable endgena y de las
exgenas. La estimacin mximoverosimil se basa en asignar a los parmetros
poblacionales aquellos valores que maximizan la probabilidad de los datos muestrales, esto
es, las estimaciones mximoverosimiles son aquellas que maximizan [25] dados los valores
observados de las variables.

Tomando ln en [25] y denotando como
~
y
2
u

~
a los Estimadores
Mximoverosimiles (EMV) tendremos:
) ( ) ( ) ln(
n
) ln(
n
L ln
u
u

~
X y '
~
X y
~
=
2
2
2
1
2
2
2
. [26]
Para obtener la expresin de los
~
hay que derivar en [26] respecto a
~
, igualar a cero y
despejar. Ntese que en ese proceso
2
u

~

acta como una constante, por lo que la derivada
slo opera sobre la suma de cuadrados dada por ) ( ) (
~
X y '
~
X y y que dicha
expresin es formalmente idntica a la que se minimiza en [9] al obtener los estimadores
MCO
4
. Por tanto, la expresin final de los EMV coincide con la de los MCO:

y X' X X'
~
= =
1
) ( . [27]
En resumen, bajo los supuestos habituales y la distribucin Normal de las perturbaciones,
los estimadores mximoverosimiles coinciden con los estimadores MCO y, por tanto, stos
tienen las propiedades asintticas de los EMV: Consistencia asinttica, Eficiencia
asinttica y Distribucin Asinttica Normal.


4
Tambin en este caso se puede demostrar que se cumplen las condiciones de segundo orden de la
maximizacin.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
15
Derivando en [26] respecto a
2
u

~

se obtiene el EMV de la varianza de las
perturbaciones:
0
4
2 1
2
4 2 2
=

+ =

u u u
) ( ) ( n L ln

~

~
X y '
~
X y
~

~
, [28]
despejando
2
u

~

en [28],

n n
) ( ) (
V V
u
e ' e
~
X y '
~
X y
~
=

=
2
. [29]
Donde e
V
denota el vector de errores que resulta al aplicar los EMV, que coincide con el
vector de errores por MCO. Este estimador es sesgado en muestras pequeas, vase [21],
por lo que se utiliza el estimador insesgado,
2
e
S , dado en [22],

k n k n
e
S
n
i
i
e

=
e e'
1
2
2
.
En la prctica la suma de errores al cuadrado se calcula mediante la expresin:
=

=
n
i
i
e
1
2
ee = y X' '

y y' . [30]


2.6.- Verificacin de hiptesis sobre un coeficiente del modelo. Intervalos
de confianza

En general, sea z un vector (nx1) de v.a., tal que z N(0,
2
z
I) y A una matriz (nxn)
de constantes, idempotente, con (A) = r n, se verifica que:

2
z

Az z'

2
r

En el caso del modelo de regresin lineal general tenemos que:
u NIID(0,
2
u
I),
ee = uMu, siendo M idempotente, de orden (nxn) y (M) = n k, luego

2
u
e
u u
S ) k n (

2
2 2

= =
e e' Mu u'

2
k n
. [31]

Adems, ya se ha establecido que:
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
16

N( ,
2
u
(XX)
-1
), [32]
y se puede demostrar que ee y

son independientes. De todo ello resulta que, para


cualquiera de los estimadores
i

, (i = 1, 2,, k), se verifica que



ii u
i i
a

N(0, 1), [33]


denotando a
ii
el elemento i-simo de la matriz (XX)
-1
. El problema es que
u
es
desconocida y si se sustituye por su estimador,
e
S , el cociente [33] deja de distribuirse
como una Normal tipificada, con lo que deja de tener utilidad. Sin embargo, es sabido que
el cociente entre una v.a. N(0, 1) y la raz cuadrada de otra v.a.
2
r
, corregida de la prdida
de grados de libertad, e independiente de la primera, se distribuye siguiendo una
distribucin t-Student con r grados de libertad. En este caso, [33] define una v.a. N(0, 1) y
[31] define una v.a.
2
k n
, independientes entre s. Por tanto:

ii u
i i
a
t

* :
ii e
i
2
u
e
a S
) k n (
S ) k n (

2
t
n-k
. [34]

El error estndar de
i

, denotado
i
S

, se estima como
=
i
S

ii e
a S ,
de manera que [34] permite el contraste de hiptesis sobre cualquier coeficiente
i
y
construir intervalos de confianza para el mismo.

Si se quiere contrastar la hiptesis
H
0
:
*
i i
=
H
1
:
*
i i

donde
*
i
denota cualquier valor admisible para el parmetro, basta calcular [34] con el
valor estimado del parmetro, el valor establecido en la hiptesis nula y el error estndar
estimado. Si t*, valor obtenido del estadstico en [34], est incluido en la regin crtica
bilateral de tamao correspondiente a una distribucin t-Student con n-k grados de
libertad, se rechaza la H
0
, en caso contrario se acepta (no se rechaza). Si la H
1
fuese
unilateral, por ejemplo
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
17
H
0
:
*
i i
=
H
1
:
*
i i
>
se operara igual, pero toda la regin crtica se concentrara en la cola derecha de la
distribucin t-Student con n-k grados de libertad.

Una hiptesis que se contrasta siempre es la de no significatividad del parmetro,
esto es, en la H
0
se postula que el parmetro no es significativamente distinto de cero
H
0
: 0 =
i

H
1
: 0
i

En este caso el estadstico del contraste se reduce a

i
S a S
t
i
ii e
i


* = = . [34bis]
Si no se rechaza H
0
implica que la variable exgena X
i
no es relevante en el modelo y se
puede eliminar del mismo supuesto que no hay problemas que invaliden el contraste.

La distribucin t
n-k
del estadstico muestral, vase [34], tambin permite construir
intervalos de confianza al (1-) por ciento para cualquier
i
, (i = 1, 2, ....., k), en la forma:
(

i 2 e ii
t S a ). [35]
En [35]
2
t denota el valor de una t
n-k
que define una regin crtica de tamao /2 en cada
cola de la distribucin. En el caso de los intervalos de confianza se trata de una
probabilidad "fiduciaria" o derivada, esto es, si pudisemos construir L intervalos de
confianza para
i
, a partir de L muestras de tamao n, el (1-) por ciento de ellos
contendran el verdadero valor del parmetro poblacional
i
. En la prctica slo se
construye un intervalo, con la nica muestra disponible, y se "confa" en que contendr el
verdadero valor de
i
con un grado de confianza del (1-) por ciento.






Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
18
2.7.- Test general de restricciones lineales. Algunos casos particulares

En determinadas circunstancias es preciso contrastar hiptesis que afectan,
conjuntamente, a ms de un parmetro poblacional. Si la hiptesis en cuestin se puede
expresar como restricciones lineales que afectan a un subconjunto de parmetros
poblacionales, se podr aplicar el Test General de Restricciones Lineales.

Dado el modelo [3],
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

; i = 1, 2, ....., n,
se puede estar interesado en contrastar, por ejemplo, hiptesis del tipo:
1) H
0
:
2
+
3

= 1
2) H
0
:
2
=
4


3) H
0
:
2
=
4
;
3
+ 2
4
+
5
= 1.
En el caso 1) se trata de una restriccin lineal que afecta a dos parmetros estableciendo
que su suma es la unidad, en el caso 2) se establece la igualdad de dos parmetros (una
restriccin lineal), en el caso 3) se establecen dos restricciones lineales que afectan a un
subconjunto de cuatro parmetros.

En general las restricciones se expresan matricialmente como
R = r, [36]
donde:
R es una matriz (qxk), siendo q el nmero de restricciones lineales que se
establecen en la H
0
, de manera que q k y (R) = q. Sus elementos son las
constantes que aparecen multiplicando a los parmetros en las q restricciones.
es el vector (kx1) de parmetros poblacionales.
r es el vector (qx1) de constantes que constituyen los trminos independientes
de las q restricciones.

En los tres ejemplos antes citados la composicin de R y r es la siguiente:

1) H
0
:
2
+
3

= 1,
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
19
R = [0 1 1 0....0];
(
(
(
(
(
(

=
k

M
3
2
1
; r = [1].
2) H
0
:
2
=
4

2
-
4
= 0,
R = [0 1 0 -1 0....0];
(
(
(
(
(
(

=
k

M
3
2
1
; r = [0].
3) H
0
:
2
=
4
;
3
+ 2
4
+
5
= 1,
R =
(


0 1 2 1 0 0
0 0 1 0 1 0
L
L
;
(
(
(
(
(
(

=
k

M
3
2
1
; r =
(

1
0
.

Si las restricciones son ciertas, no se rechaza la H
0
correspondiente, los estimadores
eficientes seran los estimadores mnimocuadraticos con restricciones (MCr), que son
aquellos que incorporan (cumplen) las restricciones que se suponen ciertas. En el modelo
de regresin lineal general:
y = X + u, s.a.: R = r,
se demuestra que el estimador mnimocuadratico con restricciones,
*

es
) ( ] ) ( [ ) (
1 1 1

R r ' R X X' R ' R X X'

*
+ =

. [37]
Alternativamente, se puede estimar por MCO el modelo restringido, aqul en el que se han
impuesto las restricciones, y se obtendra el mismo resultado que aplicando MCr. As, por
ejemplo, dado el modelo
y
i
=
1
+
2
x
2i

+
3
x
3i

+ u
i

; i = 1, 2, ....., n,
s.a.:
2
+
3

= 1
3

= 1 -
2

se puede aplicar el estimador MCr, con el que se verificar que 1

3 2
= +
* *
, o bien estimar
el modelo restringido
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
20
y
i
=
1
+
2
x
2i

+ (1-
2
) x
3i

+ u
i

aplicando MCO en el modelo restringido se obtendran
* *
,
2 1

y
* *

2 3

= , de manera que
se verificara la restriccin.

Dado el modelo de regresin lineal general
y = X + u,
cmo contrastar las q restricciones establecidas en H
0
: R = r? Se demuestra que,
suponiendo H
0
cierta, la expresin del Test General de Restricciones Lineales (TGRL) es
la siguiente:

k n
q
F


=

e/ e'
/ r R R X X' R r R )

( ] ' ) ( [ )'

(
1 1
*
F
q,n-k
. [38]
Alternativamente, se demuestra tambin que el estadstico de contraste se puede escribir
como:

k n SCR
q SCR
k n
q
F

=
/
/
e/ e'
/ ) e e' e e' (
r r *

F
q,n-k
, [39]
donde:

r r
e e' denota la Suma de Cuadrados de Errores del modelo restringido,
*

X y e
r
= .
e e' denota la Suma de Cuadrados de Errores del modelo no restringido, X y e

= .
SCR = SCR
r
- SCR, denota el incremento de la suma de cuadrados de los errores
(residuos) que se produce al estimar por MCr (SCR
r
=
r r
e e' ) respecto a la
estimacin por MCO (SCR = e e' ). Si las estimaciones por ambos procedimientos
coincidieran SCR = 0. Si no coinciden SCR > 0, dado que al estimar con
restricciones la suma de cuadrados de los residuos aumenta respecto a la de la
estimacin no restringida.
F* denota el valor del estadstico del TGRL.

Si F

q,n-k
denota el valor que, en una distribucin F de Snedecor (Fisher) con q
grados de libertad en el numerador y n-k g. de l. en el denominador, define una regin
crtica de tamao en la cola derecha, se tendr que:
(y
i
- x
3i
) =
1
+
2
(x
2i

- x
3i
) + u
i

Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
21
- Si F* < F

q,n-k
No rechazar H
0
: R = r, esto es, no rechazar que el conjunto
de restricciones lineales incluidas en la hiptesis nula sean ciertas.
- Si F* > F

q,n-k
Rechazar H
0
: R = r, esto es, rechazar que el conjunto de
restricciones lineales incluidas en la hiptesis nula sean ciertas.

Casos particulares del TGRL:
Contraste del modelo en su conjunto
Sea el modelo de regresin lineal general, con las hiptesis habituales y las
siguientes q restricciones lineales expresadas como H
0
,
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

; i = 1, 2, ....., n,
H
0
:
2
=
3
= .... =
k
= 0. q = k - 1.
El modelo restringido ser, en este caso,
y
i
=
1
+ u
i

; i = 1, 2, ....., n,
en el que E(y
i
) =
1
; V(y
i
) =
2
u
.
Aplicando MCO al modelo restringido resulta
y
*
=
1

,
i
r
*
i
e y + =
1

, y y y e
i
*
i r
i
= =
1

,
por tanto,

= = = = =
= = = = =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
r r
y
n
y
n
y y y e SCR
i
1
2
1
2
1
2 2
1 1
2
) (
1
) (
1
) ( y y' e e'
r r
[40]
Estimando por MCO el modelo no restringido resulta
y
i
=
1

+
2

x
2i

+
3

x
3i

+ ....+
k

x
ki

+ e
i
, i = 1, 2, ....., n,
y X' '

y y' e e' = = =

=
n
i
i
e SCR
1
2
.
Aplicando el TGRL particularizado para este caso resulta

) ( ] [
) 1 ( ]} [ ] (
1
{[
) (
1
2
k n
k y
n
k n
q
F
n
i
i


=

=
/ y X' '

y y'
/ y X' '

y y' ) y y'
e/ e'
/ e e' e e'
r r *


) ( ] [
) 1 ( ] ) (
1
[
1
2
k n
k y
n
n
i
i


=

=
/ y X' '

y y'
/ y X' '

F
(k-1),(n-k)
. [41]
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
22
Si F

(k-1),(n-k)
denota el valor que, en una distribucin F de Snedecor (Fisher) con k-1
grados de libertad en el numerador y n-k g. de l. en el denominador, define una regin
crtica de tamao en la cola derecha, se tendr que:
- Si F* < F

(k-1),(n-k)
No rechazar H
0
, esto es, no rechazar que todos los
parmetros en bloque, excepto la constante, son nulos Modelo no
significativo en su conjunto, lo que implica que las variables x
2i
, x
3i
, ...., x
ki
no
"explican" conjuntamente las variaciones de y
i
.
- Si F* > F

(k-1),(n-k)
Rechazar H
0
, esto es, se rechaza que todos los parmetros
en bloque, excepto la constante, son nulos Modelo significativo en su
conjunto, lo que implica que las variables x
2i
, x
3i
, ...., x
ki
"explican" conjuntamente
las variaciones de y
i
.

La medida de la bondad o adecuacin del ajuste est relacionada con el contraste
de la significacin conjunta del modelo, aunque dicha medida slo tiene carcter
descriptivo, no inferencial como s tiene el contraste. Efectivamente, en el modelo no
restringido estimado por MCO
y
i
=
1

+
2

x
2i

+
3

x
3i

+ ....+
k

x
ki

+ e
i
, i = 1, 2, ....., n,

i
y =
1

+
2

x
2i

+
3

x
3i

+ ....+
k

x
ki

i
y denota los valores ajustados de y
i
,
y
i
=
i
y + e
i
, i = 1, 2, ....., n, [42]
sumando para las n observaciones y dividiendo por n se tendr que la media muestral de y
i

es igual a la media de los valores ajustados,
i
y , ms la media de los errores, e
i
,.
e y y + = ,
pero, como
1
0
n
i
i
e
=
=

0 = e , se demuestra que y y = . Esto es, la media de los valores


ajustados coincide con la de los valores observados de la endgena. Restando y en [42],
elevando al cuadrado y tomando sumatorios se tiene que
5



= = =
+ =
n
i
i i
n
i
i
n
i
e y y y y
1
2 2
1
2
1
) ( ) ( , [43]
donde:

5
Ya se ha demostrado, vase [14], que los errores y las exgenas no estn relacionados.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
23

2
1
) ( y y
i
n
i

=
se denomina Suma de Cuadrados Total (SCT), ya que cuantifica la
variabilidad total de los valores observados de la endgena.

2
1
) ( y y
i
n
i

=
se denomina Suma de Cuadrados Explicada (SCE), ya que cuantifica
la variabilidad de los valores ajustados de la endgena, esto es, la variabilidad
"explicada" por el modelo ajustado.

=
n
i
i
e
1
2
se denomina Suma de Cuadrados de los Residuos (SCR), cuantifica la
variabilidad de la endgena contabilizada por los errores o residuos y, por tanto,
"no explicada" por el modelo ajustado.
Por tanto, en la expresin [43] se demuestra que la variabilidad muestral de la endgena se
descompone en la variabilidad "explicada" por el modelo y la que se atribuye a los residuos
o errores, que es independiente de la anterior.
SCT = SCE + SCR. [43 bis]
En [40] figura la expresin matricial de SCT y en [30] la de SCR,
SCT =

= = = =
= =
n
i
i
n
i
i
n
i
i
n
i
i
) y (
n
) y (
n
y ) y y (
1
2
1
2
1
2 2
1
1 1
y y' ,
SCR = =

=
n
i
i
e
1
2
ee = y X' '

y y' ,
por tanto de [43bis] se deduce que
SCE = y X' '

n
i
i
) y (
n
1
2
1
. [44]

La medida de bondad de ajuste ms utilizada parte de dicha descomposicin, se
denomina Coeficiente de Determinacin (R
2
) y se define como:

SCT
SCR
SCT
SCE
R = = 1
2
. [45]
As definido, es fcil comprobar que 0 R
2

1, de manera que
R
2

= 0 SCR = SCT; SCE = 0 Toda la variabilidad de y
i
es atribuible a los
residuos y el modelo ajustado "no explica" nada Ajuste totalmente intil.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
24
R
2

= 1 SCE = SCT; SCR = 0 Toda la variabilidad de y
i
es "explicada" por
el modelo ajustado, los residuos son todos nulos Ajuste perfecto.
En realidad R
2
nunca toma los valores extremos, pero cuanto ms se aproxima a 1 indicar
mayor capacidad de ajuste y a la inversa cuanto ms se aproxime 0. El valor de R
2
se
multiplica por 100 con objeto de interpretarlo como el porcentaje de las variaciones de y
i

explicadas por el modelo.

Teniendo en cuenta la expresin del TGRL en el contraste del modelo en su
conjunto, [41], y las expresiones matriciales de las sumas de cuadrados se deduce que:
F*
) ( ] [
) 1 ( ] ) (
1
[
1
2
k n
k y
n
n
i
i


=

=
/ y X' '

y y'
/ y X' '

) k n SCR/(
) k ( SCE

=
1 /
F
(k-1),(n-k)
. [46]
Por otra parte, se deduce que:
F*
2
2
1 1 R
R
k
k n

= , [47]
expresin que explicita la relacin entre la medida descriptiva de la bondad de ajuste, R
2
, y
el estadstico de contraste del modelo en su conjunto, F*.

El Coeficiente de Determinacin, R
2
, definido en [45] tiene las siguientes
limitaciones:
Slo es adecuado si el modelo tiene constante (trmino independiente), en caso
contrario deja de estar acotado ente 0 y 1, pudiendo tomar valores negativos, y
pierde su significado como proporcin de las variaciones de y
i
explicadas por el
modelo.
No se puede utilizar para comparar la capacidad de ajuste entre modelos que no
tengan la misma variable endgena. As, por ejemplo, si en un modelo la
variable endgena es y
i
y en el modelo alternativo es ln(y
i
), los respectivos R
2

no son comparables.
No se debe utilizar para comparar la capacidad de ajuste de modelos que, an
teniendo la misma variable endgena, tengan distinto nmero de variables
exgenas. Esta limitacin se debe a que R
2
no tiene en cuenta la prdida de g.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
25
de l. que se produce al aadir variables exgenas a un modelo. As, aunque la
variable aadida no sea estadsticamente relevante, el R
2
del modelo ampliado
tiende a aumentar, indicando mayor capacidad de ajuste. Por tanto, si se
utilizara para elegir entre especificaciones alternativas se tendera a elegir
modelos sobreparametrizados.

Para resolver la tercera limitacin citada se ha definido el Coeficiente de
Determinacin Corregido de la prdida de g. de l, denotado como
2
R ,
k - n
- n
R
n
SCT
k n
SCR
R
1
) 1 ( 1
1
1
2 2
=

= . [48]
La correccin de la prdida de g. de l. puede compensar la disminucin en la SCR que
provoque la inclusin de una variable explicativa adicional y hacer que el
2
R del modelo
ampliado sea igual o menor que el del modelo inicial. En ese caso la variable adicional no
mejora realmente la capacidad de ajuste del modelo y no debera incluirse. Ntese que
2
R
tampoco se puede interpretar como la proporcin de las variaciones de y
i
explicadas por el
modelo.

Contraste de un subconjunto de coeficientes
Sea el modelo de regresin lineal general, con las hiptesis habituales,
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

; i = 1, 2, ....., n,
en el que se quiere contrastar,
H
0
:
j
=
j+1
= .... =
k
= 0. q = k j + 1.
El modelo restringido ser, en este caso,
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
j-1
x
j-1i

+ u
i

; i = 1, 2, ....., n,
Aplicando MCO al modelo no restringido se obtendra SCR y aplicndolos al
modelo restringido se obtendra SCRr. El contraste se realiza aplicando el
TGRL, dado en [39], particularizado para este caso:

k n SCR
j k SCR
k n
j k
F

+
=

+
=
/
/
e/ e'
/ ) e e' e e' (
r r *
1 1
F
(k-j+1),(n-k)
. [49]

Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
26
2.8.- Anlisis de la variancia
En el contexto del modelo de regresin lineal general se denomina Anlisis de la
Variancia a la descomposicin de las sumas de cuadrados total, en ajustada y residual, y al
papel que desempean dichas sumas de cuadrados en el contraste de significacin conjunta
del modelo, tal como se ha tratado en el epgrafe anterior.

Fuente de
Variacin
Suma de Cuadrados g. de l. Contraste/Cociente
x
2i
, x
3i
, .... , x
ki

i = 1, 2,..., n

y X' '

n
i
i
) y (
n
1
2
1

k - 1
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

H
0
:
2
=
3
= .... =
k
= 0
F*
) ( ] [
) 1 ( ] ) (
1
[
1
2
k n
k y
n
n
i
i


=

=
/ y X' '

y y'
/ y X' '

F
(k-1),(n-k)
.
e
1
, e
2
, .... , e
n

y X' '

y y' n - k
y
1
, y
2
, .... , y
n

n
i
i
) y (
n
1
2
1
y y'
n - 1



2.9.- Prediccin
Sea el modelo de regresin lineal general, con las hiptesis habituales,
y
i
=
1
+
2
x
2i

+
3
x
3i

+ ....+
k
x
ki

+ u
i

; i = 1, 2, ....., n,
que se ha estimado por MCO, resultando
y
i
=
1

+
2

x
2i

+
3

x
3i

+ ....+
k

x
ki

+ e
i
, i = 1, 2, ....., n.
Si ahora se dispone de un conjunto de observaciones extramuestrales de las variables
exgenas, denotadas
x = {1 x
2,n+1
x
3,n+1
...... x
k,n+1
},
la prediccin consiste en contestar a las siguientes preguntas: a cunto ascendera el valor
de la endgena, y
n+1
, o el valor esperado de la endgena, E(y
n+1
), dados los valores de las
exgenas? Esto es, determinar con el modelo estimado el valor extramuestral de la
endgena que correspondera a los valores extramuestrales de las exgenas. Ntese que la
respuesta del modelo a la pregunta es nica:

1

+ n
y =
1

+
2

x
2,n+1

+
3

x
3,n+1

+ ....+
k

x
k,n+1
, [50]
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
27
de manera que
1

+ n
y es el predictor de y
n+1
por MCO.
Alternativamente, el problema se puede formular de la siguiente manera, pertenece
el vector {y
n+1
x
2,n+1
x
3,n+1
...... x
k,n+1
} a la misma poblacin que ha generado y
i
, x
ji
; i = 1,
2, ....., n; j = 1, 2, ....., k?

Si los valores de todas las exgenas {x
2,n+1
x
3,n+1
...... x
k,n+1
} estn incluidos dentro
del recorrido en la muestra, se estara realizando un ejercicio de interpolacin, mientras
que en caso contrario se estara realizando una extrapolacin, pues se estara operando con
datos "fuera de la muestra". En general se utiliza el trmino prediccin para referirse a la
extrapolacin.

Prediccin de E(y
n+1
)
Dado que,
y
n+1
=
1
+
2
x
2,n+1

+
3
x
3,n+1

+ ....+
k
x
k,n+1

+ u
n+1

,
suponiendo que se verifican la hiptesis habituales, resulta que
E(y
n+1
) =
1
+
2
x
2,n+1

+
3
x
3,n+1

+ ....+
k
x
k,n+1.

Definiendo el vector
c' = [1 x
2,n+1
x
3,n+1
...... x
k,n+1
],
se puede escribir matricialmente
y
n+1
= c' + u
n+1
, E(y
n+1
) = c' .
Ya se ha argumentado, vase el Teorema de Gauss-Markov, que

c' h

= , es un estimador
lineal, insesgado y ptimo de c' h = , por tanto se puede afirmar que
c'

1
=
+ n
y [50bis]
es un predictor lineal, insesgado y ptimo de E(y
n+1
). Efectivamente,
) ( )

( ) (
1 1 + +
= = =
n n
y E E y E c' c' , [51]
es un predictor insesgado de E(y
n+1
). Adems, se demuestra que,
c X X' c'
1 2
1 1 1 1 1
) ( ] ))' ( ))( ( [( ) (

+ + + + +
= =
u n n n n n
y E y y E y E y V [52]
es la varianza de
1

+ n
y . Dado que
1

+ n
y es una combinacin lineal de v.a. normales, se tiene
que

1

+ n
y ) ) ( , (
1 2
c X X' c' c'

u
N . [53]
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
28
Adems, dado que,

c X X' c'
c'
1
1
) (

+

u
n
y

N(0,1);
2
u
) ( e e'

2
2
e
u
S k n
=
2
k n
;
independientes, se deduce que

c X X' c'
c'
1
1
) (

+

u
n
y

:
c X X' c'
c'
) (
) (
u
1
1
2
) (

+

=

e
n
e
S
y
k n
S k n

t
n-k
. [54]
Por tanto, el intervalo de prediccin al (1-) por ciento para E(y
n+1
) = c tiene la
siguiente expresin:
] ) ( [
1
2 1
c X X' c'

+

e n
S t y

. [55]
De nuevo se trata de una de una probabilidad "fiducial" o derivada, esto es, si pudisemos
construir L intervalos de prediccin para E(y
n+1
), a partir de L conjuntos de valores
extramuestrales de las exgenas, el (1-) por ciento de ellos contendran a E(y
n+1
). En la
prctica slo se construye un intervalo de prediccin y se "confa" en que contendr a
E(y
n+1
) con un grado de confianza del (1-) por ciento.

Prediccin de y
n+1

Como ya se ha comentado, el predictor puntual sigue siendo c'

1
=
+ n
y . El error de
prediccin, diferencia entre el valor observado y el predicho es
y
n+1

1

+ n
y = c' + u
n+1
c'

=
1 1
)

(
+ +
=
n n
e u c' .
Es fcil comprobar que
0 ) )

( ( 0 ) (
1
= =
+
c' E e E
n
,
y se puede demostrar
6
que
] ) ( 1 [ ] ))

( ))(

( [( ) (
1 2
1 1 1
c X X' c' ' c' c'

+ + +
+ = =
u n n n
u u E e V . [56]
Dado que
1 + n
e es una combinacin lineal de v.a. normales, se tiene que

1 + n
e )] ) ( 1 [ , 0 (
1 2
c X X' c'

+
u
N . [57]
De nuevo el cociente entre una N(0,1) y la raz cuadrada de una
2
k n
corregida de la
prdida de g. de l., independientes, se distribuir como una t
n-k
. Por tanto,

6
Es preciso que u
n+1
y el vector de perturbaciones u sean ortogonales.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
29

c X X' c' c X X' c'
1
1 1
1
1
) ( 1

) ( 1

+ +

+
+

=
+
e
n n
e
n
S
y y
S
e
t
n-k
. [58]
El intervalo de prediccin para y
n+1
viene dado por
] ) ( 1 [
1
2 1
c X X' c'

+
+
e n
S t y

. [59]

Ntese que:
- La diferencia entre los intervalos de prediccin de E(y
n+1
) y de y
n+1
radica en que
en el segundo la incertidumbre se hace mayor al incluir a u
n+1
en la prediccin, por eso la
varianza de la prediccin es mayor.
- La amplitud del intervalo de prediccin, que mide su precisin, depende del nivel
de confianza elegido,
2
t , de la capacidad de ajuste del modelo,
e
S , y de la discrepancia
entre los valores extramuestrales de las exgenas, {x
2,n+1
x
3,n+1
...... x
k,n+1
}, y los valores
muestrales utilizados en la estimacin del modelo
7
.

Si las observaciones de las variables son temporales se pueden considerar diferentes
tipos de predicciones/simulaciones, tal como se esquematiza en la figura adjunta
8
.














7
Dados los otros dos factores, la amplitud del intervalo de prediccin es mnima si los valores
extramuestrales de las exgenas coincidiesen con sus medias muestrales. En ese caso se estara realizando
una interpolacin y no una prediccin propiamente dicha.
8
Figura tomada de Otero (1993): Econometra: Series temporales y prediccin. Ed. AC. 1993
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
30
Los distintos perodo de tiempo, predicciones y simulaciones considerados son:
Perodo muestral: Perodo comprendido entre el tiempo t
1
y t
2
, es el perodo al
que corresponden las observaciones utilizadas en la estimacin del modelo.
Perodo de prediccin ex post, comprendido entre el tiempo t
2
y el tiempo t
3
, es
el perodo al que corresponden las observaciones no utilizadas en la estimacin
del modelo que se utilizan para valorar la capacidad predictiva de ste. Esto es,
estimados los parmetros del modelo con las observaciones del perodo
muestral, se obtienen las predicciones
3 2 2 1 2
t t t
y y y ,...., ,
+ +
de la endgena con los
valores de las variables exgenas disponibles desde t
2+1
hasta t
3
. Dado que los
valores observados de la endgena son conocidos, este ejercicio se denomina
prediccin ex post y sirve para valorar la capacidad predictiva del modelo,
puesto que se pueden comparar los valores observados y predichos de y.
Perodo de prediccin ex ante, que se refiere a un tiempo posterior a t
3
, y para
el que no se dispone de observaciones de las variables, ya sean exgenas o
endgena. Las predicciones de la endgena realizadas para ese perodo estn
condicionadas a los valores futuros predichos de las exgenas y se denominan
ex ante justamente porque se realizan antes de que se hayan observado los
datos. Si las predicciones se realizan hasta el tiempo t
4
, ste se denomina
horizonte de la prediccin.
Una vez estimado el modelo con datos del perodo muestral (t
1
,t
2
), si se
predicen los valores de la endgena en ese perodo
9
se est realizando un
ejercicio de simulacin histrica. Con este ejercicio se puede evaluar la
capacidad de ajuste/simulacin del modelo, realizar un anlisis del perodo
muestral y elegir entre mtodos de estimacin alternativos.
Si estimado el modelo con datos del perodo muestral (t
1
,t
2
) se predicen los
valores de la endgena para tiempos anteriores a t
1
se est realizando un
ejercicio de simulacin hacia atrs, con el que se puede analizar la estabilidad
dinmica del modelo o reproducir los valores anteriores de la endgena
10
.


9
Si el modelo es esttico los valores ajustados en el perodo muestral coinciden con los predichos, pero si el
modelo es dinmico no coincidirn porque se acumularn los errores de prediccin a medida que el horizonte
de la prediccin va aumentando.
10
Si los datos son de corte transversal tambin se pueden realizar ejercicios de simulacin histrica,
prediccin ex post y prediccin ex ante. En ese caso se tratara, respectivamente, de predecir valores
extramuestrales conocidos de la endgena (ex post) o condicionados a valores extramuestrales predichos de
las exgenas (ex ante). La utilidad de esos ejercicios es la misma que en el caso de datos temporales.
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
31
2.10.- Fuentes de error de las predicciones. Evaluacin de la capacidad
predictiva de los modelos

No cabe esperar que un modelo, por muy adecuado y completo que sea, prediga o
simule sin error los valores futuros de la endgena. Ello se debe a que toda
prediccin/simulacin est afectada por algunas de las denominadas fuentes de error,
entre ellas:
En la simulacin histrica las fuentes de error que pueden estar presentes son:
Factores aleatorios: E(u
i
) = 0 pero, en general, u
i
0.
Error de muestreo:

.
Errores de especificacin del modelo.
En los modelos dinmicos los errores son acumulativos. En los modelos
multiecuacionales una ecuacin puede provocar errores de
prediccin/simulacin, aunque las restantes estn bien especificadas y
el ajuste sea adecuado.
En la prediccin ex post, a los errores ya sealados se aade la posibilidad de
que se produzca un cambio estructural que afecte a la relacin entre endgena y
exgenas durante el perodo de prediccin.
En la prediccin ex ante, a los errores ya sealados se aaden los derivados de:
Operar con valores predichos de las variables exgenas, que implican
errores.
En el caso de los modelos dinmicos operar con valores predichos de la
endgena retardada.

Finalmente, conviene sealar que a medida que el horizonte de prediccin es ms
lejano, se tiene mayor incertidumbre y mayor probabilidad de error, lo que se traduce en
intervalos de prediccin cada vez ms amplios. Como se deduce de la relacin de las
fuentes de error de la prediccin, un modelo con alta capacidad de ajuste no implica
necesariamente una alta capacidad predictiva.

Ajustado un modelo de regresin lineal con datos del perodo t = 1, 2,.,T,
denotando
l T
Y
+

la prediccin de
l T
Y
+
, para l = 1, 2,, h, en el perodo de prediccin ex
post, las medidas de valoracin de la capacidad predictiva ms usuales son:
Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
32
Raz del Error Cuadrtico Medio:
RECM =
2
1

( )
T h
t t
t T
Y Y
h
+
= +

;
que se expresa en la misma unidad de medida de la variable.

Error Absoluto Medio:
EAM =
1

T h
t t
t T
Y Y
h
+
= +

;
que se expresa en la misma unidad de medida de la variable.

Error Absoluto Medio Porcentual:
EAMP =
1

100
T h
t t
t T t
Y Y
h
Y
+
= +


`

)

;
que es una medida adimensional, se expresa en porcentajes.

Coeficiente de Desigualdad de Theil:
U =
2
1
2 2
1 1

( )

T h
t t
t T
T h T h
t t
t T t T
Y Y h
Y h Y h
+
= +
+ +
= + = +


;
que es una medida adimensional.
U = 0 indica que las predicciones son perfectas, coinciden con los valores observados,
U =1 indica que el modelo predice muy mal (igual que un modelo naif en el que
1

t t
Y Y

=
, t).
Por tanto, cuanto ms prximo a cero est U, mayor capacidad predictiva tiene el modelo.
Ntese que en el numerador de U figura la RECM de la prediccin, por lo que se puede
descomponer aditivamente en los componentes de sesgo, varianza y covarianza. De
manera que:
U
s
2
+U
v
2
+U
c
2
= 1.


Introduccin a la Econometra. Modelo de Regresin Lineal General. Francisco Trujillo
33
Donde:
U
s
2
denota la proporcin que representa la componente sesgo de U, mide la
diferencia entre la media de los valores predichos y observados,
U
v
2
denota la proporcin que representa la componente varianza de U, mide la
diferencia entre la desviacin estndar de los valores predichos y observados,
U
c
2
denota la proporcin que representa la componente covarianza de U, mide el
resto de errores de prediccin no sistemticos.
Si la prediccin es acertada los componentes de sesgo y varianza deben ser pequeos,
indicando con ello que los errores de prediccin no son sistemticos.

Anda mungkin juga menyukai