Anda di halaman 1dari 319

1

ECONOMETRA:
MODELOS ECONOMTRICOS
Y SERIES TEMPORALES
CON LOS PAQUETES  TSP Y TSP

J. M.a CARIDAD y OCERIN

Tomo 1:
Modelos economtricos uniecuacionales

EDITORIAL REVERT, S. A.
Barcelona - Bogot - Buenos Aires - Caracas - Mxico

Econometra: Modelos economtricos y series temporales


con los paquetes PTSP y TSP
Tomo 1:
Modelos economtricos uniecuacionales

Copyright Jos M. Caridad y Ocerin


ccjm@uco.es

Edicin en e-book:
Editorial Revert. S.A., 2012
ISBN: 978-84-291-9017-5
Edicin en papel:
Editorial Revert. S.A., 1998
ISBN: 978-84-291-2611-2

Propiedad de:
EDITORIAL REVERT, S. A.
Loreto, 13-15, Local B
08029 Barcelona
Tel: (34) 93 419 33 36
Fax: (34) 93 419 51 89
reverte@reverte.com
www.reverte.com
Reservados todos los derechos. La reproduccin total o parcial de esta obra, por cualquier
medio o procedimiento, comprendidos la reprografa y el tratamiento informtico, y la distribucin de ejemplares de ella mediante alquiler o prstamo pblicos, queda rigurosamente prohibida sin la autorizacin escrita de los titulares del copyright, bajo las sanciones establecidas por
las leyes.

A Rosy, Daniel y Lorena

Prlogo

La Ciencia Econmica, en los ltimos cincuenta aos, ha evolucionado hacia un positivismo, siguiendo un proceso de cuantificacin tanto
a nivel macroeconmico como en el mbito empresarial.
El uso de modelos matemtico-estadsticos, a partir de los aos
cuarenta del siglo XX, en la estimacin de relaciones econmicas, dio
origen al desarrollo de la Econometra como rama de la Economa
aplicada. Nuevos mtodos estadsticos, como la inferencia en modelos multiecuacionales, surgen en el mbito economtrico, y otras tcnicas, como la teora de series temporales, el filtrado de procesos, los
modelos con variables latentes y algunos mtodos estadsticos multivariantes, se integran en los programas docentes de Economa cuantitativa, y constituyen hoy en da una herramienta indispensable para
el economista que ejerce su profesin en los ms variados entornos.
En este libro se presenta el contenido de un curso de Econometra
para estudiantes de las licenciaturas en Ciencias Econmicas y Empresariales, que hayan cursado previamente las asignaturas de Matemticas, Estadstica y Teora Econmica. En la primera parte se tratan
los modelos uniecuacionales, con una amplitud superior a la habitual
en los cursos de Estadstica aplicada, y poniendo nfasis en los problemas que se presentan en la modelizacin econmica, y en los modelos con variables cualitativas; en la segunda parte se estudian los
modelos multiecuacionales, y la ltima est dedicada a la teora de series temporales y modelos dinmicos, incluyendo la metodologa de
Box-Jenkins, el anlisis espectral y los mtodos clsicos de anlisis de
series.
En el texto se presentan numerosos problemas resueltos, y propuestos, as como una introduccin a los paquetes de programas economtricos TSP y TSP, con los que se elaboran los ejemplos. Todos
los conjuntos de datos manejados en los ejemplos estn contenidos en
el disquete adjunto, as como algunos programas auxiliares usados en
el texto. Tambin estn disponibles un juego de transparencias que
corresponden a los temas y ejemplos.
Crdoba, 1997

VII

ndice analtico

PRLOGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII
Captulo 1

INTRODUCCIN A LOS MODELOS ECONOMTRICOS . . . .1

1.1 MODELOS ECONMICOS Y ECONOMTRICOS . . . . . . . . . . . . . . . . . . 1


1.2 ELEMENTOS DE UN MODELO ECONOMTRICO . . . . . . . . . . . . . . . . . 3
1.3 FASES EN LA CONSTRUCCIN DE UN MODELO . . . . . . . . . . . . . . . . . 6
1.4 DESARROLLO HISTRICO DE LA ECONOMETRA . . . . . . . . . . . . . . . . 8
1.5 FUENTES DE ESTADSTICAS ECONMICAS . . . . . . . . . . . . . . . . . . . . . 10
1.6 PAQUETES DE PROGRAMAS ECONOMTRICOS . . . . . . . . . . . . . . . . . 13
ANEXO I

CLCULO DE PROBABILIDADES . . . . . . . . . . . . . . . . . . . 16

ANEXO II

MTODOS ESTADSTICOS BSICOS EN ECONOMETRA 26

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Captulo 2

ASOCIACIN ENTRE VARIABLES. EL MTODO


DE MNIMOS CUADRADOS . . . . . . . . . . . . . . . . . . . . . . . . .37

2.1 MODELO DE REGRESIN SIMPLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Ejemplo 1. Ajuste de una recta de regresin . . . . . . . . . . . . . . . 41


2.2 MODELO DE REGRESIN MLTIPLE . . . . . . . . . . . . . . . . . . . . . . . . . . 43

Ejemplo 2. Modelo de regresin mltiple . . . . . . . . . . . . . . . . . 45

IX

X
NDICE ANALTICO

2.3 MODELO DE REGRESIN MLTIPLE: NOTACIN MATRICIAL . . . . . 47

Ejemplo 3.

Modelo de regresin simple en notacin matricial 49

2.4 MEDIDAS DE AJUSTE: COEFICIENTES DE DETERMINACIN . . . . . . . 50

Ejemplo 4. Coeficientes de determinacin . . . . . . . . . . . . . . . . 52


2.5 TEORA DE LA CORRELACIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

Ejemplo 5. Correlacin simple y parcial . . . . . . . . . . . . . . . . . . 59


Ejemplo 6. Coeficientes de correlacin ordinario
y de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.6 REGRESIN NO LINEAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

Ejemplo 7. Estimacin de una funcin de produccin . . . . . . . 66


ANEXO I

LGEBRA MATRICIAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Captulo 3

EL MODELO LINEAL UNIECUACIONAL . . . . . . . . . . . . . . . .83

3.1 ESTIMACIN DEL MODELO LINEAL . . . . . . . . . . . . . . . . . . . . . . . . . . 83


3.2 PROPIEDADES MUESTRALES DE LOS ESTIMADORES . . . . . . . . . . . . . 86
3.3 CONTRASTES DE HIPTESIS SOBRE LOS COEFICIENTES
DEL MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Ejemplo 1. Contrastes sobre los coeficientes de


regresin del modelo . . . . . . . . . . . . . . . . . . . . . . . 94
3.4 CONTRASTES DE ANLISIS DE LA VARIANZA . . . . . . . . . . . . . . . . . . . 98

Ejemplo 2. Contraste F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100


Ejemplo 3. Contraste de anlisis de la varianza sobre
la estacionalidad de una serie . . . . . . . . . . . . . . . . 104
3.5 ANLISIS DE RESIDUOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

Ejemplo 4. Grficos de residuos . . . . . . . . . . . . . . . . . . . . . . . 113


3.6 INTERPOLACIN Y PREDICCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

Ejemplo 5. Interpolacin por punto y por intervalo . . . . . . . . 117


3.7 OBSERVACIONES INFLUYENTES . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Captulo 4

PROBLEMAS EN LA ESTIMACIN DE MODELOS . . . . . . . .125

4.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125


4.2 ESPECIFICACIN Y ERRORES EN LAS VARIABLES . . . . . . . . . . . . . . . 126

4.3 MULTICOLINEALIDAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

XI

4.3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128


4.3.2 Deteccin y medida de la multicolinealidad . . . . . . . . . . . . . . . 129

NDICE ANALTICO

Ejemplo 1. Modelo con multicolinealidad . . . . . . . . . . . . . . . 130


4.3.3 Estimacin de modelos con multicolinealidad . . . . . . . . . . . . . 132

Ejemplo 2. Regresin en componentes principales . . . . . . . . 134


4.4 MODELOS CON VARIABLES RETARDADAS . . . . . . . . . . . . . . . . . . . 135
4.4.1 Modelos dinmicos y retardos . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4.2 Modelos con retardos geomtricos o exponenciales . . . . . . . . . 137

Ejemplo 3. Modelo de expectativas adaptativas . . . . . . . . . . . 139


Ejemplo 4. Modelo de ajuste parcial o de Nerlove . . . . . . . . 140
4.4.3 Modelos con retardos distribuidos polinomiales . . . . . . . . . . . . 140

Ejemplo 5. Modelo con retardos distribuidos . . . . . . . . . . . . 142


4.4.4 Estimacin de modelos con variables retardadas . . . . . . . . . . . . 144
4.5 OTROS PROBLEMAS ASOCIADOS A LA ESTIMACIN
DE MODELOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.5.1 Falta de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Ejemplo 6. Recuperacin de datos que faltan . . . . . . . . . . . . 145


4.5.2 La agregacin de magnitudes econmicas . . . . . . . . . . . . . . . . 147
ANEXO I

ANLISIS EN COMPONENTES PRINCIPALES . . . . . . . . . 150

Ejemplo 7. Redundancia en la Contabilidad Nacional


de Espaa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Captulo 5

EL MODELO LINEAL GENERAL . . . . . . . . . . . . . . . . . . . . . . 163

5.1 INTRODUCCIN AL PROCESO DE MODELIZACIN . . . . . . . . . . . 163


5.2 EL MTODO DE AITKEN O DE MNIMOS CUADRADOS
GENERALIZADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.3 MODELOS CON HETEROCEDASTICIDAD . . . . . . . . . . . . . . . . . . . . 170
5.3.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
5.3.2 Modelos para representar la heterocedasticidad . . . . . . . . . . . . 171
5.3.3 Contrastes para detectar la heterocedasticidad . . . . . . . . . . . . . 173

Ejemplo 1. Modelo con heterocedasticidad . . . . . . . . . . . . . . 176


5.4 MODELOS CON AUTOCORRELACIN . . . . . . . . . . . . . . . . . . . . . . 179
5.4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
5.4.2 Modelos bsicos para la autocorrelacin: propiedades . . . . . . . 180

XII
NDICE ANALTICO

5.4.3 Contrastes para detectar la autocorrelacin . . . . . . . . . . . . . . . . 184

Ejemplo 2. Modelo con autocorrelacin . . . . . . . . . . . . . . . . . 187


5.4.4 Prediccin en un modelo con autocorrelacin . . . . . . . . . . . . . . 191

Ejemplo 3. Prediccin en un modelo con autocorrelacin . . . 191


EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

Captulo 6

MODELOS CON VARIABLES CUALITATIVAS . . . . . . . . . . .199

6.1 ESCALAS DE MEDIDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199


6.2 VARIABLES CATEGRICAS EXGENAS . . . . . . . . . . . . . . . . . . . . . . . 201

Ejemplo 1. Comparacin de dos modelos . . . . . . . . . . . . . . . . 203


6.3 VARIABLES ARTIFICIALES EN MODELOS TEMPORALES . . . . . . . . . . 205

Ejemplo 2. Anlisis de una serie trimestral . . . . . . . . . . . . . . . 207


6.4 MODELOS CON VARIABLE ENDGENA NO NUMRICA . . . . . . . . . 211
6.4.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
6.4.2 Modelos de eleccin binaria . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

Ejemplo 3. Modelo Logit para concesin de un crdito . . . . . 214


Ejemplo 4. Modelos Probit y Logit sobre la propiedad
de la vivienda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

Captulo 7

MICRO-TSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .221

7.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221


7.2 UNA SESIN SIMPLE DE TSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
7.3 FICHEROS DE DATOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
7.4 OTROS FICHEROS Y CONFIGURACIN . . . . . . . . . . . . . . . . . . . . . . 233
7.5 GESTIN DEL ESPACIO DE TRABAJO . . . . . . . . . . . . . . . . . . . . . . . . 235
7.6 TRANSFORMACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
7.7 PROGRAMAS TSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
7.8 ESTIMACIN DE MODELOS UNIECUACIONALES . . . . . . . . . . . . . . . 247
ANEXO I

ALGUNOS PROGRAMAS AUXILIARES . . . . . . . . . . . . . . 251


Estimacin mnimo cuadrtica y descripcin de datos . . . . 251
Redondeo de una variable . . . . . . . . . . . . . . . . . . . . . . . . . 251
Editor de series temporales . . . . . . . . . . . . . . . . . . . . . . . . 252
Anlisis espectral de una serie . . . . . . . . . . . . . . . . . . . . . . 252

EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253

Captulo 8

TSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .255

XIII
NDICE ANALTICO

8.1 INTRODUCCIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255


8.2 UNA SESIN INTERACTIVA DE TSP . . . . . . . . . . . . . . . . . . . . . . . . . 257
8.3 UNA SESIN EN PROCESO POR LOTES . . . . . . . . . . . . . . . . . . . . . . 261
8.4 INSTRUCCIONES DE TSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
8.5 GRFICOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
8.6 TRANSFORMACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
8.7 MATRICES E INSTRUCCIONES DE PROGRAMACIN . . . . . . . . . . . 275
8.8 ESTIMACIN DE MODELOS UNIECUACIONALES . . . . . . . . . . . . . . 280
EJERCICIOS PROPUESTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 288

BIBLIOGRAFA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .289
REVISTAS DE ECONOMETRA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .293
TABLAS ESTADSTICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .295
NDICE ALFABTICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .299

1
Introduccin
a los modelos economtricos

1.1 MODELOS ECONMICOS Y ECONOMTRICOS


1.

La Teora Econmica postula una serie de relaciones causales entre diversas magnitudes econmicas. Por ejemplo, el ahorro de una
familia es funcin de sus ingresos
A = f (I )
o el consumo de un pas es funcin de la renta nacional
C = g(R).

(1.1)

Es muy frecuente que adems se impongan algunas restricciones


sobre estas funciones. As, por ejemplo, el consumo crece con la renta
y adems un incremento unitario de la renta nacional produce un aumento menor en el consumo; esto se representa indicando que la propensin marginal al consumo verifica que
dC
0 < ------- < 1.
dR
Bajo un modelo keynesiano, un incremento relativo de la renta
(por ejemplo, del 1%) induce un aumento relativo inferior en el consumo, o lo que es lo mismo, la elasticidad del consumo respecto de la
renta es
dC/C
dln C
C/R = ------------------ = --------------- < 1.
dR/R
dln CR

2.

Pero la Teora Econmica no precisa cul es el valor de la elasticidad anterior o de la propensin marginal al consumo, ni siquiera cul
es la forma funcional de la relacin C = g(R). Sin embargo, en los ltimos sesenta aos se publican en la mayora de los pases numerosas
estadsticas econmicas, y en muchas de ellas se ofrecen datos de consumo y de renta nacional. Esto sugiere la posibilidad de abordar la cuantificacin de stas y de otras relaciones entre magnitudes macro y
microeconmicas. La Econometra aborda el problema de elaborar
modelos que midan las relaciones causales entre variables econmicas.

3.

Al plantear un modelo econmico, en una primera fase, se formulan las relaciones causales entre las variables objeto de estudio, as
como las restricciones existentes en esas relaciones.
Para cuantificar una relacin es necesario disponer de datos numricos de las variables y plantear las relaciones que existen o que se
supone que existen entre ellas. As, por ejemplo, si la propensin marginal al consumo es constante

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

dC
------- = ,
dR

el modelo (1.1) anterior se puede formular como un modelo lineal


C = + R;
y si la elasticidad del consumo respecto de la renta es inferior a la unidad, entonces ser > 0 pues

R dC
R
R
C/R = ---- ------- = ------- = -----------------.
+ R
C dR
C
C

Pero podra ocurrir que el consumo creciera exponencialmente


con la renta, siendo
C = e

o que estuviese relacionado con ella mediante la expresin


2

C = + 1 R + 2 R ,

o con cualquier otra forma funcional.


4.

El proceso de estimacin de un modelo previamente especificado


consiste en la estimacin de los parmetros (como , , 1, 2) que intervienen en l.
En todos los casos, estos modelos econmicos no sirven para representar de forma exacta las relaciones anteriores utilizando datos

reales. Existe siempre una discrepancia o error, que se denomina perturbacin aleatoria, , entre los valores medidos reales de la variable explicada y los estimados mediante el modelo.
En todos los modelos economtricos se incorporan estas perturbaciones aleatorias a las formas funcionales propuestas. Por ejemplo, el
modelo de consumo anterior sera
+ ,
C = + R + = C
o bien
C = e R + = C + .
La perturbacin incorpora el efecto agregado de las restantes variables econmicas (adems de la renta) que influyen en el consumo,
pero que no han sido incluidas en el modelo. Su naturaleza es aleatoria, por lo que un modelo economtrico ser de tipo estocstico. La estimacin de sus parmetros requiere pues el uso de tcnicas de
Estadstica, algunas de las cuales se han desarrollado especficamente
para satisfacer necesidades especficas de la Econometra.
1.2 ELEMENTOS DE UN MODELO ECONOMTRICO
5.

Un modelo economtrico est formado por una o varias ecuaciones en las que la variable explicada o endgena depende de una o varias variables explicativas. Por ejemplo, la ecuacin de consumo del
apartado anterior, junto con una ecuacin de inversin y una identidad de definicin de la renta, constituyen un modelo multiecuacional:
C t = + 0 R t + 1 R t 1 + 1t ,
I t = + R t + 2t ,
Rt = Ct + I t + Gt .
En este modelo Gt representa el gasto pblico correspondiente al ao.
En el ejemplo siguiente, las ventas de una empresa se explican a partir
de un ndice de la actividad econmica general (A) y de la inversin
en publicidad (P)
V t = + 1 At + 2 Pt + t .
Por lo tanto, un modelo economtrico est formado por:
una o varias ecuaciones o relaciones estructurales,
las variables explicativas y explicadas,
los parmetros ( y ) a estimar, y, por ltimo,
un conjunto de observaciones o datos necesarios para el proceso
de estimacin.

3
1.2 ELEMENTOS DE UN MODELO
ECONOMTRICO

6.

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

En funcin del nmero de ecuaciones, un modelo economtrico


puede ser
uniecuacional, o
multiecuacional.
Algunas de las ecuaciones no contienen parmetros a estimar ni
perturbacin aleatoria, y se denominan identidades contables. En este
texto se estudian inicialmente los modelos uniecuacionales tanto de
tipo esttico, o sea, con datos no temporales o de corte transversal,
como los de tipo dinmico, en los que las variables se observan en distintos instantes del tiempo.

7.

En cada ecuacin, la variable explicada se denomina endgena y se


representar en general con la letra Y. Una variable es endgena si es
influida por alguna otra variable del modelo (endgena o no).
En un modelo uniecuacional existir una sola variable endgena,
que no puede influir en las variables explicativas o predeterminadas. Estas variables predeterminadas son causa de la variabilidad de la variable endgena; si el modelo es dinmico, las variables predeterminadas pueden ser de dos tipos:
exgenas, o variables explicativas que no son influidas por otras
variables del modelo, y
endgena retardada, que es la variable endgena medida en uno
o varios instantes anteriores.
Si el modelo uniecuacional es esttico, las nicas variables explicativas o predeterminadas son las exgenas.
En un modelo multiecuacional, las variables explicativas de una
ecuacin pueden ser las predeterminadas y/o las otras variables endgenas.
Por ejemplo, en el modelo multiecuacional formulado al principio
de este apartado las variables endgenas o explicadas son el consumo
Ct, la inversin It y la renta Rt. La nica variable exgena es el gasto
pblico Gt; adems de sta, existe otra variable predeterminada o explicativa que es la renta retardada Rt 1.
En el ejemplo de modelo uniecuacional de las ventas (Vt) de una
empresa, sta es la nica variable endgena, siendo ambas variables
predeterminadas, At y Pt, de tipo exgeno.

8.

En definitiva, el carcter exgeno o endgeno de una variable depende del modelo en el que interviene, y se establece en funcin de
consideraciones econmicas sobre las relaciones causa-efecto especificadas en ese modelo.

9.

Los parmetros o coeficientes a estimar en un modelo se denominan estructurales porque representan el efecto directo o estructural de
cada variable explicativa (predeterminada o endgena, en modelos
multiecuacionales) sobre cada variable endgena o explicada. Son
cantidades fijas o constantes que se deben estimar a partir de los datos
de las variables. Los modelos se clasifican en lineales o no lineales en

funcin de los parmetros; por ejemplo son modelos lineales los siguientes
Y = + X +
ln Y = + X +
1/Y = + 1 X + 2 X 2 + ,
y, en general, si las funciones f() y g() son conocidas, tambin es lineal el modelo
f (Y) = 0 + 1 g 1(X 1 , , X k) + + r g r(X 1 , , X k) + ,
ya que mediante el cambio de variables
Y * = f (Y)

x 1* = g 1(X 1 , , X k), ,

x r* = g r(X 1 , , X k)

se convierte en el hiperplano
Y * = 0 + 1 x 1* + + r x r* + .
Un modelo no lineal (con relacin a los coeficientes) es, por ejemplo,
Y = + .
Aunque el modelo siguiente, que es aproximadamente igual al anterior
Y = * e * x *
se convierte en lineal tomando logaritmos:
ln Y = ln * + * x + ln * = ** + * x + ** .
Otros modelos no lineales no son siempre linealizables siguiendo
un procedimiento como el anterior.
10.

Las perturbaciones aleatorias son trminos que se introducen en


cada ecuacin estructural (salvo en las identidades contables) para tener en cuenta la no exactitud del modelo. Representan el efecto de
otras variables explicativas no incluidas en el modelo. Los valores estimados u observados de estas perturbaciones se denominan residuos.

11.

Los datos o informacin estadstica sobre las variables del modelo


se usan para estimar los coeficientes o parmetros estructurales. El
conjunto de datos disponible es generalmente una muestra aleatoria
tomada de una poblacin o colectivo, al que se trata de aplicar el modelo estimado; en este caso se est ante un problema de inferencia es-

5
1.2 ELEMENTOS DE UN MODELO
ECONOMTRICO

tadstica, y cada una de las observaciones debe ajustarse al modelo.


Por ejemplo, en el caso de un modelo uniecuacional simple que es

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

Yi = + xi + i

i = 1n

y las perturbaciones 1, 2, , n tienen el carcter de variables aleatorias, sobre cuya distribucin probabilstica se realizan a priori algunas
hiptesis o restricciones lgicas, como por ejemplo
E( i) = 0,

V ( i) = 2 ,

Cov( i , i) = 0,

i = 1n
i i

e incluso se supone que se ajustan a una ley Normal.


En otras ocasiones, menos frecuentes, las n perturbaciones 1,
2, , n son simplemente los errores o residuos asociados a cada caso.
Las variables que intervienen en un modelo economtrico pueden

12.

ser
numricas o
categricas.
Es muy frecuente que se introduzcan variables no numricas
como variables explicativas, para lo cual es preciso usar unas variables auxiliares o artificiales para codificar las distintas categoras. Por
ejemplo, la variable sexo se codificara con una variable artificial binaria (0 para un sexo y 1 para el otro). Sin embargo, si hay ms de dos
categoras, como en la variable aceptacin de un producto (que puede
ser nula, regular, buena o muy buena), sern precisas varias variables
artificiales binarias. Incluso la variable endgena puede ser categrica, dando origen a los modelos Logit, Probit, Tobit o similares.
13.

Dependiendo que los valores de las variables se tomen en distintos


instantes del tiempo, o que se tomen en un mismo instante pero se refieran a distintas personas, empresas o unidades experimentales, las
variables y los modelos correspondientes se denominan dinmicos en
el primer caso, y estticos o de corte transversal en el segundo. Al estudiar modelos dinmicos se emplear el subndice t para hacer referencia a los distintos datos, mientras que en los modelos estticos es ms
frecuente usar el subndice i.
1.3 FASES EN LA CONSTRUCCIN DE UN MODELO

14.

Al plantear la estimacin de un modelo economtrico es necesario


disponer de informacin estadstica de las variables que se utilizarn
en la construccin de ste, y tener claros los objetivos perseguidos.
En la elaboracin de un modelo se distinguen tres fases:
especificacin,
estimacin de los parmetros y
contrastes diagnsticos o de validacin.

15.

16.

En la fase de especificacin se formula el modelo estructural, y


para ello hay que decidir, en primer lugar, si habr una sola variable
endgena o, por el contrario, ms de una. A continuacin deben seleccionarse las variables explicativas de cada una de las ecuaciones
del modelo y, por ltimo, se formularn esas ecuaciones eligiendo la
forma de cada una de ellas (lineal o no lineal). Es muy frecuente que
en esta fase se planteen varios modelos alternativos, ya que, aunque
se tenga una idea previa de la forma del modelo, es recomendable
probar distintos modelos similares alternativos, incorporando todas
o parte de las variables explicativas, con distintas formas funcionales,
etc., hasta lograr el modelo definitivo.
La fase de estimacin de los parmetros estructurales se aborda
una vez especificado el modelo. Los mtodos de estimacin dependern del tipo de modelo. Si ste es uniecuacional, los mtodos ms
usuales son:
el mtodo de mnimos cuadrados ordinarios,
el mtodo de mnimos cuadrados generalizados o de Aitken, y
el mtodo de mxima verosimilitud.
En el caso de modelos multiecuacionales, cada ecuacin se puede
estimar (si cumple unas condiciones de estimabilidad o identificabilidad) mediante unas variantes de los mtodos anteriores:
el mtodo de mnimos cuadrados bietpicos, o
el mtodo de mxima verosimilitud con informacin limitada,
y si todo el modelo es estimable o identificable, mediante
el mtodo de mnimos cuadrados trietpicos, o
el mtodo de mxima verosimilitud con informacin completa.
Los estimadores obtenidos se juzgan en funcin de las propiedades de su distribucin muestral, lo que se estudiar en captulos sucesivos.

17.

En la fase de contrastes diagnsticos o de validacin del modelo,


se trata de comprobar si la especificacin ha sido adecuada. Para ello
se formulan una serie de contrastes de hiptesis sobre los coeficientes
() de la forma
H0 : = 0
H1 : 0
con objeto de confirmar la influencia de una variable explicativa, o de
eliminarla del modelo.
Tambin se analizan los residuos o errores cometidos y se calculan
medidas de ajuste del modelo estimado a los datos.

18.

Si en la fase de contrastes de validacin el modelo no se considera


adecuado (total o parcialmente), es necesario volver a la especificacin inicial y modificarla, iniciando de nuevo todo el proceso. Cuando el modelo supere los distintos contrastes de validacin, podr ser

7
1.3 FASES EN LA CONSTRUCCIN
DE UN MODELO

8
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

utilizado para la previsin de las variables endgenas, o para interpretar econmicamente los parmetros estructurales.
19.

A veces, la estimacin de un modelo se realizar para estudiar la


variacin conjunta de dos o ms variables, sin extrapolacin de los
datos. En estos casos, poco frecuentes, el ajuste mnimo cuadrtico,
las medidas de ajuste y el anlisis de los residuos son suficientes, ya
que no es posible aplicar contrastes de hiptesis en una situacin puramente descriptiva.
1.4 DESARROLLO HISTRICO DE LA ECONOMETRA

20.

La Econometra se puede considerar como una rama de la Teora


Econmica, en la que se utilizan mtodos y tcnicas de Estadstica
Matemtica en la estimacin de relaciones econmicas. Su desarrollo
histrico se remonta al final del primer tercio del siglo XX, o sea a una
poca en la que la economa de los principales pases desarrollados
entr en una fase depresiva. Fue precisamente este hecho uno de los
motivos del aumento del inters de los Estados por mejorar su conocimiento cuantitativo de las economas nacionales, y por analizar las
relaciones existentes entre macromagnitudes que dependan, en parte, de la poltica econmica seguida.

21.

El 29 de diciembre de 1930 se funda en Cleveland (Estados Unidos) la Econometric Society y en 1933 se inicia la publicacin de la revista Econometrica, donde se han publicado la mayora de los avances
tericos y aplicados de la Econometra moderna. Algunos economistas insignes, como J. M. Keynes, criticaron los esfuerzos de J. Tinbergen en el campo de la modelizacin, aunque los hechos posteriores
confirmaron al enfoque cuantitativo como la nica va posible en la
conduccin de la poltica econmica de un pas y en la evaluacin de
los impactos de las medidas tomadas. Fue precisamente Jan Tinbergen el autor del primer tratado sobre Econometra, publicado en 1949.
Otras revistas bsicas que contienen trabajos economtricos son: Journal of the American Statistical Association, Journal of Econometrics, International Economic Review, Journal of Time Series, Annals of Economic and
Social Measurement, Review of Economic and Statistics, Review of Economic Studies, Journal of Financial and Quantitative Analysis, Journal of
Marketing Research, Revista Espaola de Economa y otras.

22.

En el campo sectorial, los economistas del Ministerio de Agricultura de los Estados Unidos de Amrica iniciaron en los aos veinte
varios trabajos de modelizacin aplicados a la formulacin de la poltica agraria.

23.

La Comisin Cowles, creada en 1933, dirigida primero por J. Marshak y posteriormente por T. C. Koopmans, sent las bases de la Econometra actual, a travs de una serie de monografas en las que se
exponen los nuevos mtodos estadsticos desarrollados para resolver
los problemas asociados a la estimacin de los modelos economtri-

cos. Entre estas monografas cabe citar la nmero 10, Statistical Inference in Dynamic Economic Models, y la 14, Studies in Econometric
Method.
24.

Ya en 1944, T. Haavelmo, en su libro The Probability Approach in


Econometrics, defendi la naturaleza esencialmente estocstica de la
Teora Econmica, en contradiccin con el enfoque neoclsico que
consideraba, quizs por influencia del gran desarrollo en el siglo XIX
de las Ciencias Fsicas, que la Economa estaba gobernada por una serie de leyes exactas, y que, si stas no se llegaban a cumplir, era porque nuestro nivel de conocimiento sobre ellas era incompleto. Por
primera vez se propuso un enfoque estadstico coherente para la Economa.

25.

En la primera mitad del siglo los mtodos de clculo se basaban en


calculadoras mecnicas, lo que impidi aplicar el mtodo de mxima
verosimilitud en la estimacin de modelos multiecuacionales; M. A.
Girshik desarroll el mtodo de mxima verosimilitud con informacin limitada, siendo ste uno de los primeros mtodos estadsticos
que se cre para resolver un problema economtrico.
Tambin en los aos cuarenta se estudi el problema de la identificabilidad o estimabilidad de las ecuaciones de un sistema multiecuacional, cuestin sta comn a otros mtodos estadsticos como el
anlisis factorial o los modelos con variables latentes o no observables.

26.

Los modelos de series temporales, hoy en da incorporados a cualquier curso de Econometra, se remontan al Renacimiento italiano, en
el mbito de la Estadstica Actuarial. Los aseguradores estimaban tendencias en las series utilizando el mtodo de medias mviles. El mtodo de mnimos cuadrados fue desarrollado por Gauss y Laplace en
los ltimos aos del siglo XVIII, y en el XIX se establecieron los fundamentos del anlisis de Fourier para representar series estacionarias
como un agregado de funciones sinusoidales. El estadstico ingls
G. U. Yule utiliz, en 1937, modelos autorregresivos, que fueron tratados de forma extensa por H. C. A. Wold en 1938. E . Slutsky mostr
que el proceso de agregacin sobre una serie aleatoria puede originar
oscilaciones cclicas, lo que constituy el antecedente de los modelos
ARMA introducidos por M. H. Quenouille en 1957. Unos aos antes,
D. Cochrane y G. H. Orcutt trataron la estimacin de modelos con
perturbaciones autorregresivas.

27.

Los modelos ARMA fueron difundidos en el mundo acadmico y


empresarial por G. E. P. Box, yerno de Sir R. Fisher, y G. M. Jenkins, a
partir de la publicacin en 1970 de su libro Time Series Analysis, Forecasting and Control. En l, los autores proponen la utilizacin de los operadores diferencias (yt = yt 1) y diferencias estacionales (syt = yt s)
para eliminar las tendencias en media y en la amplitud de ciclos estacionales en una serie. La familia de transformaciones propuestas por
G. E. P. Box y D. B. Cox, en 1964, completan el proceso de anlisis de
series conocido como la metodologa Box-Jenkins, en la que la tenden-

9
1.4 DESARROLLO HISTRICO DE LA
ECONOMETRA

10

cia en varianza se elimina frecuentemente con una transformacin


simple, y los modelos ARIMA resultantes suelen ser escuetos, esto es,
contienen muy pocos parmetros.

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

28.

Las previsiones obtenidas con estos modelos temporales son en


muchas ocasiones ms precisas que las calculadas mediante modelos
economtricos multiecuacionales. En los aos setenta y ochenta aparecieron numerosos artculos generalizando los modelos ARMA al
caso multivariante, y obteniendo unos modelos de regresin dinmica uni o multiecuacionales de los que los modelos economtricos dinmicos con la especificacin clsica son casos particulares.

29.

La aplicacin de mtodos bayesianos en Econometra se inicia con


los trabajos de E. E. Leamer en 1978, y de N. M. Hill y A. Z. Zellner,
aunque estos mtodos no han tenido muchos seguidores en el campo
de la aplicacin prctica.

30.

Los modelos no lineales son muy frecuentes en el anlisis econmico y la estimacin da origen a unos sistemas de ecuaciones no lineales que son en general resolubles utilizando mtodos numricos.

31.

Desde los ltimos aos de la dcada de los ochenta existen numerosos paquetes de programas para estimar modelos economtricos,
tanto en equipos multiusuario de propsito general, como en microordenadores. La labor de construccin de modelos puede ser realizada por un colectivo cada vez ms amplio de economistas, encontrndose las aplicaciones ms diversas tanto en el mbito empresarial
(prediccin econmica, estudios de mercado, anlisis de factores causales de micromagnitudes, etc.) como en la modelizacin macroeconmica.
1.5 FUENTES DE ESTADSTICAS ECONMICAS

32.

Numerosos organismos publican peridicamente datos estadsticos referidos a pases o zonas geogrficas, o a sectores econmicos.
Estos datos sern la fuente principal a la hora de elaborar modelos
economtricos de tipo macroeconmico.
Adems de los Institutos Estadsticos, hay empresas e instituciones privadas que elaboran estadsticas econmicas.
En el mbito empresarial, la recogida de datos a travs de estudios
de mercado o de las asociaciones sectoriales, adems de la informacin contable producida internamente, constituye otra fuente de datos tiles en la elaboracin de modelos.

33.

Algunos organismos, adems de proporcionar estadsticas econmicas, realizan previsiones de series macroeconmicas. Entre stos
cabe citar:
La O.C.D.E., que publica un cuadro macroeconmico y de balanza
de pagos de cada pas miembro, con periodicidad semestral.

Las Naciones Unidas en el Link World Outlook, que realizan predicciones de indicadores econmicos y de balanza de pagos de
ms de 100 pases.
El servicio de prediccin de Business International, que trata las
estadsticas de comercio y predicciones trimestrales de las principales economas mundiales.
El Economic Forecast de la revista North-Holland, que realiza predicciones mensuales de las principales macromagnitudes de los
pases desarrollados.
El semanario The Economist, que publica desde hace aos unos indicadores econmicos de los pases industrializados occidentales,
y el Global Forecasting Service de su oficina de informacin, que
produce previsiones y estadsticas de la mayora de los pases.
34.

De nuevo la revista The Economist, a travs de su grupo editorial,


edita numerosas publicaciones con estadsticas econmicas. Entre stas cabe citar las siguientes:
One Hundred Years of Economic Statistics, con datos macroeconmicos de numerosos pases para el perodo 19001987.
Vital World Statistics, en la que se recogen datos socioeconmicos
de los pases integrados en las Naciones Unidas.

35.

La Organizacin de las Naciones Unidas publica una serie de datos estadsticos de los pases miembros; cabe citar los siguientes:
Statistical Yearbook con datos demogrficos, de contabilidad nacional, industria, energa y comercio internacional y otros datos de
los pases miembros.
International Trade Statistics Yearbook: contiene datos anuales de
comercio exterior y de mercancas intercambiadas de ms de 150
pases.
UNCTAD Commodity Yearbook: con estadsticas anuales a nivel
continental y nacional de consumo y comercio de bienes del sector
primario.
Monthly Bulletin of Statistics: con datos mensuales y agregados
trimestrales de estadsticas demogrficas, ecolgicas, produccin
industrial y minera, fuentes de energa, comercio y transporte.

36.

Existen numerosos Institutos Estadsticos cuya misin es la produccin de estadsticas econmicas. As, la Comunidad Econmica
Europea tiene un Instituto Estadstico con sede en Luxemburgo encargado de producir estadsticas homogneas de los doce pases
miembros. Cada uno de stos tiene un organismo estadstico; en Espaa, el I. N. E. produce estadsticas econmicas a nivel nacional, y en
las Comunidades Autnomas hay otros Institutos estadsticos. La
Oficina de Estadstica de la C. E. E. edita en disco ptico su anuario
Eurostat con datos macroeconmicos de la Comunidad, Estados Unidos y Japn, con datos regionales comunitarios y de movimiento comercial.

11
1.5 FUENTES DE ESTADSTICAS
ECONMICAS

12
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

37.

En Espaa, adems del I. N. E., el servicio de estudios del Banco


de Espaa produce un boletn estadstico mensual de datos monetarios y financieros; el Ministerio de Economa, a travs de la Direccin
General de Previsin y Coyuntura edita las estadsticas bsicas de comercio y las relacionadas con la poltica econmica, y dispone de un
amplio banco de datos de series temporales relativas a la economa
espaola. Adems, varias empresas, entre las que hay que citar el
Banco de Bilbao-Vizcaya, elaboran unos informes econmicos anuales, y editan una revista con datos de coyuntura, as como una memoria bianual sobre la Renta Nacional y su distribucin provincial.
El I. N. E. tiene varias lneas de estadsticas de Espaa; se incluyen
aqu las bsicas:
a. Publicaciones generales
Anuario estadstico de Espaa: obra que se publica desde 1858
con datos demogrficos y econmicos.
Boletn mensual de estadstica: incluye adems de datos socioeconmicos descripciones metodolgicas.
b. Estadsticas de poblacin
Censos de poblacin: proporcionan datos de la estructura social, demogrfica y econmica. Se realizan cada diez aos. El ltimo es de 1991.
Censo de viviendas: nmero de viviendas familiares por municipios.
Censo de edificios.
Padrn municipal de habitantes: se realiza cada diez aos; el ltimo es el de 1986.
Movimientos de poblacin con datos demogrficos.
Movimientos migratorios.
Encuesta de poblacin activa de carcter trimestral.
Tablas de mortalidad.
Proyeccin de la poblacin espaola hasta el ao 2010.
c. Estadsticas sociales

Censos de centros asistenciales, sanitarios, benficos y escuelas.


Censo de bibliotecas.
Censo electoral.
Estadsticas de enseanza a distintos niveles y de la investigacin.
Estadsticas diversas sobre libros, gastos en enseanza, deportes, y otros.
Estadsticas hospitalarias.
Estadsticas judiciales.
Encuestas de presupuestos familiares.
Encuestas de indicadores sociales, sobre fecundidad, nutricin,
etc.

d. Estadsticas econmicas
Censo de locales.
Contabilidad Nacional de Espaa.
Tablas input-output.
Evolucin de las principales macromagnitudes econmicas.
Contabilidad regional.
Indicadores estadsticos regionales.
La renta nacional y su distribucin.
ndice de precios de consumo de Espaa, la C. E. E. y O. C. D. E.
Existen varias publicaciones metodolgicas.
Encuesta de salarios en la industria y servicios.
Encuesta de coste laboral.
Estadsticas mercantiles: efectos impagados y protestados, suspensiones de pagos y quiebras, emisiones de capital.
Boletn trimestral de coyuntura con indicadores mensuales econmicos y de coyuntura.
e. Estadsticas agrarias e industriales

Censo agrario.
Estadsticas estructurales.
Censo industrial.
Encuesta industrial y sobre sectores.
ndice de precios industriales.
Precios al por mayor.

f. Estadsticas del Sector Servicios

Ventas a plazos.
Ventas en grandes superficies.
Encuesta de comercio interior.
Comercio exterior.
Estadsticas del sector financiero.
Estadsticas de transporte.
Estadsticas de turismo.

1.6 PAQUETES DE PROGRAMAS ECONOMTRICOS


38.

A partir de los aos setenta se difunden rpidamente en ambientes


acadmicos y empresariales varios paquetes de programas de ordenador para la estimacin de modelos.
Inicialmente, los paquetes estadsticos de uso general incluyen
programas de regresin simple y mltiple, aunque no disponen de
herramientas de validacin tpicamente economtricas. Ms adelante
surgen paquetes especializados en tcnicas economtricas para la estimacin de modelos dinmicos uni o multiecuacionales, y de series
temporales.

39.

La clasificacin de los paquetes de programas de ordenador en


Econometra se puede realizar en funcin de dos criterios:

13
1.6 PAQUETES DE PROGRAMAS
ECONOMTRICOS

14

las tcnicas que incluyen, y


el tipo de ordenador y sistema operativo sobre el que funcionan.

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

En general los paquetes estadsticos disponen de programas de regresin, de series temporales y de modelos con variables discretas,
mientras que los programas economtricos incluyen adems modelos
multiecuacionales. Las tcnicas de estimacin de modelos con variables latentes no observables suelen estar en paquetes especializados.
40.

Los tipos de ordenador clsicos (microordenadores, miniordenadores y grandes sistemas de propsito general) tienen cada vez menos elementos diferenciadores. Aunque todava hoy los microordenadores suelen ser mquinas que funcionan como equipos monousuario, las estaciones de trabajo y las redes de tipo cliente-servidor son los equipos bsicos cada vez ms usados, en detrimento de
los miniordenadores y de las grandes mquinas.
Los dos sistemas operativos ms utilizados son el DOS y el UNIX.
El primero tiene los entornos grficos tipo Windows, que permiten la
multitarea en microordenadores, y relacionados con ste y con amplia difusin, cabe citar el Windows 95 y NT, el OS/2 y los sistemas
operativos en red de micros, como Novel; en equipos multiusuario,
cada fabricante dispone de un sistema operativo propio, como, por
ejemplo, VMS para equipos Digital, AOS en Data General, VM y VSE
en sistemas IBM, etc. Pero la tendencia clara es la del uso generalizado
en redes con el sistema UNIX, a veces con entornos grficos como el
X-Windows. Muchos paquetes economtricos funcionan en distintos
equipos bajo sistemas operativos diversos.

41.

En primer lugar se citan los paquetes estadsticos de uso general:


BMDP, SPSS, SAS, Minitab y otros. Existen versiones de stos, no slo
bajo DOS, Windows y UNIX, sino tambin para la mayora de los sistemas operativos de los diversos fabricantes. Otros paquetes estadsticos, como Statgraphics o Systat, se han desarrollado en microordenadores.
Paquetes economtricos usuales son: el TSP, el SCA y el SAS/ETS,
para ordenadores multiusuario y para microordenadores. En estos
equipos existen numerosos programas economtricos y de prediccin
econmica; cabe citar algunos como TSP, Forecast Master, Autobox,
Esp, FOCA, FORMAN, TRAMO, etc.

42.

En el siguiente cuadro aparecen algunas caractersticas de estos


paquetes.

Nombre

Contenido

Sistemas

BMDP

Paquete estadstico general


Modelos uniecuacionales y de
series

DOS/Windows,
UNIX y multiusuario

SAS
SAS/ETS

Paquete estadstico general


Modelo economtrico y de series

DOS/Windows,
UNIX y multiusuario

SPSS

Paquete estadstico general


Modelos uniecuacionales y de
series

DOS/Windows,
UNIX y multiusuario

SCA

Paquete economtrico y de series


multivariantes

DOS, UNIX, y
multiusuario

TSP

Paquete economtrico y de series

DOS, UNIX, y
multiusuario

FORECAST
MASTER

Paquete de series temporales y


filtrado

DOS

AUTOBOX

Paquete de series temporales con


especificacin automtica

DOS

TSP y EViews

Paquetes economtricos y de
series

DOS/Windows

SORITEC

Paquete economtrico y de series

DOS

ESP

Paquete economtrico

DOS y multiusuario

RATS

Paquete economtrico y de series


temporales

DOS y UNIX

15
1.6 PAQUETES DE PROGRAMAS
ECONOMTRICOS

ANEXO I. CLCULO DE PROBABILIDADES

16
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

1.

La mayor parte de los mtodos economtricos se basan en la aplicacin de tcnicas estadsticas en las que, a partir de una muestra de
datos, es preciso extrapolar o inferir los resultados de la modelizacin
a una poblacin mayor que la que ha generado la muestra. Es necesario pues recordar los conceptos bsicos que se estudian en cursos de
Estadstica para poder aplicar y comprender los procesos de estimacin de modelos economtricos.

2.

Los cursos de Estadstica para economistas se dividen en tres partes:


Clculo de Probabilidades.
Inferencia Estadstica (Teora de la estimacin y contrastes de hiptesis), y
Mtodos estadsticos.
El Clculo de Probabilidades es una rama del Anlisis Matemtico
(en realidad, de la Teora de la Medida) que estudia las situaciones en
las que interviene el azar, o sea, aquellas en que la repeticin de un
experimento en las mismas condiciones produce efectos o resultados
diversos. As, se define la probabilidad de un suceso genrico A,
Pr(A),
como una funcin que toma valores en el intervalo [0; 1] y que representa la verosimilitud de ocurrencia de A.
La Inferencia Estadstica trata sobre la extrapolacin a una poblacin o colectivo de resultados obtenidos a partir de muestras aleatorias. Cabe recordar las cuestiones relativas a la estimacin de parmetros de estos colectivos y los contrastes de hiptesis relacionados con
las decisiones sobre los determinados valores posibles de los parmetros.
Los mtodos estadsticos engloban una serie de tcnicas entre las
que se incluyen el Anlisis de Datos o Estadstica Descriptiva (en la
que se analizan conjuntos de datos y sus interrelaciones sin extrapolar
los resultados a otros colectivos mayores), los Mtodos de Estadstica
Multivariante, la teora de Modelos (lineales o no), y, entre stos, cabe
considerar a los mtodos economtricos.

3.

En Clculo de Probabilidades se define una funcin de probabilidad por cada uno de los sucesos estocsticos A que pertenecen a un
espacio de sucesos (con estructura de -lgebra) a partir de tres axiomas enunciados por el matemtico ruso A. Kolmogorov:
Pr ( A ) 0,
para todo suceso A,

Pr(A i) =

Pr(A ),
i

si los sucesos A1, A2, son incompatibles (disjuntos), y


Pr(W ) = 1,
siendo W el suceso cierto o conjunto que engloba a cualquier suceso.
A partir de estos axiomas se construye, de forma deductiva, el Clculo de Probabilidades; por ejemplo, los teoremas de la unin, la interseccin, Bayes, etc. El concepto de independencia entre dos
sucesos representa la idea de que la ocurrencia de un suceso A no influye en la probabilidad de ocurrencia de otro suceso B y se verifica
que la ocurrencia conjunta de ambos cumple que
Pr(A B) = Pr(A)Pr(B)
si y slo si ambos sucesos son independientes.
4.

El concepto de variable aleatoria surge al considerar una funcin


real definida sobre el espacio de sucesos, o sea una funcin que asocia
a un suceso un nmero real. Por ejemplo, al elegir al azar un bote de
conservas en una cadena de produccin elegimos el bote A (ste es el
suceso estocstico que ha ocurrido), y definimos la variable aleatoria
X = X(A)
como el peso de dicho bote.
El conjunto de valores que puede tomar una variable aleatoria X
es su espacio muestral S. Generalmente S es un intervalo de valores
reales o toda la recta real . As, se puede suponer que el peso de un
bote oscila entre 450 gramos y 550 gramos, siendo S = [450; 550] el espacio muestral de la variable aleatoria Peso del bote elegido al azar. Si se
miden varias caractersticas sobre un suceso, se obtiene una variable
aleatoria multidimensional o multivariante X. Por ejemplo, si se toma
el peso del bote, X1, y el contenido en azcar, X2, del producto envasado en l, se obtiene la variable bivariante
X 1
X = .
X 2

5.

Las probabilidades asociadas a una variable aleatoria X se calculan a partir de su funcin de distribucin
F(x) = Pr(X x),

x S,

17
ANEXO I. CLCULO DE
PROBABILIDADES

18

que mide la probabilidad acumulada hasta un determinado valor x.


En el caso multivariante es

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

F(x) = F(x 1 , x 2 , , x r) = Pr(X 1 x 1 ; X 2 x 2 ; ; X r x r)


y el espacio muestral S es un subconjunto de r.
6.

Los dos tipos de variables aleatorias que suelen surgir en las aplicaciones son las variables (absolutamente) continuas y las discretas.
Una variable continua tiene como espacio muestral S un subconjunto denso de (o de 2); por ejemplo, un intervalo. La densidad de
probabilidad en el punto x se define mediante la funcin de densidad
dF(x)
f (x) = -------------,
dx
o si la variable es multivariante
r F(x)
f (x) = f (x 1 , x 2 , , x r) = ------------------------------------- .
x 1 x 2 x r
Una variable es discreta si su espacio muestral S est formado por
un conjunto discreto de puntos; en stos se verifica que
Pr(X = x) > 0,

x S = { x 1 , x 2 , },

siendo idnticamente nula la probabilidad de ocurrencia de un valor


x S. Por ejemplo, al lanzar un dado, es S = {1, 2, 3, 4, 5, 6} y si ste
es simtrico, Pr(X = x) = 1/6 para x = 1, 2, , 6.
7.

En una variable aleatoria se pueden definir algunos parmetros


caractersticos (aunque no siempre existen):
la media o esperanza de X de una variable aleatoria continua

= E(X )=

x f (x) dx,

o discreta

= E(X ) =

x Pr(X = x);

xS

la varianza

2 = V ( X ) = E[ ( X )2 ] = E( X2 ) 2,

o su raz cuadrada positiva, , denominada desviacin tpica,


que es una medida de dispersin de la distribucin alrededor
de la media ;
los momentos y los momentos centrados

i = E ( X i ),

i = E [ ( X ) i ],

19
ANEXO I. CLCULO DE
PROBABILIDADES

i = 1, 2,

En el caso multivariante el vector de medias es


1
E(X 1)

 = E(X ) =  = 
r
E(X r)
y la matriz de varianzas y covarianzas entre las distintas componentes de X es
= V ( X ) = E [ ( X  ) ( X  ) ] =
( X 1 1 ) 2
= E

( X 1 1 ) ( X 2 2 ) ( X 1 1 ) ( X r r )

( Xr r ) ( X 1 1 ) ( X r r ) ( X 2 2 )

( X r r ) 2

x21 x1 x2 x1 xr
=

x2 x1 x22 x2 xr

xr x1 xr x2 x2r

En una variable univariante continua X, el cuantil de orden 1 p


es el valor xp que verifica
F ( xp ) = 1 p =
8.

xp

f (x)

f (x) dx.

El concepto de covarianza XY entre dos variables aleatorias,

XY = E [ ( X X ) ( Y Y ) ] = E ( XY ) X Y ,
est relacionado con la idea de asociacin o dependencia entre ellas.
El coeficiente de correlacin ordinario de Pearson, es

XY
[ 1, 1 ]
XY = ------------X Y
y constituye una medida de asociacin lineal entre las variables X e Y.

1p
xp

20

9.

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

La varianza de la variable aleatoria Y = aX + b, siendo a y b dos


constantes reales, es

Y2 = V ( Y ) = a 2 V ( X )
y la matriz de covarianzas del vector aleatorio Y = AX + b, siendo A
una matriz y b un vector de valores reales, es
Y = V ( Y ) = AV ( X )A = A x A
10.

Al estudiar variables multivariantes, generalmente se persigue analizar las relaciones entre las variables marginales. Dos variables aleatorias X e Y son independientes si y slo si la funcin de densidad (en el
caso continuo) o de probabilidad (si son discretas) conjunta f(x, y) es
igual a
f ( x, y ) = f x ( x ) f y ( y )
x, y
o sea que se puede hallar a partir de las distribuciones marginales de
X e Y. Caso que no se verifique la relacin anterior, las variables son
dependientes o relacionadas. Si dos variables son independientes, el
conocer un valor que ha tomado una de ellas no influye sobre las probabilidades calculadas para la otra variable, o sea que la primera no
tiene poder predictivo sobre la segunda.
Anlogamente, la condicin necesaria y suficiente de independencia de r variables aleatorias X1, X2, , Xr es
r

f ( x 1 , x 2 , , x r ) =

f (x )
j

x Sx

j=1

siendo fj() la funcin de densidad o de probabilidad de Xj.


Si dos variables X e Y son independientes, se verifica que

xy = 0

xy = 0,

y por lo tanto estn incorreladas. Aunque si dos variables estn incorreladas, pueden ser dependientes (relacionadas no linealmente) o independientes.
11.

En las aplicaciones surgen variables aleatorias cuya distribucin


de probabilidad se parece o es similar al de algunas distribuciones
tericas. En Clculo de Probabilidades se estudian una serie de variables discretas y continuas que estn relacionadas con la construccin
de modelos economtricos. Se reproducen a continuacin las ms
usuales entre las discretas:

Distribucin binaria: X B ( p )

21
ANEXO I. CLCULO DE
PROBABILIDADES

La variable X toma los valores 1 y 0 con probabilidades respectivas p


yq=1p
Pr ( X = 1 ) = p.

Pr ( X = 0 ) = q = 1 p.

Por tanto su funcin de probabilidad es


f ( x ) = Pr ( X = x ) = p x q 1 x ,

x S = { 0 ,1 }.

Esta variable se utiliza en modelos logsticos (o Probit, o Tobit)


cuando la variable endgena representa una situacin de decisin entre dos alternativas.

f (x)

p
q

Distribucin m-aria: X M(p 1 , p 2 , , p m)


La variable X tiene por funcin de probabilidad
f ( x ) = Pr ( X = x ) = p 1x1 p 2x2 p mxm ,
siendo
x1 + x2 + + xm = 1

p 1 + p 2 + + p m = 1,

y las variables marginales


X j B ( p j ),

j = 1m.

Esta distribucin se usa con modelos logsticos de eleccin mltiple.


Distribucin binomial: X b(n, p)
Su funcin de probabilidad es
n
f ( x ) = Pr ( X = x ) = p x q n x ,
x

x S = { 0, 1, , n },

en la que es q = 1 p.
Si se tienen n variables binarias e independientes, Xj B(p), j =
1 n, se verifica que X = X1 + X2 + + Xn b(n, p).
Distribucin de Poisson: X P()
Se obtiene a partir de una variable binomial mediante el proceso de
paso al lmite cuando
n ,

np = ,

p 0,

22

y es
f (x) = Pr(X = x) = e x /x!,

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

12.

x S = { 0, 1, 2, }.

Las variables aleatorias continuas ms usuales son:


Distribucin rectangular o uniforme: X R(a, b)

f (x)

La funcin de densidad es
1
f ( x ) = ----------- ,
ba

1
ba

x S = ( a, b ).

Distribucin Normal tipificada: X N(0, 1)


a

Su funcin de densidad es
1
f ( x ) = ---------- e 0 ,5x 2 ,
2

f (x)

x S = ( , + ).

Distribucin Normal general: X N( ; 2)


Se obtiene a partir de la distribucin de Z N(0, 1) mediante la
transformacin lineal X = + Z, y su funcin de densidad es
x

1
f (x) = ----------e 0,5 ( x ) 2 / 2 ,
2

x S = ( , + ).

Su media es y su varianza 2.
Distribucin chi-cuadrado: X 2( g)

f (x)

Se obtiene como suma del cuadrado de g variables Z j N(0, 1),


j = 1 g, independientes
N(5, 22)

X = Z 12 + Z 22 + + Z g2 .
Su funcin de densidad es

=5

1
0,5x x 0,5 g 1 ,
f (x) = ------------------------------e
2 0,5 g ( g/2 )

f (x)

x S = ( 0, + ),

y su media y varianza son

N(5, 0,42)

= g

2 = 2g.

El parmetro g se denomina grados de libertad y debe ser positivo.


La funcin ( ) se define a partir de la integral
=5

(z) =

t
e
0

siendo (0) = 1 y (0 ,5) =

t z 1 dt = ( z 1 ) ( z 1 ),

23
f (x)

f (x)

ANEXO I. CLCULO DE
PROBABILIDADES

x2(2)

x2(6)

Distribucin t de Student: X t( g)

f (x)

Su funcin de densidad es parecida, en su forma, a la de la distribucin N(0, 1)


(0,5g + 0,5)
f (x) = -------------------------------- [ 1 + x 2 /g ] 0,5 ( g + 1 ) ,
g (0,5g)

x S = ( , + ).
x

Si el valor de g es grande, prcticamente coincide con la distribucin N(0, 1).


Su media es 0 y la varianza 2 = g/(g 2), si g > 2.
La variable X se puede definir a partir de las dos variables independientes Z N(0, 1) y V 2( g) mediante el cociente
Z
X = ---------------- .
V/g
Distribucin F de Snedecor: X F(n, d)

f (x)

Se define a partir de dos variables aleatorias independientes,


Y 2(n)

F (4, 8)

Z 2(d),

mediante la expresin

x
f (x)

Y/n
X = -----------,
Z/d
siendo n y d dos parmetros denominados grados de libertad del numerador y del denominador. Su funcin de densidad es

F (8, 4)

( n/d ) 2 (0,5n + 0,5d)


f (x) = -------------------------------------------------------- x 0,5n 1 ( 1 + nx/d ) 0,5 ( n + d )
(0,5n) (0,5d)
para x S = ( 0, + ).
De la definicin anterior se deduce que la variable

V = 1/X F(d, n)

24
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

y las funciones de distribucin de X y V verifican que


F x(x) = 1 F V(1/x).
Estas expresiones son tiles a la hora de manejar tablas estadsticas.
La media de X y su varianza son, para d > 2 y d > 4, respectivamente,
2d 2 ( n + d 2 )
d
y
= ----------- 2 = --------------------------------------.
d2
n(d 2) 2 ( d 4 )
Distribucin beta: x (a, b)
Su funcin de densidad es

f (x)

(3, 4)

1
f (x) = -----------------x a 1 ( 1 x ) b 1 ,
( a, b )

x S = ( 0, 1 ),

y su media es

= a/ ( a + b ),
0

siendo la funcin

1x

(a, b) =
13.

1
0

t a 1(1 t) b 1 dt = (a)(b)/(a + b).

La distribucin multivariante ms usual es la Normal tipificada


Z N (0 n ; I n)
cuyo vector de medias es

 z = E(Z) = ( 0, 0, , 0 ) = 0 n
y su matriz de covarianzas es la matriz unidad de orden n
z = In
Su funcin de densidad es
1
f (z) = -----------------n- e 0,5zz
( 2)

z n

La distribucin Normal general X N( , ) tiene por funcin la


densidad

1
- e 0,5 ( x  ) 1 ( x ) ,
f (x) = ---------------------------------n
( 2 ) det

25

x n,

ANEXO I. CLCULO DE
PROBABILIDADES

siendo  su vector de medias y su matriz de covarianzas. Por ejemplo, si X = ( X 1 , X 2 ) N (  , ) es

1
f (x 1 , x 2) = --------------------------------------------- e
2
2 x1 x22 x21 x2

x x x 2
0,5 x1 1 2
1
2
2
1
2
2
------------------------- ------------------ 2 x x ------------------ ------------------ + ------------------

1 2 x x x
1 x2 x x
1
1
2
2
1 2

Si X N (  , ), la variable Z = 0,5 ( X  ) N ( 0, I ).
Otras propiedades de esta distribucin son:
Las distribuciones marginales de X son variables Normales
X j N( j , x2j ),

j = 1n.

Una combinacin lineal de Y = AX + b de X es una variable Normal


Y N(A  + b; A x A).
Si Z N(0 n , I n) y A es una matriz idempotente de rango g, entonces es
Y = ZAZ 2( g).
Si A y B son dos matrices cuadradas tal que AB = 0, las formas cuadrticas xAx y xBx son independientes, y el recproco es cierto
(Teorema de Craig).

ANEXO II. MTODOS ESTADSTICOS BSICOS EN ECONOMETRA

26
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

1.

Al tomar un conjunto de n datos


y 1 , y 2 , , y n
en el colectivo Y, los dos objetivos ms usuales son:
la descripcin de este conjunto, resumiendo la informacin contenida en ellos, o
la extrapolacin de resultados a todo el colectivo Y del que provienen los datos.
En el primer caso se est ante un problema de Estadstica Descriptiva o de Anlisis de Datos, mientras que en el segundo se trata de una
cuestin de inferencia Estadstica o Estadstica Matemtica.

2.

3.

Generalmente en Econometra se tratan problemas paramtricos en


los que se persigue la obtencin de informacin sobre algunos parmetros (que se designan mediante ) del colectivo Y; otros mtodos
no paramtricos tratan de responder a preguntas tales como la siguiente: provienen los datos de una poblacin Normal?
Los problemas paramtricos son de dos tipos:
de estimacin de parmetros, o
de contrastes de hiptesis.
En ambos casos se considera una poblacin Y cuya distribucin es
conocida en su forma salvo un parmetro ; su funcin de densidad
(o de probabilidad, si Y es discreta) se representa mediante
f (y) = f (y; ).
Al tomar una muestra aleatoria simple (genrica) de tamao n en Y,
Y 1 , Y 2 , , Y n

Y,

resulta que sta es una variable aleatoria n-variante de funcin de


densidad (o de probabilidad) conjunta
n

f (y 1 , y 2 , , y n) =

f (y ; ) = L(),
i

i=1

denominada funcin de verosimilitud. Generalmente se maneja una


funcin de la muestra, o estadstico,
T = t(Y 1 , Y 2 , , Y n),

que es una variable aleatoria en el muestreo, y cuya distribucin depende de .


4.

En un problema de estimacin se trata de construir un estadstico


estimador del parmetro ,

= (Y 1 , Y 2 , , Y n),
que tenga unas buenas propiedades muestrales.
Cuando se toma una muestra concreta,
y 1 , y 2 , , y n ,
el estimador toma un valor numrico (y 1 , y 2 , , y n) denominado
estimacin de .
5.

Son propiedades deseables de un estimador las siguientes:


Insesgadez: un estimador se denomina insesgado o centrado si verifica
E [ (Y ) ] = ,
o sea, si no produce desviaciones sistemticas al tomar muestras
repetidas.
Consistencia: si al aumentar indefinidamente el tamao muestral,
se cumple que

(Y )

el estimador es consistente.
Eficiencia: es una propiedad que se refiere a la varianza de un estimador alternativo 2 a otro estimador 1 .
Si ambos estimadores son insesgados y
V [ 1(Y ) ] V [ 2(Y ) ],

el estimador 1 es ms eficiente que 2 .


Como ambos son insesgados ser preferible el primero al segundo, pues aqul producir, con mayor probabilidad, estimaciones ms precisas.
Suficiencia: si un estimador contiene toda la informacin muestral
respecto de , se dice que es suficiente.
Las propiedades deseables anteriores se refieren al estimador, no
a las estimaciones obtenidas a partir de muestras concretas.
6.

Los mtodos habituales para construir estimadores, o sea las funciones (Y ), son el de mxima verosimilitud y el de mnimos cuadrados. Ambos se basan en la definicin del estimador optimizando una funcin

27
ANEXO II. MTODOS ESTADSTICOS
BSICOS EN ECONOMETRA

que depende de (y de la muestra). Tambin se pueden construir estimadores de forma intuitiva, coincidiendo a veces stos con los obtenidos
por mtodos analticos. El mtodo de mxima verosimilitud consiste en
maximizar la funcin de verosimilitud L() = L( ; y 1 ; ; y n) con respecto a
max. L() = L( ),

28
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

siendo = (Y ) el estimador mximo verosmil. El mtodo de mnimos cuadrados se basa en la minimizacin de la suma de los cuadrados de las diferencias entre los valores muestrales, y en los valores
estimados con el modelo supuesto para la poblacin
n

min S() = min

( y y )
i

= S( ).

i=1

Ambos mtodos producen estimadores razonables, aunque no


siempre gozan de todas las propiedades deseables, pero si el tamao
muestral n , se verifica que

(Y )

e.D.

N( ; FCR()),

donde FCR() es la funcin determinada por la cota de Frechet-Cramer-Rao


d ln L( ; Y ) 2
FCR() = 1/E ------------------------------- ,

d
por lo que, asintticamente, estos estimadores son ptimos, aunque
para muestras pequeas, la situacin habitual en Economa, no se
cumplen estas propiedades.
7.

En el caso de estimacin por intervalo, se trata de determinar dos


estadsticos 1(Y) y 2(Y) tales que
Pr [ 1(Y ) < < 2(Y ) ] = 1 .
El intervalo de confianza 1 es un intervalo numrico,
I 1 = ( 1(y), 2(y) ),
en el que se tiene una confianza 1 que ste contenga el verdadero
valor desconocido .

8.

Un contraste o test de hiptesis se formula como una decisin entre dos alternativas referidas a posibles valores del parmetro :

H0 : 0 ,

29

H1 : 1 .

ANEXO II. MTODOS ESTADSTICOS


BSICOS EN ECONOMETRA

Por ejemplo, al disear un control de calidad referido al peso medio


( = ) de unas latas de conservas se plantea la cuestin de elegir las
hiptesis que se contrastarn, el tamao de la muestra y la forma en
que sta se obtendr. En este caso las hiptesis podran ser
H0: El peso medio es 500 gramos
H1: El peso medio no supera esta cantidad, < 500
y el tamao de la muestra n de 20 latas elegidas al azar en la cadena
de produccin.
Las hiptesis deben ser excluyentes; H0 es la hiptesis nula y H1 la
hiptesis alternativa.
La regla de decisin para decidir entre H0 y H1 se basa en un estadstico muestral,
T = t(Y 1 , Y 2 , , Y n),
para el que se definen dos regiones:
C0 o regin de aceptacin de H0,
C1 o regin crtica o de aceptacin de H1.
As, al tomar una muestra concreta y1, y2, ..., yn, si
t(y) C 0 se acepta H 0 ,
y si
t(y) C 1 se acepta H 1 .
9.

Surgen en este punto varias cuestiones:


Qu estadstico T es conveniente tomar? (Puede haber ms de
uno.)
Cmo se construye la regla de decisin C0 y C1?
Qu propiedades tiene, o cmo se comporta esta regla de decisin?
El estadstico T se puede construir generalmente de forma intuitiva (por ejemplo, si el test es sobre , se tomar la media aritmtica x
muestral), o usando la funcin de verosimilitud mediante la razn de
verosimilitudes
T = max L()/max L().
 0

La regla de decisin {C0, C1} se definir a partir de la distribucin


muestral de T(Y) y de las propiedades que se quiere que ste tenga.

30
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

Estas propiedades se resumen en una funcin denominada curva


operativa caracterstica, que determina la probabilidad de tomar una
decisin errnea en cualquier circunstancia:
c() = Pr(aceptar H 0) = Pr(T C 0)
Si es cierta la hiptesis H0, para 0 es
c() = Pr(T C 0 H 0) = 1 Pr(T C 1 H 0) = 1 Pr(error I)
y si es cierta H1, para 1 es
c() = Pr(T C 0 H 1) = Pr(error II)
O sea, se comete error de tipo I cuando se rechaza H0 siendo sta cierta, y error de tipo II si se acepta errneamente H0.
El nivel de significacin, , es la mxima probabilidad de cometer
error de tipo I, y si se fija a priori un valor de y un tamao muestral,
la regla de decisin de nivel .
{C0, C1}
con respecto al estadstico T permite decidir, con un riesgo mximo
de cometer error de tipo I.
Por lo tanto, al plantear un test de hiptesis hay que tener en cuenta varios elementos:
la poblacin generadora de la muestra y su forma,
las hiptesis que se desean contrastar,
el diseo experimental a aplicar, o sea, el tamao muestral y la forma en que se toman los datos,
el nivel de significacin como medida del riesgo de cometer error
de tipo I,
el estadstico T que se va a usar, y sobre el que hay que estudiar su
distribucin muestral; con este estadstico se construye la regla de
decisin al nivel de significacin elegido.
Tras estos pasos, se procede a tomar la muestra concreta, se calcula el
valor del estadstico y se decide. Tambin se suele calcular la probabilidad lmite, p, o nivel de significacin lmite a partir del cual se
cambia el sentido de la decisin.
Grficamente, el esquema de un test de hiptesis es el siguiente:

31

10.

Poblacin
Y  D()

Hiptesis
H0, H1

Nivel de
significacin

Muestra
genrica
Y1, , Yn

Estadstico
T(Y) y su
distribucin

Regla de
decisin
C0, C1 de
nivel

Muestra
concreta
Y1, , Yn

Valor de T
t(y)

Decisin: Si
t  C 0 H0
t  C1 H 1

Los problemas ms frecuentes de estimacin de parmetros se refieren a medias, varianzas, covarianzas, correlaciones y proporciones.
Para estimar la media se usa como estimador la media muestral
1
x = --n

x ,
i

i=1

que es insesgada, y asintticamente N(, 2/n), aunque la poblacin


generadora de la muestra no sea Normal.
El estimador insesgado de la varianza 2, es la cuasi-varianza
muestral
1
s 2 = -----------n1

(x x ) ,
i

i=1

pues la varianza muestral

s2

1
= --n

(x x )
i

i=1

verifica que E(s2) = 2 2/n, o sea es un estimador sesgado.


Para estimar la covarianza y el coeficiente de correlacin entre dos
muestras apareadas,
( xi , yi )

i = 1n,

se usa la covarianza muestral y el coeficiente de correlacin ordinario


o de Pearson

ANEXO II. MTODOS ESTADSTICOS


BSICOS EN ECONOMETRA

32

1
s xy = --n

INTRODUCCIN A LOS MODELOS


ECONOMTRICOS

( x x ) ( y y ),
i

i=1

s xy
r xy = ---------,
sx sy
aunque las propiedades muestrales de estos estimadores son ms
complejas que las de x.
11.

En los contrastes no paramtricos el proceso que se sigue es idntico al de un test paramtrico, aunque el concepto de distribucin
muestral es distinto.

12.

A continuacin se expone un ejemplo de test de hiptesis en el que


se introducir el concepto de probabilidad o nivel de significacin lmite,
p, til para evitar el tener que consultar tablas estadsticas.

Se trata de contrastar si el peso medio del envasado de una lata es de 500


gramos o inferior, para lo cual se decide la toma de una muestra de 20 latas
y se desea operar a un nivel de significacin  = 0,05.

Los elementos del test son:


1. Poblacin: se supone que los pesos Y de las latas se distribuyen segn una ley Normal de parmetros y 2 desconocidos.
2. Hiptesis a contrastar:
H 0 : = 500 g,
H 1 : < 500 g.
3. Diseo muestral: muestra aleatoria simple de tamao n = 20 latas
Y1, Y2, , Y20.
4. Nivel de significacin: = 0,05 (el error de tipo I consiste en rechazar un lote por falta de peso, cuando es correcto).
5. Estadstico del test: se basa en Y = ( Y 1 + Y 2 + + Y 20 )/20 y se determina por el mtodo de la razn de verosimilitudes. Tambin se
puede tomar el estadstico
Y
Y
T = --------------- = -----------------.
S/ 20
S/ n
6. Regla de decisin de nivel : se determina a partir de la distribucin muestral de T si se supone cierta H0
Y 500
T H 0 = ------------------- t(20 1).
S/ 20

La regla de decisin (de nivel = 0,05) es de tipo unilateral (en este


caso)
C 0 = ( t ; + ) = ( t 0,05 ; + ) = ( 1 ,73; + ),

33
ANEXO II. MTODOS ESTADSTICOS
BSICOS EN ECONOMETRA

C 1 = ( ; t ) = ( ; t 0,05 ) = ( ; 1 ,73 ).
Si las hiptesis a contrastar fuesen
H 0 : = 500

H 1 : 500,

el test sera bilateral y C0 = (t/2, t/2) = (2,09; 2,09) y C1 el complementario de C0.


7. Obtencin de la muestra concreta: por ejemplo, al elegir 20 latas se
obtienen los pesos en gramos siguientes:
478
495

491
499

488
505

495
485

501
490

498
504

490
490

499
510

495
498

506
495

a partir de lo cual se calcula


y = 495,6

s = 7,7283.

Obsrvese que todo el planteamiento del test se ha formulado sin


los datos.
8. Aplicacin de la regla de decisin C0 = (1,73, +); C1 = (, 1,73)
a partir del estadstico que se calcula con la muestra
y 500
495,1 500
t = ------------------ = ------------------------------ = 2,55
s/ 20
7,7283/ 20
y como
t C 0 = ( 1,73; + )
se concluye que el peso medio de las latas es inferior a 500 gramos
a un nivel de significacin = 0,05.
El clculo de la probabilidad lmite para el test unilateral, p, se
realiza a partir de tablas de la distribucin t de Student, T t(19)
p = Pr(T < 2,55) = 0,0098
y como es

f (t)

p = 0,0098

<

= 0,05

resulta que se acepta la hiptesis alternativa, a este nivel de significacin sin necesidad de tener que buscar el correspondiente cuantil
en unas tablas de la distribucin t(19).
En general, para cualquier valor > p, se rechaza H0 y se acepta
H1, mientras que si es > p se acepta H0 a nivel .

p = 0,0098

2,55 1,73

34
INTRODUCCIN A LOS MODELOS
ECONOMTRICOS

Conociendo el valor de p, no es necesario determinar numricamente C0 y C1; la mayora de los paquetes estadsticos proporcionan
la probabilidad lmite de los contrastes que aparecen en los listados
de salida.
En el caso que el contraste anterior hubiese sido bilateral, la probabilidad lmite se definira mediante la expresin
p = Pr(T > 2,55 ) = 0,0098 + 0,098 = 0,0196

En los paquetes de programas de ordenador suele venir calculado


este valor de p, por lo que si se desea realizar un test unilateral, hay
que dividir por dos el valor que aparece en el listado de salida (si la
distribucin del estadstico del test es simtrica).

EJERCICIOS PROPUESTOS

35
EJERCICIOS PROPUESTOS

1. La demanda de un producto agrcola depende de su precio y de la


comercializacin. La oferta es funcin, adems del precio, de su
cotizacin en la campaa anterior y de las condiciones climticas.
Formular el modelo econmico correspondiente, indicando qu
variables son endgenas o dependientes del modelo, y cules son
exgenas a ste, y plantear el modelo economtrico asociado a este
modelo econmico.
2. La funcin de produccin de una empresa se puede formular mediante el modelo no lineal
P = 0 T 2 C 2 +
en el que T y C representan las cantidades de los factores trabajo y capital empleados. Se trata de estudiar la elasticidad P/T = d ln P/d ln T
de la produccin respecto del factor trabajo, y qu condiciones deben
cumplir 1 y 2 para que los rendimientos sean constantes a escala.
3. En el modelo economtrico
C = + R
R = C+I+G
en el que el consumo (C) es funcin de la renta (R) y sta se define
agregando el consumo con la inversin (I) y el gasto pblico (G),
las variables explicadas o endgenas son C y R. Plantear el modelo
como economtrico y proponer algn modelo alternativo para
representar estas variables.
4. En todo proceso inferencial se trata de obtener informacin sobre
una poblacin X a partir de una muestra aleatoria x1, x2, , xn tomada en sta. El diseo aleatorio simple o de muestreo independiente es el ms usual si se persigue obtener informacin sobre un
parmetro de la distribucin de X. Describir las etapas del diseo
experimental para un proceso de estimacin de la media de X y
para un test de hiptesis sobre este parmetro.
5. Comentar cmo se interpreta el coeficiente en los modelos siguientes:
y = + x
y = + ln x
y = x

ln y = + x
ln y = + ln x
y = x

2
Asociacin entre variables.
El mtodo de mnimos cuadrados

2.1 MODELO DE REGRESIN SIMPLE


1.

La evolucin conjunta de dos variables econmicas X e Y que estn relacionadas causalmente, se representa mediante un modelo de
la forma
y = m(X) + ,
en la que se presupone que
a. la variable X es exgena e influye sobre la variable endgena Y (la
cual no es causa de la variacin de X);
b. la funcin m(x) es conocida, salvo algunos parmetros a estimar, y
c. el trmino representa los errores cometidos con el modelo, y se
considera que stos no siguen una pauta predecible, o sea que oscilan aleatoriamente.
Si se dispone de un conjunto de n observaciones
( yi , xi )

i = 1 n,

de las variables X e Y, el mtodo de mnimos cuadrados permite estimar los parmetros de la funcin m(x). Al no formular ninguna hiptesis adicional sobre el modelo, los resultados obtenidos slo sern
aplicables a los n datos disponibles, y el enfoque ser descriptivo.
2.

En el captulo siguiente se considerar una situacin ms general


en la que las n observaciones constituyen una muestra aleatoria obtenida de una poblacin o colectivo ms amplio. Para poder extrapolar
a ste los resultados obtenidos a partir de los datos, se utilizan tcni-

37

38

cas de estimacin y de contrastes de hiptesis habituales en el campo


de la Estadstica Matemtica.

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

3.

Los dos tipos de modelos ms usuales de regresin simple son los


lineales, en los que
Y = + X + ,
y los no lineales, aunque el mtodo de mnimos cuadrados se aplica
por igual a ambos, por ejemplo el modelo exponencial
Y = eX + ,
es no lineal o tambin el de Hoerls
Y = X e X + .
Inicialmente se estudiar el modelo lineal, y posteriormente se tratarn los modelos no lineales, algunos de los cuales son linealizables
mediante transformaciones muy simples.

4.

El modelo de regresin simple


Y = + X +
se estima a partir de las n observaciones (yi, xi), i = 1 ... n, y si se designan mediante
a =
y
b =
los valores de los parmetros o coeficientes de regresin obtenidos a
partir de los datos, resultan las expresiones

Y
yi

y i

y = a + bx

y i = a + bx i + e i = yi + e i

ei

i = 1 n,

que indican que todos los puntos del modelo cumplen su ecuacin, y
los residuos
ei ,
i = 1 n,
xi

representan la parte de variabilidad de la variable endgena Y que no


es explicada por la variable exgena X.
Para obtener las estimaciones de los coeficientes de regresin, el
criterio de mnimos cuadrados consiste en minimizar la funcin
n

S( , ) =

i=1

i2

( y x )
i

i=1

con respecto a , . As se obtiene

39
2.1 MODELO DE REGRESIN
SIMPLE

min S( , ) = S(a, b) =
,

2
i

= Se ,

i=1

siendo
n

1
--( xi x ) ( yi y )
n
s xy
i=1
b = ------ = -------------------------------------------------,
n
s x2
1
--( xi x ) 2
n

i=1

a = y bx
donde sxy la covarianza entre las variables, s x2 la varianza de X, y x e
y las medias de los datos.
Para obtener las expresiones anteriores basta igualar a cero las
derivadas parciales
S
------- =

S
------ =

2 i -----

= 2 i

i=1
n

2 i -----

i=1

i=1
n

= 2 i xi
i=1

y sustituyendo los valores a estimar y por sus estimaciones a y


b, y las perturbaciones i por los residuos ei, resulta el sistema de
ecuaciones normales
n

ei

ei xi

= 0

i=1

= 0,

i=1

en las que al sustituir las expresiones de los residuos


e i = y i y i = y i a bx i
resulta
n

na +
n

xi a +

i=1

xi b =

yi

i=1

i=1

xi2 b =

i=1

xi yi

i=1

(2.1)

40

y despejando b es

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

yi

xi xi yi n xi yi ( xi ) ( yi )- =
b = -------------------------------------- = ---------------------------------------------------------n x i2 ( x i ) 2
n xi
xi xi2

1
--- x i y i xy
n
= --------------------------------- =
1
--- x i2 x 2
n

1
--- ( x i x ) ( y i y )
n
s xy
i=1
------------------------------------------------ = ------.
n
s x2
1
--- ( x i x ) 2
n
i=1

Anlogamente, a partir de la primera ecuacin normal,


n

ei

= 0 =

( yi a bxi )

i=1

i=1

dividiendo por n, se obtiene


y = a + bx.
5.

Las expresiones (2.1) de las ecuaciones normales permiten enunciar los siguientes corolarios:
a. El valor medio de los residuos se anula
e = 0.
b. La recta de regresin pasa por el punto de coordenadas ( y, x ), o
sea por el centro de gravedad de los n puntos.
c. El valor medio de los valores estimados
y i = a + bx i

i = 1n

coincide con el de los datos yi, i = 1 n


y = y
ya que
n

i=1

i=1

i=1

1
1
1
y = --- ( a + bx i + e i ) = --- y i + --- e i = y + 0
n
n
n

d. El coeficiente de correlacin entre los residuos y la variable X es


cero, o sea que la variable X no sirve para explicar (linealmente) las
variaciones residuales

41

r ex = 0,

2.1 MODELO DE REGRESIN


SIMPLE

pues
s ex
r ex = -------se sx
y la covarianza sex se anula ya que
1
s ex = --n

1
ei ( xi x ) = --n-

i=1

ei xi e x

(2.2)

i=1

y ambos sumandos se anulan, como se deduce de (2.1).

e. El coeficiente de correlacin entre los residuos y la variable y es


cero
r ey = 0,
pues
n

i=1

i=1

i=1

i=1

1
1
1
1
s ey = --- e i(y i y) = --- e i y i = --- e i(a + bx i) = ae + b --- e i x i
n
n
n
n
y ambos sumandos se anulan.

Ejemplo 1.

Ajuste de una recta de regresin

En una encuesta familiar se han tomado datos de la renta disponible (X)


y de la cantidad dedicada a consumo de alimentos (Y), resultando las siguientes observaciones
x
y

212
40

152
32

155
35

121
33

96
26

185
37

68
25

126
27

y se trata de estudiar la relacin entre ambas variables.


En primer lugar es recomendable dibujar el diagrama de dispersin
en el que se observa que al incrementarse los valores de la renta, suben,
de forma aproximadamente lineal, los del consumo de alimentos, por lo
que se considerar adecuado el modelo lineal
y = a + bx + e

42
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

Y 45

40
35

30

25
20

50

100

150

200

250

para representar la relacin entre estos n = 8 datos. Si se desean realizar


los clculos manualmente, se calculan las medias
1
x = --- [ 212 + 152 + + 126 ] = 139,375
8
1
y = --- [ 40 + 32 + + 27 ] = 31,875
8
y las diferencias
xi x

yi y

i = 18

resultando
1
s xy = --- [ ( 212 139,375 ) ( 40 31,875 ) + +
8
+ ( 126 139,375 ) ( 27 31,875 ) ] = 208,047
1
s x2 = --- [ ( 212 139,375 ) 2 + + ( 126 139,375 ) 2 ] = 1906,484
8
y por lo tanto es
b = 0,109
a = 16,666
siendo la recta de regresin
y = y + e = 16,666 + 0,109x + e
Los residuos y valores estimados con el modelo se calculan sustituyendo en la ecuacin estimada; por ejemplo
y 1 = 16,666 + 0,109 212 = 39,800
e 1 = y 1 y 1 = 40 39,8003 = 0,200
y anlogamente se calculan el resto:

43

y
e

2.2 MODELO DE REGRESIN


MLTIPLE

39,800 33,253 33,580 29,870 27,142 36,854 24,086 30,415


0,200 1,257 1,420 3,130 1,142 0,416 0,914 3,415
El lector deber comprobar que se verifica:
y = y

e = 0

s ey = 0

Con el modelo anterior, se puede realizar la prediccin de consumo de


una familia de renta x = 160
y = 16,666 + 0,109 160 = 34,126
ya que el valor esperado de un residuo no observado es cero.

2.2 MODELO DE REGRESIN MLTIPLE


6.

La generalizacin del modelo de regresin simple, Y = + x + ,


se presenta cuando existen varias variables explicativas o exgenas
x 1 , x 2 , , x k
que influyen sobre la variable endgena Y (sin ser influidas por sta).
El modelo lineal resultante es

x2
.
.
.

Y = 0 + 1 x1 + 2 x2 + + k xk + ,
y sus coeficientes 0, 1, , k se estiman, utilizando el mtodo de mnimos cuadrados, a partir de un conjunto de n observaciones
( y i , x 1i , x 2i , , x k i )

i = 1 n,

resultando la ecuacin
y i = b 0 + b 1 x 1i + b 2 x 2i + + b k x ki + e i = y i + e i

i = 1 n,

en la que los coeficientes de regresin estimados y los residuos se evalan numricamente minimizando la funcin
n

S( 0 , 1 , , k) =

i=1

i2

(y
i

i=1

x1

1 x 1i k x ki ) 2

xk

44

cuyo mnimo es

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

min. S( 0 , 1 , , k) = S(b 0 , b 1 , , b k),

0, , k

siendo los coeficientes de regresin b0, b1, ..., bk las soluciones del sistema de ecuaciones normales
n

nb 0 +

i=1
n

++

i=1

i=1

i=1

1i x ki b k

i=1

1i y i

i=1

x ki x 1i b 1 + +

i=1
n

x 12i b 1

i=1

xki b0 +

xki bk =

i=1

1i b 0

x 1i b 1 + +

x k2i b k =

i=1

ki yi

i=1

que es un sistema lineal de k+1 ecuaciones y k+1 incgnitas.


Para comprobar que el mnimo de S(0, 1, ..., k) se alcanza resolviendo el sistema de ecuaciones anterior, basta calcular las derivadas parciales
S
-------- =
0
S
-------- =
1

i=1

i=1

i
= 2 i
2 i ------- 0
i
= 2 x 1i i
2 i ------- 1

S
-------- =
k

i=1

i=1

2 i ------ k

i=1

= 2 x ki i
i=1

e igualando a cero estas derivadas (y sustituyendo i por el residuo


ei) resulta
n

ei = 0

i=1

e i x 1i = 0

i=1

ei xk

= 0,

(2.3)

i=1

y al sustituir
e i = y i b 0 b 1 x 1i b k x ki ,
se llega al sistema de ecuaciones normales.
Es fcil comprobar que la matriz hessiana
2S
H = -------------b i b j

i, j = 0 k

es definida negativa, o sea que las ecuaciones normales corresponden al mnimo de la funcin S(0, 1, , k).

7.

Como corolarios del sistema de ecuaciones normales se enuncian


los siguientes:
a. El valor medio de los residuos se anula
e = 0.
b. El hiperplano de regresin pasa por el punto de coordenadas
( y, x 1 , , x k )
y = b0 + b1 x1 + + bk xk .
c. El valor medio de los valores estimados es
y = y.
Los tres resultados anteriores se deducen de la primera ecuacin
normal.
d. El coeficiente de correlacin entre cada variable xj, j = 1 ... k y los
residuos e se anula
r ex j = 0

j = 1 k.

pues
n

i=1

i=1

1
1
s ex j = --- e i ( x ji x j ) = --- e i x ji e x j ,
n
n
y ambos sumandos se anulan, como se deduce de (2.3).

e. El coeficiente de correlacin (y la covarianza) entre la variable y


los residuos es cero
r ey = 0 = s ey ,
ya que y es una combinacin lineal de las variables x1, x2, ..., xk.

Ejemplo 2.

Modelo de regresin mltiple

Una entidad bancaria desea realizar previsiones sobre los recursos


ajenos o pasivo de clientes que captan sus distintas oficinas y en un estudio previo se considera que el pasivo (y) de una sucursal depende del

45
2.2 MODELO DE REGRESIN
MLTIPLE

46
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

nmero de personas (x1) que residen en el rea de influencia de la oficina, y del nmero de oficinas prximas (x2) de otros bancos. Tras un
proceso de recogida de datos en diecisis oficinas, se obtienen los valores siguientes:
Oficina

Pasivo

Poblacin

Bancos

Oficina

Pasivo

Poblacin

Bancos

1
2
3
4
5
6
7
8

9 492
55 541
51 915
67 574
16 664
47 528
22212
75376

12 600
43 500
38 200
38 000
13 700
32 800
22 300
49 600

10
22
25
33
22
25
18
26

9
10
11
12
13
14
15
16

73 477
37 315
35 361
18 926
36 633
73 045
18 589
30 338

44 300
28 900
32 400
21 600
29 800
43 200
17 500
29 400

30
21
17
14
23
29
13
19

y se trata de estimar el pasivo de cada oficina a partir de las otras dos


variables.
Para especificar el modelo se calcula en primer lugar la matriz de correlacin entre las variables, obteniendo
r yx1 = 0,952,

r yx2 = 0,8760,

r x1 x2 = 0,7579,

que permiten concluir que la variable x1 = Poblacin va a tener una buena


capacidad predictiva sobre el pasivo captado por una oficina. Sin embargo, el hecho de que la correlacin entre el pasivo de una sucursal y el nmero de oficinas bancarias en su zona de influencia sea positiva y alta
parece ser contradictorio con la situacin de mayor competencia comercial que se da al crecer el nmero de oficinas. Esta situacin conduce a
pensar que el modelo
y = 0 + 1 x1 + 2 x2 +
no es el adecuado para predecir el pasivo de una oficina. No obstante si
se considera que existen zonas urbanas donde hay una concentracin de
oficinas bancarias (el centro comercial de muchas ciudades) y otras (perifricas) donde stas escasean, aunque la poblacin de las primeras sea baja, y la de la segunda elevada, se concluye que existe un efecto interaccin
entre la poblacin y el nmero de oficinas bancarias, o sea una influencia
conjunta de estas dos variables. La interaccin de x1 y x2 se representa mediante la variable auxiliar
x 3i = x 1i x 2i

i = 1 16,

cuya relacin con las otras variables se puede medir mediante los coeficientes de correlacin
r yx3 = 0,9944,

r x3 x1 = 0,9449,

r x3 x2 = 0,9077,

47

lo que induce a estimar el modelo


y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
Resolviendo el sistema de ecuaciones normales
16 b 0 + 347 b 1 + 477 800 b 2 + 11 617 800 b 3 = 669 956
347 b 0 + 174 141 400 b 1 + 11 617 800 b 2 + 42 703 250 000 b 3 = 24 458 850 000
477 800 b 0 + 11 617 800 b 1 + 8133 b 2 + 287 335 000 b 3 = 16 391 110
11 617 800 b 0 + 42 703 250 000 b 1 + 287 335 000 b 2 + 10 936 160 000 000 b 3 = 622 034 000 000

se obtiene el modelo
y = 7771,42 + 0,032807x 1 496,35x 2 + 0,0603828x 3 + e,
en el que la influencia de la poblacin es positiva, y la competencia bancaria se manifiesta a travs de los coeficientes de x2 (por cada oficina bancaria de la competencia cabe esperar que el pasivo disminuya en 496
millones) y de la interaccin x3 = x1x2.
Ntese que el nmero de cifras decimales de cada variable debe especificarse en funcin de los valores de sta: la poblacin (x1) se expresa con
nmeros de 5 cifras, por lo que el coeficiente de x1 incluye 6 decimales; el
nmero de oficinas bancarias (x2) vara con dos cifras, por lo que no es necesario incluir ms de dos o tres decimales en su coeficiente; la variable
interaccin x3 = x1x3 llega a tener 7 cifras, por lo que es necesario incluir
ms decimales en el coeficiente de regresin.
El lector deber calcular los residuos y comprobar que estn incorrelados con las variables x1, x2 y x3.
El modelo estimado se ajusta bien a los datos, aunque no es muy fiable, ya que las tres variables explicativas estn relacionadas entre s y esto
origina inestabilidad en los coeficientes, lo que dificulta su interpretacin
econmica. Si se cambia algn dato, como por ejemplo la variable Bancos
en la oficina 14 se hace igual a 19, los resultados de la estimacin cambian
radicalmente, como deber comprobar el lector. Este fenmeno se denomina multicolinealidad, y ser tratado en captulos posteriores.

2.3 MODELO DE REGRESIN MLTIPLE: NOTACIN MATRICIAL


8.

El modelo lineal de regresin mltiple


y i = b 0 + b 1 x 1i + + b k x k i + e i = y i + e i ,
para i = 1 ... n, puede representarse utilizando la notacin matricial siguiente

2.3 MODELO DE REGRESIN


MLTIPLE: NOTACIN MATRICIAL

48

1 x 11
y 1
y
1 x 12
2
y = =

 

y n
1 x 1n

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

xk1

e 1
b
0
x k 2 e 2
 + = Xb + e = y + e,
 
bk
e n
xkn

en el que el vector de coeficientes b representa la estimacin del vector de parmetros  = (0, 1, , k) del modelo terico, que, en notacin matricial es
y = X + ,
siendo el vector cuyos elementos son las n perturbaciones aleatorias
o errores del modelo.
9.

La estimacin del modelo requiere minimizar la funcin


n

S( 0 , 1 , , k) = S() =

2
i

= =

i=1

= ( y X  ) ( y X  ) =
= yy 2  Xy +  XX  ,
para lo cual se igualan a cero las k + 1 componentes del vector
dS()
-------------- = 2Xy + 2XX  ,
d
resultando el sistema de ecuaciones normales
XXb = Xy,
y por lo tanto el vector de estimacin b =  es
b = ( XX ) 1 Xy.
10.

(2.4)

Es necesario que la matriz X sea de rango igual a k + 1,


r(X) = k + 1,

(2.5)

ya que
r(X) = r(XX),
y la matriz XX es cuadrada de dimensin k + 1, por lo que para que
pueda invertirse, o sea para que el sistema de ecuaciones normales sea
resoluble, esta matriz debe ser regular o sea de rango igual a k + 1.

Adems se supone que el nmero de observaciones es mayor que el de


parmetros a estimar
n > k + 1.
11.

El incumplimiento de la condicin (2.5) de estimabilidad del modelo se denomina multicolinealidad. O sea que existe multicolinealidad
si es r(X) < k + 1, en cuyo caso el modelo no es estimable. Por ejemplo,
sea el modelo
y = 100 + 2x 1 3x 2 + ,
y supngase que
x 1 = 5x 2 ;
unos modelos equivalentes al anterior son por ejemplo los siguientes
y = 100 + 3x 1 8x 2 +
y = 100 + 4x 1 13x 2 + ,
por lo que, a partir de datos numricos de las variables no sera posible estimar los coeficientes del modelo.
La multicolinealidad se da pues cuando existen relaciones lineales
entre las variables explicativas x1, x2, , xk.

Ejemplo 3. Modelo de regresin simple en notacin matricial

Con los datos del ejemplo 1 anterior, plantear el sistema de ecuaciones normales y estimar los coeficientes de regresin.
El modelo con n = 8 datos se representa mediante la ecuacin matricial:
40
32

35

33
y = =
26
37

25

27

1
1
1
1
1
1
1
1

e
212
1
e2
152
e
121
3
b 0 e4
96 + = Xb + e
e
185 b 1 5
e6
68
e
7
126
e8
155

49
2.3 MODELO DE REGRESIN
MLTIPLE: NOTACIN MATRICIAL

50

El sistema de ecuaciones normales se obtiene a partir de:

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

1 x1
XX =

1 x2

1 1 1
x1 x2 x8

 
1 x8
y1

Xy =

1 1 1
x1 x2 x8

xi
xi xi2
8

8
1115
1115 170 655

yi
255
=
,
=
37
205
x i y i

y2


y8

por lo que es
b0
255
8
1115
=
,
37 205
1115 170 655 b 1
de donde se deduce que
b 0 = 16,667

12.

b 1 = 0,109 .

Las propiedades que se deducen del sistema de ecuaciones normales son las que ya se conocen, pues
d
d
dS()
-------------- = ------- ( ) = 2 -------- = 2X ,
d
d
d
por lo que al igualar a 0 y sustituir por e = y Xb, resulta que
Xe = 0 k + 1 ,
lo que permite deducir, a partir de la primera ecuacin que
n

x e

ji i

= 0

j = 1 k.

i=1

En el ejemplo anterior, se recomienda al lector que compruebe que


Xe = 0 2 .
2.4 MEDIDAS DE AJUSTE: COEFICIENTES DE DETERMINACIN
13.

El coeficiente de determinacin r2 se define como el tanto por uno


de la varianza s y2 de la variable endgena, explicado por el modelo, y

es una medida del grado de ajuste del modelo a los datos que han servido para estimarlo.
Para formular este coeficiente se enuncia un resultado que se llamar teorema de descomposicin de la varianza de la variable endgena
y: la varianza de y, s y2 se descompone en dos sumandos positivos, la
varianza s y2 de los datos estimados y , y la varianza de los residuos e
o varianza residual
s y2 = s y2 + s e2 ,

(2.6)

siendo
1
s y2 = --n
1
s e2 = --n

i=1
n

1
( y i y ) 2 = --- S y
n

i=1

2
i

1
s y2 = --n

( y y )
i

i=1

1
= --- S y
n

1
= --- S e .
n

La demostracin es puramente algebraica y parte de la identidad


y i y = ( y i y ) + ( y i y i ) = ( y i y ) + e i ,
en la que, si se elevan ambos miembros al cuadrado y si se suman
las identidades resultantes para i = 1, 2, ..., n, resulta
n

( yi y ) 2

i=1

i=1

i=1

i=1

( y i yi ) 2 + ei2 + 2 ( y i y )ei ,

y al dividir por n estas sumas de cuadrados, es


s i2 = s y2 + s e2 + 2s ey ,
pero en el ltimo corolario del sistema de ecuaciones normales
(apartado 2.2) se vio que s ey = 0, por lo que se verifica (2.6).
14.

La variabilidad de y cuantificada mediante su varianza s y2 se descompone en dos sumandos:


s y2 asociado a la capacidad predictiva del modelo, y
s e2 o residual (no explicada por las variables exgenas)
y el coeficiente de determinacin es
s 2
s e2
r 2 = ----y2- = 1 ----2- = 1
sy
sy

(y y) .
e i2 /

i=1

i=1

Los valores del coeficiente de determinacin oscilan entre 0 y 1


r 2 [ 0; 1 ].

51
2.4 MEDIDAS DE AJUSTE:
COEFICIENTES DE DETERMINACIN

52
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

Cuando es r2 = 1, resulta que s e2 = 0, y por lo tanto e1 = e2 = = en = 0,


o sea que el ajuste es perfecto: todos los puntos estn en el hiperplano
de regresin.
En el otro extremo, si es r2 = 0, resulta que s y2 = s e2 , y los coeficientes de regresin se anulan, resultando el modelo
yi = b0 + ei = y + ei ,
por lo que las variables exgenas (x1, x2, , x ) no tienen capacidad
k
predictiva lineal sobre la variable endgena y.

Ejemplo 4.

Coeficientes de determinacin

Con los datos del ejemplo 2 anterior vamos a estimar la capacidad


predictiva de las variables x1 y x2 sobre la variable y.
Al plantear el modelo con notacin matricial, resulta
5000

5500

7000
y = 8000

9500
10 000

12 000

1
1
1
1
1
1
1

76
82
90
102
103
105
99

8
9
10
12
13
14
16

b 0

b 1

b 2

e 1
e
2
e
3
+ e 4 = y + e

e 5

e 6

e 7

por lo que, al sustituir


1514,09
b 0

b
b = 1 = 11,071

b 2
913,05
se calculan los valores estimados y los residuos
4949,2
5795,8

6620,3

y = 8313,6

9215,6
10 106,5

11 999,0

50,8
295,8

379,7

e = 313,6

284,4
106,5

1,0

53

A partir de stos se calcula, por ejemplo

s s2

1
s e2 = --- [ ( 50,8396 ) 2 + ( 295,8 ) 2 + ( 379,686 ) 2 + ( 313,604 ) 2 +
7
+ ( 284,411 ) 2 + ( 106,506 ) 2 + ( 1,0 ) 2 ] = 60 689,76,
y como
7

1
1
s y2 = --- ( y i y ) 2 = --- [ ( 5000 8142,86 ) 2 + ( 5500 8142,86 ) 2 +
n
7
i=1

+ ( 7000 8142,86 ) 2 + + ( 12 000 + 8142,86 ) 2 ] = 5 479 591,84


resulta que s y2 = 5 479 591,84 60 689,76 = 5 418 902,08 aunque tambin se puede calcular directamente
7

1
1
s y2 = --- ( y i y ) 2 = --- [ ( 4949,16 8142,86 ) 2 + ( 5795,81 8142,86 ) 2 +
n
7
i=1

+ + ( 11 999 8142,86 ) 2 ] = 5 418 902,08,


y es
60 689,76
r 2 = 1 ------------------------------- = 0,989,
5 479 591,84
lo que indica un buen grado de ajuste pues el 98, 9% de la variabilidad de
y es explicada por el modelo.
Como ejercicio adicional, se recomienda al lector que calcule el coeficiente de correlacin simple entre las variables y e y y que compruebe que
2 = r 2 = 0,994 2 = 0,989,
r yy

o sea que el coeficiente de determinacin es el cuadrado del coeficiente de


correlacin simple entre y e y .
Anlogamente, se recomienda calcular la covarianza entre los residuos y los valores estimados y .

15.

En el caso de un modelo de regresin simple se verifica que


2 = r2 .
r 2 = r yx
yy

Su demostracin se deja como ejercicio.


16.

El cambio de escala de medida en los datos no afecta al grado de


ajuste de un modelo. As, si en el ejemplo 4 anterior se dividen por 10
todos los datos de la variable x1, se tiene que
x 1* i = x 1i /10

i = 1 7,

2.4 MEDIDAS DE AJUSTE:


COEFICIENTES DE DETERMINACIN

54

entonces el modelo estimado es

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

y i = 1514,093 110,68x 1* i + 913,05x 2i ,


y r2 = 0,989. Anlogamente, si se altera la escala de la variable endgena, como por ejemplo, definiendo
y i* = 100y i

i = 1 7,

entonces el modelo resultante es


y i* = 151 409,3 1106,8x 1 + 91 305x 2 ,
y r2 = 0,988. Los residuos de este nuevo modelo sern
e i* = 100e i

i = 1 7,

como deber comprobarse con los datos proporcionados.


17.

Cuando se estiman varios modelos alternativos para explicar las


variaciones de la misma variable endgena, como por ejemplo
y = 0 + 1 x1 +
y = 0 + 1 x 1 + 2 x 2 +
y = 0 + 1 x 1 + 2 x 2 + 3 x 3 +
y se calculan los coeficientes de determinacin r2, r2, r2, se verifica
que
r 2 r 2 r 2
debido a que la proporcin de la varianza de y explicada por las variables exgenas se incrementa al ir aadiendo nuevas variables, aunque stas no sean realmente explicativas de y. Por lo tanto, si r2 se
incrementa poco al aadir una nueva variable, surge la duda de si se
puede prescindir de esta nueva variable, sin afectar al modelo.
Otra situacin se da cuando se estiman varios modelos con distinto nmero de variables, como por ejemplo
y = 0 + 1 x1 + 6 x6 +
y = 0 + 1 x 1 + 3 x 3 + 4 x 4 +
y se desea comparar los coeficientes de determinacin.

18.

El coeficiente de determinacin corregido


n

1
--------------------e i2
n

1
2
s
n1
i=1
r 2 = 1 ----e2- = 1 ----------------------------------------- = 1 --------------------- ( 1 r 2 )
n
nk1
sy
1
-----------( yi y ) 2
n1

i=1

mide el grado de ajuste del modelo teniendo en cuenta el nmero de


variables explicativas utilizadas, y se usa para comparar el grado de
ajuste entre distintos modelos alternativos para una misma variable
endgena.
2.5 TEORA DE LA CORRELACIN
19.

El grado de asociacin lineal entre dos variables numricas X e Y


se mide por su coeficiente de correlacin (simple, ordinario o de Pearson), que se calcula a partir de un conjunto de n observaciones o puntos
( xi , yi )

i = 1n

mediante la expresin
n

r xy

1
--( xi x ) ( yi y )
n
s xy
i=1
= --------- = ----------------------------------------------------------------------------n
n
sx sy
1
1
--( x i x ) 2 --( y1 y ) 2
n
n

i=1

i=1

Un coeficiente de correlacin toma valores en el intervalo [1; +1].


Si es rxy = +1, los n puntos estn alineados de forma creciente, y si es
rxy = 1, de manera decreciente.
y

y
rxy = + 1

rxy = 1

Si es rxy = 0, a las variables X e Y se las llama incorreladas y no existe


relacin lineal alguna entre ambas.
y

y
rxy = 0

rxy = 0

55
2.5 TEORA DE LA CORRELACIN

56

En el caso de existir una relacin lineal aproximada, el coeficiente


de correlacin tomar valores intermedios; por ejemplo

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

y
rxy = 0,8

rxy = 0,4

20.

Si la asociacin entre ambas variables x e y no es lineal, no es vlido usar como medida de asociacin el coeficiente de correlacin. Por
ejemplo, de los siguientes datos

Y
40

x
y

1
2

2
5

3
10

4
17

5
26

6
37

30

resulta que
20

r xy = 0,959 < 1

10

a pesar de que existe una relacin (no lineal) exacta entre las variables
x e y, ya que, como puede comprobarse fcilmente, y = x2 + 1.
Anlogamente, de los datos

0
0

7
X

x
y

1
5

2
7,2361

4
8

6
2,7639

7
5

6
7,2361

4
2

2
2,7639

Y
9

que estn situados sobre la circunferencia (x 4)2 + (y 5)2 = 9 se obtiene que

8
7
6

r xy = 0

5
4

a pesar de la relacin exacta (no lineal) que existe entre las variables x
e y.

3
2
1

21.
0

Por ltimo, con el siguiente conjunto de datos se vern las limitaciones del uso del coeficiente de correlacin como medida de asociacin, sin visualizar la informacin numrica disponible:

x
4
5
6
7
8
9
10
11
12
13
14

y1

y2

y3

xx

4,26
5,68
7,24
4,82
6,95
8,81
8,04
8,33
10,84
7,58
9,96

3,10
4,47
6,13
7,26
8,14
8,77
9,14
9,26
9,13
8,74
8,10

5,39
5,73
6,08
6,42
6,77
7,11
7,46
7,81
8,15
12,74
8,84

19
8
8
8
8
8
8
8
8
8
8

57

yy

2.5 TEORA DE LA CORRELACIN

12,50
6,89
5,25
7,91
5,76
5,56
7,04
6,58
7,71
8,84
8,47

Los grficos de las once parejas de puntos siguientes


( x i , y 1i )
( x i , y 2i )
( x i , y 3i )
( xx i , yy i )
para i = 1, 2, , 11 se muestran a continuacin:
15

15

Y = 3 + 0,5X

Y1
10

10

10

15

20

10

15

20

15

15

Y = 3 + 0,5X

Y3

10

0
0

10

Y = 3 + 0,5X

YY

10

Y = 3 + 0,5X

Y2

15

20

10

15 XX 20

58

Es fcil comprobar que

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

r xy1 = r xy2 = r xy3 = 0,667 = r xxyy ,


y que si se ajusta una recta de regresin a cada uno de los cuatro conjuntos de datos anteriores, se obtiene la misma recta
y = 3 + 0,5x.
Es obvio que el conjunto de datos (x, y1) presenta una tendencia lineal, el conjunto (x, y2) una tendencia no lineal, pero en el conjunto (x,
y3) existe un dato anormal, mientras que el resto estn alineados. El
ltimo conjunto, (xx, yy), est formado por datos no relacionados entre s y por un punto aislado, que es el que origina la relacin aparente
entre los datos.
22.

En algunas situaciones, dos variables x e y relacionadas entre s estn a su vez relacionadas con una tercera variable z. La influencia de
z sobre x e y puede afectar a la relacin que existe entre ellas. El coeficiente de correlacin parcial rxy z es una medida de la relacin lineal
existente entre x e y que elimina los efectos (lineales) de z sobre ambas.
x
z

ex
rxy z

rxy
y

ey

Para definir el coeficiente de correlacin entre x e y, parcial z, se estiman los dos modelos de regresin
x i = a + bz i + e xi

i = 1 n,

y i = a + bz i + e yi

i = 1 n,

y se define
r xy z = r ex e y ,
o sea como el coeficiente de correlacin ordinario entre los residuos ex
y ey, que representan respectivamente la variabilidad de x e y residual
despus de haber sido eliminada la influencia de z.
Este coeficiente rxy z se calcula tambin a partir de los coeficientes
de correlacin simple entre las tres variables
r xy r xz r yz
r xy z = ----------------------------------------- .
2
2
1 r xz
1 r yz

59

Anlogamente, el coeficiente de correlacin parcial

2.5 TEORA DE LA CORRELACIN

r xy z1 z2 = r ex e y
se define construyendo los modelos
x = a + b1 z1 + b2 z2 + ex ,
y = a + b1 z 1 + b2 z 2 + e y .
23.

La influencia de la variable sobre x e y afecta a la relacin medida


por el coeficiente rxy; en algunos casos ser rxy < rxy z, ocultando z la
relacin existente entre x e y, y en otros, si rxy < rxy z, el efecto de z es
el de amplificar la relacin existente aparente entre x e y. En todo caso,
los coeficientes de correlacin (ordinarios o parciales) son medidas de
asociacin lineal entre variables, y no implican relaciones de dependencia de una variable respecto de otra. Adems, no hay que olvidar
que una relacin causal de dependencia o de interdependencia entre
dos variables no se debe a que el coeficiente de correlacin sea elevado, sino a la naturaleza de la relacin econmica subyacente.

Ejemplo 5.

Correlacin simple y parcial

Se dispone de dos series temporales trimestrales del nmero de turistas (x) y de los vehculos vendidos (y) en un pas durante 5 aos resultando los datos siguientes:
1989

1990

1991

1992

1993

1060
1097
1102
1130

258
311
410
374

1109
1356
1366
1410

487
573
513
645

1670
1524
1712
1581

629
861
806
837

1585
1669
1678
1923

926
1008
1230
1139

1823
2101
1832
1917

1255
1377
1249
1378

y se trata de estudiar la relacin entre estas dos series y la influencia del


transcurso del tiempo sobre la asociacin entre x e y.
Al realizar el diagrama de dispersin (xt ,yt), t = 1, 2, , 20, se observa
una relacin lineal clara entre ambas series,

60
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

Y
2500

1250

2000

1000

xt

1500
750

yt

1000
500

500

250
1000 1250 1500 1750 2000 2250

0
1989

1990

1991

1992

1993

y con el grfico temporal, se comprueba que las dos crecen con el tiempo.
El coeficiente de correlacin entre ambas es
s xy
103 679,3
r xy = -------- = --------------------------------------------------------- = 0,9334,
sx sy
95 360,4 129 389,1
lo que indica una asociacin lineal fuerte entre ambas variables. No obstante, no parece lgico pensar que el nmero de turistas influye en la venta de vehculos ni viceversa. La asociacin entre estas series se puede
deber al crecimiento global de la economa en el perodo considerado; esta
tendencia, si es lineal, se puede representar con la variable
zt = t

t = 1 20,

por lo que al calcular los coeficientes de correlacin


r xt = 0,9483

r yt = 0,9848,

y a partir de stos el coeficiente de correlacin parcial rxy t resulta


0,9334 0,9483 0,9848
r xy t ------------------------------------------------------------------- = 0,0089,
1 0,9483 2 1 0,9848 2
lo que muestra una asociacin prcticamente nula entre x e y cuando se
elimina la influencia lineal de la variable tendencial t.

24.

Una medida de asociacin montona entre dos variables x e y es el


coeficiente de correlacin de Spearman rs. Para definirlo es preciso
calcular los rangos de una muestra; por ejemplo, sea
x 1 = 40,5

x 2 = 35,8

x 3 = 42,7

y los rangos de estas observaciones son

x 4 = 38,1

x 5 = 33,7

r x1 = 4

r x2 = 2

r x3 = 5

r x4 = 3

61

r x5 = 1,

2.5 TEORA DE LA CORRELACIN

o sea, los nmeros de orden resultantes al ordenar de forma creciente


estas observaciones.
Al disponer de n parejas de datos
( xi , yi )

3
Y

i = 1n
2

se pueden calcular los rangos de los valores de x y los de los valores


de y, resultando
( r xi , r yi )
i = 1 n.
El coeficiente de Spearman, que se define como el coeficiente de
correlacin ordinario entre los rangos rx y ry, es igual a

1
rs = 1
0

rxy < 1
10

15

20 X 25

2,0
n

(r

xi

r yi ) 2

i=1
r sxy = r rx r y = 1 ------------------------------------.
n(n 2 1)

Si es rs = +1, la relacin entre x e y es montona creciente; si es rs =


1, es montona decreciente; y si es rs = 0, no existe relacin montona
ente x e y.
Los dos primeros grficos muestran una relacin montona exacta, por lo que es rs = 1 en el caso creciente y rs = 1 en el decreciente;
en ambos casos la relacin no es lineal, por lo que el coeficiente de correlacin ordinario es, en valor absoluto, menor que la unidad. En el
tercer grfico se aprecia una relacin creciente, por lo que rs > 0, y
como aqulla no es lineal, se verifica que rs > rxy. El ltimo grfico corresponde a dos variables incorreladas, por lo que el coeficiente de correlacin de Spearman y el ordinario se anulan.
El coeficiente de correlacin de Pearson se usa para detectar relaciones crecientes o decrecientes. No obstante, no hay que olvidar que
la naturaleza de una relacin causal entre dos variables es de tipo extra-estadstica, y que en la interpretacin de un coeficiente de correlacin hay que recordar siempre que debe poder explicarse econmicamente la presencia o ausencia de relacin.

Y
1,5
1,0
0,5
rs = 1
0,0

rxy < 0
10

15

20

25

2,0
Y
1,5
1,0
0,5
0 < rxy < rs < 1
0,0

10

20

30

40

50 X 60

15
Y
10

Ejemplo 6.

Coeficientes de correlacin ordinario y de Spearman


5

Con los datos de las variables siguientes calcular los coeficientes de


correlacin simple y de Spearman.

rs = 0
0

10

20

rxy = 0
30

40

50 X 60

62
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

y1

y2

y3

y4

1060
1097
1102
1130
1109
1356
1366
1410
1670
1524
1712
1581
1585
1669
1678
1923
1823
2001
1832
1917

258
311
410
374
487
573
513
645
629
861
806
837
926
1008
1230
1139
1255
1377
1249
1378

50
51
51
52
49
50
52
53
54
53
55
54
53
56
56
59
59
66
60
61

18
20
18
20
16
20
20
16
14
16
16
17
17
13
12
7
14
8
13
9

144
137
136
132
135
106
105
103
104
100
107
101
101
104
105
131
117
145
116
130

Grficamente se obtiene:
Y1
1500

Y2
70

1250

65

1000

60

750

55

500

50

X
250
1000 1250 1500 1750 2000 2250

X
45
1000 1250 1500 1750 2000 2250

Y3
25
20

Y4
150
140
130

15

120
110

10

100

X 90
X
5
1000 1250 1500 1750 2000 2250
1000 1250 1500 1750 2000 2250

63

En el primer caso los rangos de la variable x son


1
15

2
10

2.5 TEORA DE LA CORRELACIN

3
11

5
12

4
14

6
19

7
16

8
20

13
17

9
18

4
13

3
14

5
16

7
15

6
18

9
19

8
17

12
20

y los de la variable y1
1
10

2
11

por lo que su coeficiente de correlacin de Spearman es


6
- [ ( 1 1 ) 2 + ( 2 2 ) 2 + ( 3 4 ) 2 + + ( 18 20 ) 2 ] = 0,9203.
rs = 1 -------------------------20(20 2 1)
y el coeficiente de correlacin ordinario o de Pearson
20

r xy1

1
------ ( x 1i x ) ( y 1i y 1 )
20
i=1
= ----------------------------------------------------------------------------------- = 0,9339.
20
20
1
1
------ ( x i x ) 2 ------ ( y 1i y 1 ) 2
20
20
i=1

i=1

La tendencia es creciente y lineal, por lo que ambos coeficientes muestran el grado de asociacin positivo entre las variables x e y1, y del mismo
orden de magnitud, lo que es indicativo de la existencia de asociacin lineal entre estas variables. Los rangos de y2 son
2,5 4,5
13
11,5

4,5 6,5 1
2,5 6,5 9
9
14,5 14,5 16,5 16,5 20

11,5 9
18
19

ya que al darse coincidencias en los valores y2, se toman los valores medios de los rangos que les corresponderan a los valores coincidentes, si
stos fueran ligeramente distintos. El coeficiente de correlacin de Spearman entre y2 y x es
6
- [ ( 1 2,5 ) 2 + ( 2 4,5 ) 2 + + ( 18 19 ) 2 ] = 0,9525,
r s = 1 -------------------------20(20 2 2)
siendo el coeficiente de correlacin simple o de Pearson
r xy2 = 0,8921.
La relacin entre x e y2 no es lineal, aunque s es aproximadamente
montona creciente, como indica el valor rs anterior.
Anlogamente, los rangos de y3 son
15,5
10,5

18,5
13,5

15,5
13,5

18,5
5,5

10,5
4

18,5
1

18,5
7,5

10,5
2

7,5
5,5

10,5
3

64

y el coeficiente de correlacin de Spearman entre y3 y x es

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

6
- [ ( 1 15,5 ) 2 + ( 2 19,5 ) 2 + + ( 18 3 ) 2 ] = 0,8582,
r s = 1 -------------------------20(20 2 1)
lo que denota una relacin montona decreciente entre x e y3. Anlogamente, el coeficiente de correlacin entre estas variables es
r xy3 = 0,83,
lo que indica que la relacin montona anterior es aproximadamente lineal decreciente, ya que ambos coeficientes son muy similares.
Por ltimo los rangos de la variable y4 son
19
10

18
17
15
16
9
2,5 2,5 5,5 7,5 14

7,5 4
11
20

5,5 1
12
13

por lo que el coeficiente de correlacin de Spearman entre y4 y x es


6
- [ ( 1 19 ) 2 + ( 2 18 ) 2 + + ( 18 13 ) 2 ] = 0,1317,
r s = 1 -------------------------20(20 2 1)
o sea que no existe relacin montona creciente o decreciente entre estas
variables. De igual forma se calcula
r xy4 = 0,2317,
que indica que la relacin lineal entre x e y4 es casi inexistente. En el grfico que relaciona y4 con x se observa sin embargo que parece existir una
relacin funcional casi exacta entre estas variables, pero esta relacin es
no lineal. Al estimar el modelo cuadrtico y4 = b0 + b1x + b2x2 + e resulta
y 4 = 564,955 0,6084x + 0,000199x 2 + e,
con el coeficiente de determinacin
r 2 = 0,997.
Esta asociacin no lineal y no montona no ha sido detectada por el coeficiente de correlacin simple de Pearson ni por el de Spearman, a pesar de
ser casi exacta, lo que muestra las limitaciones de los coeficientes de correlacin como medidas de asociacin entre variables.

2.6 REGRESIN NO LINEAL


25.

Numerosas relaciones entre variables econmicas son de tipo no


lineal; as una funcin de produccin de Cobb-Douglas

Y = X 11 X 22 + ,
que representa la produccin (Y) en funcin de los factores o inputs
capital (X1) y trabajo (X2) es no lineal.
Es necesario distinguir entre funciones no lineales respecto a:
las variables, y
los parmetros.
En el ejemplo anterior, la funcin de Cobb-Douglas es no lineal
respecto a las variables, pues depende no linealmente de stas, y no
lo es tampoco respecto a los parmetros , 1 y 2.
Si se considera ahora un polinomio de grado dos, o sea una parbola,
Y = 0 + 1 X + 2 X 2 +
se tiene que es una funcin no lineal respecto a la variable X, pero que
es lineal en los parmetros.
En general, el modelo no lineal respecto a las variables X1, X2, ...,

26.

Xk
h(Y) = 0 + 1 h 1 ( X 1 , , X k ) + + r h r ( X 1 , , X k ) + ,
en el que las funciones h(y), h 1(x),, h r(x) son conocidas, se linealiza
mediante el cambio de variables
Y * = h(Y)

X 1* = h 1(X 1 , , X k),

, X r* = h r(X 1 , , X k),

resultando el modelo lineal


Y * = 0 + 1 X 1* + + r X r* + .
27.

Otros modelos se pueden linealizar mediante una transformacin.


As, por ejemplo, si se considera el modelo exponencial
Y = eX + ,
se puede ignorar la existencia del trmino error () y la ecuacin resultante se linealiza tomando logaritmos
ln Y = ln + X + * .
En realidad este modelo no es igual al exponencial pues es
Y = e X e * ,

65
2.6 REGRESIN NO LINEAL

en el que el trmino error e * acta multiplicativamente, cuando en el


modelo original el error es aditivo.
Al aplicar el mtodo de mnimos cuadrados al modelo linealizado,
se obtienen unas estimaciones de ln y distintas (generalmente no
muy distintas) de las calculadas si se utilizan mnimos cuadrados en
el modelo no lineal original, en el que se minimiza la funcin

66
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

S( , ) =

i2

i=1

( y e
i

xi 2

) ,

i=1

para lo cual hay que resolver el sistema de ecuaciones normales igualando a cero las derivadas
S
------- =

S
------ =

i
2 i ------- = 2

( y e

xi

)e xi

- = 2 ( y e
2 -----

xi

) e xi x i ,

i=1
n

i=1
n

i=1

i=1

resultando las ecuaciones normales


n

e 2bxi =

xi =

i=1
n
2bx i

i=1

y e
i

bx i

i=1
n

y x e
i i

bx i

i=1

La resolucin de stas se realiza mediante procedimientos numricos, pues no es posible despejar a = y b = directamente debido
a su no linealidad.
28.

En general, si se puede transformar un modelo no lineal en otro


que sea lineal, aunque ste slo sea una aproximacin al modelo original, es recomendable hacerlo, aunque hay que tener en cuenta que
los dos modelos no son idnticos. Posteriormente, y si es posible, se
recomienda estimar el modelo no lineal directamente, y compararlo
con las estimaciones del modelo transformado.

Ejemplo 7.

Estimacin de una funcin de produccin

En la siguiente tabla aparecen los datos referidos a las importaciones en los Estados Unidos (y) en miles de millones de dlares, producto

67

nacional bruto (x1) e ndice de precios al consumo (x2) durante el perodo 19721983.
x1

x2

x1

x2

1186
1326
1434
1549
1718
1918

125,3
133,1
147,7
161,2
170,5
181,5

55,8
70,5
103,8
98,2
124,2
151,9

2164
2418
2632
2958
3069
3305

195,4
217,4
246,8
272,4
289,1
298,4

176,0
212,0
249,8
265,1
247,7
261,3

y se trata de construir un modelo para representar la evolucin de las


importaciones en funcin del producto nacional y del ndice de precios
al consumo.
Despus de ensayar varios modelos explicativos de las importaciones,
tantolinealescomonolineales,sepruebaconunaformadetipoCobb-Douglas
y t = 0 x 1t1 x 2t2 + t ,
para el cual el sistema de ecuaciones normales se obtiene igualando a cero
las primeras derivadas de la funcin
12

S(b 0 , b 1 , b 2) =

et2 =

i=1

12

( yt b0 x1b x2b ) 2 ,
1
t

2
t

i=1

o sea
1 S
--- -------- =
2 b 0
1 S
--- -------- =
2 b 1
1 S
--- -------- =
2 b 2

12

( yt b0 x1b x2b )x1b x2b


1
t

2
t

1
t

2
t

= 0

i=1
12

( yt b0 x1b x2b )b0 x2b x1b


1
t

2
t

2
t

1
t

ln x 1t = 0

2
t

ln x 2t = 0,

i=1
12

( yt b0 x1b x2b )b0 x1b x2b


1
t

2
t

1
t

i=1

resultando, al resolver el sistema anterior,


y t = 8,12355x 10,429875
x 2t 0,089698
t

+ et

t = 1 12

con un coeficiente de determinacin r2 = 0,974. No obstante, los residuos


sucesivos estn relacionados, lo que indica que puede mejorarse el ajuste.
El modelo de tipo Cobb-Douglas anterior es de tipo no lineal, pues la
perturbacin aleatoria t es aditiva. Si se considera a sta multiplicativa,
entonces resulta un modelo parecido:

2.6 REGRESIN NO LINEAL

68
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

y t = 0 x 1t1 x 2t2 t ,

que se linealiza tomando logaritmos neperianos


y t* = ln y t = ln 0 + 1 ln x 1t + 2 ln x 2t + ln t = 0* + 1 x 1* + 2 x 2* + t* .
Al estimar por mnimos cuadrados este modelo lineal resulta
ln y t = 7,9369 + 2,55433 ln x 1i 1,23367 ln x 2t + e t* ,
o sea
y t = 0,000357x 12,55433
x 2 1,23367 e t .
t
Como en este ejemplo el nmero de datos es n = 12, las estimaciones
de los parmetros 0, 1 y 2 han resultado ser muy distintas de las de los
parmetros 0 , 1 y 2 del modelo linealizado mediante la transformacin logartmica. Posiblemente con un conjunto de datos mayor se habran conseguido estimaciones parecidas.

29.

A continuacin se representan algunos ejemplos de funciones no


lineales:
a. Funciones polinmicas
Parbola: curva creciente o decreciente sin ningn tipo de inflexin:
y = 0 + 1 x + 2 x 2 .

Cbica: curva creciente o decreciente con un punto de inflexin;


puede presentar un mximo y un mnimo relativo:
x

y = 0 + 1 x + 2 x 2 + 3 x 3 .
y

b. Funciones exponenciales: curvas con crecimiento acelerado con


elasticidad constante; asinttico al eje x o a una recta horizontal:
y = e x .
y

>0

<0
x

c. Funciones potenciales: curvas con crecimiento o decrecimiento


desacelerado:
y = + ln x.

69
2.6 REGRESIN NO LINEAL

>0

<0
x

d. Funciones logsticas: curvas con crecimiento entre dos asntotas


horizontales:
1
y = + ----------------------------------------- .
+ y exp ( x )
e. Funciones de Hoerls: curvas con un mximo y decrecientes asintticamente:

y = x e yx .
30.

En definitiva, existen numerosos tipos de funciones no lineales, y


en cada caso, al construir un modelo economtrico, ser necesario detectar la variacin no lineal. Si es posible, mediante una transformacin de variables, el modelo se linealizar, y si no lo es, habr que
especificar la forma funcional no lineal, y emplear un mtodo numrico para resolver el sistema de ecuaciones normales resultante.
Los paquetes de programas T. S. P. y T. S. P. disponen de instrucciones para estimar modelos lineales y no lineales. La mayora de los
programas estadsticos contienen modelos de regresin lineal y no lineal.

ANEXO I. LGEBRA MATRICIAL

70
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

1.

Una matriz A est formada por un conjunto de elementos aij que


se disponen en forma de tabla rectangular

a 11 a 12 a 1n
A =

a 21 a 22 a 2n

= a ij .


a m1 a m2 a mn
La dimensin de la matriz es
dim (A) = ( m, n ),
siendo m es el nmero de filas y n el de columnas.
Un vector v es una matriz de dimensin (m, 1), y sus elementos son
v1
v =

v2

vm

La matriz A traspuesta de A se obtiene permutando las filas por las


columnas de A.
2.

Las operaciones bsicas que se realizan con matrices de igual dimensin son la adicin y la substraccin. Por ejemplo,
C = A+B
es una matriz cuyo elemento genrico (i, j) se obtiene mediante
c ij = a ij b ij .

3.

Si A y B son de dimensiones
dim (A) = ( m, k )

dim (B) = ( k, n ),

entonces el producto
C = AB
origina una matriz de dimensin (m, n), cuyo elemento genrico (i, j)
se obtiene mediante el producto escalar del vector fila i-sima de A
por el vector columna j-sima de B

71

c ij = fila i ( A ) columna j ( B ) =

a ir b rj .

i=1

Por ejemplo, si v = ( v 1 , v 2 , , v m ), el producto escalar


m

vv =

2
i

i=1

y
v 12
vv =

v1 v2 v1 vm

v 1 v 2 v 22 v 2 v m


v 1 v m v 2 v m v m2
Es fcil comprobar que la matriz traspuesta de un producto de matrices es igual al producto de las traspuestas en orden inverso
( AB ) = BA
4.

( ABC ) = CBA.

Una matriz A de dimensin (n, n) se denomina cuadrada de orden


n y su determinante es una funcin de los elementos aij de A.
Por ejemplo, si A es de orden 2, su determinante es
det (A) = a 11 a 22 a 12 a 21 ,
y si es de orden superior se calcula de la siguiente forma: sea Mij la
submatriz de A obtenida eliminando o truncando la fila i-sima y la
columna j-sima de A y sea
A ij = ( 1 ) i + j det ( M ij ),
el denominado adjunto del elemento (i, j).
As, sea la matriz A de orden 3, como por ejemplo
3 0 7
A = 1 4 5 ,
6 3 2
y tomando i = 1 (o cualquier otro valor de i)
det (A) = 3A11 + 0A12 7A13

ANEXO I. LGEBRA MATRICIAL

72

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

A 11 = + det 4 5 = 8 15 = 7
32
A 12 = det 1 5 = 32
6 2
A 13 = + det 1 4 = 27,
6 3
entonces se obtiene
det (A) = 21 + 189 = 168.
Anlogamente se calcula el determinante de una matriz de orden superior
n

det (A) =

ij

A ij ,

i=1

siendo el resultado idntico para cualquier valor j = 1, 2, 3, , n.


5.

La matriz inversa A1 de una matriz cuadrada A es otra matriz del


mismo orden que verifica
A 1 A = I n = AA 1 ,
en la que In es la matriz identidad de orden n

In =

1
0

0
1

0
0

0
0

= diag ( 1, 1, , 1 ).

Esta matriz es igual a


1
A 1 = ------------------- A ji ,
det ( A )
o sea la matriz traspuesta de los adjuntos Aij de los elementos de A dividida por el determinante de A.
Por ejemplo, sea

73

3 0 7
A = 1 4 5
6 3 2

ANEXO I. LGEBRA MATRICIAL

y det (A) = 168, siendo


A 11 = det 4 5 = 7
32

A 12 = det 1 5 = 32
6 2

A 13 = det 1 4 = 27
6 3

A 21 = det 0 7 = 21
3 2

A 22 = det 3 7 = 48
6 2

A 23 = det 3 0 = 9
63

A 31 = det

0 7 = 28
4 5

A 33 = det

3 0 = 12
1 4

A 32 = det

3 7 = 8
1 5

por lo que

1
A 1 = --------168

7 21 28
32 48 8 .
27 9 12

Deber comprobar el lector que AA1 = I3 = A1A.


Si el determinante de A es distinto de cero, se llama a la matriz A
regular y existe la matriz inversa; en caso contrario, A es singular y no
existe la matriz A1, aunque se puede definir otra matriz, B, denominada inversa generalizada, que verifica que ABA = A.
6.

Algunas propiedades del determinante se enuncian a continuacin:


a. El determinante de la matriz traspuesta de A es igual al de A
det ( A ) = det ( A ).
b. El determinante del producto de dos matrices cuadradas es
det ( AB ) = det ( A ) det ( B ).
c. El determinante de la inversa de A es

74

det ( A 1 ) = 1/det ( A ).

ASOCIACIN ENTRE VARIABLES. EL


MTODO DE MNIMOS
CUADRADOS

d. Si una lnea (fila o columna) de A es una combinacin lineal de varias lneas paralelas a sta, entonces se verifica que A es singular,
y es
det ( A ) = 0.
El lector deber comprobar los resultados anteriores con varios
ejemplos numricos.
7.

Unas propiedades de la matriz inversa son:


a. La inversa de la matriz traspuesta es
( A ) 1 = ( A 1 ).
b. La inversa de un producto de matrices es
( AB ) 1 = B 1 A 1 .

8.

El rango de una matriz A de dimensin (n, m) es igual al orden de


la submatriz cuadrada B de mayor orden que sea regular.
As, si A es una matriz cuadrada de orden n regular, su rango es
r (A) = n.
y si es singular
r (A) < n.
Por ejemplo, sea
301
A = 301
789
y det (A) = 0, luego r (A) < 3, pero si se toma la submatriz de orden 2
B = 30 ,
78
cuyo determinante es 24, o sea que es regular, se tiene que
r (A) = r (B) = 2.
Como ejercicio, el lector deber comprobar que para cualquier matriz A se verifica que

r (AA) = r (A) = r (AA).

75
ANEXO I. LGEBRA MATRICIAL

9.

La traza de una matriz es la suma de los trminos de su diagonal


principal
n

tr ( A ) =

ij

i=1

y cumple las propiedades


tr (A + B) = tr (A) + tr (B)
tr (AB) = tr (BA),
como podr comprobar numricamente el lector.
10.

Al manejar funciones de varias variables, es posible considerarlas


como una funcin de un vector (o de una matriz)
y = f (x 1 , , x k) = f (x),
y se define la derivada vectorial de y con respecto a x mediante el vector columna de k componentes
f
-------x 1
f
-------dy
df (x)
x
------ = ------------ =
2 .
dx
dx

f
-------x k
A partir de esta definicin se deducen varias propiedades:
a. Si f(x) es una constante, o sea no depende de x, es
df
------ = 0 k ,
dx
siendo 0k = (0, 0, , 0) un vector columna formado por k ceros.
k

b. Sea la forma lineal f (x) = x  =

j j

j=1

f
d ------ =  ,
dx
como se deduce sin ms de la definicin de derivada vectorial.

c. Considrese la forma cuadrtica de matriz A

76
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

f (x) = xAx =

a x x ,
ij i j

i = 1i = 1

as se verifica que
df
------ = ( A + A )x.
dx
d. Si la matriz A es simtrica, entonces
df
------ = 2Ax.
dx
Estas reglas de derivacin matricial se emplean en el apartado 2.3
anterior para obtener el sistema de ecuaciones normales en un modelo lineal de regresin mltiple.
11.

En numerosos mtodos estadsticos y economtricos aparecen los


autovectores y autovalores de una matriz cuadrada. La ecuacin caracterstica de una matriz cuadrada A de orden k se define mediante
la expresin
det ( A I ) = 0,
en el que el determinante anterior es un polinomio de orden k en la
variable . Este polinomio caracterstico tiene k races (reales o complejas)
1 , 2 , , k ,
que se denominan autovalores o valores propios o caractersticos de
A.

12.

Si A es una matriz regular se verifica que


det ( A ) = 1 2 k
y los autovalores de la matriz A1 son 1/1, 1/2, , 1/k, y la traza
de A es
tr ( A ) = 1 + 2 + + k = a 11 + a 12 + + a kk .

13.

Los autovectores x de A verifican la ecuacin


Ax = x,
siendo uno de los autovalores. Si x es un autovector, su producto
por una constante tambin lo es, ya que Acx = cx, por lo que es posi-

ble definir un conjunto de k autovectores de mdulo (o longitud) 1. Si


los autovalores son distintos, estos k autovectores son ortogonales.
Con los k autovectores se construye la matriz diagonalizadora de

14.

A
X = diag ( 1 , , k ) =
,
en la que la matriz
es diagonal, con sus elementos de la diagonal
principal igual a los autovalores.
El rango de A coincide con el de la matriz
, o sea con el nmero
de autovalores no nulos
r (A) = r (
).
15.

Si la matriz A es simtrica, sus autovalores son nmeros reales,


y si adems es definida como positiva, o sea que la forma cuadrtica
y Ay > 0 para todo vector y, entonces se verifica que existe una matriz ortogonal
P = X
0,5
diagonalizadora de A que verifica
A = PP,
y por lo tanto
P 1 AP 1 = I k .

16.

La demostracin de las propiedades anteriores es a veces compleja; aunque stas son muy simples de comprobar con ejemplos sencillos como el siguiente: sea la matriz

A =

5 1,5 ,
1,5 1

que es simtrica y definida positiva. Su ecuacin caracterstica es


det ( A I 2 ) = 0 =

5 1,5
1,5 1

= 2 6 + 2,75,

de donde se deduce que los autovalores son

1 = 5,5

2 = 0,5,

ambos reales y positivos, ya que A es simtrica y definida positiva.


Para obtener los autovectores hay que resolver los sistemas homogneos

77
ANEXO I. LGEBRA MATRICIAL

78
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

Ax 1 = 5,5x 1

Ax 2 = 0,5x 2 .

El primer sistema
5x 11 + 1,5x 12 = 5,5x 11
1,5x 11 + x 12 = 5,5x 12
tiene por solucin la familia de vectores
x 11
3
x1 = = c ,

1
x 12
para cualquier constante no nula c . Anlogamente, el segundo
autovector es de la forma
x 21
1
x 2 = = c ,

3
x 22
siendo c cualquier valor real distinto de cero.
Es fcil comprobar que ambos autovectores son ortogonales, pues
x1 x 2 = 0 = x2 x 1 ,
y los autovectores de mdulo unidad son
1
x 1 = ---------10

3
1

1
1
x 2 = ---------- ,

10 3

por lo que la matriz X es


1
---------- 3 1 ,
10 1 3
siendo
1
0
 0,4045 0,4472 .
P = X
0,5 = ---------- 3 1 1/ 5,5
10 1 3
0,1348 1,3416
0
1/ 0,5
Se puede comprobar que
P 1 AP 1 = I 2

79

o, anlogamente, que
PP = A,

ANEXO I. LGEBRA MATRICIAL

y tambin que
tr ( A ) = 5 + 1 = 1 + 2
det ( A ) = 5 1,5 2 = 2,7 = 1 2
r (A) = 2.
17.

Una matriz A es idempotente si se verifica que


AA = A
y sus autovalores cumplen la ecuacin 2 = , o sea que son unos o ceros, y es tr (A) = r (A). Por ejemplo
00
21

2 2
1 1

2 0,5
4 1

son matrices idempotentes.


18.

El producto de Kronecker de dos matrices A de dimensin (m, n)


y B de dimensin (p, q) es la matriz

a 11 B a 12 B a 1n B
C = A B = a ij B =

a 21 B a 22 B a 2n B ,


a m1 B a m2 B a mn B

que es de dimensin (mp, mq).


Por ejemplo
2
21 1 = 2
03
1
0
0

1
1 .
3
3

Algunas propiedades de este producto, en el caso que A y B sean matrices cuadradas de rdenes n y m, respectivamente, son
C 1 = A 1 B 1
tr A B = tr (A) tr (B)
det ( A B ) = det (A) n det (B) m
lo cual el lector debera comprobar con algn ejemplo.

80
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

EJERCICIOS PROPUESTOS

1. Dada la matriz
302
A = 301 ,
789
hallar su inversa y el rango; comprobar que el determinante de A1
es 1/det (A). Hallar la matriz AA y su rango.
2. Sea la matriz
2 0,5
4 1

B =

C = BB.

Hallar los autovalores de B y C, sus trazas y rangos. Obtener la


matriz diagonalizadora de B.
3. A partir de las ocho parejas de datos siguientes
x
y

31
116

40
120

19
110

50
125

36
118

46
122

25
117

54
126

estimar el modelo y = + x + y realizar los contrastes de validacin del modelo y el anlisis de residuos.
4. Con los datos del ejemplo anterior, se definen las variables
x * = 10x

y * = 0,1y

y ** = y + 5

Estimar los modelos


y * = 1 + 1 x +
y * = 3 + 3 x * + *

y = 2 + 2 x * +
y ** = 4 + 4 x + **

y comparar los coeficientes y con los de los cuatro modelos anteriores, as como los residuos y las medidas de ajuste.
5. Si las variables x1 y x2 estn relacionadas mediante la expresin x2
= 5x1, demostrar que el modelo
y = 0 + 1 x1 + 2 x2 +
no es estimable a partir de n datos de y, x1 y x2.
6. Realizar con TSP la representacin grfica de las siguientes curvas:

81

y = e /x +

y = ex +
y = + ln x +

y = x 1 e 2 x +

y = 1/ ( + e x ) +

y = x 1 e 2 x +

para x = 1, 2, , 20 y para distintos valores de los parmetros, observando el comportamiento de estas curvas. El trmino aleatorio
se puede simular usando la instruccin NRND de TSP.
7. Se dispone de los siguientes datos de renta familiar, en millones de
pesetas
3,5

3,2

2,9

3,6

20,5

3,0

3,3

Calcular la media y la mediana como medidas de posicin e interpretar los resultados. Calcular la desviacin tpica con todos los
datos, eliminando el mayor de todos. Hallar la estimacin por
punto y por intervalo (con niveles de confianza 0,90 y 0,95) de la
renta media, suponiendo que la distribucin de la renta se ajuste a
una ley Normal, primero con todos los datos y luego eliminando
el quinto. Hallar los datos tipificados en ambas situaciones. Realizar los contrastes de hiptesis sobre la media de la renta de la poblacin de la que provienen los datos
H 0 : = 3,5

H 0 : = 3,5

H 1 : 3,5

H 1 : < 3,5

usando todos los datos, y eliminando el mayor. Calcular en ambos


casos la probabilidad lmite.
8. Los siguientes datos muestran un crecimiento acelerado en el
tiempo:
t

yt

yt

yt

1
2
3
4
5
6

12
20
33
55
90
149

7
8
9
10
11
12

245
401
668
1095
1810
2985

13
14
15
16
17
18

4910
8110
13400
22000
36300
59900

Estimar varios modelos alternativos para estos datos, como por


ejemplo los siguientes:
yt = + t + t

yt = 0 + 1 t + 2 t 2 + t

yt = 0 + 1 t + 2 t 2 + 3 t 3 + t

yt = e t + t

ln y t = + ln t + t

ln y t = + t + t

EJERCICIOS PROPUESTOS

82
ASOCIACIN ENTRE VARIABLES. EL
MTODO DE MNIMOS
CUADRADOS

comparando los resultados de las estimaciones y hallar la elasticidad de y respecto de t.


9. La tasa de desempleo (x) de un pas est asociada al incremento
porcentual anual de los salarios (y). Se dispone de los siguientes
datos:
x
y

1,4 1,1 1,5 1,5 1,2 1,0 1,1 1,3 1,8 1,9 1,5 1,4 1,8 2,1 1,5 1,3 1,4
1,8 8,5 8,4 4,5 4,3 6,9 8,0 5,0 3,6 2,6 2,6 4,2 3,6 3,7 4,8 4,3 4,6

Estimar la curva de Philips y = + /x + , e interpretar los resultados.


10. Para poder ofertar en un concurso pblico de limpieza, una empresa debe evaluar los costes, para lo cual dispone de informacin
sobre contratas anteriores, en funcin de la superficie a limpiar, el
nmero de personas empleadas y los costes reales.
Superficie
Personas
Costes

x1
x2
y

20000 25000 32000 18000 10000 30000 35000 15000


15
16
21
15
12
20
25
13
960
1200
1800
890
520
1650
2240
710

Se han estimado los modelo alternativos


y = 0 + 1 x1 + 2 x2 +
y = 0 + 1 x1 + 2 x2 3 x1 x2 +
incorporando en el segundo un efecto interaccin sobre el coste
entre la superficie y el nmero de personas empleadas. Estimar el
coste en que se incurrira si el concurso fuese para una superficie
de 34000 metros cuadrados y si se exigiese un mnimo de 22 personas.

3
El modelo lineal uniecuacional

3.1 ESTIMACIN DEL MODELO LINEAL


1.

En la prctica econmica la situacin ms frecuente a la hora de estimar un modelo es la de disponer de una muestra aleatoria de la variable endgena
y 1 , y 2 , ,y n
tomada de una poblacin ms amplia a la que hay que extrapolar los
resultados de la estimacin. Es pues necesario utilizar tcnicas de inferencia estadstica en la estimacin del modelo uniecuacional general
y i = 0 + 1 x 1i + 2 x 2i + + k x ki + i
i = 1n
o, en notacin matricial,
y = X + .

2.

Las estimaciones de los coeficientes estructurales  quedan afectadas por los errores del muestreo y es necesario estudiar las propiedades muestrales de los estimadores de los parmetros, para lo cual es
necesario asumir que los distintos elementos del modelo cumplen a
priori unas condiciones que se enumeran ms adelante, y en funcin
de las cuales se analizan las propiedades muestrales del modelo. Estas hiptesis o condiciones constituyen unas restricciones, en cierto
modo arbitrarias, que se imponen para poder estudiar las propiedades estadsticas de los estimadores. En la realidad, puede ocurrir, y de
hecho ocurre frecuentemente, que los datos no sean congruentes con

83

84

estas hiptesis, lo que afecta a las propiedades muestrales de los estimadores. En el prximo captulo se relajarn estas hiptesis a priori,
y se estudiarn mtodos de estimacin en algunos casos habituales en
los que aqullas no se cumplen.

EL MODELO LINEAL
UNIECUACIONAL

3.

En el modelo lineal anterior se supone que se verifican las siguientes hiptesis o condiciones:
a. En relacin a la forma funcional:
las variables predeterminadas x1, x2, ..., xk influyen sobre la variable endgena y, pero no son influidas por sta;
el nmero de datos n es claramente superior al de parmetros (k
+ 1) a estimar;
la forma funcional del modelo es correcta y los coeficientes estructurales 0 , 1, , k son constantes para todas las observaciones.
b. Las variables predeterminadas x1, x2, , xk deben cumplir que:
no existe multicolinealidad exacta, es decir,
r(X) = k + 1
y no es deseable que exista multicolinealidad aproximada, lo
que implica que el determinante de la matriz XX no debe estar
prximo a cero;
son variables no aleatorias, o sea controladas por el experimentador y medidas sin error.
c. Las perturbaciones aleatorias 1, 2, , n son variables aleatorias
que representan la parte de variabilidad de la variable endgena y
no explicada por las variables explicativas o predeterminadas x1,
x2, , xk, y su distribucin probabilstica debe cumplir las propiedades siguientes:
No existen desviaciones sistemticas en el modelo no explicado
por las variables predeterminadas:
E( i) = 0

i = 1 n.

(H.1)

La variabilidad de las perturbaciones se mantiene constante


para todos los datos, es decir, los datos deben ajustarse al modelo de forma aproximadamente igual en todo el rango de variabilidad de las variables predeterminadas
V ( i) = 2

i = 1 n;

(H.2)

esta hiptesis se denomina de homocedasticidad.


Las perturbaciones no estn correlacionadas entre s, es decir,
no existe autocorrelacin

Corr ( i , i) = 0 = E( i i)

i i = 1 n.

(H.3)

Las perturbaciones se ajustan a una ley Normal

i N(0; 2).
4.

(H.4)

Las cuatro hiptesis sobre las perturbaciones se pueden resumir


en la expresin

N(0 n ; 2 I n).
5.

A partir de la hiptesis a priori se deduce que las n observaciones


y1, y2, ., yn de la variable endgena constituyen una muestra aleatoria simple cuya distribucin es
y i N( 0 + 1 x 1i + + k x k i ; 2)

i = 1 n,

o bien, en notacin matricial


y N(X ; 2 I n),
ya que
E(y) = X  + E( ) = X 
V (y) = E [ ( y X  ) ( y X  ) ] = E( ) = 2 I n
y la distribucin de y es Normal, pues es la adicin de un vector constante X y de la variable aleatoria Normal .
6.

Para estimar los coeficientes de regresin 0, 1, , k por el mtodo de mxima verosimilitud, se construye la funcin de verosimilitud
1
- exp [ 0,5 ( y X  ) ( y X  )/ 2 ].
L( , 2) = f (y) = ------------------------( 2 2 ) n/2
o su logaritmo
ln L( , 2) = 0,5n ln ( 2 2 ) 0,5 ( y X  ) ( y X  )/ 2 .
Para maximizarla se igualan a cero las derivadas
ln L
--------------- = 0,5 ( 2Xy + 2XX  )/ 2

ln L
-------------- = 0,5n/ 2 + 0,5 ( y X  ) ( y X  )/ 4
2

85
3.1 ESTIMACIN DEL MODELO
LINEAL

86

obtenindose los estimadores mximo verosmiles de los coeficientes

EL MODELO LINEAL
UNIECUACIONAL

= ( XX ) 1 Xy = b
y de la varianza residual
1
1
1
2 = --- ( y X  ) ( y X  ) = --- ee = --n
n
n

2
i

= s e2 ,

i=1

que coinciden con los estimadores mnimo cuadrticos obtenidos en


el captulo anterior.
3.2 PROPIEDADES MUESTRALES DE LOS ESTIMADORES
7.

El mtodo de mxima verosimilitud tiene propiedades ptimas


cuando el tamao muestral tiende a infinito; sin embargo, asumiendo
que se verifican las hiptesis a priori formuladas sobre el modelo, se
tiene que la distribucin muestral de los estimadores
b = ( XX ) 1 Xy = My
es una multivariante normal de la forma
b N (  ; 2 ( XX ) 1 ),
ya que es el estimador b es insesgado, pues
E(b) = ME(y) = MX = ( XX ) 1 XX =
y su matriz de covarianzas es
V (b) = 2(XX) 1 ,
pues
b = My = M(X  + ) = MX  + M =  + M ,
por lo que b  = M y
V (b) = E [ ( b  ) ( b  ) ] =
= E [ M (M ) ] = ME( )M =
= M 2 I n M = 2 MM =
= 2 ( XX ) 1 XX ( XX ) 1 = 2 ( XX ) 1 ,
ya que al ser la matriz XX simtrica, su inversa tambin lo es, por
lo que coincide con su traspuesta.

En la demostracin anterior se ha hecho uso de las hiptesis H.1,


H.2 y H.3 sobre las perturbaciones aleatorias.
8.

Adems, los estimadores mnimo cuadrticos son lineales, ya que


b = My, y, dado que la distribucin de y es normal, tambin lo es la
de b.

9.

El teorema de Gauss-Markov establece que los estimadores mnimo cuadrticos b son los mejores (ms eficientes) estimadores lineales
insesgados de los coeficientes de regresin .
La demostracin se basa en probar que si existe otro estimador
lineal e insesgado de 
b* = M*y
se verifica que la varianza de la distribucin muestral de b j* , para
j = 0, 1 , , k, es tal que
V (b j*) V (b j),
o sea que bj es ms eficiente que b j* . Pero al ser b* insesgado resulta
que
 = E(b *) = M * E(y) = M * X  ,
por lo que debe ser
M * X = In + 1 .
La matriz
C = M* M
debe cumplir que
CX = 0,
pues
M * X = MX + CX = I k + 1 + CX = I k + 1 .
De esta expresin se deduce que
b * = M * y = My + Cy = b + Cy = b + CX  + C = b + C ,
y la matriz de covarianzas de b* es
V (b *) = V (b) + V (C ) + 2E [ ( b  ) C ] = V (b) + 2 CC,
ya que, como b  = M , el doble producto es
2 2 MC = 2 2 ( XX ) 1 XC = 0,
pues CX = 0, de donde se deduce que
n

V (b j*) = V (b j) + 2 c ji2 V (b j),


i=1

con lo que concluye la demostracin.

87
3.2 PROPIEDADES MUESTRALES DE
LOS ESTIMADORES

88

10.

EL MODELO LINEAL
UNIECUACIONAL

Los estimadores mnimo cuadrticos b son consistentes; al aumentar el tamao muestral, b converge en probabilidad hacia . La demostracin se basa en comprobar que
lim V (b) = lim 2 ( XX ) 1

o, alternativamente, como stos son insesgados y mximo verosmiles, que entre sus propiedades asintticas est la consistencia.
11.

De los resultados anteriores se deduce que la distribucin muestral de cada uno de los coeficientes de regresin es
b j N ( b j ; 2 a jj )

j = 0k

en la que ajj pertenece a la diagonal principal de la matriz cuadrada


A = a ij = ( XX ) 1
12.

i, j = 0 k

El estimador mximo verosmil de la varianza de las perturbaciones es la varianza residual


1
2 = s e2 = --n

2
i

i=1

1
= --- ee
n

que es sesgado, como se deduce en la siguiente demostracin.


Para comprobar este extremo hay que calcular E(s e2), para lo
cual se estudia el vector de residuos
e = y Xb = y X(XX) 1 Xy =
= [ I n X(XX) 1 X ]y = Dy
o tambin
e = y Xb = X  + X ( XX ) 1 Xy =
= X  + X(XX) 1 XX (  + ) =
= X(XX) 1 X = D
en el que la matriz
D = I n X(XX) 1 X
es idempotente, o sea que D2 = D, como deber comprobar el lector,
adems de ser simtrica.
A partir de esta expresin, y teniendo en cuenta la distribucin
de las perturbaciones que, en las hiptesis a priori, se supona

N(0 n , 2 I n)
resulta que la distribucin muestral de los residuos e = D es
e N(0 n , 2 D),
ya que
E(e) = DE( ) = D0 n = 0 n
V (e) = DV ( )D = DV ( )D = D 2 I n D =
= 2 D 2 = 2 D,
dada la idempotencia y la simetra de D. Sin embargo, la matriz D es
singular, ya que los residuos no son independientes entre s (existe incluso una relacin lineal exacta entre ellos: e1 + e2 + + en = 0).
El valor esperado de la suma de cuadrados residuales es
E(ee) = E( DD ) = E( D ) ,
n

pues D = D = D2 y como ee =
cide con su traza

ei2

es un escalar, resulta que coin-

i=1

E(ee) = E [ tr ( ee ) ] = E [ tr ( D ) ] =
= E [ tr ( D ) ] = tr [ DE ( ) ] =
= tr ( D 2 I n ) = 2 tr ( D ) =
= 2 tr [ I n X(XX) 1 X ] =
= 2 [ tr ( I n ) tr { X(XX) 1 X } ] =
= 2 [ n tr { ( XX ) 1 XX } ] = 2 [ n tr ( I k + 1 ) ] =
= 2 ( n k 1 ),
por lo que
1
nk1
E(s e2) = --- E(ee) = --------------------- 2 ,
n
n
lo que concluye la demostracin sobre la sesgadez de s e2 .
13.

A partir del resultado anterior, se define la cuasi-varianza residual


1
s e2 = --------------------nk1

i=1

2
i

1
= --------------------- ee
nk1

que es un estimador insesgado de 2 , ya que


1
1
E(s e2) = --------------------- E(ee) = --------------------- 2 ( n k 1 ) = 2 .
nk1
nk1
14.

Un estimador insesgado de la matriz de covarianzas de los coeficientes de regresin es

89
3.2 PROPIEDADES MUESTRALES DE
LOS ESTIMADORES

90

S b = s e2 ( XX ) 1

EL MODELO LINEAL
UNIECUACIONAL

y as, la varianza estimada de cada coeficiente es


s b2 = s e2 a jj

j = 0 k,

en donde ajj es el elemento j + 1 de la diagonal principal de la matriz


A = (XX)1.
15.

La distribucin muestral de la cuasi-varianza residual s e2 est relacionada con la del estadstico


1
ee
V = ------2- = -----2

2
i

2 ( n k 1 ).

i=1

La demostracin sigue fcilmente:


ee = DD = D
y N(0 n ; 2 I n) o, anlogamente,

/ N(0 n ; I n),
por lo que
V = ee/ 2 = D / 2 ,
que es una forma cuadrtica en n variables aleatorias N(0, 1) independientes (1/, 2/, , n/); la matriz de la forma cuadrtica es
idempotente y de traza igual a n k 1, luego su distribucin muestral
es una 2(n k 1).
16.

Como adems la distribucin muestral de V es independiente de


la del vector de coeficientes de regresin b, resulta que
bj j
T j = --------------- t ( n k 1 )
sb j

j = 0 k,

o sea que el estadstico Tj se ajusta a una ley t de Student.


La demostracin de este resultado se basa en la independencia
de las distribuciones de
b j N( j ; 2 a jj)

V 2( n k 1 )

y en la definicin de una variable t de Student como cociente entre dos


variables independientes, una normal N(0, 1) y otra, la raz cuadrada
de una variable chi-cuadrado dividida por sus grados de libertad: la
variable N(0, 1) es

bj j
N(0, 1)
Z = -------------- a jj
y la chi-cuadrado
1
V = -----2

ei2

i=1

nk1 2
- s e 2 ( n k 1 ).
= ------------------- 2

As,
bj j
Z
nk1 =
T j = -------------------------------------- = --------------I ----------------------- se
V/ ( n k 1 )
a jj
bj j
bj j
- t(n k 1),
= -------------- = -------------sb j
s e a jj
con lo que concluye la demostracin.
3.3 CONTRASTES DE HIPTESIS SOBRE LOS COEFICIENTES DEL
MODELO
17.

Los resultados tericos sobre las distribuciones muestrales de los


parmetros tienen unos resultados prcticos inmediatos cuando se
trata de estimar un modelo economtrico. Por un lado se ha comprobado que los estimadores mnimo cuadrticos b = (XX)1Xy son tambin estimadores mximo verosmiles (si se verifican las hiptesis a
priori sobre las perturbaciones ), lo que demuestra que tienen propiedades muestrales ptimas para grandes muestras. Adems, el teorema de Gauss-Markov indica que las estimaciones no estarn
afectadas por desviaciones sistemticas o sesgos y que son lo ms precisas posible al usar estimadores lineales. Por otra parte, es posible
realizar una serie de contrastes sobre los distintos coeficientes de regresin como elementos de ayuda en la seleccin del modelo ms
adecuado. Estos contrastes se tratan a continuacin.

18.

Al construir un modelo economtrico, se siguen varias fases o etapas:


a. Planteamiento de los objetivos, seleccin de la variable endgena
Y, y seleccin de las variables explicativas o predeterminadas.
b. Especificacin de la forma funcional (por ejemplo, el modelo lineal) y seleccin de las variables explicativas.
c. Estimacin de los parmetros.
d. Validacin del modelo estimado y de las hiptesis a priori sobre
las perturbaciones.
e. Aplicacin del modelo e interpretacin econmica de los resultados.
En la fase de validacin del modelo se usan tres tipos de tcnicas:
medidas sobre el grado de ajuste de los datos a la ecuacin estimada (por ejemplo, el coeficiente de determinacin r2);

91
3.3 CONTRASTES DE HIPTESIS
SOBRE LOS COEFICIENTES DEL
MODELO

92

anlisis de los residuos e y su adecuacin a las hiptesis a priori


formuladas sobre las perturbaciones , y
contrastes sobre los parmetros del modelo.

EL MODELO LINEAL
UNIECUACIONAL

19.

Se van a tratar ahora los tests T sobre los parmetros estructurales.


Para el coeficiente j, las hiptesis a contrastar son:
H 0 : j = 0,
H 1 : j 0.
Si se acepta la hiptesis H0, se debe eliminar la variable xj como explicativa de las variaciones de la variable endgena y; entonces se vuelve
a la fase de especificacin del modelo sin esta variable, estimndose
de nuevo el modelo resultante, mientras que si se acepta H1, se concluye que xj influye (linealmente) sobre la variable endgena.

20.

Al estimar un modelo economtrico, es usual tomar datos de ms


variables explicativas que las que finalmente quedan, y, los tests T
constituyen una herramienta cmoda para ir seleccionando las variables predeterminadas que muestran capacidad predictiva sobre las
variaciones de la variable endgena y.

21.

La realizacin prctica de un test estadstico se hace en varias etapas: en la primera hay que elegir un estadstico o funcin de los datos,
relacionado con las hiptesis a contrastar; posteriormente se construye una regin de aceptacin de la hiptesis H0 y la regin crtica o de
aceptacin de la hiptesis H1, y por ltimo se decide, calculando las
probabilidades de decidir errneamente.

22.

El estadstico para el test propuesto es


b jj
b
T b j = -----j = --------------,
sb j
s e a jj
y si H0 es cierta, su distribucin muestral es
T b j t(n k 1),
que se usa para construir la regla de decisin asociada al test.

23.

La regin de aceptacin C0 de H0 se obtiene de forma intuitiva


(aunque es la que se determina mediante el test de la razn o cociente
de verosimilitudes): si fuese cierta H0 : j = 0, cabe esperar que la estimacin bj de j tome valores prximos a 0, por lo que la regin de
aceptacin C0 ser un intervalo (t, t) alrededor del origen, y la regin
crtica C1 estar formada por los valores no contenidos en este intervalo. Para fijar los lmites de este intervalo es preciso decidir sobre el
nivel de significacin , o sea sobre la mxima probabilidad de come-

ter el error de tipo I ( esto es rechazar H0 siendo cierta, lo que en este


caso sera aceptar xj como variable que influye sobre Y aunque no sea
relevante). Si se supone cierta H0, la probabilidad de obtener un valor
de T b j fuera del intervalo C0 = (t, t) es

93
3.3 CONTRASTES DE HIPTESIS
SOBRE LOS COEFICIENTES DEL
MODELO

P(T b j C 0 H 0) = P ( T b j > t H 0 ),
f (t)

y si esta probabilidad debe ser igual a , se elige


t = t /2 = t /2(n k 1),

o sea el cuantil de la distribucin t de Student con n k 1 grados de


libertad
24.

Por ltimo, se calcula el valor numrico del estadstico T b j


T b j = b j /s b j = t b j
y se decide:
si t b j C 0 = ( t /2 , t /2 )

se acepta H0 y se elimina la variable xj del modelo.


se acepta H1 y se mantiene xj
como variable explicativa.

si t b j C 1

Conviene no olvidar que la inclusin o exclusin de una variable en


un modelo debe ser explicable en trminos econmicos, y no simplemente como el resultado de la realizacin de un test de hiptesis.
25.

26.

El test T se aplica sobre cada uno de los coeficientes de las variables


explicativas, y como la distribucin t de Student es parecida a la distribucin normal N(0, 1), si se procede al nivel de significacin = 0,05,
se puede tomar como valor aproximado t/2 = t0,05/2  2 si hay ms de
n = 20 datos, lo que permite decidir rpidamente qu variables se introducen en el modelo y cules se excluyen. Por ejemplo, para = 0,05,
los cuantiles t/2 correspondientes a g = n k 1 grados de libertad son

10

15

20

25

30

60

t0,025

2,228

2,131

2,086

2,060

2,042

2,000

1,960

Otra alternativa para evitar el manejo de tablas estadsticas de la


distribucin t de Student es el clculo de la probabilidad lmite p asociada al valor t b j obtenido. Se define
p = Pr ( T b j > t b j ),

t/2

t/2

y si p , entonces el estadstico ( t b j C 0 ); si p < es porque


( t b j C 1 ), como se aprecia en la figura.
Conocido pues el valor de p, se decide de forma inmediata sin consultar las tablas estadsticas. Por ejemplo, si p = 0,021 se acepta la hiptesis H1 a nivel = 0,05, y si p = 0,078 se acepta H0 a este nivel de
significacin. Con el valor p = 0,021 y a nivel = 0,01 se aceptara H0.

94
EL MODELO LINEAL
UNIECUACIONAL
f (t)

t/2

C0

p/2
t b j t/2

Ejemplo 1.

Contrastes sobre los coeficientes de regresin del modelo

Se han recogido datos del coste de mantenimiento (y) de una empresa, del nmero de mquinas (x1) y del tiempo medido (x2) de interrupcin del trabajo por mantenimiento, y se trata de estimar el gasto en
mantenimiento en funcin de estos factores. Los datos aparecen en la
tabla siguiente:
y

x1

x2

x1

x2

320
450
370
470
420
500
570
640
670
780

50
53
60
63
69
82
100
104
113
130

7,4
5,1
4,2
3,9
1,4
2,2
7,0
5,7
13,1
16,4

690
700
910
930
940
1070
1160
1210
1450
1220

150
181
202
217
229
240
243
247
249
254

5,1
2,9
4,5
6,2
3,2
2,4
4,9
8,8
10,1
6,7

Como el nmero de mquinas y el tiempo medio de averas pueden


interaccionar causando un efecto sobre el coste de mantenimiento (al producirse una avera, se intenta recuperar el tiempo mediante un trabajo
ms intenso), se usa la variable x3 = x1x2, que representa el efecto de esa
interaccin.
La matriz de correlacin entre las cuatro variables muestra que
r yx1 = 0,950,

r yx2 = 0,231,

r yx3 = 0,783,

por lo que se deben probar varios modelos alternativos como los siguientes:

95

y = 0 + 1 x1 +
y = 0 + 1 x1 + 2 x2 +
y = 0 + 1 x1 + 2 x2 + 3 x3 + .
Despus de estimar stos, se ve que el tercero es el ms adecuado, siendo

XX =

20
3034
121,2
18 736,1
3034
574 143
18 736,1 3 533 206,8
121,2
28 736,1
998,85 152 332,3
18 736,1 3 533 206,8 152 332,3 27 624 309

y el modelo estimado es
y = 303,5 + 2,3293x 1 25,071x 2 + 0,2861x 1 x 2 + e,
con lo que se obtiene la suma de cuadrados residual
20

se =

et2

= 73 284,44

i=1

y
se =

1
------------------------ S e = 67,678.
20 3 1

La matriz de covarianzas del vector b = (b0, b1, b2, b3) es

s e ( XX ) 1

5118,96 31,11 722,90


4,49
0,2275
4,576 0,033
= 31,11
722,90
4,576
131,9
0,822
4,49 0,033
0,822 0,0059

por lo que los estadsticos T sobre los coeficientes del modelo son
b
303,5
T b0 = -----0 = ------------------------ = 4,242
s b0
5118,96
b
2,3293
T b1 = -----1 = --------------------- = 4,883
s b1
0,2275
b
25,071
T b2 = -----2 = --------------------- = 2,183
s b2
131,90
b
0,28617
T b3 = -----3 = ----------------------- = 3,726.
s b3
0,0059
Para realizar cualquiera de los contrastes
H0 : j = 0
H1 : j 0

3.3 CONTRASTES DE HIPTESIS


SOBRE LOS COEFICIENTES DEL
MODELO

96

siendo j = 0, 1, 2, 3, se usa como regin de aceptacin a nivel , el intervalo

EL MODELO LINEAL
UNIECUACIONAL

C 0 = ( t /2 ; + t /2 )
usando la distribucin t de Student t (20 4). A nivel = 0,01 es t/2 = t0,005 =
2,921, y si es = 0,05, t/2 = t0,025= 2,12. Por ejemplo, si se toma este ltimo
nivel de significacin, resulta que

f (t)

T b0 , T b1 , T b2 , T b3 C 0 = ( 2,12; + 2,12 ),
0,95
2,12

2,12

por lo que se acepta H1: j 0 en todos los casos, resultando que todos
los coeficientes del modelo son significativamente distintos de cero a nivel = 5%.
Si se hubiese tomado = 0,01, resulta que
T b0 , T b1 , T b3 C 0 = ( 2,921; + 2,921 ),
mientras que
T b2 = 2,183 C 0 ,
por lo que se aceptara H0: 2 = 0, o sea que a nivel = 1%, el modelo que
se debera estimar es
y = 0 + 1 x1 + 3 x1 x2 +

f (t)

p/2 = 0,02215
2,183

No obstante, como es preferible incluir como explicativa una variable no


relevante que errar por excluir una variable que realmente influya sobre
la variable endgena y, se preferir el modelo estimado.
Para evitar el tener que manejar unas tablas de la distribucin t de Student con 16 grados de libertad, algunos programas de ordenador, al calcular los valores de los estadsticos T, estiman las probabilidades lmite.
Por ejemplo, para T b2 = 2,183, la probabilidad lmite es
p = Pr ( T > 2,183 ) = 2Pr(T > 2,183) = 0,0443
y

= 0,05 > p = 0,0443


es equivalente a
T b2 > t /2 = t 0,05/2 = 2,12
o sea a
T b2 C 0
Anlogamente, las probabilidades lmite de los estadsticos correspondientes a los otros coeficientes son:
p = Pr ( T > T b1 ) = Pr ( T > 4,883 ) = 2Pr(T > 4,4883) = 0,0002

97

o sea que 1 es significativamente distinto de cero para = 5%, 1%, 0,1%,


0,005%, o sea para cualquier valor de superior a 0,0002;
p = Pr ( T > T b3 ) = Pr( T > 3,726) = 2Pr(T > 3,7263) = 0,0018
por lo que 3 difiere de cero para = 5%, 1%, 0,5%, pero no difiere a nivel
de = 0,1%.
Habitualmente no es necesario realizar el test T sobre el coeficiente 0,
pues rara vez sera lgica la interpretacin econmica asociada a la ordenada en el origen nula.
En resumen, el modelo estimado es el ms adecuado, y su ajuste es
bueno, siendo r2 = 0,9634.

27.

Al realizar los tests T sobre un modelo de regresin, como el objetivo es el incluir o excluir variables explicativas, no es recomendable
tomar niveles de significacin inferiores al 5%, ya que los niveles de
bajos tienden a aceptar las hiptesis H0: j = 0, o sea a excluir variables explicativas que pueden ser relevantes, es decir, influyentes sobre la variable endgena. En definitiva, debe tomarse

[ 0,05; 0,15 ],
ya que, al elegir un nivel de significacin bajo, se corre el riesgo de excluir variables causales, o sea de cometer un error de especificacin.
28.

El estadstico T b j = b j /s b j se puede usar para realizar contrastes


unilaterales de la forma
H0 : j = 0
H1 : j > 0
eligiendo como regiones de aceptacin y crtica, a nivel ,
C 0 = ( ; t )

29.

C 1 = ( t ; + ).

Si se desea plantear un test de la forma


H0 : j = c
H1 : j c
se utiliza el estadstico

j > c

3.3 CONTRASTES DE HIPTESIS


SOBRE LOS COEFICIENTES DEL
MODELO

98

bj c
T b j = ------------,
sb j

EL MODELO LINEAL
UNIECUACIONAL

y las reglas de decisin idnticas a las anteriores.


30.

Los contrastes T sobre los coeficientes del modelo se basan en que


las perturbaciones aleatorias cumplan las hiptesis a priori

N ( 0 n ; 2 I n ).
Si existe heterocedasticidad, o sea si
V ( i) = 2i cte.

o autocorrelacin
Cov ( i , i) 0,
no es posible aplicar estos tests T. En el captulo 5 se estudiarn los
modelos lineales con heterocedasticidad y/o autocorrelacin.
Si las perturbaciones no se ajustan a una ley normal, pero el tamao muestral no es pequeo (por ejemplo n 20), sigue siendo posible
aplicar los contrastes T, aunque de forma aproximada.
3.4 CONTRASTES DE ANLISIS DE LA VARIANZA
31.

Al realizar la descomposicin de la varianza de los datos y1, y2, ,


yn en el apartado 2.4 del captulo 2 anterior, se obtuvo la identidad
s y2 = s y2 + s e2 ,
o anlogamente, multiplicando estas varianzas por el nmero de datos n
S y = S y + S e ,
siendo las sumas de cuadrados
n

Sy =

(y
i

i=1

y )2,

S y =

i=1

( y i y ) 2 ,

Se =

e .
2
i

i=1

Como las variables que intervienen en las sumas de cuadrados anteriores son Normales, se puede comprobar que las distribuciones
muestrales de stas son

S y / 2 2 ( n 1 )
S y / 2 2 ( k )
S e / 2 2 ( n k 1 ),
y, de acuerdo con el teorema de Craig, S y y Se son variables aleatorias independientes, por lo que el cociente entre stas tiene como distribucin muestral,
S y /k
- F ( k, n k 1 )
F x = ----------------------------S e /n k 1
si H0 es cierta, lo que va a utilizarse a continuacin como estadstico
del contraste de hiptesis
H0 : 1 = 2 = = k = 0
H 1 : algn(os) j 0.
Los cocientes
S
M y = M x1 xk = ----yk

Se
M e = -------------------- = s e2
nk1

se denominan medias de cuadrados asociadas a las variables predeterminadas y a los residuos, respectivamente.
32.

La regin de aceptacin C0 de nivel de significacin del test anterior es


C 0 = ( 0; F ),
y la regin crtica
C 1 = ( F ; + ).
La forma de las regiones C0 y C1 se deduce intuitivamente teniendo en cuenta que
E(M e) = E(s e2) = 2
n

E(M y ) = E

( y y )
i

= 12 s x21 + + k2 s x2k + 2 ,

i=1

2 la varianza de los n datos de la variable x . As, si los valosiendo s xj


j
res numricos de las medias de cuadrados M y y M e verifican

99
3.4 CONTRASTES DE ANLISIS DE
LA VARIANZA

M y  M e ,

100
EL MODELO LINEAL
UNIECUACIONAL

los datos son ms compatibles con la hiptesis H0, mientras que si


M y >> M e ,
ello se atribuir a que algn o algunos de los coeficientes 1, 2, , k
son distintos de cero.
33.

f (F )

Si el valor numrico del estadstico Fx pertenece a C0, se acepta la


hiptesis H0, o sea que ninguna de las variables x1, x2, , xk influye
(linealmente) sobre la variable endgena Y, esto es se rechaza el modelo globalmente, mientras que si F x C 1 se considera que alguna o
algunas de las variables predeterminadas tienen poder explicativo, o
sea que se debe continuar con la especificacin del modelo.
La probabilidad lmite se define como

p = Pr ( F > F x ),

C0

F

C1

y, si p , se acepta la hiptesis H0 a este nivel de significacin, y se


rechaza H0 si p < .

f (F )

34.

Los resultados para llegar al test anterior se resumen en la tabla de


anlisis de la varianza siguiente:
Fuente de la variacin
Grados
de la variable endgena de libertad
Las k variables x1, ,xk

p
Fx

La perturbacin o
error

n k 1

Variacin total de Y

n1

Sumas de
cuadrados

Medias
de cuadrados

S y = S x1 xk = r 2 S y

M y = M x1 xk

S e = ( 1 r 2 )S y

M e = s e2

S y = ns y2

a partir de la cual se calcula el estadstico Fx = M y /M e o el coeficiente


de determinacin r2 = S y /S e .
35.

El test de anlisis de la varianza es poco til, ya que en la prctica


ser muy improbable que ninguna de las variables x1, x2, , xk influya
sobre Y, por lo que casi siempre se aceptar la hiptesis H1.

Ejemplo 2.

Contraste F

Con los datos del ejemplo 1 anterior, realizar el test de anlisis de la


varianza del modelo estimado.

101

El modelo estimado en dicho ejemplo es

3.4 CONTRASTES DE ANLISIS DE


LA VARIANZA

y = 303,5 + 2,33x 1 25,07x 2 + 0,286x 1 x 2 + e = y + e,


por lo que resulta
20

20

SY =

( yt 773,5 ) 2 = 2 003 055

Se =

et2

= 73 284,44,

t=1

t=1

y por lo tanto es S y = 192970,56, o sea que el 96,34% de la variabilidad endgena es explicada por el modelo. La tabla de anlisis de la varianza es

Fuente de la variacin
explicada por:

Grados
de libertad

El modelo y
El error residual e

3
20 4

Total

20 1

Sumas
de cuadrados
192970,56
73234,44

Medias
de cuadrados
64 323,52
4577,152

2 003055

en el que las medias de cuadrados son


M Y = S Y /3 = 192 970,56/3 = 64 323,52
M e = S e /16 = s e2 = 4577,152 = 67,65 2 .
El estadstico F para realizar el contraste
H0 : 1 = 2 = 3 = 0
H 1 : algn(os) j 0

j = 1, 2, 3,

toma el valor
F = M Y /M e = 64 323,52/4577,152 = 140,4,
y la regin de aceptacin a nivel es
C 0 = ( 0; F ).
Con la tabla de la distribucin F(3, 16), resulta
F 0,05 = 8,63

F 0,01 = 26,6,

y como F = 140,44 > F, se acepta H1, o sea que algunas o todas las variables explicativas influyen sobre la variable endgena.

102
EL MODELO LINEAL
UNIECUACIONAL

36.

Tambin es posible realizar un test de anlisis de la varianza sobre


un subconjunto de coeficientes estructurales. Se consideran dos modelos alternativos
y = 0 + 1 x 1 + + q x q + q + 1 x q + 1 + + k x k + = y +
y = 0 + 1 x 1 + + q x q + = y +
y se trata de contrastar las hiptesis
H0 : q + 1 = = k = 0
H 1 : algn(os) q + j 0
o sea, se contrasta el poder predictivo de las variables xq + 1, , xk en
bloque.
Para llegar al estadstico Fx de este test, se enuncia el teorema de
descomposicin de la varianza para el primer modelo
s y2 = s y2 + s e2 = s x21 xq + s x2q + 1 xk + s e2
en el cual la varianza asociada a las primeras q variables se determina
con el segundo modelo
s x21 xq

1
1
= --- S x1 xq = --n
n
1
= --n

( y y )
i

i=1

( b + b x
0

1 1

+ + bq x qi y ) 2 ,

i=1

y la segunda varianza se determina por diferencia entre la varianza


asociada a las k variables explicativas del primer modelo y la obtenida
con el segundo modelo
s x21 xq xk

1
1
= --- S x1 xq xk = --n
n
1
= --n

( y y )
i

i=1

(b

+ b 1 x 1i + + b q x qi + + b k x ki y ) 2 ,

i=1

siendo pues
s x2q + 1 xk = s x1 xq xk s x21 xq =
1
= --- ( S x1 xq xk S x1 xq ) =
n
1
= --- S xq + 1 xk .
n

La distribucin muestral de las sumas de cuadrados (divididas


por 2 ) que aparecen en la descomposicin
S y = S x1 xq + S xq + 1 xk + S e
son chi-cuadrados con n 1, q, k q y n k 1 grados de libertad respectivamente, y, de acuerdo con el teorema de Craig, son independientes; por lo tanto, el cociente siguiente, si se verifica H0, se
distribuye como una F de Snedecor:
S xq + 1 xk / ( k q )
- F(k q, n k 1),
F x = ---------------------------------------Se / ( n k 1 )
y la regin de aceptacin de nivel , es
C 0 = ( 0; F ).
Si el estadstico F x C 0 , se acepta la hiptesis H0, o sea que las ltimas k q variables predeterminadas no influyen en el modelo y se
pueden eliminar.
37.

La tabla de anlisis de la varianza se descompone en tres lneas


asociadas a la variabilidad de la variable endgena explicada por las
primeras q variables explicativas, por las k q restantes y por la perturbacin aleatoria:
Fuente de la variacin
de la variable endgena
Las q primeras variables
x 1 , , x q
Las restantes k q
variables x q + 1 x k
La perturbacin o error
Variacin total de Y

Grados
de libertad

Sumas
de cuadrados

Medias
de cuadrados

S x1 xq

M x1 xq

kq

S xq + 1 xk

M xq + 1 xk

nk1

Se

M e = s e2

n1

S y = ns y2

La descomposicin anterior no es simtrica: si se eligen determinadas variables como x1 xq para calcular la suma de cuadrados
S x1 xq ,
la suma de cuadrados asociada a las restantes variables est condicionada a la obtenida con las primeras.
38.

Al elegir como primer conjunto de variables una sola de ellas, o


sea q = 1, se tiene la descomposicin

103
3.4 CONTRASTES DE ANLISIS DE
LA VARIANZA

104

S y = S x1 + S x2 xk + S e ,

EL MODELO LINEAL
UNIECUACIONAL

y el estadstico correspondiente
S x1
- F(1, n k 1)
F x1 = ---------------------------------Se / ( n k 1 )
est relacionado con el estadstico T de Student asociado a esta variable T b1 = b 1 /s b1 , siendo F x1 = T b21 .

Ejemplo 3. Contraste de anlisis de la varianza sobre la estacionalidad


de una serie

El consumo trimestral de materias primas yt de una empresa se


muestra en la tabla siguiente.
Trimestre
Ao

1987
1988
1989
1990
1991
1992

10,8
13,7
18,8
22.7
24,8
28,0

7,8
10.1
17,1
16,9
23,4
26,5

10,2
11,0
17,5
19,3
24,7
28,0

17,5
20,2
26,2
29,1
32,4
34,1

y se trata de contrastar si esta serie, adems de una tendencia lineal Tt =


0 + 1t, tiene una componente cclica estacional.

35
30

yt

25

El grfico temporal de la serie muestra, adems de una tendencia lineal, un ciclo estacional. Este ciclo se puede representar mediante la funcin peridica

20
15
10

C t = 1 x 1t + 2 x 2t + 3 x 3t ,

5
0
1987

1988

1989

1990

1991

1992

en la que las variables x1, x2 y x3 son auxiliares para representar el ciclo, y


toman los valores

x 1t =

1
0
1

si t = trimestre 1
si t = trimestre 2, 3
si t = trimestre 4

105

x 2t =

1
0
1

si t = trimestre 2
si t = trimestre 1, 3
si t = trimestre 4

x 3t =

1
0
1

si t = trimestre 3
si t = trimestre 1, 2
si t = trimestre 4

3.4 CONTRASTES DE ANLISIS DE


LA VARIANZA

por lo que

Ct =

1 2 3 =

2
3
4

si
si
si
si

t
t
t
t

=
=
=
=

trimestre
trimestre
trimestre
trimestre

1
2
3
4

representa desviaciones en ms o en menos, respecto a la tendencia de la


serie. El grfico de la componente cclica se muestra al margen y el modelo empleado es

5
3
2
1

y t = 0 + 1 t + 1 x 1t + 2 x 2t + 3 x 3t + t ,

2
3
4

(7,3)

(5,8)

en el que las cantidades entre parntesis debajo de cada coeficiente corresponden a los estadsticos T. Todos los coeficientes, salvo 1, difieren significativamente de cero (a nivel = 0,05), por lo que la estacionalidad
aparece claramente definida. La estacionalidad del cuarto trimestre es

4 = 0,72 + 3,05 + 2,45 = 4,78.


El ajuste al modelo es muy bueno, pues es r2 = 0,979, y la tabla de anlisis de la varianza muestra una descomposicin clara:
Sumas de
cuadrados

Fuente de variacin

Grados de
libertad

La tendencia y la estacionalidad

S Y = 1254,64

El error

S e = 26,88

19

Variacin total

S Y = 1281,52

23

y el estadstico F es
1254,64/4
F = -------------------------- = 221,74,
2688/19

90,1 90,2 90,3 90,4 91,1 91,2 91,3 91,4 92,1 92,2 92,3 92,4

y t = 9,06 + 0,91t + 0,72x 1t 3,05x 2t 2,45x 3t + e t ,


(1,71)

Ct

para t = 1, 2 , , 24, que al ser ajustado resulta en

(25,6)

106
EL MODELO LINEAL
UNIECUACIONAL

lo que lleva a aceptar la hiptesis global que al menos alguno o algunos


de los coeficientes del modelo son distintos de cero.
Sin embargo, si se desea contrastar las hiptesis
H0 : 1 = 2 = 3 = 0
H 1 : alguno(s) j 0
es preciso calcular la descomposicin de sumas de cuadrados siguiente:
S Y = S t + S x1 x2 x3 + S e ,
estimando el modelo
y t = 0 + 1 t + t
se llega a
y t = 8,64 + 0,944t + e t
para el que es Se = 257,47, por lo que
S t = S Y S e = 1281,52 257,47 = 1076,05
y la suma de cuadrados (condicional) asociada a la tendencia es
S x1 x2 x3 = S Y S t = 1254,64 1076,05 = 178,59,
resultando la tabla de anlisis de la varianza

Fuente de variacin

Sumas
de cuadrados

Grados
de libertad

Medias
de cuadrados

La tendencia

S t = 1076,05

M t = 1076,05

S x1 x2 x3 = 178,59

M x1 x2 x3 = 59,53

S e = 26,88

19

M e = 1,42

S Y = 1281,52

23

La estacionalidad
El error
Variacin total

Para contrastar la existencia de estacionalidad se construye el estadstico


M x1 x2 x3
59,53
F = ---------------- = ------------- = 42,1,
Me
1,42
y como es F0,05(3, 19) = 8,69, se concluye a nivel = 0,05 que algunos de
los coeficientes estacionales difieren significativamente de cero. La existencia de la tendencia se contrasta con el estadstico
M
1076,05
F = -------b = ------------------- = 760,7,
Me
1,42

107

que se compara con el cuantil F0,05(1, 19) = 246, que resulta tambin significativamente distinto de cero, aunque en realidad habra que haber estimado St como la diferencia entre S y y la suma de cuadrados
S x1 x2 x3
calculada con el modelo
y t = 0 + 1 x 1t + 2 x 2t + b3 x 3t + e t .
Para concluir este ejemplo, al ser ste un modelo dinmico, es necesario comprobar la independencia temporal de las perturbaciones aleatorias
sucesivas, o sea comprobar que no existe autocorrelacin, ya que si se da
sta, no son aplicables los contrastes T y F anteriores.

39.

Los contrastes anteriores son casos particulares del test


H0 : C  = 0m
H1 : C  0m ,
en el que C es una matriz de dimensiones (m, (k + 1)) y de rango
r(C) = q m,
lo que indica que H0 implica que existen q relaciones lineales entre los
coeficientes, o sea que el modelo se puede reparametrizar eliminando
q variables explicativas, dando as origen a otro modelo
Y = 0 + q + 1 x q + 1 + + k x k + .
Si se estima el modelo original
Y = 0 + 1 x1 + + q xq + + k xk + ,
y el modelo reparametrizado, el estadstico
( S e S e )/q
F = --------------------------------S e /(n q 1)
se ajusta, si H0 es cierta, a una distribucin F(q, n q 1), y se puede
usar para contrastar las hiptesis H0 y H1 anteriores.

3.4 CONTRASTES DE ANLISIS DE


LA VARIANZA

108

40.

EL MODELO LINEAL
UNIECUACIONAL

La estimacin mnimo cuadrtica de un modelo con restricciones,


como por ejemplo
Y = x 11 x 22 + ,
siendo

1 + 2 = 1,
se puede realizar reparametrizando el modelo,
Y = x 11 x 21 1 + ,
o sea eliminando coeficientes haciendo uso de las restricciones, o bien
resolviendo el problema de optimizacin condicionada
n

min S( , 1 , 2) = min

( y x
i

1 2 2
1i x 2i )

i=1

1 + 2 = 1,
lo que se consigue fcilmente utilizando el mtodo de los multiplicadores de Lagrange, o sea minimizando respecto de , 1, 2 y la funcin lagrangiana
L( ; , 1 , 2) = S( , 1 , 2) ( 1 + 2 1).
En el test anterior la estimacin del modelo con q variables explicativas se realiza de cualquiera de las dos formas.
41.

Los contrastes F se pueden usar para decidir si el conjunto de datos es homogneo, o expresado de otra forma, si los coeficientes estructurales  se mantienen constantes para toda la muestra.
El test de Chow (1960) se usa para ver si el modelo
y = 0 + 1 x1 + + k xk +
es adecuado sobre el conjunto de los n datos disponibles, o si alternativamente se producen cambios en distintos subconjuntos de datos.
Supngase que los n datos se dividen en dos subconjuntos de m y
n m observaciones, y que se ajustan sobre ambos los modelos
y i = 0 + 1 x 1i + + k x ki + i

i = 1m,

y = 0 + 1 x 1i + + k x k i + i

i = m + 1n.

El test de Chow trata de contrastar las hiptesis

109

H 0 : 0 = 0 ; 1 = 1 ; ; k = k ; 2 = 2

3.5 ANLISIS DE RESIDUOS

H 1 : algunos coeficientes son distintos,


y el estadstico del test, si H0 es cierta, es
( S e S e S e )/ ( k + 1 )
F = ---------------------------------------------------------- F(k + 1, n 2k 2),
( S e + S e )/ ( n 2k 2 )
siendo Se la suma de cuadrados residual usando los n datos y SeSe,
las sumas de cuadrados residuales calculadas con los dos subconjuntos de datos.
Si no existe cambio estructural, o sea si H0 es cierta, cabe esperar
que el numerador sea prximo a cero, o sea que la regin de aceptacin de nivel sea
C 0 = ( 0; F ).
3.5 ANLISIS DE RESIDUOS
42.

El mtodo de estimacin mnimo cuadrtico proporciona unos estimadores con propiedades estadsticas buenas, segn se deduce del
teorema de Gauss-Markov. Pero estas propiedades dependen de la
verificacin de una serie de hiptesis a priori sobre las perturbaciones
aleatorias
H 1 : E( i) = 0

i = 1n

H 2 : V ( i) = 2

i = 1n,

H 3 : Cov ( i , i) = 0

i i

H4 : i N

i = 1n.

y sobre los restantes elementos que definen la especificacin del modelo. Como las variables aleatorias 1, 2, , n son no observables, es
necesario estimar primero el modelo original
yi = 0 + 1 x1 + + k xk +
mediante mnimos cuadrados, y posteriormente estudiar los residuos
e i = y i ( b 0 + b 1 x 1i + + b k x k i ) = y i y i
para i = 1, 2, , n con objeto de comprobar si las cuatro hiptesis H.1,
H.2, H.3 y H.4, que se suponen ciertas cuando se estima el modelo,
son realistas, o si por el contrario los residuos obtenidos no son concordantes con estas hiptesis, y por lo tanto las estimaciones obtenidas no corresponden a estimadores con las buenas propiedades
enunciadas en el teorema de Gauss-Markov.

110

43.

El conjunto de tcnicas disponibles para el estudio de los residuos

EL MODELO LINEAL
UNIECUACIONAL

e 1 , e 2 , , e n
se conocen con el nombre genrico de anlisis de residuos, y se clasifican en
mtodos grficos, y
tests sobre los residuos.
44.

En este apartado se tratan slo los mtodos grficos para visualizar los residuos y su adecuacin a las hiptesis de homocedasticidad
(H.2), no existencia de autocorrelacin (H.3) y normalidad (H.4), ya
que al ser siempre
n

= 0 = e

i=1

no es posible obtener informacin a partir de los residuos sobre la hiptesis H.1.


45.

Al estimar un modelo economtrico, es necesario calcular sus residuos, dado que stos informan sobre la magnitud y sentido de los
errores cometidos. Pero hay que tener en cuenta que la unidad de medida de los residuos es la misma que la de la variable endgena. Por
ejemplo, si y representa las ventas en miles de pesetas de una empresa, al estimar el modelo
y = y + e
los residuos se medirn en miles de pesetas, mientras que si las ventas
se expresan en millones de pesetas, los residuos se expresarn en millones. Por lo tanto, sea en el primer caso el residuo
e1 = 200,

miles de pesetas,

y si se cambia la variable endgena a millones, con los mismos datos


el residuo ser
e1 = 0,2,

millones de pesetas,

por lo que el valor absoluto de un residuo no sirve para constatar si


ste es grande o pequeo, o sea para evaluar la magnitud del error. Es
preciso pues comparar el valor de cada residuo con la variable endgena calculando los errores relativos para cada dato
e
----i
yi

i = 1n,

111

o los errores relativos al modelo

3.5 ANLISIS DE RESIDUOS

e
----i
y i

i = 1n.

Los residuos tipificados son ms fciles de evaluar, ya que son


e
e i* = ----i
se

i = 1n,

y su magnitud no depende de la unidad de medida de la variable endgena.


46.

Adems, si se supone que la distribucin de las perturbaciones es


Normal, los residuos tipificados estarn en su mayor parte comprendidos en los intervalos (2, +2) en el 95% de los casos, y (3, +3) en la
casi totalidad de ellos.
Aquellos residuos que sean en valor absoluto mayores que tres veces s e
e i > 3s e
e*i > 3
o

e*i
2

y i
2

pueden ser considerados como anormales. Dicho de otra manera, para


estos puntos, el modelo origina unos errores grandes (en valor absoluto). Lo ms probable es que exista una causa (econmica) para explicar estos fallos, y que haya que introducir esta causa mediante una
nueva variable explicativa en el modelo. Alternativamente, si el dato
que causa un residuo anormal no es representativo del colectivo o poblacin que ha generado los datos, puede ser corregido o incluso eliminado de la muestra, aunque esto slo debe realizarse si existen
fundamentos econmicos para modificar o prescindir de este dato.
47.

Los residuos se visualizan grficamente al representar en un


diagrama de dispersin, las n parejas de puntos
( y i , e i )

i = 1n.
e

El grfico residuos-valores estimados o ( y -e) aporta informacin sobre la posible heterocedasticidad o autocorrelacin de un modelo estimado.
Por ejemplo, si este grfico ( y -e) presenta el aspecto que se muestra al margen se concluye que existe heterocedasticidad creciente, o
sea que no se verifica la hiptesis H.2. Si existe autocorrelacin, el grfico ( y -e) presentar una relacin entre los residuos y los valores estimados con el modelo, como en los siguientes ejemplos:

112
e

EL MODELO LINEAL
UNIECUACIONAL

No hay que olvidar que la autocorrelacin es un fenmeno tpicamente temporal, y que a veces se origina por un error de especificacin en
el modelo; por ejemplo, si a una serie mensual de ventas se le ajusta
una tendencia, los residuos pueden quedar afectados de autocorrelacin al no haber sido incluidas como variables explicativas las correspondientes al ciclo estacional.
48.

La situacin deseable en el grfico ( y -e) es que no muestre ninguna relacin, tal como se muestra en la figura siguiente. Es habitual incluir en el grfico dos lneas paralelas al eje de abscisas, a una
distancia de 2s e , para evaluar la magnitud relativa de los residuos.

49.

Los grficos anteriores se completan con el grfico de los residuos


ordenados de forma creciente, que se representan mediante

e( 1 ) e( 2 ) e( n )
en escala probabilstica Normal. As, si se define la funcin de distribucin escalonada F*(e) de los residuos

F*( e ) =

= 0

si

e < e( 1 )

= 1/n

si

e( 1 ) e < e( 2 )

= 2/n

si

e( 2 ) e < e( 3 )


= n/n = 1 si


e( n ) e

y se la compara con la funcin de distribucin de una distribucin


N(0, s e2 )
e
1
--------------exp ( 0,5t 2 /s e2 ) dt
s e 2

las discrepancias entre ambas muestran el grado de incumplimiento


de la hiptesis H.4 de normalidad de las perturbaciones aleatorias. Si
ambas lneas estn prximas, se acepta la hiptesis de normalidad de
las perturbaciones.

113

La escala probabilstica Normal consiste en que la funcin

3.5 ANLISIS DE RESIDUOS

e = ( , + )

F(e)

se represente como una lnea recta creciente, que es la diagonal del


rectngulo de la figura siguiente. As es ms fcil apreciar las diferencias entre F*(e) y F(e).

0,5

F(e)
F*(e)

Ejemplo 4.

Grficos de residuos

Se dispone de dos series temporales yt y zt correspondientes al perodo 197093 con tendencia lineal, y se trata de comprobar si existe heterocedasticidad y autocorrelacin en los residuos. Los datos aparecen
en la tabla siguiente.
Ao

yt

zt

Ao

yt

zt

Ao

yt

zt

1970
1971
1972
1973
1974
1975
1976
1977

21,0
23,6
21.3
21,9
23,8
26,4
32,5
32,1

20,5
21,9
20,3
22,1
23,6
25,3
30,9
25,1

1978
1979
1980
1981
1982
1983
1984
1985

35,3
34,6
35,1
32,1
26,7
22,3
28,4
31,0

31,1
26,5
29,0
23,0
16,4
15,7
39,0
34,3

1986
1987
1988
1989
1990
1991
1992
1993

31,1
31,7
33,7
34,8
34,1
31,8
36,1
37,9

29,0
30,8
36,4
34,6
29,9
23,3
46,7
40,6

Al realizar el grfico temporal de ambas series, se observa una tendencia creciente, aproximadamente lineal, aunque las oscilaciones de zt son
ms amplias que las de yt. En ambos casos, a los 24 puntos de cada una de
las series x e y, se ajusta un modelo lineal de tendencia

50
40

yt

30

yt = 0 + 1 t + t

20

z t = 0 + 1 t + t* ,

10

zt

0
70 72 74 76 78 80 82 84 86 88 90 92 94

resultando
y t = 23,475 + 0,5197t + e t = y + e t
z t = 19.728 + 0,6741t + e t* = zt + e t* .
Al ser stos datos temporales, se pueden realizar los grficos de residuos
( t, e t )

t = 1 24

e t* )

t = 1 24

( t,

114

en lugar de los grficos de residuos

EL MODELO LINEAL
UNIECUACIONAL

10

et

t = 1 24,

( zt , e t* )

t = 1 24.

En ambos casos se observa (no de forma clara) la autocorrelacin y la heterocedasticidad creciente en los residuos e*,
t t = 1, 2, , 24, aunque es ms
fcil comprobar la autocorrelacin y heterocedasticidad en los grficos
temporales de los residuos (aqu s es posible, pues el modelo es dinmico).

+s e
t

( y t , e t )

s e
5

10
70 72 74 76 78 80 82 84 86 88 90 92 94
15
10

50.

+s e
5
0

s e

10

15
70 72 74 76 78 80 82 84 86 88 90 92 94

Para detectar la heterocedasticidad existen adems del grfico


( y -e ) varios contrastes; el ms usual es el test de White, que se tratar
en los prximos captulos. Anlogamente, el test de Durbin-Watson
se suele emplear para detectar la autocorrelacin. Ambos fenmenos,
no deseables, se dan frecuentemente en la prctica economtrica. Sus
consecuencias son muy serias, pues la aplicacin del mtodo de mnimos cuadrados a un modelo en el que existe heterocedasticidad y/o
autocorrelacin origina unos estimadores no eficientes, e invalida la
aplicacin de los tests T y F sobre los coeficientes de regresin, o sea
sobre el principal instrumento disponible para probar si el modelo estimado es el ms adecuado.
En realidad, si se detecta heterocedasticidad o autocorrelacin, el
modelo planteado no es el adecuado y es necesario cambiar su forma
funcional transformndolo en otro modelo auxiliar que sirva para estimar los coeficientes estructurales del modelo inicial, pero que cumpla las condiciones a priori. Sobre estos puntos se volver en los
captulos siguientes.
3.6 INTERPOLACIN Y PREDICCIN

51.

Una vez estimado y contrastado el modelo


y i = b 0 + b 1 x 1i + + b k x ki + e i

i = 1n,

ste puede ser utilizado para estimar valores de la variable endgena


correspondientes a valores de las variables explicativas distintos de
los que han servido para obtener sus coeficientes. Este proceso se denomina interpolacin o, si el modelo es dinmico, prediccin.
52.

Es necesario disponer de los valores futuros


x 1 f , x 2 f , , x k f

f = n + 1, , n + p

para estimar y f . Estos valores son a veces conocidos o se pueden obtener sin errores, en cuyo caso el proceso de interpolacin o prediccin se denomina ex ante, pero otras veces hay que estimarlos
mediante otros procedimientos o incluso mediante otros modelos
auxiliares, y la prediccin es entonces de tipo ex post, y adems est
afectada por la incertidumbre asociada a estas estimaciones.
53.

La prediccin por punto se obtiene sustituyendo los valores futuros de las variables explicativas en el modelo estimado, obtenindose
y f = b 0 + b 1 x 1 f + b 2 x 2 f + + b k x k f = xf b
para f = n + 1, n + 2, , n + p, siendo p el horizonte de prediccin, y
xf = 1, ( x 1 f , x 2 f , , x k f )
el vector de valores de las variables explicativas para el que se realiza
la prediccin. El valor esperado del residuo no observado es cero.

54.

La prediccin por intervalo para yf se obtiene mediante la expresin


I 1 = ( y f t /2 s e f , y f + t /2 s e f ),
siendo I1 un intervalo de nivel de confianza 1 , t/2 el cuantil correspondiente a una distribucin t de Student con n k 1 grados de
libertad, y la varianza del error de prediccin
s e2f = s e2 [ 1 + xf ( XX ) 1 x f ].

El intervalo anterior se construye teniendo en cuenta que el


error de prediccin es
e f = y f y f = x
f  + f x
f b =
= xf  + f xf ( XX ) 1 Xy =
= xf  + f xf ( XX ) 1 X ( X + ) =
= xf  + f xf  xf  xf ( XX ) 1 X = f xf M ,
siendo M = (XX)1X, y se obtiene que
E(e f ) = E( f ) xf ME( ) = 0,
o sea que la prediccin obtenida con el modelo es insesgada (si el modelo est correctamente especificado). Adems la varianza de este
error es

115
3.6 INTERPOLACIN Y PREDICCIN

e2f = E(e 2f ) = E [ ( f x f M ) 2 ] =

116
EL MODELO LINEAL
UNIECUACIONAL

= E( 2f ) + E [ ( x f M ) 2 ] 2x f ME ( f ) =
= 2 + E [ ( x f M ) ( x f M ) ] =
= 2 + x f ME ( )Mx f = 2 + x f M 2 I n Mx f =
= 2 + 2 x f ( XX ) 1 x f ,
ya que MM = (XX)1. El estimador de esta varianza se obtiene sustituyendo e2 por su estimador insesgado s e2 , resultando la expresin
de s e2f .
Por ltimo, para concluir la demostracin, basta tener en cuenta
que la distribucin muestral de
e f = f x f M N(0; e2f )
es independiente de la distribucin muestral de
s e2f / 2 ,
que es una chi-cuadrado 2(n k 1), de donde se deduce que el estadstico
y f y f
e
- t(n k 1),
-----f = ---------------se f
se f
y a partir de ste se construye el intervalo de confianza de prediccin.

55.

Al particularizar el caso de un modelo de regresin mltiple a uno


de regresin simple, se tiene que

( XX ) 1 =

n x i
x i x i2

1
x i2 x i
1 --- x 2
1
= ---------------------------------=
= ----2 n i x ,
2
2
sx
nx i ( x i )
x i n
x 1

por lo que, como xf = (1, xf), resulta que


( x f x )2
,
s e2f = s e2 1 + --1- + --------------------n
ns x2
y el intervalo de confianza I1 tiene su amplitud mnima para xf = x
y va aumentando al alejarse xf del centro de la nube de puntos.

117

Ejemplo 5.

Interpolacin por punto y por intervalo

3.6 INTERPOLACIN Y PREDICCIN

En el ejemplo 1 de este captulo se construy un modelo de corte


transversal para estimar el gasto de mantenimiento (y) de la maquinaria
de una empresa, en funcin del nmero de unidades (x1) o mquinas en
taller, y del tiempo (x2) de interrupcin del trabajo por mantenimiento.
Se trata de estimar el coste de mantenimiento si el nmero de mquinas
se incrementa hasta 260 y para varios tiempos medios de interrupcin
x2 = 2, 4, 6, y 8.
El modelo finalmente estimado contiene como variables explicativas,
adems de x1 y x2, la interaccin x3 = x1x2:
y = 303,5 + 2,3293x 1 25,071x 2 + 0,28617x 1 x 2 + e
por lo que la estimacin por punto del gasto es, para x2 = 2,
yf = 303,5 + 2,3293 260 25,071 2 + 0,28617 260 2 = 1007,8,
y anlogamente, para x2 = 4, 6 y 8 es y , igual a
1106,5, 1205,1 y 1303,8.
Para construir un intervalo de confianza para yf de nivel 1 ,
I 1 = ( yf t /2 s e f ; y f + t /s s e ),
es preciso calcular el valor de s e f : as para x1 = 260 y x2 = 2, resulta
s e = s e2 [ 1 + x f (XX) 1 x f ] =
f

1,1176 0,0068 0,1578 0,00098

0,00005
0,0010 0,000007
= 4580,28 1 + ( 1,260, 2,520 ) 0,0068
0,1578
0,0010
0,0288 0,00018

0,00098 0,000007 0,00018 0,0000013

260 =
2

520

= 82,891 2 ,

y para x2 = 4, 6 y 8 es s e f toma los valores


75,271, 72,706 y 75,712,
por lo que los intervalos de confianza de niveles 1 = 0,95 y 1 = 0,99
son los que aparecen en la tabla siguiente

118
EL MODELO LINEAL
UNIECUACIONAL

Intervalo ( y f t a/2 s f , y f + t a/2 s f )

x1 = 260

Nivel

1  = 0,95

1  = 0,99

yf

x2 = 2
x2 = 4
x2 = 6
x2 = 8

(832,1, 1183,5)
(946,9, 1266,1)
(1051,0, 1359,2)
(1143.3, 1464,3)

(765,7, 1249,9)
(886,6, 1326,4)
(992,7, 1417,5)
(1082,6, 1525,0)

1007,8
1106,5
1205,1
1303,8

ya que los cuantiles de la distribucin t(16) son


t 0,05/2 = 2,12,

t 0,01/2 = 2,921.

Los intervalos de nivel de confianza 0,99 contienen los de nivel 0,95,


pues es superior la confianza que contengan el verdadero valor yf. La amplitud de intervalo correspondiente a x2 = 6 es menor que la de los otros
tres intervalos, ya que el valor medio de x2 es 6,06.

56.

En el caso de prediccin ex-post, los valores


x f = ( 1, x 1 f , x 2 f , , x k f )
no se conocen exactamente, sino que son estimados con un error que
afecta a las predicciones de la variable endgena. Por ejemplo, en el
caso de un modelo de regresin simple Y = a + bx + e, se verifica que
1 ( x f x ) 2 + x 2f s u2
s e2f 1 + --- + --------------------------------------+ b 2 s u2 ,
n
ns x2
siendo s u2 la varianza estimada del error de estimacin de xf, el cual
se considera independiente de las perturbaciones del modelo.

57.

En la prctica no suele ser frecuente el poder estimar s u2 , por lo


que las predicciones por punto y por intervalo de yf, se consideran
condicionales a los valores obtenidos
x 1 f , x 2 f , , x k f .
Los intervalos de confianza que se calculan sin tener en cuenta el error
cometido al estimar los valores de las variables explicativas son de
amplitud menor que los intervalos de confianza reales de yf, o sea que
se subestima la precisin de la estimacin.

58.

Una vez realizadas las predicciones y f , f = n + 1, n + 2, , n + p,


se definen varias medidas para evaluar la capacidad predictiva del
modelo. Estas medidas se calculan una vez que se han tomado los da-

tos y f , f = n + 1, n + 2, , n + p futuros que se estimaron previamente


en el proceso de prediccin.
59.

El error cuadrtico medio


1
ECM = --p

(y

n+t

y n + t ) 2 ,

t=1

o su raz cuadrada toma valores pequeos si las predicciones son precisas.


60.

El ndice de desigualdad de Theil,


ECM
----------------------- =
p
1
--y n2 + t
p

U =

ECM
-------------- ,
V

t=1

toma valores positivos:


Si U = 0 es y n + t = y n + t t = 1 p, o si la prediccin es perfecta.
Si U > 0 la capacidad predictiva del modelo disminuye a medida que aumenta el ndice.
61.

Para interpretar las causas de los errores de prediccin, el error


cuadrtico medio se puede descomponer en tres sumandos, ya que
1
ECM = --p

(y

n+t

y n + t ) 2 =

t=1

2 s 2 ) + 2(s s s
= ( y* y * ) 2 + ( s y*
y* y *
y *
y*y *) =

= ES + EV + E A ,
en el que
1
y* = --p
2
s y*

1
y * = --p

yn + t

t=1
p

1
= --p

(y

n+t

t=1
p

1
s y*y * = --p

(y

n+t

y* ) 2

s y2 *

1
= --p

n+t

t=1
p

( y

n+t

y* ) 2

t=1

y* ) ( y n + t y* ).

t=1

El lector deber demostrar la descomposicin anterior del error


cuadrtico medio, en el que ES es la parte del error cuadrtico medio

119
3.6 INTERPOLACIN Y PREDICCIN

120

debido al sesgo, o sea al error medio de la prediccin, EV corresponde


a la diferencia de las varianzas entre los valores reales y f y los estimados y f , y EA refleja la variacin aleatoria en los errores de prediccin.

EL MODELO LINEAL
UNIECUACIONAL

62.

La descomposicin anterior del error cuadrtico medio se puede


expresar mediante la identidad
ES
EV
EA
1 = ------------- + ------------- + ------------- = US + UV + UA.
ECM ECM ECM
La situacin ideal en la prediccin es cuando
US = 0
UV = 0
UA = 1

o sea cuando no hay error sistemtico en la prediccin,


que indica que la variabilidad de las predicciones y de los
valores reales son iguales, y
de manera que los errores de prediccin son aleatorios.

3.7 OBSERVACIONES INFLUYENTES


63.

Al realizar el anlisis de los residuos de un modelo, se aprecia la


magnitud de los errores que se cometen al emplear los valores estimados de la variable endgena. Las observaciones anormales (o outliers)
originan errores importantes en la estimacin, desvirtuando la interpretacin econmica de los coeficientes estructurales; a veces, estos
datos se originan por errores en el proceso de manipulacin de la informacin desde que sta se recoge, publica o incluso, al introducirla
en un ordenador para su proceso. Se ha indicado que un dato anormal
debe eliminarse de la muestra slo si se considera no representativo
de la poblacin muestreada.

64.

Una vez estimado un modelo, se debe investigar qu observaciones son las ms influyentes en la estimacin. Para ello basta considerar que
y = Xb = X ( XX ) 1 Xy = Hy
por lo que la estimacin de la observacin i-sima es
y i = h i1 y 1 + h i2 y 2 + + h ii y i + + h in y n .
Si el coeficiente hii es prximo a la unidad, la observacin i-sima influye en el valor estimado de forma notable; la situacin ideal se da
cuando todos los coeficientes h11, h22, , hnn son de magnitud similar,
o sea cuando todos los puntos tienen una influencia parecida en el
modelo. Se puede comprobar fcilmente que
h i1 + h i2 + + h in = 1
2 + h2 + + h2 = h ,
h i1
i2
in
ii

para i = 1, 2, , n, y que el valor medio de los hii es (k + 1)/n, por lo


que si se verifica que
h ii > 2(k + 1)/n
se considera que la observacin i-sima es influyente en el modelo, y
por lo tanto debe ser analizada con ms detalle. El valor hii slo depende de las variables predeterminadas, y es una medida de la influencia potencial de la observacin i-sima. En realidad, la influencia
real depender tambin del valor yi.
65.

Los residuos de un modelo lineal dependen tambin de esta matriz H


e = y Xb = y y = y Hy = ( I n H ) y = My = M ,
y su matriz de covarianzas muestral es
V (e) = E(ee) = ME ( ) M = 2 M 2 = 2 M = 2 ( I n H ),
ya que
My = MX + M = M ,
y la matriz M es idempotente. Los residuos studentizados se definen
dividiendo cada residuo ei por su desviacin tpica estimada que se
obtiene a partir de su varianza muestral 2 ( 1 h ii )
ei
r i = ---------------------s e 1 h ii

i = 1n.

Los valores absolutos de estos residuos son tambin indicativos de la


importancia del error asociado a la observacin i-sima, y se usan
para detectar observaciones influyentes. Los valores ri se pueden
comparar con los cuantiles t/2 de una distribucin t de Student con
n k 1 grados de libertad.
66.

Otra forma de investigar la importancia de la observacin i-sima


consiste en estimar el modelo original prescindiendo de este dato,
comparando y i con el valor y i obtenido con el modelo estimado con
n 1 casos, y calculando los nuevos residuos studentizados
y i y i
r i* = -----------------------.
s e 1 h ii
En el caso de un dato anormal o de una observacin claramente influyente, r i* puede ser mucho mayor que r i , por lo que es preferible
usar estos valores; si

121
3.7 OBSERVACIONES INFLUYENTES

122

r i* > t /2

EL MODELO LINEAL
UNIECUACIONAL

se considera, a nivel (aproximado) , influyente la observacin i-sima.


67.

Cuando se encuentran una o varias observaciones influyentes en


un modelo, es preciso buscar una interpretacin econmica de stas;
incluso si el dato es anormal, debe investigarse la causa que lo ha originado, lo que debe hacerse incluso si debe modificarse la especificacin del modelo original cambiando su forma funcional para explicar
esta variabilidad. En modelos dinmicos se utilizan a veces variables
artificiales de intervencin para representar esta situacin. Por ejemplo, si se va a explicar una variable Y que representa la produccin
mensual en una empresa, y en el mes de agosto la produccin es menor cada ao, se introducir una variable explicativa X que tome el
valor 1 cada mes de agosto, y 0 en el resto de los meses; el valor estimado de su coeficiente estructural representar esta cada estacional
de la produccin.

EJERCICIOS PROPUESTOS

123
EJERCICIOS PROPUESTOS

1. Se dispone de n datos de x1, x2, e y, y se tipifican las variables mediante la transformacin


x 1i x 1
-,
x 1* i = ---------------s x1

x 2i x 2
-,
x 2* i = ---------------s x2

yi y
y i* = ------------- ,
sy

para i = 1, 2, , n, en el que x 1 , x 2 e y son las medias aritmticas


de los datos, y
s x1 , s x2 , y s y ,
las desviaciones tpicas correspondientes. Al estimar el modelo
y * = 0 + 1 x 1* + 2 x 2* + , demostrar que es 0 = b 0 = 0 y que en
el modelo resultante y * = 1 x 1* + 2 x 2 + , el sistema de ecuaciones normales es
1

r x1 x2 b 1

r x1 x2

b2

r yx1
r yx2

siendo los valores r x1 x2 , r yx1 y r yx2 los coeficientes de correlacin


ordinarios entre las variables.
2. El modelo lineal y = X + , en el que los coeficientes  estn sometidos a un conjunto de r restricciones lineales que se expresan
mediante la identidad A = a, siendo A una matriz conocida de
dimensiones (r, (k + 1)) y a un vector de r componentes conocidas,
puede ser estimado minimizando la suma de cuadrados de los residuos teniendo en cuenta las restricciones usando el mtodo de
los multiplicadores de Lagrange. Demostrar que el estimador de 
es

 = b + ( XX ) 1 A [ A ( XX ) 1 A ] 1 ( a Ab ),
siendo b = (XX)1Xy. Comprobar que  verifica las r restricciones.
3. Sean los siguientes datos de las variables x e y
x
y

26 54 85 60 78 30 21 90
103 160 220 175 202 115 110 225

y se realizan los siguientes cambios de escala: x* = 10x, x** = x/10,


y* = 100y, e y** = y/100. Se pide la estimacin de los siguientes modelos y sus residuos, comparando los valores obtenidos.
y = + x +
y = + x* +
y** = + x* +

y* = + x +
y = + x** +
y* = + x** +

y** = + x +
y* = + x* +
y** = + x** +

y calcular el coeficiente de determinacin en cada caso.

124
EL MODELO LINEAL
UNIECUACIONAL

4. Se han recogido datos temporales correspondientes a los aos


197493 de acuerdo con la siguiente tabla:
x

y1

y2

y3

y1

y2

y3

13
19
22
33
15
25
31
32
38
41

65
87
67
98
69
92
109
103
118
112

64
96
51
90
68
94
116
101
119
102

62
115
18
73
67
97
130
98
122
83

26
37
39
38
31
40
43
41
49
56

97
121
115
124
96
103
132
106
130
154

102
126
112
131
90
87
138
90
122
156

112
137
107
145
79
55
151
58
108
161

y se pretende estimar los modelos alternativos


y1 = 1 + 1 x + 1

y2 = 2 + 2 x + 2

y3 = 3 + 3 x + 3

comparando los coeficientes obtenidos, los residuos y las varianzas residuales.


5. Con los datos del ejercicio 10 del captulo anterior, realizar los contrastes de validacin de los dos modelos propuestos, y hallar la
prediccin por intervalo del coste estimado para el consumo de
limpieza estudiado.
6. Estudiar los grficos de residuos respecto a y en los modelos obtenidos en el ejemplo 3 anterior. Comprobar que en todos los casos
la media de los residuos es cero y que estn incorrelados con y .
7. Es frecuente que los programas informticos de los paquetes estadsticos y economtricos calculen el coeficiente en el modelo y =
+ x + mediante las expresiones
n

r2 = 1

e /ns
2
i

2
y

r 2 = b 2 s x2 /s y2 .

i=1

Analizar las expresiones anteriores si se pretende estimar el modelo sin ordenada en el origen, y = x + . Podra obtenerse un valor
negativo (y por lo tanto errneo) para r2 con alguna de las dos expresiones anteriores? Demostrar que el estimador = y/x es insesgado aunque menos eficiente que el estimador mnimo
cuadrtico.
8. Se considera la siguiente muestra de observaciones
x
y

4
8,5

5
11

6
7
8
9
10 11 12 13 14
14,5 9,6 14,0 17,6 16,0 16,7 21,6 18,3 19,8

y se pretende estudiar las observaciones influyentes en el modelo


yt = + xt + t.

4
Problemas en la estimacin
de modelos

4.1 INTRODUCCIN
1.

En el proceso de estimacin del modelo y = X + se ha supuesto


que se verifican una serie de hiptesis o restricciones a priori sobre
sus distintos elementos. En la prctica, sin embargo, es muy frecuente
que no se verifiquen una o varias de esas suposiciones, lo que afecta
a los resultados obtenidos con el modelo y a su interpretacin.

2.

As, la matriz X cuyas columnas estn formadas por las n observaciones de cada una de las variables explicativas, debe ser de rango
k + 1, o sea no debe existir multicolinealidad. Si se maneja un modelo
con muchas variables predeterminadas es probable que exista multicolinealidad y que el modelo no sea estimable, o si lo es, que no sean
entonces fiables las estimaciones. Esta situacin ser muy frecuente
en modelos dinmicos en los que se incluyan variables retardadas.
Adems, si la variable endgena acta como explicativa con retardos,
la matriz X tendr carcter aleatorio; lo mismo ocurre si alguna variable exgena se mide con error, situacin sta muy habitual en Economa, ya que las magnitudes macroeconmicas se estiman mediante
procesos muestrales o de agregacin, que, inherentemente estn afectados de errores aleatorios. Las propiedades estadsticas de los estimadores mnimo cuadrticos quedarn afectadas por esta aleatoriedad de algunas o de todas las variables predeterminadas.

3.

Las perturbaciones aleatorias 1, 2, , n deben ser variables centradas, de varianza constante, incorreladas y su distribucin debe ser
Normal; las tres primeras condiciones son la base del teorema de
Gauss-Markov (unido a la no aleatoriedad de la matriz X). Si no se
cumple que E(i) = 0 para i = 1, 2, , n, debido a que la forma funcional del modelo no es correcta o que existe heterocedasticidad o auto-

125

126

correlacin, los estimadores mnimo cuadrticos pierden sus buenas


propiedades muestrales y no son utilizables, debiendo recurrirse a
otro mtodo de estimacin (el de mnimos cuadrados generalizados,
por ejemplo), una vez especificado correctamente el modelo.

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

4.

La no verificacin de algunas de las propiedades de las perturbaciones impide adems la aplicacin de los tests T y F como herramientas de comprobacin de la especificacin del modelo.

5.

Es pues necesario estudiar cules son las consecuencias de la no


verificacin de las hiptesis a priori sobre el modelo, cmo se pueden
detectar estas desviaciones y qu se debe hacer en cada caso prctico
cuando se presenten algunos de estos problemas. A estos aspectos se
van a dedicar los dos captulos que siguen.
4.2 ESPECIFICACIN Y ERRORES EN LAS VARIABLES

6.

Los errores de especificacin se pueden cometer por varias causas:


eleccin de una forma funcional incorrecta,
incluir variables explicativas no relevantes u omitir variables que
influyen sobre la variable endgena, y
a no verificacin de las hiptesis a priori sobre los distintos ele
mentos del modelo.
Es necesario pues detectar que se ha cometido un error de especificacin para poder modificar el modelo hasta obtener una formulacin satisfactoria.

7.

Si se incluyen variables no relevantes como explicativas, lo ms


probable es que estas variables no resulten significativas al realizar
los tests T, y que por lo tanto se eliminen en el proceso ordinario de
contrastacin del modelo; si no ocurre esto, el modelo resultante no
ser adecuado para aplicar o interpretar sus coeficientes estructurales. El mtodo de mnimos cuadrados producir estimadores insesgados pero no de mnima varianza.

8.

La omisin de variables relevantes tiene efectos ms graves ya que


si el verdadero modelo es, por ejemplo,
Y = 0 + 1 X 1 + 2 X 2 + ,
y el modelo especificado es
Y = 0 + 1 X 1 + ,
los estimadores b0 y b1 sern en general sesgados, salvo si X1 y X2 son
incorreladas, situacin sta no frecuente, por lo que el modelo en el
que se omite X2 no es vlido y sus coeficientes estimados estarn afectados de desviaciones sistemticas.

9.

Al estimar un modelo lineal, se consideraba que las variables explicativas deban ser no aleatorias y medidas sin error. Esta situacin
no se cumple a menudo, ya que, por ejemplo, las estadsticas macroeconmicas se obtienen mediante un proceso muestral, o sea que estn afectadas de un error de medida. Sean por ejemplo las variables
x t = x*t + e xt ,
y t = y*t + e yt ,
en las que ex y ey son los errores de medida de los verdaderos valores
(no observables) x*t e y*t, y el modelo que se estima es
yt = + xt + t .
Resulta pues, que si el modelo correcto relaciona a las variables no observables, y es
y*t = + x*t + *t
ser

t = *t + e yt e xt
y, aunque se suponga que ex, ey y *t son independientes entre s, resulta que
Cov (x t , t) = E [ ( x t x*t ) ( *t + e yt e xt ) ] =
= E [ e xt( *t + e yt e xt) ] = E ( e x2t ),
que es distinta de cero, lo que implica que el estimador mnimo cuadrtico de ser sesgado, ya que
( xt x ) t
E(b) = + E ------------------------- ( xt x )2
y el segundo sumando no tiende a cero aunque el tamao muestral n
aumente indefinidamente, por lo que adems de sesgado b es un estimador inconsistente de . Lgicamente si la variabilidad de la variable verdadera no observable, x*t, es grande en relacin con la varianza
del error ex, el sesgo asinttico de b ser pequeo.
10.

En la prctica se suele proceder estimando el modelo, suponiendo


que los valores xt sean los verdaderos, o sea que no estn afectados de
error, y por lo tanto, los resultados de la estimacin son condicionales
a los valores observados de las variables explicativas.

127
4.2 ESPECIFICACIN Y ERRORES EN
LAS VARIABLES

128

11.

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

Si se trata de estimar el modelo teniendo en cuenta la naturaleza


aleatoria y los errores en alguna o en todas las variables explicativas,
el problema es ms complejo y no se puede emplear el mtodo de mnimos cuadrados. La teora de Modelos Estructurales aborda esta
cuestin, y una vez formulado el modelo, es necesario estudiar si los
parmetros son estimables a partir de los datos, proceso que se conoce con el nombre de problema de la identificabilidad, cuestin sta que se
tratar en el captulo de modelos multiecuacionales.
4.3 MULTICOLINEALIDAD
4.3.1 Introduccin

12.

La multicolinealidad tiene lugar cuando las variables explicativas


o predeterminadas de un modelo estn relacionadas entre s, de forma exacta o aproximada. La mayora o todas las variables que intervienen en un modelo estn parcialmente relacionadas, por lo que
todos los modelos economtricos presentan un cierto grado de multicolinealidad. Por ejemplo, para estimar la funcin de consumo de una
familia, se usan como variables explicativas su renta y su patrimonio,
pero estas variables estn correlacionadas de forma positiva, pues si
la renta familiar es baja, cabe esperar que el patrimonio correspondiente no sea elevado, y las rentas altas estn generalmente asociadas
a patrimonios familiares acomodados.

13.

La presencia de multicolinealidad dificulta o impide obtener estimaciones precisas de los efectos individuales de cada variable explicativa o predeterminada sobre la variable endgena, pues la
informacin que aqullas aportan es redundante, por lo que los coeficientes estructurales estimados no reflejan el efecto real de cada variable X sobre la endgena; un incremento unitario de una variable
explicativa provoca una variacin de Y igual al coeficiente estimado,
pero al estar relacionadas las variables predeterminadas, cabe esperar
que el incremento de una de ellas est asociado a variaciones en las
otras variables explicativas, que a su vez afectan a la variable X.

14.

Si existe multicolinealidad, una pequea variacin en los datos


originales, o la adicin u omisin de alguna observacin, pueden alterar totalmente el valor de los coeficientes estimados, lo que quiere
decir que las estimaciones obtenidas no son fiables, y por lo tanto que
su interpretacin econmica no es adecuada.

15.

En el caso de existir relaciones exactas entre las variables explicativas, se verifica que
r(X) < k + 1
y la multicolinealidad se denomina exacta. En ese caso el rango de la
matriz XX coincide con el de la matriz X, o sea que XX es singular, y
no es posible resolver el sistema de ecuaciones normales XXb = Xy.
Si el determinante de XX es prximo a cero, el sistema de ecuaciones

normales producir resultados a veces muy distintos cuando vara ligeramente alguna variable explicativa; en esta situacin se califica a
la multicolinealidad de aproximada.
16.

En definitiva, la multicolinealidad exacta impide la estimacin del


modelo, y si aqulla es aproximada, entonces dificulta la interpretacin econmica de los coeficientes estructurales.
4.3.2 Deteccin y medida de la multicolinealidad

17.

Para detectar la multicolinealidad existen diversos procedimientos y tests estadsticos:


La matriz de coeficientes de correlacin entre las variables X: si alguna correlacin es
r xi x j > 0,8,
la multicolinealidad puede ser un problema serio. Es frecuente
que aunque estas correlaciones sean inferiores, y aunque existan
varias variables predeterminadas interrelacionadas entre s, se
produzca la multicolinealidad.
El test de Farrar-Glauber trata de contrastar las hiptesis
H 0 : Las variables X estn incorreladas
H 1 : Existe multicolinealidad
y se basa en el estadstico
G = [ ( n 1 ) ( 2k + 5 )/6 ] ln [ det ( XX ) ],
cuya distribucin, si H0 es cierta y n , es 2(g), siendo g =
(k + 1)k/2, por lo que si G > 2 se acepta la existencia de multicolinealidad al nivel de significacin . No obstante, la procedencia
de este test es discutible, pues la multicolinealidad es generalmente un problema de la muestra concreta disponible y no de la poblacin que la ha generado.
Los coeficientes de determinacin r j2 de los modelos auxiliares
x j = a 0 + a 1 x 1 + + a j 1 x j 1 + a j + 1 x j + 1 + + a k x k + e,
para j = 1, 2, , k, son indicativos de multicolinealidad si son elevados. L. R. Klein sugiere comparar r j2 con el coeficiente de determinacin r2 del modelo estimado y aceptar que existe
multicolinealidad si r 2 < r j2 para algn j = 1, 2, , k.
En general, si el nmero k de variables predeterminadas es elevado, es ms probable que stas sean multicolineales. Una situacin

129
4.3 MULTICOLINEALIDAD

130
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

muy frecuente de multicolinealidad se da en los modelos con variables retardadas.


18.

Para medir la intensidad de la multicolinealidad se define el ndice


o nmero de condicin de la matriz X de regresores

max / min ,

siendo max y min los autovalores mayor y menor de la matriz XX.


En el caso de multicolinealidad exacta implican que min = 0, y el nmero de condicin tiende a infinito; en el otro extremo, si todas las variables estn incorreladas, todos los autovalores son iguales y = 1.
Valores de este ndice superiores a 20 indican que el grado de multicolinealidad es elevado y que afecta a las estimaciones, y si > 30, el
efecto es grave.

Ejemplo 1.

Modelo con multicolinealidad

Sea el conjunto de datos siguientes tomados en 24 meses correspondientes a los gastos de comercializacin (C) de una empresa, el nivel de
ventas (V), su coste de personal (P) y los costes de materias primas (M);
se trata de estimar el nivel de ventas a partir de las restantes variables.
V

607

590

543

558

571

615

606

593

582

646

619

651

C
P
M

197
173
110

208
152
107

181
150
99

194
150
102

192
163
109

196
179
114

203
169
113

200
166
113

198
159
115

221
206
119

218
181
120

213
192
123

648

694

697

707

693

680

664

747

708

702

711

778

C
P
M

207
191
122

228
217
131

249
190
133

225
221
135

237
189
133

236
192
128

231
193
134

260
233
135

254
196
139

239
199
138

248
202
146

273
240
153

En primer lugar se calcula la matriz de correlaciones entre las variables explicativas para analizar la posible multicolinealidad, ya que es de
esperar que las variables Ct, Pt y Mt estn relacionadas:
1 0,82 0,93
R = 0,82 1 0,86
0,93 0,86 1

131

Los gastos de comercializacin y de personal muestran una correlacin


elevada (0,82) y tambin la muestran los primeros con el coste de materias
primas (0,93), mientras que los gastos de personal y de materias primas
presentan una correlacin igual a 0,86. En definitiva las tres variables explicativas (exgenas) Ct, Pt y Mt aportan una informacin redundante sobre las ventas, lo que puede dar origen a multicolinealidad.
El ndice de multicolinealidad es

max / min =

2,740561/0,0648715 = 6,5,

lo que representa una multicolinealidad mediana, o sea que en principio


se va a poder aplicar el mtodo de mnimos cuadrados.
Los coeficientes de determinacin de cada variable explicativa sobre
las otras dos son
r C2 = 0,86,

r P2 = 0,7395,

2 = 0,894,
rM

que de nuevo indican que es posible que exista multicolinealidad asociada a las variables Mt y Ct.
El modelo estimado de ventas con todas las variables es
V t = 107,44 + 0,923C t + 0,950P t + 1,298M t + e t ,
(4,14)

(6,10)

(3,01)

cuyo coeficiente de determinacin es r2 = 0,9798, mientras que el modelo


sin la variable M es
V t = 113,52 + 1,442C t + 1,162P t + e t ,
(8,69)

(7,1)

siendo r2 = 0,9707, lo que muestra que la variable Mt aporta informacin


redundante respecto de Ct y Pt.
No obstante la exclusin de Mt ha alterado mucho los coeficientes de
las variables Ct y Pt, lo que dificulta su interpretacin econmica.
La presencia de la multicolinealidad afecta a la interpretabilidad de
un modelo economtrico ya que, como hemos visto, provoca una gran variabilidad en sus coeficientes.
Adems, una pequea variacin en los datos puede alterar significativamente los valores de los coeficientes estimados, originando de nuevo la
inestabilidad, y por lo tanto la no interpretabilidad de stos. Por ejemplo,
si el dato de la variable Pt de marzo de 1992 se incrementa desde P3 = 150
a P3 = 183, resulta que el modelo estimado es ahora
V t = 89,346 + 0,956C t + 0,749P t + 1,681M t + e t ,
siendo sus coeficientes totalmente distintos de los estimados con los datos
originales. De nuevo no es posible dar una interpretacin econmica fiable a estos coeficientes.

4.3 MULTICOLINEALIDAD

4.3.3 Estimacin de modelos con multicolinealidad

132
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

19.

Cuando se considera que la multicolinealidad afecta a la estimabilidad del modelo se debe adoptar alguna o varias de las medidas siguientes:
incrementar el tamao muestral n,
eliminar las variables que causan la multicolinealidad, o sustituirlas por otras variables de tipo instrumental.
usar el mtodo de estimacin de regresin sobre componentes
principales
utilizar otro mtodo de estimacin como el ridge de Hoerl y Kenard (1970) o el de James-Stein.

20.

Las soluciones propuestas para abordar el problema de la multicolinealidad no suelen ser prcticas. El incrementar el tamao muestral rara vez es posible, por lo que la lnea de actuacin ms simple es
la eliminacin de aquellas variables explicativas que contribuyen a
una mayor presencia de multicolinealidad, aunque, como ya se ha
mencionado en apartados anteriores, si se omiten indebidamente variables explicativas relevantes se origina sesgo en los estimadores mnimo cuadrticos.

21.

El mtodo de regresin en componentes principales consiste en


sustituir el conjunto de (k + 1) variables explicativas (incluida la constante asociada a la ordenada en el origen) por sus k + 1 componentes
principales z0, z1, , zk, o por un subconjunto de stas.
As, si en el modelo lineal
y = X +
se designa mediante
Z = XP = [ z 0 z 1 z k ]
a la matriz n (k + 1) formada por los k + 1 componentes principales
de las variables predeterminadas, siendo
P = [ p0 p1 pk ]
de dimensin (k + 1) (k +1) y p0, p1, , pk los autovectores ortogonales de la matriz XX correspondientes a los autovalores ordenados

0 1 k ,
el modelo original se puede transformar en el siguiente, teniendo en
cuenta que
PP = I k + 1 ,

ya que los autovectores anteriores adems de ortogonales se pueden


elegir unitarios
y = X  + = XPP  + = Z  + .
Los coeficientes de regresin  = P estn asociados a k + 1 variables
explicativas incorreladas pues los componentes principales son ortogonales, o sea incorrelados. Este modelo auxiliar
y i = 0 z 0i + 1 z 1i + + k z ki + i

i = 1n

no estar afectado de multicolinealidad pues las variables z0, z1, , zk


estn incorreladas, y si se eliminan las variables explicativas
z r + 1 , , z k ,
que son las k r ltimas componentes cuya variabilidad es menor, se
pierde poca informacin, y el modelo resultante
y i = 0*z 0i + *1 z 1i + + *r z ri + *i

i = 1n

resultar ser una aproximacin al original, sin multicolinealidad, y a


partir de sus estimaciones se obtiene el estimador b de . Como

* ,
 = P  = [ P 1 P 2 ] ------- **
siendo P1 la matriz formada por las r + 1 primeras columnas de P y
= ( *0 , *1 , , *r ), si las ltimas k r componentes principales
explican una pequea parte de la variabilidad de las variables predeterminadas del modelo original, o sea que si se puede considerar
**  0, resulta que
  P 1  *,
con lo que el estimador de  ser
b = P 1 *,
siendo * el estimador de los coeficientes  * en el modelo de las r + 1
primeras componentes principales.

133
4.3 MULTICOLINEALIDAD

134
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

Ejemplo 2.

Regresin en componentes principales

Con los datos del ejemplo anterior, se trata de hallar las componentes principales de las variables exgenas C, D y M, y estimar las ventas
a partir de estas componentes.
Al realizar un anlisis en componentes principales sobre la matriz de
correlacin de las tres variables exgenas Ct, Pt y Mt, resulta que la primera componente Z1 explica el 91,35% de la varianza de las variables exgenas, y las dos primeras el 97,84% de ella, siendo los factores
z 1t = 0,3505 ( C t C )/s C + 0,3432 ( P t P )/s P + 0,3553 ( M t M )/s M
z 2t = 1,1657 ( C t C )/s C 1,8441 ( P t P )/s P + 0,6165 ( M t M )/s M
z 3t = 2,4799 ( C t C )/s C + 0,5678 ( P t P )/s P 2,9905 ( M t M )/s M
y
C = 221,1667
s C = 24,5829

P = 187,625
s P = 24,9187

M = 123,7917
s M = 14,1452,

por lo que al estimar el modelo de ventas se pueden tomar como variables


explicativas Z 1t , Z 1t y Z 3t , las tres componentes.
Por ejemplo, con las dos primeras es
V t = 650,41664 + 61,741788Z 1t 1,1497Z 3t + e t ,
(31,7)

(0,6)

siendo r2 = 0,9796. La segunda componente resulta no ser significativa


para explicar las ventas, por lo que se toma la primera, resultando
V t = 650,41664 + 61,741788Z 1t + e t ,
(32,2)

y al sustituir Z1 por su expresin en funcin de las variables, resulta


V t = 650,41664 + 61,741788[0,3505 ( C t 221,1667 )/24,5829 +
+ 0,3403 ( P t 187,625 )/ ( 24,9187 ) + 0,3553 ( M t 123,7917 )/14,1452] + e t =
= 105,55 + 0,8803C t + 0,8432P t + 1,5507M t + e t ,
modelo similar al estimado directamente con los datos originales en el
ejemplo anterior.

4.4 MODELOS CON VARIABLES RETARDADAS


4.4.1 Modelos dinmicos y retardos
22.

La mayor parte de las relaciones entre variables econmicas son


de naturaleza dinmica o temporal. Por ejemplo, si una empresa planifica su produccin para el ejercicio siguiente, se toman medidas basadas en hechos correspondientes a distintos instantes del tiempo; el
consumo anual de una familia depender de su renta en el ao en curso, pero tambin del consumo y de la renta en los aos anteriores; la
amortizacin de un crdito hipotecario se distribuye sobre un perodo
de varios aos. Otro caso tpico es el proceso de creacin de dinero
bancario: un depsito de importe D en el instante t permite al banco
dar crdito de una parte de D en los instantes t + 1, t + 2, crditos
que generan depsitos y stos a su vez nuevos crditos, en un perodo
de tiempo posterior al primer ingreso. En el sistema legislativo, desde
que se adopta una medida de poltica econmica hasta que sta surge
efecto, transcurre un intervalo de tiempo.

23.

Todos los ejemplos anteriores muestran algunos casos en los que


las interrelaciones entre las variables econmicas implican retardos o
desfases temporales.

24.

En principio, se tratarn dos tipos de modelos con retardos:


Modelos con variables exgenas retardadas, como por ejemplo
yt = + 0 xt 1 + + r xt r + t .
Modelos con retardos en la variable endgena, y, en su caso, en las
exgenas, como el siguiente
yt = + 1 + y1 t + + s yt s + 0 xt + 1 xt 1 + + r xt r + t .

25.

La problemtica de cada tipo de modelo es distinta, aunque con algunos rasgos comunes:
En cualquier modelo dinmico ser muy frecuente la existencia de
autocorrelacin en las perturbaciones aleatorias t, y a veces, habr
adems heterocedasticidad.
La presencia de retardos en las variables exgenas o en la variable
endgena puede ser causa de multicolinealidad, ya que prcticamente cualquier variable endgena o exgena est relacionada
con sus propios valores pasados. Si el nmero de retardos es elevado, aumentan las posibilidades de que se d multicolinealidad.
La presencia de retardos tiene adems como consecuencia la disminucin del tamao muestral utilizable. Si en un modelo aparecen como explicativas las variables yt 1, xt 1 y xt 2, de los n datos
originales slo sern utilizables n 2, ya que para el instante t = 1,
no se dispondrn de datos de yt 1, xt 1 , ni de xt 2, y en t = 2 no se

135
4.4 MODELOS CON VARIABLES
RETARDADAS

136
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

conocer el valor de xt 2, por lo que los datos slo sern utilizables


en el proceso de estimacin los ltimos n 2 datos.
26.

En los modelos con variable endgena retardada, adems de los


problemas anteriores, no se verificarn algunas de las siguientes hiptesis a priori:
La matriz X incluir algunas columnas (las correspondientes a las
variables predeterminadas yt 1, yt 2, ) aleatorias y relacionadas
con las perturbaciones t.
En esta situacin no ser posible utilizar el mtodo de mnimos
cuadrados ordinarios y habr que recurrir a otros mtodos de estimacin de los parmetros, como el mtodo de mxima verosimilitud o el de mnimos cuadrados condicionales, que son de tipo no
lineal, y por lo tanto requieren programas de ordenador adecuados para su estimacin.

27.

En los modelos con retardos en las variables exgenas, y si se verifican las hiptesis a priori, cabe usar en principio, el mtodo de mnimos cuadrados ordinarios, pero la presencia de multicolinealidad y
la prdida de datos debida a los retardos dificultan el proceso de estimacin.

28.

Para abordar el problema de la multicolinealidad originado por


los retardos (en las variables exgenas o en la endgena) se procede
de la siguiente forma: sean, por ejemplo,
x t , x t 1 , x t 2 , , x t r
un conjunto de variables que originan multicolinealidad en el modelo
yt = + 0 xt + 1 xt 1 + 2 xt 2 + + r xt r + t ;
se va a transformar este modelo en otro
y t = + 0 w 0t + + s w st + t
con un nmero sensiblemente menor de coeficientes a estimar, o sea
siendo
s << r
tales que los coeficientes del modelo original estn relacionados con
los del modelo auxiliar

0 = 0 ( 0 , 1 , , s )

r = r ( 0 , 1 , , s )

137

y que las variables auxiliares w se obtengan a partir de las originales


w jt = w j ( x t , x t 1 , , x t r )

4.4 MODELOS CON VARIABLES


RETARDADAS

j = 0s

de forma conocida.
29.

Bajo este planteamiento general, a partir de los datos de la serie xt


se obtendrn los valores de las variables auxiliares
w 1t , w 2t , , w st ,
y como es s inferior a r, el problema de la multicolinealidad disminuir en la mayor parte de las situaciones prcticas, con lo que se podrn
estimar los coeficientes 0 , 1 , , s , y a partir de stos, los coeficientes estructurales 0, 1, , r.

30.

Si existe ms de una variable con retardos, para cada una se obtendr un conjunto distinto de variables auxiliares W.

31.

La parametrizacin del modelo original para obtener el modelo


auxiliar requiere que se impongan unas restricciones adicionales (las
relaciones entre los coeficientes originales y los yj) y que se definan las
variables wj, lo que se tratar a continuacin.
4.4.2 Modelos con retardos geomtricos o exponenciales

32.

La situacin ms simple de reparametrizacin del modelo original


yt = + 0 xt + 1 xt 1 + + k xt k + t
consiste en considerar decreciente la influencia de x sobre la variable
yt a medida que transcurre el tiempo. Si esta influencia de xt j decrece
exponencialmente al aumentar j, puede ser representada mediante la
expresin
j = 0 y j
j = 0, 1, , r
j

siendo y una constante positiva menor que la unidad

0 < y < 1.
1

As, si es y = 0,3, resultara

1 = 0,3 0 ,

2 = 0,09 0 ,

3 = 0,0027 0 ,

3
r

o sea que la influencia de xt j sobre yt es una fraccin (0,3j) de la influencia xt.


33.

Si el nmero de retardos es elevado, los ltimos coeficientes sern muy pequeos y el modelo original se puede aproximar mediante
un modelo con infinitos retardos

0 1 2 3

yt = + 0 xt + 1 xt 1 + + r xt r + t 

138
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

 + 0 xt + 1 xt 1 + + r xt r + + t ,
y si en este modelo se admite una estructura de retardos geomtricos,
resulta que

yt  +

j tj

+ t = +

j=0

x
0

tj

+ t .

j=0

Usando el operador retardo B, definido mediante la expresin


B j xt = xt j , *
se tiene que

yt  + 0

jx

tj

= + 0

j=0

B x +
j

j=0

1
= + 0 ----------------- x t + t
1 B

ya que

B
j

j=0

1
= ----------------- ,
1 B

con lo que el modelo resultante es


( 1 B )y t = ( 1 B ) + 0 x t + ( 1 B ) t ,
y despejando yt,
yt = ( 1 ) + 0 xt + yt 1 + ( t t 1 )
ya que B =.
34.
Resulta pues que el modelo con retardos geomtricos se puede
aproximar mediante el modelo anterior, en el que la variable endgena aparece con un solo retardo, lo que evita la prdida de datos asociada a los retardos en el modelo original. La perturbacin aleatoria
*t = t t 1 presenta autocorrelacin de tipo MA(1). Por todo ello,
la estimacin del modelo no debe hacerse mediante el mtodo de mnimos cuadrados ordinarios.

En el segundo captulo de series temporales se incluye un anexo dedicado al operador B.

139

Ejemplo 3.

Modelo de expectativas adaptativas

Un modelo simple para representar el modo en que se forman las expectativas de los agentes econmicos da origen a un modelo con retardos distribuidos de tipo geomtrico.
Sean yt el consumo familiar para el ao t y xt la renta obtenida en dicho
perodo. Generalmente el consumo depender de la renta esperada x*t
para el ao t, que puede diferir de la realmente obtenida; sea pues el modelo
y t = + x*
t + t ,
que depende de la variable no observable x*t. Por ejemplo, la compra aplazada de una vivienda se decide en funcin de los ingresos esperados en el futuro. Pero, cmo se generan estas expectativas de ingresos? Un modelo simple
consiste en estimar un incremento anual en los ingresos, x*t x*t 1, igual a
una parte del incremento que realmente se ha obtenido respecto al valor
esperado el ao anterior
x*t x*t 1 = (x t x*t 1),

( 0, 1 ) ,

por lo que si en esta ecuacin se despeja x*t, resulta


x*t x*t 1 + x*t 1 = x t ,
o bien

x*t = ------------------------------ x t = [ x t + ( 1 )x t 1 + ( 1 ) 2 x t 2 + ],
1 ( 1 )B
por lo que el modelo original resulta ser de tipo geomtrico
1
y t = + x*t + t = + ------------------------------ x t + t =
1 ( 1 )B

= + ( 1 ) j x t j + t ,
j=0

o bien
[ 1 ( 1 )B ]y t = [ 1 ( 1 )B ] + x t + [ 1 ( 1 )B ] t ,
que da origen al modelo con la variable endgena retardada
y t = + x t + ( 1 )y t 1 + [ t ( 1 ) t 1 ]
a partir del cual se estiman , y , lo que permite estimar el modo en que
se forman las expectativas de renta.

4.4 MODELOS CON VARIABLES


RETARDADAS

140
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

Ejemplo 4.

Modelo de ajuste parcial o de Nerlove

Algunas magnitudes econmicas, como el capital de una empresa yt,


tienden a variar hacia un valor ptimo y*t no observable siguiendo un
modelo de ajuste parcial, como en caso del ejemplo anterior, y este ajuste se estima a partir de la relacin entre el capital ptimo con el nivel de
output real xt, lo que de nuevo da origen a un modelo de retardos distribuidos de tipo geomtrico.
El ajuste parcial del capital de una empresa se produce mediante unos
incrementos yt yt 1, que son una fraccin del incremento que sera ptimo para el nivel de produccin real en el perodo t
y t y t 1 = (y*t y t 1)

( 0, 1 )

y a una produccin xt le correspondera el capital ptimo o deseable


y*t = + x t + t .
Si en la primera ecuacin se despeja y*t, resulta
y t y t 1 + y t 1 = [ 1 ( 1 )B ]y t = y*t
por lo que es
[ 1 ( 1 )B ]y t = [ + x t + t ]
o sea
y t = + x t + ( 1 )y t 1 + t
expresin sta til para estimar , y .
El modelo anterior presenta una estructura de retardos distribuidos
de tipo geomtrico

j=0

j=0

y t = + ( 1 ) j x t j + ( 1 q ) j t j

4.4.3 Modelos con retardos distribuidos polinomiales


35.

En el modelo con retardos de la forma


yt = + 0 xt + 1 xt 1 + 2 xt 2 + + r xt r + t
se puede reparametrizar el modelo eligiendo como estructura de los
coeficientes funciones polinomiales de la forma

j = 0 + 1 j + 2 j 2 + + s j s = p( j)

j = 0r

141

tomando como grado del polinomio un valor s sensiblemente inferior


al mximo retardo posible.
36.

Unos casos particulares se obtienen eligiendo s = 1 s = 2. As, si

j = 0 + 1 j

j = 0 + 1 j + 2 j2

se obtienen los retardos lineales o cuadrticos.


37.

4.4 MODELOS CON VARIABLES


RETARDADAS

A veces se imponen algunas restricciones sobre estos polinomios.


Por ejemplo, para que los ltimos coeficientes vayan disminuyendo
se puede exigir que el valor del polinomio para j = r + 1 se anule, o sea
que
p(r + 1) = 0,

o en el caso de un polinomio de grado s 2, si se quiere que los primeros coeficientes sean crecientes, se puede exigir que

0 1 2

p( 1) = 0.

En ocasiones, se imponen restricciones a ambos lados para forzar que


los coeficientes 0, 1, , r sean primero crecientes y luego decrecientes.
38.

En el caso de un modelo sin restricciones, el modelo original


yt = + 0 xt + 1 xt 1 + + r xt r + t
resulta ser, al sustituir los coeficientes mediante el polinomio

j = 0 + 1 j + 2 j2 + + s js
el modelo auxiliar
r

yt = +

j tj

j=0
s

= +

+ t = +

i=0

j i xt j + t =

j = 0i = 0
s

j x

tj

+ t = +

j=0

W
i

i=0

siendo las variables Wj


r

W it =

jx
i

j=0

tj

i = 0s

it

+ t ,

0 1 2

142

obtenidas a partir de los datos originales. En el modelo auxiliar

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

y t = + 0 W 0t + 1 W 1t + + s W st + t
es lineal y el nmero de parmetros s + 2 es inferior a los r + 2 parmetros del modelo original.
39.

Una variante de los retardos con estructura polinmica son los polinomios de Almon, que se formulan de la forma
j+1
( j + 2 )2
( j + 1 )s
j = 0 + 1 ----------- + 2 ------------------2 + + s ------------------s ,
r+1
(r + 1)
(r + 1)
o tambin como
min ( s, j )

j =

i ji,

i=0

para j = 0, 1, , r.
40.

Al reducir el nmero de parmetros a estimar, se simplifica el modelo original y disminuye el riesgo de multicolinealidad en el modelo
auxiliar, aunque al ser ste ms restrictivo, cabe la posibilidad que el
modelo resultante auxiliar no est bien especificado, lo que originara
sesgos en las estimaciones de sus parmetros.

41.

Aunque todos los desarrollos se han realizado considerando una


sola variable exgena xt con varios retardos, los polinomios anteriores
se pueden aplicar a estructuras ms complejas de retardos distribuidos en distintas variables exgenas y en la endgena.

Ejemplo 5.

Modelo con retardos distribuidos

El nmero de objetos (yt) en un almacn correspondiente a un mes


t depende de los gastos en publicidad en dicho mes Gt y de las ventas
de ese mes Vt y de los cinco meses anteriores. Se dispone de datos mensuales de estas tres variables durante tres aos.
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

y
490
491
501
498
504
504
500
500
503
503
511
517

G
7
10
13
12
13
13
11
11
11
10
11
12

V
29,3
30,1
31,1
30,8
31,2
31,3
31,0
31,1
31,2
31,1
31,5
31,8

y
517
529
521
526
525
520
528
524
533
531
539
540

G
10
16
15
11
15
12
13
10
14
15
15
15

V
32,1
32,8
32,0
33,2
32,6
32,9
33,0
32,9
33,2
32,8
33,6
33,4

y
544
561
551
553
567
563
566
554
558
579
575
572

G
13
17
17
12
20
17
16
10
14
18
18
16

V
34,2
35,2
34,4
35,1
35,1
35,3
35,6
35,1
35,0
36,6
36,4
36,2

143

Se trata de construir un modelo para prever el nivel de objetos en almacn.


Si se supone que el modelo es lineal y que las ventas durante los ltimos 6 meses influyen en el nivel de stock, el modelo a estimar es
yt = + Gt + 0 V t + 1 V t 1 + 2 V t 2 + 3 V t 3 + 4 V t 4 + 5 V t 5 + t ,
y como la variable V aparece con seis retardos, es muy probable que exista
multicolinealidad, por lo que es aconsejable usar una estructura de retardos polinomiales; por ejemplo, si se toma s = 2, se obtiene el polinomio de
retardos

j = 0 + 1 j + 2 j2

j = 0, 1, , 5

y si imponemos la restriccin

6 = 0,
ya que es lgico pensar que la influencia de las ventas sobre el inventario
en los meses anteriores disminuir al aumentar el retardo.
Al estimar el modelo con el programa TSP, ejecutando la orden
LS y c G PDL(V,5,2,2)
resulta
y t = 97,19 + 1,297G t + 1,820W 1t 2,1788W 2t + e t ,
con r2 = 0,981, y todos los coeficientes difieren significativamente de cero.
Los coeficientes de W1 y de W2 se obtienen teniendo en cuenta que

j = 0 + 1 j + 2 j2

j = 0, 1, 2, 3, 4, 5

6 = 0 + 1 6 + 2 36 = 0
en

0 V t + 1 V t 1 + 2 V t 2 + 3 V t 3 + 4 V t 4 + 5 V t 5 =
= 0(Vt + Vt 1 + Vt 2 + Vt 3 + Vt 4 Vt 5) +
+ 1 ( V t 1 + 2V t 2 + 3V t 3 + 4V t 4 5V t 5 ) +
+ 2 ( 4V t 2 + 9V t 3 + 16V t 4 + 25V t 5 )=
= W*0t + 1 W*1t + 2 W*2t = ( 6 1 36 2 )W*0t + 1 W*1t + 2 W*2t =
= 1 ( W*1t 6W*0t ) + 2 ( W*2t 36W*0t ) = 1 W 1t + 2 W 2t .
Las estimaciones de 1 y 2 son

1 = 1,8207

2 = 2,1788,

por lo que los coeficientes del modelo original son

4.4 MODELOS CON VARIABLES


RETARDADAS

144
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

ey t = 97,19 + 1,297G t + 7,90V t + 4,43V t 1 + 1,82V t 2 +


+ 0,073 V t 3 0,81V t 4 0,84V t 5 + e t .
Se recomienda al lector que se ensayen con estos datos algunas especificaciones alternativas a la propuesta.

42.

Otra estructura de retardos distribuidos usual es la estructura de


tipo gamma

j = 0 ( j + 1 ) s 1 e jr

j = 0r

( 0, 1 )

o bien

j = 0 j s 1 e j

j = 0r.

4.4.4 Estimacin de modelos con variables retardadas


43.

En el caso que el modelo slo tenga retardos en las variables exgenas se puede aplicar el mtodo de mnimos cuadrados si se cumplen las hiptesis a priori, pero si existen retardos en la variable
endgena, es preciso recurrir al mtodo de mxima verosimilitud o al
de mnimos cuadrados condicionales.

44.

En el caso de aplicar indebidamente el mtodo de mnimo cuadrados, los estimadores resultantes son sesgados e inconsistentes, y el
sesgo no desaparece aunque el tamao muestral sea grande. Como en
estos modelos suele existir autocorrelacin, los estimadores mnimocuadrticos son ineficientes.

45.

Al elegir un modelo con retardos distribuidos es necesaria una justificacin terica para reparametrizar el modelo, con el fin de seleccionar el nmero de retardos en el modelo original y el orden del
polinomio de Almon, si se adopta esta formulacin.
4.5 OTROS PROBLEMAS ASOCIADOS A LA ESTIMACIN DE MODELOS
4.5.1 Falta de datos

46.

Al realizar un proceso de toma de datos, es frecuente que falten


datos de algunas variables con las que se estima un modelo economtrico. Por ejemplo, en una encuesta se dejan a veces preguntas sin contestar. Se distingue entre la falta de datos de tipo esttico o de corte
transversal, y la de datos temporales. Los dos casos son distintos y
tambin las tcnicas para recuperar un dato que falta.

47.

En el caso de modelos de corte transversal, existen varios procedimientos para estimar los datos que faltan. Con los datos completos se
estima el modelo

y = b 0 + b 1 x 1 + + b k x k + e,
y los datos que faltan de la variable endgena se estiman con este modelo. En cuanto a los datos que faltan de las variables exgenas, se
pueden estimar a partir de las dems variables ajustando un modelo
de regresin en el que la variable explicada es la exgena cuyos datos
se tratan de estimar.
48.

Algunos autores recomiendan estimar los datos que faltan de la


variable endgena y descartar los casos para los que falta un dato de
alguna variable exgena.

49.

Una vez calculados los datos que faltan, se vuelve a estimar el modelo original utilizando toda la informacin disponible.

50.

En el caso de falta de datos en modelos dinmicos, adems de los


mtodos anteriores, cabe utilizar la informacin temporal para estimar los datos que faltan. Se pueden dar varias situaciones:
falta de un dato de la variable endgena yt
falta de un dato de alguna variable exgena xt
falta de datos de ambas.

51.

Si falta un dato yt, se debe estimar a partir del modelo general estimado con todos los casos completos
y t = b 0 + b 1 x 1t + + b k x kt ,
mientras que si es una variable exgena la que origina el hueco, se
puede estimar el dato que falta a partir de un modelo temporal asociado a los datos de esta variable. Por ejemplo, si la serie xt se puede
representar mediante un modelo temporal
x t = f (t) + *t ,
en el que f(t) es una funcin conocida (por ejemplo un polinomio, o
una funcin de tendencia agregada, una componente cclica), basta
emplear esta funcin para estimar el valor xt que falta.
Si faltan simultneamente datos de variables exgenas y de la endgena, en primer lugar se estimaran mediante modelos temporales
los valores que faltan de las variables exgenas, y con el modelo general estimado, se calcularan los datos que faltan de la variable endgena.

Ejemplo 6.

Recuperacin de datos que faltan

Con los datos del ejemplo 5 anterior, supongamos que faltan los dos
datos de ventas correspondientes al mes de junio de los dos ltimos

145
4.5 OTROS PROBLEMAS
ASOCIADOS A LA ESTIMACIN DE
MODELOS

146
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

aos, y el dato de inventario de agosto del ltimo ao. Se persigue estimar los datos que faltan a partir del resto de los datos, y posteriormente
estimar el modelo de inventarios que se estudi en el citado ejemplo 5.
Una primera forma de proceder consiste en eliminar los tres datos que
faltan y estimar el modelo de inventarios con el resto. Aparentemente, si
de los 36 datos originales se suprimen tres, la prdida de informacin no
es muy grande, pero hay que tener en cuenta que la variable ventas figura
en el modelo
yt = + Gt + 0 V t + 1 V t 1 + 2 V t 2 + 3 V t 3 + 4 V t 4 + 5 V t 5 + t
en seis instantes distintos del tiempo, por lo que si se elimina el dato de
ventas de julio del ltimo ao, se pierde ese dato y los cinco siguientes en
la estimacin del modelo, pues para el dato y31 correspondiente a julio no
se dispone de las ventas V31 de este mes, mientras que y32 depende no slo
de V32, sino tambin de V31, que falta, y as sucesivamente. Por lo tanto, si
faltan los datos V19 y V31, se pierden doce datos para la estimacin del modelo original, lo que unido a los cinco primeros datos que no se utilizan
debido a la estructura de retardos del modelo, y al dato y33 de ventas, resulta en un total de 18 datos no usados en la estimacin del modelo. El tamao muestral n realmente utilizable se ha reducido a la mitad.
Es de sealar que si se estiman los datos V19 y V31, se podran usar 30
datos para estimar el modelo de inventarios, y adems, con el modelo resultante cabe estimar el dato y33 de ventas y as completar la matriz de datos inicial.
La serie de ventas muestra una tendencia temporal aproximadamente
lineal aunque con una cierta curvatura. Se van a estimar dos modelos de
tendencia:

37
36
35

V t = e t + t ,

34

V t = 0 + 1 t + t .

33
32

El exponencial, estimado con 34 datos es

31
30
29

V t = 29,88e 0,054t + e t ,
1991

1992

1993

r 2 = 0,949,

y el lineal
V t = 29,78 + 0,1773t + e t ,

r 2 = 0,947,

y al estimar los datos que faltan resulta (con ambos modelos)


19 = 33,1,
V

31 = 25,3,
V

con lo que se han recuperado los dos datos que faltan de la variable ventas
sin perder precisin en el segundo y con dos dcimas de error en el primero.
Si con estos datos se estima el modelo del ejemplo anterior, faltando el
dato de inventario y33 de agosto del ltimo ao, resulta

147

y t = 96,23 + 1,321G t + 1,8532W 1t 2,1022W 2t + e t =


= 96,23 + 1,321G t + 7,697V t 1 + 1,853V t 2 +
+ 0,161V t 3 0,712V t 4 0,76V t 5 + e t ,
por lo que ser
y 33 = 96,23 + 1,321 10 + 7,697 35,1 + 4,365 35,6 + 1,853 35,3 +
+ 0,161 35,1 0,712 35,1 0,766 34,4 = 554,7,
con lo que se ha estimado este dato que falta con un error mnimo.

4.5.2 La agregacin de magnitudes econmicas


52.

Numerosas magnitudes econmicas se obtienen agregando o promediando otros datos. Por ejemplo, las macromagnitudes de un pas,
como la renta, el consumo, el ahorro, etc., se calculan mediante un
proceso de agregacin de las micromagnitudes correspondientes a
los distintos agentes econmicos. Los nmeros ndice constituyen un
ejemplo habitual de datos agregados.

53.

Tambin se generan datos agregados sobre un intervalo de tiempo; en lugar de sumar datos de distintos elementos o agentes, se agregan sobre un intervalo de tiempo los datos medidos de una empresa,
persona, ciudad, pas, etc.

54.

Los procesos de agregacin conllevan una prdida de informacin


respecto a los datos originales, pero ste es el precio que hay que pagar para obtener informacin til y comprensible.

55.

En la elaboracin de un modelo economtrico


yt = + xt + t

t = 1n

se plantean tambin problemas de agregacin, pues los datos de las


variables que intervienen en el modelo pueden ser agregados obtenidos sobre N unidades experimentales
N

yt =

Y it ,

i=1

xt =

it ,

i=1

datos que a su vez estn relacionados entre s


Y it = i + i X it + it ,
lo que implica que

i = 1N,

t = 1n,

4.5 OTROS PROBLEMAS


ASOCIADOS A LA ESTIMACIN DE
MODELOS

148

yt =

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

i +

i=1

i X it +

i=1

it ,

i=1

o sea que = i ; pero el coeficiente depende no slo de los coeficientes 1, , N de las microrrelaciones, sino tambin de los datos de
las variables Xit, i = 1N, salvo que sea i = para todo i = 1, 2, , N,
lo que rara vez ser realista.
56.

Si se supone que los valores individuales Xit se pueden obtener a


partir de los datos agregados xt mediante el modelo auxiliar
X it = a i + b i x t + *it
resulta que
N

X
i

it

i=1

=
i ai +
i b i x t +
i *it ,
i = 1

i=1
i=1

por lo que el modelo agregado es


N

yt =

i=1

i +

i=1

i b i x t +
i ai +
i = 1

i=1

it +

i it

i=1

= * + *x t + *t ,
o sea que se ajusta a una ecuacin de la misma forma que las microrelaciones existentes entre cada uno de los agentes econmicos.
57.

En resumen, se concluye que si existen unas relaciones entre variables medidas sobre un conjunto de N agentes econmicos (microrrelaciones), al realizar un proceso de agregacin con estas variables, las
variables agregadas no tienen por qu verificar una ecuacin (macrorrelacin) del mismo tipo, aunque, imponiendo restricciones sobre la
forma de las microrrelaciones, a veces es posible formular una macrorelacin con la misma forma funcional. Estas restricciones, si no se
ajustan a la realidad, producirn errores de especificacin en el modelo agregado.

58.

La agregacin sobre un intervalo de tiempo produce prdidas de


informacin sobre lo que ocurre dentro del intervalo, y tambin puede originar errores de especificacin en los modelos con variables retardadas. Adems origina problemas como los de autocorrelacin en
las perturbaciones aleatorias.

59.

Por ejemplo, sea la serie mensual Yam en la que los subndices representan el ao y el mes, y la serie anual agregada
12

ya =

m=1

am .

Es claro que si existe un ciclo estacional de perodo un ao, la informacin sobre este ciclo se pierde al obtener datos anuales mediante la agregacin.
60.

En el caso de un modelo con retardos


Y am = + 0 X am + 1 X am 1 + am ,
al agregar sobre doce meses, resulta
y a = 12 + 0 x a + 1 ( x a X a12 + X a 1,12 ) + a =
= 12 + ( 0 + 1 )x a 1 ( X a12 X a 1,12 ) + a ,
y por lo tanto, con los datos agregados anuales no se pueden estimar
los coeficientes del modelo mensual.

149
4.5 OTROS PROBLEMAS
ASOCIADOS A LA ESTIMACIN DE
MODELOS

ANEXO I. ANLISIS EN COMPONENTES PRINCIPALES

150
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

1.

El mtodo de componentes principales fue desarrollado en el primer tercio del siglo XX por K. Pearson y H. Hotelling como mtodo
matemtico de reduccin de la dimensin de un conjunto de datos interrelacionados entre s.

2.

Sean x1, x2, , xk variables relacionadas entre s y S y R sus matrices de covarianzas y de correlacin
R = r ij ,

S = s ij

i, j = 1k,

calculadas a partir de n observaciones


( x 1t , x 2t , x k t ),

t = 1n,

mediante las expresiones conocidas


1
s ij = --n

(x

it

x i ) ( x jt x j ),

i, j = 1k,

i=1

y
s ij
s ij
r ij = -------------- = -------- ,
si s j
s ii s jj
3.

i, j = 1k.

Las componentes principales z1, z2, , zk se definen a partir de las


variables centradas
x1 = x 1 x 1

x2 = x 2 x 2

xk = x k x k

mediante las combinaciones lineales


z j = a 1 j x1 + a 2 j x2 + + a kj xk ,

j = 1k,

de manera que los coeficientes


a j1
a
j2
aj = ,


a jk

j = 1k,

cumplen las siguientes restricciones:


k

aj a j =

2
js

js a is

= 1,

j = 1k,

s=1
k

aj a i =

s=1

= 0,

i, j = 1k,

i j,

y las varianzas de la variable z1 es mxima, la de z2 es mxima (una


vez hallada z1), y as sucesivamente.
4.

A partir de esta definicin se determinan los coeficientes aj, j = 1,


2, , k que definen a las componentes principales. As resulta que
a 1 , a 2 , , a k
son autovectores de la matriz de covarianzas S, ortonormales y correspondientes a los autovalores de S ordenados de forma creciente

1 2 3 k .
Para demostrar este resultado se va a maximizar la varianza de la
primera componente z1 sujeta a la restriccin a1 a 1 = 1
V (z 1) = a1 Sa 1 ,
ya que z1 = a1 x, y la matriz de covarianzas de las variables x es S. El
lagrangiano a maximizar es
L(a 1) = a1 Sa 1 ( a1 a 1 1 ),
por lo que al igualar a cero la primera derivada
dL(a 1)
---------------- = 2Sa 1 2 a 1
da 1
resulta
Sa 1 = a 1 ,
por lo que a es un autovector de S y como
V (z 1) = a1 Sa 1 = a1 a 1 =
debe ser mxima, se toma como valor de el mayor autovalor de S:
= 1 y a1 es el autovector de mdulo unitario asociado.
La segunda componente se obtiene maximizando su varianza
V (z 2) = a2 Sa 2
con las restricciones a2 a 2 = 1 y a2 a 1 = 0, o sea que z2 est incorrelada
con z1, ya que
Cov ( z 2 , z 1 ) = a2 Sa 1 = a 2 1 a 1 = 0,
por lo que el lagrangiano a maximizar es
L(a 2) = a2 Sa 2 ( a2 a 2 1 ) *a2 a 1 ,
resultando * = 0 y

151
ANEXO I. ANLISIS EN
COMPONENTES PRINCIPALES

152

dL(a 2)
---------------- = 2Sa 2 2 a 2 ,
da 2

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

por lo que
Sa 2 = a 2 ,
y ser = 2 el segundo autovalor mayor, siendo a2 el autovector de
mdulo unitario correspondiente.
De igual forma se van determinando las restantes componentes
principales.
5.

Las componentes principales son variables incorreladas cuyas varianzas coinciden con los autovalores de la matriz de covarianzas S
ordenados de forma decreciente. Si no existe multicolinealidad exacta
entre las variables x1, x2,, xk, todos los autovalores son estrictamente
positivos, mientras que si se pueden obtener r relaciones lineales entre estas variables los ltimos r autovalores son nulos, y los n datos estn contenidos en un subespacio de dimensin k-r.

6.

Los valores de las componentes principales se obtienen directamente


z jt = a j1 x1t + a j2 x2t + + a jk xkt ,

t = 1n,

j = 1k,

o bien
z j = X a j ,

j = 1k.

Si se define la matriz Z cuyas k columnas son los vectores z1, z2, ,


zk, resulta
A
Z = X
en la que la matriz A est formada por k filas a1, a2, , ak y sus elementos se denominan puntuaciones o scores de las variables.
7.
Los datos originales X que tipificados forman la matriz X estn
biunvocamente relacionados con los n datos de las componentes
principales, pues
X = ZA,
ya que la matriz A es ortogonal, y
AA = I k = AA.
8.

Como A est formada por k filas que son los k autovectores ortogonales y de mdulo unidad de la matriz de covarianzas S, es diagonalizadora de sta, siendo
ASA = = diag ( 1 , 2 , , k ),

por lo que se verifica que la traza de es

153

tr ( ) =

= tr ( ASA ) = tr ( SAA ) = tr ( S )

i=1

V(x ),
i

i=1

por lo que las primeras p componentes principales explican la variabilidad agregada de todas las variables originales en una proporcin
igual a
r p2
9.

1 + 2 + + p
- =
= ----------------------------------------tr ( )

/ .
i

i=1

i=1

Para reducir la dimensin de las variables originales se pueden tomar las p primeras componentes principales z1, z2, , zp, con lo que se
explica un porcentaje igual a 100r p2 de la variabilidad total de los datos originales. A partir de estas p componentes se estiman los datos de
las variables x1, x2, , xk mediante la expresin
p

x jt = b 0 j +

s=1

b sj z st = x j +

sj z s t ,

t = 1n,

j = 1k.

s=1

Los coeficientes bsj se denominan pesos o loadings de las componentes, y los valores x j estimados forman la matriz X .
10.

En un conjunto de observaciones de k variables interrelacionadas,


en el que el valor r p2 sea elevado, por ejemplo r p2 = 0,9, se pueden sustituir las k variables originales x1, x2, , xk por las p primeras componentes principales z1, z2, ..., zp con una prdida de informacin
mnima, X-X , y estas p componentes estn relacionadas con las variables originales. Adems, las componentes estn incorreladas entre s.
As, en un modelo economtrico con multicolinealidad se pueden
sustituir las variables explicativas por sus p primeras componentes
principales, que al ser incorreladas no presentan problemas de multicolinealidad, y adems se pueden ir introduciendo una a una en el
modelo, sin alterar los coeficientes ya estimados. Una vez estimado el
modelo
y = b*0 + b*1 z 1 + + b*p z p + e*
basta sustituir las componentes en funcin de las variables originales
k

z j = a 1 j x1 + a 2 j x2 + + a kj xk =

i=1

ij

xi xi
-------------s xi

para hallar los coeficientes estructurales del modelo original.

ANEXO I. ANLISIS EN
COMPONENTES PRINCIPALES

154

11.

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

Las componentes principales que se han determinado a partir de


la matriz de covarianzas S se pueden calcular usando la matriz de correlacin R. Esto es recomendable en los casos en los que las varianzas
de las distintas variables x1, x2, , xk varen mucho debido a las unidades de medida de cada una de estas variables.
Tambin se pueden hallar las componentes principales de la matriz
C = XX
siendo X la matriz de observaciones de las variables predeterminadas
de un modelo economtrico. Esta matriz est relacionada con la matriz de covarianzas de estas variables, pues es
1
S = --- XX xx,
n
siendo x el vector de medias de las variables originales.

12.

Una vez calculadas las componentes principales de un conjunto


de datos X, y seleccionadas las p primeras, z1, z2, , zp, es necesario
interpretar estas componentes, lo que no siempre es posible. Si se obtienen explicaciones exgenas de estas componentes se habr conseguido realmente reducir la dimensin de los datos originales. Para
ello hay que basarse en primer lugar en los coeficientes de cada componente
z 1 = a 11 x1 + a 21 x2 + + a k1 xk
z 2 = a 12 x1 + a 22 x2 + + a k2 xk

z p = a 1p x1 + a 2p x2 + + a kp xk .
Si un grupo de valores aij es claramente distinto de cero en una
componente, la interpretacin de sta estar ligada a las variables x
correspondientes.
Tambin se suelen representar los coeficientes asociados a las dos
primeras
a
a
a
11
21
k1

a 12
a 22
a k2
componentes, sobre unos ejes coordenados, y los coeficientes de las
componentes primera y tercera, y segunda y tercera, y as sucesivamente, pues
a ij = Corr ( z i , x j ).

13.

Para interpretar las p primeras componentes principales se emplean unas tcnicas auxiliares de rotacin de estas p componentes

multiplicndose la matriz Zp por una matriz R que define la rotacin,


as se obtiene
A R = X
B.
Z = Z R = X
p*

Existen varios mtodos de rotacin; el ms usual es el varimax,


que es de tipo ortogonal, o sea que preserva las distancias. La idea de
la rotacin varimax es conseguir asociar unos pesos en la matriz B a
algunas de las variables y otros a otras de manera que las nuevas componentes (que son distintas de las componentes principales) sean ms
fcilmente interpretables. Otro tipo de rotaciones no son ortogonales,
obtenindose componentes que estn correladas entre s.

Ejemplo 7. Redundancia en la Contabilidad Nacional de Espaa

Los datos de la Contabilidad Nacional de Espaa de 196478 estudiados por J. M. Caridad y A. Baigorri (1982) de las series
x1 = Consumo privado interior
x2 = Consumo pblico
x3 = Formacin bruta de capital
x4 = Exportaciones de bienes y servicios
x5 = Importaciones de bienes y servicios
x6 = PIB al coste de los factores: sector agrario y pesquero
x7 = PIB al coste de los factores: sector industrial
x8 = PIB al coste de los factores: sector servicios

1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978

x1

x2

x3

x4

x5

x6

x7

x8

1300
1394
1494
1565
1660
1774
1859
1961
2115
2281
2404
2424
2529
2576
2650

182
189
192
196
200
208
219
229
246
258
280
294
310
310
339

402
471
528
529
564
657
649
637
736
827
912
880
868
825
789

98
102
122
124
157
192
227
257
301
332
358
357
409
448
498

174
233
278
269
290
337
360
361
450
524
570
564
621
587
582

257
242
256
267
267
272
270
300
301
312
336
335
351
335
353

567
633
701
736
804
900
956
1000
1135
1252
1325
1320
1336
1372
1394

847
891
940
987
1043
1128
1186
1306
1327
1420
1500
1558
1621
1689
1756

155
ANEXO I. ANLISIS EN
COMPONENTES PRINCIPALES

156
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

y se trata de estudiar las interralaciones de las series de la Contabilidad


Nacional para reducir la dimensin de las mismas a unos ndices de desarrollo y coyuntura. (En pesetas constantes de 1970.)
Como todos los datos estn medidos en la misma unidad (miles de millones de pesetas de 1970) el anlisis en componentes principales se realizar sobre la matriz de covarianzas S cuyos elementos son
s x21 = 19 723,8

s x1 x2 = 21 713,9

s x1 x5 = 63 992,4 s x1 x6 = 15 870,8

s x1 x3 = 66 313,5

s x1 x4 = 56 056,4

s x1 x7 = 125 927,7 s x1 x8 = 129 491,3

s x22 = 2512,52

s x2 x3 = 6941,96

s x2 x4 = 6310,12

s x2 x6 = 1789,36

s x2 x7 = 13 630,7

s x2 x8 = 14 429,2

s x23 = 24 674,6

s x3 x4 = 18 004,0

s x3 x5 = 22 264,3 s x3 x6 = 5265,86

s x3 x7 = 43 381,4

s x3 x8 = 42 369,1

s x24 = 16 313,2

s x4 x5 = 17 903,6 s x4 x6 = 4523,70

s x2 x5 = 7000,18

s x4 x7 = 35 448,2

s x4 x8 = 37 178,3
s x25 = 21 209,3

s x5 x6 = 5144,16 s x5 x7 = 41 022,6 s x5 x8 = 41 484,5

s x26

= 1344,73

s x6 x7 = 10 052,0

s x27

= 81 034,2

s x7 x8 = 82 095,6

s x28

= 85 778,3

s x6 x8 = 10 467,7

en lugar de hacerlo sobre la matriz de correlacin

R =

1 0,98 0,95 0,99 0,99 0,97 0,99 0,99


0,98
1 0,88 0,98 0,96 0,97 0,95 0,98
0,95 0,88
1 0,90 0,97 0,91 0,97 0,92
0,99 0,98 0,99
1 0,96 0,97 0,97 0,99
0,99 0,96 0,97 0,96
1 0,96 0,99 0,97
0,97 0,97 0,91 0,97 0,96
1 0,96 0,97
0,99 0,95 0,97 0,97 0,99 0,96
1 0,98
0,99 0,98 0,92 0,99 0,97 0,97 0,98
1

2
1
0
1
2
64656667686970 71
72737475

76 7778

en la que se aprecia un alto grado de multicolinealidad entre estas 8 variables macroeconmicas, lo que hace prever que se conseguir una reduccin de dimensin.
El grfico de los datos tipificados muestra la relacin multicolineal anterior de forma clara.
Las componentes principales estimadas son dos, y explican el 99,82%
de la variabilidad de las ocho variables de la Contabilidad Nacional, pues
los autovalores de la matriz de covarianzas S son

157

1 = 455 787

2 = 4298,75

3 = 419,062

4 = 231,024

5 = 72,8127

6 = 61,8502

7 = 28,1741

8 = 19,6866

por lo que
8

r 22 = ( 1 + 2 )/ i = 0,9982.
i=1

Incluso el primer factor explica el 98,8% de la varianza agregada de las variables originales. Para cada una de las variables x1, x2, , x8, la comunalidad es el coeficiente de determinacin del modelo
x j = b j0 + b j1 z 1 + b j2 z 2 + e j
en el que b j0 = x j y
Variable

x2

x1

x3

Comunalidad 0,999 0,973

0,98

x4

x5

x6

x7

x8

0,994 0,988 0,951 0,998 0,999

por lo que los dos factores estimados explican la prctica totalidad de la


variabilidad de los datos originales.
Los coeficientes de las componentes principales (bj1 y bj2 para j = 1,
2, , 8) aparecen en la tabla siguiente:
bj1
x1
x2
x3
x4

bj2

bj1

459,720 6,387
50,479 8,468
155,57
47,830
130,394 19,427

x5
x6
x7
x8

bj2

149,133 15,055
36,952 2,272
293,795 18,817
301,443 30,582

siendo
8

b j12 = 1 = 455 787,

j=1

b j22

= 2 = 4298,75.

j=1

El primer componente principal tiene unos valores bj1, j = 1, 2 ,, 8


grandes para todas las variables, y se puede interpretar como un ndice
general de la actividad econmica. El segundo componente, que aporta
poco en su capacidad predictiva, parece asociado a la variable x3 (formacin bruta de capital), aunque no de forma clara, y a la coyuntura econmica, pues sus descensos corresponden a los perodos de recesin en
Espaa.
Por ejemplo, los dos primeros componentes permiten calcular los valores de x1 de forma precisa:
8

x1 = x1 +

b j1 z j

j=1

= 1999,07 + 459,72z 1 6,387z 2 + e 1 .

ANEXO I. ANLISIS EN
COMPONENTES PRINCIPALES

158

Los valores obtenidos para los factores se obtienen a partir de las expresiones

PROBLEMAS EN LA ESTIMACIN DE
MODELOS

z j = a 1 j x1 + a 2 j x2 + a 3 j x3 + a 4 j x4 + a 5 j x5 + a 6 j x6 + a 7 j x7 + a 8 j x8 =
x 1 1999,07
x 2 243,47
- + a 2 j --------------------------- + a3 j
= a 1 j -----------------------------459,8025
51,8843
x 4 265,47
x 5 + 413,33
- + a 5 j --------------------------- + a6 j
+ a 4 j --------------------------132,206
150,7456
x 7 1028,73
x 8 1279,93
- + a 8 j ------------------------------,
+ a 7 j -----------------------------294,6563
303,159

x 3 684,93
---------------------------+
162,5948
x 6 296,93
---------------------------+
37,9576

siendo

x1
x2
x3
x4
x5
x6
x7
x8

a1j

a2j

a3j

a4j

0,464
0,006
0,055
0,038
0,049
0,003
0,190
0,201

0,683
0,102
1,809
0,597
0,528
0,020
1,290
2,157

2,021
0,860
0,027
0,219
5,564
0,314
7,434
1,452

a5j

a6j

a7j

a8j

2,996 31,09 7,380 34,620 2,212


0,043 1,697 1,636 1,282 9,825
3,932 6,710 0,333 11,865 2,718
4,631 9,442 0,495 8,232 9,828
1,657 0,069 5,649 12,510 4,666
0,422 0,450 4,209 1,751 2,811
7,151 3,747 3,236 28,05 14,99
12,277 9,521 9,956 13,34 2,664

Con estos coeficientes se calculan los valores de las componentes principales correspondientes a los aos 196478, resultando
2
z2

74
73

69
66

0
1

65

72
70

1964
1965
1966
1967
1968
1969
1970
1971

75
76

67 68

64

77

71

z1

1,522
1,312
1,093
0,969
0,763
0,472
0,296
0,077

0,990
0,203
0,285
0,044
0,020
0,689
0,208
0,906

1972
1973
1974
1975
1976
1977
1978

z1

z2

0,257
0,627
0,907
0,951
1,141
1,241
1,379

0,487
1,193
1,694
0,830
0,087
1,074
2,275

78

3
2

z1

2
1

z2

0
1

z1

2
3

64 65 66 67 68 69 70 71 72 73 74 75 76 77 78

A partir de la primera componente z1 se pueden estimar los valores de


las distintas variables originales, mediante los modelos
x j = b0 j + b1 j z1 + e j =
= x j + b1 j z1 + e j ,

j = 18,

lo que se deja como ejercicio para que el lector compruebe la capacidad


predictiva de z1 sobre todas las variables.

159

En el caso de calcular los coeficientes principales sobre la matriz de correlacin R (en lugar de sobre la matriz de covarianzas S), los dos primeros autovalores de R son

1 = 7,7579,

2 = 0,16893,

por lo que la capacidad predictiva de la primera componente principal es


r 12 = 7,7579/8 = 0,96974
y de las dos primeras
r 22 = ( 7,7579 + 0,1689 )/8 = 0,99085,
siendo los valores de z1 y z2

1964
1965
1966
1967
1968
1969
1970
1971

z1

z2

1,440
1,293
1,060
0,964
0,798
0,509
0,369
0,126

1,337
0,304
0,176
0,092
0,111
0,896
0,483
0,509

1972
1973
1974
1975
1976
1977
1978

z1

z2

0,222
0,586
0,948
0,976
1,220
1,201
0,407

0,480
1,240
1,450
0,711
0,106
0,805
2,394

y la interpretacin de la componente principal z1 es de nuevo la de un indicador general de la tendencia de la economa espaola. Al realizar el
clculo de las componentes sobre la matriz R, en realidad se han ponderado por igual las ocho variables originales, independientemente del valor absoluto de sus varianzas.

ANEXO I. ANLISIS EN
COMPONENTES PRINCIPALES

160
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

EJERCICIOS PROPUESTOS

1. Sea el modelo con retardos distribuidos siguiente


yt = + 0 xt + 1 xt 1 + 2 xt 2 + + 6 xt 6 + t
y si los coeficientes se pueden expresar mediante el polinomio de
retardos
j = 0 + 1 j + 2 j2 + 3 j3
con las restricciones en ambos lados

1 = 0,

7 = 0.

Formular el modelo con las variables auxiliares asociadas a este


polinomio de retardos, primero sin tener en cuenta las restricciones a ambos lados y posteriormente introduciendo stas. Considerar un modelo alternativo en el que los coeficientes j vayan
decreciendo exponencialmente y plantearlo realizando la transformacin de Koyck.
2. Para representar la funcin de ahorro (A) de una familia se usa el
modelo
A t = 0 + 1 R*t + 2 i*t + t ,
en el que R* es la renta esperada e i* el tipo de inters esperado. Las
expectativas de estas variables no observables se generan segn el
siguiente esquema
R*t = R t + ( 1 )R*t 1 ,

( 0, 1 ) ,

i*t = i*t + ( 1 )i*t 1 ,

( 0, 1 ).

Se dispone de datos de las variables observables Rt, it y At, y se trata de formular el modelo de ahorro que sea estimable a partir de
la informacin disponible. Interpretar desde un punto de vista
econmico el mecanismo de generacin de las expectativas y los
distintos coeficientes que aparecen en el modelo.
3. La economista norteamericana S. Almon (1967) estudi los siguientes datos correspondientes a gastos trimestrales presupuestados (X) y realizados (Y) en el sector industrial de los Estados
Unidos durante los aos 1953 a 1960.

Gastos presupuestados

161

Gastos realizados

EJERCICIOS PROPUESTOS

Ao

1953
1954
1955
1956
1957
1958
1959
1960
1961

1660
1695
2556
3912
3476
1511
2520
2725
2234

1926
1705
3152
3571
2993
1631
2804
2321
2282

2181
1731
3763
3199
2262
1990
2919
2131
2533

1897
2151
3903
3262
2011
1993
3024
2552
2517

2072
2062
1914
2614
3446
2697
2071
2639
2513

2077
2067
1991
2896
3466
2338
2192
2733
2448

2078
1964
2129
3058
3435
2140
2240
2721
2429

2043
1981
2309
3309
3183
2012
2412
2640
2516

Estimar los siguientes modelos alternativos para explicar los gastos realizados
yt = + 0 xt + 1 xt 1 + + 7 xt 1 + t
yt = 0 + 1 yt 1 + xt + t
usando en el primero polinomios de Almon de grado 3 directamente, y comparando los resultados obtenidos suponiendo que el
modelo con variable endgena retardada se ha obtenido considerando una estructura de retardos geomtricos en el primer modelo.
4. Como ampliacin de los datos trimestrales correspondientes al
ejemplo 3 anterior, se tiene para el perodo 196267:
Gastos presupuestados

Gastos realizados

Ao

1962
1963
1964
1965
1966
1967

2772
2629
3983
4870
6109
5412

2380
3133
4831
5344
6542
5465

2568
3449
4786
5433
5785
5550

2944
3764
4094
5911
5707
5465

2564
2601
3136
4093
5160
5715

2494
2648
3299
4262
5319
5637

2596
2840
3514
4531
5574
5383

2572
2937
3815
4825
5749
5467

Con los modelos obtenidos en el ejercicio anterior y usando los datos de gastos presupuestados para el perodo 196267, realizar las
previsiones de gastos realizados en este perodo con los tres modelos estimados y calcular el error cuadrtico medio de prediccin, as como el ndice U de Theil y su descomposicin.
5. Usando los datos de los ejercicios 3 y 4 anteriores, estimar los modelos planteados en el primero y contrastar si los modelos estima-

162
PROBLEMAS EN LA ESTIMACIN DE
MODELOS

dos para el perodo 195361 difieren significativamente de los


modelos correspondientes al intervalo 196267.
6. En el siguiente modelo con variables retardadas
y t = 0 + 1 y t 1 + 2 y t 2 + + 10 y t n
+ 0 xt + 1 xt 1 + + 8 xt 8 + t
se consideran varias alternativas: los coeficientes 1, 2, , 10 se
ajustan o bien a un esquema de Almon de grado 2, o bien los coeficientes 0, 1, , 8 lo hacen a otro esquema geomtrico. Formular los correspondientes modelos y obtener unas expresiones
simples suponiendo que en el caso de retardos geomtricos stos
se pueden aproximar mediante un esquema de infinitos retardos.
7. Utilizar el mtodo de las componentes principales de las variables
xt, xt 1, , xt 7 con los datos de los ejemplos 3 y 4 anteriores para
estimar el modelo
yt = + 0 xt + 1 xt 1 + + 7 xt 7 + t
y comparar los resultados con la estimacin directa y la obtenida
aplicando el mtodo de Almon.

5
El modelo lineal general

5.1 INTRODUCCIN AL PROCESO DE MODELIZACIN


1.

El modelo lineal general


y t = 0 + 1 x 1t + 2 x 2t + + k x kt + t

t = 1n

se ha estudiado suponiendo que las perturbaciones aleatorias cumplen las siguientes hiptesis a priori
H.1:

E( t) = 0

t = 1n

H.2:

V ( t) =

t = 1n

H.3:

E( t t) = 0

t t = 1n

H.4:

t N(0; 2)

t = 1n

s 2

El mtodo de mnimos cuadrados proporciona, en estas condiciones,


los mejores estimadores insesgados de los coeficientes estructurales.
2.

En el caso de que la varianza de las perturbaciones no sea constante, el modelo est afectado de heterocedasticidad, y, si las perturbaciones no son incorreladas, el modelo tiene autocorrelacin. En
ambos casos el mtodo de mnimos cuadrados pierde sus buenas propiedades estadsticas y las estimaciones obtenidas con l no deben ser
utilizadas, siendo necesario usar el mtodo de mnimos cuadrados
generalizados que se tratar en el apartado siguiente.

163

164

3.

La heterocedasticidad de las perturbaciones aleatorias es un fenmeno muy frecuente tanto en modelos de corte transversal o estticos, como en modelos temporales o dinmicos. La autocorrelacin es
habitual en modelos dinmicos en los que tanto las variables del modelo como los perturbaciones son series temporales, y, en stas, lo
normal es que cada dato est relacionado con su pasado inmediato.
La presencia de autocorrelacin espacial es muy rara. La causa de esta
autocorrelacin est asociada a procesos de recogida de datos mediante encuestas que no siguen una ruta aleatoria.

4.

El proceso de estimacin de un modelo consta de varias etapas:

EL MODELO LINEAL GENERAL

especificacin o planteamiento del modelo,


estimacin de los coeficientes estructurales y
validacin o contrastes diagnsticos sobre los resultados de la estimacin.
En la ltima etapa, la validacin del modelo, se emplean distintas
tcnicas:
medidas del grado de ajuste,
tests sobre los coeficientes y
anlisis de residuos.
5.

El anlisis de los residuos sirve para comprobar si las perturbaciones aleatorias cumplen o no las hiptesis a priori, es decir, si existe heterocedasticidad y/o autocorrelacin, o si las perturbaciones se
ajustan a una ley Normal. Tambin se calculan los residuos para evaluar los errores cometidos al aplicar el modelo.
Los residuos del modelo tambin se emplean para detectar observaciones anormales o outliers, o bien datos que son especialmente influyentes aunque no puedan ser clasificados de anormales, ya que la
presencia de este tipo de datos puede afectar de forma fundamental a
las estimaciones del modelo y, por lo tanto, a la interpretacin econmica de los coeficientes estructurales. La primera causa que hay que
investigar al encontrar un dato anormal es el posible error cometido
al transcribir dicho dato desde la fuente original, e incluso una posible
errata en sta.

6.

Si al realizar el anlisis de residuos se detecta heterocedasticidad


o autocorrelacin, es preciso modificar el modelo original, es decir,
volver a la fase de especificacin y empezar de nuevo.
La heterocedasticidad es el problema ms frecuente cuando se elabora un modelo economtrico. La autocorrelacin es muy frecuente
cuando se estiman modelos dinmicos, y, a veces, va unida a la tendencia en varianza. La no Normalidad de las perturbaciones no suele
ser un problema grave, salvo si el tamao muestral n es pequeo.
En el siguiente esquema se representa este proceso de especificacin-estimacin-contrastacin.

165
ESPECIFICACIN:
Seleccin de las variables
predeterminadas y la forma funcional

5.1 INTRODUCCIN AL PROCESO


DE MODELIZACIN

ESTIMACIN:
De los coeficientes estructurales
y del coeficiente r2

VALIDACIN 1:
Aadir o eliminar variables
predeterminadas (Tests T)

VALIDACIN 2:
Anlisis de residuos
Deteccin de heterocedasticidad
Deteccin de autocorrelacin
Test de normalidad

TRANSFORMACIN del Modelo


Nueva especificacin

7.

Resumiendo lo dicho en los prrafos anteriores, la heterocedasticidad y la autocorrelacin se detectan a posteriori, o sea despus de
haber estimado el modelo mediante mnimos cuadrados y despus de
realizar los contrastes sobre los residuos del modelo estimado. Si existe heterocedasticidad y/o autocorrelacin, es necesario transformar
el modelo original en otro que cumpla todas las hiptesis a priori para
poder estimarlo aplicando el mtodo de mnimos cuadrados.

8.

En el caso de un modelo de regresin simple, es posible detectar la


heterocedasticidad y la autocorrelacin mediante un diagrama de
dispersin como en los grficos que se muestran al margen; en el primero se considera un conjunto de puntos

100

200

300

400

500

600

100

200

300

400

500

600

t = 1, 2, , n,

que al ser representados muestran una tendencia en varianza o heterocedasticidad, y en el segundo los datos estn autocorrelados, ya que
los residuos positivos tienden a ser seguidos por residuos positivos,
y los residuos negativos son seguidos preferentemente por residuos
negativos. La tendencia en varianza ms frecuente suele ser creciente,
y habitualmente se elimina transformando la variable endgena Y. En
la prctica se emplea la familia de transformaciones de Box-Cox
(1964), que consiste en modelizar las variables
y t( 1
y t( = ---------------

YY

( xt , yt )

INTERPRETACIN Y PREDICCIN

eligiendo adecuadamente el valor de . Por ejemplo, si es = 0 se tiene

166
EL MODELO LINEAL GENERAL

y t( = ln y t .
9.

La no verificacin de las hiptesis de homocedasticidad V ( t2 ) =


para todo t = 1, 2, , n o la de no existencia de autocorrelacin,
E ( t t ) = 0, si t t , tienen unas consecuencias directas sobre el modelo estimado. Los estimadores mnimo-cuadrticos siguen siendo
insesgados, E(b) = , si en el modelo no aparece como explicativa la
variable endgena retardada, en cuyo caso E ( b )  . Adems, la varianza de estos estimadores no es mnima, por lo que los estimadores
b no son eficientes, y es necesario usar otro mtodo de estimacin (el
de mnimos cuadrados generalizados) para disponer de estimadores
eficientes. Por ltimo, no son aplicables los tests T y F sobre los coeficientes del modelo y, por tanto, tampoco son eficientes las predicciones obtenidas.

10.

En resumen, deja de ser vlido el teorema de Gauss-Markov, y no


es posible usar ni las estimaciones obtenidas por mnimos cuadrados
ordinarios ni los contrastes T de ayuda a la especificacin del modelo.
5.2 EL MTODO DE AITKEN O DE MNIMOS CUADRADOS
GENERALIZADOS

11.

El modelo lineal tratado en notacin matricial es


y = X  + ,
y las hiptesis a priori sobre las perturbaciones se expresan suponiendo que
N(0 n ; 2 I n).
Si existe heterocedasticidad o autocorrelacin, la matriz de covarianzas de , en lugar de ser 2 In, ser

21 1 2 1 n
V ( ) =

1 2 22 2 n

1 n 2 n 2n

11 12 1n
= 2

12 22 2n

1n 2n nn

en la que 2 es una constante positiva (desconocida) y

i j = 2 ij

i, j = 1n.

= 2 ,

Por esta razn, a continuacin se desarrollar un procedimiento de


estimacin en el que se supone
N(0 n , 2 ).
12.

Por ejemplo, si slo existe heterocedasticidad, la matriz de covarianzas del vector de perturbaciones ser

21 0 0
V ( ) =

0

0

22

11 0 0

0 22 0

= 2

  
0 2n

= 2 ,


0 0 nn

y si slo existe autocorrelacin, pero no tendencia en varianza, ser

2 1 2 1 n
V ( ) =

1 2

2 n

1 12 1n
= 2


1 n 2 n 2

12 1 2n

1n 2n 1

= 2 ,

siendo la matriz de correlacin de .


13.

En modelos con heterocedasticidad y/o autocorrelacin, al no ser


aplicable el mtodo de mnimos cuadrados para estimar los coeficientes estructurales, es necesario transformar el modelo original
y = X +

N(0 n ; 2 )

en otro modelo con los mismos coeficientes estructurales


y* = X*  + *,

(5.1)

y en el que, para poder estimar  por mnimos cuadrados, las perturbaciones aleatorias cumplan las hiptesis a priori, es decir, que
* N (0 n ; 2 I n).
El proceso de estimar  transformando el modelo original en el modelo (5.1) se denomina mtodo de Aitken o de mnimos cuadrados generalizados.
14.

La transformacin para obtener el modelo (5.1) se realiza con la


matriz diagonalizadora de la matriz . Al igual que cualquier matriz

167
5.2 EL MTODO DE AITKEN O DE
MNIMOS CUADRADOS
GENERALIZADOS

de covarianzas, es simtrica y semidefinida positiva, y existe una


matriz ortogonal H de dimensin (n, n) diagonalizadora de , tal que

168
EL MODELO LINEAL GENERAL

H H = I n .
La matriz H se construye a partir de los n autovectores,
h 1 , h 2 , , h n ,
de normalizados, que verifican
hi h j = 0

ij

hi h j = 1

i = 1n.

La traspuesta de H es
H = [ h 1 h 2 h n ] ( ) 0,5
y es la matriz diagonal de los autovalores de :

1 0 0

0 2 0 .

0 0 n

As, el modelo original se transforma multiplicndolo por H


y* = Hy = HX  + H = X*  + *.
15.

Las perturbaciones aleatorias del nuevo modelo cumplen las hiptesis a priori, ya que:
E( *) = HE ( ) = 0 n
V ( *) = HV ( )H = 2 H H = 2 I n
* = H N(0 n ; 2 I n),
por lo que se puede aplicar el mtodo de mnimos cuadrados ordinario al modelo transformado, resultando
b = ( X 1 X ) 1 X 1 y,
ya que
b = ( X*X* ) 1 X* 1 y* = ( XHHX ) 1 XHHy,

y como H H = In y H es ortogonal, resulta que HH = 1, lo que


completa la deduccin de la expresin del estimador de Aitken b.
16.

Los residuos del modelo transformado e* = y* X*b se utilizan


para estimar la varianza 2 de las perturbaciones del modelo transformado
2
s e*

1
= --------------------nk1

e*
i

i=1

1
= --------------------- e*e* =
nk1

1
1
= --------------------- eHHe = --------------------- e 1 e
nk1
nk1
Los residuos del modelo original, o residuos estructurales, son
e = y Xb
y, no son iguales a los que se obtienen aplicando al modelo original el
mtodo de mnimos cuadrados.
17.

El teorema de Gauss-Markov establece que los estimadores obtenidos por el mtodo de mnimos cuadrados generalizados o de Aitken son los mejores estimadores lineales insesgados de . En el caso
que no exista heterocedasticidad ni autocorrelacin, = In y los resultados obtenidos con el mtodo de Aitken coinciden con los obtenidos por mnimos cuadrados ordinarios.

18.

Aunque los estimadores de mnimos cuadrados generalizados resuelven en teora el problema de la heterocedasticidad o el de la autocorrelacin, en la prctica no es as, pues para determinar la matriz H
que define la transformacin de Aitken es necesario conocer numricamente la matriz , situacin sta que no se da nunca.

19.

La solucin al problema derivado de la presencia de heterocedasticidad o autocorrelacin est en la estimacin de a partir de los residuos e1, e2, , en obtenidos al aplicar el mtodo de mnimos

cuadrados ordinarios al modelo original. A partir de la estimacin


de esta matriz, se obtiene una estimacin de H que verifique

H
= I
H
n
para transformar el modelo original.

20.

Como la matriz tiene, en general, (n2 + n)/2 elementos distintos,


slo ser posible estimarla a partir de los n residuos si se imponen algunas restricciones adicionales, o sea si se construye un modelo auxiliar que permita explicar los elementos de . Estos problemas se
tratan en los apartados siguientes.

169
5.2 EL MTODO DE AITKEN O DE
MNIMOS CUADRADOS
GENERALIZADOS

5.3 MODELOS CON HETEROCEDASTICIDAD

170
EL MODELO LINEAL GENERAL

5.3.1 Introduccin
21.

El modelo lineal y = X + , en el que slo existe heterocedasticidad, puede transformarse fcilmente en otro en el que la varianza de
las perturbaciones sea constante, tomando como matriz H para realizar la transformacin de Aitken
1/ 1
H =

1/ 2

= 0,5


1/ n

o, alternativamente
0,5
11

H* = 0,5 =

0,5
22


0,5
nn

ya que el modelo
y* = Hy = HX  + H = X*  + *
tiene como matriz de covarianzas
V ( *) = HV ( )H = I n ,
o bien, si se usa la matriz H* para la transformacin,
V ( ) = 2 I n .
22.

En notacin analtica, el modelo


y i = 0 + 1 x 1i + + k x ki + i

i = 1n,

da, al transformarse, lugar a


x1
xk
y

1
y i* = -----i- = 0 ------ + 1 ------i + + k ------i + -----i- =
i
i
i i
i
= 0 x 0* i + 1 x 1* i + + k x k*i + e i*
y la varianza de las perturbaciones es

1
V ( i*) = ------2 V ( i) = 1
i

i = 1n,

es decir, el modelo no tiene heterocedasticidad. Ntese que el modelo


transformado no tiene ordenada en el origen.
Si en lugar de dividir el modelo por i se hace por ii0,5, la varianza comn de las perturbaciones i* ser 2.
23.

Al aplicar el mtodo de mnimos cuadrados en el modelo transformado, se obtienen los estimadores de Aitken de los coeficientes; la
transformacin aplicada ha consistido en multiplicar todos los elementos del modelo por la variable

i = 1/ i

i = 1/ ii

o bien

por lo que este mtodo de mnimos cuadrados generalizados, al aplicarse al modelo, se denomina mnimos cuadrados ponderados, y tiene
una variable de ponderacin i, i = 1, 2, , n.
24.

Como se seal al aplicar el mtodo de Aitken, la matriz de covarianzas de las perturbaciones, 2 , es desconocida, por lo que no ser
posible aplicar esta transformacin si previamente no se estima la matriz , para lo cual es preciso estimar numricamente las n varianzas

2i = 2 ii

i = 1n,

es decir, es preciso modelizar la heterocedasticidad del modelo. Esta


cuestin se tratar en el apartado siguiente.
5.3.2 Modelos para representar la heterocedasticidad
25.

En el caso ms general de heterocedasticidad, en el que las n varianzas 2i se agrupan en el vector


i

 =  ,
2
n
un estimador propuesto por Rao (1970) es
= M * 1 e * ,

siendo M * = m ij2 la matriz obtenida a partir de la matriz idempotente
M = I n X(XX) 1 X = m ij

171
5.3 MODELOS CON
HETEROCEDASTICIDAD

172

tomando como elementos propios los de M elevados al cuadrado, y

EL MODELO LINEAL GENERAL


2

e1
e 2
2
e* =


e 2
n

el vector de los residuos al cuadrado del modelo original y = Xb + e


estimado por mnimos cuadrados ordinarios.
26.

En la prctica, los estimadores anteriores de la heterocedasticidad


no suelen emplearse, pues son inconsistentes: al aumentar el tamao
muestral no se incrementa la precisin, ya que tambin crece el nmero de varianzas a estimar. Tambin producen, a veces, estimaciones
negativas para alguna de las varianzas de las perturbaciones. No obstante, la matriz H = X(XX)1X es importante en el proceso de deteccin de observaciones influyentes.

27.

En el proceso de estimacin de la heterocedasticidad se proceder


en tres etapas:
en la primera se aplicar el mtodo de mnimos cuadrados ordinarios para estimar el modelo original (ya que antes de estimar este
modelo se desconoce si existe o no heterocedasticidad);
en la segunda etapa, utilizando los residuos e1, e2, , en hallados
en el ajuste inicial, se tratar de modelizar la tendencia en varianza, o sea los n valores e2i, i = 1, 2, , n;
en la ltima etapa, y usando las estimaciones i , i = 1, 2, , n, o
ii , i = 1, 2, , n, se realizar la transformacin de Aitken y
bien
se estimar por mnimos cuadrados ordinarios el modelo auxiliar
y* = X* + *.

28.

La construccin de un modelo para la heterocedasticidad, correspondiente a la segunda etapa anterior, constituye un problema abierto, y al que no se puede dar una solucin general. No obstante, en la
prctica es muy frecuente que sea admisible un modelo de la forma
2 + + x2 +
e i2 = 0 + 1 x 1i + 2 x 2i + + k x ki + 11 x 1i
kk k i

+ 12 x 1i + x 2i + + k 1k x k 1i x k i + i** =
k

= 0 +

x +
j ji

j=1

j=1

2
jj x j i

j < j

jj x j i x ji

+ i** .

En este modelo se basa el test de White. Las variables explicativas


propuestas para representar la tendencia en varianza son todas las
predeterminadas, sus cuadrados y sus interacciones de primer orden,
y no todas stas deben influir significativamente en e2i . El estimador
de la varianza de i es el obtenido con el modelo de White

2i = 0 +

j x ji +

j=1

j=1

29.

j 1

jj x j2i +

173

jj x ji x ji .

5.3 MODELOS CON


HETEROCEDASTICIDAD

j = 1 j = 2

Otros modelos para la heterocedasticidad proponen estimar estas


varianzas a partir de una o de varias de las variables z1, z2, , zr de las
que se dispone informacin numrica mediante el modelo
2
i = f (z 1i , z 2i , , z ri) + i**

i = 1n.

Estas variables z1, z2, , zr pueden ser parte o la totalidad de las variables que intervienen en el modelo original, u otras que han sido excluidas en el proceso de especificacin, o bien otras distintas. Se suele
elegir una forma funcional f(z) lineal, aunque no necesariamente.
30.

Algunos modelos habituales simples, o sea aquellos en los que se


presupone que la heterocedasticidad depende de una sola variable,
son

2i = z i2 + i**
2i = 0 + 1 z i + i**
i = 0 + 1 z i + i** .
31.

Al calcular cualquiera de los modelos anteriores y para aplicar la


transformacin de Aitken, se toma la estimacin de la varianza de i

2i = f (z 1i , z 2i , , z ri)

i = 1n,

y a partir de sta se estima el modelo transformado.


5.3.3 Contrastes para detectar la heterocedasticidad
32.

La deteccin de la tendencia en varianza se realiza una vez concluida la primera etapa de estimacin del modelo original (por mnimos cuadrados ordinarios) y calculados sus residuos e = y Xb.

33.

Un primer mtodo de deteccin, ya estudiado en el captulo anterior, es de tipo grfico, y representa las n parejas de datos
( y i , e i )

i = 1n.

Este grfico de residuos puede ser suficiente para detectar si existe


heterocedasticidad y la forma que adopta. Por ejemplo, los diagramas
de dispersin que se muestran al margen son ilustrativos de diferentes tipos de tendencia en varianza.

174

34.

EL MODELO LINEAL GENERAL

No obstante, a veces no es fcil detectar la heterocedasticidad de


forma grfica y es preciso recurrir a algunos contrastes de hiptesis
que pueden clasificarse en dos categoras:
contrastes generales de heterocedasticidad, como el test de White,
que tratan de detectar tendencias en varianza de cualquier tipo, y
contrastes especficos para algunos tipos de heterocedasticidad,
en los que se persigue asociar la heterocedasticidad a algunas variables explicativas.

35.

El test de White se usa para contrastar las hiptesis


H 0 : 2i = cte.

i = 1n,

H 1 : 2i = f (x 1i , , x ki)
siendo el modelo de heterocedasticidad
k

2i

= f (x 1i , , x k i) = 0 +

x +
j ji

2
jj x j i

j=1

j=1

j < j

jj x j i x ji

+ i** .

Cabe considerar que este test es general, ya que si existe heterocedasticidad, lo ms probable es que pueda ser explicada por el modelo anterior.
El estadstico del test de White, y su distribucin muestral asinttica si H0 es cierta, es

2 ( [ k + 2 ] [ k + 1 ]/2 1 ),

P = nr *2

siendo r*2 el coeficiente de determinacin del modelo que representa


la heterocedasticidad
k

e i2 = 0 +

j x ji +

j=1

j=1

2
jj x j i

a
j<j

jj x j i x ji

+ i** = 2i + i** .

Si r*2 toma un valor grande, ello es indicativo de que la variabilidad


del cuadrado de los residuos se puede explicar con las variables predeterminadas, o sea que existe heterocedasticidad. La regin de aceptacin de H0 corresponder a valores pequeos de P; esto significa
que a nivel es
C 0 = ( 0, 2 )

f (x)

y la regin crtica es
1

C 1 = ( 2 , + ).
x

C0

C1

Por esta razn, si P C 0 , se acepta que no existe heterocedasticidad,


y, si P > 2 , entonces se acepta que s existe, a nivel .

175

En el caso de que exista heterocedasticidad, se puede usar el mismo modelo de White para realizar la transformacin de Aitken.
36.

El test de Goldfeld-Quandt se basa en la capacidad de reordenar


las observaciones de manera que su variabilidad sea creciente. Por
ejemplo, si se representan grficamente los residuos respecto de los
valores estimados, la tendencia en varianza tiene la forma que se indica en el grfico representado al margen. Los datos utilizados para
estimar el modelo se ordenan de manera que los valores estimados
aparezcan ordenados de forma creciente:
y (1) y (2) y ( n )
As, los datos
( y i , x 1i , x 2i , , x k i )

i = 1n

se dividen en tres subconjuntos; el primero incluye las (n c)/2 observaciones correspondientes a los (n c)2 primeros valores y ( i ) , el segundo incluye los c casos asociados a los c valores centrales de y ( i ) , y
el ltimo los (n c)/2 datos correspondientes a los (n c)/2 mayores
datos y ( i ) .
Con los (n c)/2 datos del primer conjunto se estima el modelo
y = 0 + 1 x1 + + k xk + ,
y su suma de cuadrados residual es S1; con los (n c)/2 datos del ltimo conjunto se procede de igual forma y la suma de cuadrados residual de este modelo es S2.
Las hiptesis a contrastar son
H 0 : 2i = cte.
H 1 : 2i = f (x 1 , , x k)

i = 1n

y el estadstico de Goldfeld-Quant, y su distribucin asinttica, si H0


es cierta, es
GQ = S 2 /S 1 F [ ( n c )/2 k 1, ( n c )/2 k 1 ]
Si no existe heterocedasticidad cabe esperar que S1 y S2 sean del
mismo orden, o sea que GQ tome valores pequeos, mientras que si
se verifica H1, ser S2 mayor que S1 y GQ tomar valores grandes. La
regin de aceptacin de H0 a nivel es
C 0 = ( 0, F )
y si GQ > F, se acepta que existe heterocedasticidad creciente con y .
37.

Si la heterocedasticidad est causada por una determinada variable predeterminada x, o incluso por otra variable no incluida en el

5.3 MODELOS CON


HETEROCEDASTICIDAD

176

modelo, se ordenan los datos de manera que los valores de x estn de


forma creciente (si la tendencia en la varianza de los residuos crece
con x), y en esta ordenacin se estiman los dos modelos auxiliares anteriores usando los dos subconjuntos de (n c)/2 datos.

EL MODELO LINEAL GENERAL

Ejemplo 1.

Modelo con heterocedasticidad

Una empresa que inicia sus actividades genera en pesetas constantes un


cash-flow (y) anual; los gastos comerciales (x1) y el nivel de inventarios
(x2) se indican en las tablas siguientes:

x1

x2

x1

x2

972
1065
1138
1224
1181
1230
1327
1357
1344
1380

29,9
30,0
31,2
32,5
33,0
34,4
35,6
37,5
38,3
40,2

50
89
116
135
160
177
188
191
197
211

1728
1797
1873
2056
2287
2188
2213
2356
2690
2919

46,4
48,9
55,5
60,7
62,9
68,5
74,7
80,2
86,5
90,3

238
251
263
266
264
262
263
258
238
227

Se trata de estimar el modelo yt = 0 + 1x1t + 2x2t + t y estudiar la posible heterocedasticidad.


Si se realiza un grfico temporal de las tres variables tipificadas
yy
y 1716,25
y * = ------------ = ---------------------------sy
563,72
x1 x1
x 1 50,86
x 1* = --------------- = ----------------------s x1
19,652

x*1

x*2

se observa una clara variacin conjunta de yt con x1t y x2t, lo que se confirma al estimar el modelo

y*

0
1

y t = 187,24 + 25,68x 1 + 1,1x 2 + e t ,

2
3

x2 x2
x 2 202,2
- = ----------------------x 2* = --------------s x2
62,572

(16,1)
74

76 78

80 82 84

86 88

90 92

(2,2)

en el que todos los coeficientes son significativos.

177

Los grficos de residuos con respecto a los valores estimados y con


respecto al tiempo muestran una clara heterocedasticidad.
Los tests usuales tambin detectan la tendencia en varianza de la serie de
residuos et:
38,24
3,79
193,44

9,22
43,95
47,18

21,65
72,17
182,52

53,33
86,85
175,26

30,06
77,32
18,97

35,75
29,41
162,50

18,31
16,74

As el test de White consiste en estimar el modelo


e t2 = 0 + 1 x 1t + 2 x 2t + 11 x 12t + 12 x 1t x 2t + 22 x 22t + e t* =
= 106 195 4148,5x 1t 234x 2t + 16x 12t 0,027x 22t + 10,18x 1t x 2t + e t* ,
cuyo coeficiente de determinacin es r2 = 0,4346, por lo que el estadstico
de White es
P = nr 2 = 20 0,4346 = 8,692.
La regin de aceptacin de nivel es C0 = (0, 2), siendo los grados de
libertad
( k + 1 ) ( k + 2 )/2 1 = 5,
y es 20,05 = 1,145, por lo que P C0 y se admite la hiptesis de existencia
de heterocedasticidad.
Para modelizar la heterocedasticidad consideramos unos modelos
simples como
e t2 = 11924,5 + 379,6x 1t + 2,964x 2t + e t* ,
o bien
e t = 34,75 + 1,686x 1t + 0,073x 2t + e t* .
En ambos casos el coeficiente de x1 es significativamente distinto de
cero, mientras que el de x2 no lo es, por lo que parece que la heterocedasticidad depende de x1; este extremo puede comprobarse con el test de
Goldfeld-Quandt, formulado para las hiptesis
H 0 : 2t = 2
H 1 : 2t = f (x 1t)

t = 1 20.

Es preciso ordenar los n = 20 datos de la variable x1 en orden creciente,


aunque en este caso los datos ya vienen ordenados por orden creciente de
x1; se toman varios datos centrales, por ejemplo c = 4, y los dos conjuntos
de datos resultantes corresponden a los ocho primeros y a los ocho ltimos datos. Los dos modelos estimados en estos conjuntos son
y t = 319,5 + 20,33x 1 + 1,42x 2 + 1t
y t = 4390,7 + 13,1x 1 11,85x 2 + e 2t,

5.3 MODELOS CON


HETEROCEDASTICIDAD
200
100

et
0
100
200
74 76 78 80 82 84 86 88 90 92

178
EL MODELO LINEAL GENERAL

y sus sumas de cuadrados residuales son


S e2 = 7122,66 = S 1 ,

S et = 60661,4 = S 2 ,

siendo el estadstico de Goldfeld-Quandt


GQ = 60661,4/7122,66 = 8,52,
y debe compararse ste con el cuantil
F 0,05(5,5) = 5,05,
por lo que se sigue admitiendo la existencia de heterocedasticidad asociada a la variable x1. Despus de probar varios modelos para la heterocedasticidad, se selecciona el siguiente
e t = 28,507 + 1,855x 1t + e t** = e t + e t** ,
que da origen a los siguientes valores de e t
26,95 27,14
46,06 57,56
131,94 138,99

29,37
62,20

31,78
74,44

32,70
84,08

35,30
88,17

37,53 41,05 42,53


98,55 110,05 120,25

La transformacin del modelo original para aplicar el mtodo de Aitken


consiste en dividir ste por e t , o sea estimar el modelo
x1
x2
y
1
y t* = ------t = 0 ------ + 1 ------t + 2 ------t + e t* ,
e t
e t
e t
e t
y resulta el modelo estrella estimado
y t* = 177,83x 0* t + 25,475x 1* t + 1,2016x 2* t + e t* ,
(4,02)

(14,8)

(4,16)

por lo que la estimacin final para el modelo original es


y t = 177,83 + 25,475x 1t + 1,2016x 2t + e't .
Los residuos et de este modelo se obtienen por diferencia:
27,60
5,63
189,60

15,99
46,22
49,66

25,98
75,44
183,80

56,03
82,17
174,80

29,75
71,86
22,64

y
1
s e2 = -----20

20

et2

t=1

= 7600,54

36,84
34,69
168,05

16,38
12,24

179

por lo que el coeficiente de determinacin del modelo final es r2 = 0,978.


Ntese que los coeficientes obtenidos al aplicar el mtodo de Aitken o
de mnimos cuadrados generalizados son distintos de los obtenidos al comienzo de este ejemplo aplicando el mtodo de mnimos cuadrados ordinarios sin tener en cuenta la heterocedasticidad. Es necesario usar estos
ltimos coeficientes.

5.4 MODELOS CON AUTOCORRELACIN


5.4.1 Introduccin
38.

En un modelo con autocorrelacin (y sin heterocedasticidad) la


matriz de covarianzas de las perturbaciones es de la forma

1 12 1n
V ( ) = 2 = 2 12 1 2n

1n 2n 1

= 2 R,

en la que = R es la matriz de correlacin de las n perturbaciones


aleatorias. Para aplicar el mtodo de Aitken es preciso estimar estas
correlaciones, lo que no resulta complejo en la prctica, teniendo en
cuenta que la serie e t , t = 1, 2, , n es estacionaria y que se puede representar mediante un modelo ARMA(p, q) de la forma

t = 1 t 1 + + p t p + ( a t 1 a t 1 q a t q ),
en el que

1 , 2 , , p , 1 , 2 , , q
son coeficientes a estimar, y at es una variable aleatoria que verifica
las hiptesis a priori
E(a t) = 0, t = 1n V (a t) = a2 , t = 1n Cov ( a t , a t ) = 0 t t,
o sea que no tiene estructura probabilstica de autocorrelacin, ni heterocedasticidad, ni tendencia en media.
39.

En los captulos relativos a series temporales se justificar que el


tipo de modelo adecuado para una serie estacionaria, o sea sin tendencia en media ni en variabilidad, se puede ajustar con un modelo
ARMA. La serie de residuos

5.4 MODELOS CON


AUTOCORRELACIN

180

e 1 , e 2 , , e n

EL MODELO LINEAL GENERAL

de un modelo economtrico dinmico constituye una serie temporal


de tipo estacionaria (si no existe heterocedasticidad).
40.

Los modelos ms simples de tipo ARMA son:


el modelo AR(1) = ARMA(1, 0) o de Markov

t = t 1 + a t ,
en el que cada perturbacin t depende de la inmediatamente anterior ms un choque aleatorio at.
el modelo AR(2) = ARMA(2, 0) o de Yule

t = 1 t 1 + 2 t 2 + at .
el modelo MA(1) = ARMA(0, 1)

t = at at 1 .
Estos modelos ARMA constan de dos partes: la autorregresiva, en
la que depende de su pasado prximo, y la de medias mviles, que
refleja la influencia de los choques aleatorios at, at 1, , at q. La serie
at, t = 1, 2, , n se denomina ruido blanco. Se puede demostrar que el
coeficiente de correlacin de una serie estacionaria t con un valor pasado t k
k = Corr ( t , t k)
es igual para cualquier valor de t, o sea que slo depende de la amplitud del intervalo temporal (t k, t), y por lo tanto las correlaciones de
la matriz = R son
ij = Corr ( i , j) = i j ,
lo que simplifica la estructura de la matriz a estimar.
5.4.2 Modelos bsicos para la autocorrelacin: propiedades
41.

En el modelo de Markov o AR(1), t = t 1 + at, las correlaciones


anteriores son:
1 = Corr ( t , t 1) =

2 = Corr ( t , t 2) = 2
3 = Corr ( t , t 3) = 3

por lo que el coeficiente debe estar comprendido en el intervalo


[ 1; + 1]. Para comprobar lo anterior basta hallar, por ejemplo,

Cov ( t , t 1) = E( t t 1) = E [ ( t 1 + a t ) t 1 ] = E( t2 1 ) = 2 ,
pues at no est relacionado con t 1, y
Corr ( t , t 1) = 2 / 2 = ,
y anlogamente se calculan las restantes correlaciones.
La matriz de correlacin de un modelo AR(1) es


n 1 n 2 n 3

42.

n 1
n 2

1

= R.

El modelo de Yule o AR(2), que tambin ser estudiado en los captulos dedicados a series temporales, las correlaciones

k = Corr ( t , t k)
del modelo

t = 1 t 1 + 2 t 2 + at
son

1 = Corr ( t , t 1) = 1 / ( 1 2 )
2 = Corr ( t , t 2) = 2 + 12 / ( 1 2 )
k = 1 k 1 + 2 k 2

k = 3, 4,

por lo que la matriz de correlaciones

: n 1

1 n 2

= R


n 1 n 2 n 3 1
es funcin de los coeficientes 1 y 2 del modelo.
43.

Un modelo de medias mviles de primer orden o MA(1)

t = at at 1
verifica que

1 = / ( 1 2 )
k = 0

181
5.4 MODELOS CON
AUTOCORRELACIN

para k 2,

182

por lo que

EL MODELO LINEAL GENERAL

1 1 0 0 0
=

1 1 1 0 0

0 0 0 1 1

= R

0 0 0 1 1
slo depende del coeficiente .
En cualquier modelo ARMA para t, la estructura de depende
de los coeficientes del mismo.
44.

Una vez estimado el modelo economtrico y = X + , y calculados


los residuos e, si se detecta autocorrelacin, es necesario construir un
modelo temporal de tipo ARMA para la serie de residuos. Al estimar
numricamente los coeficientes y , se calcula la matriz
= R


necesaria para aplicar la transformacin de Aitken. Una vez obtenida
tal que
la estimacin de esta matriz H

= I
H
H
n

45.

En el caso de un modelo AR(1) la matriz H es de la forma

H =

1 2

0
1

0
0
1

0
0
0

0
0
0 .

Por ejemplo si el modelo a estimar es


yt = + xt + t ,
y resulta que t = t 1 + at, o sea que la autocorrelacin es de tipo
AR(1), la transformacin de Aitken consiste en multiplicar el modelo
por la matriz H; as

183

Hy =

0
1

0
0

0
0

0
0

1 2 y1

y1
y2

y2 y1 .

yn yn 1


yn

Anlogamente,
1 2 x1
Hx =

1
H 1 =

1

x2 x1

xn xn 1

1 2
1 ,

1

por lo que es
y t* = y t y t 1 = ( 1 ) + (x t x t 1) + t t 1 =
= * + x t* + a t ,
para t = 2, 3, , n, e
y 1* =

1 2 y1 =

1 2 + 1 2 x1 + 1 2 1 .

Obsrvese que la perturbacin aleatoria del modelo transformado es

t t 1 = a t ,
o sea que no tiene autocorrelacin y se puede estimar aplicando el
mtodo de mnimos cuadrados ordinarios.
En los modelos AR(1) es frecuente usar la letra en lugar de , y
as aparece la primera en los listados de salida de algunos programas
de ordenador, como TSP.
46.

Para el modelo AR(2), la matriz H es

0 0

1 22 0 0

1 1 22
H =

1 0


0 1 1

y si el modelo es MA(1), la expresin analtica de la forma de la matriz


H es ms compleja.

5.4 MODELOS CON


AUTOCORRELACIN

184

47.

EL MODELO LINEAL GENERAL

La estimacin de la matriz H de la transformacin de Aitken requiere estimar numricamente los coeficientes del modelo ARMA
empleado en la modelizacin de la autocorrelacin. Por ejemplo, en
el modelo AR(1), resulta que para obtener el valor de
e t = t 1 + a t
como el modelo es de variable endgena retardada, no es posible usar el
mtodo de mnimos cuadrados ordinarios que da como estimador
n

1
-----------et 1 et
n1
t=2
-.
= ------------------------------------n
1
2
--et
n

t=1

48.

El mtodo de Cochrane-Orcutt es de tipo iterativo y consta de varias fases, que se describen a continuacin con el modelo simple yt =
+ xt + t:
a. Estimacin inicial del modelo: yt = a + bxt + et y de los residuos
b. Primera estimacin de con el modelo
e t = e t 1 + a t .
c. Transformacin de Aitken de los datos originales
y t* = y t y t 1
x t* = x t x t 1 .
d. Estimacin del modelo transformado
y t* = a(1 ) + bx t* + a t .
e. Clculo de los residuos et = yt a bxt y vuelta a la fase b.
El proceso termina cuando se estima en dos iteraciones sucesivas con un error inferior a un valor predeterminado.
5.4.3 Contrastes para detectar la autocorrelacin

49.

El test bsico para contrastar si un modelo tiene o no autocorrelacin es el de Durbin-Watson, que sirve para detectar la autocorrelacin de primer orden, o sea AR(1), aunque, si existe autocorrelacin
ms compleja, lo ms probable es que tambin exista de primer orden.

185

Las hiptesis a contrastar son

5.4 MODELOS CON


AUTOCORRELACIN

H0 : = 0
H1 : > 0
o sea que si existe autocorrelacin (positiva) es del tipo

t = t 1 + a t .
El estadstico para contrastar la autocorrelacin en el modelo estimado
y t = b 0 + b 1 x 1t + + b k x kt + e t
t = 1n,
es el de Durbin-Watson
n

(e e
t

t 1)

t=2
-,
DW = ----------------------------------n

2
t

t=1

cuyo valor est relacionado con , siendo aproximadamente


DW  2(1 )
o, en el caso de tamaos muestrales pequeos
n 2(1 0,5DW ) + ( k + 1 ) 2
-,
= -------------------------------------------------------------n2 ( k + 1 )2
por lo que si existe autocorrelacin positiva, o sea cuando > 0, el estadstico de Durbin-Watson toma valores prximos a cero, y si no
existe autocorrelacin, cabe esperar que  0 y por lo tanto DW  2.
Por lo tanto, a nivel de significacin , la regin de aceptacin de
C0 y la regin crtica son, respectivamente

f (DW)

C0 = ( d1 , 4 )

C 1 = ( 0, d 1 ),

en el que d1 a es el cuantil de la distribucin muestral del estadstico


de Durbin-Watson, suponiendo que H0 es cierta.
50.

Las tablas de la distribucin muestral de DW proporcionan para


cada valor de k (el nmero de variables explicativas) y de n (el nme-

dL

d 2

d1 U

DW

186

ro de datos), un intervalo (dL,dU) para cada cuantil d1 , ya que este


valor d1 no se conoce exactamente. As,

EL MODELO LINEAL GENERAL

dL < d1 < dU ,
por lo que si el estadstico de Durbin-Watson es
DW < d L DW C 1
se acepta la existencia de autocorrelacin positiva, mientras que si
DW > d U DW C 0
se acepta H0, o sea la no existencia de autocorrelacin. En el caso de
que
DW ( D L , d U )
la decisin es incierta, aunque es recomendable, en este caso, aceptar
la existencia de autocorrelacin, y proceder a modelizarla. Tambin
cabe considerar la posicin del estadstico dentro de este intervalo, el
cual a veces es muy amplio, por lo que resulta de una utilidad relativa
para detectar la autocorrelacin de primer orden. Ms adelante se introducirn otros contrastes, como el de Ljung-Box, para detectar la
autocorrelacin de diversos rdenes, contrastes que estn basados en
el correlograma de los residuos.
51.

Las tablas de la distribucin de Durbin-Watson para el nivel de


significacin = 0,05 y para algunos valores de k y n son de la forma
siguiente:

15
20
25
30
35
40
50
75
100

k=1

k=2

k=3

k=4

dL

dU

dL

dU

dL

dU

dL

dU

1,077
1,201
1,288
1,352
1,402
1,442
1,503
1,598
1,654

1,361
1,411
1,454
1,489
1,529
1,544
1,585
1,625
1,694

0,946
1,100
1,206
1,248
1,343
1,391
1,462
1,571
1,634

1,543
1,537
1,550
1,567
1,548
1,600
1,628
1,680
1,715

0,814
0,998
1,123
1,214
1,283
1,338
1,421
1,543
1,613

1,750
1,676
1,654
1,650
1,653
1,659
1,674
1,709
1,736

0,685
0,894
1,038
1,143
1,222
1,285
1,378
1,515
1,592

1,977
1,828
1,767
1,739
1,726
1,721
1,721
1,739
1,758

187

Ejemplo 2.

Modelo con autocorrelacin

5.4 MODELOS CON


AUTOCORRELACIN

Los gastos trimestrales de viaje (y) en una empresa varan en funcin


del volumen de ventas (x) en otras localidades. Estos datos aparecen en
la siguiente tabla:

xt

yt

xt

yt

xt

yt

42,3
48,8
48,9
44,2
39,5
43,2
47,7
43,3

455
460
476
447
410
402
431
445

49,6
46,4
56,2
55,1
59,1
51,6
63,0
48,7

481
485
528
531
557
515
582
521

49,8
64,5
58,8
58,5
56,8
68,6
70,3
59,9

490
578
545
541
523
592
629
578

Se trata de construir un modelo que permita predecir los gastos de viaje.


Puesto que los datos son temporales, es muy probable que exista autocorrelacin; no obstante, a priori se desconoce este extremo, por lo que es necesario emplear el mtodo de mnimos cuadrados para estimar el modelo
inicialmente especificado.
Despus de probar varios modelos alternativos, y teniendo en cuenta
que las ventas realizadas en un trimestre originan gastos de viaje en este
trimestre y en el siguiente, se estima el modelo
y t = 102,52 + 5,77x t + 1,87x t 1 + e t ,
en el que es r2 = 0,95.
Los residuos de este modelo son
10,014
8,899

3,342 0,095
21,457 14,279
10,018 17,628

2,162 3,329 23,785 27,681


5,269 10,249
4,032 19,301
9,220 16,849 12,752 7,665

y la autocorrelacin de primer orden es


20

1
------ e t e t 1
18
t=3
r 1 = Corr (e t , e t 1) = ------------------------------ = 0,622,
20
1
2
------ e t
19
t=2

3,278
19,460
1,839

188
EL MODELO LINEAL GENERAL

lo que muestra dependencia en los residuos.


El estadstico de Durbin-Watson toma el valor DW = 0,753 y al compararlo con los valores de las tablas, para el nivel de significacin = 0,05,
dL = 1,188, dU = 1,546 resulta que DW C1 = (0, d0,95), ya que DW < dL <
d0,95 < dU, y por lo tanto se admite la existencia de autocorrelacin positiva
(de primer orden) a nivel = 0,05. No es recomendable pues realizar los
tests T y F, y es necesario modelizar la autocorrelacin para poder aplicar
el mtodo de Aitken.
El estimador mnimo-cuadrtico del coeficiente en el modelo AR(1)
para los residuos
e t = e t 1 + t
es sesgado (ya que este modelo contiene la variable endgena retardada
como explicativa)
= r 1 = 0,622 = ,
aunque tambin se puede obtener otra estimacin para mediante la expresin
24 2(1 0,753/2) + 3 2
- = 0,6439 = ,
= ---------------------------------------------------24 2 3 2
o simplemente mediante = 1 DW/2 = 0,624 = .
La eleccin del modelo AR(1) para los residuos no se ha justificado,
salvo por el hecho de existir autocorrelacin de primer orden. Se ha tomado por ser la expresin ms simple y frecuente para representar la autocorrelacin en un modelo economtrico. Ms adelante, en los captulos
dedicados a series temporales, se estudiarn los modelos ARMA(p, q)
para series estacionarias, y estos modelos son aplicables para representar
la serie de residuos et, t = 1, 2, , n en el caso de existir autocorrelacin.
Para realizar la transformacin al modelo estrella que se plantea en el
mtodo de Aitken, basta calcular (tomando, por ejemplo, la ltima estimacin de )
y t* = y t 0,624y t 1

t = 2 24

x t*

= x t 0,624x t 1

t = 2 24

y 1*

0,624 2

= y1 1

= 355,55

x 1* = x 1 1 0,624 2 = 33,054

y al aplicar mnimos-cuadrados al modelo


y t* =

1 2 + 0 x t* + 1 x t* 1 + t*

resulta
y t* = 54,245 + 5,645x t* + 1,155x t* 1 + e t*
(11,1)

(2,42)

con r2 = 0,862, y el modelo finalmente estimado es


y t = 86,93 + 5,645x t + 1,155x t 1 + e t

189

No obstante, el valor utilizado para en la transformacin de Aitken es


solamente una aproximacin fcil de calcular; por esta razn es preferible
usar el mtodo iterativo de Cochrane-Orcutt, usando la orden
LS

x(1)

AR(1)

del programa TSP, o el mtodo de mxima verosimilitud con la orden


AR1

x(1)

del programa TSP. Con TSP se obtiene el modelo


y t = 105,97 + 5,831x t + 1,756x t 1 + e t ,
(4,45)

(14,9)

siendo el modelo autorregresivo de la autocorrelacin


e t = 0,626e t 1 + a t .
(3,4)

Al hallar el estadstico de Durbin-Watson, tenemos DW = 1,78, con lo que


se constata que se ha eliminado la autocorrelacin.
Los programas TSP y TSP no generan la observacin ( x 1* , y 1* ), por lo
que el modelo final se ha estimado con los n = 22 ltimos datos (se pierde
uno por el retardo de x y otro por el retardo del modelo para la autocorrelacin).
Los residuos del modelo original o residuos estructurales se obtienen
a partir de
e t = y t ( 105,97 + 5,831x t + 1,756x t 1 )

t = 2 24

y no coinciden con los residuos obtenidos en el modelo estrella.


Si adems de autocorrelacin existe heterocedasticidad, es preciso eliminar previamente esta ltima.

52.

En el caso de existir autocorrelacin negativa, el valor estimado


del coeficiente ser negativo y el estadstico de Durbin-Watson tomar valores en el extremo superior de su distribucin muestral. Las
hiptesis a contrastar son
H0 : = 0
H1 : < 0
siendo las regiones de aceptacin y crtica a nivel
C 0 = ( 0, d )

C 1 = ( d , 4 ).

Los valores (dL, dU) que proporcionan las tablas de Durbin-Watson


sirven para hallar el intervalo en el que est contenido d = 4 d1 .

5.4 MODELOS CON


AUTOCORRELACIN

d ( 4 d U , 4 d L ).

190
EL MODELO LINEAL GENERAL

Obviamente tambin es posible plantear un test bilateral de autocorrelacin de primer orden


H0 : = 0
H1 : 0
aunque en este caso la regin de aceptacin ser C0 = (d1 /2 ; d/2).
Hay que hacer notar que muchos textos de Econometra plantean el
test de Durbin-Watson como bilateral, y, algunos, errneamente,
usan los cuantiles d1 y d como lmites de la regin de aceptacin
(realmente se usan las acotaciones inferior y superior proporcionadas
por la tabla del estadstico de Durbin-Watson), lo que implica que el
nivel de significacin realmente utilizado es 2 en lugar de .
53.

Si en el modelo la variable endgena retardada est incluida como


variable explicativa, el test de Durbin-Watson no sirve siempre para
contrastar la existencia de autocorrelacin, pues tiende a tomar valores centrales. No obstante, si el test de Durbin-Watson detecta autocorrelacin, se admite la existencia de sta, pero si no la detecta es
necesario usar el test de Durbin. As, para el modelo
y t = a 1 y 1 t + a 2 y t 2 + + b 0 + b 1 x 1t + + b k x kt + e t
el estadstico de Durbin es
n
h = ------------------,
1 ns a21
siendo s a21 la varianza estimada del coeficiente a1 de yt 1, y el coeficiente del modelo e t = e t 1 + a t de la autocorrelacin. La distribucin muestral asinttica de h, si es cierta H0, es aproximadamente
N(0, 1), por lo que las regiones de aceptacin y crtica para detectar
autocorrelacin positiva a nivel de son
C 0 = ( , z )

54.

C 1 = ( z , + ).

Adems de los contrastes anteriores, para detectar la autocorrelacin se usan varios mtodos grficos: los diagramas temporales
( e t , y t )

t = 1n

( t, e t )

t = 1n

( et 1 , et )

t = 1n

as como el correlograma o grfico de las autocorrelaciones

1
-----------et et k
nk
t = k+1
-,
r k = Corr (e t , e t k) = ------------------------------------------n
1
--e t2
n

t=1

para k = 0, 1, 2, que describe la estructura de la autocorrelacin; el


test de Ljung-Box usa el correlograma para detectar la autocorrelacin, y se estudiar en el captulo 3 de la parte de series temporales.
Otro test para detectar la autocorrelacin (de orden k), es el de Wallis,
que es una variante del contraste de Durbin-Watson, cuyo estadstico
es
n

W =

( et et k )2

t = k+1

2
t

t=1

5.4.4 Prediccin en un modelo con autocorrelacin


55.

Al estimar el modelo con autocorrelacin AR(1)


y t = a + bx t + e t

t = 1n

e t = e t 1 + a t
las predicciones de la variable endgena yt para instantes futuros t =
n + 1, n + 2, , requiere que se use la estructura de autocorrelacin
estimada. As se tiene que
y n + 1 = a + bx n + 2 + e n + 1 = a + bx n + 1 + e n
y n + 2 = a + bx n + 2 + e n + 2 = a + bx n + 2 + e n + 1 =
= a + bx n + 2 + 2 e n ,
y en general
y n + k = a + bx n + k + k e n ,
por lo que el ltimo residuo influye en la prediccin, aunque como
< 1, esta influencia va decreciendo.

Ejemplo 3. Prediccin en un modelo con autocorrelacin

Usando los datos del modelo estimado en el ejemplo 2 anterior, obtener


las predicciones de la variable yt para los cuatro trimestres del ao siguiente.

191
5.4 MODELOS CON
AUTOCORRELACIN

192
EL MODELO LINEAL GENERAL

El modelo finalmente estimado es


y t = 105,97 + 5,831x t + 1,756x t + e t
con autocorrelacin de tipo AR(1),
e t = 0,626e t 1 + a t .
Los residuos del ltimo ao son
e 21 = 11,05

e 22 = 3,145

e 23 = 1,239

e 24 = 3,914

y los ltimos datos de la variable xt son


x 21 = 56,8

x 22 = 68,6

x 23 = 70,3

x 24 = 59,9.

Para realizar las predicciones correspondientes a los cuatro trimestres


siguientes (t = 25, 26, 27, 28) hay que tener en cuenta la autocorrelacin:
por ejemplo
y 25 = 105,97 + 5,831x 25 + 1,756x 24 + e 25 =
= 105,97 + 5,83x 25 + 1,756 59,9 + 0,626 3,914.
Tambin es preciso estimar los valores futuros de volumen de ventas xt de
esos trimestres; esto se puede hacer mediante un modelo temporal o teniendo en cuenta los objetivos de ventas de la empresa. Si se supone que
el ritmo relativo de crecimiento de las ventas se mantiene constante el modelo exponencial es el adecuado
x t = 41,815e 0,0185t + et ,
aunque su ajuste no es excesivamente bueno (r2 = 0,66). Con este modelo
se obtiene
x 25 = 41,817e 0,0185 25 = 66,4
x 26 = 41,817e 0,0185 26 = 67,3
x 27 = 41,817e 0,0185 27 = 68,9
x 28 = 41,817e 0,0185 28 = 70,2
por lo que las predicciones de gastos de viaje se obtienen con el modelo
original:
y 25 = 105,97 + 5,831 66,4 + 1,756 59,9 + 0,626 3,914 = 597,8
y 26 = 105,97 + 5,831x 26 + 1,756x 25 + e 26 = 616,6,
ya que
e 26 = 0,626e 25 = 0,626 2 e 24 = 0,626 2 3,914 = 1,534.
Anlogamente,

193

y 27 = 105,97 + 5,831x 27 + 1,756x 26 +

0,626 3

3,914 = 626,3

y 28 = 105,97 + 5,831x 28 + 1,756x 27 + 0,626 4 3,914 = 636,0.


Tambin se pueden realizar las predicciones de y t* con el modelo estrella
sin usar la estructura de autocorrelacin, y posteriormente se obtienen las
predicciones sobre gastos de viaje deshaciendo la transformacin autorregresiva.

56.

Para estructuras de autocorrelacin de otro tipo, la prediccin


tambin debe tener en cuenta el modelo de la autocorrelacin. Por
ejemplo si es AR(2):
e t = 1 e t 1 + 2 e t 2 + a t
y resulta
y n + 1 = a + bx n + 1 + e n + 1 = a + bx n + 1 + 1 e n + 2 e n 1
y n + 2 = a + bx n + 2 + e n + 2 = a + bx n + 2 + 1 e n 1 + 2 e n =
= a + bx n + 2 + 1( 1 e n + 2 e n 1) + 2 e n ,
y as sucesivamente. As pues, las predicciones estn afectadas por los
dos ltimos residuos.

57.

Si la autocorrelacin es de tipo MA(1)


e t = a t a t 1 ,
las predicciones son
y n + 1 = a + bx n + 1 + e n + 1 = a + bx n + 1 a n ,
y a partir de este instante no influye la estructura de la autocorrelacin:
y n + 2 = a + bx n + 2
y n + 3 = a + bx n + 3 ,
y as sucesivamente se obtendran las predicciones de la variable endgena.
Los programas de ordenador como TSP, al estimar un modelo
con autocorrelacin, proporcionan como residuos las estimaciones
del ruido blanco at. Para realizar las predicciones es necesario disponer no slo de los ltimos valores t, sino tambin de los valores de la
serie t.

5.4 MODELOS CON


AUTOCORRELACIN

194
EL MODELO LINEAL GENERAL

Por ejemplo, sea el modelo yt = a + bxt + et, estimado con los datos
t = 1, 2, , n. En el caso que la autocorrelacin sea de tipo ARMA(1, 1),
el modelo estimado para esta sera de la forma
e t = e t 1 + a t + a t 1
Las primeras predicciones de la variable endgena (suponiendo
que se dispone de valores futuros de la variable exgena) son
y n + 1 = a + bx n + 1 + e n + 1
y n + 2 = a + bx n + 2 + e n + 2

y as sucesivamente. Los residuos estimados no se anulan debido a la


presencia de autocorrelacin, por lo que es
e n + 1 = e n + a n
e n + 2 = e n + 1
e n + 3 = e n + 2

As pues, la componente de media mvil slo afecta directamente


a la primera prediccin, ya que los valores futuros esperados de la serie de ruido blanco se anulan
a n + i = 0

i = 1, 2,

Tambin es necesario usar en la primera prediccin el valor


e n = y n ( a + bx n )
En el caso que el modelo de autocorrelacin fuese de tipo ARMA(p, q),
sera preciso usar los ltimos q residuos t, y estimar los ltimos p valores
de et.

EJERCICIOS PROPUESTOS

195

1. Utilizando el paquete TSP, obtener unos datos simulados que se


ajusten a la siguiente estructura:
x t = 50 + 0,9t + a t*

t = 1 25,

siendo a t* una serie de errores residuales que se ajustan a una ley


Normal N(0; 52), y a partir de esta variable xt obtener los valores
y t = 120 + 3,5x t + x t 1 + e t

t = 2 25,

siendo los residuos autorregresivos de primer orden


e t = 0,7e t 1 + a t

t = 2 25

y at una serie de nmeros aleatorios independientes N(0; 82). Con


los datos (xt, yt), t = 2, 3, , 25 simulados estimar el modelo
yt = + 0 xt + 1 xt 1 + t
y tratar el problema de la autocorrelacin. Comparar los resultados con el verdadero mecanismo generador de los datos y con los
resultados obtenidos por mnimos cuadrados ordinarios. Realizar
predicciones para t = 26 y 27 de yt.
2. Modificar los datos simulados del ejemplo anterior, siendo at
N(0, 22), y comparar los resultados obtenidos con los del ejemplo
anterior. Repetir el proceso generando at N(0, 202).
3. Para simular unos datos que se ajusten a un modelo con heterocedasticidad es necesario que la variabilidad de los residuos dependa de alguna variable. Si en el ejemplo 1 anterior se genera la serie
de residuos
e t = 0,7 t 1 + 2ta t ,
la variabilidad de et se incrementa con el tiempo, o bien se toma
e t = 0,03x t a t
la variabilidad de et depende de xt.
Repetir el ejemplo 1 con las nuevas series de residuos, en el primer caso eliminando primero la heterocedasticidad y posteriormente la autocorrelacin.
4. Comparar los resultados de las estimaciones anteriores usando los
paquetes TSP y TSP con distintas opciones de estimacin.

EJERCICIOS PROPUESTOS

196
EL MODELO LINEAL GENERAL

5. En la siguiente tabla aparecen unas series de datos de Japn correspondientes al perodo 19601987 de la renta nacional y de recaudacin por la imposicin sobre la renta (en miles de millones
de yens).

1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973

Renta N.

Impuestos

14180
17092
19135
22621
25409
28233
32779
38775
46652
53534
63550
69453
80026
98532

390,6
495,8
579,5
690,7
837,4
970,4
1084
1290
1613
2006
2428
2889
3726
5332

1974
1975
1976
1977
1978
1979
1980
1981
1982
0983
1984
1985
1986
1987

Renta N.

Impuestos

116192
128555
145809
161816
178870
193966
209143
221234
232543
241086
256459
272484
283751
295442

5350
5482
6213
6578
7753
9272
10800
11980
12846
13643
14064
15435
16827
-

Se trata de elaborar varios modelos alternativos para estimar la recaudacin del impuesto sobre la renta personal (Y) en funcin de
la renta nacional (X). Para ello se deben ensayar, entre otros, los siguientes modelos
yt = + xt + t
yt = 0 + 1 yt 1 + xt + t
yt = 0 + 0 xt + 1 xt 1 + t
yt = + 1 xt + 2 t + t
con o sin autocorrelacin. Adems se debe estudiar la posible heterocedasticidad en cada modelo. Estimar por punto y por intervalo la recaudacin esperada en 1987. Analizar la posible existencia
de observaciones influyentes.
6. Con los datos del ejemplo anterior, estimar el modelo
yt = + xt + t
considerando que existe autocorrelacin de tipo AR(1). Hallar los
residuos estructurales del modelo y comprobar que no se verifica
e = 0. Calcular el coeficiente de determinacin r2 = 1 s2e/s 2y con
estos residuos estructurales y compararlo con el valor r2 obtenido

al aplicar al modelo el mtodo de mnimos cuadrados ordinarios.


Por qu este ltimo coeficiente es mayor?
7. Construir un modelo temporal de la forma
yt = 0 + 1 t + 2 t 2 + t

t = 1 27

con los datos de impuestos recaudados en Japn en el perodo


196086 (ejercicio 5), y comparando las predicciones con las obtenidas usando los distintos modelos propuestos en el citado ejercicio 5. Comentar qu prediccin debe considerarse ms fiable
razonando la respuesta.

197
EJERCICIOS PROPUESTOS

6
Modelos con variables
cualitativas

6.1 ESCALAS DE MEDIDA


1.

Hasta ahora, en los captulos anteriores, slo se han utilizado variables numricas en los modelos economtricos; no obstante, existen
variables no numricas o categricas que intervienen como variables
exgenas o endgenas en muchas situaciones. Las escalas de medida
bsicas son:
Categricas o no numricas, y dentro de stas:
Nominales: por ejemplo, el sexo o el lugar de residencia.
Ordinales: como el grado de aceptacin de un producto.
Numricas, que a su vez se dividen en escalas por:
Intervalos: como la temperatura expresada en grados centgrados.
Ratios: por ejemplo, la renta de una persona.

2.

Con los datos categricos no es posible realizar operaciones aritmticas, como hallar una media, una varianza o un coeficiente de correlacin ordinario. Sin embargo, con las variables ordinales cabe
hallar coeficientes de correlacin de Spearman; esto significa que se
puede operar con los rangos de sus valores.

3.

Las variables categricas toman distintos valores o categoras no


numricos, aunque para introducirlas en un modelo es preciso asignarles cdigos numricos. Se distinguen dos tipos de variables categricas, en funcin del nmero de categoras:
Binarias o dicotmicas
Multinomiales o de alternativas mltiples.
Por ejemplo, en una encuesta realizada sobre un colectivo de personas, la variable

199

200

x = es propietario de su vivienda?

MODELOS CON VARIABLES


CUALITATIVAS

toma dos posibles valores, x = S y x = No, que se pueden representar


mediante los nmeros 1 y 0. Esta variable es de tipo binaria. La variable multinomial
x = qu producto prefiere?
entre una lista cerrada de cinco, toma cinco posibles valores, que en
principio se pueden representar mediante los dgitos 1, 2, 3, 4 y 5, aunque stos no tienen sentido numrico, por lo que no es posible introducir directamente esta variable x en un modelo economtrico.
4.

Una variable multinomial x que toma c valores o categoras


x { x(1) = v 1 , x(2) = v 2 , , x(c) = v c }
se puede sustituir por c variables binarias
x1 = 1

si x = v 1

x1 = 0

si x v 1

x2 = 1

si x = v 2

x2 = 0

si x v 2

xc = 1

si x = v c

xc = 0

si x v c

As, para representar una variable x que toma los c valores v1, v2,
, vc, se usan las variables binarias anteriores, resultando la funcin
lineal
x = v1 x1 + v2 x2 + + vc xc .
5.

En realidad, para representar la variable x que toma c valores, bastan c 1 variables binarias, aunque es preferible usar todas las variables x1, x2, , xc e imponer alguna restriccin sobre los valores v1, v2,
, vc para eliminar una de las variables binarias.
Las restricciones ms usuales son de dos tipos: considerando
vc = 0, o sea eliminando la variable xc, y
v1 + v2 + + vc = 0.
Si se considera la primera restriccin, vc = 0, los coeficientes v1, v2,
, vc 1 de la funcin
x = v1 x1 + v2 x2 + + vc 1 xc 1
se interpretan como el efecto sobre la variable y de cada valor de x medido como desviacin respecto al valor de y cuando la variable x toma
el valor c-simo.

La segunda restriccin supone que los valores v1, v2, , vc se interpretan como desviaciones alrededor de un valor medio central de la
variable endgena y.
6.

201
6.2 VARIABLES CATEGRICAS
EXGENAS

Las variables auxiliares x1, x2, , xc se denominan variables artificiales o ficticias.


6.2 VARIABLES CATEGRICAS EXGENAS

7.

Para introducir el uso de variables categricas en un modelo economtrico se utilizar un ejemplo simple. Sea R la renta disponible de
una familia y A su capacidad de ahorro. Se considera una variable artificial Z para representar el lugar de residencia de cada familia, siendo
Z = 0 si la familia reside en una ciudad, y
Z = 1 si vive en el campo.
La variable Z influye en la capacidad de ahorro, pero no es influida por A, por lo que es exgena. En el modelo

A = ( b 0 + v ) + b 1 R

= b +b R
A
0
1

A = b 0 + b 1 R + vZ + e
el coeficiente v de la variable artificial representa un efecto aditivo
asociado a la capacidad adicional de ahorro por el hecho de vivir en
el campo. Al estimar el modelo, en realidad se estiman dos modelos
formados por dos rectas paralelas correspondientes a dos funciones
de ahorro.
8.

En el ejemplo anterior, se ha supuesto que la propensin marginal


al ahorro se mantiene constante (es igual a b1) para todos los niveles
de renta. Si la diferencia en la capacidad de ahorro entre los residentes
en el campo y en la ciudad no se mantiene constante, quiere decir que
existe un efecto interaccin entre la renta y la variable artificial que representa el lugar de residencia. As, el modelo

v
b0
R

A = b 0 + ( b 1 + v )R
A

A = b 0 + b 1 R

A = b 0 + b 1 R + vZR + e
da origen a dos curvas de ahorro con distinta pendiente, o sea con distinta propensin marginal al ahorro, lo que se observa en el grfico
que se muestra la margen. El efecto asociado al lugar de residencia es
de tipo multiplicativo.
9.

En el mismo modelo se pueden incluir un efecto aditivo y otro


multiplicativo. As, el modelo
A = b 0 + b 1 R + v 0 Z + v 1 ZR + e

b0
R

202

incorpora el efecto aditivo v0 sobre el nivel de ahorro asociado al lugar de residencia y el efecto multiplicativo v1 sobre la propensin
marginal al ahorro. Estos efectos se muestran grficamente en la figura del margen.

MODELOS CON VARIABLES


CUALITATIVAS

(b + v ) + (b + v )R
A
0
0
1
1
A

= b +b R
A
0
1

10.

En un mismo modelo se pueden incluir ms de una variable artificial y sus interacciones con otras variables exgenas.

11.

Una utilidad adicional de las variables artificiales es la comparacin de modelos de regresin. As, si se dispone de los conjuntos de
datos de las variables que intervienen en un modelo, y se estiman dos
modelos, uno sobre cada conjunto de datos

v0
b0
R

y i = 0 + 1 x i + i*

i = 1n 1

y 0 = 0 + 1 x i + i**

i = n 1 + 1n + n 2

surge a menudo la pregunta de si estos dos modelos son iguales o no.


En definitiva, se trata de realizar los contrastes
H0 : 0 = 0

H 0* : 1 = 1

H1 : 0 0

H 1* : 1 1

sobre los coeficientes poblacionales.


Para ello se define una variable artificial auxiliar
Zi = 0

i = 1 n1

Zi = 1

i = n1 + 1 n1 + n2

y se estima un nico modelo con dos conjuntos de datos simultneamente; el modelo conjunto es
y i = ( 0 + 1 x i )Z i + ( 0 + 1 x i ) ( 1 Z i ) + i =
= 0 + 1 x i + ( 0 0 )Z i + ( 1 1 )x i Z i + i =
= 0 + 1 xi + y0 Zi + y1 xi Zi + i
para i = 1, 2, , n1, n1 + 1, ..., n1 + n2. Al contrastar las hiptesis originales que se expresan ahora
H0 : y0 = 0

H 0* : y 1 = 0

H1 : y0 0

H 1* : y 1 0

si se aceptan las hiptesis H0 y H0*, se admite la identidad de los dos


modelos. La contrastacin de estas hiptesis se realiza mediante los
tests T de Student ordinarios, como se ver en el ejemplo siguiente.

203

Ejemplo 1.

Comparacin de dos modelos

6.2 VARIABLES CATEGRICAS


EXGENAS

Se han recogido datos en dos localidades mediante sendas encuestas sobre el consumo (y) de productos de hogar y de la renta (x) de los consumidores consultados, obtenindose los siguientes resultados.

Ciudad 1

Ciudad 2

4,8
5,3
6,5
3,2
6,0
3,8
4,2
7,0
2,6
3,5
5,6
5,8

64,0
68,0
79,0
56,0
69,4
60,9
62,8
75,6
61,7
57,8
72,3
70,5

7,1
3,4
5,5
4,3
3,7
6,0
3,3
6,7
5,1
4,5
2,7
5,9

54,6
44,7
51,0
49,7
47,2
55,0
42,9
55,6
47,6
49,5
44,6
57,2

80

70

Se ha observado una relacin lineal entre el consumo (en miles de pesetas) y la renta (en millones de pesetas) y se desea contrastar si esta relacin es idntica en las dos ciudades donde se ha realizado el trabajo
de campo.

Ciudad 1
60

50

El diagrama de dispersin entre consumo (y) y renta (x) muestra con


claridad que en la ciudad 2 el consumo es inferior al obtenido en la ciudad
1, y parece que la propensin marginal al consumo es mayor en esta ltima.
Para contrastar si la relacin
y = + x +
es distinta en ambas ciudades, se define la variable artificial z:
zi = 0
zi = 1

i = 1 12 (en la ciudad 1)
i = 13 24 (en la ciudad 2)

y se estima con los 24 datos el modelo


yi = + xi + 0 zi + 1 zi xi + i

Ciudad 2
40
2

204

resultando

MODELOS CON VARIABLES


CUALITATIVAS

y = 43,728 + 4,687x 8,555z 1,637zx + e,


(8,43)

(2,18)

(2,10)

con r2 = 0,946.
Para comparar los modelos se realizan los dos contrastes
H0 : 0 = 0

H 0* : 1 = 0

H1 : 0 0

H 1* : 1 0

usando los estadsticos


T 0 = 2,18

T 1 = 2,10,

Las probabilidades lmites respectivas, que se obtienen con la distribucin


t(20), son
0,0414

0,0485,

por lo que a nivel = 0,05 se aceptan H1 (existe una diferencia en el nivel


de consumo correspondiente a cada renta) y H1* (la propensin marginal
al consumo es menor en 1,637 en la ciudad 1 que en la ciudad 2). Los dos
modelos resultantes son, respectivamente, para las ciudades 1 y 2
y = 43,728 + 4,687x + e
y = ( 43,728 8,555 ) + ( 4,687 1,637 )x + e = 35,173 + 3,05x + e,
y sus coeficientes de determinacin son r2 = 0,843 y r2 = 0,822. En este caso
se ha podido estimar el modelo conjunto ya que la variabilidad de los residuos no es muy distinta en las dos ciudades.

y = a 2 + b 2 x

12.

El mismo planteamiento sirve para comparar el mismo modelo estimado en dos perodos de tiempo o sobre dos poblaciones o mbitos
geogrficos distintos.

13.

Tambin se usan las variables artificiales para estimar modelos en


los que la forma funcional es de tipo spline. Una spline es una curva
continua formada por varios segmentos polinmicos. En las figuras
que se muestran al margen aparecen varias curvas de tipo spline.
En la primera figura es necesario imponer unas restricciones sobre
los coeficientes para que la lnea quebrada (spline) sea continua:

y = a 1 + b 1 x
y = a 0 + b 0 x

y = a 1 + b 1 x

a 0 + b 0 a = a 1 + b 1 a,
a 1 + b 1 b = a 2 + b 2 b,

y = a 0 + b 0 x + c 0 x 2
a

y en la segunda, adems de la condicin de continuidad

205

a 0 + b 0 a + c 0 a 2 = a 1 + b 1 a,
se suele imponer una condicin de alisamiento, relativa a la primera
derivada; esto es, para que en el punto x = a la curva tenga la misma
pendiente a la izquierda y a la derecha de dicho punto debe ser
b 0 + 2c 0 a = b 1
Anlogamente se definiran las condiciones de continuidad y alisamiento en el punto x = b.
14.

Por ejemplo, en el primer modelo se definen tres variables artificiales


z1 = 1
z1 = 0

si x a
si x < a

z2 = 1
z2 = 0

si x ( a, b )
si x ( a, b )

z3 = 1

si x b

z3 = 0

si x < b

por lo que la forma funcional de la spline es


y = z 1 ( 1 z 2 ) ( 1 z 3 ) ( a 0 + b 0 x ) + ( 1 z 1 )z 2 ( 1 z 3 ) ( a 1 + b 1 x ) +
+ ( 1 z 1 ) ( 1 z 2 )z 3 a 2 + b 2 x
Con las restricciones
a0 + b0 a = a1 + b1 a
a1 + b1 b = a2 + b2 b
Se puede prescindir de una de las tres variables artificiales en el modelo
y = z 1 ( 1 z 2 ) ( a 0 + b 0 x ) + z 2 ( 1 z 1 ) ( a 1 + b 1 x ) +
+ ( 1 z1 ) ( 1 z2 ) ( a2 + b2 x )
con las dos restricciones anteriores.
6.3 VARIABLES ARTIFICIALES EN MODELOS TEMPORALES
15.

La representacin de funciones peridicas es otra situacin prctica en la que se introducen variables artificiales. Por ejemplo, una serie
temporal de ventas mensuales de un producto generalmente oscila cclicamente cada doce meses; por ejemplo, la venta de helados crece
todos los aos en los meses de verano por encima de la curva de tendencia, o el consumo de electricidad en una empresa presenta dos
mximos, en invierno y en verano.

6.3 VARIABLES ARTIFICIALES EN


MODELOS TEMPORALES

206

16.

MODELOS CON VARIABLES


CUALITATIVAS

Sea yt, t = 1, 2, , n una serie mensual correspondiente a A aos, y


tal que la variabilidad de yt se descompone en tres componentes: la
tendencia Tt, el ciclo estacional Ct y una parte aleatoria t.
yt = T t + Ct + t .
Por ejemplo, si la tendencia es lineal, se expresa
T t = a 0 + a 1 t.
y la componente cclica aditiva en funcin de las doce variables artificiales z1, z2, , z12
C t = c 1 z 1t + + c 12 z 12t .
que toman los valores

Ct

z it = 1
z it = 0

6
8
mes

10

12

si t corresponde a cualquier mes i-simo, i = 112,


para los restantes meses,

por lo que la funcin Ct toma en cada uno de los doce meses los valores
c 1 , c 2 , , c 12 .
Como los doce valores c1, c2, , c12 representan desviaciones respecto a la tendencia, se ha impuesto implcitamente la restriccin
c 1 + c 2 + + c 12 = 0,
con lo que la componente cclica se puede representar mediante
C t = c 1 z 1t + + c 12 z 12t = c 1 z 1t + + c 11 z 11t + ( c 1 c 2 c 11 )z 12t =
* ,
= c 1 ( z 1t z 12t ) + + c 11 ( z 11t z 12t ) = c 1 z 1* t + + c 11 z 11
t

siendo las nuevas variables auxiliares


z i*t = 1

si t corresponde a cualquier mes i-simo,

z i*t = 1

si t corresponde a cualquier mes i-simo,

z i*t =

para los restantes meses.

En el siguiente ejemplo se usarn unas variables artificiales como


las anteriores.

207

Ejemplo 2.

Anlisis de una serie trimestral

6.3 VARIABLES ARTIFICIALES EN


MODELOS TEMPORALES

El paro agrcola en Andaluca entre 1976 y 1992 ha evolucionado segn


la siguiente tabla (Fuente: Direccin General de Previsin y Coyuntura;
Ministerio de Economa).

Trimestre
Ao

II

III

IV

1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992

65,3
91,9
87,7
107,4
139,0
130,0
132,1
179,9
213,0
263,3
257,3
238,6
230,9
191,8
188,7
171,0

75,8
80,1
96,4
117,2
146,7
117,4
131,6
219,0
257,3
265,4
252,5
263,0
230,2
210,5
184,5
203,6

65,4
77,9
77,8
87,8
103.1
119,0
115,0
124,9
228,3
255,4
252,3
275,1
257,6
219,6
203,3
212,2
211,4

68,4
84,4
98,4
89,0
117,2
119,0
124,1
139,0
223,8
259,4
262,1
256,2
223,3
230,6
196,3
199,5
-

Se desea elaborar un modelo para estudiar la variacin estacional.


El grfico temporal de la serie muestra un crecimiento que se acelera
en los aos ochenta, seguido de un proceso de decrecimiento debido a que
no aumenta la poblacin activa en el sector agrario.
Es necesario usar un modelo polinmico de orden no inferior a 3 para
representar la tendencia, debido a la forma de la serie. Las variables artificiales para representar el ciclo estacional son
x 1* = 1 en cada trimestre 1,

x 1* = 0 en el resto

x 2* = 1 en cada trimestre 2,

x 2* = 0 en el resto

x 3* = 1 en cada trimestre 3,

x 3* = 0 en el resto

x 4*

x 4* = 0 en el resto

= 1 en cada trimestre 4,

208
MODELOS CON VARIABLES
CUALITATIVAS

300
250
200
150
100
50
0
1978

1980

1982

1984

1986

1988

1990

1992

siendo el ciclo estacional


C t = 1 x 1* t + 2 x 2* t + 3 x 3* t + 4 x 4* t ,
con la condicin

1 + 2 + 3 + 4 = 0
para que los coeficientes 1, 2, 3 y 4 representen desviaciones respecto de
la tendencia del paro correspondiente a las variaciones estacionales.
Usando la condicin, y sustituyendo el parmetro 4 = 1 2 3 en la
expresin del ciclo, resulta
C t = 1 ( x 1* t x 4* t ) + 2 ( x 2* t x 4* t ) + 3 ( x 3* t x 4* t ) = 1 x 1t + 2 x 2t + 3 x 3t ,
y el modelo final para la serie de paro agrcola es
y t = 0 + 1 t + 2 t 2 + 3 t 3 + 1 x 1t + 2 x 2t + 3 x 3t + t .
Al estimar el modelo, ste resulta tener autocorrelacin de tipo AR(1),
por lo que es
y t = 62,209 + 0,6525t + 0,1881t 2 0,00258t 3 3,63x 1 + 4,33x 2 + 0,44x 3 + e t
(0,07)

e t = 0,87e t 1 + a t .
(8,87)

(0,72)

( 1,11)

( 1,46)

(1.57)

(0,18)

209

Este modelo no parece adecuado a pesar que es r2 = 0,949, pues ninguno


de los coeficientes difiere significativamente de cero (salvo el coeficiente
= 0,87 estimado en el modelo de et), lo que puede ser debido al alto nivel
de autocorrelacin.
Como la tendencia polinmica puede estar afectada por la autocorrelacin, se elimina el trmino t3, reestimndose el modelo. As se llega a
y t = 46,517 + 11,197t 0,112838t 2 3,496x 1 + 4,363x 2 + 0,206x 3 + e t
(2,67)

( 2,26)

( 1,46)

(1,82)

(0,09)

e t = 0,8627e t 1 + a t ,
(13,6)

en el que los coeficientes de la tendencia y de la autocorrelacin difieren


significativamente de cero. Con respecto a la estacionalidad, el coeficiente
del segundo trimestre difiere significativamente de cero a nivel = 0,10,
pues su probabilidad lmite es = 0,737. Aunque ninguno de los otros coeficientes difiere de cero a nivel = 0,05 = 0,10, se admite la existencia
de ciclo estacional, como deber comprobar el lector realizando el test F
H0 : 1 = 2 = 3 = 0
H 1 : algn(os) j 0
El test sobre la existencia de estacionalidad en el cuarto trimestre
H0 : 4 = 0
H1 : 4 0
se obtiene con el estadstico
T = 4 /s 4 = ( +3,496 4,363 0,206 )/s 4 = 1,073/s 4
obtenindose la varianza s 2 4 a partir de la matriz de covarianzas estimada
de ( 1 , 2 , 3 ):
5,74080 1,14958 3,447368
S = 1,14958 5,73276 1,15453
3,44368 1,15453
5,75615
ya que y4 = y1 y2 y3; as se obtiene que
1
s 24 = ( 1, 1, 1 )S y 1 = 5,73413

1
por lo que

6.3 VARIABLES ARTIFICIALES EN


MODELOS TEMPORALES

210
MODELOS CON VARIABLES
CUALITATIVAS

T = 1,073/ 5,73413 = 0,448,


que lleva a aceptar H0, o sea la no existencia de estacionalidad en el cuarto
trimestre.
Para realizar previsiones para el ltimo trimestre de 1992 se calcula
y 66 = 46,517 + 11,197 66 0,112838 66 2 + 3,496 4,363
0,206 + 0,8627 14,12 = 212,07,
ya que el ltimo residuo es e65 = 14,12.
Para obtener la serie yt desestacionalizada, o sea sin el efecto del ciclo
estacional, se calcula
y t = C t = y t ( 3,496x 1t + 4,363x 2t + 0,206x 3t ).
Anlogamente se obtienen las previsiones desestacionalizadas.

17.

En algunas situaciones se dispone de datos tomados sobre el conjunto de m individuos, empresas o unidades experimentales medidos
en T instantes distintos de tiempo; o sea que se trata de combinar informacin de corte transversal o esttica con datos temporales. Se
pueden considerar diversas situaciones en la construccin de modelos lineales:
a. Modelo con coeficientes y niveles constantes
y it = 0 + 1 x 1it + + k x kit + it

i = 1m;

t = 1n,

en el que el subndice i se usa para representar la unidad experimental i-sima, y t es el instante en el que se ha tomado el dato.
b. Modelo con coeficientes constantes y niveles variables sobre los
casos
y it = 0i + 1 x 1it + + k x k it + it .
Existe un efecto asociado a cada caso, pero este efecto se mantiene
constante a lo largo del tiempo.
c. Modelo con coeficientes constantes y niveles variables en el tiempo
y it = 0t + 1 x 1it + + k x k it + it .
d. Modelo con coeficientes constantes y niveles variables sobre los
casos y en el tiempo
y it = 0it + 1 x 1it + + k x k it + it .

e. Modelo con coeficientes variables sobre los casos


y it = 0i + 1i x 1it + + k x kit + it ,
en el que para cada instante se tiene un modelo distinto.
f. Modelo con coeficientes variables en el tiempo
y it = 0t + 1t x 1it + + kt x k it + it .
18.

En el caso que el nivel u ordenada en el origen sea variable, se consideran dos situaciones: que la variabilidad de 0 sea fija o constante
para cada caso o en cada instante, o bien que esta variabilidad sea de
naturaleza estocstica o aleatoria (generalmente asociada al proceso
de muestreo).
Si el coeficiente 0 vara sobre los m casos o en el transcurso del
tiempo con efectos fijos, la representacin de esta variabilidad se hace
mediante el uso de variables artificiales. Por ejemplo

0i = 01 Z 1 + 02 Z 2 + + 0m Z m ,
en el que la variable Zi est asociada al caso i-simo
Zi = 1

para las T observaciones del caso i-simo,

Zi = 0

para el resto de los datos.

Si la variacin es temporal, y ocurre en el instante t, se toma

0t = 01 Z 1* + 02 Z 2* + : + 0T ( Z T , ) *
en el que
Z t* = 1

para los m datos tomados en el instante t,

Z t* = 0

en los restantes instantes.

Para representar una variabilidad en el tiempo y sobre los casos,


es necesario usar dos conjuntos de variables artificiales anteriores.
6.4 MODELOS CON VARIABLE ENDGENA NO NUMRICA
6.4.1 Introduccin
19.

Hasta ahora en todos los modelos estudiados se supone implcitamente que la variable endgena es numrica, y que las variables explicativas o predeterminadas son numricas o binarias (como las
variables artificiales de los apartados anteriores).

211
6.4 MODELOS CON VARIABLE
ENDGENA NO NUMRICA

212

20.

MODELOS CON VARIABLES


CUALITATIVAS

Sin embargo existen numerosas situaciones en las que es necesario


estimar el valor o nivel de una variable categrica, y, que toma un nmero c de alternativas
y(1), y(2), , y(c)
que se codifican numricamente y que estn relacionadas con unas
variables predeterminadas x1, x2, , xk que tienen capacidad predictiva sobre y. En cualquier problema de decisin en el que hay que elegir una alternativa entre varias, en funcin de unas variables causales,
es necesario predecir las probabilidades de ocurrencia de cada uno de
los posibles valores de y. Este es el objetivo de los modelos con variable endgena cualitativa.

21.

Cuando el nmero de valores posibles de la variable endgena


son dos, el modelo resultante se denomina de eleccin binaria, y los dos
valores de y se denominan 0 y 1. Si hay ms de dos alternativas, el modelo es de eleccin mltiple.

22.

Los modelos de eleccin binaria ms usados son los modelos logit


y probit, que se generalizan en el caso de eleccin mltiple. En el caso
que falte algn dato de la variable endgena de la muestra, el modelo
se denomina censurado; por ejemplo, en el caso de una falta de respuesta en una encuesta. Las muestras truncadas son aquellas en las
que faltan datos debido a que stos no existen; por ejemplo, si se pregunta por el grado de aceptacin de un producto en un grupo de personas, y algunas no consumen el producto, la falta de respuesta de
esas personas es realmente un truncamiento en la poblacin muestreada.
6.4.2 Modelos de eleccin binaria

23.

La variable endgena y es de tipo binario, y toma los valores


y = 0

y = 1

con probabilidades
Pr (y = 0) = q,

Pr(y = 1) = p = 1 q = E(y),

As, al representar el modelo, resulta


y = F(x 1 , x 2 , , x k) + = y + ,
en la que
y = E(y) = F(x 1 , x 2 , , x k) = p
o sea que el valor estimado con el modelo es la probabilidad que la
variable endgena tome el valor 1.
24.

La funcin F(x1, x2, , xk), al representar una probabilidad, slo


puede tomar valores en el intervalo [0; 1], por lo que la forma funcio-

213

nal del modelo debe cumplir esta condicin. La dependencia de las


variables predeterminadas en el caso de los modelos logit y probit se
establece mediante una combinacin lineal de stas:

6.4 MODELOS CON VARIABLE


ENDGENA NO NUMRICA

y = F( 0 + 1 x 1 + + k x k) + = y + = p + .
25.

En un modelo de eleccin binaria las perturbaciones aleatorias son


variables centradas pero binarias, ya que si y toma dos valores 0 y 1,
la perturbacin toma los dos valores
y = p
1 y = 1 p

con probabilidad

q = 1 p,

con probabilidad

p,

siendo su varianza
V () = ( p ) 2 q + ( 1 p ) 2 p = pq(p + q) = pq = y (1 y ),
o sea que la variabilidad de las perturbaciones depender de las variables explicativas, lo que da origen a heterocedasticidad.
El modelo de eleccin binaria logit tiene la siguiente forma funcio-

26.

nal
1
y = ------------------------------------------------------- + ,
1 + e ( 0 + 1 x1 + + k xk )
en la que F(x1, x2, , xk) es la funcin de distribucin logstica.
27.

El modelo logit simple es


1
e 0 + 1 x
y = -------------------------------+ = y + ,
- + = ------------------------- ( 0 + 1 x )
1+e
1 + e 0 + 1 x
y es fcil comprobar que el valor y toma valores en el intervalo [0, 1].
Al hacer tender z a + y a el valor de y tiende a 1 y a 0 (si 1 > 0).

28.

El modelo logit se puede aproximar mediante el modelo lineal


y i
- = 0 + 1 x1 + + k xk
ln -----------1 y i

i = 1n,

aunque, en la prctica no es necesario linealizar el modelo dado que


los paquetes de programas estadsticos y economtricos incorporan
programas de estimacin de modelos logsticos.

214
MODELOS CON VARIABLES
CUALITATIVAS

Ejemplo 3.

Modelo Logit para concesin de un crdito

Para conceder un crdito personal de importe fijo un banco toma una


serie de datos sobre la situacin financiera de su cliente: nivel de renta
(x1), propiedad de su vivienda (x2) y nivel de endeudamiento (x3). Se
disponen de 48 expedientes de crditos anteriores concedidos (y = 1), o
no (y = 0), y se trata de elaborar un modelo para estimar la probabilidad
de concesin de un crdito. Los datos de estos expedientes figuran en la
tabla siguiente.

x1

x2

x3

x1

x2

x3

x1

x2

x3

0
0
0
0
1
0
0
0
1
1
0
1
0
1
0
0

3,0
3,1
3,2
3,5
3,8
4,1
4,2
4,3
4,4
4,5
4,6
4,6
4,7
4,8
4,8
4,9

0
0
0
0
0
0
0
1
0
0
1
0
1
0
1
1

0,3
1,2
0,4
0,4
0,1
0,6
2,9
3,9
0,1
0,6
2,3
0,5
3,8
0,1
3,0
3,5

0
1
1
0
1
1
1
1
1
1
1
1
0
1
1
0

5,0
5,1
5,2
5,2
5,3
5,4
5,4
5,5
5,6
5,7
5,8
5,9
6,0
6,2
6,3
6,4

1
0
1
1
1
1
0
0
1
0
1
1
1
0
1
1

4,1
0,3
1,4
5,5
2,1
3,2
0,1
0,6
3,4
0,3
2,8
1,5
7,4
0,5
3,2
4,3

1
1
1
1
1
0
1
1
1
0
1
1
0
1
1
1

6,5
6,6
6,7
6,9
7,1
7,3
7,4
7,8
8,0
8,2
8,4
8,8
9,1
9,5
9,8
9,9

1
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1

3,4
1,5
0,4
1,5
2,1
9,5
5,4
1,7
6,2
9,8
0,1
1,4
9,5
1,4
1,3
4,5

Al estimar el modelo logstico


1
- + *
y = ---------------------------------------------------------1 + e ( 0 + 1 x1 + 2 x2 + 3 x3 )
resulta que ningn coeficiente difiere significativamente de cero, lo que se
debe sin duda a las interrelaciones entre la renta y la propiedad de la vivienda representada por la variable artificial x2 (que toma el valor 1 si la
persona es propietaria y 0 si no lo es). Al ser la informacin de x2 redundante con x1, se prescinde de x2 estimndose el modelo
1
- + e*,
y = ---------------------------------------------------1 + e 20,9 5,126x1 3,783x3

215

siendo los estadsticos T de los coeficientes


T x1 = 2,59

6.4 MODELOS CON VARIABLE


ENDGENA NO NUMRICA

T x2 = 2,58

es decir, que ambos difieren significativamente de cero a nivel = 0,05.


Al aplicar el modelo se calcula la probabilidad de aprobar un crdito
personal en relacin con el nivel de renta y de endeudamiento. As, por
ejemplo, una persona con una renta de 3 millones de pesetas y deudas de
0,3 millones tiene una probabilidad que el banco le apruebe el crdito de
1
= 0,013425.
y = -----------------------------------------------------------1 + e 20,9 5,9126 3 + 3,783 0,3

0,08 y
0,07
0,06
0,05
0,04

En la figura se muestra la probabilidad de obtener un crdito para una


persona con nivel de renta de 6 millones de pesetas y deudas variables de
entre 3 y 6 millones de pesetas.

29.

En el modelo Probit se elige como funcin F(0 + 1x1 + + kxk) la


funcin de distribucin de una variable aleatoria N(0, 1)
1
y = ---------2

0 + 1 x1 + + k xk

0,03

x3
2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7

F(z)
1

e 0,5t 2 dt +

0,5

en el que t es una variable de integracin. En la figura se muestra la


funcin de distribucin y = F(z), siendo z = 0 + 1x1 + + kxk.

Ejemplo 4. Modelos Probit y Logit sobre la propiedad de la vivienda

En un conjunto de 48 familias se dispone de informacin sobre la propiedad de su vivienda (y = 1 si es propietario e y = 0 si no lo es) y de su


renta (x) en millones de pesetas:
y
x

0
3,0

0
3,1

0
3,2

0
3,5

0
3,8

0
4,1

0
4,2

1
4,3

0
4,4

0
4,5

1
4,6

0
4,6

y
x

1
4,7

0
4,8

1
4,8

1
4,9

1
5,0

0
5,1

1
5,2

1
5,2

1
5,3

1
5,4

0
5,4

0
5,5

y
x

1
5,6

0
5,7

1
5,8

1
5,9

1
6,0

0
6,2

1
6,3

1
6,4

1
6,5

0
6,6

1
6,7

1
6,9

y
x

1
7,1

1
7,3

1
7,4

1
7,8

1
8,0

1
8,2

1
8,4

1
8,8

1
9,1

1
9,5

1
9,8

1
9,9

216

y se trata de estimar la probabilidad de que una familia sea propietaria


de su vivienda.

MODELOS CON VARIABLES


CUALITATIVAS

Es claro que al aumentar el nivel de renta la tendencia es hacia la vivienda en rgimen de propiedad. El modelo Probit
1
y = ---------2

+ x

e 0,5t 2 + = F( + x) +

estimado es
y = F ( 3,83675 + 0,76831x )
( 3,12)

(3,33)

cuyos coeficientes difieren significativamente de cero.


De igual forma el modelo logit estimado es
1
y = ---------------------------------------1 + e 6,43465 1,296x
el cual tambin tiene sus dos coeficientes significativamente distintos de
cero.
Para obtener las probabilidades de posesin de vivienda en funcin
de la renta con el modelo Probit basta calcular
1
y = F( 3,83675 + 0,76831x) = ---------2

3,83675 + 0,76831x

e 0,5t 2 dt

para los 48 casos, y si se usa el modelo logit, entonces


1,00

YPROBIT

0,75
0,50
0,25
0,00
2,5

*
***

YLOGIT

0,75
0,50
0,25

*
***

y = 1/ [ 1 + e 6,43465 1,296x ],
Ambas curvas se dibujan respecto de x, obtenindose las probabilidades anteriores. Aunque los valores obtenidos son casi coincidentes, por
ejemplo para una renta de 3 millones
y = 0,06278

y = 0,07265,

o para una de 5 millones


5,0

1,00

0,00
2,5

********
****
*
**
**
**
**
**
*
*
**
**
*
*
**

7,5

10,0

y = 0,50191

********
***
**
*
***
**
*
**
**
*
*
**
**
*
**

5,0

7,5

10,0

y = 0,51134,

o para una de 8 millones


y = 0,98955

y = 0,98080,

la distribucin logstica tiene varianza mayor que la normal N(0, 1), por
lo que ser
y < y
para valores bajos de x,
y > y

para valores altos de x.

217

El clculo de y con el programa TSP requiere usar la funcin de distribucin N(0, 1) lo que se realiza generando los valores estimados
GENR yest = CNORM ( 3,83675 + 0,76831*x )
que se dibujan respecto de la renta con la orden
SCAT yest x.

30.

El modelo Tobit se origin en el estudio de consumo de bienes no


perecederos por parte de las economas domsticas; el importe dedicado al consumo de estos bienes se anula en el caso de familias que no
pueden dedicar un mnimo de renta a la adquisicin de este tipo de
productos. As, el modelo Tobit es de la forma
0 + 1 xi + i
yi =
mi

si y i m i
si y i < m i ,

en el que el valor mi es el lmite mnimo por debajo del cual la variable


endgena no puede caer. Este modelo puede considerarse como uno
de eleccin binaria, en el que la variable endgena toma valores dependientes de las exgenas o bien un mnimo que no depende de stas.

6.4 MODELOS CON VARIABLE


ENDGENA NO NUMRICA

218
MODELOS CON VARIABLES
CUALITATIVAS

EJERCICIOS PROPUESTOS

1. La evolucin de los contratos de trabajo mensuales en Andaluca


en el perodo 19871992 aparece en la siguiente tabla:

Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

1987

1988

1989

1990

1991

1992

253314
243001
256540
270606
293336
310250
320288
237657
330436
350083
335590
247916

284098
308961
287663
297146
305111
321042
318876
261934
346881
367923
346942
265606

333779
309559
326501
322800
335140
359356
348870
279683
441622
487130
159000
323059

457262
408267
438253
403353
441877
452734
470430
338314
428758
525029
463170
331265

462408
377044
363212
468448
447911
417267
502277
332120
422075
528190
432817
312181

425734
383715
395519
381051
370280
384462
454579
298922
426408
457255
395763
-

Construir un modelo para estudiar la estacionalidad mensual en


los contratos de trabajo, agregar los datos por trimestres y comprobar si se mantiene esta estacionalidad.
2. En una explotacin agraria se aplica un insecticida a distintas parcelas, hacindose el recuento del nmero de insectos muertos y del
total estimado de stos en cada parcela:

Concentracin
3,8
4,7
6,3
8,9
11,7
12,2

Total de insectos

Nmero de insectos
muertos

500
490
510
520
500
480

72
170
265
437
453
475

Calcular la concentracin para la cual el 50% de los insectos estn


afectados usando un modelo logit y un modelo probit.
3. En un modelo logit o probit y = P(y = 1) = F( + x), por lo que la
relacin entre la variable exgena X y la endgena Y slo puede
ser montona. Es correcto el razonamiento anterior?

4. Para explicar la evolucin de la proporcin y de personas que son


propietarias de su vivienda se propone el modelo logit
1
yt = ---------------------1 + e + t
y si se calcula dy t /dt resulta la expresin
dy t
------------ = y t dt
1 y t
lo que indica que la proporcin de los no propietarios depende del
porcentaje de los que son propietarios. Modificar el modelo para
imponer una cota superior predeterminada a la proporcin de
propietarios de viviendas.
5. Una compaa desea estimar el ritmo de personas que van a retirarse voluntariamente entre los 50 y los 60 aos y para ello selecciona un conjunto de empleados que se han retirado voluntariamente en esta franja de edad y otro conjunto que, cumpliendo los
requisitos para retirarse, no lo han hecho. A cada persona, adems
de su situacin laboral, se le pregunta sobre su edad, salario y el
tiempo que lleva trabajando en la empresa. Formular un modelo
logstico y comentar la interpretacin y signo de cada uno de sus
coeficientes.
6. Para estimar el paro entre personas menores de 30 aos, se realiza
una encuesta en una poblacin que incluye parados y personas
que estn trabajando. A cada uno se le pregunta sobre su sexo, salario, edad, formacin profesional, nivel de educacin y aos de
experiencia previa. Especificar dos modelos: el primero para estimar la proporcin de parados y el segundo para predecir su nivel
de salario, teniendo en cuenta que a los parados se les asigna en la
encuesta un valor cero.

219
EJERCICIOS PROPUESTOS

7
Micro-TSP

7.1 INTRODUCCIN
1.

El paquete TSP est formado por un conjunto de programas


orientados hacia la estimacin de modelos economtricos:
uniecuacionales,
multiecuacionales, y
series temporales.
Su utilizacin es muy simple e intuitiva, y su eficiencia computacional alta. Dispone adems de un mdulo de grficos, as como de varias utilidades de gestin de datos e interaccin con Lotus 123 y con
otros programas ofimticos. Se utiliza en microordenadores provistos
con el sistema operativo MS-DOS de Microsoft y compatibles. Existe
una versin para el entorno Windows denominada Eviews que incorpora nuevas posibilidades grficas y economtricas.

2.

Los modos de operacin de TSP son


interactivo y
por lotes.
El proceso interactivo es el ms usado y prctico; consiste en ejecutar una a una las instrucciones TSP y observar el resultado que
producen. En el proceso por lotes, varias instrucciones TSP se almacenan en un fichero de tipo texto y todas ellas son ejecutadas ininterrumpidamente mediante una llamada desde el sistema operativo, o
desde el entorno interactivo de TSP.

3.

A continuacin se describir el uso interactivo de TSP, al que se


accede con la orden
C:\TSP > TSP

221

222

Esta orden debe ejecutarse desde el directorio donde se han situado


los programas de TSP en el proceso previo de instalacin de stos.
A partir de este momento el usuario deja de relacionarse con el sistema operativo y pasa a depender del entorno integrado de TSP.

MICRO-TSP

4.

Al iniciar la sesin, el monitor del ordenador muestra la pantalla


bsica de TSP

La parte central de la pantalla es la ventana de trabajo, donde aparece el indicador de rdenes del TSP
>
y el cursor.
La parte superior es la ventana de estado, que consta de tres lneas
que informan del entorno de trabajo:
El rango de datos (range) es el intervalo de datos definido en el entorno de trabajo actual. Si los datos son temporales, el rango incluye los instantes inicial y final [ti, tf]; cualquier dato que se
introduzca deber asociarse a una fecha de dicho intervalo. Si los
datos son no temporales, el rango es el intervalo [1, n]. El rango
tambin est asociado a la frecuencia de los datos (anual, trimestral, mensual u otra).
Las series o nombre de las variables que estn contenidas en el espacio de trabajo (en memoria) definido por TSP.
El rango activo de datos (current SMPL) es un subconjunto del
rango de datos [tj, tg] sobre el que actan los procedimientos de
clculo u rdenes de TSP.
La ruta (path) indica el directorio actual o activo. Los archivos de
datos que se leen pertenecen a este directorio, y tambin se guardan en l los archivos que se graban.
La parte inferior es la ventana de funciones y en sta aparecen 9 opciones, a las que se accede con las teclas de funcin. Cada opcin sirve
o bien para ejecutar directamente una orden de TSP, o bien para acceder a una ventana con opciones que generalmente son rdenes de
TSP.

223
7.1 INTRODUCCIN

5.

F3-Files

F4-Data

F5-Graph

F6-Stats

F7-Equations

F8-Estimate

Para ejecutar una orden (interactiva) de TSP se puede proceder


de dos formas alternativas:
a. Teclear en la ventana de trabajo y pulsar la tecla de retorno de carro; si es necesario, la orden ir seguida de sus argumentos, y, en
el caso que hubiera opciones, stas se escriben entre parntesis
despus de la orden.
b. Pulsar una tecla de funcin, que conduce a una ventana con varias
opciones, y elegir la que corresponda a la orden que se desea ejecutar. A veces, al elegir una opcin aparece una nueva subventana
de opciones con varias rdenes alternativas.
La primera forma es cmoda si se ha memorizado la orden a ejecutar, mientras que la seleccin de opciones a travs de teclas de funcin es til en caso de duda del nombre de la orden.

224

Por ejemplo, la orden


> EXIT

MICRO-TSP

devuelve el control al sistema operativo y cierra el entorno de trabajo


de TSP; todas las variables o series que estn en este entorno de trabajo se pierden. Antes de proceder a abandonar el entorno, TSP preguntar si se est seguro, y el usuario debe contestar s o no (y o n)
para que se ejecute la orden.
Otra forma alternativa de ejecutar esta orden es pulsando la tecla
F9
y eligiendo la primera opcin de la ventana que aparece y que se
muestra a continuacin.

6.

Cuando se ejecuta una orden pueden suceder dos cosas:


que la sintaxis de la orden sea correcta, en cuyo caso sta se ejecuta
cuando se pulsa el retorno de carro, o
que sea incorrecta (en su sintaxis), en cuyo caso aparece en la ventana de trabajo el correspondiente mensaje de error.

7.

La estructura general de una orden es una de las siguientes


> ORDEN
> ORDEN argumento(s)
> ORDEN (opcin)
> ORDEN (opcin) argumento(s)
Muchas rdenes necesitan de alguna opcin (que modifica la forma de actuar la orden); si no se proporciona la opcin, TSP la pedir

a travs de una ventana con las opciones de la orden que se ha tecleado. Por ejemplo, la orden para realizar un grfico
> PLOT
tiene varias opciones relativas a la escala de medida.
Los argumentos definen el campo de actuacin de una orden; as,
la orden
> PLOT x
dibuja la serie xt. Adems esta orden necesita una opcin de escala,
que se puede proporcionar al teclear la orden
> PLOT (A) x
o esperar que TSP la pida.
8.

Para trabajar con TSP es necesario conocer


las rdenes o instrucciones bsicas del paquete,
el sistema de ficheros y grficos, los editores internos de TSP y
el entorno de trabajo interactivo
Tambin es necesario conocer los fundamentos del sistema operativo
DOS y de su estructura de ficheros.
7.2 UNA SESIN SIMPLE DE TSP

9.

Al iniciar una sesin de trabajo, una vez arrancado TSP, es necesario crear el entorno de trabajo con la orden
> CREATE (frecuencia) inicio fin
con la que se define
la periodicidad o frecuencia de los datos y
el rango de los datos.
Las opciones de la periodicidad o frecuencia son
A
Q
M
U

anual
trimestral
mensual
otra

y el rango de los datos se indica mediante las fechas inicial y final de


la serie. As, por ejemplo, si se va atrabajar con series anuales comprendidas en el perodo de 1960 a 1992, se utiliza
> CREATE (A) 60

92

225

7.2 UNA SESIN SIMPLE DE TSP

226

En cambio, si se desea trabajar con datos trimestrales comprendidos


entre el segundo trimestre de 1980 y el ltimo de 1992, entonces se utiliza
> CREATE (Q) 80.2
92.4

MICRO-TSP

En el caso de datos mensuales que comienzan en enero de 1986 y


terminan en diciembre de 1992, se teclea
> CREATE (M) 86.01

92.12

Si no se indica la opcin, TSP la pedir a travs de una ventana,

y si no se proporcionan los dos argumentos, TSP tambin los pedir.


Despus de ejecutarse esta orden se actualizar la ventana de estado.
10.

Despus de crear el entorno de trabajo, es necesario introducir los


datos, y para ello se utiliza el editor de datos, que se llama mediante
la orden DATA. Por ejemplo, si se quieren introducir los siguientes
datos de las series xt e yt, para t = 1986 a 1992
x

120

140

110

160

100

150

180

42

55

38

61

40

60

72

se teclea
> DATA

Esta orden presenta la pantalla del editor de datos y define las series
cuyos nombres son xt e yt.
En esta pantalla se pueden editar los valores de ambas series, es
decir, se pueden aadir, modificar, borrar o insertar datos. La pantalla de edicin de datos se divide en dos partes:
la superior es una ventana de ayuda con las rdenes del editor de
datos:

227

7.2 UNA SESIN SIMPLE DE TSP

X
N fecha
D fecha
I fecha

salir del editor


editar la lnea correspondiente a la fecha
borrar la lnea correspondiente a la fecha
insertar una lnea en la fecha sealada

la inferior est formada por la matriz de datos que se est estudiando.


El cdigo correspondiente a un dato inexistente o que falta es
NA.
Al introducir los datos de las series xt e yt, la segunda lnea de la
ventana de estado se actualiza automticamente, pero los datos que
se acaban de introducir no estn grabados en ningn fichero de disco;
slo estn en memoria, en el espacio de trabajo, y se perderan si se
creara otro espacio de trabajo o si se saliera de TSP. Es aconsejable,
pues, almacenar en disco el espacio de trabajo con los datos usando la
orden
> SAVE

fichero

que crea dos ficheros con los nombres


fichero.H y fichero.WF
donde se almacenan todo el entorno de trabajo, incluidos los datos de
las series xt e yt.
11.

Una vez introducidos los datos (del editor DATA se sale con la orden X tecleada en el lugar de cualquier dato editado) se pueden realizar clculos con stos. Previamente es aconsejable visualizar los datos
con la orden
> SHOW

228

o imprimirlos con

MICRO-TSP

> PRINT

aunque tambin se puede dibujar un diagrama de dispersin con la


orden
> SCAT

con lo que se aprecia una relacin aproximadamente lineal entre estas


variables; esta orden pedir una opcin. Se recomienda al lector que
realice pruebas con diversas opciones. La orden SCAT, adems de
crear el grfico, llama a un programa de edicin de grficos del que se
sale con la orden X

200

175

150
X

*
125

*
100
75
30

*
*

*
*

40

50

60

70

80

Y
(T)-Type (P)-Print (S)-Save (O)-Options (F)-Plotter & HPGL (R)-pReview (X)-Exit

Anlogamente, se pueden dibujar ambas series xt e yt con respecto


al tiempo con la orden
> PLOT

que tambin llama al editor de grficos anterior.


Otras rdenes para realizar grficos son
> BAR series
> PIE series
que generan histogramas y diagramas circulares o de tarta.
12.

Otra posibilidad de anlisis previo de los datos es el clculo de algunos parmetros descriptivos bsicos (medias, desviaciones tpicas,
covarianzas y correlaciones) con la orden

> COVA

cuya salida es

o bien realizando alguna transformacin de los datos originales generando una nueva variable. As, si se quiere tener la serie zt = ln yt, se
ejecuta la orden
> GENR z = LOG (y)
actualizndose de nuevo la lnea de estado.
13.

Al estimar el modelo de regresin


y t = a + bx t + e t
se ejecuta la orden
> LS y c x
en la que la ordenada en el origen del modelo se representa mediante
la letra c (la cual no puede ser usada como nombre de variable). Los
resultados de la estimacin aparecen en el listado siguiente en el que
resulta que

229

7.2 UNA SESIN SIMPLE DE TSP

230

y t = 7,6763 + 0,4393x t + e t ,

MICRO-TSP

siendo r2 = 0,962 el coeficiente de determinacin. Al pulsar la tecla de


retorno de carro se pasa a la opcin de visualizar los residuos, que, a
su vez, ofrece tres posibilidades: con las opciones P o S, aqullos se
imprimen en la impresora o en la pantalla, y con la opcin G se accede
de nuevo al editor de grficos.
14.

15.

Para volver a ejecutar las ltimas instrucciones TSP tecleadas,


pulsando repetidas veces la tecla F2, aqullas van apareciendo en la
pantalla como si se hubiese tecleado.
La tecla de funcin F1 sirve para interrumpir la ejecucin de cualquier orden.
Antes de acabar la sesin con la orden
> EXIT
hay que tener la precaucin de almacenar los datos en disco con la orden
> SAVE
fichero
As, al iniciar una nueva sesin de TSP, en lugar de crear el entorno de trabajo con la orden CREATE e introducir los datos con la orden
DATA, basta cargar en memoria el entorno y los datos con la orden
> LOAD

fichero

que lee el contenido de los ficheros


fichero.WF

fichero.H

y se actualiza la ventana de estado. A partir de ese momento ya se


puede trabajar con las series xt e yt.
16.

En resumen, toda sesin de TSP comienza o bien con la orden


CREATE, seguida habitualmente de la orden DATA, o bien con la orden LOAD. Ambas crean el entorno de trabajo, que se destruye al acabar la sesin con la orden EXIT.
7.3 FICHEROS DE DATOS

17.

El programa TSP dispone de un mdulo de gestin de datos en


disco. Los tipos de ficheros bsicos son:
Espacios de trabajo: almacenan todo el entorno de trabajo (rango y
rango activo, variables y datos) en un fichero cuyo nombre acaba
en .WF.
Ficheros con una serie: son aquellos en los que, adems de los datos,
se graban la fecha inicial y final, la periodicidad de la serie y un co-

mentario; su nombre acaba en .DB; no contienen el entorno de trabajo.


Ficheros texto, en los que se almacenan una o varias series de datos.
Ficheros de tipo Lotus 123, con las extensiones .PRN o .WSK.
Adems TSP maneja ficheros de grficos (con la extensin .GR), as
como otros ficheros para almacenar ecuaciones de modelos (extensin
.EQ).
Los ficheros de espacio de trabajo (.WF) y de series (.DB) estn asociados a otros ficheros que tienen el mismo nombre, pero su extensin
es .H. Estos ficheros contienen informacin sobre los datos.

18.

Cada tipo de fichero que est en el espacio de trabajo (memoria) se


graba en el disco con una orden, y es ledo del disco, cargndose en el
espacio de trabajo, con otra orden especfica para cada tipo de fichero.

19.

Por ejemplo, si en la sesin del apartado anterior se desea grabar


todo el entorno de trabajo (que incluye las series xt e yt y el rango de
datos), se ejecuta la orden
> SAVE

ejemplo

que graba en disco los ficheros


ejemplo.WF

ejemplo.H

con todo el contenido del espacio de trabajo.


Si en una sesin se ejecuta la orden
> LOAD

ejemplo

231
7.3 FICHEROS DE DATOS

232

se lee en el disco este espacio de trabajo y se carga en memoria; si hubiese antes otro espacio de trabajo, ste se destruir al ejecutarse la orden LOAD.
Los ficheros .WF y .H son de tipo binario y por lo tanto no pueden
editarse o imprimirse.

MICRO-TSP

20.
.WF

Load

Store

Save

Fetch

Para almacenar las series xt e yt en sendos ficheros llamados

.DB

x.DB

y.DB

se ejecuta la orden
> STORE

Cada fichero contiene una serie, y es de tipo texto, o sea que se


pueden editar con algn editor externo a TSP (como EDLIN o EDIT
del DOS o un procesador de textos como Word).
Para recuperar un fichero .DB es necesario que est definido previamente un espacio de trabajo compatible con el rango y periodicidad de los datos que se cargan, y se ejecuta la orden
> FETCH

que lee uno o ms ficheros .DB (en este caso, dos).


21.

La estructura interna de un fichero .DB es la siguiente


"c Last updated: mm-dd-aaaa"
-p
fecha de inicio
fecha final
dato 1
dato 2

dato n

como puede observarse, tiene una cabecera con un comentario con la


fecha del ltimo acceso o edicin del fichero (se pueden aadir comentarios entre comillas y comenzando por los caracteres "c). El parmetro de periodicidad -p identifica el tipo de serie del fichero:
1
4
12
n

si la serie es anual
si la serie es trimestral
si la serie es mensual
si la serie es no temporal o de otra periodicidad (n es el
nmero de datos).

A continuacin se indican las fechas inicial y final de la serie en uno


de los siguientes formatos:

aaaa

aaaa.t

233

aaaa.mm

7.4 OTROS FICHEROS Y


CONFIGURACIN

es decir, el ao con cuatro cifras, el ao y el trimestre o el ao y el mes.


Por ltimo, se muestra una lista con los datos de la serie.
22.

El comentario asociado a un fichero .DB se visualiza con la orden


> LABEL fichero
que tambin sirve para aadir una lnea de comentario a uno de estos
ficheros:
> LABEL (A) fichero comentario

23.

Los ficheros de tipo texto que slo contienen los datos de una o varias series se usan para importar o exportar datos a otros programas;
las instrucciones
> READ
> WRITE

fichero
fichero

leen o graban una matriz que contiene los datos, los cuales pueden estar almacenados por filas:
x1 x2 xn
y1 y2 yn

o, lo que es ms habitual, por columnas:
x1 y1
x2 y2
  
xn yn
El modo en que almacenan los datos se indica mediante el men de
opciones de estas instrucciones, las cuales adems leen y graban ficheros en formato Lotus 123 o DIF.
7.4 OTROS FICHEROS Y CONFIGURACIN
24.

Los ficheros generados por las instrucciones grficas (SCAT,


PLOT) o por algunas rdenes de clculo (F5) se pueden editar; de hecho, al generarse un grfico, se edita automticamente. Las rdenes
del editor grfico aparecen en la parte inferior de la pantalla y son:

.TXT
.WKx
.PRN
.DIF

Read

Write

.TXT
.WKx
.PRN
.DIF

234

MICRO-TSP

P
O
F

S
X

para escribir letras o smbolos sobre el grfico con varios tamaos de letra
para imprimir el grfico
para elegir el tipo de grfico (lneas, ejes, borde del grfico,
escala, subttulo, tipo de letras, colores, etc.)
para grabar seleccionando el tipo de fichero de grfico (en
formato Halo, Word Perfect o HPGL) y para dibujarlo en
un plotter
para grabar el grfico en formato TSP, o sea, en ficheros .GR
para salir del editor grfico

Se recomienda al lector que realice varios grficos con distintas opciones para familiarizarse con el editor de grficos.
25.

Un grfico generado con TSP y almacenado en un fichero .GR, o


sea con formato TSP, se recupera con la orden
> LGRAPH fichero
que llama al editor grfico y muestra el grfico indicado. Por otra parte, en este editor grfico la orden S guarda los ficheros en formato
TSP y la orden F en formato Halo, Word Perfect o HPGL (estos ltimos se emplean para capturar el grfico con editores como Ventura
Publisher o con procesadores de textos).

Lgraph
.GR

26.

Un ltimo tipo de fichero de datos que maneja TSP sirve para almacenar ecuaciones estimadas. As, al estimar un modelo
> LS

la ecuacin yt = a + bxt + et se guarda en el espacio de trabajo, y se graba en el disco con la orden


> STOREQ

fichero

Los nombres de estos ficheros tienen la extensin .EQ. Para recuperar


un fichero .EQ se utiliza la orden

Feteq
.EQ
Stored

> FETEQ

fichero

Un fichero con una ecuacin estimada contiene


la orden TSP de estimacin
la forma funcional de la ecuacin
la periodicidad y el rango de los datos empleados
los coeficientes del modelo estimado
las estadsticas que se obtienen al ejecutar el procedimiento y las
variables internas generadas.
27.

Al hablar de los ficheros de datos que se graban en el disco, hay


que precisar en qu directorio se almacenan o leen. Lgicamente, si al
indicar el nombre del fichero que se graba o lee, se escribe la unidad
(disco C:, o disquete A:) y el camino en el rbol de directorios, como

parte del nombre del fichero, ste se graba en el lugar indicado. Sin
embargo TSP utiliza, por defecto, un directorio de datos (por ejemplo \TSP\DATA) que se usa en aquellos casos en que slo se especifica el nombre del fichero. Este directorio, por defecto, se cambia con
la orden
> CONFIG
que adems del nombre de este directorio, pide, mediante varias preguntas y ventanas de opciones, el tipo de impresora, de trazador de
grficos y de pantalla, as como los colores que usar TSP. Esta orden actualiza el contenido del fichero CNFG70.TSP de configuracin
del programa, fichero que est en el directorio donde se instal el programa. Tambin se cambia (temporalmente) el directorio de datos
con la orden
> CD directorio
aunque ste debe especificarse con el camino desde la raz del rbol
de ficheros.
7.5 GESTIN DEL ESPACIO DE TRABAJO
28.

El espacio de trabajo de TSP est formado por una zona de la memoria del ordenador donde se almacenan las series o variables que se
han ido creando (con el editor de datos DATA) o cargando desde ficheros grabados en disco; incluye tambin las caractersticas de estas
series:
periodicidad o frecuencia de los datos;
rango de datos admisible o mximo, y
rango de datos activo.
El espacio de trabajo est controlado desde el entorno integrado
de TSP a travs de un conjunto de rdenes o instrucciones, muchas
de ellas similares a las del sistema operativo DOS.

29.

La pantalla bsica del entorno integrado, como ya se ha explicado,


incluye en su parte superior la ventana de estado, que nos informa de
la situacin en cada momento del espacio de trabajo.

235
7.5 GESTIN DEL ESPACIO DE
TRABAJO

236

30.

MICRO-TSP

A continuacin se indican algunas rdenes de gestin del espacio


de trabajo, que afectan al entorno, pero no a los ficheros en disco:
>C
> FREMEM
> D series
> R seriea serieb
> SORT serie aux

31.

actualiza la ventana de estado y borra la pantalla


informa sobre la memoria disponible
borra una o varias series del espacio de trabajo
cambia el nombre de la serie seriea
reordena los datos de todas las series del espacio de trabajo en orden creciente de la serie
auxiliar

Otras rdenes que s afectan a los ficheros grabados en disco son


similares o idnticas a las del sistema operativo DOS:
> CD directorio

cambia el directorio por defecto donde se almacenan los datos (sin alterar la conguracin de
TSP)
> A:
cambia el dispositivo por defecto a la unidad de
disquete A:
> DIR
muestra el directorio por defecto actual
> REN lea leb cambia el nombre del chero lea en el disco
> DEL cheros
borra uno o varios cheros
32.

El manejo de la impresora se controla con varias rdenes:


> FEED
> PON
> POFF
> OUTPUT chero
> PRINT series

provoca un salto de pgina


activa la impresora
desactiva la impresora
redirecciona la salida de impresin hacia un
chero en disco
imprime una o varias series

El formato de impresin se puede controlar aadiendo unos cdigos


de formato similares a los usados en el lenguaje Basic. As,
> PRINT (####.##, ##.##^^^^)

imprime los datos de la serie xt con dos cifras decimales y cuatro enteros, y la serie yt en notacin cientfica (los cuatro ltimos signos ^
representan los lugares que ocupan la letra E, el signo + o y el exponente, por ejemplo 11.27E + 04).
33.

Para ejecutar cualquier mandato del sistema operativo DOS, sin


salir del entorno integrado de TSP, se utiliza la orden
> RUN mandato-DOS
si se desea salir temporalmente al sistema operativo DOS, sin abandonar el entorno TSP se utiliza la instruccin

237

> SYSTEM
Para volver al entorno TSP debe teclarse el mandato EXIT.
34.

7.5 GESTIN DEL ESPACIO DE


TRABAJO

Posiblemente la instruccin de control del entorno de trabajo ms


utilizada es la de definicin del rango de datos activo:
> SMPL fecha0 fecha1
El rango de datos creado inicialmente con la orden CREATE define un intervalo temporal que se puede modificar eligiendo un subintervalo.
Este subintervalo se denomina rango activo, y los clculos que se
ejecutan despus de la instruccin SMPL se realizan sobre el subconjunto de datos contenido en el rango activo. Por ejemplo, si se ha creado un espacio de trabajo de datos mensuales, con la orden
> CREATE (M) 87.01 92.12
y con el editor DATA se han cargado las series xt e yt definidas en este
intervalo, al ejecutarse las rdenes
> LS y
> SMPL
> LS y
> SMPL
> LS y

c
x
87.01
c
x
90.01
c
x

89.12
92.12

se estima el modelo yt = a + bxt + t con todos los datos, a continuacin


slo con los datos de los aos 1987 a 1989 y por ltimo con los datos
de los aos 1990 a 1992. Para poder actuar de nuevo sobre los datos
de los seis aos, es preciso ejecutar la orden
> SMPL

87.01

92.12

Con la orden EXPAND se puede ampliar el rango de datos. Por ejemplo, la orden
EXPAND 87.1
93.12
ampla al ao 1993 el rango de datos.
35.

Tambin se pueden seleccionar subconjuntos de datos que cumplan una condicin simple o compuesta; as, la orden
> SMPL

88.07

92.06

IF x > 100

selecciona el subconjunto de datos comprendidos entre julio de 1987


y junio de 1992 que cumplen la condicin de ser xt > 100.

CREATE
SMPL

EXPAND

7.6 TRANSFORMACIONES

238
MICRO-TSP

36.

La obtencin de nuevas variables mediante transformaciones se


realiza con la instruccin
> GENR variable = expresin
Esta asignacin genera todos los valores de la variable que estn dentro del rango de datos activo, y asigna el cdigo NA (dato que falta o
no est disponible) a los datos que estn fuera del rango activo pero
dentro del rango inicial del espacio de trabajo. Por ejemplo, las instrucciones
> GENR z = 1
> GENR v = LOG (x + 1)
generan dos variables; la serie zt toma el valor 1 para todo t, y la serie
vt se genera calculando ln (xt + 1) a partir de todos los datos de la serie
xt. Si se ejecuta
> SMPL 89.01 92.12
> GENR y = v*z + 20
se generan los datos de la serie yt slo en el perodo comprendido entre 1989 y 1992.

37.

La variable que se genera puede coincidir con otra variable existente, en cuyo caso sta queda modificada mediante la transformacin.
La expresin que figura en el segundo miembro est formada por
los elementos usuales de cualquier lenguaje de programacin: una
combinacin de variables y constantes relacionadas mediante operadores.
Por ejemplo, la instruccin
> GENR y = EXP (x + 1),
sobre un rango activo de n datos, va realizando secuencialmente los
clculos
y 1 = e x1 + 1
y 2 = e x2 + 1

y n = e xn + 1

38.

Los operadores disponibles son de varios tipos:


Aritmticos

^
*/
+

elevacin a potencia
producto y cociente
adicin y sustracin

239

Relacionales

7.6 TRANSFORMACIONES

> > = mayor y mayor o igual


< < = menor y menor o igual
= < > igual y no igual
Lgicos

AND
OR

interseccin lgica
unin lgica

Por ejemplo, las expresiones aritmticas de las siguientes transformaciones


> GENR y = 3 * x 3 + 2 * x 2 5/x + 10
> GENR z = 3 * (x 3 + 2/x 2)/(2 * y + x)
generan las series
y t = 3x t3 + 2x t2 5/x t + 10
3 ( x t3 + 2/x t2 )
z t = -------------------------------2y t + x t
Como puede observarse, el orden en el que se ejecutan las distintas
operaciones es el habitual en la mayora de los lenguajes de programacin (Pascal, Fortran, Basic, dBase, Lotus ): en primer lugar se
ejecutan las elevaciones a una potencia, seguidas de los productos y
cocientes, y por ltimo se ejecutan las sumas y restas. Este orden se
altera con el uso de los parntesis, del mismo modo que en la notacin
matemtica ordinaria.
39.

Los operadores relacionales actan sobre dos expresiones y las


comparan; su resultado es un 1 si la comparacin es correcta, y 0 si es
falsa.
Los operadores lgicos actan sobre dos expresiones cuyo resultado es un 0 o un 1. El resultado de una operacin lgica se muestra en
las tablas siguientes:
AND

OR

1
0

1
0

0
0

1
0

1
1

1
0

A continuacin veremos algunos ejemplos de lo dicho ms arriba.


As, si la serie xt toma los valores que figuran en la primera lnea de la
siguiente tabla:
xt

10

12

NA

NA

10

aux
x2

1
100

1
25

1
9

1
64

1
144

0
NA

0
NA

1
100

240

y se generan las variables

MICRO-TSP

> GENR aux = x < > NA


> GENR x2 = x * x
los resultados que se obtienen son los que aparecen en la segunda y
tercera filas de la misma tabla.
Sea la serie yt de ingresos declarados con algn dato que falta y se
quiere generar otra serie zt que tome el valor yt si este dato no falta y
el valor 1000 si no se dispone de informacin del ingreso. Este objetivo puede conseguirse mediante la orden
> GENR z = (y = NA) * 1000 + (y < > NA) * x
Los datos xt y los resultados yt que se con esos datos son

yt

1500

1200

NA

800

NA

1600

1800

zt

1500

1200

1000

800

1000

1600

1800

Por ltimo, en el siguiente ejemplo se genera la variable Alto que


toma el valor 1 si se verifican las condiciones de que el nivel de estudios sea superior o igual a 12 y la renta mayor que 5:
> GENR alto = renta > 5

AND

Renta
Estudios
alto

40.

estudios > = 12

6
15

6
10

3
16

3
11

7
8

6
6

5
12

6
12

En las expresiones se pueden utilizar funciones predefinidas:


LOG (x)
EXP (x)
SIN ()
COS ()
ABS (x)
SQR (x)

logaritmo neperiano
exponencial
seno (el ngulo en radianes)
coseno
valor absoluto
raz cuadrada (equivale a x^0,5)

y tambin funciones estadsticas, como las funciones de densidad y


de distribucin de una variable aleatoria N(0, 1)

F(x) = e 0,5x 2 / 2

DNORM (x)
CNORM (x)

F(x) =

f (t) dt

y la funcin de distribucin logstica


F(x) = 1/ ( 1 + e x )

LOGIT (x)

y de simulacin, o generacin de series de nmeros aleatorios


RND
NRND

nmeros uniformes en (0, 1)


nmeros normales N(0, 1)

As, por ejemplo,


> GENR y = NRND
genera una serie yt mediante simulacin, de tipo ruido blanco que
proviene de una distribucin N(0, 1).
41.

Para el manejo de variables retardadas existen varias posibilidades; la serie xt b se representa como
x(b),
y las diferencias y d , mediante las funciones
D(x)

D(x, d),

respectivamente. La diferencia estacional s se obtiene con la funcin


D(x, s)
y si se combinan los operadores anteriores, se usa
D(x, d, s)
para representar la serie
d s x t = ( 1 B ) d ( 1 B s )x t ,
siendo el operador B tal que
B s xt = xt s .

Bx t = x t 1
Por ejemplo, si se usa la orden
> LS

x( 1)

x( 2)

241
7.6 TRANSFORMACIONES

242

se estima el modelo con variables retardadas

MICRO-TSP

yt = a + b0 xt + b1 xt 1 + b2 xt 2 + t ,
o si se ejecuta
> LS D(y, 2)

se estima el modelo
2 y t = a + bx t + t .
42.

Con la siguiente secuencia de instrucciones se genera una variable


t que toma los valores 1, 2, , 10 correspondientes a los aos 1981 a
1990:
> SMPL 81 81
> GENR t = 1
> SMPL 82 90
> GENR t = t (1) + 1
Existen varias funciones relacionadas con series temporales; as
> SMPL 81 90
> GENR t = @TREND(81) + 1
genera la misma variable t = 1, 2, , 10 durante los aos 1981 a 1990.
El argumento de la funcin es una fecha en la cual la variable generada toma el valor cero y va decreciendo hacia el pasado e incrementndose hacia el futuro.
La funcin
@SEAS (m)
genera una variable de tipo 0/1 en un espacio de trabajo con series
mensuales o trimestrales. La funcin toma el valor 1 en el mes "m" (o
en el trimestre "m") de cada ao, y cero en el resto. Por ejemplo, las
instrucciones
> SMPL 1983.1 1992.4
> GENR t =@TREND(83.1)+1
> GENR x1=@SEAS(1)-@SEAS(4)
> GENR x2=@SEAS(2)-@SEAS(4)
> GENR x3=@SEAS(3)-@SEAS(4)
> LS Ventas c t x1 x2 x3
generan la serie t = 140 y las variables artificiales
xi = 1
1
0

en el trimestre i-simo de cada ao


en el ltimo trimestre de cada ao
en los otros dos trimestres

para i = 1, 2, 3, y a continuacin se estima el modelo


Ventas t = b 0 + b 1 t + a 1 x 1 + a 2 x 2 + a 3 x 3 + t
correspondiente a una serie temporal trimestral de ventas, con tendencia lineal y ciclo estacional aditivo representado mediante la funcin
Ct = a1 x1 + a2 x2 + a3 x3 .
Otras funciones relativas a series temporales son:
@MOVAV (x, m)
@MOVSUM (x, m)
43.

genera una media mvil de amplitud m


genera una suma mvil de amplitud m

Tambin hay otras funciones que calculan la funcin de distribucin de varias distribuciones estadsticas en todos los puntos correspondientes a los valores de una serie:
@CNORM (x)
@TDIST (x, g)
@CHISQ (x, g)
@FDIST (x, n, d)

44.

Normal tipificada
t de Student
Chi-cuadrado
F de Snedecor

Algunas funciones, en lugar de generar una serie, calculan un valor escalar que depende de todos los datos de una variable o serie:
@MEAN (x)
@VAR (x)
@SUM (x)
@SUMSQ (x)
@OBS (x)
@COV (x, y)
@COR (x, y)
@CROSS (x, y)

45.

N(0,1)
t(g)
2(g)
F(n, d)

valor medio de la variable x


cuasi varianza de x
suma de los valores de x
suma de los cuadrados de los valores de x
nmero n observaciones
covarianza entre las variables x e y
correlacin entre las variables x e y
producto escalar de x por y

Otros valores escalares se pueden almacenar en el vector predefinido


C = ( C 1 , C 2 , , C 10 ).
Por ejemplo,
> GENR C(1) = 3.14159
> GENR C(2) = SQR(2)
> GENR f = 1/(SQR(C(1))*C(2))*EXP(0.5*x*x)

243
7.6 TRANSFORMACIONES

244

generan dos variables C(1) y C(2) que luego se usan para obtener la
variable f.

MICRO-TSP

46.

Al ejecutar la orden de estimacin de un modelo con la orden LS


o con otras instrucciones de estimacin, se generan varias variables
escalares relacionadas con el proceso:
@R2
@RBAR2
@SE
@SSR
@DW
@F
@LOGL
@REGOBS
@MEANDEP
@SDEP
@NCOEF

47.

coeficiente de determinacin r2
coeficiente r 2
cuasi-desviacin tpica residual s e
suma de cuadrados residual S e
estadstico de Durbin-Watson
estadstico F del anlisis de la varianza
logaritmo del mximo de la funcin de
verosimilitud
nmero de observaciones n
media de la variable endgena y
cuasi-varianza de y, s y2
nmero de coeficientes estimados.

Se puede usar TSP como una calculadora con la instruccin


> = expresin
Por ejemplo,
= LOG (3.14) + 3
evala la expresin ln (3,14) + 3, y presenta el resultado en pantalla.
Esta posibilidad de TSP puede servir para probar distintas transformaciones que se han visto.

48.

X DB

El siguiente tipo de transformacin se utiliza para convertir la frecuencia de una serie mensual en trimestral o anual o viceversa. Como
no se pueden mantener en el mismo espacio de trabajo dos series con
distinta periodicidad, es necesario usar dos ficheros .DB, tal y como
se indica al margen. Esto se consigue con la orden

Y DB

o bien

> CONV (Q, modo)

> CONV (A, modo)

dependiendo de si la serie yt es trimestral o anual (la serie xt deber


ser de periodicidad mayor). El modo de la transformacin indica
cmo se realiza el proceso de agregacin, y toma los valores
A
S
n

para promediar los valores de x t sobre los


trimestres o aos
para sumar los valores de x t
para indicar el valor n-simo de x t que se
selecciona en cada perodo de agregacin.

Para convertir una serie anual yt en mensual xt se usa la orden


> CONV (M)

7.7 PROGRAMAS TSP


49.

Las instrucciones TSP que se han ejecutado de forma interactiva


se pueden introducir en un fichero de tipo texto para ser ejecutadas
posteriormente sin que haya que teclearlas de nuevo; esto es til
cuando hay que usar un mismo bloque de instrucciones varias veces.
Supngase que en un fichero SERIES.WF se han almacenado las
series yt y xt trimestrales (el perodo muestral comienza en el primer
trimestre de 1986) y que se va a trabajar con este fichero y con una variable temporal t = 1, 2, , n y una variable zt = ln (yt); variables que
hay que generar. As, al iniciar el proceso, se teclean las siguientes instrucciones
> LOAD series
> GENR z = LOG (y)
> GENR t = @TREND (86.1) + 1
Si este mismo bloque de instrucciones se va a utilizar varias veces, es
conveniente incluirlo en un fichero de tipo texto que se llamar, por
ejemplo, INICIO; entonces, cuando sea necesario, en lugar de teclear
todas las instrucciones se ejecuta la orden
> RUN inicio
que carga este fichero y ejecuta las instrucciones que contiene.

50.

Tambin estas instrucciones pueden ejecutarse directamente al


arrancar el programa TSP desde el sistema operativo DOS, llamando al programa TSP.EXE y dando como argumento el nombre del fichero texto donde se han almacenado las instrucciones:
C:\TSP > TSP inicio
que entra en el entorno TSP y ejecuta las instrucciones contenidas en
el fichero INICIO.

51.

Adems del editor de datos (DATA) y del editor de grficos (al


que se accede con varias rdenes como PLOT, SCAT, LS ), TSP
dispone de un editor de textos al que se accede con la orden
> EDIT fichero
que crea o edita el fichero. Es un editor de lneas (similar al EDLIN del
DOS), que se usa sin salir del TSP. Este editor tiene varios mandatos,
siendo los ms usados los siguientes:

245

7.7 PROGRAMAS MTSP

246

.X
.Q
.E n
.L
.D n
.I
.H

MICRO-TSP

salir del editor a TSP


salir del editor sin guardar los cambios
editar la lnea n-sima
listar
borrar la lnea n-sima
insertar lnea
ayuda

Adems, en la parte superior de la pantalla aparece una ventana


de ayuda con las rdenes del editor.

52.

En los ficheros de texto del programa TSP se pueden incluir instrucciones de bucles. Por ejemplo, si el fichero ARTIFIC contiene las
instrucciones
LOAD serie1
EXPAND 86.01
93.12
GENR t = @TREND (86.01) + 1
FOR
!1 = TO 11
GENR X!1 = @SEAS (1!) @SEAS (12)
NEXT !1
SMPL 86.01
92.12
y se ejecuta su contenido con
> RUN artific
se carga el fichero SERIE1.WF definiendo el espacio de trabajo comprendido entre enero de 1986 y diciembre de 1992, se expande este
espacio de trabajo incluyendo el ao 1993, se genera la variable t = 1,
2, , 96 y las once variables artificiales x1, x2, , x11 con el bucle FOR;
estas variables toman los valores

1
x it = 1
0

en el mes i-simo de cada ao


en el mes de diciembre de cada ao
en los restantes meses

y se usarn en la representacin de un ciclo estacional. Por ltimo se


restaura el rango activo al perodo 198692.
53.

Los programas escritos en TSP y almacenados en ficheros de tipo


texto pueden contener cualquier instruccin. A veces es necesario
transmitir parmetros a un programa, para que ste se ejecute teniendo en cuenta los valores de aqullos. Por ejemplo, si se quiere definir
la media mvil
1
y t = M 5 x t = ------ ( 3x t 2 + 12x t 1 + 17x t + 12x t + 1 + 3x t + 2 )
35
mediante un programa, se deben introducir los parmetros %0 y %1
en lugar de los nombres de las series xt e yt para que este programa
pueda aplicarse sobre cualquier serie. Para conseguir este objetivo en
el fichero texto M5 se incluye la instruccin
GENR %1=(3*%0(2) + 12*%0(1) + 17*%0+12*%0(+1) 3*%0(+2))/35.

As, si se ejecuta este programa utilizando los parmetros Renta y


Mrenta
> RUN M5 Renta
Mrenta
se genera la media mvil
Mrentat = M5 Rentat.
No hay que olvidar reducir el rango activo quitando las dos primeras y las dos ltimas observaciones.
7.8 ESTIMACIN DE MODELOS UNIECUACIONALES
54.

La estimacin de un modelo lineal


y t = b 0 + b 1 x 1t + + b k x kt + t
se realiza con la orden
> LS

x1 xk

que adems de estimar el modelo y calcular los tests usuales sobre el


mismo, obtiene opcionalmente los residuos e incluso los grficos de
los residuos respecto de los valores estimados.

247
7.8 ESTIMACIN DE MODELOS
UNIECUACIONALES

248

Los resultados de la estimacin quedan almacenados en una serie


de variables internas que ya se han estudiado; por ejemplo,

MICRO-TSP

@SE

se

@SSR

S =

@COEF

@REGOBS

2
t

t=1

Los residuos se asignan a una variable con la orden


> GENR e = RESID
55.

Si el modelo est afectado de heterocedasticidad, y sta se ha modelizado, o sea que se conoce la funcin
g(t) = c 2t
se define la variable
v t = 1/ g(t)
con la que se aplica el mtodo de Aitken o de mnimos cuadrados generalizados. En TSP esto se realiza con la orden
> LS (W = v)

56.

x1 xk

En el caso de existir autocorrelacin en los residuos, stos se pueden modelizar como un modelo ARMA(p, q) con la orden
> LS

x1 xk AR (1) AR (p) MA (1) MA (q)

estimndose adems el modelo, por el mtodo de Aitken, mediante la


representacin de los residuos
et = 1 et 1 + + p et p + at + 1 at 1 + + q at q
en donde at es una serie sin estructura de heterocedasticidad o autocorrelacin.
Ntese el signo "+" en la parte de media mvil del modelo ARMA
anterior, a diferencia de la notacin que se usar en los captulos de
series temporales.
57.

Las variables que intervienen en un modelo pueden ser retardadas; as para estimar
yt = b0 + b1 yt 1 + b2 xt + et

249

se usa la orden
> LS

y(1)

y en el caso que una variable explicativa aparezca con muchos retardos, se recomienda el uso de un polinomio de retardos distribuidos
de Almon. Si el nmero mximo de retardos es r y el orden del polinomio de Almon es s, el conjunto de retardos distribuidos de xt se expresa con la funcin
P(x, r, s, m)
en la que el parmetro m toma los valores 1, 2 y 3 en funcin de que
el polinomio de Almon est restringido por la izquierda, por la derecha o en ambos extremos.
Por ejemplo, para estimar el modelo
y t = b 0 + a 0 x t + a 1 x t 1 + a 2 x t 2 + + a 10 x t 10 + e t ,
y si se supone que los coeficientes a0, a1, , a10 van a ir tendiendo hacia cero al aumentar el retardo, se puede usar un polinomio de Almon
de grado 3 con la restriccin por la derecha. En TSP esto se realiza
con la orden
> LS y c P(x, 10, 3, 2)
Cabe que en un mismo modelo existan varias variables explicativas afectadas de muchos retardos y que se representen mediante polinomios de Almon distintos.
58.

Para realizar predicciones con un modelo uniecuacional es necesario disponer de los datos de las variables explicativas correspondientes a los instantes en los que se desea una prediccin.
Por ejemplo, si se ha estimado el modelo
y t = a + bx t + e t

t = 1n

y se desean obtener las predicciones


y n + 1 , y n + 2 , , y n + k ,
es preciso conocer los valores futuros de la variable explicativa
x n + 1 , x n + 2 , , x n + r ,
que deben ser introducidos en el espacio de trabajo, por ejemplo con
la instruccin DATA. Si el espacio de trabajo se ha definido para el intervalo temporal de las observaciones 1 a n, es necesario ampliar el
rango del espacio de trabajo con la instruccin

7.8 ESTIMACIN DE MODELOS


UNIECUACIONALES

250

> EXPAND t n + 1 t n + r

MICRO-TSP

en el que [tn + 1, tn + r] son las fechas del intervalo de prediccin.


Posteriormente hay que definir como rango activo el correspondiente al perodo de prediccin
> SMPL

tn + r

tn + 1

e introducir los valores xn + 1, xn + 2, , xn + r, o bien estimarlos con un


modelo auxiliar. La variable y t para t = n + 1, , n + r,
> FORCST
59.

Si el modelo es no lineal (en los parmetros) se estima con la orden


NLS. Por ejemplo, si se desea estimar la funcin de produccin de
Cobb-Douglas
y t = a 0 x 1a1 x 2a2 + t ,
se usa la orden
> NLS y = c(1) *x1c(2) *x2c(3)
en la que los parmetros a estimar a0, a1, a2 se tienen que denominar
respectivamente c(1), c(2) y c(3). Es posible asignar valores iniciales a
estos parmetros con la orden
> PARAM

5.0

10

1.0

en los que se ha partido de los valores a0 = c(1) = 5, a1 = c(2) = 10 y a3 =


c(3) = 1, en el proceso de estimacin no lineal.
60.

Otros modelos no lineales son los modelos cuya variable endgena yt es binaria (0/1). El modelo logstico
1
y = Pr(y = 1) = -----------------------------------------------------1 + e ( b0 + b1 x1 + + bk xk )
se estima con la instruccin
> LOGIT

x1 xk

aunque el valor estimado y que se estima es Pr(y = 0) = 1 Pr(y = 1).


El modelo Probit
y = Pr(y = 1) = F(b 0 + b 1 x 1 + + b k x k)
en el que F(z) es la funcin de distribucin de una variable N(0, 1) se
estima con la instruccin
> PROBIT

x1 xk

ANEXO I. ALGUNOS PROGRAMAS AUXILIARES


1 Estimacin mnimo cuadrtica y descripcin de datos

El programa REGRE.EXE realiza los clculos bsicos de estimacin


mnimo-cuadrticos del modelo uniecuacional
y = 0 + 1 x1 + + k xk +
Los datos de cada una de las variables que intervienen en el modelo
deben estar contenidos en ficheros .DB, o sea exportados desde un entorno de trabajo TSP con la orden STORE.
Adems de proporcionar los estimadores de los coeficientes, la varianza residual y la tabla de residuos, este programa calcula las matrices de la regresin XX, Xy y (XX) 1, y, si se le suministran unos
valores de las variables predeterminadas, obtiene la prediccin por
punto y por intervalo de la variable y.
El programa MOMEN.EXE tambin toma como datos de entrada
un fichero .DB, y calcula los estadsticos descriptivos bsicos de una
serie de datos.
2 Redondeo de una variable

El programa REDONDEA.EXE lee un fichero .DB y permite redondear los datos de una variable al entero ms prximo, o a la dcima,
centsima, milsima, etc. ms prxima.
Es til en procesos de simulacin en los que, despus de generar
una variable con las rdenes NRND o RND, se desean truncar algunos decimales antes de almacenar los datos en un fichero. El proceso
a seguir es:
a. Se graba un fichero .DB con la variable a redondear, con la orden
STORE variable.
b. Se realiza una salida temporal al sistema operativo tecleando
SYSTEM
Puede ser necesario ejecutar la orden CD del DOS para situarse en
el directorio correspondiente al fichero .DB.
c. Se ejecuta el programa REDONDEA.EXE que pedir el nombre
del fichero .DB y el nmero de decimales a conservar, y se vuelve
al entorno TSP tecleando
EXIT
d. Por ltimo se carga el fichero .DB que contendr la misma serie
redondeada con la orden
FETCH variable
Una vez concluido este proceso, se puede almacenar el entorno
con los datos redondeados con la orden SAVE.

251
ANEXO I. ALGUNOS PROGRAMAS
AUXILIARES

252
MICRO-TSP

3 Editor de series temporales

El programa EDS.EXE es un editor de series temporales que dispone


de una interfaz con TSP y con Dbase. Adems de la edicin de series
con un entorno integrado similar a los de Borland, permite realizar
operaciones usuales con series temporales. La base de datos de series
temporales gestionada por este programa permite mantener informacin sobre los datos de forma cmoda en una estructura de fichero de
tipo texto con la extensin .SER, cuyo contenido es ms extenso que
los ficheros .DB de TSP. Incorpora un editor ms potente que el usado con la orden DATA y la periodicidad de las series no est limitada
a los datos anuales, trimestrales y mensuales. En el fichero LEEME.TXT aparecen una descripcin general y las normas de instalacin.
4 Anlisis espectral de una serie

El programa SPECTRO.EXE realiza el anlisis espectral de una serie


contenida en un fichero .DB. Permite seleccionar una de las siguientes
ventanas espectrales: Tukey, Parzen o Bartlett, as como la amplitud
m de la ventana k, k = 1, 2, , m elegida.

EJERCICIOS PROPUESTOS

253
EJERCICIOS PROPUESTOS

1. Definir un espacio de trabajo para trabajar con datos mensuales


comprendidos en el intervalo enero de 1990 a diciembre de 1992.
Introducir una serie temporal yt cualquiera y generar una nueva
variable mediante la transformacin logartmica. Grabar el espacio de trabajo en un fichero .WF y la serie yt en un fichero .DB. Borrar la serie yt del espacio de trabajo y luego cargarla del fichero
.DB. Dibujar las series anteriores usando diversas escalas y hallar
los parmetros descriptivos bsicos. Reducir el perodo del rango
activo al ao 1992 y dibujar la serie yt. Salir de TSP.
2. Definir un espacio de trabajo para datos anuales comprendidos
entre 1960 y 1992. Obtener mediante simulacin la serie at, de forma que sta sea un ruido blanco y su desviacin tpica sea 5. Generar la serie t = 1, 2, , 33 y las series
y t = 100 + 0,25t + a t
z t = 0,7z t 1 + a t ,

z 1960 = 0

dibujarlas y estimar los modelos


y t = a + bt + t
z t = bz t 1 + t .
Grabar las series anteriores en ficheros .DB. Salir del espacio de trabajo e intentar cargar los ficheros.
3. Con los datos del ejemplo anterior ensayar distintas transformaciones estudiadas y dibujar la serie y t , z t y a t .
4. Definir un espacio de trabajo para datos trimestrales entre 1950 y
1994. Generar una serie t = 1, 2, , 45 y unas variables artificiales
x1, x2, x3 para representar un ciclo estacional (xi = 1 en cada trimestre i-simo, xi = 1 en cada cuarto trimestre y xi = 0 en los otros dos
trimestres de cada ao); mediante simulacin obtener la serie aleatoria a t N(0; 10 2) y a partir de sta

t = 0,5 t 1 + 0,2 t 2 + a t
tomando 1 = a1 y 2 = a2. Obtener la serie
y t = 200 0,05t + 0,01t 2 + 5x 1t 3x 2t 6x 3t + t
y dibujarla, as como las series t y at. Estimar el modelo anterior teniendo en cuenta su estructura de autocorrelacin.

254

5. Generar las series mensuales yt, zt y xt siguientes

MICRO-TSP

y t = 0,8y t 1 + a t
z t = a t 0,8a t 1
x t = 200 6t + 0,05t 2 + 20 cos (2 t/12) + 5 cos (4 t/12) +
+ 8 sen (2 t/12) + t
siendo alternativamente t = yt y t = zt, y at un ruido blanco N(0;
152). El espacio de trabajo corresponde a los aos 199094. Dibujar
estas series y estimar los correspondientes modelos.

8
TSP

8.1 INTRODUCCIN
1.

2.

El paquete TSP es realmente un lenguaje de programacin para


anlisis de datos y estimacin de modelos economtricos y de series
temporales. Es fcil de usar y existe una versin para microordenadores y otra para equipos multiusuario. Aunque son dos paquetes diferentes, muchas rdenes de TSP son idnticas o muy similares a las de
TSP.
Los modos de operacin de TSP son
interactivo y
por lotes.
Por lo general, cuando se utiliza un ordenador multiusuario es
ms cmodo el proceso por lotes, que consiste en ejecutar un bloque
de instrucciones o programa TSP que previamente se ha escrito en un
fichero, empleando un editor de texto, y se ha guardado en disco.

Pantalla

Editor

Pantalla

TSP

Impresora
Fichero TSP

Fichero
de salida

En un microordenador el modo interactivo es til para hacer clculos sencillos. Consiste en ir tecleando mandatos u rdenes TSP que

255

256

se ejecutan sucesivamente. No obstante, para realizar clculos ms


complejos es interesante disponer de programas o bloques de instrucciones TSP que se ejecutan mediante una llamada al fichero que los
contiene.

TSP

3.

En un microordenador, una sesin de TSP se inicia mediante la orden


C:\TSP42 > TSP
ejecutada desde el directorio donde est instalado TSP. En un ordenador multiusuario se teclea simplemente
TSP
La pantalla que aparece es la siguiente

En la parte inferior de la pantalla se encuentra el indicador de mandatos de TSP,


1?
que consta de un nmero, un signo de interrogacin y el cursor, esperando que se teclee una orden o mandato TSP (de forma interactiva).
4.

Para acabar la sesin de TSP se teclea


EXIT
en el indicador de mandatos. Despus de ejecutar esta ordena se pierden todos los datos situados en la memoria del ordenador.

5.

Las instrucciones TSP se numeran automticamente al ser ejecutadas. Esta numeracin aparece en los listados de salida (o en la pantalla, en caso de uso interactivo). Cada instruccin o mandato tiene la
siguiente estructura:
orden (opciones) argumentos;
El punto y coma final se puede omitir en el modo interactivo. Las opciones modifican la forma en que se ejecuta la orden, y los argumentos definen el mbito de los clculos. Por ejemplo con la orden:
OLSQ y c x ;
se estima el modelo
yt = + xt + t

t = 1n,

y con la orden
RANDOM (MEAN=10, STDV = 2) X;
se genera una serie xt con datos simulados N(10; 22). En el primer
ejemplo la orden va seguida de argumentos (que definen el modelo),
y en el segundo se proporcionan adems las opciones sobre los parmetros de la distribucin normal.
6.

La informacin que trata TSP son series, que se almacenan en la


memoria del ordenador usando un nombre de hasta 8 caracteres. Las
series cargadas en memoria aparecen con la orden
SHOW
y con la instruccin
HELP
se obtiene una ayuda general. Ambas se usan en modo interactivo.

7.

Para trabajar con TSP es necesario conocer


las rdenes o instrucciones bsicas de TSP,
el sistema de ficheros,
el entorno de trabajo interactivo de TSP y el sistema operativo y el
editor de textos del ordenador donde est instalado TSP.
As, si TSP se ejecuta bajo UNIX, se usar generalmente el editor
Vi, y si se ejecuta en un entorno DOS, se utiliza el editor EDIT.
8.2 UNA SESIN INTERACTIVA DE TSP

8.

Al iniciar una sesin interactiva en un microordenador o estacin


de trabajo UNIX, se crea un entorno de trabajo con la orden

257
8.2 UNA SESIN INTERACTIVA DE
TSP

258

FREQ (frecuencia);

TSP

con la que se define la periodicidad o frecuencia de los datos, que


puede ser
A anual
Q trimestral
M mensual
N otra o datos no temporales.
Por ejemplo, si se van a manejar series anuales, se usa la orden
FREQ (A)
Aunque se puede aadir un punto y coma al final de cada instruccin,
esto no es requerido en el uso interactivo.
El rango de datos se define con la orden

9.

SMPL fecha inicial fecha final;


Por ejemplo, si las series que se manejan son mensuales y corresponden a todos los aos de la dcada que comienza en 1981, se usa
SMPL 81:01 90:12
o si fuesen datos trimestrales
SMPL 81:1 90:4
Las fechas pueden separarse mediante una coma
SMPL 81:1 , 90:4
y no abreviar la cifra del ao.
La introduccin de datos se realiza con la orden

10.

LOAD lista de variables;


As, para introducir las series anuales xt e yt correspondientes al perodo 19851994

x
y

697 814 963 1122 1224 1369 1539 1780 2161 2605 2915
993 1078 1186 1326 1434 1549 1718 1918 2156 2414 1627

259

se ejecutan las rdenes


FREQ
SMPL
LOAD
697
LOAD
993
o bien

11.

A
85,94
x
814 963
y
1078 1186

8.2 UNA SESIN INTERACTIVA DE


TSP

2915
2627

FREQ x y
697
993
814
1078

2915
2627

Una orden interactiva para introducir datos similar a LOAD es


ENTER x
que va pidiendo uno a uno los datos.
La instruccin
UPDATE x
se usa para modificar algn dato de la serie xt. Al ser ejecutada pide
la fecha y a continuacin el nuevo dato.

12.

Si un dato falta en una serie, se usa un punto en lugar del dato para
indicar a TSP que no est disponible.

13.

En la prctica es ms frecuente tener almacenados los datos en un


fichero externo creado con el editor; si por ejemplo con el editor del
sistema operativo se ha creado el fichero DATOS.DAT con la matriz
de datos anterior (con 10 filas y 2 columnas), la orden
READ (FILE = datos.dat) x y
lee el fichero de datos y asigna los nombres de las variables x e y a las
dos columnas de este fichero. Tambin puede leerse directamente un
fichero creado con Lotus 123 incluyendo su extensin .WKx.

14.

Todo el entorno de trabajo y las variables con sus datos se almacenan en un fichero binario terminado con la extensin .SAV con la orden
SAVE fichero
el cual se puede recuperar con la instruccin
RESTORE fichero

260

15.

TSP

Una vez introducidos, los datos pueden visualizarse en la pantalla


con la orden
PRINT x y
Para obtener unos estadsticos descriptivos bsicos, como medias,
cuasi-desviaciones tpicas, coeficientes de asimetra y otros, se utiliza
la instruccin
MSD x y
La matriz de correlacin se obtiene con la orden
CORRE x y

16.

Para gestionar las variables introducidas se dispone de varias instrucciones. As,


SHOW
muestra los nombres de las series existentes en memoria,
DELETE variables
borra una o varias variables, y
RENAME x z
cambia el nombre de la variable x en z.

17.

En el manejo interactivo de TSP, adems de la orden SHOW para


visualizar las variables, con la instruccin
REVIEW
se obtiene un listado de las instrucciones que se han ido tecleando en
la sesin de trabajo. Tambin con la orden interactiva
FIND instruccin
se localiza una determinada instruccin previamente ejecutada, y se
la edita, pudindosela ejecutar posteriormente sin necesidad de teclearla de nuevo.

18.

Con la orden interactiva


EDIT n

se edita la instruccin n-sima; el modo edicin de este editor de instrucciones tiene varios mandatos:
DEL
REP
INS
EXIT

texto
texto1 texto2
texto1 texto2

Borra una palabra


Sustituye la primera palabra por la segunda
Inserta el texto 1 despus del texto 2
Sale del editor

La orden modificada se puede ejecutar tecleando


EXEC n
Una instruccin que combina el editor EDIT con la orden EXEC al finalizar la edicin es
RETRY n
19.

Con la orden interactiva


SYSTEM
se sale temporalmente al sistema operativo, sin interrumpir la sesin
de TSP, a la que se vuelve tecleando EXIT.

20.

Si en un fichero texto o macroinstrucciones cuya extensin es .TSP,


se ha introducido una secuencia de rdenes, con la instruccin
INPUT fichero
se cargan y ejecutan las instrucciones contenidas en este fichero.

21.

Para ir almacenando en un fichero texto los resultados de las rdenes ejecutadas se usa la instruccin
OUTPUT fichero
y se le aade al nombre de este fichero la extensin .OUT.
La instruccin
TERMINAL
cambia de nuevo la salida hacia la pantalla.
8.3 UNA SESIN EN PROCESO POR LOTES

22.

En un ordenador multiusuario (y tambin en un microordenador)


TSP se ejecuta de forma no interactiva incluyendo un fichero, terminado con la extensin .TSP, una serie de instrucciones que se ejecutan

261
8.3 UNA SESIN EN PROCESO POR
LOTES

262

sucesivamente. Los resultados se almacenan en un fichero con la extensin .OUT (o .LIS en algunos sistemas). El fichero de entrada se
crea con un programa editor (EDIT, VI, SED, etc.) asociado al sistema
operativo (DOS, UNIX, AOS, etc.) y el de salida se visualiza con una
orden como

TSP

TYPE fichero.OUT o bien LS fichero.OUT


Para imprimirlo se utilizan rdenes del sistema operativo como
PRINT fichero.OUT
23.

Al final de las instrucciones TSP se escribe un punto y coma (;). Si


una instruccin ocupa ms de una lnea, se acaba la primera con el carcter \ y se contina en la lnea siguiente.
Los comentarios, o lneas no ejecutables, comienzan con el carcter ?.
Es recomendable introducir comentarios en distintos lugares del programa para aumentar su legibilidad.

24.

El fichero ICAP8.TSP que se reproduce a continuacin incluye instrucciones para realizar una serie de clculos y operaciones:
Lee, en un fichero ICAP8.DAT, los datos de las variables xt e yt correspondinetes al ejemplo del apartado anterior Una sesin interactiva de TSP.
Realiza unos clculos estadsticos bsicos y estima el modelo
yt = + xt + t
El fichero incluye las siguientes lneas
? Ejemplo con TSP
OPTIONS CRT ;
FREQ A ;
SMPL 85 94 ;
? Lectura de datos desde un fichero
READ (FILE='icap8.dat') x y ;
? Clculos estadsticos
MSD x y ;
OLSQ y c x ;
END ;
La instruccin
OPTIONS CRT ;
ajusta la salida a los 80 caracteres que tiene la pantalla. Si los datos se
incluyen en el fichero de entrada, se sustituye la instruccin READ
por

LOAD
697
814

2915

x y ;
993
1078

2627 ;

Obsrvese que slo se escribe punto y coma al final de la matriz de datos.


25.

El fichero de salida ICAP8.OUT incluye, adems de las instrucciones de entrada, los resultados del proceso de clculo. Si hubiera habido algn error en las rdenes TSP, tambin incluira los correspondientes mensajes de error.

8.4 INSTRUCCIONES DE TSP


26.

Las rdenes o instrucciones TSP se combinan para formar un programa en el cual se hallan bsicamente los siguientes grupos de instrucciones:
Generales de un programa
Declaracin del entorno y de los datos
De acceso a ficheros
Transformaciones
Ordenes de tipo matricial y de programacin
Estimacin de modelos
Uniecuacionales
Multiecuacionales
Series temporales

263
8.4 INSTRUCCIONES DE TSP

264

Grficos
Interactivas

TSP

27.

Las instrucciones generales ms usadas en proceso por lotes son:


OPTIONS
TITLE
NAME
PAGE
PRINT
NOPRINT
MSD
CORR
COVA
CDF
END
LOAD

28.

Las instrucciones que se utilizan con mayor frecuencia para declarar el entorno de trabajo y el rango de los datos son:
FREQ
SMPL
SELECT
SIMPLIF

29.

Define la periodicidad de los datos: anuales (A), mensuales (M), trimestrales (Q) u otra (N)
Define el rango activo de las series para los clculos
posteriores
Selecciona un subconjunto de datos que cumplan una
condicin
Selecciona un subconjunto de datos que cumplan una
condicin dentro del rango activo

El acceso a ficheros se realiza mediante las siguientes instrucciones:


READ
WRITE
CLOSE

30.

Opciones de control del formato de salida y de activacin de grficos de residuos


Ttulo o cabecera de cada pgina
Ttulo de un programa
Salto de pgina en cualquier punto de un programa
Impresin de datos, opcionalmente con formato
Elimina el listado de los datos de entrada
Estadsticos descriptivos bsicos
Matriz de correlacin
Matriz de covarianzas
Tablas estadsticas
Fin de programa
Entrada de datos incluidos en el programa

Lee los datos desde un fichero y genera variables


Escribe datos en un fichero o impresora
Cierra los ficheros abiertos con READ/WRITE

Las transformaciones de datos en TSP son muy variadas; incluyen


la generacin de nuevas variables mediante operaciones aritmticas,
lgicas y relacionales, y la normalizacin, simulacin y seleccin de
subconjunto de datos:
GENR
TREND
DUMMY
CONST

Genera una variable mediante una transformacin aritmtica, lgica o relacional


Crea una variable t de tendencia
Genera variables artificiales estacionales para series trimestrales o mensuales
Define una serie de valores constantes

PRIN
RANDOM
SAMA
SORT
NORMAL
CONVERT
CAPITL

Obtiene las componentes principales de un grupo de


series
Genera series simuladas normales (uni o multivariantes), uniformes, de Poisson o empricas (bootstrap)
Alisa una serie eliminando la componente estacional
Ordena los datos de forma creciente
Normaliza una serie
Cambia la periodicidad de una serie mensual a trimestral o anual, y de una trimestral a anual
Acumula el capital a partir de una serie de inversiones

Las instrucciones SMPL, SELECT y SMPLIF permiten seleccionar


subconjuntos de casos.
31.

Las rdenes usuales de programacin son:


DO/ENDDO
DOT/ENDDOT

Bucles de instrucciones que se repiten variando


un ndice
Bifurcacin condicional
IF/THEN/ELSE
Bifurcacin incondicional
GOTO
PROC/ENDPROC Definicin de un subprograma de instrucciones
TSP
Produce una parada en la ejecucin
STOP
32.

Las rdenes matriciales permiten realizar operaciones con matrices:


MMAKE
UNMAKE
MAT
INV
YFACT

Genera una matriz a partir de una o varias serie


Crea series a partir de una matriz
Realiza distintos tipos de operaciones con matrices
Matriz inversa
Factorizacin de la matriz X en otra S tal que X = SS

Existen operadores que actan sobre matrices para calcular el producto, la inversa, la suma, la traspuesta, as como funciones matriciales para hallar el determinante, los autovalores y autovectores, etc.
33.

La estimacin de modelos uniecuacionales se realiza con las siguientes instrucciones:


OLSQ
AR1
FORCST
FRML
LSQ
PARAM

Estimacin mnimo-cuadrtica ordinaria o ponderada


Estimacin de un modelo con autocorrelacin AR(1)
Prediccin de modelos con autocorrelacin o sin ella
Define una ecuacin no lineal
Estimacin de una ecuacin no lineal
Se usa para dar valores iniciales a los parmetros en
una estimacin no lineal

265
8.4 INSTRUCCIONES DE TSP

266

SUR
ML
PROBIT
LOGIT
TOBIT
FORM

TSP

TSTATS
34.

La estimacin de modelos multiecuacionales se realiza mediante


las siguientes instrucciones:
2SLS
AR1
INST
LIML
LSQ
FRML
IDENT
3SLS
FIML

PARAM
MODEL

SOLVE
SIML
35.

Estimacin seeming unrelated


Estimacin mximo verosmil
Estimacin de un modelo Probit
Estimacin de un modelo Logit
Estimacin de un modelo Tobit
Genera una ecuacin (tipo FRML) a partir de una estimacin lineal
Imprime tabla con coeficientes y estadsticos T

Estimacin de una ecuacin por el mtodo de mnimoscuadrados bietpicos


Igual al anterior, con autocorrelacin de tipo AR(1)
Estimacin de una ecuacin por el mtodo de variables
instrumentales
Estimacin de una ecuacin por el mtodo de mxima
verosimilitud con informacin limitada
Estimacin de una ecuacin no lineal
Definicin o no de una ecuacin lineal
Definicin de una identidad contable
Estimacin de todas las ecuaciones de un modelo mediante el mtodo de mnimos cuadrados trietpicos
Estimacin de todas las ecuaciones de un modelo mediante el mtodo de mxima verosimilitud con informacin completa
Se usa para asignar valores iniciales a los coeficientes o
parmetros a estimar
Instruccin previa a la SOLVE para determinar el orden en que se resolvern las ecuaciones de un modelo
Simulacin de un modelo multiecuacional
Simulacin de un modelo multiecuacional no lineal

El anlisis de series temporales incorpora una serie de instrucciones:


BJIDENT
BJEST
BJFRCST
KALMAN
VAR
ARCH
ACTFIT

Clculo de funciones de autocorrelacin


Estimacin de un modelo ARIMA con o sin estacionalidad
Prediccin con un modelo ARIMA
Estimacin usando el filtro de Kalman
Estimacin de un modelo MARMA y funciones de
transferencia
Estimacin de un modelo GARCH-M
Compara los valores de una serie con sus predicciones

36.

Los grficos se obtienen con una resolucin mayor cuando se usa


un microordenador que en una pantalla de un ordenador central. As
se tienen varias instrucciones:
PLOT
GRAPH
HIST

37.

Dibuja una o varias series temporales


Dibuja un diagrama de dispersin (x, y)
Dibuja un histograma

Numerosas instrucciones slo son aplicables en modo interactivo


(en un microordenador o en una estacin de trabajo):
SYSTEM/EXIT
DIR
REVIEW
SHOW
HELP
FIND
DOC
DELETE
COMPRESS
EDIT/RETRY
EXEC
INPUT
ENTER
UPDATE
ADD
OUTPUT
TERMINAL
SAVE
RESTORE
KEEP
STORE
FETCH
DBLIST
DBPRINT
RECOVER
STOP
QUIT

Salida temporal al sistema operativo


Visualizacin del directorio
Lista de las instrucciones tecleadas
Muestra las variables en el espacio de trabajo
Ayuda de TSP
Busca un mandato previamente ejecutado
Aade descripcin a las variables
Borra variables
Libera memoria de las variables borradas
Editores de instrucciones anteriores
Ejecuta una instruccin anterior
Lee un fichero con rdenes TSP (una macroinstruccin)
Entrada de datos
Modificacin de datos
Aade argumentos a una orden anterior
Redirecciona la salida hacia un fichero
Redirecciona la salida hacia la pantalla
Almacena un espacio de trabajo en un fichero .SAV
Recupera un fichero .SAV
Almacena variables en un fichero .OUT
Almacena variables en la base de datos TSP
Recupera variables de la base de datos TSP
Directorio de variables en la base de datos TSP
Imprime variables de la base de datos TSP
Recupera un programa TSP perdido desde el fichero INDX.TMP
Finaliza guardando una copia de seguridad del entorno
Finaliza la sesin sin guardar el entorno

Las instrucciones GRAPH y PLOT tienen adems unas opciones


especficas usadas en modo interactivo.
38.

Aunque la lista de instrucciones anteriores no es exhaustiva, s incluye la mayora de las rdenes TSP, y puede usarse como ndice para
consulta interactiva con la instruccin HELP o con el manual de referencia TSP, en el cual se encuentran todas las opciones disponibles.

267
8.4 INSTRUCCIONES DE TSP

268

Tambin es necesario tener en cuenta que las instrucciones que slo


funcionan en modo interactivo no pueden usarse en procesos por lotes.

TSP

39.

Adems de las instrucciones anteriores, las rdenes DEBUG y


SYMTAB son tiles en los procesos de depuracin y correccin de
errores de un programa TSP.
8.5 GRFICOS

40.

La instruccin PLOT realiza el grfico temporal de una o varias series temporales. Su forma general es:
PLOT (opciones)

X,

cx,

Y,

cy, ;

en la que X, Y, son los nombres de las series temporales y cx, cy,


son los caracteres que aparecern en el grfico para representar cada
serie. Si se utiliza un microordenador, no se incluye el carcter (cx, cy,
) despus de cada serie.
41.

Las opciones ms frecuentes son:


BMEAN
HEADER
INTEGER
ORIGIN

42.
43.

Dibuja una banda a la altura de la media de una serie


Incluye escala en el eje t
Redondea la escala del eje t
Dibuja una lnea vertical en el origen

Al incluir unas opciones en un grfico, stas quedan asignadas a


los siguientes hasta que se use la opcin RESTORE.
En un microordenador, la instruccin
OPTIONS DISPLAY = tipo de pantalla;
selecciona distintos modelos y marcas de monitores.

44.

En el siguiente programa se pueden apreciar las diferencias de los


grficos obtenidos con TSP en un microordenador y en un ordenador
central: el fichero ICAP8.TSP contiene las instrucciones con el programa cuya salida, incluyendo el listado, aparece en el fichero
ICAP8B.OUT reproducido a continuacin.

269
8.5 GRFICOS

Se puede apreciar que en el punto correspondiente a 1993 aparece el


nmero 2, ya que se cruzan las dos series xt e yt.
45.

En modo interactivo, las dos series anteriores se dibujan ejecutando las instrucciones siguientes:
1?
2?
3?
4?

46.

FREQ A
SMPL 85 94
READ (FILE='ICAP8.DAT') X Y
PLOT X Y

Tambin en modo interactivo se puede obtener el grfico similar


al primero. Por ejemplo
5 ? PLOT (HEADER, ID, INTEGER) X x Y y
genera el grfico

3000
2500
2000
1500
1000
500
85 86 87 88 89 90 91 92 93 94
X
Y

270

47.

TSP

Los grficos o diagramas de dispersin se obtienen con la instruccin


GRAPH

x;

aunque en la versin interactiva en microordenador se pueden incluir


varias series yt y el orden de las series es al revs, o sea
GRAPH y x
o
GRAPH (LINE) x y
que une los puntos sucesivos con una lnea.
Tambin se pueden incluir opciones, como en la instruccin
PLOT.
48.

La tabulacin de unos datos para elaborar un histograma se realiza con la instruccin


HIST (opciones) serie
siendo las opciones ms frecuentes:
DISCRETE
NBINS = n
WIDTH = a

49.

Si la serie es una variable discreta


n es el nmero de clases para el clculo de frecuencias
relativas
a es la anchura de las barras

En el siguiente ejemplo contenido en el fichero ICAP8C.TSP se obtiene un diagrama de dispersin de dos series xt e yt usando la versin
por lotes de TSP. Los datos de las series son proporcionados en el propio programa en lugar de ser ledos desde un fichero.
? Grficos TSP
OPTIONS CRT;
FREQ Q;
SMPL 90:1 93:4;
LOAD x;
110 125 115 151 114 129 120 160 121 135 127 170 125 142 135 178;
LOAD y;
289 311 352 275 300 308 293 390 298 269 288 373 375 428 340 414;
GRAPH y x;
END;

50.

Sin embargo, al ejecutar de forma interactiva las rdenes anteriores, el diagrama de dispersin se obtiene permutando los argumentos
x e y, ejecutando la orden
6 ? GRAPH x y

8.6 TRANSFORMACIONES

271
8.6 TRANSFORMACIONES

51.

Las transformaciones de datos se pueden clasificar en varios grupos:


Seleccin de casos o submuestras
Generacin de nuevas variables mediante transformaciones
Simulacin
Obtencin de variables artificiales y de tendencia

52.

La obtencin de submuestras con las series que estn en el espacio


de trabajo se realiza con tres instrucciones:
SMPL fecha inicial fecha final;
que define como rango activo el especificado entre las dos fechas, y
SELECT condicin;
SMPLIF condicin;
que seleccionan los casos para los que la condicin es cierta. Cuando
se usa de forma repetida, la instruccin SMPLIF va obteniendo un
subconjunto a partir del subconjunto obtenido con la orden SMPLIF
anterior, mientras que la orden SELECT selecciona casos de la muestra original, sin tener en cuenta rdenes anteriores.

53.

Por ejemplo, para definir como rango activo los datos mensuales
comprendidos entre marzo de 1990 y noviembre de 1993, se usa
SMPL 90:03 93:11;
o si los datos son de corte transversal
SMPL 10 20;
selecciona los casos comprendidos entre el 10 y el 20.
La orden
SELECT x > 0;
selecciona los casos para los que la serie xt es positiva y que estn contenidos dentro del rango activo definido en la instruccin SMPL.
Con la instruccin
SELECT x > 0 .AND. y < = 100;
se seleccionan aquellos casos del rango activo para los que simultneamente x t > 0 e y t 100. Tambin se poda haber realizado esta seleccin con las rdenes

SMPLIF x > 0;
SMPLIF y < = 100;

272
TSP

54.

Para eliminar los datos que faltan de las variables xt e yt, se usa la
instruccin
SELECT .NOT. MISS (x) .AND. .NOT. MISS (y);
en la que se han introducido la funcin MISS, que detecta los datos
que faltan, y el operador .NOT. o negacin lgica. Esta eliminacin de
los datos que faltan es necesaria con las instrucciones relativas a series
temporales, incluida la orden AR1, aunque no se necesita con los procedimientos de estimacin OLSQ, LSQ y similares. Si se ejecuta
SELECT 1;
se eliminan las restricciones impuestas por la instruccin SELECT anterior.

55.

La obtencin de nuevas variables mediante transformaciones se


realiza con la instruccin
GENR variable = expresin;
que genera una nueva variable, calcula la expresin y le asigna su valor, para t = 1, 2, , n.

56.

Los operadores que intervienen en una expresin son de varios tipos:


Aritmticos:
**
* /
+

elevacin a potencia
producto y cociente
adicin y sustraccin

Relacionales:
=
>
<

^=
>=
<=

igual y no igual
mayor y mayor o igual
menor y menor o igual

Lgicos:
.AND. o &
.OR. o
.NOT. o

interseccin lgica (y)


unin lgica (o)
negacin lgica

57.

Adems estn disponibles varias funciones:


LOG(x)
ABS(x)
SQRT(x)
SIN(r)
TAN(r)
NORM(x)
CNORM(x)
EXP(x)
LOG10(x)
COS(r)
ATAN(x)

logaritmo neperiano
valor absoluto
raz cuadrada
seno de un ngulo
tangente
funcin de densidad N(0, 1)
funcin de distribucin N(0, 1)
exponencial
logaritmo decimal
coseno
arco tangente

Los ngulos de las funciones trigonomtricas se expresan en radianes.


Por ejemplo, si el perodo muestral es SMPL 88:01 94:12, la instruccin
GENR z = EXP (x + 1) + LOG (y)
genera la variable
z t = e xt + 1 + ln (y t)

t = 184

para los 84 datos comprendidos en el perodo muestral.


58.

Las variables artificiales usadas en la representacin de ciclos estacionales se obtienen con la orden
DUMMY var;
En un espacio de trabajo cuya frecuencia es
FREQ Q;
la orden genera 4 variables artificiales
var1, var2, var3, var4
que toman los valores 1 y 0; la variable vari es igual a 1 en cada trimestre i-simo, y 0 en el resto.
Si la frecuencia de los datos es mensual, se generan 12 variables artificiales
var1, var2, var3, , var12
como las anteriores.

273
8.6 TRANSFORMACIONES

274

59.

TSP

La instruccin que genera una variable t que toma los valores 1,


2, , n es
TREND t;

60.

La obtencin de series mediante simulacin es til para fijar conceptos: si se obtiene un conjunto de datos mediante un modelo conocido, se puede intentar descubrir ste y as comprobar la capacidad
para especificar correctamente modelos economtricos. La instruccin general de obtencin de datos simulados es
RANDOM (opciones) variables;
Por ejemplo, las instrucciones
FREQ N;
SMPL 1
1000;
RANDOM z;
HIST z;
generan 1000 nmeros aleatorios zt, n = 1, 2, , 1000, de tipo N(0; 1)
y dibujan un histograma. La instruccin
RANDOM (UNIFORM) x;
genera nmeros aleatorios en el intervalo (0, 1), y
RANDOM (MEAN = 5, STDV = 0,3) y;
produce nmeros aleatorios N(5; 0,32). De igual forma
RANDOM (MEAN = 3, POISSON) v;
genera una serie vt que se ajusta a una distribucin P( = 3).

61.

Para obtener datos simulados que se ajusten a una distribucin


normal multivariante, por ejemplo
x
t N 0 ; 5 2
y t
0 2 1
hay que usar dos instrucciones: la primera para almacenar la matriz
de covarianzas, y la segunda para la simulacin
LOAD (TYPE = SYM, NROW = 2) matriz;
5
2
1
RANDOM (VCOV = matriz) x y;

62.

Para obtener un conjunto de 20 muestras generadas a partir de una


serie xt original, y con la misma distribucin emprica, se usa la secuencia de instrucciones
DOT 120;
RANDOM (EDF = x)
ENDDOT;

y;

Las 20 muestras simuladas se denominan y1, y2, , y20, y se pueden


emplear en estimacin de tipo bootstrap.
63.

El cambio de base de un ndice se consigue con la instruccin


NORMAL x, m, 100;
que cambia la serie xt por la serie
100 xt/xm.

64.

La obtencin de una serie xt (mensual o trimestral) desestacionalizando la serie original xt mediante medias mviles se realiza con la
instruccin
SAMA x y;
La amplitud es s + 1 siendo s = 4 para una serie trimestral y s = 12, si
la serie es mensual.

65.

Para obtener las k primeras componentes principales, o un nmero menor de ellas que explique por ejemplo el 95% de la varianza de
unas variables
x 1t , x 2t , , x rt
se usa la instruccin
PRIN (NAME = y, NCOM = k, FRAC = 0,95) x1, x2, , xr;
Las componentes principales se generan con los nombres
y 1t , y 2t , , y k t .
8.7 MATRICES E INSTRUCCIONES DE PROGRAMACIN

66.

En un fichero con rdenes TSP se puede programar empleando


instrucciones similares al lenguaje Fortran. As, la definicin de una
variable se realiza mediante la instruccin

275
8.7 MATRICES E INSTRUCCIONES DE
PROGRAMACIN

276

SET variable = expresin;

TSP

La variable es de tipo escalar, a diferencia de las series que se obtienen


con la instruccin
GENR x = expresin;
en la que x representa n valores x1, x2 ,, xn. Por ejemplo
SET s = 0;
asocia a la variable escalar s el valor 0.
67.

Para realizar un bucle de instrucciones varias veces se emplean las


instrucciones
DO ndice = inicial TO final;
instrucciones
ENDDO;
o bien
DOT lista de nombres o nmeros;
instrucciones
ENDDO;
As, para generar 11 variables artificiales de tipo 0, 1, 1 asociadas
a cada mes del ao, de manera que
1
xi = 1
0

en el mes i-simo de cada ao


en el mes 12 de cada ao
en los restantes meses

se usa la secuencia de instrucciones


DUMMY y;
DOT 111;
GENR x. = y. y12;
ENDDOT;
El bucle se ejecuta 11 veces y el punto que sigue a x o y ir tomando
los valores 1, 2, , 11.
Para transformar los valores de una serie mensual xt de 10 aos en
otra yt con los datos acumulados sobre cada ao, se pueden usar las
instrucciones

DO i = 1 TO 10;
SET s = 0;
DO j = 1
TO 12;
SET s = s + x ((i 1) * 12 + j)
ENDDO;
SET y (i) = s;
ENDDO;
aunque las rdenes
FREQ A;
CONVERT (SUM)

y = x;

realizan la misma funcin.


68.

La instruccin de bifurcacin condicional IF tiene la siguiente estructura:


IF condicin;
THEN;
DO;

ENDDO;
ELSE;
DO;

bloque de instrucciones a
ejecutar si la condicin es
cierta

bloque de instrucciones a
ejecutar si la condicin es
falsa

ENDDO;
69.

Los procedimientos son subprogramas que incluyen instrucciones


TSP que van a ser utilizadas en distintos puntos de un programa, mediante una llamada. Se distinguen dos fases:
Definicin del procedimiento, y
Uso o llamada para ejecutar el procedimiento.
La definicin del procedimiento se realiza con las instrucciones
PROC nombre lista de variables o argumentos;
LOCAL lista de variables internas o locales;
instrucciones del
procedimiento
ENDPROC;
La ejecucin del procedimiento se realiza con la instruccin

277
8.7 MATRICES E INSTRUCCIONES DE
PROGRAMACIN

278

nombre lista de argumentos;

TSP

o sea usando el nombre del procedimiento como una instruccin seguida de unos argumentos que sustituirn a la lista de variables usadas en la definicin.
70.

Por ejemplo, el procedimiento


PROC
media x, y,
GENR z = (x + y) / 2;
ENDPROC;

z;

se ejecuta con la instruccin


media a , b, c;
que calcula la variable ct = (at + bt)/2.
71.

Si en el procedimiento hay que emplear variables auxiliares que


son internas de ste, se emplea la instruccin LOCAL. Estas variables
tendrn unos nombres que no provocarn interferencias con el nombre de una variable del programa que llama al procedimiento, aunque ambos nombres coincidan. Las variables locales slo existen
mientras se ejecuta el procedimiento.

72.

Las instrucciones matriciales de TSP permiten manipular matrices


con una notacin muy prxima a la escritura matemtica ordinaria.
Para distinguir las matrices de las series o variables que se manejan
en un programa es necesario definir una matriz mediante la instruccin
MMAKE A c1, c2, , ck;
que genera la matriz
A = [ c 1 , c 2 , , c k ]
cuyas columnas estn formadas por los n valores de las series
c 1t , c 2t , , c kt

73.

t = 1n

Tambin se define una matriz A de dimensin (m, k) con la orden


LOAD (NROW = m, NCOL = k) A;
a11 a12 a1k
a21 a22 a2k

am1 am2 1mk;

74.

Algunas instrucciones estadsticas generan matrices. Por ejemplo,


la matriz de covarianzas estimada de los coeficientes de regresin en
una estimacin mnimo cuadrtica
S b = s e2 ( XX ) 1
se almacena, despus de estimar el modelo, con el nombre @VCOV.
Para usarla, es necesario asignarla a una matriz; por ejemplo
MFORM S = @VCOV;

75.

Para obtener a partir de una matriz A las series


c 1t , c 2t , , c k t

t = 1n

que forman sus columnas se emplea la instruccin


UNMAKE A c1, c2, , ck;
76.

Las matrices simtricas y almacenadas en forma triangular se


transforman en una matriz completa con la orden
MAT b = ( XX ) X y;
Se estima el vector de coeficientes de regresin dadas las matrices de
la regresin X e y. La operacin trasponer una matriz se representa mediante una comilla, y la inversin de matrices mediante comillas dobles.

77.

En la expresin matricial se pueden usar los operadores:


+
*

#
%

78.

Adicin y sustraccin de matrices


Producto (se puede omitir)
Matriz traspuesta
Matriz inversa (tambin se usa la instruccin INV)
Producto de Kronecker
Producto de Hadamard (elemento a elemento)

Adems existen varias instrucciones matriciales cuyo resultado es


un escalar:
DET(A)
NROW(A)
SUM(A)
TR(A)
NCOL(A)
RANK(A)

Determinante
Nmero de filas
Suma de elementos
Traza
Nmero de columnas
Rango

279
8.7 MATRICES E INSTRUCCIONES DE
PROGRAMACIN

280

y otras cuyo resultado es matricial

TSP

IDENT(n)
CHOL(A)
EIGVAL(A)
EIGVEC(A)
79.

Genera la matriz identidad In


Obtiene la matriz S tal que A = SS, siendo A
simtrica
Halla un vector con los autovalores de la matriz simtrica A
Halla la matriz de autovectores de A

Para acceder al elemento aij de la matriz A de n filas y k columnas


es preciso localizar este elemento en A, ya que internamente TSP almacena las matrices como vectores:
SET ij = ( j 1 ) * n + i;
y el elemento aij se referencia con el nombre
A (ij)
No obstante, para usar un elemento concreto (por ejemplo aij) se usa
la notacin usual
A ( i , j)
8.8 ESTIMACIN DE MODELOS UNIECUACIONALES

80.

La estimacin de modelos lineales con una variable endgena yt y


k variables predeterminadas
x 1t , x 2t , , x kt ;
se realiza con la instruccin

OLSQ (opciones) y c, x1, x2, , xk;

La letra c representa la ordenada en el origen y no puede usarse como


nombre de variable.
81.

En el caso de multicolinealidad exacta (o casi-exacta) la instruccin OLSQ elimina automticamente una variable explicativa y escribe un mensaje de advertencia.

Entre las opciones disponibles estn las siguientes:

82.

ROBUSTSE
WEIGHT = w

Utiliza el mtodo de White para modelizar la heterocedasticidad


Siendo wt una variable conocida; si la varianza de
las perturbaciones es
V ( t) = c/w t
la heterocedasticidad se modeliza con esta opcin (el modelo se multiplica por 1/ w t )
Genera la variable @HI con los elementos de la diagonal principal de la matriz X(XX) 1X usados
para localizar los datos anormales o outliers, aadiendo la instruccin

HI

SELECT @HI > 2 * @NCOEF / @NOB;


83.

Antes de ejecutar la orden OLSQ, si se ejecuta la instruccin


REGOPT (PVPRINT) T;
se calculan junto a los estadsticos T sus probabilidades lmite.

84.

Al usar entre las variables explicativas, la variable endgena retardada


Y( 1),Y( 2),
se calcula automticamente el test de autocorrelacin de Durbin, adems del estadstico de Durbin-Watson.

85.

La instruccin inicial
OPTIONS opciones;
influye tambin en la salida de un modelo de regresin. Las opciones
ms usuales son:
CRT
NODATE
DEBUG
DOUBLE
LIMCOL = 80
NWIDTH = d
PLOTS
RESID

Para ajustar la salida a 80 caracteres por lnea


Suprime la fecha en la cabecera
Incluye clculos parciales en la salida para depurar
errores
Almacena las series en doble precisin con 14 cifras
significativas en lugar de con 7
Para leer ficheros de entrada con 80 caracteres por
lnea (el defecto es 72)
Nmero de decimales en la salida
Se obtienen grficos de los residuos
Calcula los residuos

281
8.8 ESTIMACIN DE MODELOS
UNIECUACIONALES

282

Los grficos de residuos se obtienen tambin incluyendo la orden

86.

TSP

PLOTS;
antes de ejecutar una orden de estimacin, y se desactivan con la orden
NOPLOT;
87.

La ejecucin de una instruccin OLSQ genera una serie de variables internas, algunas escalares y otras vectoriales o matriciales. Algunas de estas variables son:
n

@SSR

2
t

= S

suma de cuadrados residual

t=1

@YMEAN

media de y

@S2

s e2

cuasi-varianza residual

@SDV

sy

cuasi desviacin tpica de y

@S

se

cuasi desviacin tpica residual

@NOB
@DW @DHALT
@RSQ @ARSQ
@NCOEF
@COEF
@SES
@VCOV
@RES

nmero de datos usados


n
Estadsticos de Durbin-Watson y h de Durbin
coeficientes de determinacin
r2 y r2
Nmero de coeficientes (k + 1)
Vector de coeficientes de regresin b
Vector con cuasi-desviaciones tpicas de b
Matriz de covarianzas de b
Vector de residuos e

@FIT

Vector de valores estimados y

@HI
@SO @S2O

Vector con la diagonal de X(XX)1X


s e y s e2 con datos originales en regresin ponderada

88.

En el siguiente ejemplo se estima un modelo de regresin, se calculan los residuos tipificados y se localizan las observaciones anormales que corresponden al cuarto trimestre de 1992 y de 1993. Para
poder detectar estas observaciones anormales ha sido preciso usar la
opcin HI en la orden OLSQ.
Las predicciones para los dos primeros trimestres de 1994 se obtienen con las instrucciones siguientes:
SMPL 94:1 94:2;
LOAD x;
131 150;
FORCST
y;

Es necesario disponer de valores de xt para el perodo de prediccin y usar la orden SMPL para definir este perodo. La instruccin

FORCST (PRINT) y;

adems de realizar las predicciones, imprime un grfico con stas.


El listado de salida correspondiente al fichero ICAP8D.TSP aparece a continuacin:

283
8.8 ESTIMACIN DE MODELOS
UNIECUACIONALES

284
TSP

89.

En este listado de salida aparecen las probabilidades lmite de los


contrastes T de Student debido a que se ha incluido la instruccin
REGOPT (PVPRINT) T;

los grficos de residuos se obtienen con la orden PLOTS; en el proceso


de obtencin de los residuos tipificados se ha empleado un bucle DO
y la variable interna @NOB que contiene el nmero n de observaciones. El modelo estimado es
y t = 114,132 + 1,59893x t + e t
(3,824)

(7,298)

y es aceptable siendo
s e = 17,2361
s e2 = 297,082
S e = 4159,15
4159,15
r 2 = 1 -------------------------------------------2- = 0,792
( 16 1 ) 36,5015
r 2 = 0,777
s b0 = 29,8457
s b1 = 0,219067
y las previsiones
y 94:1 = 323,59
y 94:2 = 353,97.
90.

Si se hubiese estimado el modelo con la instruccin


OLSQ (ROBUSTSE) y c x;
que usa el mtodo de White para eliminar la heterocedasticidad (que
en este caso no existe), se hubiera obtenido una estimacin similar,
pero utilizando el mtodo de estimacin de mnimos cuadrados generalizados.

91.

La estimacin del modelo con la variable retardada xt 1


yt = 0 + 1 xt + 2 xt 1 + t
se realiza con la orden
OLSQ y c x x(1);
y genera un mensaje de advertencia, ya que para el valor de t = 1 (primer trimestre de 1990) no existe el dato xt 1 = x0. Este mensaje de advertencia no aparece si previamente se redefine el perodo muestral
activo con la orden

285
8.8 ESTIMACIN DE MODELOS
UNIECUACIONALES

286

SMPL 90:2 93:4;

TSP

De igual modo, la estimacin del modelo


yt = 0 + 1 yt 1 + 2 xt + t
mediante
OLSQ y c y(1) x;
produce el mismo mensaje de advertencia y se calcula el estadstico h
de Durbin para contrastar la autocorrelacin debido a la presencia de
la variable endgena retardada yt 1 como predeterminada. En estos
casos, para realizar las previsiones se ejecutan las instrucciones
como en el caso anterior.
SMPL 94:1 94:2;
FORCST (PRINT)
92.

y;

En los modelos con autocorrelacin, es frecuente que sta sea de


tipo AR(1), t = t 1+at, y en este caso la instruccin de estimacin
por el mtodo de Aitken o mnimos cuadrados generalizados es
AR1 (opciones)

c, x1, x2, , xk;

La opcin ms usual es
WEIGHT = w
en la que wt es un variable de ponderacin para corregir la heterocedasticidad multiplicando el modelo por 1/ w t . En la salida de esta
instruccin, adems de los estadsticos ( S a , s a , s e2 , r 2 , DW, etc. ) del
modelo transformado
( y t y t 1 ) = ( 1 ) 0 + 1 ( x 1t x 1t 1 ) + + k ( x kt x kt 1 ) + a t
se calculan los correspondientes valores que se obtienen con el modelo original despus de estimar los coeficientes en el modelo transformado.
93.

La prediccin se realiza igual que en los modelos sin autocorrelacin, aunque hay que redefinir el perodo muestral para tener en
cuenta los retardos. As se tendran las rdenes
SMPL 90:1 93:4;
AR1 y c y(1) x;
SMPL 94:1 94:2;
LOAD x;
131
150;
SMPL 93:4 94:2;
FORCST (PRINT, DYNAM)

y;

La opcin DYNAM hace que en la prediccin se usen los valores predeterminados de yt 1


y 93:4
94.

y 94:1

La estimacin de una ecuacin no lineal requiere primero su definicin con las instrucciones
FRML ecuacin y = f(x1, , xk);
PARAM
parmetros usados
y posteriormente se estima con la orden
LSQ ecuacin
Por ejemplo, para estimar el modelo
y t = ae bxt x tc + t
se usan las instrucciones
FRML ecuac1
PARAM a, b,
LSQ ecuac1;

95.

y = a*EXP (b*x) *x**c;


c;

Todos los procedimientos de estimacin anteriores generan una


serie de variables internas como la instruccin OLSQ.

287
8.8 ESTIMACIN DE MODELOS
UNIECUACIONALES

288

EJERCICIOS PROPUESTOS

TSP

1. Definir un espacio de trabajo con datos mensuales comprendidos


entre enero de 1980 y diciembre de 1993. Introducir una serie temporal yt y realizar varias transformaciones. Dibujar la serie, y reducir el rango muestral activo a los dos ltimos aos e imprimir los
resultados.
2. En un espacio de trabajo con datos anuales entre 1984 y 1993 obtener mediante simulacin una serie at de observaciones N(0; 52).
Generar la serie t = 1, 2, , 120 y las series
x t = 100 + 0,25t + a t
z t = 0,5z t 1 + a t
y t = 50 + 2x t + 0,2y b 1 + z t
tomando z1970 = 0 e y1970 = 60. Dibujarlas y estimar los modelos
yt = 0 + 1 xt + 2 yt 1 + t
xt = 0 + 1 xt + at
comparando los coeficientes estimados con los reales y utilizando
los procedimientos OLSQ y AR1.
3. En el ejemplo anterior usar valores de xt generados de igual forma
para t = 121, 122, , 132 (o sea para el ao 1994) para obtener las
previsiones de yt habindose estimado el modelo
yt = 0 + 1 xt + 2 yt 1 + t
con las instrucciones AR1 y OLSQ, y comparar las predicciones
obtenidas.
4. En el captulo anterior se plantean varios problemas de simulacin
de datos como ejercicios propuestos. Estimar los modelos propuestos en los ejercicios 2 y 4 y componer los resultados obtenidos
con TSP.

Bibliografa

Abramowitz, M.; Stegun, I. A. (1992): Handbook of Mathematical Functions. Dover.


Aitken, A. (1935): On least squares and linear combinations of observations. Procedings of the Royal Statistical Society, 55, pgs. 4248.
Almon, C. (1967): Matrix methods in Econometrics. Addison-Wesley.
Almon, S. (1965): The distributed lag between capital appropriations and expenditure.
Econometrica, 33, pgs. 178196.
BBV (1992): La Estadstica en Espaa hoy. Situacin 34. Servicio de Estudios.
Box, G.; COX, D. (1964): An analysis of transformations. Journal of the Royal Statistical Society, Series B, pgs. 211264.
Caridad y Ocerin, J. M. (1975): Mtodos Bayesianos en la Econometra. Dpto. Econometra. U. de Mlaga.
Caridad y Ocerin, J. M. (1988): T.S.P. y estimacin de modelos economtricos. Public.
ETEA.
Caridad y Ocerin, J. M. (1985): Estadstica Aplicada a las Ciencias Biomtricas y Sociales. E.T.S.I.A.
Caridad y Ocerin, J. M. (1985): Clculo de Probabilidades y Anlisis de Datos.
E.T.S.I.A.
Caridad y Ocerin, J. M.; Baigorri, A. (1982): Mtodos estadsticos y economtricos en
los modelos Input-Output y en la Contabilidad Nacional. Tablas Input-Output y
Cuentas Regionales. Instituto de Desarrollo Regional, n 19, pgs. 373412. U. de
Sevilla.
Confederacion de Cajas de Ahorro (1975): Estadsticas bsicas de Espaa 19001970.
Chow, G. C. (1960): Test of equality between sets of coefficients in two linear regressions. Econometrica, 28, 3, pgs. 591605.
Dhrymes, P. J. (1970): Econometrics: Statistical Foundations and Applications. Harper
& Row.
Dhrymes, P. J. (1971): Distributed Lags: Problems of Estimation and Formulation.
Holden Day.
Durbin, J. (1970): An alternative to the bounds test for testing for serial correlation in
least squares regression. Econometrica, 38, 422429.

289

290
BIBLIOGRAFA

Durbin, J.; Watson G. (1950, 1951, 1971): Testing for serial correlation in least-squares regression I, II y III. Biometrika 37 pgs. 409428, 38 pgs. 159178, y 58 pgs.
142.
Epstein, R. J. (1987): A history of Econometrics. North Holland.
Eviews (1994): User's Guide. Q. M. S. Irvine. California.
Farnum, N. R.; Stanton, L. W. (1989): Quantitative forecasting methods. PWS-Kent
Publ. Co.
Garcia Barbancho, A. (1971): Complementos de Econometra. Ariel.
Glesjer, H. (1969): A new test for Heteroscedasticity. J.A.S.A. 64, pgs. 316323.
Goldfeld, S. M.; Quandt, R. E. (1965): Some tests for homoscedasticity. J.A.S.A. 60,
539547.
Gourieroux, C. (1984): Econometrie des variables qualitatives. Econmica. Pars.
Granger, C. (1980): Forecasting in Business and Economics. N.Y. Academic Press.
Greene, W. H. (1993): Econometric Analysis. Mac Millan Publ. Co.
Grenberg, E.; Webster, C. E. (1983): Advanced Econometrics: A bridge to the literature. Wiley.
Griliches, Z.; Intrilligator eds. (1983): Handbook of Econometrics. North Holland.
Gujarati, D. N. (1990): Econometra. Mc. Graw-Hill.
Harvey, A. C. (1981): The econometric Analysis of Time Series. Philip Allan.
Hoerl, A. E.; Kennard, R. W. (1970): Ridge regression: Biased estimation of nonorthogonal problems. Technometrics, 12, 5567.
Intriligator, M. D. (1978): Econometric Models, Techniques and Applications. Prentice
Hall.
Johnston, J. (1987): Mtodos de Econometra. Vicens Vives.
Judge, G. G.; Griffiths, W. E.; Hill, R. C.; Lee, T. (1985): The Theory and Practice of
Econometrics. Wiley.
Judge, G. G.; Ltkepohl, H. (1988): Introduction to the Theory and Practice of Econometrics. Wiley.
Katz, D. A. (1982): Econometric Theory and applications. Prentice Hall.
Kennedy, P (1983): A guide to Econometrics. MIT Press.
Klein, L. R.; Golberger, A. S. (1955): An Econometric Model of the United States.
192952, North Holland.
Koutsoyiannis, A. (1973): Theory of Econometrics. Harper and Row Publ.
Kmenta, J. (1986): Elementos de Econometra. Vicens Vives.
Ministerio de Economia (1994): Direccin General de Previsin y Coyuntura. Banco
de datos de series temporales. Madrid.
Macromtrica (1978): Cifras de la Espaa econmica.
Maddala, G. S. (1985): Econometra. Mc Graw Hill.
Maddala, G. S. (1983): Limited dependent and qualitative variables in Econometrics.
Cambridge Univ. Press.
Malinvaud, E. (1970): Statistical Methods in Econometrics. North-Holland.
Neter, J.; Wasserman, W.; Kutner, M. H. (1983): Applied Linear regression Models.
R. D. Irwin.
Otero, J. M. (1989): Modelos economtricos y prediccin de series temporales. Editorial
A.C.
Pagan, A.; Hall, A. (1983): Diagnostics tests as residual analysis. Econometric Reviews, 2, pgs. 159218.
Pindyck, R. S.; Rubinfeld, D. L. (1980): Modelos Economtricos. Labor.
Pulido, A. (1990): Modelos economtricos. Ed. Pirmide.
Ramanathan, R. (1992): Introductory Econometrics with Applications. The Dryden
Press.

The Economist (1990): One hundred years of Economic Statistics. The Economist
Publ.
The Economist (1989): Atlas econmico. Deusto.
The Economist (1987): The World in figures. The Economist Publ.
The Economist (1982): World business cycles. The Economist Publ.
Theil, H. (1971): Principles of Econometrics. Wiley.
Tobin, J. (1958): Estimation of Relationships for Limited Dependent Variables. Econometrica, 26, pgs. 2436.
T. S. P. 4.2 (1990): User's Manual. TSP International.
T. S. P. 4.2 (1990): Reference Manual. TSP International.
T. S. P. (1991): User's Manual. Q.M.S. Irvine California.
Uriel, E; Contreras, D.; Molto, M. L.; Peiro, A. (1990): Econometra: el modelo lineal.
A. C. Publ.
Wallis, K. F. (1976): Introduccin a la Econometra. Alianza Editorial.
White, H. (1980): A heteroscedasticity-consistent covariance matrix estimator and a direct test for heteroscedasticity. Econometrica, 48, 817838.
Wonnacott, R. J.; Wonnacot, T. H. (1982): Econometra. Aguilar.
Zellner, A. (1971): Introduction to Bayesian Inference in Econometrics. Wiley.

291
BIBLIOGRAFA

Revistas de econometra

American Statistician
Annals of Economic and Social Measurement
Econometrica
Estadstica Espaola
Revista Espaola de Economa
International Economic Review
International Statistical Review
Journal of Econometrics
Journal of Economic Literature
Journal of Financial and Quantitative Analysis
Journal of the Royal Statistical Society
Journal of Quantitative Economics
Journal of Marketing Research
Journal of Time Series
Review of Economics and Statistics
Technometrics

293

Tablas estadsticas

Distribucin N(0, 1): Funcin de distribucin


z

F(z)

F(z)

F(z)

0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

0,500
0,540
0,579
0,618
0,655
0,691
0,726
0,758
0,788
0,816

1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9

0,841
0,864
0,885
0,903
0,919
0,933
0,945
0,955
0,964
0,971

2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9

0,977
0,982
0,986
0,989
0,992
0,994
0,995
0,997
0,997
0,998

Distribucin chi-cuadrado 2(g): Cuantiles 0,95 y 0,99


g

x0,05

x0,01

x0,05

x0,01

1
2
3
4
5
6
7
8
9
10

3,84
5,99
7,81
9,49
11,1
12,6
14,1
15,5
16,9
18,3

6,63
9,21
11,3
13,3
15,1
16,8
18,5
20,1
21,7
23,2

12
14
16
18
20
25
30
40
50
75

21,0
23,7
26,3
28,9
31,4
37,6
43,8
55,8
67,5
96,2

26,2
29,1
32,0
34,8
37,6
44,3
50,9
63,7
76,2
106,4

295

296

Distribucin t de Student t(g): Cuantiles 0,95 y 0,975

TABLAS ESTADSTICAS

x0,05

x0,025

12,7
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23

6,31
2,92
2,35
2,13
2,02
1,94
1,89
1,86
1,83
1,81

1
2
3
4
5
6
7
8
9
10

x0,05

x0,025

12

1,78

2,18

15
20
25
30
40
50
75
100
200
500

1,75
1,72
1,71
1,70
1,68
1,68
1,67
1,66
1,65
1,65

2,13
2,09
2,06
2,04
2,02
2,01
1,99
1,98
1,97
1,96

Distribucin F de Snedecor F(n, d): Cuantil 0,95


n

25

18,5
10,1
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,54
4,35
4,17
4,03
3,95

19,0
9,55
6,94
5,79
5,14
4,73
4,46
4,26
4,10
3,68
3,49
3,32
3,18
3,10

19,2
9,28
6,59
5,41
4,76
4,35
4,07
3,86
3,71
3,29
3,10
2,92
2,79
2,71

19,2
9,12
6,39
5,19
4,43
4,12
3,84
3,63
3,48
3,06
2,87
2,69
2,56
2,47

19,3
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
2,90
2,71
2,53
2,40
2,32

19,3
8,94
6,16
4,95
4,28
3,87
3,58
3,37
3,22
2,79
2,60
2,42
2,29
2,20

19,4
8,89
6,09
4,88
4,21
3,79
3,50
3,29
3,13
2,71
2,51
2,33
2,20
2,11

19,4
8,85
6,04
4,82
4,15
3,73
3,44
3,23
3,07
2,64
2,45
2,27
2,13
2,04

19,4
8,81
6,00
4,77
4,10
3,68
3,39
3,18
3,02
2,59
2,39
2,21
2,07
1,99

19,5
8,63
5,77
4,52
3,84
3,40
3,11
2,89
2,73
2,28
2,07
1,88
1,73
1,63

d
2
3
4
5
6
7
8
9
10
15
20
30
50
90

Distribucin de Durbin-Watson: Cuantiles 0,95

297
TABLAS ESTADSTICAS

k=1

k=2

k=3

k=4

n
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
50
60
70
80
90
100

dL

dU

dL

dU

dL

dU

dL

dU

0,879
0,927
0,971
1,010
1,045
1,077
1,106
1,133
1,158
1,180
1,201
1,288
1,352
1,402
1,442
1,503
1,549
1,583
1,611
1,635
1,654

1,320
1,324
1,331
1,340
1,350
1,361
1,371
1,381
1,390
1,401
1,411
1,454
1,489
1,519
1,544
1,585
1,616
1,641
1,662
1,679
1,694

0,697
0,758
0,812
0,861
0,905
0,946
0,982
1,015
1,046
1,074
1,100
1,206
1,284
1,343
1,391
1,462
1,514
1,554
1,586
1,612
1,634

1,641
1,604
1,579
1,562
1,551
1,543
1,539
1,536
1,535
1,536
1,537
1,550
1,567
1,584
1,600
1,628
1,652
1,672
1,688
1,703
1,715

0,525
0,595
0,658
0,715
0,767
0,814
0,857
0,897
0,933
0,967
0,998
1,123
1,214
1,283
1,338
1,421
1,480
1,525
1,560
1,589
1,613

2,016
1,928
1,864
1,816
1,779
1,750
1,728
1,710
1,696
1,685
1,676
1,654
1,650
1,653
1,659
1,674
1,689
1,703
1,715
1,726
1,736

0,376
0,444
0,512
0,574
0,632
0,685
0,734
0,779
0,820
0,859
0,894
1,038
1,143
1,222
1,285
1,378
1,444
1,494
1,533
1,565
1,592

2,414
2,283
2,177
2,094
2,030
1,977
1,935
1,900
1,872
1,848
1,828
1,767
1,739
1,726
1,721
1,721
1,727
1,731
1,743
1,750
1,757

k=5

k=6

k=8

k = 10

n
15
20
25
30
35
40
50
75
100

dL

dU

dL

dU

dL

dU

dL

dU

0,562
0,792
0,953
1,071
1,160
1,230
1,335
1,486
1,570

2,220
1,991
1,886
1,833
1,803
1,786
1,771
1,770
1,780

0,447
0,692
0,868
0,998
1,097
1,175
1,291
1,458
1,550

2,472
2,206
2,012
1,931
1,884
1,854
1,822
1,801
1,803

0,251
0,502
0,702
0,854
0,971
1,064
1,201
1,398
1,506

2,979
2,521
2,280
2,141
2,054
1,997
1,930
1,867
1,850

0,111
0,336
0,544
0,712
0,845
0,945
1,110
1,339
1,462

3,438
2,885
2,560
2,363
2,236
2,149
2,044
1,935
1,898

ndice alfabtico

A
lgebra matricial 70, 100
Agregacin 147
Anlisis de residuos 109, 164
Anlisis de la varianza 98, 103
Anlisis en Componentes Principales 132, 150, 157, 275
Autocorrelacin 84, 107, 110, 111, 125, 163, 165, 179, 180, 185, 187, 192,
208, 253
Autovalores, autovectores 76, 78, 130, 132, 151, 168, 280
C
Cambio estructural 109
Cambios de escala 80, 123
Ciclo de una serie 104, 161, 208, 246, 253, 273
Coeficiente de correlacin 19, 31, 40, 45, 53, 55, 59, 180
de correlacin de Spearman 60, 63, 199
de correlacin parcial 58
de determinacin 50, 54, 67, 91, 244
de determinacin corregido 54
Coeficientes de regresin 39, 43, 94
estructurales de un modelo 4, 84, 102
Comisin Cowles 8
Comparacin de dos modelos 203
Contabilidad nacional 155
Contrastes diagnsticos 7, 92, 99
Covarianza 19, 41, 229, 243, 260

299

300
NDICE ALFABTICO

Correlacin 19, 40, 181, 243, 260


Correlograma 131, 186, 190
Curva de Philips 82
Cuasi-varianza residual 89, 244, 282
D
Diagonalizacin de una matriz 78, 80
Distribucin muestral de los estimadores 86
E
Ecuaciones normales 39, 44, 48, 50, 66, 67, 76, 123
Editor micro TSP 2226
Efectos aditivos, multiplicativos 201
Elasticidad 1, 2, 35, 82
Entorno o espacio de trabajo micro TSP 225, 235, 253
Entorno de trabajo TSP 258
Error cuadrtico medio 119
Error de prediccin 115
Errores en las variables 127
Escalas de medida 123
Especificacin de un modelo 6, 91, 126, 165
Estacionalidad 104, 106, 149, 192, 206, 207, 218, 253
Estadstico F 99, 103, 107
Estadsticos T 32, 90, 92, 97
Estimacin mximo verosmil 27, 28, 85, 88, 136
mnimo cuadrtica 27, 88, 91, 229, 237, 247, 257, 265, 280
con restricciones 108, 137, 141
con variables retardadas 241, 249, 281, 285
Estimador de los coeficientes 86
EViews 15
F
Falta de datos 144, 146
Ficheros micro TSP 227, 230, 247
Ficheros TSP 259
Funcin de Cobb-Douglas 64, 67
Funcin spline 205
Fuentes estadsticas 10
G
Grficos de residuos 111, 112, 113, 173, 177, 190
Grficos micro TSP 228
Grficos TSP 267, 268
H
Heterocedasticidad 111, 125, 163, 165, 171, 175, 176, 248, 281
Hiptesis a priori 84, 89, 91, 98, 109, 112, 125, 163, 166
Homocedasticidad 84, 110

I
Identidad contable 4
ndice de Theil 119, 161
ndice de multicolinealidad 130
Interacciones entre variables 46, 94, 201, 202
Interpolacin 114, 117
M
Medias de cuadrados 99, 101
Medias mviles 247
Micro-TSP 15, 69, 143, 189, 195, 217, 221
Mtodo iterativo de Cochrane-Orcutt 189
Mtodo de mxima verosimilitud 17, 85, 88, 136
mnimos cuadrados 38, 43, 48, 66, 88, 91, 229, 237, 247, 265, 280
mnimos cuadrados generalizados de Aitken 163, 166, 171, 179, 248,
285
mnimos cuadrados condicionales 136
mnimos cuadrados ponderados 171, 248, 281
Modelo ARMA 179, 180, 181, 182, 248
con restricciones 108, 123
con retardos distribuidos 136, 140, 142, 160, 249
con retardos geomtricos 137
de ajuste parcial de Nerlove 140
de corte transversal o esttico 6, 144, 210
de eleccin binaria 212
de expectativas adaptativas 139, 160
de Markov o AR(1) 180, 188, 192, 208, 265, 286
de Yule o AR(2) 180, 193
dinmico 6, 107, 135
lineal general 163
lineal uniecuacional 5, 38, 83, 247
logit 213, 214, 215, 218, 219, 250, 266
no lineal 5, 38, 65, 68, 146, 192, 213, 215, 250, 265, 287
probit 213, 215, 218, 250, 266
sin ordenada en el origen 124, 171
tobit 217, 266
Multicolinealidad 49, 84, 125, 128, 130, 132, 136, 142, 152
N
Normalidad 110
Nmero de condicin o ndice de multicolinealidad 130
O
Observaciones influyentes o anormales 120, 121, 122, 281
Omisin de variables relevantes 126
Operador diferencias 241
Operador retardo B 138, 241
P
Perturbaciones aleatorias 3, 5, 6, 38, 84, 125
Polinomios de Almon 142, 161, 162, 249

301
NDICE ALFABTICO

302
NDICE ALFABTICO

Prediccin en modelos uniecuacionales 114, 249, 250, 282


en modelos con autocorrelacin 191, 249, 279
ex-post, ex-ante 115, 118
por intervalo 115, 117
Probabilidad lmite del test T 33, 93, 96, 284
del test F 100
Producto de Kroneker 79, 279
Programas auxiliares 251
Propensin marginal 31, 201
R
Rango activo de datos 222, 235, 237, 258
Regresin en componentes principales 132, 134, 154
mltiple 43, 47
no lineal 64, 68, 146, 192, 213, 215, 250, 265, 287
Residuos de un modelo 38, 39, 43, 45, 52, 88, 109, 169, 178, 193, 248
influyentes o anormales 111, 120, 122, 196, 281
studentizados 121
tipificados 111, 282
Ruido blanco 179, 193, 254
S
Serie temporal 104, 145, 179, 192, 207, 243, 266
Simulacin 195, 241, 253, 257, 265, 374, 288
Sumas de cuadrados 38, 95, 98, 103, 106, 244
T
Tablas de la distribucin chi-cuadrado 295
de Durbin-Watson 185, 297
F de Snedecor 296
Normal 295
T de Student 296
Tendencia de una serie 113, 146, 206
Teorema de Craig 99, 103
Gauss-Markov 87, 91, 109, 125, 169
de descomposicin de la varianza 51, 102
Test de Chow 108
de Durbin 190, 281
de Durbin-Watson 114, 184, 188, 281
de Farrar-Glauber 129
de Goldfeld-Quandt 175, 179
de normalidad de las perturbaciones 112
de Wallis 191
de White 114, 172, 174, 281
Tests F de anlisis de la varianza 99, 100, 104, 105, 114, 209
T sobre los coeficientes 92, 95, 97, 105, 114, 209
TSP 7, 69, 189, 255
Transformacin de Aitken 167, 170, 173, 182, 184
de Box-Cox 165
de cambios de escala 123
de Koyck 160

Transformaciones con micro TSP 238, 239, 240, 242


con TSP 271, 272

303
NDICE ALFABTICO

V
Variables artificiales 104, 200, 201, 202, 203, 211, 246, 264, 273
binarias 6, 21, 104, 212
categricas o cualitativas 6, 199, 201, 211
con errores 125
endgenas o dependientes 3, 4, 37, 43, 91, 184, 211
exgenas 4, 37, 201
predeterminadas 4, 84, 91, 121
no observables 109
retardadas 5, 135, 144, 149, 179, 190
Varianza residual 51, 88