Analisis Serie de Tiempo - Flores - Santillan - Salvador - 2008 - 2

Anlisis de Series de Tiempo
Note que dada la estructura de n , diferenciar la funcin de verosimilitud es muy complicado y por tanto difcil de optimizar. En estos casos, se aplican mtodos numricos con estimadores iniciales dados en la estimacin preliminar. Podemos transformar la distribucin conjunta usando las innovaciones X j respectivas varianzas
j 1
X j y sus
calculadas recursivamente por el algoritmo de Innovaciones.
Xn
Recordemos que por el algoritmo de innovaciones, se tiene la igualdad: Cn ( X n X n )
Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto la matriz de covarianzas de las innovaciones es la matriz diagonal Dn siguiente:
Dn diag{ 0 , 1 ,...,
n 1
Por la igualdad anterior y la matriz D, se tiene que:

n ' C n Dn C n
' Usando las igualdades anteriores, podemos ver que la forma cuadrtica X n dada por:
1 n
X n est
Xn
'
1 n
Xn
(X n
X n )' Dn 1 ( X n
X n)
(X j
j 1
X j )2 /
j 1
Recordemos, tambin, que Cn es una matriz triangular con elementos en la diagonal igual a uno, por lo tanto su determinante es uno. De donde:
n ' Cn Dn Cn
Cn Dn
Dn
0 1
...
n 1
Sustituyendo, la funcin de distribucin conjunta inicial se reduce a:
L(
n)
1 (2 )
n 0 1 ... n 1
exp{
1 2
(X j
j 1
X j )2 /
j 1
Si n puede ser expresada en trminos de un nmero finito de parmetros desconocidos, como es el caso de un proceso ARMA(p,q), entonces los estimadores de Mxima Verosimilitud de los parmetros son los valores que maximizan la funcin L para el conjunto de datos dado. La verosimilitud para los datos de un proceso ARMA(p,q) puede ser calculada recursivamente por el algoritmo de innovaciones.
96

As, el predictor de Xn+1, como su error cuadrado medio estn dados por:
n nj
(X n ....
1 j
Xn Xn
1 j
) ,
n
1 n (X n Xn ) , n m
Xn
j 1 1 1
Xn
1 p j 1
nj
1 j
1 j
y E( X n
1 j
Xn
1 j
)2
E (Wn
Wn 1 ) 2
rn
donde nj y rn son determinados por el algoritmo de innovaciones y m=max(p,q). De esta forma, la funcin de verosimilitud para el proceso ARMA(p,q) es:
L( , ,
) (2
1
2 n
exp{
1
1 2
2
n j 1
(X j rj
X j )2
1
) r0 r1 ...rn
Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido blanco y teniendo que X j y rj son independientes de 2 , encontramos los estimadores de mxima verosimilitud.
S ( , ) n donde
2
S ( , )
(X j
j 1
X j ) 2 / rj
y , son los valores que minimizan

n
l( , )
ln( n S ( , )) n
1 j 1
ln( r j 1 )
El criterio de seleccin del orden del modelo es la minimizacin del AICC. Este criterio consiste en escoger p, q, p y q que minimicen la cantidad:
AICC
2 ln(
, S(
) / n) 2( p q 1)n /( n
p q 2)
Una de las opciones del programa ITSM es un autoajuste del modelo. Esto se lleva a cabo seleccionando Model>Estimation>Autofit. La seleccin de esta opcin nos permite especificar un rango de los valores de p y de q (el rango mximo es de 0 a 27 para ambos, p y q). El modelo elegido es el que tenga mnimo AICC y una vez que el modelo ha sido determinado, debe ser estimado por mxima verosimilitud. Ms adelante se ejemplificar la teora. En S-PLUS la funcin de estimacin por mxima Verosimilitud es: arima.mle(x, model, n.cond=<< >>, xreg=NULL, ...) 97

Para hacer inferencia sobre los parmetros se usan resultados asintticos, es decir, se suponen muestras grandes. En este caso, consideremos el vector de parmetros ( , )' , entonces para una muestra grande:
N ( , n 1V ( ))
donde V ( ) es la matriz Hessiana definida por:

2 p q
V( )
l( )
i j i, j 1
Si se quiere probar la hiptesis H0: parmetro=0, la prueba se lleva a cabo calculando el cociente: parmetro 1.96 * EE ( parmetro) La regla de decisin es rechazar H0 si el cociente anterior se encuentra fuera del intervalo [-1,1]. Ejemplo V.2.1. Consideremos los datos del nivel del Lago Hurn (ver ejemplo V.1.2) y ajustemos un modelo por mxima verosimilitud. Solucin. Recordemos que en la estimacin preliminar se encontr que el mejor modelo ajustado (mnimo AICC) a los datos corregidos por la media fue el modelo ARMA(1,1): X(t) = Y(t) - 9.0041 Method: Innovations ARMA Model: X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1) WN Variance = .475680 AICC = .212894E+03 El siguiente paso es ajustar el modelo por mxima verosimilitud usando como estimacin preliminar el modelo ARMA(1,1). Usando la funcin arima.mle de S-PLUS obtenemos:
Coefficients:
AR : 0.75544
MA : -0.30721
Variance-Covariance Matrix: ar(1) ma(1) ar(1) 0.005949613 0.004373168 ma(1) 0.004373168 0.012550728
98

Optimizer has converged Convergence Type: relative function convergence
AIC: 207.81105 Los resultados anteriores se obtienen escribiendo las instrucciones:

Lake.corr<-Lake-mean(t(Lake)) mod<-list(ar=-0.7234,ma=0.3596) arima.mle(Lake.corr, model=mod)
donde Lake es el nombre del Dataset con la serie del Lago Hurn. En los resultados tambin se obtienen las varianzas de los parmetros, con lo cual podemos establecer los siguientes intervalos de confianza al 95% como sigue:
: 0.7554 1.96 * 0.0059 : 0.3072 1.96 * 0.01255
(0.6042,0.9066) ( 0.5268, 0.0876)
[Hamilton (1994)] desarrolla la estimacin de Mxima Verosimilitud usando distribuciones condicionales. Esto es, parte de:
f Y ,Y
1 2 ,..., Yn
fY
fY
2 / Y1
fY
3 / Y2 ,Y1
fY
n / Yn 1Yn 2 ,..., Y1
Por ejemplo, para el proceso AR(1) dado por Yt tiene:
Yt
Z t y dados Y1, Y2 y Y3, se
fY
1 2
2
/(1
/(1
exp )
[ y1 2
/(1 2 /(1
2
)] 2 2 )
2
ya que E (Y1 )
fY y fY 1 2
3 / Y2 ,Y1
) y V (Y1 )
/(1
) . Adems,
1 2
2
2 / Y1
exp
[ y2 2 [ y3 2
2
y1 ] 2
exp
y 2 ]2
2
Por lo tanto, la distribucin conjunta est dada por:

3
fY Y Y
1 2 3
L(
, , | y)
t 1
fY
t / Yt 1
( yt / yt 1 , )
99

Como puede observarse en los argumentos de la funcin exponencial, el numerador corresponde a las Innovaciones. Esta es la similitud entre el procedimiento de Hamilton y el que se presenta en este trabajo. El procedimiento de Hamilton se puede extender para cualquier modelo ARMA(p,q). V.3. PRUEBAS DE BONDAD DE AJUSTE El paso final en el proceso de ajuste de modelos de series de tiempo es verificar qu tan bueno es el modelo. Esto se consigue mediante las pruebas de bondad de ajuste. Tales pruebas consisten en verificar que los supuestos de los residuales se cumplan, es decir, que forman un proceso de Ruido Blanco. Enseguida se mencionarn algunas de las pruebas que se utilizan para probar los supuestos iniciales (de los residuales). Cabe mencionar que no son las nicas, algunas otras se pueden consultar en [Brockwell y Davis (2002) pp. 35-38]. V.3.1. La funcin de autocorrelacin de residuales Si {Zt} forma un proceso de Ruido Blanco, entonces las autocorrelaciones de las innovaciones (errores) deben ser estadsticamente iguales con cero. Es decir, con el 95% de confianza, se debe cumplir:
Zt
( h)
( 1.96 / n ,1.96 / n )
h 1,2,3,....
Si calculamos las correlaciones muestrales para ms de 40 observaciones y encontramos que ms de dos valores caen fuera del intervalo de confianza, entonces rechazaremos la hiptesis de que los errores son independientes. Las bandas 1.96 / n son graficadas automticamente cuando se grafica la funcin de autocorrelacin en el programa ITSM. En la siguiente grfica se muestran las funciones de autocorrelacin y autocorrelacin parcial de los residuales despus de haber ajustado un modelo ARMA(1,1) a los datos del Lago Hurn. Podemos ver que ningn valor cae fuera de las bandas de confianza, por lo que podemos concluir que los residuales, en efecto, son independientes. La grfica se logra de la siguiente forma: En el Dataset Lake, seguimos Data> Transform y en el cuadro Expression escribimos Lake-mean(t(Lake)). Esto crear una nueva columna de datos corregidos por la media. Enseguida, ajustamos el modelo ARMA(1,1) siguiendo Statistics> Time Series> ARIMA Models y especificamos 1 en Autorregresive (p) y 1 en Moving Avg. (q). Finalmente, en la pestaa Diagnostics marcamos Autocorrelation of Residuals y Plot Diagnostics.
100

Grfica24. ACF y PACF de los residuales despus de ajustar un modelo ARMA(1,1) a la serie nivel del lago Hurn.
A RIMA Model Diagnostics: Lake$V 1
1.0
ACF Plot of Residuals
ACF
-1.0
-0.5
0.0
0.5
10
15
20
PACF Plot of Res iduals
PACF
-0.2
-0.1
0.0
0.1
0.2
10
15
20
ARIMA(1,0,1) M odel wi th Mean 0
V.3.2. Prueba de puntos cambiantes (turning points) Esta prueba consiste en determinar si los residuales forman un patrn aleatorio. Supongamos que tenemos una muestra aleatoria y1 ,..., y n . Se dice que la i-sima observacin es un punto cambiante si:
yi
1
yi
yi
yi
yi
yi
yi
yi
Si definimos a T como el nmero de puntos cambiantes en una sucesin de variables aleatorias iid de tamao n, entonces, dado que la probabilidad de que haya un punto cambiante en el tiempo i es 2/3, el valor esperado de T es:
T
E(T )
2(n 2) / 3
Tambin, la varianza de T es:

Var (T ) (16n 29) / 90 Por otro lado, para una muestra iid grande, puede mostrarse que:
2 T
Tp
T
T
N (0,1)
Con esto, podemos llevar a cabo la prueba de hiptesis de que los residuales son aleatorios, usando el criterio de decisin:
101

Rechazar H0: La muestra es aleatoria, al nivel de significancia si T p
Z1
/2
Z1
/2
, donde
es el cuantil 1- /2 de la distribucin Normal estndar.
V.3.3. Prueba de signo (difference-sign) En esta prueba se cuenta el nmero de observaciones i tales que yi yi 1 , i 1,..., n . Definimos a S como el total de tales observaciones. Entonces, bajo el supuesto de muestra aleatoria, se tiene que:
S
E (S ) Var ( S )
(n 1) / 2 (n 1) / 12
y
2 S
De la misma forma que para T, para un valor grande de n, se tiene que:
Sp
S
S
N (0,1)
Un valor grande, en valor absoluto, de S S indicara la presencia de un incremento (o decremento) en la tendencia de los datos. De aqu que, rechazaremos la hiptesis de tendencia en los datos al nivel de significancia si S p Z 1 / 2 , donde Z1 / 2 es el cuantil 1/2 de la distribucin Normal estndar. Las tres pruebas mencionadas, entre otras, son calculadas por el programa ITSM usando la opcin Statistics>Residual Analysis>Test of Randomness. S-PLUS slo ofrece la estadstica de Ljung-Box que se distribuye como Ji-Cuadrada. Para obtenerla, en el cuadro de dilogo que aparece despus de Statistics> Time Series> ARIMA Models, en la pestaa Diagnostics marcamos la opcin Portmanteau Statistics. Es claro que, si no se ha ajustado algn modelo a los datos, los residuales son los mismos que las observaciones. Esto significa que podemos llevar a cabo las pruebas para las observaciones (cuando no se ha ajustado algn modelo), como para los residuales. Ejemplo V.3.1. Consideremos los datos del archivo SIGNAL.TXT. Veremos las opciones que ofrecen ambos programas, ITSM-2000 y S-PLUS, para llevara cabo las pruebas de bondad de ajuste.
102

Grfica25. Valores simulados de la serie X(t)=cos(t) +N(t), t=0.1,0.2,,20, donde N(t) es WN(0,0.25).
3
signal
-1
-2
-3 30 80 130 180
En primer lugar, veremos la grfica de la funcin de autocorrelacin. Grfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,,20, donde N(t) es WN(0,0.25).
Series : signal$signal
0.0
0
0.2
ACF 0.4
0.6
0.8
1.0
10 Lag
15
20
Las grficas 25 y 26 son resultado de las instrucciones:

guiPlot(PlotType="Y Series Lines", Columns=1, DataSet="signal") acf(x = signal$signal, type = "correlation")
donde signal es el Dataset con los datos de la serie simulada. Note que algunas observaciones (ms de dos) salen de las bandas de confianza, por tanto rechazaremos la hiptesis de que la serie es independiente. La estimacin preliminar de Yule-Walker sugiere ajustar un modelo AR(7) a los datos corregidos por la media. Ajustando este modelo, podemos verificar si los residuales cumplen con las pruebas de bondad de ajuste. En ITSM se obtienen mediante Statistics>Residual Analysis> Test of Randomness. Los resultados son: ============================================ ITSM::(Tests of randomness on residuals) ============================================ Ljung - Box statistic = 16.780 Chi-Square ( 20 ), p-value = .66719 103

McLeod - Li statistic = 25.745 Chi-Square ( 27 ), p-value = .53278 # Turning points = .13600E+03~AN(.13200E+03,sd = 5.9358), p-value = .50039 # Diff sign points = .10300E+03~AN(99.500,sd = 4.0927), p-value = .39245 Rank test statistic = .10083E+05~AN(.99500E+04,sd = .47315E+03), p-value = .77864 Jarque-Bera test statistic (for normality) = 3.8175 Chi-Square (2), p-value = .14826 Order of Min AICC YW Model for Residuals = 0 El programa ITSM nos da el p-value. La regla es rechazar la hiptesis nula al nivel de significancia si > p-value. Si establecemos un nivel de significancia del 5%, podemos ver que, utilizando cualquier estadstica, no se rechaza la hiptesis nula de que los residuales forman una serie iid. En S-PLUS seleccionamos la opcin Statistics> Time Series> ARIMA Models, especificamos 7 en Autorregresive (p), y marcamos las opcin Portmanteau Statistics y Plot Diagnostics en la pestaa Diagnostics. Obteniendo:
A RIMA Model Diagnostics: signal$V 2
P-values of Ljung-Box Chi-Squared Statistic s
p-value
0.0
0.2
0.4
0.6
8.0
8.5
9.0 Lag
9.5
10.0
ARIMA(7,0,0) M odel wi th Mean 0
En conclusin, el modelo propuesto para los datos corregidos por la media, AR(7), resulta bueno, pues los residuales cumplen satisfactoriamente con las pruebas de bondad de ajuste.
104

CAPITULO VI. MODELOS NO-ESTACIONARIOS En la mayora de los casos, las observaciones no son generadas por series de tiempo necesariamente estacionarias, por lo que en este captulo este tipo de conjunto de datos ser nuestro objetivo de estudio. El tipo de modelo que analizaremos en la siguiente seccin sern los modelos ARIMA (Autorregresivo Integrado de Promedio Mvil). VI.1. MODELOS ARIMA PARA SERIES NO-ESTACIONARIAS Cuando ajustamos un modelo ARMA a una serie diferenciada, en realidad estamos ajustando un modelo ARIMA a los datos originales. Es decir, un modelo ARIMA es un proceso que se reduce a un proceso ARMA cuando diferenciamos un nmero finito de veces. Definicin VI.1.1. [Modelo ARIMA(p,d,q)].- Si d es un entero no-negativo, entonces { X t } es un proceso ARIMA(p,d,q) si Yt (1 B ) d X t es un proceso ARMA(p,q) causal. Esto significa que:
( B)Yt
*
( B) Z t ( B) Z t ( B) Z t
( B)(1 B) d X t ( B) X t
Note que el proceso { X t } es estacionario si y solo si d=0. Si es el caso, entonces el proceso se reduce a un ARMA(p,q). Ejemplo VI.1.1. Supongamos que { X t } es un proceso ARIMA(1,1,0). Podemos escribir el modelo como:
Y1 Y2 Yn Yn
1
X1 X2 Xn Xn
X0 X1 Xn
1
X1 X2 Xn
Y1 Y2 Yn
1
X0 Y1 Yn Xn X0 Y1 Yn
1
X0
n 1
Xn
Xn
X0
j 1
Yj
Esto significa que, para predecir al proceso { X t } , primero podemos predecir el proceso {Yt } y agregar la observacin inicial. Esto es,
105

n 1
Pn X n o Pn X n
X0
j 1
PnY j
Pn ( X n
Yn 1 )
Xn
Pn Yn
Asumiendo que el proceso { X t } satisface Yt como:

d
(1 B ) d X t . Podemos reescribirlo
Xt
Yt
j 1
( 1) j
d j
Xt
De aqu que, el procedimiento de prediccin se puede generalizar, de modo que, para un proceso ARIMA(p,d,q), se tiene:
d
Pn X n
PnYn
h j 1
( 1) j
d j
Pn X n
h j
donde {Yt } es un proceso ARMA(p,q) causal. Con respecto al Error Cuadrado Medio. Tenemos que, para cualquier h:
d
Pn X n
Xn
PnYn
h j 1
( 1) j
d j
Pn X n
h j
Yn
h j 1
( 1) j
d j
Xn
h j
Para h=1, la expresin se reduce a:

d
Pn X n
Xn
PnYn PnYn
1 j 1 1
( 1) j Yn
1
d j
Pn X n
1 j
Yn
1 j 1
( 1) j
d j
Xn
1 j
Por lo tanto,
E Pn X n
1
Xn
1
2 1
E PnYn
Yn
1
2 1
ECM X n
ECM Yn
Hemos llegado a una expresin que nos dice que, para h=1, el ECM de la prediccin de la observacin no estacionaria es igual al ECM de la estacionaria. Por otra parte, sabemos que, bajo el supuesto de causalidad en {Yt } ,
106

Yt
j 0 j
Zt
(1 B ) d X t
j 0
Zt
( B) Z t
Xt Xt
( B) Zt (1 B ) d
* j j 0
Zt
Note que, segn la expresin anterior, podemos expresar la serie no estacionaria como un proceso lineal en trminos de los coeficientes lineales de la serie estacionaria. Ejemplo VI.1.2. Consideremos los datos del ndice de Utilidad Dow Jones (del 28 de Agosto al 18 de Diciembre de 1972). El archivo es DOWJ.TXT. Recordemos que para esta serie de datos se tuvo que diferenciar una vez a distancia uno para tener una serie estacionaria. As mismo, se ajust un modelo AR(1) para los datos corregidos por la media (ver ejemplo V.1.1), teniendo como resultados aplicando Mxima Verosimilitud:
> media [1] 0.1336364 $var.pred: [,1] [1,] 0.1518409 Coefficients: AR : 0.4483 Variance-Covariance Matrix: ar(1) ar(1) 0.01051349
Las instrucciones son:

dif.DJ<-diff(DOWJ,1,1) media<-mean(t(dif.DJ)) dif.DJcorr<-dif.DJ-media mod<-list(ar=0.4218786) media arima.mle(dif.DJcorr, model=mod)
donde DOWJ es el Dataset con la serie del ndice de utilidad Dow Jones. Note que el ajuste anterior es para la serie X t el modelo para {Dt } es:
Dt Dt
1
0.1336 . En consecuencia,
107

1 0.4483B (1 B) Dt 0.1336 Zt , Zt WN (0,0.1518)
Note que, de acuerdo a la definicin VI.1.1, {Dt} es un proceso ARIMA(1,1,0). Sabemos que para un proceso AR(1), el mejor predictor lineal est dado por h Yn . As, la prediccin para Dt+1 quedara como:
Xt Dt Dt
1
Pn Yn
0.4483 X t Dt 0.1336 0.4483 D t Dt 0.1336
0.0737 1.4483Dt
0.4483Dt
El ECM se obtiene de la misma manera que antes para un modelo AR(1). En este ejemplo se mostr la estrategia de prediccin para un modelo (sencillo) ARIMA(1,1,0); Sin embargo, el procedimiento es similar para modelos ms generales ARIMA(p,d,q). VI.1.1 Identificacin y estimacin de modelos Cuando tenemos una serie {Xt} con media cero (o corregida por la media), nos enfrentamos al problema de encontrar un modelo ARMA(p,q) que represente nuestra serie. Si los valores de p y q son conocidos, tenemos una gran ventaja. Sin embargo, no siempre es el caso, por lo que necesitamos de tcnicas que nos den una aproximacin de p y q. Como hemos comentado, nosotros basamos el criterio de seleccin de p y q en base al mnimo AICC, definido por:
AICC
2 ln(
, S(
) / n) 2( p q 1)n /( n
p q 2)
discutido en el captulo V. La estimacin e identificacin de modelos se resume en los siguientes pasos: 1. Despus de transformar nuestra serie (si es necesario) para tener una serie estacionaria, examine las grficas de las funciones FAC y PACF para tener una idea de los valores de p y q. Despus de esto, podemos obtener la estimacin preliminar por alguno de los mtodos descritos en el captulo V. 2. Cuando introduzcamos la funcin (en S-PLUS) de estimacin preliminar, ya sea por el algoritmo de Yule-Walker o Burg, debemos agregar la condicin aic=T. Esto nos garantizar modelos con p y q, tales que el AICC sea mnimo. Por ejemplo, debemos escribir: ar.burg(x, aic=T). 3. Examinar los valores de los coeficientes calculados y los errores estndar. Esto nos ayudar a concluir que algunos coeficientes son estadsticamente igual con cero. Si es
108

as, podemos ajustar un nuevo modelo a la serie mediante la opcin Model> Estimation>Max Likelihood, dar clic en la opcin Constrain Optimization y especificar cuales valores son iguales con cero en ITSM y especificando los valores diferentes de cero en la opcin model de la funcin arima.mle(x, model) de S-PLUS. 4. Ya hemos discutido que no existe unicidad en el ajuste de un modelo a una serie de tiempo, por lo que una vez que tenemos varios candidatos, tenemos que ver cules de ellos cumplen con las pruebas de bondad de ajuste (captulo V).
VI.2. MODELOS SARIMA Ya hemos visto que para eliminar el componente estacional de periodo s de una serie es necesario diferenciar, justamente, a distancia s. Si ajustamos un modelo ARMA(p,q) a la serie diferenciada a distancia s, entonces el modelo ajustado a la serie original es un caso de un proceso ARIMA estacional o tambin llamado SARIMA. Para tener una idea de qu es lo que estudiaremos en esta seccin, supongamos que tenemos mediciones mensuales de algn fenmeno. Es decir, tenemos una coleccin de 12 series por ao, a las cuales les podemos ajustar un modelo ARMA(p,q). Definicin VI.2.1. [Modelo SARIMA(p,d,q) x (P,D,Q)s].- Si d y D son enteros no-negativos, entonces { X t } es un proceso SARIMA(p,d,q) x (P,D,Q)s con periodo s, si la serie diferenciada
Yt (1 B) d (1 B s ) D X t es un proceso causal ARMA definido por:
( B) ( B s )Yt
*
( B) ( B s ) Z t ( B) Z t
( B)Yt
Supongamos que:
( B) 1 (B s ) 1 B , Bs , ( B) 1 (B s ) 1 B Bs
Sustituyendo en la definicin, tenemos:

* *
( B) ( B)
(1 (1
B)(1 B)(1
Bs ) 1 Bs ) 1
B B
Bs Bs
Bs Bs
1 1
Podemos ver que, la diferencia fundamental entre un modelo cualquiera estacional y un modelo SARIMA es la restriccin que existe en los parmetros del modelo y, adems, para varios valores de t los parmetros tienen un valor igual con cero. Los pasos para identificar un modelo SARIMA para un posible conjunto de datos son los siguientes:
109

1. Encontrar valores posibles de d y D que hagan que la serie diferenciada sea estacionaria:
Yt (1 B) d (1 B s ) D X t
2. Examinar las funciones de autocorrelacin y autocorrelacin parcial (ACF y PACF) muestrales de {Yt} a distancias que sean mltiplos de s para obtener una aproximacin de P y Q. Es decir, ( ks) , k=1,2, debe ser compatible con un modelo ARMA(P,Q). 3. Los valores de p y q se obtienen observando los valores de (1),..., ( s 1) , los cuales deben ser compatibles con los de un modelo ARMA(p,q). A continuacin, veremos un ejemplo con el cual se pretende explicar los tres pasos anteriores. Ejemplo VI.2.1. Consideremos el archivo DEATHS.TXT. Los datos presentan la siguiente grfica: Grfica27. Serie Muertes mensuales causadas por accidentes en USA de 19731978.
11000
10000
muertes
9000
8000
7000
10
20
30
40
50
60
70
Podemos ver que la serie presenta estacionalidad a distancia s=12. Por lo que diferenciamos una vez a esta distancia. Una vez eliminado el componente de estacionalidad, se tiene: Grfica28. Serie (1 B 12 ) X t , donde Xt es la serie de muertes causadas por accidentes.
500
muertes
-500
-1000
-1500
10
20
30
40
50
60
110

Grfica29. Serie (1 B 12 )(1 B ) X t , donde Xt es la serie de muertes causadas por accidentes.
1000
500
muertes
-500
-1000
10
20
30
40
50
60
Las instrucciones para hacer las grficas de este ejemplo son:

guiPlot(PlotType="Y Series Lines",DataSet="deaths") deat.difD<-diff(deaths,12,1) guiPlot(PlotType="Y Series Lines",DataSet="deat.dif") deat.difDd<-diff(deat.difD,1,1) guiPlot(PlotType="Y Series Lines",DataSet="deat.difDd")
La ltima grfica presenta, pues, la serie: Yt D=1.
(1 B 12 )(1 B) X t . Note que s=12, d=1,
Las grficas de ACF y PACF muestrales de la serie {Yt} se obtienen adicionando a las instrucciones de arriba las lneas:
acf(x = deat.difDd,24, type = "correlation") acf(x = deat.difDd,24, type = "partial")
Grfica30. ACF y PACF de la Serie (1 B 12 )(1 B ) X t , donde Xt es la serie muertes.

Series : deat.difDd
1.0 0.2
Series : deat.difDd
0.8
0.6
0.2
-0.2
-0.4
-0.3
0
-0.2
0.0
Partial ACF -0.1 0.0
ACF 0.4
0.1
5 Lag
10
15
5 Lag
10
15
Autocorrelation matrix: lag deat.difDd lag 1 0 1.0000 13 2 1 -0.3558 14 3 2 -0.0987 15 4 3 0.0955 16 5 4 -0.1125 17 6 5 0.0415 18
deat.difDd 12 -0.3332 13 0.0902 14 0.1163 15 -0.0406 16 -0.0633 17 0.1833
111

7 8 9 10 11 12 6 7 8 9 10 11 0.1141 -0.2041 -0.0071 0.1001 -0.0814 0.1952 19 20 21 22 23 24 25 18 19 20 21 22 23 24 -0.1929 0.0242 0.0496 -0.1201 0.0411 0.1631 -0.0989
0.333, (24) 0.0989, (36) 0.0126 sugieren un modelo Los valores (12) MA(1) para los datos anuales, pues despus de (12) , los valores de (ks) para k=2,3 son estadsticamente igual con cero. Es decir, P=0 y Q=1.
Por otra parte, (1) es el nico trmino de correlacin de los 11 primeros significativamente diferente de cero. Por lo que escogemos un modelo MA(1) para los datos mensuales. Es decir, p=0 y q=1. De acuerdo a lo anterior, tenemos que:
* *
( B) ( B)
(1 (1
B)(1 B)(1
B12 ) 1 B12 ) 1
B B
B12 Bs
B13 B13
Hemos visto, pues, que el modelo adecuado para la serie {Xt} corregida por la media es un proceso SARIMA(0,1,1) x (0,1,1)12. El ajuste se llev a cabo con el paquete R. Una vez que tenemos nuestros datos en un vector, usamos la funcin arima0. Es decir,
> deat [1] 9007 8106 8928 9137 10017 10826 11317 10744 9713 9938 9161 8927 [13] 7750 6981 8038 8422 8714 9512 10120 9823 8743 9129 8710 8680 [25] 8162 7306 8124 7870 9387 9556 10093 9620 8285 8433 8160 8034 [37] 7717 7461 7776 7925 8634 8945 10078 9179 8037 8488 7874 8647 [49] 7792 6957 7726 8106 8890 9299 10625 9302 8314 8850 8265 8796 [61] 7836 6892 7791 8129 9115 9434 10484 9827 9110 9070 8633 9240 > deatD<-diff(deat,12,1) > deatDd<-diff(deatD,1,1) > fit<-arima0(deat,order=c(0,1,1),seasonal=list(order=c(0,1,1),period=12),method="ML") > mean(deatDd) [1] 28.83051 > fit Call: arima0(x = deat, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1), period = 12), method = "ML") Coefficients: ma1 sma1 -0.4277 -0.5546 s.e. 0.1229 0.1715 sigma^2 estimated as 99797: log likelihood = -425.54, aic = 857.08
112

Por lo que el modelo ajustado para {Xt} (la serie original) es un proceso SARIMA(0,1,1) x (0,1,1)12, dado por:
12
Xt
28.8305 (1 .4277 B)(1 0.5546 B 12 ) Z t , Z t
WN (0,99797)
Ejemplo VI.2.2. Consideremos el archivo VIAJEROS.TXt. Esta serie la vimos en el captulo 2, y recordemos que fue necesario diferenciar a distancia 12 y a distancia uno, es decir s=12, D=1 y d=1. Con lo que obtuvimos: Grfica31. Serie (1 B 12 )(1 B ) X t , donde Xt es la serie de viajeros.
1000
500
Viaj
0 -500
50
100
150
200
250
300
El paso siguiente es analizar las grficas de ACF y PACF para obtener los valores de P, Q, p y q. Las grficas son: Grfica32. ACF y PACF de (1 B 12 )(1 B ) X t , donde Xt es la serie de viajeros.
Series : viaj.difDd
1.0
Series : viaj.difDd
0.2 -0.4
0
0.0
-0.5
-0.3
-0.2
Partial ACF -0.1 0.0
ACF
0.5
0.1
10 Lag
15
20
10 Lag
15
20
Las grficas anteriores las obtenemos, en S-PLUS, mediante: guiPlot(PlotType="Y Series Lines",DataSet="viajeros") viaj.difD<-diff(viajeros,12,1) guiPlot(PlotType="Y Series Lines",DataSet="viaj.difD") viaj.difDd<-diff(viaj.difD,1,1) guiPlot(PlotType="Y Series Lines",DataSet="viaj.difDd") acf(x = viaj.difDd,24, type = "correlation") acf(x = viaj.difDd,24, type = "partial")
113

De acuerdo a la ACF, podemos ver que despus de h=12, la ACF es estadsticamente igual con cero, por lo que Q=1. Para h=1,,11, la ACF toma varios valores distintos de cero, sin embargo, usaremos solo el primero, es decir, q=1. De la grfica de la PACF, como lo hicimos con la ACF, podemos obtener P=1 y p=1. As, el modelo que ajustaremos a la serie de viajeros ser un modelo SARIMA(1,1,1) x (1,1,1)12. El ajuste lo hicimos en con el paquete R y, especficamente, con la funcin arima0. fit<-arima0(viaj,order=c(1,1,1),seasonal=list(order=c(1,1,1),period=12),method="ML") > media<-mean(viaj) Obteniendo: Coefficients: ar1 ma1 sar1 sma1 0.4074 -0.9156 0.0125 -0.8349 s.e. 0.0525 0.2583 0.0690 0.0422 sigma^2 estimated as 13377: log likelihood = -1969.67, aic = 3949.33
> media [1] 785.8164
Por lo que el modelo ajustado para la serie original es un proceso SARIMA(1,1,1) x (1,1,1)12, dado por:
12
Xt
785.8 (1 0.407 B)(1 0.012 B12 ) X t
(1 0.916 B)(1 0.835B12 ) Z t ,
Zt
WN (0,13377)
VI.2.1 Prediccin con Modelos SARIMA El proceso de prediccin en los procesos SARIMA es anlogo al presentado en los procesos ARIMA. El proceso consiste en desarrollar los binomios usados para volver estacionaria la serie. Es decir, desarrollar el trmino (1 B) d (1 B s ) D , el cual est dado por:
d
(1 B) d
k 0 D
d k j
( 1) k ( B) d k ...........................(VI .1) D ( 1) j ( B s ) D j .....................(VI .2)
(1 B s ) D
j 0
El producto de estas dos expresiones resulta un polinomio de orden Ds+d, que se puede expresar como un solo polinomio (B ) . Por lo que podemos escribir:
114

X t (1 B) d (1 B s ) D X t ( B)
Ds d
Yt
Yt aj Xt
j
Xt
j 1
Yt
donde el trmino aj expresa el producto de signos y combinatorias de los trminos dados en (VI.1) y (VI.2). Para t=n+h, despejando Xn+h, obtenemos:
Ds d
Xn
Yn
h j 1
aj Xn
h j
y dado que el predictor es un operador lineal, la prediccin de Xn+h, Pn X n h , queda como:

Ds d
Pn X n
PnYn
h j 1
a j Pn X n
h j
Note que el primer trmino de la derecha es la prediccin de un proceso ARMA, el cual ya hemos estudiado en captulos anteriores. El segundo trmino se calcula recursivamente partiendo del resultado Pn X n 1 j X n 1 j , para j 1. Con respecto al ECM, tenemos que encontrar una expresin anloga a la que encontramos para el proceso ARIMA. Esto es, una expresin de la forma
* j j 0
Zt j .
Para esto, tal como lo hicimos para el proceso ARIMA, partimos de la igualdad:
( B s ) ( B)Yt ( B) ( B s ) Z t ( B) ( B s ) Z t
( B s ) ( B)(1 B) d (1 B s ) D X t Xt Xt
( B) ( B s ) Zt ( B s ) ( B)(1 B) d (1 B s ) D
*
( B) Z t
De esta forma, para un nmero de observaciones, n, grande, podemos usar la aproximacin:
ECM ( X n h )
h 1 2 j 0 *2 j
115

donde
( z)
j 0 j jz
( z) ( z s ) , ( z ) ( z )(1 z ) d (1 z s ) D
Ejemplo VI.2.2. Consideremos, nuevamente, el archivo DEATHS.TXT. Una vez ajustado el modelo como en el ejemplo V.2.1, podemos predecir los siguientes valores de la serie. En este ejemplo, vamos a estimar los siguientes seis valores (de la observacin 73 a la 78). Para esto, nuevamente usando el paquete R, usamos la funcin predict. As, adicionamos la lnea siguiente a las lneas con las que ajustamos el proceso del ejemplo V.2.1: > forecast<-predict(fit,n.ahead=6,se.fit=TRUE) > forecast $pred Time Series: Start = 73 End = 78 Frequency = 1 [1] 8336.999, 7533.183, 8317.035, 8589.337, 9490.938, 9860.644 $se Time Series: Start = 73 End = 78 Frequency = 1 [1] 315.8686 363.8916 406.2772 444.6406 479.9473 512.8289 En la primera lnea en negritas de los resultados se tienen las estimaciones y en la segunda su correspondiente raz del ECM. Al final del captulo aparece una tabla, extrada de [Box, Jenkins y Reinsel (1994)] en la que se resumen algunos modelos estacionales, junto con su funcin de autocovarianzas y algunas propiedades importantes. VI.3. REGRESIN CON ERRORES ARMA(p,q) Como tarea importante en la generalizacin de la tcnica de regresin tradicional, se presenta el caso donde los errores del modelo de regresin siguen un proceso ARMA(p,q), en vez de suponer que son independientes e idnticamente distribuidos (iid). Esta generalizacin es muy til ya que en muchos casos prcticos, la suposicin de independencia no se cumple. Enseguida daremos un breve resumen de las tcnicas de estimacin del Anlisis de Regresin.
116

VI.3.1 Mnimos Cuadrados Ordinarios (MCO) Consideremos el modelo de regresin simple en forma matricial:
Y X
Este mtodo consiste en escoger el valor de que minimice la suma de cuadrados de las desviaciones de las observaciones respecto a su valor esperado, es decir, el valor que minimiza:
N
[ yi
i 1
E ( y i )] 2
(Y
X )' (Y
X )
donde N es el nmero de observaciones. El estimador resultante, MCO , es el siguiente:

MCO ( X ' X ) 1 X 'Y
VI.3.2 Mnimos Cuadrados Generalizados (MCG) Cuando asumimos que conocemos la matriz de varianzas-covarianzas del vector de errores, es decir, suponemos Cov( ) V , podemos minimizar, respecto a , la cantidad:
(Y X )'V 1 (Y X )
El estimador resultante, MCG , es el siguiente:

MCG ( X 'V 1 X ) 1 X 'V 1 Y
Note que si V Linear Models (1997)].
I , tenemos el caso de MCO. Para ms detalles revisar [Searle S.R.
En el Anlisis de Regresin Estadstico, generalmente, se supone que los errores son independientes e idnticamente distribuidos (iid). Sin embargo, en la prctica este supuesto no se cumple. Esto se puede corroborar examinando los residuales del modelo ajustado y su autocorrelacin muestral. Por lo anterior, una aplicacin del anlisis de Series de Tiempo en el Anlisis de Regresin es considerar que los errores {Wt} siguen un proceso causal ARMA(p,q) con media ( B) Z t , con Z t WN (0, 2 ) . cero dado por ( B)Wt Consideremos el modelo de regresin simple:
117

Yt xt' Wt , donde Wt ARMA ( p, q) con E[W t ] 0 , t=1,,n
Dicho de otra forma, {Wt} satisface:

( B)Wt ( B) Z t , con Z t WN (0,
2
El modelo lo podemos expresar en forma matricial como:

Y X W
donde Y
(Y1 , Y2 ,..., Yn )' , X es la matriz diseo cuya i-sima hilera est dada por los valores
(1, xt1 , xtk ,..., xtk ) , k es el nmero de
que toman las variables explicatorias en el tiempo t, xt'
variables explicatorias, es decir, X es de orden n x (k+1) y W (W1 ,W2 ,..., Wn )' es el vector de errores. Tambin, definimos los vectores de parmetros asociados al proceso {Wt}, ( 1 ,..., p ) y ( 1 ,..., q )' . El problema que abordaremos ser cmo estimar este modelo? Es decir, identificar el proceso que sigue {Wt} y estimar el vector de regresin, . Para esto, debemos recurrir a estrategias que nos permitan tener valores iniciales de los parmetros en cuestin. Tomemos como estimador inicial de
(0) (0) Y (0) W
al estimador de regresin por MCO

(X ' X ) 1 X 'Y
(0) X
Una vez que conocemos la primera estimacin de W , podemos conocer su matriz de varianzas-covarianzas. Sea n E[W 'W ] dicha matriz. As, se puede obtener la matriz de
( 0) covarianzas de , la cual est dada por:
( 0) COV ( )
(X ' X ) 1 X '
X (X ' X )
(0) Ahora, teniendo W , podemos identificar qu proceso sigue. Es decir, podemos ( B ) Z t , con Z t WN (0, 2 ) . ajustar un modelo de la forma ( B )Wt
El siguiente paso es refinar la estimacin del vector por el mtodo de MCG considerando que conocemos la matriz de covarianzas de los errores, n E[W 'W ] . As,
118

(1) (1) Y (1) W (X '
1 n
X) 1X ' (1) Y
1 n
(1) X
(1) Ahora el nuevo vector de parmetros tiene matriz de Covarianzas:
COV ( )
(1)
(X ' (X '
1 n 1 n
X) 1X '
1
1 n n n
X (X '
1 n
X)
X)
Cabe mencionar que para efectuar esta estimacin es necesario conocer los vectores y . Se puede mostrar que,
VAR(c
'
(1)
) VAR(c
'
( 0)
(1) (1) Usando se vuelven a estimar los residuales W , a los cuales se les ajusta un nuevo modelo ARMA(p,q) con el fin de refinar los vectores y . El proceso es iterativo y termina cuando los parmetros convergen.
El proceso de estimacin nos conducir a la convergencia

MCG (i )
(i) y
Cabe destacar que el proceso ARMA(p,q) ajustado en cada iteracin i > 0 actualiza los valores de y del proceso inicial. Lo anterior se resume en el siguiente diagrama:
119

Figura4. Proceso de ajuste de un modelo de regresin con errores siguiendo un proceso ARMA(p,q).
Y X W
: Modelo Inicial.
(0)
( X ' X ) 1 X ' Y : Se estima
con MCO.
( 0) W
(0) X
(0) : Se genera el proceso {Wt} de residuales como W .
(i Ajustar un proceso ARMA a W
0)
(i 0)
(i 0)
implican
(i
1)
(X '
1 n
X) 1X '
1 n
(i W
1)
(i X
1)
Ejemplo VI.3.1. Consideremos la serie de 57 mediciones de la cantidad de gasolina en un tanque estacionario. El archivo es OSHORTS.TXT. El modelo propuesto para el stock de gasolina en el tanque es:
Yt Wt
Donde es interpretado como la merma diaria en el tanque de gasolina y {Wt} un proceso MA(1). Esto es, {Wt} cumple:
Wt Zt Zt 1 , Zt WN (0,
2
120

Para ajustar el modelo, en ITSM, seleccionamos la opcin Regression>Specify y marcamos la opcin Include Intercept term, luego seleccionamos la opcin Regression>Estimation>Least Squares. El siguiente paso es ajustar un modelo ARMA a la serie {Wt}. Para ello, seguimos los pasos Model>Estimation>Autofit (seleccionar el modelo ARMA con mnimo AICC): Method: Maximum Likelihood Y(t) = M(t) + X(t) Based on Trend Function: M(t) = - 4.0350877 ARMA Model: X(t) = Z(t) - .8177 Z(t-1) WN Variance = .204082E+04 Con esto, podemos obtener una nueva estimacin para el modelo de regresin por el mtodo de MCG. Para ello, seleccionamos la secuencia (en ITSM) Regression> Estimation> Generalized LS y los resultados aparecern en la ventana Regression Estimates. Method: Generalized Least Squares Y(t) = M(t) + X(t) Trend Function: M(t) = - 4.7449426 ARMA Model: X(t) = Z(t) - .8177 Z(t-1) WN Variance = .204082E+04 Como vimos en el desarrollo de la teora, el proceso es iterativo, por lo que tenemos que ajustar nuevamente el modelo para los errores. Esto se logra en ITSM presionando el botn azul superior MLE: Method: Generalized Least Squares Trend Function: M(t) = - 4.7799300 ARMA Model: X(t) = Z(t) - .8475 Z(t-1) WN Variance = .201992E+04 Despus de 4 iteraciones el proceso converge como se puede ver en el siguiente cuadro resumen:
Cuadro3. Resumen del ejemplo regresin con errores ARMA. (i ) Iteracin i (i ) 1 2 3 4 0 - 4.0350877 - .8177 - 4.7449426 - .8475 -4.77992996 - .8475 -4.77992996
En S-PLUS se usan, iterativamente, las instrucciones:
121

media<-mean(t(oshorts$stock)) mco<-lm(oshorts$stock ~ oshorts$stock) resid<-oshorts$stock-media ajuste.res<-arima.mle(resid,list(ma=0)) mcg<-lm(oshorts$stock ~ oshorts$stock + resid) mco ajuste.res mcg
Obteniendo como primera iteracin:

Coefficients: (Intercept) -4.035088 Method: Model : Maximum Likelihood 0 0 1
Coefficients: MA : 0.81763 Variance-Covariance Matrix: ma(1) ma(1) 0.005815465 Coefficients: (Intercept) resid -4.035088 1
VI.4. RAICES UNITARIAS EN SERIES DE TIEMPO El problema de las races unitarias surge cuando los polinomios Autorregresivos o de Promedio Mvil de un proceso ARMA tienen una raz igual con 1. Las consecuencias de este problema estriban en las diferenciaciones. Si encontramos que el polinomio Autorregresivo tiene una raz unitaria, entonces significa que la serie no es estacionaria y en consecuencia, requiere ser diferenciada; mientras que, si encontramos una raz unitaria en el polinomio de Promedio Mvil, significa que la serie est sobrediferenciada. VI.4.1 Races Unitarias en el polinomio Autorregresivo El grado de diferenciacin en una serie {Xt}, como vimos, est determinado por la aplicacin del operador de diferencia repetidamente hasta que la grfica de la funcin de autocorrelacin muestral de la serie diferenciada, ACF, decae rpidamente. De aqu que, el modelo ARIMA(p,d,q) tiene un polinomio autorregresivo con d races en el crculo unitario. En esta seccin discutiremos las pruebas bsicas de races unitarias para decidir si tenemos o no que diferenciar la serie. Supongamos que {Xt} sigue un proceso AR(1) con media , es decir:
Xt
1
(X t
) Zt , Zt
WN (0,
122

Por otra parte, sabemos que, para un nmero de observaciones n, grande, el estimador de mxima verosimilitud de 1 tiene la propiedad: 1 N ( 1 , (1 12 ) / n) . La prueba de hiptesis de raz unitaria en este modelo consiste en establecer:
H0 :
1
v.s
H1 :
Para construir la estadstica de prueba, escribimos el modelo AR(1) como sigue:

Xt donde
* 0 * 1
Xt
* 0
Xt
* 1
1 1
Xt
Zt
(1
1
Note que esta representacin es anloga al modelo de anlisis de regresin expuesto en la seccin VI.3. En este caso, la variable dependiente es X t y la independiente es Xt-1. Si 1* es el estimador de MCO de muestral (EE) est dado por:
EE ( 1* )
* 1
, entonces su correspondiente Error Estndar
S
n 1/ 2
(Xt
t 2
X)
donde
n
S2
t 2
Xt 1 n 1t
n
0*
1
1* X t
2 1
/( n 3)
Xt
2
Dickey y Fuller (1979), bajo el supuesto de raz unitaria, derivaron la distribucin asinttica (n grande) para la prueba de hiptesis propuesta. Dicha estadstica de prueba es la razn dada por: 1* EE ( 1* ) Los valores crticos para tres diferentes niveles de significancia se muestran en la tabla siguiente:
123

Cuadro4. Valores crticos de Dicky-Fuller. 0.01 0.05 0.10 La regla de decisin es: D/F -3.43 -2.86 -2.57 t-student -2.33 -1.96 -1.65
D/ F D/ F
Rechazar H 0 No Rechazar H 0
Note que es menos probable rechazar la hiptesis de raz unitaria usando la distribucin lmite de Dickey-Fuller que usando la aproximacin a la distribucin t-Student. El procedimiento de prueba anterior se puede extender al caso de un proceso AR(p) con media dado por:
Xt
(Xt
(Xt
) Zt ,
Zt
WN (0,
Siguiendo la misma idea que en el AR(1), el modelo AR(p) lo podemos escribir como:
Xt
* 0
* 1
* Xt 1 2 Xt donde :
* 0 * 1 i 1 p * j i 1
* p
Xt
)
p 1
Zt
(1
p i
1 , j 2,..., p
La prueba de raz unitaria, como en el AR(1), es equivalente a probar 1* 0 . La estadstica de prueba y la regla de decisin son las mismas que en el caso del proceso AR(1). Ejemplo VI.4.1. Consideremos la serie de datos del Lago Hurn. El archivo es LAKE.TXT. La grfica de esta serie se encuentra en la grfica22 y las grficas de las funciones de autocorrelacin y autocorrelacin parcial en la grfica23. La PACF muestral sugiere ajustar un modelo AR(2). Sin embargo, para ejemplificar la teora descrita, propondremos un modelo AR(1).
124

Para llevar a cabo el ajuste del modelo de regresin de X t sobre Xt-1 en S-PLUS seguimos: En el Dataset Lake, seleccionamos Data> Transform y en el cuadro de dilogo que aparece escribimos la Expression: diff(Lake,1,1), esto crear una nueva columna (llamada V1) con las diferenciaciones a distancia 1. Enseguida seleccionamos Statistics> Regression> Linear y en la opcin Variable Dependent seleccionamos V1 y en Independent elegimos lake. Obteniendo: Cuadro5. Parmetros estimados de la regresin de
Coefficients: (Intercept) lake Value 1.4670 -0.1636 Std. Error 0.5061 0.0557 t value 2.8986 -2.9381 Pr(>|t|) 0.0047 0.0041
X t sobre Xt-1.
Note que la columna t value muestra la estadstica de prueba de Dickey-Fuller. Es decir:

0.16359 0.05568 2.94
De acuerdo a la regla de decisin de Dickey Fuller, a un nivel de significancia del 1%, D / F0.01 (-2.94 -3.43) . Esto permite no se rechaza la hiptesis de raz unitaria, pues concluir que existe raz unitaria en el polinomio autorregresivo y esto, a su vez, implica que la serie no est suficientemente diferenciada, como lo mencionamos anteriormente en base a la grfica de la PACF muestral. Ntese, tambin, que si usamos la aproximacin a la distribucin t-Student, la hiptesis nula se rechazara al nivel de significancia del 1%, pues es mayor al pvalue=0.41%. Veamos ahora que pasa si proponemos un modelo AR(2). Esto implica llevar a cabo la regresin de X t sobre Xt-1 y X t 1 para t=3,,98. El procedimiento es similar al anterior con la novedad de que ahora se agrega una nueva variable independiente, a saber X t 1 . Cuadro6. Parmetros estimados de la regresin de
Coefficients: Value (Intercept) 1.9196 lake -0.2158 V1 0.2376 Std. Error 0.5023 0.0554 0.0971 t value 3.8217 -3.8977 2.4457 Pr(>|t|) 0.0002 0.0002 0.0163
X t sobre Xt-1 y
Xt 1.
donde: V1:= X t 1 ; lake:= Xt-1, t=3,,98. De los resultados podemos ver que:
0.21584 0.05538 3.9
125

De acuerdo a la regla de decisin de Dickey Fuller, a un nivel de significancia del 1%, D / F0.01 (-3.9 -3.43) . Con esto, se rechaza la hiptesis de raz unitaria, pues concluimos que ajustando un AR(2) no existe raz unitaria. VI.4.2 Races Unitarias en el polinomio de Promedio Mvil La interpretacin de la existencia de races unitarias en el polinomio de promedio mvil depende de la aplicacin del modelo. Una de ellas es, como ya se mencion, que la serie est sobrediferenciada. Supongamos que {Xt} sigue un proceso ARMA(p,q) invertible, por lo que satisface: ( B) X t ( B ) Z t , Z t WN (0, 2 )
X t es un proceso ARMA(p,q+1) no invertible Entonces, la serie diferenciada Yt con polinomio de promedio mvil dado por: ( z )(1 z ) . De aqu que, probar la existencia de raz unitaria es equivalente a probar que la serie est sobrediferenciada.
En la presente, nos limitaremos al caso de races unitarias en procesos MA(1). Supongamos que {Xt} forma un proceso MA(1):
Xt Zt
1
Zt , Zt
IID (0,
Supongamos, tambin, la existencia de raz unitaria (z=1), por lo que el polinomio de promedio mvil z 1 0 implica que 1 . Esta ltima igualdad es, de hecho, la hiptesis por probar. Bajo esta hiptesis, [Davis y Dunsmuir (1995)] mostraron que n( +1), donde es el estimador de Mxima Verosimilitud de , tiene la propiedad de converger en distribucin. Lo anterior se resume en probar el juego de hiptesis:
H0 : 1 v.s H1 : 1
La regla de decisin es: Si
1 C /n 1 C /n
Rechazar H 0 No Rechazar H 0
donde C es el (1-) cuantil de la distribucin lmite de n( +1). Los valores crticos de esta distribucin se muestran en el siguiente cuadro para tres niveles de significancia, los cuales fueron extrados de la tabla 3.2 de [Davis, Chen y Dunsmuir (1995)]: Cuadro7. Valores crticos de la estadstica C. C 0.01 11.93 0.05 6.80 0.10 4.90
126

Note que la desigualdad de la regla de decisin es resultado de la desigualdad 1) C . n( Cabe mencionar que existe otra estadstica de prueba para probar el mismo juego de hiptesis (de raz unitaria) que consiste en la prueba de Razn de Verosimilitud. Para ms detalles consultar [Brockwell y Davis (2002) pp. 197]. Ejemplo VI.4.1. Consideremos la serie de datos del ejemplo VI.3.1 (57 observaciones de cantidad de gasolina en un tanque estacionario). Recordemos que el modelo ajustado para los datos corregidos por la media fue: ARMA Model: X(t) = Z(t) - .8177 Z(t-1) WN Variance = .204082E+04 De acuerdo a la regla de decisin descrita arriba, al 5% de significancia, tenemos que: 0.8177 1 C 0.05 / n 1 6.8 / 57 0.881
1 C 0.05 / n
Rechazar la hiptesis de raz unitaria en el polinomio de promedio mvil. Ntese que en este ejemplo consideramos que la media es conocida. En la prctica, la prueba debe ser ajustada por el hecho de que la media tambin debe ser estimada.
127

Cuadro8. Autocovarianzas de algunos modelos estacionales. Modelo (Autocovarianza de Xt)/2
0
Algunas caractersticas
(1 (1 (1
s 1
)(1
2
)
(a)
Xt s 3
(1 Zt
B)(1 Zt
1
B s )Z t Zt
s
)
s 1 s 1 s 1 s 1 s 1
Zt
s 1
s 1
s s 1
(b)
Las dems son cero
(1 Xt s 3
Bs )X t Xt
s
(1 Zt
B )(1 Zt
1
B s )Z t Zt
s
(1 1
)1 ( 1
( 1 )2
2
)2
2
Zt
(a) (b)
s 1 j
s 1 j s
s 1
,j
s 1
( 1 (1
s 1 j s 2
)2
2
( 1 s
3
)2
2
s 1 j
,j
2
2
s 2
Para s 4,
,...,
son cero
128

Modelo (Autocovarianza de Xt)/2 Algunas caractersticas
Xt
(1 Zt
2
B
1
B 2 )(1
2Zt 2 2
Bs
1Z t s 2
B 2s )Z t
1 1Z t 2s 1 s 1 2 2
0 1
(1
1
2 1
2 2 2
)(1
2 1 2 2 2 2
2 1 2 2
2 2
(a) (b) (c ) (d )
s 2 s 1 2s 2 2s 1
s 2 s 1 2s 2 2s 1
1Z t 1
(1 (1
1 1
)(1
2 1
Zt
s 2
Zt
2s
Zt
Zt
2s 2
2 s 2 s 1 s
s 1 s 2 2s 2 2s 1 2s 2s 1 2s 2
2 2 1
)
2 2
(1
2 2 1
) )
2 2 2 2
(1
)(1 )(1
(1
s 1 s 2 2 1 2 2 2
(1
2 1
)
2 2
(1
2s 1 2s 2
El resto son igual a cero
129

Modelo (Autocovarianza de Xt)/2
1
Algunas caractersticas
(a ) En general,
s 1 s 1 s 1 s 1
Xt s 3
(1 Zt
B Zt
1
Bs
s
s 1
B s 1 )Z t
s 1
0 1 s 1 s s 1
1
1 1 1
2 1 s s s 1 s 1
2 s s 1
2 s 1
Zt
Zt
s 1
(1 Xt s 3
Bs )X t Xt
s
(1 Zt
1 1
B Zt
1
Bs
s
s 1 s
B s 1 )Z t
s 1
1
1
2 1
( (
s
)2
2
(
1
s 1
Zt
Zt
1 )( 1
s 1
s 1 2
1 )
1 2
1 2
)2
(a ) (b)
s 1 j
s 1 j s
,j
s 1
( ( (
) )1
(
1
s 1
1 ( 1 )
1 s 2
) ( ( 1 )
s 1
1 2
s 1
1
s 2
s 1
s 1
)1 2
s 2
j s
,j
2
s
3
Para s
4,
,...,
son cero
130

CAPITULO VII. SERIES DE TIEMPO MULTIVARIADAS El anlisis de series de tiempo multivariadas consiste, esencialmente, en analizar varias series de tiempo a la vez. Este anlisis es justificable, puesto que en la prctica es difcil que una variable acte por si misma. Es decir, muchas veces hay una interdependencia entre varias variables. Supongamos dos series {Xt1} y {Xt2}. Cada una de ellas las podemos analizar por separado como series univariadas, sin embargo puede que exista algn tipo de dependencia entre ambas variables y tal dependencia puede ser de gran importancia cuando se tenga inters en predicciones futuras de las variables. Sin perdida de generalidad se dar el caso de dimensin 2, ya que su extensin a dimensin k es muy sencilla. Consideremos la serie bivariada X t ( X t1 , X t 2 ) ' . Definimos la funcin vectorial promedio como sigue:
EX t1
t
EX t 2
y la funcin matricial de covarianzas como:
(t h, t )
Cov( X t h , X t )
cov( X t cov( X t
h ,1 h, 2
, X t1 ) , X t1 )
cov( X t cov( X t
h ,1
, X t2 ) , X t2 )
h, 2
Cuando la funcin vectorial promedio y la funcin matricial de covarianzas de la serie bivariada X t ( X t1 , X t 2 ) ' no depende de t, se dice que es estacionaria en sentido dbil, en cuyo caso usamos la notacin:
EX t1 EX t 2
y
( h) Cov( X t h , X t )
11 21
( h) ( h)
12 22
( h)
( h)
Note que los elementos de la diagonal de la matriz de covarianzas son las funciones de autocovarianzas univariadas de cada serie. Mientras que, los elementos fuera de la diagonal son las covarianzas cruzadas. Es decir: ii (h) Xi ( h) . Ms adelante enumeraremos algunas de las propiedades de (h ) para las series multivariadas. Ejemplo VII.1. Consideremos el archivo LS2.TXT. Los datos de la serie uno corresponden a ventas {Yt1, t=1,,150}; la segunda serie muestra un indicador de direccin de ventas, {Yt2, 131

t=1,,150}. Para graficar las series, seleccionamos la columna ventas del dataset LS2 y seleccionamos la opcin de grfica Y Series Line. Lo mismo para la columna indicador. Grfica33. Serie bivariada: ventas e indicador de ventas.
14
260
13
240
12
indicador
220 200
ventas
11
10
30
55
80
105
130
155
30
55
80
105
130
155
> > > > >
num.datos 150 media.ventas 11.84673 media.indicador 229.978 desv.est.ventas 1.215853 desv.est.indic 21.47969
La grfica de las series muestra que ambas series son no estacionarias, por lo que es necesario diferenciarlas a distancia uno. La grfica resultante de las series diferenciadas {Dt1} y {Dt2} es: Grfica34. Serie (1 B) X t , donde X t es la serie bivariada: ventas e indicador de ventas.
4 0.5
vent.dif
0.0
ind.dif
0 -2 -4 5 30 55 80 105 130 155 5 30 55 80 105 130 155
-0.5
-1.0
Las instrucciones para hacer las grficas de las series diferenciadas son:
vent.dif<-diff(LS2$ventas,1,1) ind.dif<-diff(LS2$indicador,1,1) guiPlot(PlotType="Y Series Lines",DataSet="vent.dif") guiPlot(PlotType="Y Series Lines",DataSet="ind.dif")
Las grficas de autocorrelacin muestral y autocorrelacin cruzadas se obtienen mediante las instrucciones:
132

vent.dif<-diff(LS2$ventas,1,1) ind.dif<-diff(LS2$indicador,1,1) ls2.dif<-cbind(vent.dif,ind.dif) acf(ls2.dif,lag.max=40, type="correlation",plot=T)
Grfica35. ACF y PACF de la serie (1 B) X t , donde X t es la serie bivariada: ventas e indicador de ventas.
Multivariate Series : ls2.dif
vent.dif
0.8 1.0
vent.dif and ind.dif
ACF 0.2 0.4
0.6
0.0
-0.4
10
20
30
40
-0.2
0
-0.1
0.0
0.1
10
20
30
40
ind.dif and vent.dif

0.6 1.0
ind.dif
0.4
ACF 0.2
0.0
-0.2
-0.4
-40
-30
-20 Lag
-10
-0.2
0
0.0
0.2
0.4
0.6
0.8
10
20 Lag
30
40
ij ( h) est graficada en la hilera i y columna j. Cabe mencionar que la interpretacin de las grficas de autocorrelacin cruzada se debe hacer con cuidado, ya que es fcil cometer errores en dicha interpretacin.
VII.1. PROPIEDADES DE LA FUNCIN DE AUTOCOVARIANZAS,
(h )
Consideremos un vector de dimensin m dado por X t ( X t1 , X t 2 ,..., X tm )' . Es decir, X t tiene observaciones de m series de tiempo estacionarias en el tiempo t. La matriz de Autocovarianzas, (h ) , tiene las siguientes propiedades: 1. 2. 3. 4.
( h)
ij
'
( h)
ii
( h)
(0)
jj
( 0)
1/ 2
i, j 1,..., m
ii
( ) es una funcin de autocovarianzas, i=1,,m.
n j ,k 1
a j ( j k )a k
'
0 para todo n
1,2,... y a1 ,..., a n
Rm .
Demostracin. Para probar la primera propiedad basta con aplicar la definicin dada al inicio de este captulo. Para ejemplificar tal propiedad, supongamos h=1 y h=-1, tambin supongamos que la serie es bivariada. De aqu, 133

(1) ( 1) cov( X t cov( X t
1,1 1, 2
, X t1 ) , X t1 ) , X t1 ) , X t1 )
cov( X t cov( X t
1,1
, X t2 ) , X t2 ) , X t2 ) , X t2 ) (1)
11 21
(1) (1) ( 1) ( 1)
12
(1) (1)
12
1, 2
22
cov( X t cov( X t
1,1 1, 2
cov( X t cov( X t
1,1
11 21
( 1) ( 1)
11 12
(1) (1)
21 22
(1) (1)
1, 2
22
'
( 1)
De las igualdades anteriores, concluimos la primera propiedad. Para probar la segunda igualdad usamos la definicin de correlacin y el hecho de que esta no puede ser mayor a 1 en valor absoluto. Es decir:
ij
( h)
ii
ij
( h)
jj
(0)
(0)
1/ 2
ij
( h)
ii
(0)
jj
(0)
1/ 2
La tercera propiedad no es ms que una observacin de la diagonal de la matriz de autocovarianzas. Esto es, podemos ver que ii ( ) es la funcin de autocovarianzas de la serie estacionaria {Xti, i=1,,m}. Para probar la propiedad 4 consideremos la variable:
a1 ( X 1
'
) a2 (X 2
'
) an (X n
'
Cuya varianza est dada por:

n
Var (W )
a j cov( X
j ,k 1
'
n j
) cov( X k
)a k
a j ( j k )a k
j ,k 1
'
La ltima expresin es la que nos interesa y es mayor o igual a cero ya que sabemos que, siendo una varianza, no puede ser un valor negativo. De esta forma, quedan probadas las cuatro propiedades de la matriz de Covarianzas. /// Definicin VII.1.1. [Ruido Blanco Multivariado].- El proceso {Z t } de dimensin m es llamado Ruido Blanco Multivariado con vector de medias cero y matriz de covarianzas si {Z t } es estacionario con vector promedio 0 y tiene matriz de covarianzas definida por:
( h)
134
si h 0m
de otro modo

Se usa la notacin: Z t de dimensin m x m.
WN (0, ) ; 0 es el vector cero de dimensin m; 0 m es la matriz cero
Ntese que la definicin no indica independencia entre las componentes de {Z t } , sino entre las observaciones de {Z t } . Recordemos que en las series de tiempo univariadas definimos un proceso lineal a partir de la definicin de proceso de Ruido Blanco. Para el caso multivariado, tambin existe este concepto. La diferencia se halla en que ahora los coeficientes del proceso {Z t } son matrices. A continuacin damos la definicin de proceso lineal multivariado. Definicin VII.1.1. [Proceso Lineal Multivariado].- La serie m-variada {X t } es un proceso lineal si tiene la representacin:
Xt
j
Cj Zt
con Z t
WN (0, )
donde {Cj} es una secesin de matrices m x m cuyos componentes son absolutamente sumables. Esta definicin la usaremos ms adelante para introducir el concepto de causalidad en series multivariadas. Tambin, a partir de ella, se tiene el resultado siguiente, el cual nos ayuda a determinar la funcin de autocovarianzas (h ) para {X t } . RESULTADO VII.1.- Si {X t } es un proceso lineal de dimensin m, entonces escribir como:
(h ) se puede
( h)
j
Cj
C 'j
Demostracin. Dado que {X t } es un proceso lineal, tiene la propiedad: X t

j
Cj Zt
con
Zt
WN (0, ) . Partiendo de esto y la definicin de covarianza, tenemos:
COV ( X t h , X t )
COV
j 0
Cj Zt
h
h j
,
j 0
Cj Zt
COV C0 Z t
Ch Z t
, C0 Z t
Ch Z t
Como {Z t } es un proceso de Ruido Blanco, COV (Z t h , Z t ) As, 135
para h=0 y 0 m de otro modo.

COV ( X t h , X t )
' C h COV ( Z t , Z t )C 0 ' ' C 0 COV ( Z t h , Z t )C 0 C h COV ( Z t , Z t )C 0
C 0 COV ( Z t h , Z t 1 )C1' C h 1COV ( Z t 1 , Z t 1 )C1' C h 1COV ( Z t 1 , Z t 1 )C1'
C j h COV ( Z t j , Z t j )C 'j
j 0
(h)
j 0
Cj
C 'j
Con lo queda demostrado el resultado. /// Ejemplo VII.1.1. Consideremos el modelo estacionario bivariado siguiente: X t con Z t WN (0, ) . Explcitamente, tenemos:
Xt
1
Zt
X t1 X t2
11 21
12 22
Xt Xt
1,1 1, 2
Z t1 Zt2
Encontremos una expresin de {X t } como proceso lineal. Esto se logra iterando el modelo como sigue:
Xt Xt
2 1
Zt
3
( Xt Zt 2)
Z t 1) Z t
1
2 3
Xt
2 2
Zt Zt
2
Zt Zt
1
( Xt
Zt
Zt
Xt
Zt
Aplicando el proceso repetidamente, llegamos a la expresin:
Xt
j 0
Zt
De esta forma, usando el resultado VII.1 podemos encontrar una expresin de la funcin de Covarianzas (h ) del proceso:
( h)
j 0
j h
'
VII.2. ESTIMACIN DEL VECTOR PROMEDIO Y LA FUNCIN DE COVARIANZAS En esta seccin introduciremos los estimadores de los componentes
j
ij
ij
de una
serie estacionaria m-variada {X t } . Tambin examinaremos las propiedades de los estimadores cuando se tienen muestras grandes. 136

VII.2.1. Estimacin del vector promedio, Como mencionamos anteriormente, el estimador natural del vector de medias basado en n observaciones X 1 ,..., X n es el vector de medias muestrales:
Xn 1 n
n
Xt
t 1
El estimador resultante de la media de la j-sima serie de tiempo es, entonces, la

n
univariada media muestral 1 / n

t 1
X tj .
En seguida daremos un resultado que involucra la varianza del vector de medias, anlogo al resultado IV.1 para series univariadas. RESULTADO VII.2.- Si {X t } es una serie de tiempo estacionaria m-variada con vector promedio y funcin de covarianzas (h ) , entonces conforme n :
E( X n
y
nE ( X n
)' ( X n
)' ( X n
)
)
0,
m
si
( h)
ii
( n)
1 i
m,
ii h i 1
si
h
ii
( h) |
Bajo supuestos ms restrictivos, se puede mostrar que el proceso {X t } es distribuido aproximadamente Normal cuando el nmero de observaciones es suficientemente grande. Este hecho nos permite hacer inferencia sobre las medias de las series de tiempo. VII.2.2. Estimacin de la funcin de Covarianzas,
(h )
El estimador natural de la funcin de autocovarianzas para un proceso estacionario )( X t )' , es: { X t } , ( h) E ( X t h

1n h (X t nt1 ' ( h) X n )( X t X n )' para 0 h n-1 0
( h)
para -n 1 h
En consecuencia, el estimador de las correlaciones cruzadas es:

ij (h) ij (h) ii (0) jj (0)
1/ 2
, i,j
1,...,m
137

Para el caso i=j, la expresin anterior se reduce a la funcin de autocorrelacin muestral de la i-sima serie. Enseguida damos un resultado muy til al momento de probar independencia entre dos series. RESULTADO VII.3.- Sea {X t } una serie bivariada cuyos componentes estn definidos como:
X t1
k k
Zt
k ,1
, {Z t1}
IID(0,
2 1
y X t2
k k
Zt
k ,2
, {Z t2 }
IID(0,
2 2
donde las secuencias {Z t1 } y {Z t 2 } son independientes. Entonces, para todo entero h y k con
n 12 ( h) y n 12 ( k ) se distribuyen, conjuntamente, h k , las variables aleatorias aproximadamente como Normal Bivariada con parmetros:
n 12 (h) n 12 (k )
0 0
11
( j)
22
22
( j)
j
11
( j)
11
22
(j
22
k ( j)
h)
,
j
11
( j)
(j
h)
j
( j)
Para llevar a cabo inferencia sobre las medias y las correlaciones debemos conocer sus propiedades distribucionales. Recordemos que en el caso univariado, para llevar a cabo inferencia sobre las autocorrelaciones, usamos la Frmula de Barttlet considerando un nmero de observaciones grande. En el caso multivariado existe una versin bivariada de esta frmula que enunciamos enseguida. RESULTADO VII.4.- (FRMULA DE BARTTLET BIVARIADA). Si {X t } es una serie de tiempo bivariada (Gaussiana) con covarianzas tales que
h
ij
( h) |
, i,j
1,2. Entonces:
lim nCOV 12 (h), 12 (k )

j
[ -
11
( j) ( h)
22
(j ( j)
k
12 12
h) (j (j
2 11
12
(j
22 22 2 12
k) ( j)
21
( j h) ( j k)
12 12
11 11
k) h) ( j)
21 21
(k ) ( h)
( j)
( j)
( j h)
2 22
12
12
(k )
1 2
( j)
1 2
( j)
21
( j) ]
138

Note que, al igual que el Resultado VII.2, la frmula no asume independencia entre las series {Xt1} y {Xt2}. El siguiente resultado es un corolario de la frmula de Barttlet. El supuesto adicional es que una de las series sigue un proceso de Ruido Blanco. RESULTADO VII.5.- Si {X t } satisface las condiciones de la frmula de Barttlet, y si {Xt1} o {Xt2} es un proceso de Ruido Blanco y si 12 (h) 0 , entonces:
lim n
nVar 12 (h)
Con lo anterior, podemos establecer la hiptesis: H 0 : 12 (h) 0 . Tal hiptesis establece que las series estn no correlacionadas. La prueba de hiptesis se puede llevar a cabo con un intervalo de confianza usando aproximacin Normal. Tal prueba consiste en verificar si el valor cero se encuentra en el intervalo:
12 (h) 1.96 Var ( 12 (h))

si es as, no se rechaza H0 con un nivel de significancia del 5%. VII.3. PROCESOS ARMA MULTIVARIADOS Como en el caso univariado, definiremos un tipo de procesos estacionarios multivariados que son muy usuales, los procesos ARMA multivariados. Como veremos, la definicin est basada en la definicin de Ruido Blanco multivariado. Definicin VII.3.1. [Proceso ARMA(p,q) Multivariado].- {X t } es un proceso ARMA(p,q) multivariado si {X t } es estacionario y si para cada t se cumple:
Xt
1
Xt
Xt
Zt
Zt
Zt
, donde Z t
WN (0, )
donde
, i 1,...,p
, j
1,...,q son matrices m x m.
Muchas veces usaremos la notacin simplificada siguiente del modelo ARMA, usando el operador B:
( B) X t
donde
( B)Z t
1
( B) 1
Bp y
( B) 1
Bq
139

0 . Cuando Note que en la definicin se asume {X t } es un proceso ARMA(p,q) multivariado con media ARMA(p,q) multivariado.
es diferente de cero, entonces } es un proceso si { X t
Ejemplo VII.3.1. Sustituyendo p=1 y q=0 en la definicin VII.3.1, obtenemos el proceso AR(1) multivariado: Xt X t 1 Z t con Z t WN (0, ) . Como vimos en el ejemplo VII.1.1, podemos escribir tal proceso como proceso lineal:
Xt
j 0
Zt
Tal representacin slo existe bajo la condicin: I
z C tal que z
1.
El planteamiento anterior no es ms que el concepto de causalidad. En seguida exponemos formalmente tal concepto. Para modelos univariados definimos este concepto en la seccin III.6. Definicin VII.3.1. [Causalidad].- Un proceso ARMA(p,q) multivariado {X t } es causal o una funcin causal de {Z t } , si existen matrices { j } con componentes absolutamente sumables, tales que:
Xt
j 0
Zt
para todo t.
La Causalidad es equivalente a la condicin: I RESULTADO VII.6.- Las matrices { recursivamente de:

, j
j
z C tal que z
1.
} de la definicin de causalidad se encuentran
j k 1
j k
0,1,...
con
0 j j j
I; 0 m para j 0 m para j 0 m para j q p 0
140

Ejemplo VII.3.2. Consideremos el modelo AR(1) multivariado del ejemplo VII.3.1. Aplicando el resultado anterior, podemos verificar que existen las matrices { necesarias para expresar a {X t } como proceso lineal y por lo tanto el proceso es causal. El modelo es X t
Xt
1
Z t . Note que
0 m para todo j y
0 m para j > 1.
0 1 2
I
1 1 0 1 1 2 0 2 1
j 1 j 1 2 j 2
j 1
Note que este resultado ya lo habamos encontrado en el ejemplo VII.1.1 por otra va. NOTA1: Consideremos el modelo AR(1) bivariado con:
0 0
12
Podemos verificar que j 0 m para j > 1 y por el resultado del ejemplo VII.3.2, se sigue que 0 m para j > 1. Sustituyendo { j } en la expresin de proceso lineal, llegamos a que: j
Xt
j 0 0 j
Zt
Zt
1
Zt
1
IZ t
Zt
Zt
Zt
Observe que esta expresin corresponde a un modelo MA(1). Hemos partido de un modelo AR(1) y llegamos a que tiene una representacin alternativa como MA(1). Este ejemplo muestra que no siempre es posible distinguir modelos ARMA multivariados de diferente orden. Este fenmeno de no-distincin entre modelos se conoce como Dualidad. Muchos autores evitan este problema enfocndose solo en modelos Autoregresivos. En el presente trabajo, adoptaremos este enfoque. VII.3.1. Funcin de Covarianzas de un proceso ARMA causal, (h ) Si suponemos causalidad en un modelo ARMA(p,q) m-variado sabemos, por la definicin VII.3.1, que: X t
j 0 j
Zt
para todo t. donde las matrices {
} son calculadas de
141

acuerdo al resultado VII.6. Entonces, por el resultado VII.1, la funcin de Covarianzas podemos calcularla como:
' j
( h)
j 0
j h
Cabe mencionar que esta expresin es fcil de aplicar cuando es sencillo encontrar las matrices { j } ; sin embargo, esto no siempre ocurre, por lo que se deben tener estrategias alternativas para calcular la funcin de Covarianzas. Una tcnica alternativa para calcular la funcin de Covarianzas consiste, como en el caso univariado, en resolver las ecuaciones multivariadas de Yule-Walker. El mtodo consiste en post-multiplicar ambos lados de la igualdad de la definicin de proceso ARMA ' multivariado dado en la definicin VII.3.1 por X t j y tomar valor esperado. El resultado se resume en la expresin siguiente (ecuaciones multivariadas):
p
( h)
r 1
(h r )
h r q
r h
, h
0,1,2,...
Para el caso de un proceso AR(p) en donde uso de la propiedad 1 de la funcin

( 0) (1) ( 2) ( p) ( p 1)
1 1 1 1
I y
0 m para j > 0, y haciendo
(h ) , se tiene el sistema:
(1) ( 0) (1) ( p 1)
1
p p p
( p) ( p 1) ( p 2) ( 0) (1) 0m 0m 0m 0m
p p
( p)
Resolviendo las primeras p+1 ecuaciones tendremos la solucin de (0),..., ( p ) . El resto de ecuaciones nos permitir obtener ( p 1), ( p 2),... de forma recursiva. VII.4. EL MEJOR PREDICTOR LINEAL Sea
E( X t )
t
Xt
( X t1 , X t 2 ,...., X tm )' una serie de tiempo m-variada con vector promedio
y funcin de covarianzas dada por las matrices de orden m x m:

(i, j ) E XiX
' j i ' j
142

El problema de encontrar el mejor predictor lineal consiste en encontrar una proyeccin de X n h en funcin de X 1 ,..., X n . Es decir, en encontrar las matrices Aj tales que:
Xn
Pn X n
h n
A1 ( X n
A2 ( X n
n 1
) An ( X 1
Las matrices tienen que cumplir la condicin de ortogonalidad siguiente:
Xn
Pn X n
Xn
1 i
, i 1,...,n
Un caso especial de lo anterior surge cuando nos enfrentamos a una serie que tiene como vector promedio al vector cero. En tal caso, el mejor predictor lineal de X n 1 en funcin de X 1 ,..., X n , est dado por:
Xn
1 n1
Xn
n2
Xn
nn
X1
1 i
donde los coeficientes
nj
' , j=1,,n, son tales que E X n 1 X n
E Xn 1Xn
'
1 i
, i=1,,n
(condicin de ortogonalidad). Es decir, se tiene el sistema de ecuaciones:

n nj j 1
(n 1
j, n 1 i)
(n 1, n 1 i) , i 1,...,n
(i, j ) (i j ) , el
En el caso que X t ( X t1 , X t 2 ,...., X tm )' es estacionario con sistema de ecuaciones de prediccin anterior se reduce a:
n nj j 1
(i
j)
(i) , i 1,...,n
Los coeficientes {
nj
} se obtienen recursivamente del sistema anterior. Tal
procedimiento es una versin multivariada del Algoritmo de Durbin-Levinson dado por Whittle (1963). Las ecuaciones recursivas de Whittle tambin permiten obtener el Error Cuadrado Medio de la prediccin (Matrices de covarianzas). Ver [Brockwell y Davis (1991)]. Ejemplo VII.4.1. Para que quede claro qu coeficientes debemos calcular en el predictor, supongamos un proceso bivariado estacionario con media cero y n=2. Estamos interesados en predecir la siguiente observacin, X 3 . En este caso, el mejor predictor lineal estara dado por:
X3 X 31 X 32 A1 X 2 a11 a 21 A2 X 1 a12 a 22
(1)
X 21 X 22
a11 a 21
a12 a 22
( 2)
X 11 X 12
143

Por lo que debemos calcular las matrices A1 y A2. NOTA2: Al igual que el Algoritmo de Durbin-Levinson, el Algoritmo de Innovaciones tambin tiene una versin multivariada que puede ser usada en prediccin. Tal algoritmo es, prcticamente, igual al univarido (descrito en captulos anteriores), solo que ahora en lugar de trabajar con escalares, se trabaja con matrices. Ver [Brockwell y Davis (1991)]. NOTA3: Aunque nuestro enfoque es meramente para modelos AR(p), existe toda una teora para modelos generales ARMA(p,q) multivariados. Para llevar a cabo la prediccin en estos modelos se usa el Algoritmo de Innovaciones multivariado. Ver [Lthkepohl (1993)], [Brockwell y Davis (1991)] o [Reinsel (1997)]. VII.5. MODELACIN Y PRONSTICO CON MODELOS AR MULTIVARIADOS La modelacin de series de tiempo multivariadas, como lo hicimos en series univariadas, se lleva a cabo mediante mtodos de estimacin tanto preliminar (algoritmo de Whittle o Burg multivariado) como optimizada (mxima verosimilitud). VII.5.1. Estimacin Preliminar de Whittle (Yule-Walker multivariado) Si {X t } es un proceso AR(p) multivariado causal definido por:
Xt
1
Xt
Xt
Z t , donde Z t
WN (0, )
O bien,
Xt
1
Xt
Xt
Z t , donde Z t
WN (0, )
Entonces podemos aplicar el mtodo de Yule-Walker multivariado al proceso para ' obtener una estimacin preliminar. Es decir, post-multiplicamos por X t j para j=0,1,,p, y tomar el valor esperado. Obteniendo las ecuaciones:
p
(0)
j 1 p
( j) j) , i 1,...,p
(i )
j 1
(i
El procedimiento consiste en reemplazar las ( j ) por las ( j ) (estimadas) en las ltimas p ecuaciones y resolverlas simultneamente para as encontrar los estimadores 1 ,..., p . Luego, sustituirlos en la primera ecuacin y encontramos la matriz de covarianzas del ruido estimada, .
144

VII.5.2. Mxima Verosimilitud Supongamos una serie {X t } con vector promedio igual a cero. De los resultados de la seccin VII.4 y del hecho de que las innovaciones estiman un proceso de Ruido Blanco, tenemos: ' 0 m para j k E X j X j Xk Xk Si adems suponemos que {X t } es un proceso Gaussiano (Normal), entonces la correlacin cero de las innovaciones U j X j X j , j=1,,n, implica independencia. Tambin sabemos que las innovaciones tienen como matrices de covarianzas V0,,Vn-1, respectivamente. En consecuencia, la distribucin conjunta de las U j no es ms que el producto de las distribuciones individuales:
n
f (u 1 ,..., u n )
j 1
fu j
n 1/ 2
(2 )
nm / 2 j 1
Vj
exp
1 2
n j 1
u jV j 11 u j
'
Si suponemos que {X t } sigue un proceso AR(p) multivariado (vector promedio cero) { 1 ,..., p } y la matriz del Ruido Blanco, entonces con coeficientes las matrices podemos expresar la verosimilitud de las observaciones X 1 ,..., X n como:
n 1/ 2
L( , )
(2 )
nm / 2 j 1
Vj
exp
1 2
n j 1
U jV j 11U
'
donde U j X j X j , j=1,,n. X VII.4 descrito antes.
es calculado con el Algoritmo de Whittle de la seccin
La maximizacin de la verosimilitud multivariada resulta ms complicada que el caso univariado porque incluye un gran nmero de parmetros. Para el caso que estamos estudiando (procesos AR(p)), el Algoritmo de Whittle o de Burg multivariado (desarrollado por Jones (1978)) dan buenas estimaciones preliminares. Las opciones de estos algoritmos en el software S-PLUS las encontramos en las mismas funciones que utilizamos para el caso univariado. Es decir, con las funciones ar.burg(x, aic=T, order.max= ) o ar.yw(x, aic=T, order.max= ). La seleccin del orden de un modelo Autorregresivo multivariado (valor de p) se basa en la minimizacin del valor AICC, anlogo al caso univariado:
AICC 2 ln L(
1 ,..., p, )
2( pm 2 1)nm nm pm 2 2
145

NOTA4: Dado que no existe la unicidad de un proceso ajustable a una coleccin de datos, no es de sorprenderse que al usar los algoritmos de Whittle o Jones, para una misma coleccin de datos, se obtengan modelos diferentes. Ejemplo VII.5.1. Consideremos la serie de datos del archivo DJAOPC2. {( X t1 , X t 2 ) ' , t 1,...,250} . Xt1 se refiere al ndice de utilidad Dow Jones de la bolsa de Nueva York y Xt2 a un ndice alternativo. La grfica34 se obtiene de la misma manera en que se obtuvo la grfica31. Grfica36. Serie bivariada: ndice Dow Jones y otro alternativo.
dj
otro
0 50 100 150 200 250
-1
-1
-2
-2
-3
-3
0 50 100 150 200 250
Note que no es necesario diferenciar las series. La modelacin la haremos utilizando la funcin ar.yw(x, aic=T, order.max=<< >>) de S-PLUS. La opcin aic=T asegura seleccionar el modelo con mnimo valor de AICC. Las instrucciones para ajustar el modelo AR multivariado son:
djaopc<-rts(DJAOPC2) media.dj<-mean(djaopc$dj) media.otro<-mean(djaopc$otro) yw.djaopc<-ar.yw(djaopc, aic=T) media.dj media.otro yw.djaopc
y los resultados:
> media.dj [1] 0.02950966 > media.otro [1] 0.03088796 > yw.djaopc $order: [1] 1 $ar: , , 1 [,1] [,2] [1,] -0.01483796 0.6588984 , , 2 [,1] [,2] [1,] 0.0357319 0.09976267
146

$var.pred: [,1] [,2] [1,] 0.37119901 0.02275335 [2,] 0.02275335 0.61140382
Explcitamente, el modelo ajustado es un AR(1) multivariado dado por:
X t1 X t2 X t1 X t2 X t1 X t2 donde Z t1 Zt2
0.0295 0.0309 0.028844 0.008363
0.014838 0.035732 X t1 0.658898 0.099763 X t 2
0.0295 0.0309
Z t1 Zt2 Z t1 Zt2
0.014838 0.035732 X t 0.658898 0.099763 X t Z t1 Zt2
1,1 1, 2
0.0288 0.0148 X t 0.0083 0.6589 X t 0 0
1,1 1,1
0.0357 X t 0.0997 X t
1, 2 1, 2
WN
0.3712 0.0227 0.0227 0.6114
De la matriz 1 podemos observar que el ndice Dow Jones ayuda mucho en la prediccin del rendimiento del ndice alternativo (0.6589); Mientras que el ndice alternativo no es muy significante en la prediccin del Dow Jones (0.0357). Ejemplo VII.5.2 Consideremos la serie de datos LS2.TXT. Esta serie la vimos en el ejemplo VII.1). Como vimos en el ejemplo VII.1, la serie es no-estacionaria, por lo que es necesario diferenciar a distancia 1. Una vez diferenciada la serie (estacionaria) ya podemos ajustar un modelo a los datos. Como en el ejemplo anterior, usaremos la misma funcin de S-PLUS para ajustar el modelo autorregresivo a la serie diferenciada y corregida por la media con mnimo AICC. Las instrucciones son:
vent.dif<-diff(LS2$ventas,1,1) ind.dif<-diff(LS2$indicador,1,1) ls2.dif<-cbind(vent.dif,ind.dif) media.vent.dif<-mean(vent.dif) media.ind.dif<-mean(ind.dif) yw.ls2.dif<-ar.yw(ls2.dif, aic=T) media.vent.dif media.ind.dif yw.ls2.dif acf(yw.ls2.dif$resid)
Obteniendo: 147

> media.vent.dif [1] 0.02275168 > media.ind.dif [1] 0.4201342 > yw.ls2.dif $order: [1] 5 $ar: , , 1 [1,] [2,] [3,] [4,] [5,] , , 2 [,1] [,2] [1,] 0.024091702 -0.050628599 [2,] -0.017620379 0.249683127 [3,] 0.010014648 0.206463397 [4,] -0.008762498 0.004438486 [5,] 0.011381958 0.029279621 $var.pred: [,1] [,2] [1,] 0.082490996 -0.002794969 [2,] -0.002794971 0.103457905 [,1] [,2] -0.51704335 -0.01908753 -0.19195479 0.04683970 -0.07332958 4.67775106 -0.03176252 3.66434669 0.02149335 1.30010366
Las matrices del modelo autorregresivo son: PHI(1) -.517043 .024092 -.019088 -.050621 PHI(4) -.031762 -.008763 3.664346 .004438 PHI(2) -.191955 -.017620 .046840 .249683 PHI(5) .021493 1.300103 PHI(3) -.073332 .010014 4.677751 .206463
.011382 .029280
El ajuste usando el Algoritmo de Burg da como resultado un modelo AR(8). Sin embargo el valor del AICC es prcticamente el mismo que el obtenido por el Algoritmo de Yule-Walker. Como mencionamos antes, no existe unicidad en el ajuste de modelos para los mismos datos usando diferentes algoritmos. La grfica de la ACF y PACF de los residuales es resultado de la lnea:
acf(yw.ls2.dif$resid)
La grfica muestra que el ajuste es bueno, pues todas las correlaciones caen dentro de las bandas de confianza 1.96 / n , n=150. 148

Grfica37. ACF y PACF de los residuales despus de ajustar un modelo multivariado AR(5) a la serie diferenciada de ventas.
Multivariate Series : yw.ls2.dif$resid
vent.dif
1.0
vent.dif and ind.dif
0.8
0.6
0.2
ACF 0.4
-0.2
0.0
10
15
-0.1
0
0.0
0.1
10
15
ind.dif and vent.dif

0.15 1.0
ind.dif
0.10
ACF 0.0
0.05
-0.05
-0.15
-15
-10
Lag
-5
-0.2
0
0.0
0.2
0.4
0.6
0.8
Lag
10
15
VII.5.3. Pronstico con modelos Autoregresivos Multivariados Una vez que hemos ajustado un modelo multivariado a nuestros datos, podemos llevar a cabo la prediccin de observaciones futuras (pronstico) usando el mejor predictor lineal. y funcin de Covarianzas Supongamos una serie {X t } estacionaria con vector promedio (h ) . El Algoritmo de Whittle determina las matrices coeficiente { nj } en la expresin:
Xn
1 n1
(X n
n2
(X n
nn
(X 1
Si {X t } es un proceso AR(p) causal, la expresin anterior se reduce a:
Xn
Las { matrices .
j
Xn
Xn
Xn
1 p
} para j > p son cero porque el modelo requiere, por definicin, solo de p
Para verificar que esto es suficiente, basta con observar que el error de prediccin
Xn
Xn
Xn
Xn
Xn
Xn
1 p
Zn
es ortogonal a X 1 ,..., X n , es decir, se cumple la condicin de ortogonalidad pedida en el algoritmo de Whittle. De esta forma, es claro que la matriz de covarianzas del error de prediccin es :
149

E Xn
1
Xn
Xn
Xn
' 1
E Z n 1Z n
'
El clculo de la prediccin a distancia h teniendo n observaciones, X 1 ,..., X n , consiste en aplicar el mismo proceso recursivamente. Esto es, se obtiene el predictor de X n k para k=1,,h. Con esto obtenemos:
Xn
Xn
h 1
Xn
h 1
Xn
h p
En este caso, el ECM se calcula usando el hecho de que {X t } se puede expresar como proceso lineal. Es decir:
Xn
donde las matrices {
h j 0
Zn
h j
} se calculan usando el resultado VII.4 con q=0.

h
Aplicando el predictor lineal a X n para n p :
expresado como proceso lineal, encontramos que
Pn X n
h j 0
Pn Z n
h j j h
Zn
h j
Para calcular el error de prediccin a distancia h, hacemos la resta de las expresiones anteriores:
h 1
Xn
Pn X n
h j 0
jZn
h j j h
jZn
h j j 0
Zn
h j
Con esta ltima expresin resulta ms fcil calcular el Error Cuadrado Medio de la prediccin a distancia h. Adems, sabemos que {Z t } forma un proceso de Ruido Blanco, por lo que las observaciones estn no-correlacionadas:
' h h 1 h 1 j j 0 0 0 ' j j 0 ' 0 ' h 1
E Xn
Pn X n
Xn
Pn X n
Zn
h j
Zn
h j
COV ( Z n h , Z n h )
' 0
h 1
COV ( Z n 1 , Z n 1 )
' h 1
h 1
Es decir, el Error Cuadrado Medio est dado por:

E Xn
h
Pn X n
Xn
Pn X n
' h
h 1 j j 0 ' j
150

Ejemplo VII.5.3. Consideremos, nuevamente, la serie LS2.TXT. Recordemos que la serie fue diferenciada a distancia 1. Por otra parte, supongamos que el modelo ajustado a la serie {Y t , t 1,...,149} en el ejemplo VII.5.2 es correcto. Es decir:
( B) X t donde Xt ( B) (1 B)Y t I (0.0228 , 0.420)' , t 5 B5 1,...,149 1B Z t , {Z t } WN (0, )
El modelo ajustado fue un AR(5). Las matrices 1 ,..., 5 , fueron calculadas en el ejemplo VII.5.2. Podemos predecir las siguientes dos observaciones de {X t } en base a las expresiones obtenidas en la seccin VII.5.2, h=1,2:
X 150 X 151 X 149 X 150 X 145 X 146 0.163 0.217 0.027 0.816
Note que en la prediccin de X 151 usamos el valor predicho de X 150 . La matriz de covarianzas , encontrada en el ejemplo VII.5.2, es:
$var.pred: [,1] [,2] [1,] 0.082490996 -0.002794969 [2,] -0.002794971 0.103457905
As, los correspondientes Errores Cuadrados Medios estn dados por:

1 1
h 1
ECM 1
j 0
' j
' 0
0.0825 - 0.00279
2 1
- 0.00279 0.10345
0 ' 0 1 ' 1 1 ' 1
ECM 2
j 0
' j
0.096 - 0.002
- 0.002 0.095
El procedimiento de pronstico con el software ITSM consiste en: una vez ajustado el modelo apropiado a la coleccin de datos, seleccionar la secuencia Forecasting>AR Model. 151

Aparecer una ventana con diferentes opciones, entre ellas, el nmero de observaciones posteriores que desea calcular, si desea calcular las predicciones para los datos diferenciados o para los datos originales y si desea graficar bandas de confianza para los valores predichos. Cuando d clic en OK aparecer la grfica de los datos originales y los predichos, para ver los valores calculados d clic en la grfica con el botn derecho del ratn y elija la opcin INFO.
152

CAPITULO VIII. MODELOS ESPACIO-ESTADO Los modelos de espacio-estado, junto con las recursiones de Kalman, ofrecen una alternativa del anlisis de series de tiempo. Estos modelos han tenido un gran impacto en muchas reas relacionadas con las series de tiempo, como lo son el control de sistemas lineales. El anlisis de estos modelos se basa, principalmente, en la representacin de los componentes de la serie (tendencia, estacionaridad y ruido) en dos ecuaciones, una de ellas dada por las observaciones y la otra por el proceso que forma. Veremos que los modelos ARMA(p,q) son un caso particular de los modelos espacioestado. Esto significa que el anlisis de modelos espacio-estado puede incluir modelos ms generales que los ARMA(p,q) que analizamos en captulos anteriores. VIII.1. REPRESENTACIN DE LOS MODELOS ESPACIO-ESTADO Consideremos la serie de tiempo multivariada {Y t , t 1,2,...} . El modelo de espacioestado para esta serie consiste en dos ecuaciones. La primera expresa a {Y t } en funcin de una variable estado {X t } . La segunda ecuacin determina el estado X t 1 en el tiempo t+1 en trminos de los estados previos X t . Algebraicamente, el modelo general espacio-estado est dado por:
Yt Xt
1
Gt X t Ft X t
Wt Vt ,
t t
1,2,... 1,2,...
(Ecuacin de observaci n) (Ecuacin de estado)
donde : Y t : serie de datos de dimensin w X t : variable de dimensin v Wt Vt WN (0, {Rt }) WN (0, {Qt })
{Gt } : secuencia de matrices w x v {Ft } : secuencia de matrices v x v E (W t V s )

'
s,t
En muchos casos particulares, como en los modelos ARMA(p,q), se asume que las matrices Gt, Ft, Rt y Qt no dependen del tiempo en que se observan. En ese caso, no es necesario el subndice t. Definicin VIII.1.1. [Representacin espacio-estado].- Una serie de tiempo {Y t , t 1,2,...} tiene una representacin espacio-estado si existe un modelo espacio-estado para la serie dado por las ecuaciones generales de observacin y estado.
153

Ejemplo VIII.1.1. Consideremos el modelo AR(1) causal univariado dado por: Yt con {Z t } WN (0,
2
Yt
Zt
) . La representacin espacio-estado para este modelo es sencilla.
Consideremos la secuencia de variables estado:

Xt Xt
1
Zt
(Ecuacin de estado)
Entonces, la ecuacin de observacin est dada por:

Yt Xt
(Ecuacin de observacin) y Qt
2
Note que, para este modelo, Gt=1, Wt=0, Ft
Ejemplo VIII.1.2. Consideremos el modelo ARMA(1,1) causal univariado dado por: Yt Yt 1 Z t 1 Z t con {Z t } WN (0, 2 ) . Veamos si se puede representar como un modelo espacio-estado. Consideremos la variable de estado {X t } dada por:
Xt Xt
1
0 1 Xt 0 Xt
0 Zt
1
(Ecuacin de estado)
Entonces, si planteamos la ecuacin de observacin como:
Yt
Xt Xt
(Ecuacin de observacin)
sustituyendo la variable de estado y desarrollando, obtenemos:
Yt Xt
1
Xt Xt Xt
1
1 Zt
0 1 Xt 0 Xt
2 1
0 Zt
Xt Xt
1
Zt
En conclusin, el modelo ARMA(1,1) se puede representar como un modelo espacioestado. Ejemplo VIII.1.3. Consideremos el modelo MA(1) causal univariado dado por: Yt
2
Yt
Zt
con {Z t } WN (0, ) . La representacin de este modelo en forma espacio-estado consiste en considerar la ecuacin de estado:
154

Xt Xt
1
1 Zt 0 Zt
1
(Ecuacin de estado)
Si consideramos la ecuacin de observacin siguiente:
Yt
1 0
Xt Xt
sustituyendo, llegamos a:
Yt
1 0 Zt
1
Xt Xt
1 0
1 Zt 0 Zt
1 0
Zt
Zt
Zt
Zt
La igualdad permite concluir que el modelo MA(1) tiene una representacin como modelo espacio-estado. Ms adelante veremos la representacin de modelos generales ARIMA como modelos espacio-estado. NOTA1: La representacin de los modelos ARMA(p,q) como modelos espacio-estado no es nica. El lector puede comprobarlo proponiendo diferentes matrices en las ecuaciones generales del modelo espacio-estado en los ejemplos anteriores. VIII.2. EL MODELO ESTRUCTURAL BSICO El concepto de modelo estructural estriba en que, en su definicin, sus componentes pueden ser modelados mediante un proceso propio. Un ejemplo de estos modelos es nuestro modelo clsico de series de tiempo, el cual est definido por tres componentes, que son tendencia, estacionaridad y ruido. Considerar como deterministicos los componentes de tendencia y estacionaridad, en la descomposicin del modelo, restringe la aplicacin de dichos modelos. As, se justifica que permitiremos que los componentes mencionados se modelen mediante un proceso aleatorio propio. Para entrar en materia de lo que es un modelo estructural, consideremos el siguiente ejemplo. Ejemplo VIII.2.1. Consideremos el proceso de Caminata Aleatoria con un componente de ruido, dado por:
Yt Mt Mt Wt , {Wt } WN(0,
2 w
)
2 V
donde
1
Mt
Vt , {Vt }
WN(0,
155

Note que haciendo analoga con la representacin espacio-estado, en el modelo anterior F=1 y G=1; Veamos que sucede con las diferenciaciones de la caminata aleatoria, es decir con:
Dt Yt Vt
1
Mt Wt
Wt Wt
1
Mt
Wt
(M t
M t 1 ) Wt
Wt
Podemos ver que las diferenciaciones son una suma de ruidos y por propiedad de este proceso, tambin es un proceso de ruido y, adems, estacionario. Tal proceso (de las diferenciaciones) tiene como funcin de autocovarianzas y autocorrelacin dadas por:
2
D 2 W 2 W 2 V
para h para h
0 2
( h) 0
para h 1
2 W D
( h)
2 W
2 V
para h 1 para h 2
Para llegar a las expresiones anteriores basta aplicar la definicin de funcin de autocovarianzas y el hecho de que las series {Wt } y {Vt } son no correlacionadas para todo t. Esto es:
D
( h)
Cov(Vt Wt
Wt
Wt 1 , Vt Wt
h 1
Wt
Wt
h 1
h o Cov(Vt
Wt 1 , Vt
Wt 1 )
Cov(Vt 1 ) Cov(Wt ) Cov(Wt 1 )

2 V 2 V 2 W 2 W
2 W
h 1 Cov(Vt
1
Wt
Wt 1 , Vt
Wt
Wt )
Cov(Wt )
2 W
Dado que {Dt} est correlacionado solo a distancia uno, podemos concluir que forma un proceso MA(1). En consecuencia, {Yt} forma un proceso ARIMA(0,1,1). El modelo anterior lo podemos extender agregando un componente de tendencia. Esto es, considerar el modelo:
156

Yt donde Mt Wt , {Wt } WN(0,
2 w
)
2 V
Mt Bt
Mt Bt
1
Bt Ut
1
Vt -1 , {Vt } , {U t }
WN(0, WN(0,
) )
el
2 U
Para expresar el modelo anterior como modelo espacio-estado, consideremos vector X t ( M t Bt )' . Entonces:
Yt 1 0 Xt Wt
donde
Xt
Mt
1
1 1
1 1 Mt 0 1 Bt
Vt Ut
1 1
Bt
(Ecuacin de estado)
Suponiendo que las variables involucradas en esta representacin estn no correlacionadas, las ecuaciones anteriores constituyen la representacin espacio-estado de la serie {Yt}. Recordemos que la serie {Yt} representa datos con componente de tendencia aleatorio ms un componente de ruido. Ejemplo VIII.2.2. Hemos representado un modelo con tendencia aleatoria en forma de modelo espacio-estado. El paso siguiente es llevar a cabo esta representacin, pero ahora de un modelo con componente estacional aleatorio. De la definicin de estacionalidad de periodo d, se cumple st=st+d y s1++sd=0. El modelo en cuestin es:
Yt st
st
Wt , {Wt } st st
WN(0,
2 w
donde
1 1
st
d 2
Sustituyendo recursivamente el componente de estacionalidad, se puede llegar a la expresin:

Yt
1
Yt
Yt
d 2
St
1,2,...
Para encontrar la representacin espacio-estado de {Yt} introduciremos el vector X t siguiente: X t (Yt , Yt 1 ,..., Yt d 2 )' . As:
157

Yt 1 0 0 Xt Wt
donde
1 1 Xt 0 0 1 0 1 0 -1 0 0 1 1 0 0 Xt 0
1
St 0 0 0
(Ecuacin de estado)
Por tanto, el modelo clsico con componente estacional aleatorio, tambin se puede representar como modelo espacio-estado. La pregunta que surge en este momento es se puede representar como modelo espacio-estado el modelo estructural bsico? Es decir, podemos representar el modelo clsico como modelo espacio-estado si incluimos componentes de tendencia y estacionalidad aleatorios? La respuesta es s. Solo basta agrupar las ecuaciones de estado de los ejemplos anteriores (VIII.2.1 y VIII.2.2). Para ms detalles ver [Brockwell y Davis (2002) pp. 267].
VIII.3. REPRESENTACIN ESPACIO-ESTADO DE MODELOS ARMA En ejemplos anteriores representamos modelos ARMA especficos como el AR(1), el MA(1) y el ARMA(1,1). En esta seccin generalizaremos la representacin para el modelo general ARMA(p,q). Como mencionamos en la NOTA1, la representacin espacio-estado no es nica. Aqu presentamos una de ellas para un proceso ARMA(p,q) causal. Consideremos el proceso ARMA(p,q) causal definido por:
( B)Yt ( B) Z t donde {Z t } WN (0,
j
2
Sean r=max(p,q+1);
=0 para j > p;
=0 para j > q; y 0=1. Si {Xt} sigue un proceso
( B) X t . Esta conclusin se recoge del causal AR(p) dado por ( B) X t Z t , entonces Yt ( B) ( B) X t ( B) ( B) X t ( B) Z t . Es decir, si sustituimos hecho de que: ( B)Yt Yt ( B) X t , se satisface el modelo ARMA(p,q) original.
En consecuencia, apoyndonos del ejemplo VIII.1.2 [representacin para el modelo ARMA(1,1)], tenemos la representacin espacio-estado del modelo ARMA(p,q):
158

Yt
r 1 r 2
1Xt
donde
Xt Xt Xt
1 r 2 r 1
0 0 0
1 0 0
r 1
0 1 0
r 2
0 0 1
1
Xt Xt Xt Xt
r 1 r
0 0
Xt Xt
1
(Ecuacin de estado)
0 Zt
1
Se puede probar que usando esta expresin, la representacin del modelo ARMA(1,1) es la misma que encontramos en el ejemplo VII.1.2. Existe una forma general para representar a los modelos ARIMA(p,d,q) como modelos espacio-estado. Est basada, esencialmente, en el hecho de que la serie diferenciada a distancia d sigue un proceso ARMA(p,q), la cual ya expresamos arriba. Para ms detalles, ver [Brockwell y Davis (2002) pp.269-271]. VIII.4. RECURSIONES KALMAN Los principales problemas que enfrentan los modelos espacio-estado definidos en la seccin VIII.1 son tres. Todos ellos consisten en encontrar el mejor predictor lineal del vector de estado X t en trminos de las observaciones Y 1 , Y 2 ,... y un vector aleatorio Y 0 ortogonal a V t y W t . Las estimaciones de inters de X t son las siguientes: Prediccin: Pt 1 X t Filtrado: Pt X t Suavizacin: Pn X t , n > t. Los tres problemas pueden ser resueltos usando, apropiadamente, un conjunto de recursiones. Tales recursiones se conocen como recursiones de Kalman. Definicin VIII.1.1. [Mejor predictor lineal].( X 1 ,..., X v )' se define el mejor predictor lineal como:
Pt ( X ) ( Pt ( X 1 ),..., Pt ( X V ))'
Para
el
vector
aleatorio
donde Pt ( X i ) P( X i | Y 0 , Y 1 ,..., Y t ) es el mejor predictor lineal de X i en trminos de todos los componentes Y 0 , Y 1 ,..., Y t . El mejor predictor lineal de la definicin tiene, bajo ciertas restricciones, las siguientes propiedades: 159

1. Pt ( A X ) APt ( X ) 2. Pt ( X V ) Pt ( X ) Pt (V )
P( X | Y )
3. donde
MY
E ( X Y ' )[ E (Y Y ' )] . [ E (Y Y ' )] es inversa generaliza da de E (Y Y ' )
Con la definicin y las propiedades, enunciamos en seguida el algoritmo de prediccin de Kalman. RESULTADO VIII.1.- [Prediccin de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces los predictores a un paso X t Pt 1 ( X t ) y sus matrices de error condicin inicial:
t
E[( X t
X t )( X t
X t )' ] son nicos y estn determinados por la
X1
P( X 1 | Y 0 ) con
E[( X 1
X 1 )( X 1
X 1 )' ]
y las recursiones para t=1,

Xt
1
Ft X t Ft Gt Ft
t
(Y t
t
Gt X t )
t ' t
t 1
Ft '
Qt Rt
donde
t t t t
Gt' Gt'
t
es la inversa generalizada de
Demostracin. Para llevar a cabo la demostracin haremos uso del concepto de innovaciones, I t , con I 1 y I t Y t Pt 1 Y t Y t Gt X t Gt ( X t X t ) W t t 1,2,... Por otra parte, se tiene la igualdad Pt ( ) enunciadas arriba, encontramos que:
Y0
Pt 1 ( ) P( | I t ) . Usando las propiedades 1, 2 y 3
160

Xt
1
Pt 1 ( X t 1 ) P( X t 1 | I t ) Pt 1 ( Ft X t Ft X t Ft X t Vt) MIt
t t
donde M It
E[ X t 1 I t ]E[ I t I t ] -
'
'
Ft Pt 1 ( X t ) Pt 1 (V t )
t t t t
It (Y t Gt X t ) Vt (Xt X t )' Gt' Wt

'
donde t E[ X t 1 I t ] Ft t Gt'
t
'
E Ft X t
Ft E[( X t )( X t
X t )' ]Gt'
E[ I t I t ] Gt E[( X t Gt
t
'
E Gt ( X t X t )( X t Rt
X t ) W t (X t X t )' ]Gt'
X t ) ' Gt'
'
Wt
'
E (W t W t )
Gt'
Para encontrar el error cuadrado medio para t > 1, basta con aplicar la definicin de la matriz de error. Esto es:
t 1
E Xt
1 '
Xt
1
Xt
Xt
1
' 1
E Xt 1Xt E Ft X t E Ft X t Ft Ft '
t
' E Xt 1Xt Vt
' ' '
V t Ft X t
'
'
E Ft X t E Ft X t
t
t t
I t Ft X t It
' ' t
t t
It
' t
'
V t X t Ft ' V t E V tV t
t
t
' I t X t Ft '
t t
Ft E X t X t Ft '
t
' Ft E X t X t Ft '
Qt
y
' t
Las matrices
son las mismas que se definieron en el resultado VIII.1. ///
Para llevar a cabo la prediccin a distancia h usaremos la prediccin de Kalman a un paso. Como veremos, la prediccin consiste en aplicar recursivamente las propiedades del mejor predictor lineal y la ecuacin de estado definida en la representacin espacio-estado original. Pt X t h Pt Ft h 1 X t h 1 V t h 1
Ft Ft Ft Ft
h 1 h 1 t h 1 t h 1
P Xt P ( Ft Ft
h 2
h 1 h 2
Pt V t Xt
h 2 h 2
h 1
Ft
h 2
h 1 t
P Xt
h 1
Vt )
Pt ( X t
Ft
h 2
Ft 1 Pt ( X t 1 )
161

Pt X t
h
Ft
h 1
Ft
h 2
Ft
Ft X t
(Y t
Gt X t )
Tambin se tiene la prediccin para la variable de observacin:

Pt Y t
h
Pt Gt h X t
Wt
Gt h Pt X t
El paso siguiente es encontrar la matriz de error de prediccin a distancia h.

Xt
h
Pt X t
Ft Ft
h 1 h 1
Xt Xt
h 1 h 1
Vt
h 1
Ft
h 1
h 1 t
P Xt
h 1
h 1
Pt X t
Vt
'
(h) t
E Xt E Ft Ft
h 1
Pt X t Xt
h 1 h 1
Xt Pt X t
h h 1 h 1
Pt X t Vt Xt
(h) t
h h 1
h 1
Ft
h 1
Xt
'
h 1
Pt X t
1
h 1 h 1
Vt Vt
'
' h 1
E Xt
Pt X t
h 1
Pt X t
h 1
h 1
Ft ' h
1
EVt
h 1
h 1
Ft
( h 1) t
Ft ' h
Qt
(1) t
El proceso se aplica recursivamente para h=2,3, partiendo de la igualdad inicial t 1 . Adems, para la variable de observacin se tiene:
Pt Y t
h
Yt
Gt h X t Gt
h
h h
Wt
h h
Gt h Pt X t Wt
' h h h
Xt
Pt X t
(h) t
E Yt E Gt
h h
Pt Y t Xt
h h
Yt
h h h
Pt Y t Wt Xt
h
Pt X t Pt X t
Gt Pt X t
h h
Xt
'
h h
Pt X t
Wt
' h
' h
Gt h E X t
Gt'
h
E W t hW t
(h) t
(h) t
Gt
Gt'
Rt
Con esto terminamos la solucin del problema de prediccin de Kalman. RESULTADO VIII.2.- [Filtrado de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces las estimaciones filtradas X t / t Pt ( X t ) y sus matrices de error t / t E[( X t X t / t )( X t X t / t )' ] estn determinadas por la relacin:
162

X t /t Pt 1 ( X t )
t
Gt'
(Y t
Gt X t )
con
t /t t t
Gt'
Gt
' t
, la inversa generalizada de
,y
se calculan como en la prediccin de Kalman.
Demostracin. La demostracin consiste en usar, nuevamente, el concepto de innovaciones, I t , con I 1

It Yt Pt 1 Y t Yt Gt X t Gt ( X t Xt) Wt t 1,2,...
Y0
Tambin consideraremos la igualdad Pt ( )
Pt 1 ( ) P( | I t ) . De esta forma:
X t /t
Pt ( X t ) Pt 1 ( X t ) P( X t | I t ) Pt 1 ( X t ) M I t
donde M E[ X t I t ]E[ I t I t ]E X t Gt ( X t E X t (X t E X t (X t
t ' '
Xt) Wt Xt) G
' ' ' t ' t
' t ' t t
W
t
Xt) G
' t
Para encontrar la expresin de la matriz de error partimos de:

Pt X t & Xt Pt 1 X t Xt Xt Pt X t Pt X t Pt X t MIt Pt 1 X t Pt 1 X t MI t MIt Pt X t Pt 1 X t
163

t
E Xt E Xt E Xt
t /t t /t t /t
Pt 1 X t X t Pt X t
'
Pt 1 X t Pt X t Gt
' t '
'
MIt X t
Pt X t
MIt
'
'
Pt X t X t ME[ I t I t ]M '
t t
E M It ItM '
Gt' Gt'
t t
Gt Gt
' t
t /t
Gt'
' t
De esta forma queda demostrada la proposicin del filtrado de Kalman. /// Por ltimo, presentaremos la tcnica de suavizacin. El concepto de suavizacin radica en sustituir observaciones aberrantes en un conjunto de datos por otra estimacin suave basada en las n observaciones. RESULTADO VIII.3 [Suavizacin de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces las estimaciones suavizadas X t / n Pn ( X t ) y sus matrices de error t / n E[( X t X t / n )( X t X t / n )' ] estn determinadas, para un t fijo, por las recursiones, las cuales pueden resolverse sucesivamente para n=t, t+1,:
X t/n
Pn 1 ( X t )
Fn
t ,n
' Gn
(Y n
Gt
n '
Gn X t )
con
t ,n 1 t/n t ,n n t ,n ' Gn t
t/n 1
Gn
' t ,n
y las condiciones iniciales
Pt 1 X t
t ,t
Xt
t /t 1 t
, la inversa generalizada de
,y
se calculan como en la prediccin de Kalman.
Demostracin. Tenemos las siguientes igualdades: I t Y t Pt 1 Y t Y t Gt X t Gt ( X t

Xt) Wt
1,2,... y Pt ( )
Pt 1 ( ) P( | I t )
164

As, X t/n
Pn ( X t ) Pn 1 ( X t ) P ( X t | I n ) Pn 1 ( X t ) M I n donde M E[ X t I n ]E[ I n I n ]E X t Gn ( X n E X t (X n E X t (X n
t ,n ' '
X n) W n
' ' n ' n
' n n
X n) G
'
W
n
' n
X n) G
' t
con
t ,n
E Xt
Xt Xn
Xn
'
Para encontrar la segunda expresin de la estimacin de suavizacin partimos de la ecuacin de estado y de la expresin del predictor de Kalman. Esto es:
Xn & Xn Xn
1
Fn X n Fn X n Xn
1
Vn In Xn In Vn
Fn X n
t ,n 1
E Xt E Xt E Xt E Xt E Xt
t ,n t ,n
Xt Xn
Xn
' 1 '
X t Fn ( X n Xt Xn Xt Xn
' Xt Wn ( t ,n t ,n
X n)
In
Vn Xt
' X n Fn' ' X n Fn'

n n
E Xt E Xt E Xt 0(
n n
(Gn ( X n ' Xn (
n
X n) W n) V n
n
'
Xt Xn
' Xt Vn
Gn ) '
)'
Fn' Fn' Fn
( (
n n
n n
Gn ) ' Gn ) '
)'
t ,n 1
t ,n
Gn
'
Solo nos resta encontrar la expresin para la matriz de error. Para ello utilizamos la expresin:
165

Pn X t Xt Pn 1 X t Pn X t E Xt E Xt E Xt
t/n 1 t/n 1 t/n 1
MI n Pn 1 X t MIn Pn X t
'
Xt
t/n
Pn X t X t Pn 1 X t
'
MIn Xt Pn 1 X t Gn
' t ,n
Pn 1 X t
'
MIn
'
'
Pn 1 X t X t ME[ I n I n ]M '
t ,n t ,n ' Gn ' Gn n n n
E M I n I nM '
Gn Gn
' t ,n
t/n
t/n 1
t ,n
' Gn
' t ,n
As, queda demostrado el resultado de suavizacin de Kalman. /// El siguiente ejemplo ilustra la forma iterativa en que funciona la suavizacin de Kalman. Como veremos, no solo haremos uso del resultado VIII.3, sino, en general, de los tres resultados de las recursiones Kalman. Ejemplo VIII.4.1. Consideremos el modelo AR(1). Supongamos 5 observaciones y1, y2, y3, y4 y y5 y suavizaremos la observacin 2. El modelo espacio-estado para este proceso, como vimos en el ejemplo VIII.1.1, est dado por:
Yt Xt Xt Xt
1
Zt ,
2
Con {Z t } WN (0,
Pero dado que no contamos con informacin completa, es decir, no utilizaremos la observacin 2, planteamos el modelo:
Yt* Xt
Gt* X t Xt
1
Wt* Zt
Note que, de acuerdo a la representacin espacio-estado, tenemos que:
166

Ft Gt* Qt Rt* 1 si t 0 si t
2
2 2 2 2
0 si t 1 si t
Partimos de las condiciones iniciales:

P0 X 1 X1 0,
1
E( X 1 X 1 )
(0)
/(1
As,
2 1 2 2
F1 F1 F2 F2 F3
1G1
1 Q1
,
1 1
G1
2 2
1G1
R1
2 2
1
2 2
,
2
1 F1
1 2
1
2 2 2
1 G2
2 2
2 3 3
2 2 3
G2 F2 Q2 [
2
0
2 2
0,
1 2 2
G2
R2 G3
1, R3
2 2 2
G3
],
G3
2, 2 2,3 2, 4 2,5
2 2, 2 2,3
[ F2 [ F3
2 3
1 2 1 3
G2 ]
[
2
0] [ ] 0
G3 ]
0
2
2|1 2|2 2|3 2|4 2|5
2, 2 2|1 2|2 2|3 2 2, 2
G2 G3 G4
1 2 1 3
G2 G3 G4
2 2, 2 2 2,3 2 2, 4
0
2 4 2
2,3 2, 4 2
/(
2 2
)
2
/(
1)
1 4
/(
1) 0
/(
1)
/(
1)
Nos resta calcular la suavizacin de la observacin 2.
167

P1 X 2 P2 X 2 P3 X 2 P4 X 2 P5 X 2 P0 X 2 P1 X 2 P2 X 2 P3 X 2 P4 X 2
2 ,1
G1 G2 G3 G4 G5
1 1
(Y1 (Y2 (Y3 (Y4 (Y5
G1 X 1 ) G2 X 2 ) G3 X 3 ) G4 X 4 ) G5 X 5 )
0 Y1 Y1 Y1 Y1
(Y1 0
0) Y1
2
Y1 0) /(
2 2 2 2 2
2, 2
1 2 1 3 1 4 1 5
2,3 2, 4 2,5
(Y3
Y1 Y3 /(
2
Y3 /( 1)
1)
Y3 /( Y3 /(
1) 0 1)
Y1
En resumen, el valor suavizado de la observacin dos est dado por:

P5 X 2 Y1 Y3 /(
2
1)
Con correspondiente error cuadrado medio:

2 2|5
/(
1)
VIII.5. EL ALGORITMO EM El algoritmo de Esperanza-Maximizacin (EM), propuesto por [Dempster, Laird y Rubin (1977)] es un procedimiento iterativo til para calcular estimadores de mxima verosimilitud cuando contamos slo con una parte disponible de la coleccin de datos, por ejemplo, cuando existen datos perdidos. La construccin y convergencia del algoritmo se pueden consultar en [Wu (1983)]. Denotemos por Y al vector de datos observados, por X al vector de datos noobservados y a W Y X como el vector de datos completos. A manera de analoga con los modelos espacio-estado, podemos decir que Y consiste de los vectores observados Y 1 ,..., Y n y X de los vectores de estado (no observables) X 1 ,..., X n . Los datos X pueden considerarse como una variable aleatoria cuya distribucin de probabilidad depende de los parmetros que deseamos estimar y de los datos observados Y . Dado que W depende de X , es a su vez, una variable aleatoria. Cada iteracin del algoritmo EM consiste en dos pasos: E y M. E se refiere a obtener la esperanza E ( i ) [l ( ; X , Y ) | Y ] . Tomar el valor esperado se justifica en el sentido de que existen datos no observados, X , por lo que se deben considerar todos los posibles valores de X , ponderados segn su probabilidad; y M se refiere a la maximizacin de la verosimilitud del parmetro . En general, el algoritmo EM repite la pareja de pasos siguientes en la iteracin (i+1) hasta obtener convergencia, partiendo de que (i ) denota el valor estimado de en la iteracin i.
168

Paso-E. Calcular Q( |
(i )
) utilizando los datos observados Y . Esto es, calcular:
Q( |
(i )
(i )
l( ; X ,Y ) | Y
donde: l ( ; x, y) ln f ( x, y; ) ; E ( i ) | Y denota la esperanza condicional relativa a la densidad condicional

f ( x | y;
(i )
f ( x, y ; ( i ) ) . f ( y; ( i ) )
(i )
Paso-M. Maximizar Q( |
) con respecto a .
Note que al maximizar el logaritmo de la distribucin, se est maximizando la verosimilitud. Observemos que:
f ( x | y;
(i )
f ( x, y; ( i ) ) f ( y; ( i ) ) E l ( ; x, Y ) | Y
ln f ( x, y;
(i )
ln f ( x | y;
(i )
ln f ( y;
(i )
Q( |
(i )
(i )
l ( ; x, Y ) f ( x | Y ; ln f ( x | Y ; )
(i )
ln f ( x, Y ; ) f ( x | Y ; f (x | Y ;
(i )
(i )
) dx
ln f (Y ; )
(i )
) dx f ( x | y;
(i )
ln f ( x | Y ; ) f ( x | y; ln f ( x | Y ; ) f ( x | Y ; ln f ( x | Y ; ) f ( x | Y ;
) dx ln f (Y ; )
) dx
(i )
) dx ln f (Y ; ) (1) ) dx l ; Y
(i )
Derivando la funcin Q con respecto a , encontramos que:

Q' ( |
(i )
ln f ( x | Y ; ) f ( x | Y ; f (x | Y ; ) f (x | Y ; ) f (x | Y ;
(i )
(i )
) dx
l ;Y
) dx l ' ( ; Y )
Si reemplazamos por (i 1) y si i (i ) ( i 1) tenemos que y Q ' ( (i 1) | (i ) )
(recordemos que el proceso es convergente), 0 . Esto es,
169

f ( x | Y ; ) Q(
' ( i 1)
(i )
f (x | Y ;
( i 1)
f (x | Y ;
(i )
) dx l ' ( ; Y ) 0 0
f ( x | Y ; ) dx l ' ( ; Y ) f ( x | Y ; ) dx l ' ( ; Y ) (1) l ' ( ; Y ) l ' ( ; Y ) 0

(i )
La igualdad anterior muestra que si la ecuacin de verosimilitud l ' ( ; Y ) 0 .
converge a , entonces es una solucin de
Como mencionamos al inicio de esta seccin, el algoritmo EM es til cuando la coleccin de datos es incompleta (datos perdidos). A continuacin desarrollamos el mtodo de estimacin. Supongamos que la coleccin de datos comprende Y1 ,..., Yn , de los cuales r son observados y n-r son perdidos. Definamos Y (Yi1 ,..., Yir )' como el vector de datos observados y X ( X j1 ,..., X j ,n r )' como el vector de datos perdidos. Por otra parte, supongamos que
W ( X ' , Y ' )' se distribuye Normal( 0, ), donde depende del parmetro . Es decir, el logaritmo de la verosimilitud de los datos completos ( W ) est dada por:
f (W ; ) 2 1
n/2 (1 / 2 )
exp
1 W 2 1 W 2
l ( ;W )
n ln( 2 ) 2
1 ln( 2
Hagamos la particin conformable con X e Y siguiente:

11 21 12 22
De acuerdo a los resultados de la seccin II.2 de la Normal Multivariada (Propiedad5), tenemos que: 1 1 X 11 22 Y y 11|2 ( ) 11 12 22 21 Entonces, la distribucin de W dado Y requerida en el paso E es: 170

NMV X 0 ,
11|2
( ) 0 0
'
Usando el resultado E X A X
E
(i )
'
traza(A )
E
(i)
, podemos ver que:

1 11|2
W'
1 11|2
( )W | Y
( X ' , Y ' )'

11|2
(i )
)( X ' , Y ' ) W'

1
traza
(i )
1 11|2
( )
( )W
De aqu que,
Q( |
(i )
(i )
l ( ;W ) | Y
(i )
l ( ;W ) E l ( ;W )
W'
1 11|2
( )W (
(i )
1 traza 2
11|2
1 11|2
( )
Note que l ( ;W ) es el logaritmo de la verosimilitud de los datos completos en los que X es reemplazado por su estimacin, X .
Dado que el proceso converge, en la prctica se usa la expresin (reducida):

~ Q( |
(i )
l ( ;W )
El paso M restante del algoritmo EM consiste en maximizar la verosimilitud. Es decir, maximizar l ( ;W ) . Ejemplo VIII.5.1.- Consideremos el conjunto de datos DOWJ.TXT. Para ejemplificar el algoritmo EM, eliminaremos las observaciones 10, 20 y 30. El modelo ajustado en el ejemplo V.1.1 para los datos diferenciados a distancia uno y corregidos por la media fue un AR(1): X(t) = .4219 X(t-1)+ Z(t) WN variance estimate (Yule Walker): .147897 La primera iteracin se inicia con (o ) 0 y dado que estamos suponiendo Ruido Blanco, el paso E del algoritmo EM consiste en sustituir X 10 X 20 X 30 0 , donde Xt representa los datos diferenciados a distancia uno y corregidos por la media. Una vez reemplazadas las observaciones perdidas, ajustamos un modelo AR(1) por mxima verosimilitud a este nuevo conjunto de datos, obteniendo: ARMA Model: X(t) = .4153 X(t-1) + Z(t) 171

Es decir, tenemos (1) expresin de error:
1
0.4153 . El paso M consiste en minimizar con respecto a Xt la
(Xt
j 0
(1) X t
j 1
)2
(Xt
(1) X t 1 ) 2
(Xt
(1) X t ) 2
Derivando e igualando con cero, encontramos que:

2( X t (1) X t 1 ) 2 (1) ( X t (1) X t
1
(1) X t )
0 Xt
1 ( (1) ) 2 X t
(1) X t
(1) X t
Xt
(1) X t 1 X t 1 ( (1) ) 2
Con la ltima expresin podemos estimar los datos perdidos 10, 20 y 30.
X 10
0.4153 X 11 X 9 1 (0.4153) 2
0.3426 , etc.
Con estas estimaciones, ajustamos un nuevo modelo AR(1). Obteniendo: ARMA Model: X(t) = .4377 X(t-1) + Z(t) Es decir, ( 2)
0.4377 .
El proceso itera hasta converger (en i=3). En el siguiente cuadro se resumen los resultados: Cuadro9. Estimacin de valores perdidos de la serie del ndice Dow Jones Iteracin i X10 X20 X30 0 0 0 0 0 1 -0.36 0.01 -0.03 0.4153 2 -0.36 0.01 -0.03 0.4377 3 -0.36 0.01 -0.03 0.4377 Es decir, el modelo ajustado considerando las observaciones 10, 20 y 30 como perdidas es: ARMA Model: X(t) = .4377 X(t-1) + Z(t) WN Variance = .143922 172

CAPITULO IX. COINTEGRACIN Recordemos que una serie de tiempo es estacionaria si su distribucin es constante a lo largo del tiempo; para muchas aplicaciones prcticas es suficiente considerar la llamada estacionaridad dbil, esto es, cuando la media y la varianza de la serie son constantes a lo largo del tiempo. Muchas de las series de tiempo que se analizan en la prctica no cumplen con esta condicin cuando tienen una tendencia. Cuando no se cumple esta suposicin se pueden presentar problemas serios, consistentes en que dos variables completamente independientes pueden aparecer como significativamente asociadas entre s en una regresin, nicamente por tener ambas una tendencia y crecer a lo largo del tiempo; estos casos han sido popularizados por [Granger y Newbold (1974)] con el nombre de regresiones espurias. El problema de las regresiones espurias aparece frecuentemente cuando se halla la regresin entre series afectadas por tendencias comunes, lo que lleva a encontrar un valor de R2 elevado, sin que exista realmente una relacin de causa-efecto. Cuando se lleva a cabo una regresin espuria, suele aparecer un valor pequeo del estadstico de Durbin-Watson, indicando que los errores de la ecuacin estn correlacionados positivamente. Esto implica no slo que los estimadores de mnimos cuadrados de los coeficientes son ineficientes, sino que son inconsistentes, lo que lleva a incurrir en serios problemas de especificacin. Recientemente se ha dedicado mucho esfuerzo al anlisis de las propiedades de ecuaciones de regresin con variables ms generales que las estacionarias, pero con algn tipo de restriccin a su distribucin. Un caso particular de las variables no estacionarias es el de las llamadas variables integradas. Este tipo de variables ser de gran importancia en el desarrollo de la teora de Cointegracin que se presenta en el presente captulo. IX.1. DEFINICIONES Y PROPIEDADES Cuando en el proceso que sigue un vector de observaciones se tienen races unitarias, se dice que tal proceso es Cointegrado. El concepto de cointegracin se debe a [Engle y Granger (1987)]. Adems de las variables integradas, que ya se mencionaron, otro concepto clave en el que se basa la teora de la cointegracin es la representacin de correccin de error, que definiremos ms adelante. Una correlacin alta entre dos variables, Y y X, puede deberse a tres tipos de relaciones causa efecto: a) que X sea la causa de la variable Y. b) que Y sea la causa de los cambios en X. c) que cada una de ellas sea a la vez causa y efecto de la otra. Como en todo desarrollo de teora, ser necesario definir algunos conceptos clave que manejaremos en este captulo.
173

Definicin IX.1.1. [Causalidad en el sentido de Granger].- X causa a Y, en el sentido Y ) , si Y se puede predecir con mayor exactitud utilizando valores pasados de Granger, ( X de X que sin usarlos, manteniendo igual el resto de la informacin. Vase [Granger (1969)].
Y ) se est expresando que los valores de X preceden a los Cuando se dice que ( X de Y, en el sentido de que anteceden siempre a los de Y y sirven para predecirlos, pero no que necesariamente los valores de X originen los valores de Y. Es posible que, por ejemplo, una tercera variable Z produzca los cambios en Y, y posiblemente tambin en X, sin embargo, (X Y ) . Por lo que sera ms apropiado hablar de precedencia.
Definicin IX.1.2. [Serie de Tiempo Integrada].- Se dice que una serie de tiempo {Xt} es integrada de orden d, denotada por X t I (d ) , si puede expresarse como:
(1 B ) d ( B ) X t ( B) Z t
donde
( B) X t ( B) Z t Xt Zt
1 1
Xt
1
Xt
q
Zt
Zt
Otro modo de definir una serie integrada es decir que {Xt} es ARIMA(p,d,q) con un proceso {Zt} estacionario e invertible. En estas condiciones la menor raz en valor absoluto de la parte autorregresiva es la unidad y se dice que la serie tiene d races unitarias o que es I(d); a manera de ejemplo, una serie estacionaria es I(0) y una caminata aleatoria es I(1). Tambin, la suma o combinacin lineal de procesos de distintos ordenes de integracin es del mismo orden que el proceso de orden mayor. Es decir, si:
Zt con Xt Yt I (e) I (d ) entonces Z t I (max( e, d )) Xt Yt
En trminos similares, la combinacin lineal de dos procesos con el mismo orden de integracin es, en general, de ese orden de integracin. NOTA1: En particular, combinaciones lineales de series I(0) son I(0); combinaciones lineales de series I(1) son en general I(1), con una excepcin muy importante, la de las series cointegradas que son I(0) y que veremos en detalle ms adelante. Esto tambin muestra que una serie integrada no puede ser representada adecuadamente por series estacionarias; del mismo modo, una serie estacionaria no puede, en general, representarse como funcin de series integradas.
174

NOTA2: Cabe mencionar que el anlisis de cointegracin involucra conceptos de Anlisis de Regresin (multicolinealidad y estadstico de Durbin-Watson, principalmente) y de Races Unitarias (vistas en el captulo VI), por lo que se recomienda que el lector est familiarizado con estos tpicos. NOTA3: Un sntoma de Cointegracin entre variables es un valor alto del coeficiente de determinacin de la regresin entre ellas, R2, acompaado de valores no muy bajos del estadstico de Durbin - Watson. Estudios hechos recientemente muestran que una gran proporcin de las series econmicas no estacionarias son I(d), y en especial muchas de ellas I(1). Esto ha inducido una gran cantidad de investigaciones sobre las propiedades estadsticas de series I(d). Y particularmente en la bsqueda de combinaciones lineales estacionarias de series integradas, lo que se llama Cointegracin en series. Supngase dos variables no estacionarias Yt y Xt, entre las que se cree que existe una relacin de dependencia. Cabe esperar que, bajo tal supuesto, los residuos de la regresin que explica a Yt en funcin de Xt sean estacionarios, a pesar de que ninguna de las dos variables del modelo lo sean. Esta es la idea de Cointegracin, y a continuacin se da la definicin. Definicin IX.1.3. [Serie Cointegrada].- Se dice que una series de tiempo { Y t } mvariada es cointegrada de orden (d,b), denotada por Y t CI (d , b) , si siendo todas las series del vector I(d), existe un vector de coeficientes
'
no nulo tal que zt
'
Yt
I (d b) , con b
vector de
> 0. La relacin z t Y t se denomina relacin de cointegracin y el vector cointegracin. [Engle y Granger (1987)].
Supongamos la serie bivariada Y t ( y t , xt ) ' . Si suponemos que hay una relacin entre las componentes del vector, conocida como relacin de equilibrio, entonces esta relacin se puede expresar como una relacin lineal como la siguiente:
y t*
0 1 t
De acuerdo con ello, hay equilibrio en el periodo t si y t y t* 0 , es decir, si yt ( 0 0 . Ahora bien, como yt ser, en general, distinto del valor de equilibrio, 0 xt ) podemos agregar un trmino de error o desviacin, ut, quedando:
yt (
0 1 t
x)
ut
0
Agrupando trminos, podemos escribir la ecuacin como: yt 1 xt podemos ver que no es ms que la relacin de cointegracin del vector Y t , donde:
u t . As,
175

Yt
'
( y t , xt ) ' , (1,
0 1
zt
ut
Cointegracin significa que, aunque haya fuerzas que causen cambios permanentes en los elementos individuales del vector Y t , existe una relacin de equilibrio a largo plazo que ' los une, representada por la combinacin lineal z t Yt. De la definicin de cointegracin podemos deducir algunas observaciones: 1. El coeficiente de la variable independiente siempre es 1, por lo que el vector de cointegracin, , aparece normalizado. 2. Basta multiplicar el vector por un escalar no nulo para obtener un nuevo vector de cointegracin, por lo que el vector de cointegracin no ser nico. 3. El nmero mximo de vectores de cointegracin linealmente independientes que puede haber entre m variables integradas del mismo orden es m1. Al nmero de vectores de cointegracin linealmente independientes se le denomina rango de cointegracin. 4. Dos series no pueden ser cointegradas si no son integradas del mismo orden. As, por ejemplo, si yt I (1) y xt I (0) , entonces z t I (1) y las variables yt y xt no son cointegradas. 5. Cuando se relacionan dos series cada una integrada de orden cero, no tiene sentido hablar de cointegracin. 6. Cuando se consideran ms de dos series de tiempo la situacin se puede complicar, ya que, al contrario de lo que la observacin 4 parece implicar, puede que exista cointegracin sin que todas las variables sean integradas del mismo orden. Por ejemplo, supngase que yt I (1) , xt I (2) y vt I (2) . Si [ xt , vt ] CI (2,1) , entonces, existir una relacin lineal entre la relacin de cointegracin de xt con vt y yt. El caso ms sencillo e interesante de cointegracin es cuando d = b, es decir cuando z t I (0) , ya que entonces es cuando se pueden identificar los parmetros del vector de cointegracin con los coeficientes de una relacin a largo plazo entre las variables y aplicar el anlisis de la regresin. Este caso es en el que se centrar el anlisis del captulo. Enseguida se expone el concepto de Representacin de Correccin de Error que, como se mencion anteriormente, es de gran importancia en el anlisis de cointegracin, en el sentido de que series cointegradas tienen una representacin de correccin de errores, e inversamente, una representacin de correccin de errores genera series cointegradas IX.2. REPRESENTACIN DEL MECANISMO DE CORRECCIN DE ERROR (MCE) El Mecanismo de Correccin de Error (MCE) consiste en representar modelos dinmicos. Su aplicacin se debe, principalmente, al trabajo de [Davidson, Hendry, Srba y Yeo (1978)]. Los modelos MCE permiten modelar tanto las relaciones a largo plazo como la dinmica a corto de las variables. La denominacin de MCE se debe a la especificacin del 176

modelo en la cual las desviaciones de la relacin del largo plazo entre los niveles de las variables funcionan como un mecanismo que impulsa a los cambios de las variables a acercarse a su nivel de equilibrio cuando se han alejado de este. Es decir, se corrigen los errores de equilibrio de periodos anteriores de forma gradual. Aunque el procedimiento puede extenderse a m variables, slo consideramos un modelo dinmico de dos variables yt y xt, entre las cuales existe algn tipo de correlacin. El modelo dinmico se expresa como:
yt ( B ) xt [1 a( B)] yt ut
en donde las races de a(B) = 0 caen fuera del crculo de radio unitario, como condicin de estacionaridad. a(B) y (B ) son los siguientes polinomios en el operador de rezago
a( B) yt ( B ) xt yt
0 1
yt
yt
n m
xt
1 t 1
xt
Desarrollando los polinomios, sumando y restando trminos, se obtiene:

( B ) xt ( (
m 0 0
xt
1 t 1
)( xt )( xt
xt
( xt
3 4
xt 1 ) xt m )
m 1 m k j 1 m 1 k j 1 m k j 1 k j 1 m m m 1 2
2 3
xt 2 ) xt 3 )
( xt
m 1 2
(
0
) xt
xt xt
xt xt
) xt
(1) xt
Anlogamente, se obtiene
n 1 n k j 1 k j 1
[1-a(B) ] yt
donde a(1)
1
[1-a( 1 )] yt-1
2
yt
Con esto, el modelo dinmico original puede escribirse en la forma siguiente:
177

m 1 m k j 1 k j 1 n k j 1 k j 1
yt
xt
n 1
xt
(1) xt ut
[1 A(1)] y t
yt
Restando yt-1 en los ambos miembros de la igualdad, se tiene:

m 1 m k j 1 k j 1 n 1 n k j 1 k j 1
yt
xt
xt
yt
A(1) yt
A(1)
(1) xt A(1)
ut
Esta ltima expresin es la forma general del modelo de MCE para el caso de dos variables. El cociente (1) / A(1) se conoce como multiplicador total. Definicin IX.2.1. [Representacin MCE].- Se dice que un vector m-variado Y admite la representacin MCE si se puede expresar como:
A( B) Y t Yt
1 t
donde t es un vector error estacionario; A(B) es una matriz m x m, con A(0)=Im; y matriz m x m diferente de la nula.
es una
El anlisis e interpretacin del modelo MCE se reducir a un vector bivariado, Y t ( yt , xt )' , en donde cada una de las componentes son I(1). Dicho esto, el MCE para el caso de dos variables est dado por:
yt xt yt xt
1 2 1
( B) y t
1 1
( B ) xt
1 1
( yt
1 1
xt 1 ) xt 1 )
1t 2t
2 ( B) y t
2 ( B ) xt
2 ( yt
1 2
( B) y t
1 1
( B ) xt
1 1
( yt
1 1
xt 1 ) xt 1 )
1t 2t
2 ( B) yt
2 ( B ) xt
2 ( yt
Con las siguientes condiciones: 1. El vector de cointegracin (1, )' es el mismo para ambas ecuaciones. 2. Los polinomios i (B) y i (B ) para i=1,2, tienen todas sus races fuera del crculo unitario (condicin de estacionaridad). 3. Al menos uno de los parmetros i , i=1,2 no es nulo. Estos parmetros se conocen como parmetros de velocidad de ajuste. De las ecuaciones podemos ver que, los trminos entre parntesis involucran la relacin a largo plazo de las variables involucradas. Esto no es ms que la relacin de 178

cointegracin. El trmino en cuestin se conoce como corrector del error, en el sentido que ser distinto de cero nicamente cuando haya alejamiento del valor de equilibrio. Si por xt < 0, es decir, que yt est por debajo del valor de ejemplo, en el momento t se da que yt equilibrio que mantiene respecto a xt, entonces el trmino de correccin de error provocar un aumento superior de yt 1 a fin de corregir la brecha en la relacin de equilibrio. Los i s reciben el nombre de parmetros de velocidad del ajuste porque cuanto mayor sea su valor ms rpidamente se corregirn los desequilibrios. A continuacin enunciamos un teorema de gran importancia que involucra la relacin entre el Mecanismo de Correccin de Error y Cointegracin. TEOREMA. [Representacin de Granger]. Si las m componentes de una serie de tiempo multivariada {X t } son CI(1,1) de rango de cointegracin r, entonces existe una representacin Mecanismo de Correccin de Error para el Proceso Generador de Datos (PGD). Por otra parte, si el PGD de un conjunto de variables admite una representacin MCE, entonces las variables estn cointegradas. Demostracin. Ver [Engle y Granger (1987)]. /// Mediante el teorema anterior se puede mostrar que existe un isomorfismo de representaciones para variables cointegradas. Tales representaciones son: Vectores Autorregresivos (VAR), MCE y Promedios Mviles Multivariados. IX.3. ESTIMACIN Y CONTRASTE DE RELACIONES DE COINTEGRACIN El proceso de estimacin de la relacin de cointegracin es un poco complicado dada la relacin mostrada entre cointegracin y modelos de MCE del Teorema de Representacin de Granger. Es decir, tenemos que estimar la relacin de cointegracin y el MCE. La va tradicional de estimacin y contraste de relaciones de cointegracin ha sido estimar directamente la relacin de cointegracin y, posteriormente, se modela el MCE. En seguida desarrollamos el procedimiento. IX.3.1. Estimacin en dos etapas de Engle y Granger La estimacin en dos etapas de los modelos que involucran variables cointegradas propuesta por [Engle y Granger (1987)] consiste en estimar en un primer paso la relacin de cointegracin realizando la regresin esttica de las variables en niveles y, en el segundo paso se estima el MCE introduciendo los residuos de la relacin de cointegracin estimada en el primer paso, diferenciados un periodo. Puede mostrarse que los resultados son consistentes para todos los parmetros. En particular, los estimadores de los parmetros en el primer paso convergen en probabilidad a una tasa n; mientras que en el segundo paso, los elementos del vector de los trminos de correccin de error, convergen asintticamente a la tasa usual de n . Esto se puede ilustrar proponiendo un modelo simple de MCO sin ordenada al origen. 179

Supongamos que existe alguna relacin entre las series con media cero xt , yt I (1) , y que estas dos series estn cointegradas. Entonces, la regresin esttica sin ordenada al origen de yt sobre xt est dada por: yt xt t Note que, el trmino de error, t , contiene toda la dinmica omitida y adems, { t } I (0) bajo el supuesto de cointegracin. As, es estimada consistentemente por la regresin a pesar de la omisin de toda la dinmica. Tal estimacin est dada por:
n n n n n
xt y t
t 1 n t 1
xt ( xt
n
t) t 1
xt2
t 1 n
xt xt2
t t 1 n
xt xt2
t 1
xt2
t 1 t 1
xt2
t 1
Podemos ver que a medida que t tiende a infinito,

t 1
n
xt2 tambin tiende a infinito y, en

xt
t 1 t
consecuencia, tiende a
n
independientemente de
, que se ve superado por el
crecimiento de
t 1
xt2 , a una tasa de n y no a la tasa usual de
n.
Esto significa que los parmetros convergen al valor poblacional a una velocidad superior, conforme aumenta la muestra, a las estimaciones con variables estacionarias. Este hecho se debe a que para el verdadero valor , los residuales son estacionarios. Este resultado es llamado teorema de superconsistencia de [Stock (1987)] y es usado por Engle y Granger como base de la estimacin. Enseguida enunciamos el Teorema de Engle y Granger, el cual establece la distribucin lmite de la relacin de cointegracin en dos etapas. TEOREMA. (de Engle y Granger). La estimacin en dos etapas de una ecuacin de un sistema de correccin de error con un vector de cointegracin obtenido al tomar la estimacin de la regresin esttica, en lugar del verdadero valor, para estimar el MCE en la de segunda etapa, tiene la misma distribucin lmite con el estimador de mxima verosimilitud que usando el verdadero valor de . El mtodo de mnimos cuadrados en la segunda etapa proporciona estimadores consistentes del error estndar. Demostracin. Ver [Engle y Granger (1987)]. /// Como hemos mencionado, la estimacin tradicional de relaciones de cointegracin consiste en dos etapas. La primera consiste en estimar directamente la relacin de cointegracin y la segunda en estimar el MCE introduciendo los residuos de la relacin de cointegracin estimada en el primer paso. 180

IX.3.1a. Estimacin Directa de la Relacin de Cointegracin Cuando se estima una relacin entre variables integradas, podemos caer en una regresin espuria, es decir, obtener residuos que no son estacionarios, un R2 elevado y aceptar como significativo el parmetro asociado al regresor. En cambio, si un conjunto de variables estn cointegradas, al obtenerse unos residuos estacionarios, puede realizarse la regresin por MCO. Esto pone de manifiesto la utilidad de la teora de cointegracin a la hora de discriminar entre relaciones espurias y relaciones reales entre variables. Como hemos dicho antes, solo consideramos el caso bivariado para una mayor simplicidad. As, si xt , yt I (1) y se puede plantear la regresin:
yt xt
t
entonces la estimacin por MCO, al minimizar la varianza residual, estimar consistentemente este nico parmetro de cointegracin, , que conduce a unos residuos estacionarios. De acuerdo a los supuestos, en la expresin anterior, aunque estn involucradas variables I(1), no se trata de una relacin espuria puesto que los residuales son estacionarios y, por tanto, el estadstico Durbin-Watson (DW) ser para un determinado valor de significativamente distinto de cero al no haber una raz unitaria en { t }. Enseguida enunciamos algunas de las caractersticas que presenta la estimacin por xt MCO de la regresin de cointegracin: yt t. La estimacin del parmetro es sesgada, principalmente cuando tenemos muestras pequeas. Esto se debe a la autocorrelacin que presenta t [Phillips (1988)]. Este sesgo no tiene una distribucin normal ni media cero, pero desaparece cuando el tamao muestral tiende a infinito. La estimacin por MCO no es completamente eficiente, pues recordemos que no estamos considerando el resto de informacin disponible, es decir, todo el MCE. En la regresin esttica suele haber una considerable autocorrelacin residual, lo que lleva a la inconsistencia de la estimacin de los errores estndar de los parmetros. Esto implica que los valores de t (estadstica de prueba) de los parmetros del vector de cointegracin estn sesgados y son inconsistentes. Por tanto, la inferencia sobre los parmetros estimados no se puede hacer de manera tradicional. Si las variables implicadas en la relacin de cointegracin son ms de tres, se espera una fuerte colinealidad entre las variables explicativas. Ello sucede porque, para que haya una relacin de cointegracin, las variables han de evolucionar conjuntamente a largo plazo. La eliminacin de una de las variables explicativas en la regresin de cointegracin, a fin de reducir la multicolinealidad, conducir a resultados inconsistentes al no poder obtener residuos estacionarios. Con ello se constata que la multicolinealidad, ms que un problema, es una caracterstica inherente a las variables cointegradas. 181

En resumen, se podra decir que la estimacin por MCO de la regresin de cointegracin proporciona, de forma sencilla, unos parmetros superconsistentes, aunque sesgados y no eficientes, sobre los que no se puede hacer inferencia, pero que permitira contrastar si existe una raz unitaria en los residuos estimados (que son consistentes). IX.3.1b. Estimacin del Mecanismo de Correccin de Error (MCE) Una vez estimado por MCO el vector de cointegracin (regresin esttica) en el paso uno, los resultantes parmetros del MCE pueden ser estimados consistentemente introduciendo los residuales de la regresin esttica del paso uno rezagados un periodo, es decir, t 1 ,en el MCE. As, en la segunda etapa del proceso de estimacin y contraste de relaciones de cointegracin, se estimar el MCE introduciendo t 1 en lugar del vector de cointegracin. [Engle y Granger (1987)]. Existe una versin de estimacin que consiste en tres etapas, es decir, se agrega una a las dos anteriores. El supuesto en el que se basa esta versin es la existencia de un nico vector de cointegracin. El procedimiento de estimacin en tres etapas fue desarrollado por [Engle y Yoo (1987)]. Otro mtodo alternativo de estimacin es propuesto por Johansen y est basado en el concepto de mxima verosimilitud. IX.3.2. Estimacin de Johansen El procedimiento basado en Mxima Verosimilitud con informacin completa tiene una serie de ventajas frente a los restantes mtodos, como son: contrastar simultneamente el orden de integracin de las variables y la presencia de relacin de cointegracin y estimar todos los vectores de cointegracin, sin imponer a priori que nicamente hay uno. Por estos motivos, se convierte en una alternativa cada vez ms utilizada frente a otros mtodos de estimacin y contraste como el de dos etapas de Engle y Granger. No obstante, el procedimiento de Johansen tambin impone algunos supuestos. [Johansen (1988)]. El procedimiento parte de la modelacin de vectores autoregresivos en la que todas las variables se consideran endgenas (dependientes). Formalmente, supongamos el modelo autorregresivo multivariado de orden p, VAR(p):
Yt
1
Yt
Yt
donde Y t es un vector de orden m; m es el nmero de variables del modelo; es un vector de constantes, y t es un vector de perturbaciones aleatorias tal que t iid (0, ) . Se puede mostrar (mediante algebra) que el modelo puede escribirse de la siguiente forma:
Yt
1
Yt
p 1
Yt
p 1
Yt
182

donde
i 1 1
i p
I , i 1,..., p 1 I
es conocida como matriz de impactos, pues contiene toda la La matriz informacin sobre la relacin a largo plazo. Note que esta ltima expresin del modelo es la de un MCE en forma matricial. Por otro lado, si recoge la relacin de cointegracin, entonces { Y t p } ser I(0). Esto garantiza que el modelo est equilibrado. Si r es el rango de , pueden presentarse los siguientes casos:
1. r=0. En este caso, tendramos que es una matriz nula. Esto implica que el modelo presente solo variables diferenciadas y, en consecuencia, las variables del vector Y t sern I(0). Es decir, no existira ninguna relacin de cointegracin. 2. 0 < r < m. En este caso habr r relaciones de cointegracin. El rango de ser el nmero de columnas linealmente independientes de la matriz (vectores de cointegracin). 3. r = m. En este caso, el proceso multivariado { Y t } ser estacionario. Como mencionamos antes, intuitivamente, esto se debe a que entre m variables slo puede haber como mximo m 1 vectores de cointegracin linealmente independientes. Tendramos que, si A es la matriz de vectores de cointegracin, A ' Y t I (0) , donde todas las variables de Y t son I(1). En conclusin, Y t ser estacionario solo si es de rango m, ya que esta matriz recoge las relaciones (vectores) de cointegracin (relaciones a largo plazo). La idea intuitiva que hay detrs del procedimiento de estimacin por Mxima Verosimilitud de Johansen es que se deben encontrar las combinaciones lineales del vector Y t que estn correlacionadas al mximo con las diferencias Y t . La secuencia de pruebas de hiptesis sera empezar planteando H0: r=0 (no cointegracin) frente una alternativa de r=1. En caso de rechazar H0, se contrastara la nueva hiptesis H0: r = 1 frente a la alternativa de r=2, y as sucesivamente hasta el momento en que no se rechace H0, o bien hasta aceptar que todas las variables son estacionarias, en tal caso, tendramos r = m. El proceso de estimacin de Johansen se basa en el concepto de Mxima Verosimilitud, por lo que debemos suponer alguna distribucin (Normal Multivariada). p 1 Yt p 1 Yt p Supongamos que la expresin Y t t es el MCE, 1 Yt 1
0 , 0 < r < m, Y t p ,...,Y 0 son datos conocidos y t NM (0, ) e independientes. Bajo estos supuestos, podemos obtener la estimacin por Mxima Verosimilitud siguiendo los siguientes pasos:
183

1. Estimar por MCO los sistemas de ecuaciones:
Yt Yt
p
01 11
Yt Yt
1 1
0, p 1 1, p 1
Yt Yt
p 1 p 1
r 0t r 1t
De esta forma, podemos obtener los vectores residuales r 0t y r 1t . 2. Calcular los momentos de segundo orden de los residuales. Es decir, calcular la cantidad:
n t 1
r it r jt S ij n , i, j 0,1
'
Note que Sij es una matriz cuadrada de orden m m. 3. La estimacin de mxima verosimilitud de la matriz de vectores de cointegracin, A, bajo la restriccin de normalizacin A ' S11 A I , se obtiene a partir del clculo de los valores propios de S10 S 001 S 01 respecto a S11 . Es decir, las i , i = 1, . . . ,m, son tales que:
S11 S10 S 001 S 01
2
Las lambdas obtenidas sern:
4. Para probar la hiptesis nula de que hay como mximo r vectores de cointegracin frente a la alternativa de que hay m, r < m, la estadstica de prueba de razn de verosimilitud est dada por:
m traza
(r )
2 ln Q
(1
i r 1
la cual sigue una distribucin (asinttica) c (2f ) , donde c = 0,85 0,58/f , (2f ) es la distribucin Ji-Cuadrada con f = 2(m r)2 grados de libertad. Esta estadstica se denomina estadstica de la traza. 5. Teniendo el rango de cointegracin, podemos pensar en la estimacin de la matriz A. Las columnas de A sern los vectores propios asociados a cada i . De esta forma, la i-sima columna de la matriz A, Ai, se estima a partir de la expresin:
S10 S 001 S 01 Ai
i
S11 Ai i=1,,r
6. Una estimacin consistente de las matrices ,
se obtiene de:
184

S 01 A A S 00
'
IX.3.3. Contrastes de Cointegracin sobre los Residuales Una forma sencilla de contrastar una relacin de cointegracin entre variables consiste en analizar si los residuos de la regresin de cointegracin presentan un orden de integracin menor que el de las variables involucradas. A manera de ejemplo, para el caso de variables I(1), el contraste consistir en determinar si los residuos presentan una raz unitaria (no cointegracin) o, lo que es lo mismo, determinar si son o no estacionarios. Para ello se pueden utilizar los contrastes de races unitarias presentadas anteriormente (Dickey - Fuller). Mostramos dos contrastes propuestos en [Engle y Granger (1987)] de los que existen valores crticos tabulados: el basado en el Durbin-Watson de la regresin esttica y el Dickey - Fuller Aumentado sobre los residuos de dicha regresin. En ambos la hiptesis nula es:
H0 :
t
I (1) (H0: no cointegracin)
Si no se rechaza la hiptesis de no cointegracin entre las variables integradas utilizadas en la regresin esttica, debemos concluir que la relacin estimada es de tipo espurio. IX.3.3a. Contraste Durbin-Watson sobre los Residuales de Cointegracin (DWRC) El DWRC, se calcula de la misma forma que el estadstico Durbin-Watson y est dado por:
n
t DWRC
t 2 n
t t
2
2 1
t 1
t denota los residuales de la regresin de cointegracin estimada por MCO.

xt 0 La hiptesis nula que se plantea en la estimacin yt t es H 0 : DWRC (no cointegracin). Si el estadstico DWRC es significativamente mayor que cero, entonces aceptaremos la existencia de una raz unitaria en los residuos. El valor DWRC se compara con los valores crticos de las tablas que aparecen en [Engle y Granger (1987)] para el caso de dos variables. De manera usual, si el DWRC estimado es inferior a los valores crticos tabulados no se podr rechazar la H0.
Como todo procedimiento, este tiene ventajas y desventajas. Una ventaja de este contraste es que es invariante frente a la posible inclusin de constantes y tendencias en el modelo, sin que por ello varen sus valores crticos. El problema de este contraste es que 185

generalmente { t } sigue un esquema AR(p) y el contraste DWRC considera nicamente un esquema AR(1). IX.3.3b. Contraste Dickey-Fuller sobre los Residuales de Cointegracin (DFRC) El contraste del tipo Dickey-Fuller (DF) o Dickey-Fuller Aumentado (DFA) sobre la regresin de cointegracin, consiste en estimar por MCO la regresin:
p
1 i 1
et
donde t denota los residuos de la regresin de cointegracin estimada por MCO, y el nmero de retardos p se escoge suficientemente grande como para que { et } forme un proceso de ruido blanco. Como sugieren Phillips y Oularis, el valor de p debe aproximarse por el valor 3 n cuando las variables siguen un proceso ARIMA(p,1,q). La introduccin de los retardos de los residuos diferenciados en el modelo se justifica de la necesidad de eliminar la autocorrelacin que presenten los residuos. Cabe sealar que si se utilizan los valores crticos de los contrastes DF o DFA para este caso, se rechazar la hiptesis nula de no estacionaridad con demasiada frecuencia. Para evitar este sesgo los valores crticos deben aumentarse ligeramente. IX.4. PRONSTICO EN SISTEMAS COINTEGRADOS En los procesos de prediccin se tiene la caracterstica de que la varianza del error de pronstico crece a medida que el horizonte de pronstico lo hace (h crece). El proceso de pronstico de sistemas cointegrados tambin tiene esta caracterstica. Por otra parte, segn [Engle y Yoo (1987)], el pronstico a largo plazo viene dado exactamente por el vector de cointegracin. As por ejemplo, dada una representacin por ' MCE con una relacin de cointegracin yt X t , la mejor prediccin a largo plazo hecha en el momento t de yt h (con t suficientemente grande) condicionada a X t cual tendr varianza finita aunque h tienda a infinito.
h
es yt
' h
X t h , la
Sin embargo, el hecho de que la varianza de los errores del pronstico (ECM) de la combinacin de cointegracin se mantiene finita no resuelve el problema del pronstico a largo plazo con variables integradas. El siguiente ejemplo ilustra la dificultad. Consideremos el proceso
xt
0
xt
con
1 . Entonces, haciendo repetidas sustituciones, se puede llegar a que el pronstico a h

h||t
pasos en el tiempo t, denotado por x t
est dado por: 186

xt
0 h|t
(1 1
xt
Es fcil observar que cuando h tiende a infinito, la prediccin en cuestin tiende a la ) 1 , que no es ms que la media no condicional del proceso. Este argumento, cantidad 0 (1 implica que el sistema de ecuaciones, si se reescribe enteramente en trminos de variables I(0), pierde la capacidad de pronosticar los valores futuros basados en el pasado observado. Cuando el horizonte de pronstico aumente (aumente h), el mejor pronstico, como vimos con el ejemplo, es la media no condicional. En el siguiente ejemplo llevamos a cabo la estimacin de la relacin entre el ndice general de inflacin y el ndice subyacente de inflacin (desglosado como mercancas y servicios) [fuente: www.banxico.org.mx]. Se piensa que el ndice subyacente determina en gran medida el ndice general, lo cual se prueba al ver en el mismo plano la grfica de la serie original y la serie estimada. El anlisis fue hecho con el paquete Eviews5 que ofrece las opciones de estimacin del vector de cointegracin como las pruebas de raz unitaria.
187

Ejemplo IX.3.1. Las series son las siguientes:
ndice general
10 8 6 4 2 0 -2 25 50 75 100 125 150 175 200
mercancias
10 8 6 4 2 0 -2 25 50 75 100 125 150 175 200
ser vic ios

7 6 5 4 3 2 1 0 25 50 75 100 125 150 175 200
188

Para manejar mejor las tres series, las ponemos en un grupo que llamamos inflaciones. Primero llevamos a cabo la regresin del ndice general con los ndices de mercancas y servicios mediante la opcin: LS gral merc serv Obteniendo:
Dependent Variable: GRAL Method: Least Squares Sample: 1 214 Included observations: 214 Variable MERC SERV R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Coefficient 0.467194 0.544799 0.892442 0.891934 0.344702 25.18973 -74.72210 Std. Error 0.043189 0.046384 t-Statistic 10.81736 11.74533 Prob. 0.0000 0.0000 1.019811 1.048576 0.717029 0.748487 1.280057
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat
Procedemos a generar la serie de residuales siguiendo Proc > Make Residual Series y llevar a cabo la prueba de raz unitaria en esta serie mediante View > Unit Root Test. Obteniendo:
Null Hypothesis: RESIDUALES has a unit root Exogenous: Constant Lag Length: 5 (Automatic based on SIC, MAXLAG=14) t-Statistic Augmented Dickey-Fuller test statistic Test critical values: 1% level 5% level 10% level *MacKinnon (1996) one-sided p-values. -9.061679 -3.461783 -2.875262 -2.574161 Prob.* 0.0000
Podemos ver que se rechaza la hiptesis de existencia de raz unitaria en la serie de residuales al 1% de significancia, por lo que concluimos que hay existencia de cointegracin. Esto confirma la hiptesis a priori. 189

La prueba de cointegracin de Johansen la llevamos a cabo en el grupo que creamos, siguiendo View > Cointegration Test y seleccionamos la opcin 6). Obteniendo:
Data Trend: Test Type Trace Max-Eig None No Intercept No Trend 3 3 None Intercept No Trend 3 3 Linear Intercept No Trend 3 3 Linear Intercept Trend 2 2 Quadratic Intercept Trend 3 3
*Critical values based on MacKinnon-Haug-Michelis (1999) Information Criteria by Rank and Model Data Trend: Rank or No. of CEs None No Intercept No Trend None Intercept No Trend Linear Intercept No Trend Linear Intercept Trend Quadratic Intercept Trend
0 1 2 3
Log Likelihood by Rank (rows) and Model (columns) -233.8655 -233.8655 -233.5023 -233.5023 -205.6714 -205.0184 -204.6646 -204.6133 -199.1119 -195.4835 -195.4712 -186.9923 -195.8286 -190.5258 -190.5258 -181.6423
-233.2761 -204.3887 -186.9295 -181.6423
0 1 2 3
Akaike Information Criteria by Rank (rows) and Model (columns) 2.582445 2.582445 2.607677 2.607677 2.634221 2.370062 2.373381 2.389135 2.398213 2.415203 2.364707 2.349124 2.358576 2.296577* 2.305546 2.390704 2.368668 2.368668 2.312366 2.312366 Schwarz Criteria by Rank (rows) and Model (columns) 3.158158 3.158158 3.231367 3.231367 3.041727* 3.061039 3.108776 3.133847 3.132324 3.148726 3.174170 3.144155 3.254274 3.280214 3.280214 3.271888
0 1 2 3
3.305886 3.182820 3.169115 3.271888
El criterio de Akaike sugiere que el nmero ptimo de rezagos sea 2, con intercepto y tendencia lineal. Mientras que el criterio de Schwarz sugiere un modelo sin intercepto ni tendencia con 1 rezago. Realizamos nuevamente la prueba de cointegracin, pero ahora elegimos la opcin 2) en base a lo dicho antes. El vector de cointegracin normalizado es:
Normalized cointegrating coefficients (standard error in parentheses) GRAL MERC SERV C 1.000000 -0.563586 -0.381434 -0.080367 (0.04903) (0.06200) (0.03664)
190

El ltimo paso es graficar el ndice general y el ndice general estimado por la relacin de cointegracin, esto lo hacemos mediante: PLOT gral 0.080367+0.563586*merc+0.381434*serv
10 8 6 4 2 0 -2 25 50 75 100 125 150 175 200
GRAL 0.080367+0.563586*MERC+0.381434*SERV
Como podemos observar, esta estimacin logra un buen ajuste, dado que capta la tendencia histrica de la serie. Es interesante observar, la diferencia entre la estimacin de la relacin de cointegracin y la estimacin de un vector autorregresivo, es decir, un modelo AR multivariado. El ajuste del modelo AR multivariado se logra, en Eviews5, como sigue: en el grupo creado anteriormente llamado inflaciones, seguimos la secuencia Proc> Make Vector Autoregression y seleccionamos la opcin Unrestricted VAR. Con esto aparecern los primeros resultados del modelo AR. En la ventana resultante seleccionamos la opcin Views> Lag Structure> Lag lenght criteria, esto nos informar una serie de criterios para elegir el nmero de rezagos necesarios, que para este ejemplo es 7.
VAR Lag Order Selection Criteria Endogenous variables: GRAL MERC SERV Exogenous variables: C Sample: 1 214 Included observations: 206
191

Lag 0 1 2 3 4 5 6 7 8 LogL -470.6808 -229.7849 -219.8940 -209.9945 -202.9056 -188.2707 -175.9180 -165.7514 -156.7186 LR NA 472.4367 19.10944 18.83803 13.28305 26.99636 22.42670 18.16179* 15.87312 FPE 0.019945 0.002099 0.002081 0.002063 0.002103 0.001992 0.001929 0.001909* 0.001911 AIC 4.598843 2.347426 2.338777 2.330043 2.348598 2.293890 2.261340 2.250013 2.249695* SC 4.647307 2.541283* 2.678027 2.814685 2.978633 3.069318 3.182160 3.316226 3.461301 HQ 4.618443 2.425828* 2.475981 2.526049 2.603405 2.607499 2.633751 2.681226 2.739709
* indicates lag order selected by the criterion LR: sequential modified LR test statistic (each test at 5% level) FPE: Final prediction error AIC: Akaike information criterion SC: Schwarz information criterion HQ: Hannan-Quinn information criterion
Hecho esto, podemos especificar que necesitamos 7 rezagos, es decir, se ajustar un modelo multivariado AR(7), mediante la opcin Proc> Specify/Estimate y especificamos 7 en la opcin Lag Intervals for Endogenous. Obteniendo:
Vector Autoregression Estimates Sample (adjusted): 8 214 Included observations: 207 after adjustments Standard errors in ( ) & t-statistics in [ ] GRAL GRAL(-1) 0.773715 (0.12556) [ 6.16207] -0.498433 (0.13533) [-3.68318] 0.030600 (0.13840) [ 0.22110] -0.284761 (0.13731) [-2.07388] 0.234163 (0.13667) MERC 0.611884 (0.11988) [ 5.10431] -0.433783 (0.12920) [-3.35747] 0.029717 (0.13213) [ 0.22490] -0.173730 (0.13109) [-1.32526] 0.228375 (0.13048) SERV 0.526040 (0.10178) [ 5.16820] -0.328362 (0.10970) [-2.99327] 0.168272 (0.11219) [ 1.49985] -0.135601 (0.11131) [-1.21826] 0.213032 (0.11079)
GRAL(-2)
GRAL(-3)
GRAL(-4)
GRAL(-5)
192

[ 1.71338] GRAL(-6) -0.340303 (0.13934) [-2.44217] -0.160788 (0.12298) [-1.30738] 0.149463 (0.11950) [ 1.25075] 0.175719 (0.12686) [ 1.38511] 0.276499 (0.12715) [ 2.17459] -0.351215 (0.12847) [-2.73391] 0.127126 (0.13163) [ 0.96582] 0.000569 (0.12802) [ 0.00444] 0.369230 (0.10779) [ 3.42535] 0.079826 (0.14824) [ 0.53849] 0.259422 (0.15910) [ 1.63060] -0.261119 [ 1.75027] -0.064444 (0.13304) [-0.48441] -0.002166 (0.11742) [-0.01844] 0.446264 (0.11409) [ 3.91157] 0.110649 (0.12112) [ 0.91356] 0.248867 (0.12139) [ 2.05009] -0.179395 (0.12265) [-1.46267] 0.135534 (0.12567) [ 1.07852] -0.155819 (0.12223) [-1.27482] 0.213162 (0.10291) [ 2.07129] 0.103354 (0.14153) [ 0.73026] 0.137790 (0.15189) [ 0.90715] -0.194021 [ 1.92289] -0.092300 (0.11296) [-0.81712] -0.006777 (0.09970) [-0.06798] -0.058824 (0.09687) [-0.60725] -0.040811 (0.10284) [-0.39684] 0.259067 (0.10307) [ 2.51346] -0.307971 (0.10414) [-2.95731] -0.009963 (0.10670) [-0.09338] -0.062932 (0.10378) [-0.60639] 0.143973 (0.08738) [ 1.64765] 0.483039 (0.12017) [ 4.01963] 0.262735 (0.12897) [ 2.03720] -0.264887
GRAL(-7)
MERC(-1)
MERC(-2)
MERC(-3)
MERC(-4)
MERC(-5)
MERC(-6)
MERC(-7)
SERV(-1)
SERV(-2)
SERV(-3)
193

(0.15930) [-1.63916] SERV(-4) 0.170856 (0.15929) [ 1.07261] -0.073163 (0.15853) [-0.46151] 0.299068 (0.15821) [ 1.89028] -0.130125 (0.13697) [-0.95005] 0.176391 (0.06472) [ 2.72556] 0.792219 0.768633 44.54642 0.490705 33.58860 -134.7249 1.514250 1.868452 0.976294 1.020164 (0.15209) [-1.27572] 0.102134 (0.15208) [ 0.67159] -0.236756 (0.15135) [-1.56427] 0.055199 (0.15105) [ 0.36543] -0.070010 (0.13076) [-0.53539] 0.076452 (0.06179) [ 1.23735] 0.845141 0.827563 40.60384 0.468487 48.07803 -125.1337 1.421581 1.775783 0.934256 1.128190 0.001389 0.000992 -165.3557 2.235321 3.297927 (0.12913) [-2.05126] 0.057375 (0.12913) [ 0.44433] -0.036869 (0.12851) [-0.28689] 0.190894 (0.12825) [ 1.48841] -0.072713 (0.11103) [-0.65490] 0.094600 (0.05246) [ 1.80321] 0.813005 0.791778 29.27260 0.397782 38.30139 -91.26735 1.094371 1.448573 0.970930 0.871729
SERV(-5)
SERV(-6)
SERV(-7)
R-squared Adj. R-squared Sum sq. resids S.E. equation F-statistic Log likelihood Akaike AIC Schwarz SC Mean dependent S.D. dependent
Determinant resid covariance (dof adj.) Determinant resid covariance Log likelihood Akaike information criterion Schwarz criterion
Muchos de los coeficientes en el modelo AR no son significativos. Para ello, podemos llevar a cabo la regresin de la variable general con los 7 rezagos de las variables general, mercancas y servicios. Una vez hecha la regresin, podemos ver que los resultados son los mismos que los obtenidos anteriormente. La regresin es:
LS gral gral(-1) gral(-2) gral(-3) gral(-4) gral(-5) gral(-6) gral(-7) merc(-1) merc(-2) merc(-3) merc(4) merc(-5) merc(-6) merc(-7) serv(-1) serv(-2) serv(-3) serv(-4) serv(-5) serv(-6) serv(-7) C
194

Dependent Variable: GRAL Method: Least Squares Sample (adjusted): 8 214 Included observations: 207 after adjustments Variable GRAL(-1) GRAL(-2) GRAL(-3) GRAL(-4) GRAL(-5) GRAL(-6) GRAL(-7) MERC(-1) MERC(-2) MERC(-3) MERC(-4) MERC(-5) MERC(-6) MERC(-7) SERV(-1) SERV(-2) SERV(-3) SERV(-4) SERV(-5) SERV(-6) SERV(-7) C R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 0.773715 -0.498433 0.030600 -0.284761 0.234163 -0.340303 -0.160788 0.149463 0.175719 0.276499 -0.351215 0.127126 0.000569 0.369230 0.079826 0.259422 -0.261119 0.170856 -0.073163 0.299068 -0.130125 0.176391 0.792219 0.768633 0.490705 44.54642 -134.7249 1.986746 Std. Error 0.125561 0.135327 0.138401 0.137309 0.136667 0.139345 0.122985 0.119499 0.126863 0.127150 0.128466 0.131626 0.128025 0.107793 0.148242 0.159096 0.159300 0.159291 0.158530 0.158214 0.136966 0.064717 t-Statistic 6.162066 -3.683180 0.221098 -2.073877 1.713381 -2.442168 -1.307380 1.250750 1.385112 2.174593 -2.733911 0.965817 0.004442 3.425351 0.538487 1.630599 -1.639161 1.072608 -0.461507 1.890276 -0.950054 2.725556 Prob. 0.0000 0.0003 0.8253 0.0395 0.0883 0.0155 0.1927 0.2126 0.1677 0.0309 0.0069 0.3354 0.9965 0.0008 0.5909 0.1047 0.1029 0.2848 0.6450 0.0603 0.3433 0.0070 0.976294 1.020164 1.514250 1.868452 33.58860 0.000000
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
Utilizando un nivel de significancia del 5%, podemos concluir que muchos de los coeficientes son estadsticamente igual con cero, quedando el modelo ajustado como:
Gt 0.176 0.774Gt
1
0.498Gt
0.285Gt
0.340Gt
0.276M t
0.351M t
0.369M t
Como podemos ver, la variable servicios no result significativa, en este caso.
195

5. CONCLUSIONES En primer lugar, es sano mencionar que el campo de estudio del Anlisis de Series de Tiempo es mucho ms amplio que los temas que se exponen en el presente trabajo; Sin embargo, de acuerdo al objetivo que se plante al inicio, que era elaborar apuntes para las materias de Series de Tiempo I y II que se imparten en la Licenciatura en Estadstica de la UACh, podemos decir que el objetivo principal se ha cumplido satisfactoriamente, pues se renen todos los temas del plan de estudios de las materias mencionadas. El ajuste de modelos de series de tiempo se llev a cabo, principalmente, con el paquete estadstico S-PLUS y con R. No obstante, se da un ejemplo de ajuste de modelo a una serie univariada con ITSM-2000 en el Anexo, como se plante en los objetivos. Adems de usar el paquete Eviews5 para el ejemplo de cointegracin. Aunque el modelo ajustado a las ventas de automviles en el Anexo es bueno, este no era el objetivo, sino ilustrar la rutina de ajuste de modelos con el paquete ITSM. Estamos seguros que ser una buena gua para quienes gusten del Anlisis de Series de Tiempo, y principalmente, para gente principiante, pues los ejemplos desarrollados estn resueltos con detalles. Adems de que se manejaron ejemplos con datos de series de tiempo reales. Finalmente, como todo trabajo, estamos conscientes que la presente tesis est sujeta a crticas y, desde luego, sern bienvenidas y agradecidas.
196

6. BIBLIOGRAFA Box, G.E.P y Cox, D.R. (1964). An analysis of transformations. J. R. Stat. Soc. Box, G.E.P, Jenkins, G.M y Reinsel, G.C (1994). Time Series Analysis, 3ra edicin. Prentice-Hall. Brockwell P.J y Davis, R.A (1991). Time Series: Theory and Methods, 2da Edicin. Springer-Verlag. Brockwell, P.J y Davis, R.A (2002). Introduction to Time Series and Forecasting. Springer. Davidson, J.H., Hendry, D.H., Srba, F. y Yeo, S (1978). Econometric Modelling of the Aggregate Time-Series Relationship between Consumers Expenditure and Income in the United Kingdom. The Economic Journal. Davis, R.A, Chen, M y Dunsmuir, W.T.M (1995). Inference for MA(1) processes whit a root on or near the unit circle. Probability and Mathematical Statistics 15. Dempster, A.P, Laird, N.M y Rubin, D.B (1977). Maximum Likelihood from incomplete data via the EM algorithm. J. R. Stat. Soc. Durbin, J, A. (1960). The Fitting of Time Series Models. International Statist Inst, 28. Engle, R.F y Granger, C.W.J (1987). Cointegration and error correction: representation, estimation and testing. Econometrica 55. Engle, R.F y B.S. Yoo (1987). Forecasting and Testing in Cointegrated Systems. Journal of Econometrics 35. Granger, C.W.J (1969). Investigating Causal Relations by Econometric Models and Cross-Spectral Methods. Econometrica. Graybill,F.A (1983). Matrices whit Applications in Statistics. Wadsworth. Hamilton, J.D (1994). Time Series Analysis. Princeton University Press. Hernndez, A.R (2002). Tesis: Anlisis de Cointegracin. UNAM. John E. Hanke, Arthur G. Reitsch. Pronsticos en los negocios. Prentice-Hall. Jones, R.H (1978). Multivariate autorregression estimation using residuals. Academic Press. Lora, E. Econometra con aplicaciones. Prentice-Hall. Ltkepohl, H (1993). Introduction To Multiple Time Series Analysis, 2da. Edicin. Springer-Verlag. Mood, et. al (1974). Introduction to the Theory of Statistics. McGraw-Hill. Phillips, P.C.B (1988). Time Series Regression whit a Unit Root. Econometrica 55. Searle S.R (1997). Linear Models. John Wiley and Sons, Inc. Stock, J.H (1987). Asymptotic Properties of Least Squares Stimators of Cointegrating Vectors. Econometrica 55. Wu, C.F.J (1983). On the convergence of the EM algorithm. Ann. Stat. 11. Zivot, E y Wang, J (2003). Modeling Financial Time Series whit S-PLUS. Springer. http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/serietiempo.htm#bi http://www.gestiopolis.com/recursos2/documentos/fulldocs/eco/metrauni.htm http://ciberconta.unizar.es http://www.gestiopolis.com/recursos/documentos/fulldocs/ger1/serietiempo http://www.banxico.org.mx http://www.inegi.gob.mx
197

7. ANEXO Los siguientes datos se refieren a las ventas mensuales de automviles directamente al pblico (por menudeo) desde 1997 hasta Julio de 2005. [fuente: Asociacin Mexicana de la Industria Automotriz A.C.] Los datos fueron creados en archivo txt (bloc de notas) con el nombre Vautos. En ITSM basta con abrir el archivo y en seguida aparecer la grfica
Series
1 00.
90.
80.
70.
60.
50.
40.
30.
20.
1 0. 0 20 40 60 80 1 00
De la grfica se observa que el proceso tiene periodo 12 por tanto se diferenci a distancia 12 usando la opcin Transform>Difference especificando distancia 12, con lo que se obtuvo el siguiente comportamiento de los datos:
Series
1 5.
1 0.
5.
0.
-5.
-1 0. 20 30 40 50 60 70 80 90 1 00
As como las grficas de autocorrelacin y autocorrelacin parcial de la serie diferenciada dando clic en el segundo botn amarillo de la barra superior:
198

Sample ACF 1 .00 1 .00 Sample PACF .80 .80 .60 .60 .40 .40
.20
.20
.00
.00
-.20
-.20
-.40
-.40
-.60
-.60
-.80
-.80
-1 .00 0 5 1 0 1 5 20 25 30 35 40
-1 .00 0 5 1 0 1 5 20 25 30 35 40
La grfica de la ACF (izquierda) sugiere ajustar un modelo MA(6); mientras que la PACF sugiere ajustar un modelo AR(7). Ambos modelos fueron ajustados por los algoritmos de Innovaciones y Yule-Walker, respectivamente, as como por mxima verosimilitud. En seguida se muestran los resultados. La opcin en ITSM-2000 para ajustar el modelo MA(6) por Innovaciones es Model> Estimation> Preliminary, dar clic en Yes para restar la media a los datos, especificar 6 en MA order y marcar Innovations en el cuadro de dilogo y dar clic en OK. Obteniendo: MA(6): innovaciones X(t) = Z(t) + .5043 Z(t-1) + .2602 Z(t-2) + .3279 Z(t-3) + .2722 Z(t-4) + .2982 Z(t-5) + .3362 Z(t-6) WN Variance = 25.412365 AICC = .569155E+03 Para ajustar el modelo AR(7) por Yule-Walker usamos la opcin Model> Estimation> Preliminary, dar clic en Yes para restar la media a los datos, especificar 7 en AR order y marcar Yule-Walker en el cuadro de dilogo y dar clic en OK. Obteniendo: AR(7): Yule-Walker: X(t) = .4665 X(t-1) + .003827 X(t-2) + .2175 X(t-3) + .04005 X(t-4) + .1199 X(t-5) + .09608 X(t-6) - .2837 X(t-7) + Z(t) WN Variance = 23.863569 AICC = .565928E+03 Adicionalmente, podemos usar la opcin Autofit, para encontrar el modelo ARMA(p,q) por mxima verosimilitud. Para esto, usamos Model> Estimation> Autofit y damos clic en OK. Obteniendo:
199

ARMA Model: Maximum Likelihood X(t) = .6170 X(t-1) - .9252 X(t-2) + .6266 X(t-3) - .06290 X(t-4) + .4021 X(t-5) + Z(t) - .1692 Z(t-1) + .9999 Z(t-2) WN Variance = 21.129572 AICC = .560177E+03 De los modelos anteriores, el que tiene menor valor del AICC es el ARMA(5,2), por tanto es el que se decide ajustar. Una vez que elegimos el modelo en base al menor valor de AICC, podemos graficar las funciones de autocorrelacin y autocorrelacin parcial de los residuales dando clic en el segundo botn verde de la barra superior de la ventana de ITSM-2000 y llevar a cabo las pruebas de aleatoriedad usando la opcin Statistics> Residual Analysis> Test of Randomness y clic en OK. Los resultados son los siguientes:
Residual ACF 1 .00 1 .00 Residual PACF
.80
.80
.60
.60
.40
.40
.20
.20
.00
.00
-.20
-.20
-.40
-.40
-.60
-.60
-.80
-.80
-1 .00 0 5 1 0 1 5 20 25 30 35 40
-1 .00 0 5 1 0 1 5 20 25 30 35 40
============================================ ITSM::(Tests of randomness on residuals) ============================================ Ljung - Box statistic = 24.714 Chi-Square ( 20 ), p-value = .21260 McLeod - Li statistic = 35.157 Chi-Square ( 27 ), p-value = .13493 # Turning points = 63.000~AN(59.333,sd = 3.9819), p-value = .35714 # Diff sign points = 51.000~AN(45.000,sd = 2.7689), p-value = .03024 Rank test statistic = .18510E+04~AN(.20475E+04,sd = .14585E+03), p-value = .17788 Jarque-Bera test statistic (for normality) = .061972 Chi-Square (2), p-value = .96949 Order of Min AICC YW Model for Residuals = 0 De la grfica se observa que los residuales forman un proceso de Ruido Blanco y adems no se rechaza la hiptesis de aleatoriedad con un nivel de significancia del 5 %. Para llevar a cabo la validacin del modelo se eliminaron las ltimas 12 observaciones del conjunto de datos y se volvi a ajustar el mismo modelo que a las observaciones completas (diferenciadas a distancia 12 y corregidas por la media), es decir, un ARMA(5,2) por el 200

algoritmo de Hannan-Rissanen. Una vez diferenciada la serie a distancia 12, elegimos la opcin en ITSM-2000 Model> Estimation> Preliminary, clic en Yes para corregir por la media y especificar 5 en AR order, 2 en MA order y marcar el mtodo Hannan-Rissanen, obteniendo: ARMA Model: Hannan-Rissanen X(t) = - .04237 X(t-1) - .2733 X(t-2) + .3653 X(t-3) + .1051 X(t-4) + .4004 X(t-5) + Z(t) + .4663 Z(t-1) + .4979 Z(t-2) WN Variance = 25.398448 AICC = .499040E+03 Teniendo la estimacin preliminar procedemos a ajustar el modelo por el mtodo de mxima verosimilitud. Model> Estimation> Max Likelihood y clic en OK, obteniendo: ARMA Model: Maximum Likelihood X(t) = .5982 X(t-1) - .9260 X(t-2) + .6513 X(t-3) - .09731 X(t-4) + .4828 X(t-5) + Z(t) - .2124 Z(t-1) + .9988 Z(t-2) WN Variance = 18.558458 AICC = .479884E+03 Con el modelo ajustado al conjunto de datos incompleto se predijeron las 12 observaciones eliminadas mediante la opcin Forecasting> ARMA, especificar 12 en number predicted values y dar clic en OK. Tales predicciones fueron las siguientes:
90.
80.
70.
60.
50.
40.
30.
20.
20
40
60
80
1 00
Para obtener los valores, damos clic en la grfica con el botn derecho del ratn y seleccionar la opcin INFO.
201

Obs. Eliminada 56,621 55,223 59,436 64,522 99,207 62,663 58,216 56,869 53,859 52,957 52,835 53,191 Prediction 58.18605 55.71491 54.84041 56.15027 86.84078 66.63468 64.23794 66.40624 54.99261 57.70647 59.08517 61.64121 sqrt(MSE) 4.30795 4.61743 4.79902 5.21812 5.26199 5.41502 5.82493 5.90581 5.91622 5.98562 6.11712 6.21228 Aprox. 95% prediction bounds Lower 49.74262 46.66492 45.4345 45.92295 76.52748 56.02144 52.82128 54.83107 43.39703 45.97487 47.09584 49.46536 Upper 66.62948 64.7649 64.24631 66.3776 97.15409 77.24792 75.65459 77.98141 66.58818 69.43808 71.07451 73.81706
De la tabla anterior podemos ver que todas las observaciones eliminadas, salvo la prediccin 5, caen dentro del intervalo de prediccin, por tanto podemos concluir que el modelo usado para esta serie de tiempo es adecuado y la validacin del modelo resulta exitosa.
202

Analisis Serie de Tiempo - Flores - Santillan - Salvador - 2008 - 2

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Serie de Tiempo - Flores - Santillan - Salvador - 2008 - 2

Diunggah oleh

Hak Cipta:

Format Tersedia

Anlisis de Series de Tiempo

calculadas recursivamente por el algoritmo de Innovaciones.

Recordemos que por el algoritmo de innovaciones, se tiene la igualdad: Cn ( X n X n )

Por la igualdad anterior y la matriz D, se tiene que:

Sustituyendo, la funcin de distribucin conjunta inicial se reduce a:

Anlisis de Series de Tiempo

y , son los valores que minimizan

Anlisis de Series de Tiempo

donde V ( ) es la matriz Hessiana definida por:

Anlisis de Series de Tiempo

AIC: 207.81105 Los resultados anteriores se obtienen escribiendo las instrucciones:

: 0.7554 1.96 * 0.0059 : 0.3072 1.96 * 0.01255

(0.6042,0.9066) ( 0.5268, 0.0876)

Por ejemplo, para el proceso AR(1) dado por Yt tiene:

Z t y dados Y1, Y2 y Y3, se

Por lo tanto, la distribucin conjunta est dada por:

Anlisis de Series de Tiempo

Anlisis de Series de Tiempo

PACF Plot of Res iduals

ARIMA(1,0,1) M odel wi th Mean 0

Tambin, la varianza de T es:

Anlisis de Series de Tiempo

es el cuantil 1- /2 de la distribucin Normal estndar.

De la misma forma que para T, para un valor grande de n, se tiene que:

Anlisis de Series de Tiempo

Las grficas 25 y 26 son resultado de las instrucciones:

Anlisis de Series de Tiempo

P-values of Ljung-Box Chi-Squared Statistic s

ARIMA(7,0,0) M odel wi th Mean 0

Anlisis de Series de Tiempo

Anlisis de Series de Tiempo

Asumiendo que el proceso { X t } satisface Yt como:

Para h=1, la expresin se reduce a:

Anlisis de Series de Tiempo

Las instrucciones son:

Anlisis de Series de Tiempo

0.4483 X t Dt 0.1336 0.4483 D t Dt 0.1336

Anlisis de Series de Tiempo

Sustituyendo en la definicin, tenemos:

Anlisis de Series de Tiempo

Anlisis de Series de Tiempo

Las instrucciones para hacer las grficas de este ejemplo son:

La ltima grfica presenta, pues, la serie: Yt D=1.

(1 B 12 )(1 B) X t . Note que s=12, d=1,

Grfica30. ACF y PACF de la Serie (1 B 12 )(1 B ) X t , donde Xt es la serie muertes.

Partial ACF -0.1 0.0

deat.difDd 12 -0.3332 13 0.0902 14 0.1163 15 -0.0406 16 -0.0633 17 0.1833

Anlisis de Series de Tiempo

Anlisis de Series de Tiempo

28.8305 (1 .4277 B)(1 0.5546 B 12 ) Z t , Z t

Partial ACF -0.1 0.0

Anlisis de Series de Tiempo

785.8 (1 0.407 B)(1 0.012 B12 ) X t

(1 0.916 B)(1 0.835B12 ) Z t ,

( 1) k ( B) d k ...........................(VI .1) D ( 1) j ( B s ) D j .....................(VI .2)

Anlisis de Series de Tiempo

y dado que el predictor es un operador lineal, la prediccin de Xn+h, Pn X n h , queda como:

De esta forma, para un nmero de observaciones, n, grande, podemos usar la aproximacin:

Anlisis de Series de Tiempo

Anlisis de Series de Tiempo

donde N es el nmero de observaciones. El estimador resultante, MCO , es el siguiente:

El estimador resultante, MCG , es el siguiente: