Note que dada la estructura de n , diferenciar la funcin de verosimilitud es muy complicado y por tanto difcil de optimizar. En estos casos, se aplican mtodos numricos con estimadores iniciales dados en la estimacin preliminar. Podemos transformar la distribucin conjunta usando las innovaciones X j respectivas varianzas
j 1
X j y sus
Xn
Por otra parte, sabemos que las innovaciones son no correlacionadas, por lo tanto la matriz de covarianzas de las innovaciones es la matriz diagonal Dn siguiente:
Dn diag{ 0 , 1 ,...,
n 1
' Usando las igualdades anteriores, podemos ver que la forma cuadrtica X n dada por:
1 n
X n est
Xn
'
1 n
Xn
(X n
X n )' Dn 1 ( X n
X n)
(X j
j 1
X j )2 /
j 1
Recordemos, tambin, que Cn es una matriz triangular con elementos en la diagonal igual a uno, por lo tanto su determinante es uno. De donde:
n ' Cn Dn Cn
Cn Dn
Dn
0 1
...
n 1
L(
n)
1 (2 )
n 0 1 ... n 1
exp{
1 2
(X j
j 1
X j )2 /
j 1
Si n puede ser expresada en trminos de un nmero finito de parmetros desconocidos, como es el caso de un proceso ARMA(p,q), entonces los estimadores de Mxima Verosimilitud de los parmetros son los valores que maximizan la funcin L para el conjunto de datos dado. La verosimilitud para los datos de un proceso ARMA(p,q) puede ser calculada recursivamente por el algoritmo de innovaciones.
96
(X n ....
1 j
Xn Xn
1 j
) ,
n
1 n (X n Xn ) , n m
Xn
j 1 1 1
Xn
1 p j 1
nj
1 j
1 j
y E( X n
1 j
Xn
1 j
)2
E (Wn
Wn 1 ) 2
rn
donde nj y rn son determinados por el algoritmo de innovaciones y m=max(p,q). De esta forma, la funcin de verosimilitud para el proceso ARMA(p,q) es:
L( , ,
) (2
1
2 n
exp{
1
1 2
2
n j 1
(X j rj
X j )2
1
) r0 r1 ...rn
Derivando parcialmente el logaritmo de L con respecto a la varianza del ruido blanco y teniendo que X j y rj son independientes de 2 , encontramos los estimadores de mxima verosimilitud.
S ( , ) n donde
2
S ( , )
(X j
j 1
X j ) 2 / rj
l( , )
ln( n S ( , )) n
1 j 1
ln( r j 1 )
El criterio de seleccin del orden del modelo es la minimizacin del AICC. Este criterio consiste en escoger p, q, p y q que minimicen la cantidad:
AICC
2 ln(
, S(
) / n) 2( p q 1)n /( n
p q 2)
Una de las opciones del programa ITSM es un autoajuste del modelo. Esto se lleva a cabo seleccionando Model>Estimation>Autofit. La seleccin de esta opcin nos permite especificar un rango de los valores de p y de q (el rango mximo es de 0 a 27 para ambos, p y q). El modelo elegido es el que tenga mnimo AICC y una vez que el modelo ha sido determinado, debe ser estimado por mxima verosimilitud. Ms adelante se ejemplificar la teora. En S-PLUS la funcin de estimacin por mxima Verosimilitud es: arima.mle(x, model, n.cond=<< >>, xreg=NULL, ...) 97
V( )
l( )
i j i, j 1
Si se quiere probar la hiptesis H0: parmetro=0, la prueba se lleva a cabo calculando el cociente: parmetro 1.96 * EE ( parmetro) La regla de decisin es rechazar H0 si el cociente anterior se encuentra fuera del intervalo [-1,1]. Ejemplo V.2.1. Consideremos los datos del nivel del Lago Hurn (ver ejemplo V.1.2) y ajustemos un modelo por mxima verosimilitud. Solucin. Recordemos que en la estimacin preliminar se encontr que el mejor modelo ajustado (mnimo AICC) a los datos corregidos por la media fue el modelo ARMA(1,1): X(t) = Y(t) - 9.0041 Method: Innovations ARMA Model: X(t) - .7234 X(t-1) = Z(t) + .3596 Z(t-1) WN Variance = .475680 AICC = .212894E+03 El siguiente paso es ajustar el modelo por mxima verosimilitud usando como estimacin preliminar el modelo ARMA(1,1). Usando la funcin arima.mle de S-PLUS obtenemos:
Coefficients:
AR : 0.75544
MA : -0.30721
Variance-Covariance Matrix: ar(1) ma(1) ar(1) 0.005949613 0.004373168 ma(1) 0.004373168 0.012550728
98
donde Lake es el nombre del Dataset con la serie del Lago Hurn. En los resultados tambin se obtienen las varianzas de los parmetros, con lo cual podemos establecer los siguientes intervalos de confianza al 95% como sigue:
[Hamilton (1994)] desarrolla la estimacin de Mxima Verosimilitud usando distribuciones condicionales. Esto es, parte de:
f Y ,Y
1 2 ,..., Yn
fY
fY
2 / Y1
fY
3 / Y2 ,Y1
fY
n / Yn 1Yn 2 ,..., Y1
Yt
fY
1 2
2
/(1
/(1
exp )
[ y1 2
/(1 2 /(1
2
)] 2 2 )
2
ya que E (Y1 )
fY y fY 1 2
3 / Y2 ,Y1
) y V (Y1 )
/(1
) . Adems,
1 2
2
2 / Y1
exp
[ y2 2 [ y3 2
2
y1 ] 2
exp
y 2 ]2
2
fY Y Y
1 2 3
L(
, , | y)
t 1
fY
t / Yt 1
( yt / yt 1 , )
99
( h)
( 1.96 / n ,1.96 / n )
h 1,2,3,....
Si calculamos las correlaciones muestrales para ms de 40 observaciones y encontramos que ms de dos valores caen fuera del intervalo de confianza, entonces rechazaremos la hiptesis de que los errores son independientes. Las bandas 1.96 / n son graficadas automticamente cuando se grafica la funcin de autocorrelacin en el programa ITSM. En la siguiente grfica se muestran las funciones de autocorrelacin y autocorrelacin parcial de los residuales despus de haber ajustado un modelo ARMA(1,1) a los datos del Lago Hurn. Podemos ver que ningn valor cae fuera de las bandas de confianza, por lo que podemos concluir que los residuales, en efecto, son independientes. La grfica se logra de la siguiente forma: En el Dataset Lake, seguimos Data> Transform y en el cuadro Expression escribimos Lake-mean(t(Lake)). Esto crear una nueva columna de datos corregidos por la media. Enseguida, ajustamos el modelo ARMA(1,1) siguiendo Statistics> Time Series> ARIMA Models y especificamos 1 en Autorregresive (p) y 1 en Moving Avg. (q). Finalmente, en la pestaa Diagnostics marcamos Autocorrelation of Residuals y Plot Diagnostics.
100
ACF
-1.0
-0.5
0.0
0.5
10
15
20
PACF
-0.2
-0.1
0.0
0.1
0.2
10
15
20
V.3.2. Prueba de puntos cambiantes (turning points) Esta prueba consiste en determinar si los residuales forman un patrn aleatorio. Supongamos que tenemos una muestra aleatoria y1 ,..., y n . Se dice que la i-sima observacin es un punto cambiante si:
yi
1
yi
yi
yi
yi
yi
yi
yi
Si definimos a T como el nmero de puntos cambiantes en una sucesin de variables aleatorias iid de tamao n, entonces, dado que la probabilidad de que haya un punto cambiante en el tiempo i es 2/3, el valor esperado de T es:
T
E(T )
2(n 2) / 3
Tp
T
T
N (0,1)
Con esto, podemos llevar a cabo la prueba de hiptesis de que los residuales son aleatorios, usando el criterio de decisin:
101
Z1
/2
, donde
V.3.3. Prueba de signo (difference-sign) En esta prueba se cuenta el nmero de observaciones i tales que yi yi 1 , i 1,..., n . Definimos a S como el total de tales observaciones. Entonces, bajo el supuesto de muestra aleatoria, se tiene que:
S
E (S ) Var ( S )
(n 1) / 2 (n 1) / 12
y
2 S
Sp
S
S
N (0,1)
Un valor grande, en valor absoluto, de S S indicara la presencia de un incremento (o decremento) en la tendencia de los datos. De aqu que, rechazaremos la hiptesis de tendencia en los datos al nivel de significancia si S p Z 1 / 2 , donde Z1 / 2 es el cuantil 1/2 de la distribucin Normal estndar. Las tres pruebas mencionadas, entre otras, son calculadas por el programa ITSM usando la opcin Statistics>Residual Analysis>Test of Randomness. S-PLUS slo ofrece la estadstica de Ljung-Box que se distribuye como Ji-Cuadrada. Para obtenerla, en el cuadro de dilogo que aparece despus de Statistics> Time Series> ARIMA Models, en la pestaa Diagnostics marcamos la opcin Portmanteau Statistics. Es claro que, si no se ha ajustado algn modelo a los datos, los residuales son los mismos que las observaciones. Esto significa que podemos llevar a cabo las pruebas para las observaciones (cuando no se ha ajustado algn modelo), como para los residuales. Ejemplo V.3.1. Consideremos los datos del archivo SIGNAL.TXT. Veremos las opciones que ofrecen ambos programas, ITSM-2000 y S-PLUS, para llevara cabo las pruebas de bondad de ajuste.
102
signal
-1
-2
-3 30 80 130 180
En primer lugar, veremos la grfica de la funcin de autocorrelacin. Grfica26. ACF de la serie X(t)=cos(t) + N(t), t=0.1,0.2,,20, donde N(t) es WN(0,0.25).
Series : signal$signal
0.0
0
0.2
ACF 0.4
0.6
0.8
1.0
10 Lag
15
20
donde signal es el Dataset con los datos de la serie simulada. Note que algunas observaciones (ms de dos) salen de las bandas de confianza, por tanto rechazaremos la hiptesis de que la serie es independiente. La estimacin preliminar de Yule-Walker sugiere ajustar un modelo AR(7) a los datos corregidos por la media. Ajustando este modelo, podemos verificar si los residuales cumplen con las pruebas de bondad de ajuste. En ITSM se obtienen mediante Statistics>Residual Analysis> Test of Randomness. Los resultados son: ============================================ ITSM::(Tests of randomness on residuals) ============================================ Ljung - Box statistic = 16.780 Chi-Square ( 20 ), p-value = .66719 103
p-value
0.0
0.2
0.4
0.6
8.0
8.5
9.0 Lag
9.5
10.0
En conclusin, el modelo propuesto para los datos corregidos por la media, AR(7), resulta bueno, pues los residuales cumplen satisfactoriamente con las pruebas de bondad de ajuste.
104
( B) Z t ( B) Z t ( B) Z t
( B)(1 B) d X t ( B) X t
Note que el proceso { X t } es estacionario si y solo si d=0. Si es el caso, entonces el proceso se reduce a un ARMA(p,q). Ejemplo VI.1.1. Supongamos que { X t } es un proceso ARIMA(1,1,0). Podemos escribir el modelo como:
Y1 Y2 Yn Yn
1
X1 X2 Xn Xn
X0 X1 Xn
1
X1 X2 Xn
Y1 Y2 Yn
1
X0 Y1 Yn Xn X0 Y1 Yn
1
X0
n 1
Xn
Xn
X0
j 1
Yj
Esto significa que, para predecir al proceso { X t } , primero podemos predecir el proceso {Yt } y agregar la observacin inicial. Esto es,
105
Pn X n o Pn X n
X0
j 1
PnY j
Pn ( X n
Yn 1 )
Xn
Pn Yn
(1 B ) d X t . Podemos reescribirlo
Xt
Yt
j 1
( 1) j
d j
Xt
De aqu que, el procedimiento de prediccin se puede generalizar, de modo que, para un proceso ARIMA(p,d,q), se tiene:
d
Pn X n
PnYn
h j 1
( 1) j
d j
Pn X n
h j
donde {Yt } es un proceso ARMA(p,q) causal. Con respecto al Error Cuadrado Medio. Tenemos que, para cualquier h:
d
Pn X n
Xn
PnYn
h j 1
( 1) j
d j
Pn X n
h j
Yn
h j 1
( 1) j
d j
Xn
h j
Pn X n
Xn
PnYn PnYn
1 j 1 1
( 1) j Yn
1
d j
Pn X n
1 j
Yn
1 j 1
( 1) j
d j
Xn
1 j
Por lo tanto,
E Pn X n
1
Xn
1
2 1
E PnYn
Yn
1
2 1
ECM X n
ECM Yn
Hemos llegado a una expresin que nos dice que, para h=1, el ECM de la prediccin de la observacin no estacionaria es igual al ECM de la estacionaria. Por otra parte, sabemos que, bajo el supuesto de causalidad en {Yt } ,
106
Zt
(1 B ) d X t
j 0
Zt
( B) Z t
Xt Xt
( B) Zt (1 B ) d
* j j 0
Zt
Note que, segn la expresin anterior, podemos expresar la serie no estacionaria como un proceso lineal en trminos de los coeficientes lineales de la serie estacionaria. Ejemplo VI.1.2. Consideremos los datos del ndice de Utilidad Dow Jones (del 28 de Agosto al 18 de Diciembre de 1972). El archivo es DOWJ.TXT. Recordemos que para esta serie de datos se tuvo que diferenciar una vez a distancia uno para tener una serie estacionaria. As mismo, se ajust un modelo AR(1) para los datos corregidos por la media (ver ejemplo V.1.1), teniendo como resultados aplicando Mxima Verosimilitud:
> media [1] 0.1336364 $var.pred: [,1] [1,] 0.1518409 Coefficients: AR : 0.4483 Variance-Covariance Matrix: ar(1) ar(1) 0.01051349
donde DOWJ es el Dataset con la serie del ndice de utilidad Dow Jones. Note que el ajuste anterior es para la serie X t el modelo para {Dt } es:
Dt Dt
1
0.1336 . En consecuencia,
107
Note que, de acuerdo a la definicin VI.1.1, {Dt} es un proceso ARIMA(1,1,0). Sabemos que para un proceso AR(1), el mejor predictor lineal est dado por h Yn . As, la prediccin para Dt+1 quedara como:
Xt Dt Dt
1
Pn Yn
0.0737 1.4483Dt
0.4483Dt
El ECM se obtiene de la misma manera que antes para un modelo AR(1). En este ejemplo se mostr la estrategia de prediccin para un modelo (sencillo) ARIMA(1,1,0); Sin embargo, el procedimiento es similar para modelos ms generales ARIMA(p,d,q). VI.1.1 Identificacin y estimacin de modelos Cuando tenemos una serie {Xt} con media cero (o corregida por la media), nos enfrentamos al problema de encontrar un modelo ARMA(p,q) que represente nuestra serie. Si los valores de p y q son conocidos, tenemos una gran ventaja. Sin embargo, no siempre es el caso, por lo que necesitamos de tcnicas que nos den una aproximacin de p y q. Como hemos comentado, nosotros basamos el criterio de seleccin de p y q en base al mnimo AICC, definido por:
AICC
2 ln(
, S(
) / n) 2( p q 1)n /( n
p q 2)
discutido en el captulo V. La estimacin e identificacin de modelos se resume en los siguientes pasos: 1. Despus de transformar nuestra serie (si es necesario) para tener una serie estacionaria, examine las grficas de las funciones FAC y PACF para tener una idea de los valores de p y q. Despus de esto, podemos obtener la estimacin preliminar por alguno de los mtodos descritos en el captulo V. 2. Cuando introduzcamos la funcin (en S-PLUS) de estimacin preliminar, ya sea por el algoritmo de Yule-Walker o Burg, debemos agregar la condicin aic=T. Esto nos garantizar modelos con p y q, tales que el AICC sea mnimo. Por ejemplo, debemos escribir: ar.burg(x, aic=T). 3. Examinar los valores de los coeficientes calculados y los errores estndar. Esto nos ayudar a concluir que algunos coeficientes son estadsticamente igual con cero. Si es
108
VI.2. MODELOS SARIMA Ya hemos visto que para eliminar el componente estacional de periodo s de una serie es necesario diferenciar, justamente, a distancia s. Si ajustamos un modelo ARMA(p,q) a la serie diferenciada a distancia s, entonces el modelo ajustado a la serie original es un caso de un proceso ARIMA estacional o tambin llamado SARIMA. Para tener una idea de qu es lo que estudiaremos en esta seccin, supongamos que tenemos mediciones mensuales de algn fenmeno. Es decir, tenemos una coleccin de 12 series por ao, a las cuales les podemos ajustar un modelo ARMA(p,q). Definicin VI.2.1. [Modelo SARIMA(p,d,q) x (P,D,Q)s].- Si d y D son enteros no-negativos, entonces { X t } es un proceso SARIMA(p,d,q) x (P,D,Q)s con periodo s, si la serie diferenciada
Yt (1 B) d (1 B s ) D X t es un proceso causal ARMA definido por:
( B) ( B s )Yt
*
( B) ( B s ) Z t ( B) Z t
( B)Yt
Supongamos que:
( B) 1 (B s ) 1 B , Bs , ( B) 1 (B s ) 1 B Bs
( B) ( B)
(1 (1
B)(1 B)(1
Bs ) 1 Bs ) 1
B B
Bs Bs
Bs Bs
1 1
Podemos ver que, la diferencia fundamental entre un modelo cualquiera estacional y un modelo SARIMA es la restriccin que existe en los parmetros del modelo y, adems, para varios valores de t los parmetros tienen un valor igual con cero. Los pasos para identificar un modelo SARIMA para un posible conjunto de datos son los siguientes:
109
2. Examinar las funciones de autocorrelacin y autocorrelacin parcial (ACF y PACF) muestrales de {Yt} a distancias que sean mltiplos de s para obtener una aproximacin de P y Q. Es decir, ( ks) , k=1,2, debe ser compatible con un modelo ARMA(P,Q). 3. Los valores de p y q se obtienen observando los valores de (1),..., ( s 1) , los cuales deben ser compatibles con los de un modelo ARMA(p,q). A continuacin, veremos un ejemplo con el cual se pretende explicar los tres pasos anteriores. Ejemplo VI.2.1. Consideremos el archivo DEATHS.TXT. Los datos presentan la siguiente grfica: Grfica27. Serie Muertes mensuales causadas por accidentes en USA de 19731978.
11000
10000
muertes
9000
8000
7000
10
20
30
40
50
60
70
Podemos ver que la serie presenta estacionalidad a distancia s=12. Por lo que diferenciamos una vez a esta distancia. Una vez eliminado el componente de estacionalidad, se tiene: Grfica28. Serie (1 B 12 ) X t , donde Xt es la serie de muertes causadas por accidentes.
500
muertes
-500
-1000
-1500
10
20
30
40
50
60
110
1000
500
muertes
-500
-1000
10
20
30
40
50
60
Las grficas de ACF y PACF muestrales de la serie {Yt} se obtienen adicionando a las instrucciones de arriba las lneas:
acf(x = deat.difDd,24, type = "correlation") acf(x = deat.difDd,24, type = "partial")
Series : deat.difDd
0.8
0.6
0.2
-0.2
-0.4
-0.3
0
-0.2
0.0
ACF 0.4
0.1
5 Lag
10
15
5 Lag
10
15
Autocorrelation matrix: lag deat.difDd lag 1 0 1.0000 13 2 1 -0.3558 14 3 2 -0.0987 15 4 3 0.0955 16 5 4 -0.1125 17 6 5 0.0415 18
111
0.333, (24) 0.0989, (36) 0.0126 sugieren un modelo Los valores (12) MA(1) para los datos anuales, pues despus de (12) , los valores de (ks) para k=2,3 son estadsticamente igual con cero. Es decir, P=0 y Q=1.
Por otra parte, (1) es el nico trmino de correlacin de los 11 primeros significativamente diferente de cero. Por lo que escogemos un modelo MA(1) para los datos mensuales. Es decir, p=0 y q=1. De acuerdo a lo anterior, tenemos que:
* *
( B) ( B)
(1 (1
B)(1 B)(1
B12 ) 1 B12 ) 1
B B
B12 Bs
B13 B13
Hemos visto, pues, que el modelo adecuado para la serie {Xt} corregida por la media es un proceso SARIMA(0,1,1) x (0,1,1)12. El ajuste se llev a cabo con el paquete R. Una vez que tenemos nuestros datos en un vector, usamos la funcin arima0. Es decir,
> deat [1] 9007 8106 8928 9137 10017 10826 11317 10744 9713 9938 9161 8927 [13] 7750 6981 8038 8422 8714 9512 10120 9823 8743 9129 8710 8680 [25] 8162 7306 8124 7870 9387 9556 10093 9620 8285 8433 8160 8034 [37] 7717 7461 7776 7925 8634 8945 10078 9179 8037 8488 7874 8647 [49] 7792 6957 7726 8106 8890 9299 10625 9302 8314 8850 8265 8796 [61] 7836 6892 7791 8129 9115 9434 10484 9827 9110 9070 8633 9240 > deatD<-diff(deat,12,1) > deatDd<-diff(deatD,1,1) > fit<-arima0(deat,order=c(0,1,1),seasonal=list(order=c(0,1,1),period=12),method="ML") > mean(deatDd) [1] 28.83051 > fit Call: arima0(x = deat, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1), period = 12), method = "ML") Coefficients: ma1 sma1 -0.4277 -0.5546 s.e. 0.1229 0.1715 sigma^2 estimated as 99797: log likelihood = -425.54, aic = 857.08
112
Xt
WN (0,99797)
Ejemplo VI.2.2. Consideremos el archivo VIAJEROS.TXt. Esta serie la vimos en el captulo 2, y recordemos que fue necesario diferenciar a distancia 12 y a distancia uno, es decir s=12, D=1 y d=1. Con lo que obtuvimos: Grfica31. Serie (1 B 12 )(1 B ) X t , donde Xt es la serie de viajeros.
1000
500
Viaj
0 -500
50
100
150
200
250
300
El paso siguiente es analizar las grficas de ACF y PACF para obtener los valores de P, Q, p y q. Las grficas son: Grfica32. ACF y PACF de (1 B 12 )(1 B ) X t , donde Xt es la serie de viajeros.
Series : viaj.difDd
1.0
Series : viaj.difDd
0.2 -0.4
0
0.0
-0.5
-0.3
-0.2
ACF
0.5
0.1
10 Lag
15
20
10 Lag
15
20
Las grficas anteriores las obtenemos, en S-PLUS, mediante: guiPlot(PlotType="Y Series Lines",DataSet="viajeros") viaj.difD<-diff(viajeros,12,1) guiPlot(PlotType="Y Series Lines",DataSet="viaj.difD") viaj.difDd<-diff(viaj.difD,1,1) guiPlot(PlotType="Y Series Lines",DataSet="viaj.difDd") acf(x = viaj.difDd,24, type = "correlation") acf(x = viaj.difDd,24, type = "partial")
113
Por lo que el modelo ajustado para la serie original es un proceso SARIMA(1,1,1) x (1,1,1)12, dado por:
12
Xt
Zt
WN (0,13377)
VI.2.1 Prediccin con Modelos SARIMA El proceso de prediccin en los procesos SARIMA es anlogo al presentado en los procesos ARIMA. El proceso consiste en desarrollar los binomios usados para volver estacionaria la serie. Es decir, desarrollar el trmino (1 B) d (1 B s ) D , el cual est dado por:
d
(1 B) d
k 0 D
d k j
(1 B s ) D
j 0
El producto de estas dos expresiones resulta un polinomio de orden Ds+d, que se puede expresar como un solo polinomio (B ) . Por lo que podemos escribir:
114
Yt
Yt aj Xt
j
Xt
j 1
Yt
donde el trmino aj expresa el producto de signos y combinatorias de los trminos dados en (VI.1) y (VI.2). Para t=n+h, despejando Xn+h, obtenemos:
Ds d
Xn
Yn
h j 1
aj Xn
h j
Pn X n
PnYn
h j 1
a j Pn X n
h j
Note que el primer trmino de la derecha es la prediccin de un proceso ARMA, el cual ya hemos estudiado en captulos anteriores. El segundo trmino se calcula recursivamente partiendo del resultado Pn X n 1 j X n 1 j , para j 1. Con respecto al ECM, tenemos que encontrar una expresin anloga a la que encontramos para el proceso ARIMA. Esto es, una expresin de la forma
* j j 0
Zt j .
Para esto, tal como lo hicimos para el proceso ARIMA, partimos de la igualdad:
( B s ) ( B)Yt ( B) ( B s ) Z t ( B) ( B s ) Z t
( B s ) ( B)(1 B) d (1 B s ) D X t Xt Xt
( B) ( B s ) Zt ( B s ) ( B)(1 B) d (1 B s ) D
*
( B) Z t
ECM ( X n h )
h 1 2 j 0 *2 j
115
( z) ( z s ) , ( z ) ( z )(1 z ) d (1 z s ) D
Ejemplo VI.2.2. Consideremos, nuevamente, el archivo DEATHS.TXT. Una vez ajustado el modelo como en el ejemplo V.2.1, podemos predecir los siguientes valores de la serie. En este ejemplo, vamos a estimar los siguientes seis valores (de la observacin 73 a la 78). Para esto, nuevamente usando el paquete R, usamos la funcin predict. As, adicionamos la lnea siguiente a las lneas con las que ajustamos el proceso del ejemplo V.2.1: > forecast<-predict(fit,n.ahead=6,se.fit=TRUE) > forecast $pred Time Series: Start = 73 End = 78 Frequency = 1 [1] 8336.999, 7533.183, 8317.035, 8589.337, 9490.938, 9860.644 $se Time Series: Start = 73 End = 78 Frequency = 1 [1] 315.8686 363.8916 406.2772 444.6406 479.9473 512.8289 En la primera lnea en negritas de los resultados se tienen las estimaciones y en la segunda su correspondiente raz del ECM. Al final del captulo aparece una tabla, extrada de [Box, Jenkins y Reinsel (1994)] en la que se resumen algunos modelos estacionales, junto con su funcin de autocovarianzas y algunas propiedades importantes. VI.3. REGRESIN CON ERRORES ARMA(p,q) Como tarea importante en la generalizacin de la tcnica de regresin tradicional, se presenta el caso donde los errores del modelo de regresin siguen un proceso ARMA(p,q), en vez de suponer que son independientes e idnticamente distribuidos (iid). Esta generalizacin es muy til ya que en muchos casos prcticos, la suposicin de independencia no se cumple. Enseguida daremos un breve resumen de las tcnicas de estimacin del Anlisis de Regresin.
116
Este mtodo consiste en escoger el valor de que minimice la suma de cuadrados de las desviaciones de las observaciones respecto a su valor esperado, es decir, el valor que minimiza:
N
[ yi
i 1
E ( y i )] 2
(Y
X )' (Y
X )
VI.3.2 Mnimos Cuadrados Generalizados (MCG) Cuando asumimos que conocemos la matriz de varianzas-covarianzas del vector de errores, es decir, suponemos Cov( ) V , podemos minimizar, respecto a , la cantidad:
(Y X )'V 1 (Y X )
En el Anlisis de Regresin Estadstico, generalmente, se supone que los errores son independientes e idnticamente distribuidos (iid). Sin embargo, en la prctica este supuesto no se cumple. Esto se puede corroborar examinando los residuales del modelo ajustado y su autocorrelacin muestral. Por lo anterior, una aplicacin del anlisis de Series de Tiempo en el Anlisis de Regresin es considerar que los errores {Wt} siguen un proceso causal ARMA(p,q) con media ( B) Z t , con Z t WN (0, 2 ) . cero dado por ( B)Wt Consideremos el modelo de regresin simple:
117
donde Y
(Y1 , Y2 ,..., Yn )' , X es la matriz diseo cuya i-sima hilera est dada por los valores
(1, xt1 , xtk ,..., xtk ) , k es el nmero de
variables explicatorias, es decir, X es de orden n x (k+1) y W (W1 ,W2 ,..., Wn )' es el vector de errores. Tambin, definimos los vectores de parmetros asociados al proceso {Wt}, ( 1 ,..., p ) y ( 1 ,..., q )' . El problema que abordaremos ser cmo estimar este modelo? Es decir, identificar el proceso que sigue {Wt} y estimar el vector de regresin, . Para esto, debemos recurrir a estrategias que nos permitan tener valores iniciales de los parmetros en cuestin. Tomemos como estimador inicial de
(0) (0) Y (0) W
Una vez que conocemos la primera estimacin de W , podemos conocer su matriz de varianzas-covarianzas. Sea n E[W 'W ] dicha matriz. As, se puede obtener la matriz de
( 0) covarianzas de , la cual est dada por:
( 0) COV ( )
(X ' X ) 1 X '
X (X ' X )
(0) Ahora, teniendo W , podemos identificar qu proceso sigue. Es decir, podemos ( B ) Z t , con Z t WN (0, 2 ) . ajustar un modelo de la forma ( B )Wt
El siguiente paso es refinar la estimacin del vector por el mtodo de MCG considerando que conocemos la matriz de covarianzas de los errores, n E[W 'W ] . As,
118
X) 1X ' (1) Y
1 n
(1) X
COV ( )
(1)
(X ' (X '
1 n 1 n
X) 1X '
1
1 n n n
X (X '
1 n
X)
X)
Cabe mencionar que para efectuar esta estimacin es necesario conocer los vectores y . Se puede mostrar que,
VAR(c
'
(1)
) VAR(c
'
( 0)
(1) (1) Usando se vuelven a estimar los residuales W , a los cuales se les ajusta un nuevo modelo ARMA(p,q) con el fin de refinar los vectores y . El proceso es iterativo y termina cuando los parmetros convergen.
Cabe destacar que el proceso ARMA(p,q) ajustado en cada iteracin i > 0 actualiza los valores de y del proceso inicial. Lo anterior se resume en el siguiente diagrama:
119
: Modelo Inicial.
(0)
con MCO.
( 0) W
(0) X
0)
(i 0)
(i 0)
implican
(i
1)
(X '
1 n
X) 1X '
1 n
(i W
1)
(i X
1)
Ejemplo VI.3.1. Consideremos la serie de 57 mediciones de la cantidad de gasolina en un tanque estacionario. El archivo es OSHORTS.TXT. El modelo propuesto para el stock de gasolina en el tanque es:
Yt Wt
Donde es interpretado como la merma diaria en el tanque de gasolina y {Wt} un proceso MA(1). Esto es, {Wt} cumple:
Wt Zt Zt 1 , Zt WN (0,
2
120
Cuadro3. Resumen del ejemplo regresin con errores ARMA. (i ) Iteracin i (i ) 1 2 3 4 0 - 4.0350877 - .8177 - 4.7449426 - .8475 -4.77992996 - .8475 -4.77992996
121
Coefficients: MA : 0.81763 Variance-Covariance Matrix: ma(1) ma(1) 0.005815465 Coefficients: (Intercept) resid -4.035088 1
VI.4. RAICES UNITARIAS EN SERIES DE TIEMPO El problema de las races unitarias surge cuando los polinomios Autorregresivos o de Promedio Mvil de un proceso ARMA tienen una raz igual con 1. Las consecuencias de este problema estriban en las diferenciaciones. Si encontramos que el polinomio Autorregresivo tiene una raz unitaria, entonces significa que la serie no es estacionaria y en consecuencia, requiere ser diferenciada; mientras que, si encontramos una raz unitaria en el polinomio de Promedio Mvil, significa que la serie est sobrediferenciada. VI.4.1 Races Unitarias en el polinomio Autorregresivo El grado de diferenciacin en una serie {Xt}, como vimos, est determinado por la aplicacin del operador de diferencia repetidamente hasta que la grfica de la funcin de autocorrelacin muestral de la serie diferenciada, ACF, decae rpidamente. De aqu que, el modelo ARIMA(p,d,q) tiene un polinomio autorregresivo con d races en el crculo unitario. En esta seccin discutiremos las pruebas bsicas de races unitarias para decidir si tenemos o no que diferenciar la serie. Supongamos que {Xt} sigue un proceso AR(1) con media , es decir:
Xt
1
(X t
) Zt , Zt
WN (0,
122
v.s
H1 :
Xt
* 0
Xt
* 1
1 1
Xt
Zt
(1
1
Note que esta representacin es anloga al modelo de anlisis de regresin expuesto en la seccin VI.3. En este caso, la variable dependiente es X t y la independiente es Xt-1. Si 1* es el estimador de MCO de muestral (EE) est dado por:
EE ( 1* )
* 1
S
n 1/ 2
(Xt
t 2
X)
donde
n
S2
t 2
Xt 1 n 1t
n
0*
1
1* X t
2 1
/( n 3)
Xt
2
Dickey y Fuller (1979), bajo el supuesto de raz unitaria, derivaron la distribucin asinttica (n grande) para la prueba de hiptesis propuesta. Dicha estadstica de prueba es la razn dada por: 1* EE ( 1* ) Los valores crticos para tres diferentes niveles de significancia se muestran en la tabla siguiente:
123
D/ F D/ F
Rechazar H 0 No Rechazar H 0
Note que es menos probable rechazar la hiptesis de raz unitaria usando la distribucin lmite de Dickey-Fuller que usando la aproximacin a la distribucin t-Student. El procedimiento de prueba anterior se puede extender al caso de un proceso AR(p) con media dado por:
Xt
(Xt
(Xt
) Zt ,
Zt
WN (0,
Siguiendo la misma idea que en el AR(1), el modelo AR(p) lo podemos escribir como:
Xt
* 0
* 1
* Xt 1 2 Xt donde :
* 0 * 1 i 1 p * j i 1
* p
Xt
)
p 1
Zt
(1
p i
1 , j 2,..., p
La prueba de raz unitaria, como en el AR(1), es equivalente a probar 1* 0 . La estadstica de prueba y la regla de decisin son las mismas que en el caso del proceso AR(1). Ejemplo VI.4.1. Consideremos la serie de datos del Lago Hurn. El archivo es LAKE.TXT. La grfica de esta serie se encuentra en la grfica22 y las grficas de las funciones de autocorrelacin y autocorrelacin parcial en la grfica23. La PACF muestral sugiere ajustar un modelo AR(2). Sin embargo, para ejemplificar la teora descrita, propondremos un modelo AR(1).
124
X t sobre Xt-1.
De acuerdo a la regla de decisin de Dickey Fuller, a un nivel de significancia del 1%, D / F0.01 (-2.94 -3.43) . Esto permite no se rechaza la hiptesis de raz unitaria, pues concluir que existe raz unitaria en el polinomio autorregresivo y esto, a su vez, implica que la serie no est suficientemente diferenciada, como lo mencionamos anteriormente en base a la grfica de la PACF muestral. Ntese, tambin, que si usamos la aproximacin a la distribucin t-Student, la hiptesis nula se rechazara al nivel de significancia del 1%, pues es mayor al pvalue=0.41%. Veamos ahora que pasa si proponemos un modelo AR(2). Esto implica llevar a cabo la regresin de X t sobre Xt-1 y X t 1 para t=3,,98. El procedimiento es similar al anterior con la novedad de que ahora se agrega una nueva variable independiente, a saber X t 1 . Cuadro6. Parmetros estimados de la regresin de
Coefficients: Value (Intercept) 1.9196 lake -0.2158 V1 0.2376 Std. Error 0.5023 0.0554 0.0971 t value 3.8217 -3.8977 2.4457 Pr(>|t|) 0.0002 0.0002 0.0163
X t sobre Xt-1 y
Xt 1.
donde: V1:= X t 1 ; lake:= Xt-1, t=3,,98. De los resultados podemos ver que:
0.21584 0.05538 3.9
125
En la presente, nos limitaremos al caso de races unitarias en procesos MA(1). Supongamos que {Xt} forma un proceso MA(1):
Xt Zt
1
Zt , Zt
IID (0,
Supongamos, tambin, la existencia de raz unitaria (z=1), por lo que el polinomio de promedio mvil z 1 0 implica que 1 . Esta ltima igualdad es, de hecho, la hiptesis por probar. Bajo esta hiptesis, [Davis y Dunsmuir (1995)] mostraron que n( +1), donde es el estimador de Mxima Verosimilitud de , tiene la propiedad de converger en distribucin. Lo anterior se resume en probar el juego de hiptesis:
H0 : 1 v.s H1 : 1
1 C /n 1 C /n
Rechazar H 0 No Rechazar H 0
donde C es el (1-) cuantil de la distribucin lmite de n( +1). Los valores crticos de esta distribucin se muestran en el siguiente cuadro para tres niveles de significancia, los cuales fueron extrados de la tabla 3.2 de [Davis, Chen y Dunsmuir (1995)]: Cuadro7. Valores crticos de la estadstica C. C 0.01 11.93 0.05 6.80 0.10 4.90
126
Rechazar la hiptesis de raz unitaria en el polinomio de promedio mvil. Ntese que en este ejemplo consideramos que la media es conocida. En la prctica, la prueba debe ser ajustada por el hecho de que la media tambin debe ser estimada.
127
Algunas caractersticas
(1 (1 (1
s 1
)(1
2
)
(a)
Xt s 3
(1 Zt
B)(1 Zt
1
B s )Z t Zt
s
)
s 1 s 1 s 1 s 1 s 1
Zt
s 1
s 1
s s 1
(b)
(1 Xt s 3
Bs )X t Xt
s
(1 Zt
B )(1 Zt
1
B s )Z t Zt
s
(1 1
)1 ( 1
( 1 )2
2
)2
2
Zt
(a) (b)
s 1 j
s 1 j s
s 1
,j
s 1
( 1 (1
s 1 j s 2
)2
2
( 1 s
3
)2
2
s 1 j
,j
2
2
s 2
Para s 4,
,...,
son cero
128
Xt
(1 Zt
2
B
1
B 2 )(1
2Zt 2 2
Bs
1Z t s 2
B 2s )Z t
1 1Z t 2s 1 s 1 2 2
0 1
(1
1
2 1
2 2 2
)(1
2 1 2 2 2 2
2 1 2 2
2 2
(a) (b) (c ) (d )
s 2 s 1 2s 2 2s 1
s 2 s 1 2s 2 2s 1
1Z t 1
(1 (1
1 1
)(1
2 1
Zt
s 2
Zt
2s
Zt
Zt
2s 2
2 s 2 s 1 s
s 1 s 2 2s 2 2s 1 2s 2s 1 2s 2
2 2 1
)
2 2
(1
2 2 1
) )
2 2 2 2
(1
)(1 )(1
(1
s 1 s 2 2 1 2 2 2
(1
2 1
)
2 2
(1
2s 1 2s 2
129
Algunas caractersticas
(a ) En general,
s 1 s 1 s 1 s 1
Xt s 3
(1 Zt
B Zt
1
Bs
s
s 1
B s 1 )Z t
s 1
0 1 s 1 s s 1
1
1 1 1
2 1 s s s 1 s 1
2 s s 1
2 s 1
Zt
Zt
s 1
(1 Xt s 3
Bs )X t Xt
s
(1 Zt
1 1
B Zt
1
Bs
s
s 1 s
B s 1 )Z t
s 1
1
1
2 1
( (
s
)2
2
(
1
s 1
Zt
Zt
1 )( 1
s 1
s 1 2
1 )
1 2
1 2
)2
(a ) (b)
s 1 j
s 1 j s
,j
s 1
( ( (
) )1
(
1
s 1
1 ( 1 )
1 s 2
) ( ( 1 )
s 1
1 2
s 1
1
s 2
s 1
s 1
)1 2
s 2
j s
,j
2
s
3
Para s
4,
,...,
son cero
130
EX t1
t
EX t 2
(t h, t )
Cov( X t h , X t )
cov( X t cov( X t
h ,1 h, 2
, X t1 ) , X t1 )
cov( X t cov( X t
h ,1
, X t2 ) , X t2 )
h, 2
Cuando la funcin vectorial promedio y la funcin matricial de covarianzas de la serie bivariada X t ( X t1 , X t 2 ) ' no depende de t, se dice que es estacionaria en sentido dbil, en cuyo caso usamos la notacin:
EX t1 EX t 2
y
( h) Cov( X t h , X t )
11 21
( h) ( h)
12 22
( h)
( h)
Note que los elementos de la diagonal de la matriz de covarianzas son las funciones de autocovarianzas univariadas de cada serie. Mientras que, los elementos fuera de la diagonal son las covarianzas cruzadas. Es decir: ii (h) Xi ( h) . Ms adelante enumeraremos algunas de las propiedades de (h ) para las series multivariadas. Ejemplo VII.1. Consideremos el archivo LS2.TXT. Los datos de la serie uno corresponden a ventas {Yt1, t=1,,150}; la segunda serie muestra un indicador de direccin de ventas, {Yt2, 131
260
13
240
12
indicador
220 200
ventas
11
10
30
55
80
105
130
155
30
55
80
105
130
155
num.datos 150 media.ventas 11.84673 media.indicador 229.978 desv.est.ventas 1.215853 desv.est.indic 21.47969
La grfica de las series muestra que ambas series son no estacionarias, por lo que es necesario diferenciarlas a distancia uno. La grfica resultante de las series diferenciadas {Dt1} y {Dt2} es: Grfica34. Serie (1 B) X t , donde X t es la serie bivariada: ventas e indicador de ventas.
4 0.5
vent.dif
0.0
ind.dif
0 -2 -4 5 30 55 80 105 130 155 5 30 55 80 105 130 155
-0.5
-1.0
Las instrucciones para hacer las grficas de las series diferenciadas son:
vent.dif<-diff(LS2$ventas,1,1) ind.dif<-diff(LS2$indicador,1,1) guiPlot(PlotType="Y Series Lines",DataSet="vent.dif") guiPlot(PlotType="Y Series Lines",DataSet="ind.dif")
Las grficas de autocorrelacin muestral y autocorrelacin cruzadas se obtienen mediante las instrucciones:
132
Grfica35. ACF y PACF de la serie (1 B) X t , donde X t es la serie bivariada: ventas e indicador de ventas.
Multivariate Series : ls2.dif
vent.dif
0.8 1.0
0.6
0.0
-0.4
10
20
30
40
-0.2
0
-0.1
0.0
0.1
10
20
30
40
ind.dif
0.4
ACF 0.2
0.0
-0.2
-0.4
-40
-30
-20 Lag
-10
-0.2
0
0.0
0.2
0.4
0.6
0.8
10
20 Lag
30
40
ij ( h) est graficada en la hilera i y columna j. Cabe mencionar que la interpretacin de las grficas de autocorrelacin cruzada se debe hacer con cuidado, ya que es fcil cometer errores en dicha interpretacin.
(h )
Consideremos un vector de dimensin m dado por X t ( X t1 , X t 2 ,..., X tm )' . Es decir, X t tiene observaciones de m series de tiempo estacionarias en el tiempo t. La matriz de Autocovarianzas, (h ) , tiene las siguientes propiedades: 1. 2. 3. 4.
( h)
ij
'
( h)
ii
( h)
(0)
jj
( 0)
1/ 2
i, j 1,..., m
ii
n j ,k 1
a j ( j k )a k
'
0 para todo n
1,2,... y a1 ,..., a n
Rm .
Demostracin. Para probar la primera propiedad basta con aplicar la definicin dada al inicio de este captulo. Para ejemplificar tal propiedad, supongamos h=1 y h=-1, tambin supongamos que la serie es bivariada. De aqu, 133
, X t1 ) , X t1 ) , X t1 ) , X t1 )
cov( X t cov( X t
1,1
, X t2 ) , X t2 ) , X t2 ) , X t2 ) (1)
11 21
(1) (1) ( 1) ( 1)
12
(1) (1)
12
1, 2
22
cov( X t cov( X t
1,1 1, 2
cov( X t cov( X t
1,1
11 21
( 1) ( 1)
11 12
(1) (1)
21 22
(1) (1)
1, 2
22
'
( 1)
De las igualdades anteriores, concluimos la primera propiedad. Para probar la segunda igualdad usamos la definicin de correlacin y el hecho de que esta no puede ser mayor a 1 en valor absoluto. Es decir:
ij
( h)
ii
ij
( h)
jj
(0)
(0)
1/ 2
ij
( h)
ii
(0)
jj
(0)
1/ 2
La tercera propiedad no es ms que una observacin de la diagonal de la matriz de autocovarianzas. Esto es, podemos ver que ii ( ) es la funcin de autocovarianzas de la serie estacionaria {Xti, i=1,,m}. Para probar la propiedad 4 consideremos la variable:
a1 ( X 1
'
) a2 (X 2
'
) an (X n
'
Var (W )
a j cov( X
j ,k 1
'
n j
) cov( X k
)a k
a j ( j k )a k
j ,k 1
'
La ltima expresin es la que nos interesa y es mayor o igual a cero ya que sabemos que, siendo una varianza, no puede ser un valor negativo. De esta forma, quedan probadas las cuatro propiedades de la matriz de Covarianzas. /// Definicin VII.1.1. [Ruido Blanco Multivariado].- El proceso {Z t } de dimensin m es llamado Ruido Blanco Multivariado con vector de medias cero y matriz de covarianzas si {Z t } es estacionario con vector promedio 0 y tiene matriz de covarianzas definida por:
( h)
134
si h 0m
de otro modo
Ntese que la definicin no indica independencia entre las componentes de {Z t } , sino entre las observaciones de {Z t } . Recordemos que en las series de tiempo univariadas definimos un proceso lineal a partir de la definicin de proceso de Ruido Blanco. Para el caso multivariado, tambin existe este concepto. La diferencia se halla en que ahora los coeficientes del proceso {Z t } son matrices. A continuacin damos la definicin de proceso lineal multivariado. Definicin VII.1.1. [Proceso Lineal Multivariado].- La serie m-variada {X t } es un proceso lineal si tiene la representacin:
Xt
j
Cj Zt
con Z t
WN (0, )
donde {Cj} es una secesin de matrices m x m cuyos componentes son absolutamente sumables. Esta definicin la usaremos ms adelante para introducir el concepto de causalidad en series multivariadas. Tambin, a partir de ella, se tiene el resultado siguiente, el cual nos ayuda a determinar la funcin de autocovarianzas (h ) para {X t } . RESULTADO VII.1.- Si {X t } es un proceso lineal de dimensin m, entonces escribir como:
(h ) se puede
( h)
j
Cj
C 'j
Cj Zt
con
Zt
COV ( X t h , X t )
COV
j 0
Cj Zt
h
h j
,
j 0
Cj Zt
COV C0 Z t
Ch Z t
, C0 Z t
Ch Z t
C j h COV ( Z t j , Z t j )C 'j
j 0
(h)
j 0
Cj
C 'j
Con lo queda demostrado el resultado. /// Ejemplo VII.1.1. Consideremos el modelo estacionario bivariado siguiente: X t con Z t WN (0, ) . Explcitamente, tenemos:
Xt
1
Zt
X t1 X t2
11 21
12 22
Xt Xt
1,1 1, 2
Z t1 Zt2
Encontremos una expresin de {X t } como proceso lineal. Esto se logra iterando el modelo como sigue:
Xt Xt
2 1
Zt
3
( Xt Zt 2)
Z t 1) Z t
1
2 3
Xt
2 2
Zt Zt
2
Zt Zt
1
( Xt
Zt
Zt
Xt
Zt
Xt
j 0
Zt
De esta forma, usando el resultado VII.1 podemos encontrar una expresin de la funcin de Covarianzas (h ) del proceso:
( h)
j 0
j h
'
VII.2. ESTIMACIN DEL VECTOR PROMEDIO Y LA FUNCIN DE COVARIANZAS En esta seccin introduciremos los estimadores de los componentes
j
ij
ij
de una
serie estacionaria m-variada {X t } . Tambin examinaremos las propiedades de los estimadores cuando se tienen muestras grandes. 136
Xt
t 1
X tj .
En seguida daremos un resultado que involucra la varianza del vector de medias, anlogo al resultado IV.1 para series univariadas. RESULTADO VII.2.- Si {X t } es una serie de tiempo estacionaria m-variada con vector promedio y funcin de covarianzas (h ) , entonces conforme n :
E( X n
y
nE ( X n
)' ( X n
)' ( X n
)
)
0,
m
si
( h)
ii
( n)
1 i
m,
ii h i 1
si
h
ii
( h) |
Bajo supuestos ms restrictivos, se puede mostrar que el proceso {X t } es distribuido aproximadamente Normal cuando el nmero de observaciones es suficientemente grande. Este hecho nos permite hacer inferencia sobre las medias de las series de tiempo. VII.2.2. Estimacin de la funcin de Covarianzas,
(h )
( h)
para -n 1 h
, i,j
1,...,m
137
Zt
k ,1
, {Z t1}
IID(0,
2 1
y X t2
k k
Zt
k ,2
, {Z t2 }
IID(0,
2 2
donde las secuencias {Z t1 } y {Z t 2 } son independientes. Entonces, para todo entero h y k con
n 12 ( h) y n 12 ( k ) se distribuyen, conjuntamente, h k , las variables aleatorias aproximadamente como Normal Bivariada con parmetros:
n 12 (h) n 12 (k )
0 0
11
( j)
22
22
( j)
j
11
( j)
11
22
(j
22
k ( j)
h)
,
j
11
( j)
(j
h)
j
( j)
Para llevar a cabo inferencia sobre las medias y las correlaciones debemos conocer sus propiedades distribucionales. Recordemos que en el caso univariado, para llevar a cabo inferencia sobre las autocorrelaciones, usamos la Frmula de Barttlet considerando un nmero de observaciones grande. En el caso multivariado existe una versin bivariada de esta frmula que enunciamos enseguida. RESULTADO VII.4.- (FRMULA DE BARTTLET BIVARIADA). Si {X t } es una serie de tiempo bivariada (Gaussiana) con covarianzas tales que
h
ij
( h) |
, i,j
1,2. Entonces:
[ -
11
( j) ( h)
22
(j ( j)
k
12 12
h) (j (j
2 11
12
(j
22 22 2 12
k) ( j)
21
( j h) ( j k)
12 12
11 11
k) h) ( j)
21 21
(k ) ( h)
( j)
( j)
( j h)
2 22
12
12
(k )
1 2
( j)
1 2
( j)
21
( j) ]
138
lim n
nVar 12 (h)
Con lo anterior, podemos establecer la hiptesis: H 0 : 12 (h) 0 . Tal hiptesis establece que las series estn no correlacionadas. La prueba de hiptesis se puede llevar a cabo con un intervalo de confianza usando aproximacin Normal. Tal prueba consiste en verificar si el valor cero se encuentra en el intervalo:
Xt
Xt
Zt
Zt
Zt
, donde Z t
WN (0, )
donde
, i 1,...,p
, j
Muchas veces usaremos la notacin simplificada siguiente del modelo ARMA, usando el operador B:
( B) X t
donde
( B)Z t
1
( B) 1
Bp y
( B) 1
Bq
139
Ejemplo VII.3.1. Sustituyendo p=1 y q=0 en la definicin VII.3.1, obtenemos el proceso AR(1) multivariado: Xt X t 1 Z t con Z t WN (0, ) . Como vimos en el ejemplo VII.1.1, podemos escribir tal proceso como proceso lineal:
Xt
j 0
Zt
z C tal que z
1.
El planteamiento anterior no es ms que el concepto de causalidad. En seguida exponemos formalmente tal concepto. Para modelos univariados definimos este concepto en la seccin III.6. Definicin VII.3.1. [Causalidad].- Un proceso ARMA(p,q) multivariado {X t } es causal o una funcin causal de {Z t } , si existen matrices { j } con componentes absolutamente sumables, tales que:
Xt
j 0
Zt
para todo t.
z C tal que z
1.
j k 1
j k
0,1,...
con
0 j j j
140
Z t . Note que
0 m para todo j y
0 m para j > 1.
0 1 2
I
1 1 0 1 1 2 0 2 1
j 1 j 1 2 j 2
j 1
Note que este resultado ya lo habamos encontrado en el ejemplo VII.1.1 por otra va. NOTA1: Consideremos el modelo AR(1) bivariado con:
0 0
12
Podemos verificar que j 0 m para j > 1 y por el resultado del ejemplo VII.3.2, se sigue que 0 m para j > 1. Sustituyendo { j } en la expresin de proceso lineal, llegamos a que: j
Xt
j 0 0 j
Zt
Zt
1
Zt
1
IZ t
Zt
Zt
Zt
Observe que esta expresin corresponde a un modelo MA(1). Hemos partido de un modelo AR(1) y llegamos a que tiene una representacin alternativa como MA(1). Este ejemplo muestra que no siempre es posible distinguir modelos ARMA multivariados de diferente orden. Este fenmeno de no-distincin entre modelos se conoce como Dualidad. Muchos autores evitan este problema enfocndose solo en modelos Autoregresivos. En el presente trabajo, adoptaremos este enfoque. VII.3.1. Funcin de Covarianzas de un proceso ARMA causal, (h ) Si suponemos causalidad en un modelo ARMA(p,q) m-variado sabemos, por la definicin VII.3.1, que: X t
j 0 j
Zt
} son calculadas de
141
( h)
j 0
j h
Cabe mencionar que esta expresin es fcil de aplicar cuando es sencillo encontrar las matrices { j } ; sin embargo, esto no siempre ocurre, por lo que se deben tener estrategias alternativas para calcular la funcin de Covarianzas. Una tcnica alternativa para calcular la funcin de Covarianzas consiste, como en el caso univariado, en resolver las ecuaciones multivariadas de Yule-Walker. El mtodo consiste en post-multiplicar ambos lados de la igualdad de la definicin de proceso ARMA ' multivariado dado en la definicin VII.3.1 por X t j y tomar valor esperado. El resultado se resume en la expresin siguiente (ecuaciones multivariadas):
p
( h)
r 1
(h r )
h r q
r h
, h
0,1,2,...
I y
(h ) , se tiene el sistema:
(1) ( 0) (1) ( p 1)
1
p p p
( p) ( p 1) ( p 2) ( 0) (1) 0m 0m 0m 0m
p p
( p)
Resolviendo las primeras p+1 ecuaciones tendremos la solucin de (0),..., ( p ) . El resto de ecuaciones nos permitir obtener ( p 1), ( p 2),... de forma recursiva. VII.4. EL MEJOR PREDICTOR LINEAL Sea
E( X t )
t
Xt
142
Xn
Pn X n
h n
A1 ( X n
A2 ( X n
n 1
) An ( X 1
Xn
Pn X n
Xn
1 i
, i 1,...,n
Un caso especial de lo anterior surge cuando nos enfrentamos a una serie que tiene como vector promedio al vector cero. En tal caso, el mejor predictor lineal de X n 1 en funcin de X 1 ,..., X n , est dado por:
Xn
1 n1
Xn
n2
Xn
nn
X1
1 i
nj
E Xn 1Xn
'
1 i
, i=1,,n
(n 1
j, n 1 i)
(n 1, n 1 i) , i 1,...,n
(i, j ) (i j ) , el
En el caso que X t ( X t1 , X t 2 ,...., X tm )' es estacionario con sistema de ecuaciones de prediccin anterior se reduce a:
n nj j 1
(i
j)
(i) , i 1,...,n
Los coeficientes {
nj
procedimiento es una versin multivariada del Algoritmo de Durbin-Levinson dado por Whittle (1963). Las ecuaciones recursivas de Whittle tambin permiten obtener el Error Cuadrado Medio de la prediccin (Matrices de covarianzas). Ver [Brockwell y Davis (1991)]. Ejemplo VII.4.1. Para que quede claro qu coeficientes debemos calcular en el predictor, supongamos un proceso bivariado estacionario con media cero y n=2. Estamos interesados en predecir la siguiente observacin, X 3 . En este caso, el mejor predictor lineal estara dado por:
X3 X 31 X 32 A1 X 2 a11 a 21 A2 X 1 a12 a 22
(1)
X 21 X 22
a11 a 21
a12 a 22
( 2)
X 11 X 12
143
Xt
Xt
Z t , donde Z t
WN (0, )
O bien,
Xt
1
Xt
Xt
Z t , donde Z t
WN (0, )
Entonces podemos aplicar el mtodo de Yule-Walker multivariado al proceso para ' obtener una estimacin preliminar. Es decir, post-multiplicamos por X t j para j=0,1,,p, y tomar el valor esperado. Obteniendo las ecuaciones:
p
(0)
j 1 p
( j) j) , i 1,...,p
(i )
j 1
(i
El procedimiento consiste en reemplazar las ( j ) por las ( j ) (estimadas) en las ltimas p ecuaciones y resolverlas simultneamente para as encontrar los estimadores 1 ,..., p . Luego, sustituirlos en la primera ecuacin y encontramos la matriz de covarianzas del ruido estimada, .
144
f (u 1 ,..., u n )
j 1
fu j
n 1/ 2
(2 )
nm / 2 j 1
Vj
exp
1 2
n j 1
u jV j 11 u j
'
Si suponemos que {X t } sigue un proceso AR(p) multivariado (vector promedio cero) { 1 ,..., p } y la matriz del Ruido Blanco, entonces con coeficientes las matrices podemos expresar la verosimilitud de las observaciones X 1 ,..., X n como:
n 1/ 2
L( , )
(2 )
nm / 2 j 1
Vj
exp
1 2
n j 1
U jV j 11U
'
La maximizacin de la verosimilitud multivariada resulta ms complicada que el caso univariado porque incluye un gran nmero de parmetros. Para el caso que estamos estudiando (procesos AR(p)), el Algoritmo de Whittle o de Burg multivariado (desarrollado por Jones (1978)) dan buenas estimaciones preliminares. Las opciones de estos algoritmos en el software S-PLUS las encontramos en las mismas funciones que utilizamos para el caso univariado. Es decir, con las funciones ar.burg(x, aic=T, order.max= ) o ar.yw(x, aic=T, order.max= ). La seleccin del orden de un modelo Autorregresivo multivariado (valor de p) se basa en la minimizacin del valor AICC, anlogo al caso univariado:
AICC 2 ln L(
1 ,..., p, )
2( pm 2 1)nm nm pm 2 2
145
dj
otro
0 50 100 150 200 250
-1
-1
-2
-2
-3
-3
0 50 100 150 200 250
Note que no es necesario diferenciar las series. La modelacin la haremos utilizando la funcin ar.yw(x, aic=T, order.max=<< >>) de S-PLUS. La opcin aic=T asegura seleccionar el modelo con mnimo valor de AICC. Las instrucciones para ajustar el modelo AR multivariado son:
djaopc<-rts(DJAOPC2) media.dj<-mean(djaopc$dj) media.otro<-mean(djaopc$otro) yw.djaopc<-ar.yw(djaopc, aic=T) media.dj media.otro yw.djaopc
y los resultados:
> media.dj [1] 0.02950966 > media.otro [1] 0.03088796 > yw.djaopc $order: [1] 1 $ar: , , 1 [,1] [,2] [1,] -0.01483796 0.6588984 , , 2 [,1] [,2] [1,] 0.0357319 0.09976267
146
X t1 X t2 X t1 X t2 X t1 X t2 donde Z t1 Zt2
0.0295 0.0309
Z t1 Zt2 Z t1 Zt2
1,1 1, 2
1,1 1,1
0.0357 X t 0.0997 X t
1, 2 1, 2
WN
De la matriz 1 podemos observar que el ndice Dow Jones ayuda mucho en la prediccin del rendimiento del ndice alternativo (0.6589); Mientras que el ndice alternativo no es muy significante en la prediccin del Dow Jones (0.0357). Ejemplo VII.5.2 Consideremos la serie de datos LS2.TXT. Esta serie la vimos en el ejemplo VII.1). Como vimos en el ejemplo VII.1, la serie es no-estacionaria, por lo que es necesario diferenciar a distancia 1. Una vez diferenciada la serie (estacionaria) ya podemos ajustar un modelo a los datos. Como en el ejemplo anterior, usaremos la misma funcin de S-PLUS para ajustar el modelo autorregresivo a la serie diferenciada y corregida por la media con mnimo AICC. Las instrucciones son:
vent.dif<-diff(LS2$ventas,1,1) ind.dif<-diff(LS2$indicador,1,1) ls2.dif<-cbind(vent.dif,ind.dif) media.vent.dif<-mean(vent.dif) media.ind.dif<-mean(ind.dif) yw.ls2.dif<-ar.yw(ls2.dif, aic=T) media.vent.dif media.ind.dif yw.ls2.dif acf(yw.ls2.dif$resid)
Obteniendo: 147
Las matrices del modelo autorregresivo son: PHI(1) -.517043 .024092 -.019088 -.050621 PHI(4) -.031762 -.008763 3.664346 .004438 PHI(2) -.191955 -.017620 .046840 .249683 PHI(5) .021493 1.300103 PHI(3) -.073332 .010014 4.677751 .206463
.011382 .029280
El ajuste usando el Algoritmo de Burg da como resultado un modelo AR(8). Sin embargo el valor del AICC es prcticamente el mismo que el obtenido por el Algoritmo de Yule-Walker. Como mencionamos antes, no existe unicidad en el ajuste de modelos para los mismos datos usando diferentes algoritmos. La grfica de la ACF y PACF de los residuales es resultado de la lnea:
acf(yw.ls2.dif$resid)
La grfica muestra que el ajuste es bueno, pues todas las correlaciones caen dentro de las bandas de confianza 1.96 / n , n=150. 148
0.8
0.6
0.2
ACF 0.4
-0.2
0.0
10
15
-0.1
0
0.0
0.1
10
15
ind.dif
0.10
ACF 0.0
0.05
-0.05
-0.15
-15
-10
Lag
-5
-0.2
0
0.0
0.2
0.4
0.6
0.8
Lag
10
15
VII.5.3. Pronstico con modelos Autoregresivos Multivariados Una vez que hemos ajustado un modelo multivariado a nuestros datos, podemos llevar a cabo la prediccin de observaciones futuras (pronstico) usando el mejor predictor lineal. y funcin de Covarianzas Supongamos una serie {X t } estacionaria con vector promedio (h ) . El Algoritmo de Whittle determina las matrices coeficiente { nj } en la expresin:
Xn
1 n1
(X n
n2
(X n
nn
(X 1
Xn
Las { matrices .
j
Xn
Xn
Xn
1 p
} para j > p son cero porque el modelo requiere, por definicin, solo de p
Para verificar que esto es suficiente, basta con observar que el error de prediccin
Xn
Xn
Xn
Xn
Xn
Xn
1 p
Zn
es ortogonal a X 1 ,..., X n , es decir, se cumple la condicin de ortogonalidad pedida en el algoritmo de Whittle. De esta forma, es claro que la matriz de covarianzas del error de prediccin es :
149
Xn
Xn
Xn
' 1
E Z n 1Z n
'
El clculo de la prediccin a distancia h teniendo n observaciones, X 1 ,..., X n , consiste en aplicar el mismo proceso recursivamente. Esto es, se obtiene el predictor de X n k para k=1,,h. Con esto obtenemos:
Xn
Xn
h 1
Xn
h 1
Xn
h p
En este caso, el ECM se calcula usando el hecho de que {X t } se puede expresar como proceso lineal. Es decir:
Xn
donde las matrices {
h j 0
Zn
h j
Pn X n
h j 0
Pn Z n
h j j h
Zn
h j
Para calcular el error de prediccin a distancia h, hacemos la resta de las expresiones anteriores:
h 1
Xn
Pn X n
h j 0
jZn
h j j h
jZn
h j j 0
Zn
h j
Con esta ltima expresin resulta ms fcil calcular el Error Cuadrado Medio de la prediccin a distancia h. Adems, sabemos que {Z t } forma un proceso de Ruido Blanco, por lo que las observaciones estn no-correlacionadas:
' h h 1 h 1 j j 0 0 0 ' j j 0 ' 0 ' h 1
E Xn
Pn X n
Xn
Pn X n
Zn
h j
Zn
h j
COV ( Z n h , Z n h )
' 0
h 1
COV ( Z n 1 , Z n 1 )
' h 1
h 1
Pn X n
Xn
Pn X n
' h
h 1 j j 0 ' j
150
El modelo ajustado fue un AR(5). Las matrices 1 ,..., 5 , fueron calculadas en el ejemplo VII.5.2. Podemos predecir las siguientes dos observaciones de {X t } en base a las expresiones obtenidas en la seccin VII.5.2, h=1,2:
X 150 X 151 X 149 X 150 X 145 X 146 0.163 0.217 0.027 0.816
Note que en la prediccin de X 151 usamos el valor predicho de X 150 . La matriz de covarianzas , encontrada en el ejemplo VII.5.2, es:
$var.pred: [,1] [,2] [1,] 0.082490996 -0.002794969 [2,] -0.002794971 0.103457905
h 1
ECM 1
j 0
' j
' 0
0.0825 - 0.00279
2 1
- 0.00279 0.10345
0 ' 0 1 ' 1 1 ' 1
ECM 2
j 0
' j
0.096 - 0.002
- 0.002 0.095
El procedimiento de pronstico con el software ITSM consiste en: una vez ajustado el modelo apropiado a la coleccin de datos, seleccionar la secuencia Forecasting>AR Model. 151
152
Gt X t Ft X t
Wt Vt ,
t t
1,2,... 1,2,...
donde : Y t : serie de datos de dimensin w X t : variable de dimensin v Wt Vt WN (0, {Rt }) WN (0, {Qt })
s,t
En muchos casos particulares, como en los modelos ARMA(p,q), se asume que las matrices Gt, Ft, Rt y Qt no dependen del tiempo en que se observan. En ese caso, no es necesario el subndice t. Definicin VIII.1.1. [Representacin espacio-estado].- Una serie de tiempo {Y t , t 1,2,...} tiene una representacin espacio-estado si existe un modelo espacio-estado para la serie dado por las ecuaciones generales de observacin y estado.
153
Yt
Zt
Zt
(Ecuacin de estado)
(Ecuacin de observacin) y Qt
2
Ejemplo VIII.1.2. Consideremos el modelo ARMA(1,1) causal univariado dado por: Yt Yt 1 Z t 1 Z t con {Z t } WN (0, 2 ) . Veamos si se puede representar como un modelo espacio-estado. Consideremos la variable de estado {X t } dada por:
Xt Xt
1
0 1 Xt 0 Xt
0 Zt
1
(Ecuacin de estado)
Yt
Xt Xt
(Ecuacin de observacin)
Yt Xt
1
Xt Xt Xt
1
1 Zt
0 1 Xt 0 Xt
2 1
0 Zt
Xt Xt
1
Zt
En conclusin, el modelo ARMA(1,1) se puede representar como un modelo espacioestado. Ejemplo VIII.1.3. Consideremos el modelo MA(1) causal univariado dado por: Yt
2
Yt
Zt
con {Z t } WN (0, ) . La representacin de este modelo en forma espacio-estado consiste en considerar la ecuacin de estado:
154
1 Zt 0 Zt
1
(Ecuacin de estado)
Yt
1 0
Xt Xt
(Ecuacin de observacin)
sustituyendo, llegamos a:
Yt
1 0 Zt
1
Xt Xt
1 0
1 Zt 0 Zt
1 0
Zt
Zt
Zt
Zt
La igualdad permite concluir que el modelo MA(1) tiene una representacin como modelo espacio-estado. Ms adelante veremos la representacin de modelos generales ARIMA como modelos espacio-estado. NOTA1: La representacin de los modelos ARMA(p,q) como modelos espacio-estado no es nica. El lector puede comprobarlo proponiendo diferentes matrices en las ecuaciones generales del modelo espacio-estado en los ejemplos anteriores. VIII.2. EL MODELO ESTRUCTURAL BSICO El concepto de modelo estructural estriba en que, en su definicin, sus componentes pueden ser modelados mediante un proceso propio. Un ejemplo de estos modelos es nuestro modelo clsico de series de tiempo, el cual est definido por tres componentes, que son tendencia, estacionaridad y ruido. Considerar como deterministicos los componentes de tendencia y estacionaridad, en la descomposicin del modelo, restringe la aplicacin de dichos modelos. As, se justifica que permitiremos que los componentes mencionados se modelen mediante un proceso aleatorio propio. Para entrar en materia de lo que es un modelo estructural, consideremos el siguiente ejemplo. Ejemplo VIII.2.1. Consideremos el proceso de Caminata Aleatoria con un componente de ruido, dado por:
Yt Mt Mt Wt , {Wt } WN(0,
2 w
)
2 V
donde
1
Mt
Vt , {Vt }
WN(0,
155
Mt Wt
Wt Wt
1
Mt
Wt
(M t
M t 1 ) Wt
Wt
Podemos ver que las diferenciaciones son una suma de ruidos y por propiedad de este proceso, tambin es un proceso de ruido y, adems, estacionario. Tal proceso (de las diferenciaciones) tiene como funcin de autocovarianzas y autocorrelacin dadas por:
2
D 2 W 2 W 2 V
para h para h
0 2
( h) 0
para h 1
2 W D
( h)
2 W
2 V
para h 1 para h 2
Para llegar a las expresiones anteriores basta aplicar la definicin de funcin de autocovarianzas y el hecho de que las series {Wt } y {Vt } son no correlacionadas para todo t. Esto es:
D
( h)
Cov(Vt Wt
Wt
Wt 1 , Vt Wt
h 1
Wt
Wt
h 1
h o Cov(Vt
Wt 1 , Vt
Wt 1 )
2 W
h 1 Cov(Vt
1
Wt
Wt 1 , Vt
Wt
Wt )
Cov(Wt )
2 W
Dado que {Dt} est correlacionado solo a distancia uno, podemos concluir que forma un proceso MA(1). En consecuencia, {Yt} forma un proceso ARIMA(0,1,1). El modelo anterior lo podemos extender agregando un componente de tendencia. Esto es, considerar el modelo:
156
)
2 V
Mt Bt
Mt Bt
1
Bt Ut
1
Vt -1 , {Vt } , {U t }
WN(0, WN(0,
) )
el
2 U
Para expresar el modelo anterior como modelo espacio-estado, consideremos vector X t ( M t Bt )' . Entonces:
Yt 1 0 Xt Wt
(Ecuacin de observacin)
donde
Xt
Mt
1
1 1
1 1 Mt 0 1 Bt
Vt Ut
1 1
Bt
(Ecuacin de estado)
Suponiendo que las variables involucradas en esta representacin estn no correlacionadas, las ecuaciones anteriores constituyen la representacin espacio-estado de la serie {Yt}. Recordemos que la serie {Yt} representa datos con componente de tendencia aleatorio ms un componente de ruido. Ejemplo VIII.2.2. Hemos representado un modelo con tendencia aleatoria en forma de modelo espacio-estado. El paso siguiente es llevar a cabo esta representacin, pero ahora de un modelo con componente estacional aleatorio. De la definicin de estacionalidad de periodo d, se cumple st=st+d y s1++sd=0. El modelo en cuestin es:
Yt st
st
Wt , {Wt } st st
WN(0,
2 w
donde
1 1
st
d 2
Yt
Yt
d 2
St
1,2,...
Para encontrar la representacin espacio-estado de {Yt} introduciremos el vector X t siguiente: X t (Yt , Yt 1 ,..., Yt d 2 )' . As:
157
(Ecuacin de observacin)
donde
1 1 Xt 0 0 1 0 1 0 -1 0 0 1 1 0 0 Xt 0
1
St 0 0 0
(Ecuacin de estado)
Por tanto, el modelo clsico con componente estacional aleatorio, tambin se puede representar como modelo espacio-estado. La pregunta que surge en este momento es se puede representar como modelo espacio-estado el modelo estructural bsico? Es decir, podemos representar el modelo clsico como modelo espacio-estado si incluimos componentes de tendencia y estacionalidad aleatorios? La respuesta es s. Solo basta agrupar las ecuaciones de estado de los ejemplos anteriores (VIII.2.1 y VIII.2.2). Para ms detalles ver [Brockwell y Davis (2002) pp. 267].
VIII.3. REPRESENTACIN ESPACIO-ESTADO DE MODELOS ARMA En ejemplos anteriores representamos modelos ARMA especficos como el AR(1), el MA(1) y el ARMA(1,1). En esta seccin generalizaremos la representacin para el modelo general ARMA(p,q). Como mencionamos en la NOTA1, la representacin espacio-estado no es nica. Aqu presentamos una de ellas para un proceso ARMA(p,q) causal. Consideremos el proceso ARMA(p,q) causal definido por:
( B)Yt ( B) Z t donde {Z t } WN (0,
j
2
Sean r=max(p,q+1);
=0 para j > p;
( B) X t . Esta conclusin se recoge del causal AR(p) dado por ( B) X t Z t , entonces Yt ( B) ( B) X t ( B) ( B) X t ( B) Z t . Es decir, si sustituimos hecho de que: ( B)Yt Yt ( B) X t , se satisface el modelo ARMA(p,q) original.
En consecuencia, apoyndonos del ejemplo VIII.1.2 [representacin para el modelo ARMA(1,1)], tenemos la representacin espacio-estado del modelo ARMA(p,q):
158
1Xt
(Ecuacin de observacin)
donde
Xt Xt Xt
1 r 2 r 1
0 0 0
1 0 0
r 1
0 1 0
r 2
0 0 1
1
Xt Xt Xt Xt
r 1 r
0 0
Xt Xt
1
(Ecuacin de estado)
0 Zt
1
Se puede probar que usando esta expresin, la representacin del modelo ARMA(1,1) es la misma que encontramos en el ejemplo VII.1.2. Existe una forma general para representar a los modelos ARIMA(p,d,q) como modelos espacio-estado. Est basada, esencialmente, en el hecho de que la serie diferenciada a distancia d sigue un proceso ARMA(p,q), la cual ya expresamos arriba. Para ms detalles, ver [Brockwell y Davis (2002) pp.269-271]. VIII.4. RECURSIONES KALMAN Los principales problemas que enfrentan los modelos espacio-estado definidos en la seccin VIII.1 son tres. Todos ellos consisten en encontrar el mejor predictor lineal del vector de estado X t en trminos de las observaciones Y 1 , Y 2 ,... y un vector aleatorio Y 0 ortogonal a V t y W t . Las estimaciones de inters de X t son las siguientes: Prediccin: Pt 1 X t Filtrado: Pt X t Suavizacin: Pn X t , n > t. Los tres problemas pueden ser resueltos usando, apropiadamente, un conjunto de recursiones. Tales recursiones se conocen como recursiones de Kalman. Definicin VIII.1.1. [Mejor predictor lineal].( X 1 ,..., X v )' se define el mejor predictor lineal como:
Pt ( X ) ( Pt ( X 1 ),..., Pt ( X V ))'
Para
el
vector
aleatorio
donde Pt ( X i ) P( X i | Y 0 , Y 1 ,..., Y t ) es el mejor predictor lineal de X i en trminos de todos los componentes Y 0 , Y 1 ,..., Y t . El mejor predictor lineal de la definicin tiene, bajo ciertas restricciones, las siguientes propiedades: 159
P( X | Y )
3. donde
MY
Con la definicin y las propiedades, enunciamos en seguida el algoritmo de prediccin de Kalman. RESULTADO VIII.1.- [Prediccin de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces los predictores a un paso X t Pt 1 ( X t ) y sus matrices de error condicin inicial:
t
E[( X t
X t )( X t
X1
P( X 1 | Y 0 ) con
E[( X 1
X 1 )( X 1
X 1 )' ]
Ft X t Ft Gt Ft
t
(Y t
t
Gt X t )
t ' t
t 1
Ft '
Qt Rt
donde
t t t t
Gt' Gt'
t
es la inversa generalizada de
Demostracin. Para llevar a cabo la demostracin haremos uso del concepto de innovaciones, I t , con I 1 y I t Y t Pt 1 Y t Y t Gt X t Gt ( X t X t ) W t t 1,2,... Por otra parte, se tiene la igualdad Pt ( ) enunciadas arriba, encontramos que:
Y0
160
Pt 1 ( X t 1 ) P( X t 1 | I t ) Pt 1 ( Ft X t Ft X t Ft X t Vt) MIt
t t
donde M It
E[ X t 1 I t ]E[ I t I t ] -
'
'
Ft Pt 1 ( X t ) Pt 1 (V t )
t t t t
donde t E[ X t 1 I t ] Ft t Gt'
t
'
E Ft X t
Ft E[( X t )( X t
X t )' ]Gt'
E[ I t I t ] Gt E[( X t Gt
t
'
E Gt ( X t X t )( X t Rt
X t ) W t (X t X t )' ]Gt'
X t ) ' Gt'
'
Wt
'
E (W t W t )
Gt'
Para encontrar el error cuadrado medio para t > 1, basta con aplicar la definicin de la matriz de error. Esto es:
t 1
E Xt
1 '
Xt
1
Xt
Xt
1
' 1
E Xt 1Xt E Ft X t E Ft X t Ft Ft '
t
' E Xt 1Xt Vt
' ' '
V t Ft X t
'
'
E Ft X t E Ft X t
t
t t
I t Ft X t It
' ' t
t t
It
' t
'
V t X t Ft ' V t E V tV t
t
t
' I t X t Ft '
t t
Ft E X t X t Ft '
t
' Ft E X t X t Ft '
Qt
y
' t
Las matrices
Para llevar a cabo la prediccin a distancia h usaremos la prediccin de Kalman a un paso. Como veremos, la prediccin consiste en aplicar recursivamente las propiedades del mejor predictor lineal y la ecuacin de estado definida en la representacin espacio-estado original. Pt X t h Pt Ft h 1 X t h 1 V t h 1
Ft Ft Ft Ft
h 1 h 1 t h 1 t h 1
P Xt P ( Ft Ft
h 2
h 1 h 2
Pt V t Xt
h 2 h 2
h 1
Ft
h 2
h 1 t
P Xt
h 1
Vt )
Pt ( X t
Ft
h 2
Ft 1 Pt ( X t 1 )
161
Ft
h 1
Ft
h 2
Ft
Ft X t
(Y t
Gt X t )
Pt Gt h X t
Wt
Gt h Pt X t
Pt X t
Ft Ft
h 1 h 1
Xt Xt
h 1 h 1
Vt
h 1
Ft
h 1
h 1 t
P Xt
h 1
h 1
Pt X t
Vt
'
(h) t
E Xt E Ft Ft
h 1
Pt X t Xt
h 1 h 1
Xt Pt X t
h h 1 h 1
Pt X t Vt Xt
(h) t
h h 1
h 1
Ft
h 1
Xt
'
h 1
Pt X t
1
h 1 h 1
Vt Vt
'
' h 1
E Xt
Pt X t
h 1
Pt X t
h 1
h 1
Ft ' h
1
EVt
h 1
h 1
Ft
( h 1) t
Ft ' h
Qt
(1) t
El proceso se aplica recursivamente para h=2,3, partiendo de la igualdad inicial t 1 . Adems, para la variable de observacin se tiene:
Pt Y t
h
Yt
Gt h X t Gt
h
h h
Wt
h h
Gt h Pt X t Wt
' h h h
Xt
Pt X t
(h) t
E Yt E Gt
h h
Pt Y t Xt
h h
Yt
h h h
Pt Y t Wt Xt
h
Pt X t Pt X t
Gt Pt X t
h h
Xt
'
h h
Pt X t
Wt
' h
' h
Gt h E X t
Gt'
h
E W t hW t
(h) t
(h) t
Gt
Gt'
Rt
Con esto terminamos la solucin del problema de prediccin de Kalman. RESULTADO VIII.2.- [Filtrado de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces las estimaciones filtradas X t / t Pt ( X t ) y sus matrices de error t / t E[( X t X t / t )( X t X t / t )' ] estn determinadas por la relacin:
162
Gt'
(Y t
Gt X t )
con
t /t t t
Gt'
Gt
' t
, la inversa generalizada de
,y
Y0
Pt 1 ( ) P( | I t ) . De esta forma:
X t /t
Pt ( X t ) Pt 1 ( X t ) P( X t | I t ) Pt 1 ( X t ) M I t
donde M E[ X t I t ]E[ I t I t ]E X t Gt ( X t E X t (X t E X t (X t
t ' '
Xt) Wt Xt) G
' ' ' t ' t
' t ' t t
W
t
Xt) G
' t
163
E Xt E Xt E Xt
t /t t /t t /t
Pt 1 X t X t Pt X t
'
Pt 1 X t Pt X t Gt
' t '
'
MIt X t
Pt X t
MIt
'
'
Pt X t X t ME[ I t I t ]M '
t t
E M It ItM '
Gt' Gt'
t t
Gt Gt
' t
t /t
Gt'
' t
De esta forma queda demostrada la proposicin del filtrado de Kalman. /// Por ltimo, presentaremos la tcnica de suavizacin. El concepto de suavizacin radica en sustituir observaciones aberrantes en un conjunto de datos por otra estimacin suave basada en las n observaciones. RESULTADO VIII.3 [Suavizacin de Kalman].- Considere el modelo espacio-estado de la seccin VIII.1. Es decir, supongamos que Y t Gt X t W t con X t 1 Ft X t V t donde W t WN (0,{Rt }) y V t WN (0,{Qt }) . Entonces las estimaciones suavizadas X t / n Pn ( X t ) y sus matrices de error t / n E[( X t X t / n )( X t X t / n )' ] estn determinadas, para un t fijo, por las recursiones, las cuales pueden resolverse sucesivamente para n=t, t+1,:
X t/n
Pn 1 ( X t )
Fn
t ,n
' Gn
(Y n
Gt
n '
Gn X t )
con
t ,n 1 t/n t ,n n t ,n ' Gn t
t/n 1
Gn
' t ,n
Pt 1 X t
t ,t
Xt
t /t 1 t
, la inversa generalizada de
,y
1,2,... y Pt ( )
Pt 1 ( ) P( | I t )
164
X n) W n
' ' n ' n
' n n
X n) G
'
W
n
' n
X n) G
' t
con
t ,n
E Xt
Xt Xn
Xn
'
Para encontrar la segunda expresin de la estimacin de suavizacin partimos de la ecuacin de estado y de la expresin del predictor de Kalman. Esto es:
Xn & Xn Xn
1
Fn X n Fn X n Xn
1
Vn In Xn In Vn
Fn X n
t ,n 1
E Xt E Xt E Xt E Xt E Xt
t ,n t ,n
Xt Xn
Xn
' 1 '
X t Fn ( X n Xt Xn Xt Xn
' Xt Wn ( t ,n t ,n
X n)
In
Vn Xt
E Xt E Xt E Xt 0(
n n
(Gn ( X n ' Xn (
n
X n) W n) V n
n
'
Xt Xn
' Xt Vn
Gn ) '
)'
Fn' Fn' Fn
( (
n n
n n
Gn ) ' Gn ) '
)'
t ,n 1
t ,n
Gn
'
Solo nos resta encontrar la expresin para la matriz de error. Para ello utilizamos la expresin:
165
MI n Pn 1 X t MIn Pn X t
'
Xt
t/n
Pn X t X t Pn 1 X t
'
MIn Xt Pn 1 X t Gn
' t ,n
Pn 1 X t
'
MIn
'
'
Pn 1 X t X t ME[ I n I n ]M '
t ,n t ,n ' Gn ' Gn n n n
E M I n I nM '
Gn Gn
' t ,n
t/n
t/n 1
t ,n
' Gn
' t ,n
As, queda demostrado el resultado de suavizacin de Kalman. /// El siguiente ejemplo ilustra la forma iterativa en que funciona la suavizacin de Kalman. Como veremos, no solo haremos uso del resultado VIII.3, sino, en general, de los tres resultados de las recursiones Kalman. Ejemplo VIII.4.1. Consideremos el modelo AR(1). Supongamos 5 observaciones y1, y2, y3, y4 y y5 y suavizaremos la observacin 2. El modelo espacio-estado para este proceso, como vimos en el ejemplo VIII.1.1, est dado por:
Yt Xt Xt Xt
1
Zt ,
2
Con {Z t } WN (0,
Pero dado que no contamos con informacin completa, es decir, no utilizaremos la observacin 2, planteamos el modelo:
Yt* Xt
Gt* X t Xt
1
Wt* Zt
166
2 2 2 2
0 si t 1 si t
E( X 1 X 1 )
(0)
/(1
As,
2 1 2 2
F1 F1 F2 F2 F3
1G1
1 Q1
,
1 1
G1
2 2
1G1
R1
2 2
1
2 2
,
2
1 F1
1 2
1
2 2 2
1 G2
2 2
2 3 3
2 2 3
G2 F2 Q2 [
2
0
2 2
0,
1 2 2
G2
R2 G3
1, R3
2 2 2
G3
],
G3
2, 2 2,3 2, 4 2,5
2 2, 2 2,3
[ F2 [ F3
2 3
1 2 1 3
G2 ]
[
2
0] [ ] 0
G3 ]
0
2
G2 G3 G4
1 2 1 3
G2 G3 G4
2 2, 2 2 2,3 2 2, 4
0
2 4 2
2,3 2, 4 2
/(
2 2
)
2
/(
1)
1 4
/(
1) 0
/(
1)
/(
1)
167
G1 G2 G3 G4 G5
1 1
G1 X 1 ) G2 X 2 ) G3 X 3 ) G4 X 4 ) G5 X 5 )
0 Y1 Y1 Y1 Y1
(Y1 0
0) Y1
2
Y1 0) /(
2 2 2 2 2
2, 2
1 2 1 3 1 4 1 5
2,3 2, 4 2,5
(Y3
Y1 Y3 /(
2
Y3 /( 1)
1)
Y3 /( Y3 /(
1) 0 1)
Y1
1)
/(
1)
VIII.5. EL ALGORITMO EM El algoritmo de Esperanza-Maximizacin (EM), propuesto por [Dempster, Laird y Rubin (1977)] es un procedimiento iterativo til para calcular estimadores de mxima verosimilitud cuando contamos slo con una parte disponible de la coleccin de datos, por ejemplo, cuando existen datos perdidos. La construccin y convergencia del algoritmo se pueden consultar en [Wu (1983)]. Denotemos por Y al vector de datos observados, por X al vector de datos noobservados y a W Y X como el vector de datos completos. A manera de analoga con los modelos espacio-estado, podemos decir que Y consiste de los vectores observados Y 1 ,..., Y n y X de los vectores de estado (no observables) X 1 ,..., X n . Los datos X pueden considerarse como una variable aleatoria cuya distribucin de probabilidad depende de los parmetros que deseamos estimar y de los datos observados Y . Dado que W depende de X , es a su vez, una variable aleatoria. Cada iteracin del algoritmo EM consiste en dos pasos: E y M. E se refiere a obtener la esperanza E ( i ) [l ( ; X , Y ) | Y ] . Tomar el valor esperado se justifica en el sentido de que existen datos no observados, X , por lo que se deben considerar todos los posibles valores de X , ponderados segn su probabilidad; y M se refiere a la maximizacin de la verosimilitud del parmetro . En general, el algoritmo EM repite la pareja de pasos siguientes en la iteracin (i+1) hasta obtener convergencia, partiendo de que (i ) denota el valor estimado de en la iteracin i.
168
Q( |
(i )
(i )
l( ; X ,Y ) | Y
f ( x, y ; ( i ) ) . f ( y; ( i ) )
(i )
Paso-M. Maximizar Q( |
) con respecto a .
Note que al maximizar el logaritmo de la distribucin, se est maximizando la verosimilitud. Observemos que:
f ( x | y;
(i )
f ( x, y; ( i ) ) f ( y; ( i ) ) E l ( ; x, Y ) | Y
ln f ( x, y;
(i )
ln f ( x | y;
(i )
ln f ( y;
(i )
Q( |
(i )
(i )
l ( ; x, Y ) f ( x | Y ; ln f ( x | Y ; )
(i )
ln f ( x, Y ; ) f ( x | Y ; f (x | Y ;
(i )
(i )
) dx
ln f (Y ; )
(i )
) dx f ( x | y;
(i )
ln f ( x | Y ; ) f ( x | y; ln f ( x | Y ; ) f ( x | Y ; ln f ( x | Y ; ) f ( x | Y ;
) dx ln f (Y ; )
) dx
(i )
) dx ln f (Y ; ) (1) ) dx l ; Y
(i )
ln f ( x | Y ; ) f ( x | Y ; f (x | Y ; ) f (x | Y ; ) f (x | Y ;
(i )
(i )
) dx
l ;Y
) dx l ' ( ; Y )
169
(i )
f (x | Y ;
( i 1)
f (x | Y ;
(i )
) dx l ' ( ; Y ) 0 0
Como mencionamos al inicio de esta seccin, el algoritmo EM es til cuando la coleccin de datos es incompleta (datos perdidos). A continuacin desarrollamos el mtodo de estimacin. Supongamos que la coleccin de datos comprende Y1 ,..., Yn , de los cuales r son observados y n-r son perdidos. Definamos Y (Yi1 ,..., Yir )' como el vector de datos observados y X ( X j1 ,..., X j ,n r )' como el vector de datos perdidos. Por otra parte, supongamos que
W ( X ' , Y ' )' se distribuye Normal( 0, ), donde depende del parmetro . Es decir, el logaritmo de la verosimilitud de los datos completos ( W ) est dada por:
f (W ; ) 2 1
n/2 (1 / 2 )
exp
1 W 2 1 W 2
l ( ;W )
n ln( 2 ) 2
1 ln( 2
De acuerdo a los resultados de la seccin II.2 de la Normal Multivariada (Propiedad5), tenemos que: 1 1 X 11 22 Y y 11|2 ( ) 11 12 22 21 Entonces, la distribucin de W dado Y requerida en el paso E es: 170
( ) 0 0
'
Usando el resultado E X A X
E
(i )
'
traza(A )
E
(i)
W'
1 11|2
( )W | Y
(i )
traza
(i )
1 11|2
( )
( )W
De aqu que,
Q( |
(i )
(i )
l ( ;W ) | Y
(i )
l ( ;W ) E l ( ;W )
W'
1 11|2
( )W (
(i )
1 traza 2
11|2
1 11|2
( )
Note que l ( ;W ) es el logaritmo de la verosimilitud de los datos completos en los que X es reemplazado por su estimacin, X .
l ( ;W )
El paso M restante del algoritmo EM consiste en maximizar la verosimilitud. Es decir, maximizar l ( ;W ) . Ejemplo VIII.5.1.- Consideremos el conjunto de datos DOWJ.TXT. Para ejemplificar el algoritmo EM, eliminaremos las observaciones 10, 20 y 30. El modelo ajustado en el ejemplo V.1.1 para los datos diferenciados a distancia uno y corregidos por la media fue un AR(1): X(t) = .4219 X(t-1)+ Z(t) WN variance estimate (Yule Walker): .147897 La primera iteracin se inicia con (o ) 0 y dado que estamos suponiendo Ruido Blanco, el paso E del algoritmo EM consiste en sustituir X 10 X 20 X 30 0 , donde Xt representa los datos diferenciados a distancia uno y corregidos por la media. Una vez reemplazadas las observaciones perdidas, ajustamos un modelo AR(1) por mxima verosimilitud a este nuevo conjunto de datos, obteniendo: ARMA Model: X(t) = .4153 X(t-1) + Z(t) 171
(Xt
j 0
(1) X t
j 1
)2
(Xt
(1) X t 1 ) 2
(Xt
(1) X t ) 2
(1) X t )
0 Xt
1 ( (1) ) 2 X t
(1) X t
(1) X t
Xt
(1) X t 1 X t 1 ( (1) ) 2
Con la ltima expresin podemos estimar los datos perdidos 10, 20 y 30.
X 10
0.4153 X 11 X 9 1 (0.4153) 2
0.3426 , etc.
Con estas estimaciones, ajustamos un nuevo modelo AR(1). Obteniendo: ARMA Model: X(t) = .4377 X(t-1) + Z(t) Es decir, ( 2)
0.4377 .
El proceso itera hasta converger (en i=3). En el siguiente cuadro se resumen los resultados: Cuadro9. Estimacin de valores perdidos de la serie del ndice Dow Jones Iteracin i X10 X20 X30 0 0 0 0 0 1 -0.36 0.01 -0.03 0.4153 2 -0.36 0.01 -0.03 0.4377 3 -0.36 0.01 -0.03 0.4377 Es decir, el modelo ajustado considerando las observaciones 10, 20 y 30 como perdidas es: ARMA Model: X(t) = .4377 X(t-1) + Z(t) WN Variance = .143922 172
173
Definicin IX.1.2. [Serie de Tiempo Integrada].- Se dice que una serie de tiempo {Xt} es integrada de orden d, denotada por X t I (d ) , si puede expresarse como:
(1 B ) d ( B ) X t ( B) Z t
donde
( B) X t ( B) Z t Xt Zt
1 1
Xt
1
Xt
q
Zt
Zt
Otro modo de definir una serie integrada es decir que {Xt} es ARIMA(p,d,q) con un proceso {Zt} estacionario e invertible. En estas condiciones la menor raz en valor absoluto de la parte autorregresiva es la unidad y se dice que la serie tiene d races unitarias o que es I(d); a manera de ejemplo, una serie estacionaria es I(0) y una caminata aleatoria es I(1). Tambin, la suma o combinacin lineal de procesos de distintos ordenes de integracin es del mismo orden que el proceso de orden mayor. Es decir, si:
Zt con Xt Yt I (e) I (d ) entonces Z t I (max( e, d )) Xt Yt
En trminos similares, la combinacin lineal de dos procesos con el mismo orden de integracin es, en general, de ese orden de integracin. NOTA1: En particular, combinaciones lineales de series I(0) son I(0); combinaciones lineales de series I(1) son en general I(1), con una excepcin muy importante, la de las series cointegradas que son I(0) y que veremos en detalle ms adelante. Esto tambin muestra que una serie integrada no puede ser representada adecuadamente por series estacionarias; del mismo modo, una serie estacionaria no puede, en general, representarse como funcin de series integradas.
174
'
Yt
I (d b) , con b
vector de
> 0. La relacin z t Y t se denomina relacin de cointegracin y el vector cointegracin. [Engle y Granger (1987)].
Supongamos la serie bivariada Y t ( y t , xt ) ' . Si suponemos que hay una relacin entre las componentes del vector, conocida como relacin de equilibrio, entonces esta relacin se puede expresar como una relacin lineal como la siguiente:
y t*
0 1 t
De acuerdo con ello, hay equilibrio en el periodo t si y t y t* 0 , es decir, si yt ( 0 0 . Ahora bien, como yt ser, en general, distinto del valor de equilibrio, 0 xt ) podemos agregar un trmino de error o desviacin, ut, quedando:
yt (
0 1 t
x)
ut
0
Agrupando trminos, podemos escribir la ecuacin como: yt 1 xt podemos ver que no es ms que la relacin de cointegracin del vector Y t , donde:
u t . As,
175
( y t , xt ) ' , (1,
0 1
zt
ut
Cointegracin significa que, aunque haya fuerzas que causen cambios permanentes en los elementos individuales del vector Y t , existe una relacin de equilibrio a largo plazo que ' los une, representada por la combinacin lineal z t Yt. De la definicin de cointegracin podemos deducir algunas observaciones: 1. El coeficiente de la variable independiente siempre es 1, por lo que el vector de cointegracin, , aparece normalizado. 2. Basta multiplicar el vector por un escalar no nulo para obtener un nuevo vector de cointegracin, por lo que el vector de cointegracin no ser nico. 3. El nmero mximo de vectores de cointegracin linealmente independientes que puede haber entre m variables integradas del mismo orden es m1. Al nmero de vectores de cointegracin linealmente independientes se le denomina rango de cointegracin. 4. Dos series no pueden ser cointegradas si no son integradas del mismo orden. As, por ejemplo, si yt I (1) y xt I (0) , entonces z t I (1) y las variables yt y xt no son cointegradas. 5. Cuando se relacionan dos series cada una integrada de orden cero, no tiene sentido hablar de cointegracin. 6. Cuando se consideran ms de dos series de tiempo la situacin se puede complicar, ya que, al contrario de lo que la observacin 4 parece implicar, puede que exista cointegracin sin que todas las variables sean integradas del mismo orden. Por ejemplo, supngase que yt I (1) , xt I (2) y vt I (2) . Si [ xt , vt ] CI (2,1) , entonces, existir una relacin lineal entre la relacin de cointegracin de xt con vt y yt. El caso ms sencillo e interesante de cointegracin es cuando d = b, es decir cuando z t I (0) , ya que entonces es cuando se pueden identificar los parmetros del vector de cointegracin con los coeficientes de una relacin a largo plazo entre las variables y aplicar el anlisis de la regresin. Este caso es en el que se centrar el anlisis del captulo. Enseguida se expone el concepto de Representacin de Correccin de Error que, como se mencion anteriormente, es de gran importancia en el anlisis de cointegracin, en el sentido de que series cointegradas tienen una representacin de correccin de errores, e inversamente, una representacin de correccin de errores genera series cointegradas IX.2. REPRESENTACIN DEL MECANISMO DE CORRECCIN DE ERROR (MCE) El Mecanismo de Correccin de Error (MCE) consiste en representar modelos dinmicos. Su aplicacin se debe, principalmente, al trabajo de [Davidson, Hendry, Srba y Yeo (1978)]. Los modelos MCE permiten modelar tanto las relaciones a largo plazo como la dinmica a corto de las variables. La denominacin de MCE se debe a la especificacin del 176
en donde las races de a(B) = 0 caen fuera del crculo de radio unitario, como condicin de estacionaridad. a(B) y (B ) son los siguientes polinomios en el operador de rezago
a( B) yt ( B ) xt yt
0 1
yt
yt
n m
xt
1 t 1
xt
xt
1 t 1
)( xt )( xt
xt
( xt
3 4
xt 1 ) xt m )
m 1 m k j 1 m 1 k j 1 m k j 1 k j 1 m m m 1 2
2 3
xt 2 ) xt 3 )
( xt
m 1 2
(
0
) xt
xt xt
xt xt
) xt
(1) xt
Anlogamente, se obtiene
n 1 n k j 1 k j 1
[1-a(B) ] yt
donde a(1)
1
[1-a( 1 )] yt-1
2
yt
177
yt
xt
n 1
xt
(1) xt ut
[1 A(1)] y t
yt
yt
xt
xt
yt
A(1) yt
A(1)
(1) xt A(1)
ut
Esta ltima expresin es la forma general del modelo de MCE para el caso de dos variables. El cociente (1) / A(1) se conoce como multiplicador total. Definicin IX.2.1. [Representacin MCE].- Se dice que un vector m-variado Y admite la representacin MCE si se puede expresar como:
A( B) Y t Yt
1 t
donde t es un vector error estacionario; A(B) es una matriz m x m, con A(0)=Im; y matriz m x m diferente de la nula.
es una
El anlisis e interpretacin del modelo MCE se reducir a un vector bivariado, Y t ( yt , xt )' , en donde cada una de las componentes son I(1). Dicho esto, el MCE para el caso de dos variables est dado por:
yt xt yt xt
1 2 1
( B) y t
1 1
( B ) xt
1 1
( yt
1 1
xt 1 ) xt 1 )
1t 2t
2 ( B) y t
2 ( B ) xt
2 ( yt
1 2
( B) y t
1 1
( B ) xt
1 1
( yt
1 1
xt 1 ) xt 1 )
1t 2t
2 ( B) yt
2 ( B ) xt
2 ( yt
Con las siguientes condiciones: 1. El vector de cointegracin (1, )' es el mismo para ambas ecuaciones. 2. Los polinomios i (B) y i (B ) para i=1,2, tienen todas sus races fuera del crculo unitario (condicin de estacionaridad). 3. Al menos uno de los parmetros i , i=1,2 no es nulo. Estos parmetros se conocen como parmetros de velocidad de ajuste. De las ecuaciones podemos ver que, los trminos entre parntesis involucran la relacin a largo plazo de las variables involucradas. Esto no es ms que la relacin de 178
xt y t
t 1 n t 1
xt ( xt
n
t) t 1
xt2
t 1 n
xt xt2
t t 1 n
xt xt2
t 1
xt2
t 1 t 1
xt2
t 1
consecuencia, tiende a
n
independientemente de
crecimiento de
t 1
n.
Esto significa que los parmetros convergen al valor poblacional a una velocidad superior, conforme aumenta la muestra, a las estimaciones con variables estacionarias. Este hecho se debe a que para el verdadero valor , los residuales son estacionarios. Este resultado es llamado teorema de superconsistencia de [Stock (1987)] y es usado por Engle y Granger como base de la estimacin. Enseguida enunciamos el Teorema de Engle y Granger, el cual establece la distribucin lmite de la relacin de cointegracin en dos etapas. TEOREMA. (de Engle y Granger). La estimacin en dos etapas de una ecuacin de un sistema de correccin de error con un vector de cointegracin obtenido al tomar la estimacin de la regresin esttica, en lugar del verdadero valor, para estimar el MCE en la de segunda etapa, tiene la misma distribucin lmite con el estimador de mxima verosimilitud que usando el verdadero valor de . El mtodo de mnimos cuadrados en la segunda etapa proporciona estimadores consistentes del error estndar. Demostracin. Ver [Engle y Granger (1987)]. /// Como hemos mencionado, la estimacin tradicional de relaciones de cointegracin consiste en dos etapas. La primera consiste en estimar directamente la relacin de cointegracin y la segunda en estimar el MCE introduciendo los residuos de la relacin de cointegracin estimada en el primer paso. 180
entonces la estimacin por MCO, al minimizar la varianza residual, estimar consistentemente este nico parmetro de cointegracin, , que conduce a unos residuos estacionarios. De acuerdo a los supuestos, en la expresin anterior, aunque estn involucradas variables I(1), no se trata de una relacin espuria puesto que los residuales son estacionarios y, por tanto, el estadstico Durbin-Watson (DW) ser para un determinado valor de significativamente distinto de cero al no haber una raz unitaria en { t }. Enseguida enunciamos algunas de las caractersticas que presenta la estimacin por xt MCO de la regresin de cointegracin: yt t. La estimacin del parmetro es sesgada, principalmente cuando tenemos muestras pequeas. Esto se debe a la autocorrelacin que presenta t [Phillips (1988)]. Este sesgo no tiene una distribucin normal ni media cero, pero desaparece cuando el tamao muestral tiende a infinito. La estimacin por MCO no es completamente eficiente, pues recordemos que no estamos considerando el resto de informacin disponible, es decir, todo el MCE. En la regresin esttica suele haber una considerable autocorrelacin residual, lo que lleva a la inconsistencia de la estimacin de los errores estndar de los parmetros. Esto implica que los valores de t (estadstica de prueba) de los parmetros del vector de cointegracin estn sesgados y son inconsistentes. Por tanto, la inferencia sobre los parmetros estimados no se puede hacer de manera tradicional. Si las variables implicadas en la relacin de cointegracin son ms de tres, se espera una fuerte colinealidad entre las variables explicativas. Ello sucede porque, para que haya una relacin de cointegracin, las variables han de evolucionar conjuntamente a largo plazo. La eliminacin de una de las variables explicativas en la regresin de cointegracin, a fin de reducir la multicolinealidad, conducir a resultados inconsistentes al no poder obtener residuos estacionarios. Con ello se constata que la multicolinealidad, ms que un problema, es una caracterstica inherente a las variables cointegradas. 181
Yt
Yt
donde Y t es un vector de orden m; m es el nmero de variables del modelo; es un vector de constantes, y t es un vector de perturbaciones aleatorias tal que t iid (0, ) . Se puede mostrar (mediante algebra) que el modelo puede escribirse de la siguiente forma:
Yt
1
Yt
p 1
Yt
p 1
Yt
182
i p
I , i 1,..., p 1 I
es conocida como matriz de impactos, pues contiene toda la La matriz informacin sobre la relacin a largo plazo. Note que esta ltima expresin del modelo es la de un MCE en forma matricial. Por otro lado, si recoge la relacin de cointegracin, entonces { Y t p } ser I(0). Esto garantiza que el modelo est equilibrado. Si r es el rango de , pueden presentarse los siguientes casos:
1. r=0. En este caso, tendramos que es una matriz nula. Esto implica que el modelo presente solo variables diferenciadas y, en consecuencia, las variables del vector Y t sern I(0). Es decir, no existira ninguna relacin de cointegracin. 2. 0 < r < m. En este caso habr r relaciones de cointegracin. El rango de ser el nmero de columnas linealmente independientes de la matriz (vectores de cointegracin). 3. r = m. En este caso, el proceso multivariado { Y t } ser estacionario. Como mencionamos antes, intuitivamente, esto se debe a que entre m variables slo puede haber como mximo m 1 vectores de cointegracin linealmente independientes. Tendramos que, si A es la matriz de vectores de cointegracin, A ' Y t I (0) , donde todas las variables de Y t son I(1). En conclusin, Y t ser estacionario solo si es de rango m, ya que esta matriz recoge las relaciones (vectores) de cointegracin (relaciones a largo plazo). La idea intuitiva que hay detrs del procedimiento de estimacin por Mxima Verosimilitud de Johansen es que se deben encontrar las combinaciones lineales del vector Y t que estn correlacionadas al mximo con las diferencias Y t . La secuencia de pruebas de hiptesis sera empezar planteando H0: r=0 (no cointegracin) frente una alternativa de r=1. En caso de rechazar H0, se contrastara la nueva hiptesis H0: r = 1 frente a la alternativa de r=2, y as sucesivamente hasta el momento en que no se rechace H0, o bien hasta aceptar que todas las variables son estacionarias, en tal caso, tendramos r = m. El proceso de estimacin de Johansen se basa en el concepto de Mxima Verosimilitud, por lo que debemos suponer alguna distribucin (Normal Multivariada). p 1 Yt p 1 Yt p Supongamos que la expresin Y t t es el MCE, 1 Yt 1
0 , 0 < r < m, Y t p ,...,Y 0 son datos conocidos y t NM (0, ) e independientes. Bajo estos supuestos, podemos obtener la estimacin por Mxima Verosimilitud siguiendo los siguientes pasos:
183
Yt Yt
p
01 11
Yt Yt
1 1
0, p 1 1, p 1
Yt Yt
p 1 p 1
r 0t r 1t
De esta forma, podemos obtener los vectores residuales r 0t y r 1t . 2. Calcular los momentos de segundo orden de los residuales. Es decir, calcular la cantidad:
n t 1
r it r jt S ij n , i, j 0,1
'
Note que Sij es una matriz cuadrada de orden m m. 3. La estimacin de mxima verosimilitud de la matriz de vectores de cointegracin, A, bajo la restriccin de normalizacin A ' S11 A I , se obtiene a partir del clculo de los valores propios de S10 S 001 S 01 respecto a S11 . Es decir, las i , i = 1, . . . ,m, son tales que:
S11 S10 S 001 S 01
2
4. Para probar la hiptesis nula de que hay como mximo r vectores de cointegracin frente a la alternativa de que hay m, r < m, la estadstica de prueba de razn de verosimilitud est dada por:
m traza
(r )
2 ln Q
(1
i r 1
la cual sigue una distribucin (asinttica) c (2f ) , donde c = 0,85 0,58/f , (2f ) es la distribucin Ji-Cuadrada con f = 2(m r)2 grados de libertad. Esta estadstica se denomina estadstica de la traza. 5. Teniendo el rango de cointegracin, podemos pensar en la estimacin de la matriz A. Las columnas de A sern los vectores propios asociados a cada i . De esta forma, la i-sima columna de la matriz A, Ai, se estima a partir de la expresin:
S10 S 001 S 01 Ai
i
S11 Ai i=1,,r
se obtiene de:
184
IX.3.3. Contrastes de Cointegracin sobre los Residuales Una forma sencilla de contrastar una relacin de cointegracin entre variables consiste en analizar si los residuos de la regresin de cointegracin presentan un orden de integracin menor que el de las variables involucradas. A manera de ejemplo, para el caso de variables I(1), el contraste consistir en determinar si los residuos presentan una raz unitaria (no cointegracin) o, lo que es lo mismo, determinar si son o no estacionarios. Para ello se pueden utilizar los contrastes de races unitarias presentadas anteriormente (Dickey - Fuller). Mostramos dos contrastes propuestos en [Engle y Granger (1987)] de los que existen valores crticos tabulados: el basado en el Durbin-Watson de la regresin esttica y el Dickey - Fuller Aumentado sobre los residuos de dicha regresin. En ambos la hiptesis nula es:
H0 :
t
Si no se rechaza la hiptesis de no cointegracin entre las variables integradas utilizadas en la regresin esttica, debemos concluir que la relacin estimada es de tipo espurio. IX.3.3a. Contraste Durbin-Watson sobre los Residuales de Cointegracin (DWRC) El DWRC, se calcula de la misma forma que el estadstico Durbin-Watson y est dado por:
n
t DWRC
t 2 n
t t
2
2 1
t 1
Como todo procedimiento, este tiene ventajas y desventajas. Una ventaja de este contraste es que es invariante frente a la posible inclusin de constantes y tendencias en el modelo, sin que por ello varen sus valores crticos. El problema de este contraste es que 185
1 i 1
et
donde t denota los residuos de la regresin de cointegracin estimada por MCO, y el nmero de retardos p se escoge suficientemente grande como para que { et } forme un proceso de ruido blanco. Como sugieren Phillips y Oularis, el valor de p debe aproximarse por el valor 3 n cuando las variables siguen un proceso ARIMA(p,1,q). La introduccin de los retardos de los residuos diferenciados en el modelo se justifica de la necesidad de eliminar la autocorrelacin que presenten los residuos. Cabe sealar que si se utilizan los valores crticos de los contrastes DF o DFA para este caso, se rechazar la hiptesis nula de no estacionaridad con demasiada frecuencia. Para evitar este sesgo los valores crticos deben aumentarse ligeramente. IX.4. PRONSTICO EN SISTEMAS COINTEGRADOS En los procesos de prediccin se tiene la caracterstica de que la varianza del error de pronstico crece a medida que el horizonte de pronstico lo hace (h crece). El proceso de pronstico de sistemas cointegrados tambin tiene esta caracterstica. Por otra parte, segn [Engle y Yoo (1987)], el pronstico a largo plazo viene dado exactamente por el vector de cointegracin. As por ejemplo, dada una representacin por ' MCE con una relacin de cointegracin yt X t , la mejor prediccin a largo plazo hecha en el momento t de yt h (con t suficientemente grande) condicionada a X t cual tendr varianza finita aunque h tienda a infinito.
h
es yt
' h
X t h , la
Sin embargo, el hecho de que la varianza de los errores del pronstico (ECM) de la combinacin de cointegracin se mantiene finita no resuelve el problema del pronstico a largo plazo con variables integradas. El siguiente ejemplo ilustra la dificultad. Consideremos el proceso
xt
0
xt
con
(1 1
xt
Es fcil observar que cuando h tiende a infinito, la prediccin en cuestin tiende a la ) 1 , que no es ms que la media no condicional del proceso. Este argumento, cantidad 0 (1 implica que el sistema de ecuaciones, si se reescribe enteramente en trminos de variables I(0), pierde la capacidad de pronosticar los valores futuros basados en el pasado observado. Cuando el horizonte de pronstico aumente (aumente h), el mejor pronstico, como vimos con el ejemplo, es la media no condicional. En el siguiente ejemplo llevamos a cabo la estimacin de la relacin entre el ndice general de inflacin y el ndice subyacente de inflacin (desglosado como mercancas y servicios) [fuente: www.banxico.org.mx]. Se piensa que el ndice subyacente determina en gran medida el ndice general, lo cual se prueba al ver en el mismo plano la grfica de la serie original y la serie estimada. El anlisis fue hecho con el paquete Eviews5 que ofrece las opciones de estimacin del vector de cointegracin como las pruebas de raz unitaria.
187
mercancias
10 8 6 4 2 0 -2 25 50 75 100 125 150 175 200
188
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat
Procedemos a generar la serie de residuales siguiendo Proc > Make Residual Series y llevar a cabo la prueba de raz unitaria en esta serie mediante View > Unit Root Test. Obteniendo:
Null Hypothesis: RESIDUALES has a unit root Exogenous: Constant Lag Length: 5 (Automatic based on SIC, MAXLAG=14) t-Statistic Augmented Dickey-Fuller test statistic Test critical values: 1% level 5% level 10% level *MacKinnon (1996) one-sided p-values. -9.061679 -3.461783 -2.875262 -2.574161 Prob.* 0.0000
Podemos ver que se rechaza la hiptesis de existencia de raz unitaria en la serie de residuales al 1% de significancia, por lo que concluimos que hay existencia de cointegracin. Esto confirma la hiptesis a priori. 189
*Critical values based on MacKinnon-Haug-Michelis (1999) Information Criteria by Rank and Model Data Trend: Rank or No. of CEs None No Intercept No Trend None Intercept No Trend Linear Intercept No Trend Linear Intercept Trend Quadratic Intercept Trend
0 1 2 3
Log Likelihood by Rank (rows) and Model (columns) -233.8655 -233.8655 -233.5023 -233.5023 -205.6714 -205.0184 -204.6646 -204.6133 -199.1119 -195.4835 -195.4712 -186.9923 -195.8286 -190.5258 -190.5258 -181.6423
0 1 2 3
Akaike Information Criteria by Rank (rows) and Model (columns) 2.582445 2.582445 2.607677 2.607677 2.634221 2.370062 2.373381 2.389135 2.398213 2.415203 2.364707 2.349124 2.358576 2.296577* 2.305546 2.390704 2.368668 2.368668 2.312366 2.312366 Schwarz Criteria by Rank (rows) and Model (columns) 3.158158 3.158158 3.231367 3.231367 3.041727* 3.061039 3.108776 3.133847 3.132324 3.148726 3.174170 3.144155 3.254274 3.280214 3.280214 3.271888
0 1 2 3
El criterio de Akaike sugiere que el nmero ptimo de rezagos sea 2, con intercepto y tendencia lineal. Mientras que el criterio de Schwarz sugiere un modelo sin intercepto ni tendencia con 1 rezago. Realizamos nuevamente la prueba de cointegracin, pero ahora elegimos la opcin 2) en base a lo dicho antes. El vector de cointegracin normalizado es:
Normalized cointegrating coefficients (standard error in parentheses) GRAL MERC SERV C 1.000000 -0.563586 -0.381434 -0.080367 (0.04903) (0.06200) (0.03664)
190
GRAL 0.080367+0.563586*MERC+0.381434*SERV
Como podemos observar, esta estimacin logra un buen ajuste, dado que capta la tendencia histrica de la serie. Es interesante observar, la diferencia entre la estimacin de la relacin de cointegracin y la estimacin de un vector autorregresivo, es decir, un modelo AR multivariado. El ajuste del modelo AR multivariado se logra, en Eviews5, como sigue: en el grupo creado anteriormente llamado inflaciones, seguimos la secuencia Proc> Make Vector Autoregression y seleccionamos la opcin Unrestricted VAR. Con esto aparecern los primeros resultados del modelo AR. En la ventana resultante seleccionamos la opcin Views> Lag Structure> Lag lenght criteria, esto nos informar una serie de criterios para elegir el nmero de rezagos necesarios, que para este ejemplo es 7.
VAR Lag Order Selection Criteria Endogenous variables: GRAL MERC SERV Exogenous variables: C Sample: 1 214 Included observations: 206
191
* indicates lag order selected by the criterion LR: sequential modified LR test statistic (each test at 5% level) FPE: Final prediction error AIC: Akaike information criterion SC: Schwarz information criterion HQ: Hannan-Quinn information criterion
Hecho esto, podemos especificar que necesitamos 7 rezagos, es decir, se ajustar un modelo multivariado AR(7), mediante la opcin Proc> Specify/Estimate y especificamos 7 en la opcin Lag Intervals for Endogenous. Obteniendo:
Vector Autoregression Estimates Sample (adjusted): 8 214 Included observations: 207 after adjustments Standard errors in ( ) & t-statistics in [ ] GRAL GRAL(-1) 0.773715 (0.12556) [ 6.16207] -0.498433 (0.13533) [-3.68318] 0.030600 (0.13840) [ 0.22110] -0.284761 (0.13731) [-2.07388] 0.234163 (0.13667) MERC 0.611884 (0.11988) [ 5.10431] -0.433783 (0.12920) [-3.35747] 0.029717 (0.13213) [ 0.22490] -0.173730 (0.13109) [-1.32526] 0.228375 (0.13048) SERV 0.526040 (0.10178) [ 5.16820] -0.328362 (0.10970) [-2.99327] 0.168272 (0.11219) [ 1.49985] -0.135601 (0.11131) [-1.21826] 0.213032 (0.11079)
GRAL(-2)
GRAL(-3)
GRAL(-4)
GRAL(-5)
192
GRAL(-7)
MERC(-1)
MERC(-2)
MERC(-3)
MERC(-4)
MERC(-5)
MERC(-6)
MERC(-7)
SERV(-1)
SERV(-2)
SERV(-3)
193
SERV(-5)
SERV(-6)
SERV(-7)
R-squared Adj. R-squared Sum sq. resids S.E. equation F-statistic Log likelihood Akaike AIC Schwarz SC Mean dependent S.D. dependent
Determinant resid covariance (dof adj.) Determinant resid covariance Log likelihood Akaike information criterion Schwarz criterion
Muchos de los coeficientes en el modelo AR no son significativos. Para ello, podemos llevar a cabo la regresin de la variable general con los 7 rezagos de las variables general, mercancas y servicios. Una vez hecha la regresin, podemos ver que los resultados son los mismos que los obtenidos anteriormente. La regresin es:
LS gral gral(-1) gral(-2) gral(-3) gral(-4) gral(-5) gral(-6) gral(-7) merc(-1) merc(-2) merc(-3) merc(4) merc(-5) merc(-6) merc(-7) serv(-1) serv(-2) serv(-3) serv(-4) serv(-5) serv(-6) serv(-7) C
194
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
Utilizando un nivel de significancia del 5%, podemos concluir que muchos de los coeficientes son estadsticamente igual con cero, quedando el modelo ajustado como:
Gt 0.176 0.774Gt
1
0.498Gt
0.285Gt
0.340Gt
0.276M t
0.351M t
0.369M t
195
196
197
1 00.
90.
80.
70.
60.
50.
40.
30.
20.
1 0. 0 20 40 60 80 1 00
De la grfica se observa que el proceso tiene periodo 12 por tanto se diferenci a distancia 12 usando la opcin Transform>Difference especificando distancia 12, con lo que se obtuvo el siguiente comportamiento de los datos:
Series
1 5.
1 0.
5.
0.
-5.
-1 0. 20 30 40 50 60 70 80 90 1 00
As como las grficas de autocorrelacin y autocorrelacin parcial de la serie diferenciada dando clic en el segundo botn amarillo de la barra superior:
198
.20
.20
.00
.00
-.20
-.20
-.40
-.40
-.60
-.60
-.80
-.80
-1 .00 0 5 1 0 1 5 20 25 30 35 40
-1 .00 0 5 1 0 1 5 20 25 30 35 40
La grfica de la ACF (izquierda) sugiere ajustar un modelo MA(6); mientras que la PACF sugiere ajustar un modelo AR(7). Ambos modelos fueron ajustados por los algoritmos de Innovaciones y Yule-Walker, respectivamente, as como por mxima verosimilitud. En seguida se muestran los resultados. La opcin en ITSM-2000 para ajustar el modelo MA(6) por Innovaciones es Model> Estimation> Preliminary, dar clic en Yes para restar la media a los datos, especificar 6 en MA order y marcar Innovations en el cuadro de dilogo y dar clic en OK. Obteniendo: MA(6): innovaciones X(t) = Z(t) + .5043 Z(t-1) + .2602 Z(t-2) + .3279 Z(t-3) + .2722 Z(t-4) + .2982 Z(t-5) + .3362 Z(t-6) WN Variance = 25.412365 AICC = .569155E+03 Para ajustar el modelo AR(7) por Yule-Walker usamos la opcin Model> Estimation> Preliminary, dar clic en Yes para restar la media a los datos, especificar 7 en AR order y marcar Yule-Walker en el cuadro de dilogo y dar clic en OK. Obteniendo: AR(7): Yule-Walker: X(t) = .4665 X(t-1) + .003827 X(t-2) + .2175 X(t-3) + .04005 X(t-4) + .1199 X(t-5) + .09608 X(t-6) - .2837 X(t-7) + Z(t) WN Variance = 23.863569 AICC = .565928E+03 Adicionalmente, podemos usar la opcin Autofit, para encontrar el modelo ARMA(p,q) por mxima verosimilitud. Para esto, usamos Model> Estimation> Autofit y damos clic en OK. Obteniendo:
199
.80
.80
.60
.60
.40
.40
.20
.20
.00
.00
-.20
-.20
-.40
-.40
-.60
-.60
-.80
-.80
-1 .00 0 5 1 0 1 5 20 25 30 35 40
-1 .00 0 5 1 0 1 5 20 25 30 35 40
============================================ ITSM::(Tests of randomness on residuals) ============================================ Ljung - Box statistic = 24.714 Chi-Square ( 20 ), p-value = .21260 McLeod - Li statistic = 35.157 Chi-Square ( 27 ), p-value = .13493 # Turning points = 63.000~AN(59.333,sd = 3.9819), p-value = .35714 # Diff sign points = 51.000~AN(45.000,sd = 2.7689), p-value = .03024 Rank test statistic = .18510E+04~AN(.20475E+04,sd = .14585E+03), p-value = .17788 Jarque-Bera test statistic (for normality) = .061972 Chi-Square (2), p-value = .96949 Order of Min AICC YW Model for Residuals = 0 De la grfica se observa que los residuales forman un proceso de Ruido Blanco y adems no se rechaza la hiptesis de aleatoriedad con un nivel de significancia del 5 %. Para llevar a cabo la validacin del modelo se eliminaron las ltimas 12 observaciones del conjunto de datos y se volvi a ajustar el mismo modelo que a las observaciones completas (diferenciadas a distancia 12 y corregidas por la media), es decir, un ARMA(5,2) por el 200
80.
70.
60.
50.
40.
30.
20.
20
40
60
80
1 00
Para obtener los valores, damos clic en la grfica con el botn derecho del ratn y seleccionar la opcin INFO.
201
De la tabla anterior podemos ver que todas las observaciones eliminadas, salvo la prediccin 5, caen dentro del intervalo de prediccin, por tanto podemos concluir que el modelo usado para esta serie de tiempo es adecuado y la validacin del modelo resulta exitosa.
202