1.- Introduccin
En el apartado anterior se hizo mencin de los modelos autorregresivos, que se caracterizan
por ser modelo especficos para series temporales donde existe autocorrelacin de orden 1. No
haba que preocuparse entonces de los supuesto clsicos del modelos de regresin lineal, ni en
consecuencia, realizar ningn tipo de transformacin.
En este captulo desarrollaremos el modelo general para hacer frente a datos secuenciales sin
restriccin de supuestos. Estos modelos se denominan ARIMA (Auto Regresive Integrated
Moving Average) por cuanto integran los posibles componentes que puedan estar presente en
toda serie temporal. Tales modelos fueron propuestos en su origen por Box y Jenkins (1976) y
por Glas et al. (1975).
En los modelos ARIMA se consideran tres tipos de procesos posibles (no necesariamente
todos presentes): autorregresin (AR), diferenciacin o integracin (I) y medias mviles
(MA). Como consecuencia de ello, tales modelos contemplan tres parmetros estructurales,
p,d y q, que se expresa de la siguiente manera ARIMA(p,d,q), donde p es el orden de la
autorregresin, d es el grado de diferenciacin y q el orden de la media mvil considerada.
Vemoslos cada uno de ellos separadamente.
Autorregresin
El componente autorregresivo ya ha sido expuesto en el apartado anterior y viene a indicar
que cada valor de la serie es funcin lineal de momentos anteriores de la serie. Corresponde al
mismo concepto de autocorrelacin. Si dos momentos adyacentes est correlacionados
decimos que hay autocorrelacin de orden 1 y tambin que la Autorregresin es de orden 1 si
intentamos determinar la relacin funcional que liga ambos momentos temporales. Esto es:
Yt 1Yt 1 et
que corresponde a una ecuacin de regresin mltiple cuyos regresores son los dos momentos
anteriores (cuyos coeficientes pueden ser significativo o no)
Diferenciacin
1
Frecuentemente las variables hacen referencias a stocks o niveles. Cuando esto sucede cabe
esperar un cierto efecto acumulativo de un determinado proceso, y se habla de una serie
integrada. Este tipo de series, que muestran una cierta tendencia, debe ser diferenciada al
objeto de hacerla estacionaria, lo que supone ventajas estadstica, como por ejemplo, estudiar
el efecto de un cierto tratamiento, que no debe confundirse con la tendencia propia de la serie.
Diferenciar una serie consiste en restar a cada valor de la misma el siguiente (la primera
observacin de la segunda, la segunda de la tercera ..etc). De esta forma, un modelo
ARIMA(0,1,0) puede ser escrito de la siguiente forma:
Yt Yt 1 et
o bien:
Yt Yt 1 et
En general, el parmetro d indica el nmero de veces que una serie ha de ser diferenciada
objeto de hacerla estacionaria.
Media mvil
En un proceso de media mvil, cada valor de la serie es determinada por los componentes
aleatorios presentes y previos. El orden , que se expresa por el parmetro q, indica el nmero
de componentes aleatorios previos que configuran el valor presente en la serie temporal. Un
modelo ARIMA(0,0,1) sera el siguiente:
Yt 1et1 et
Y un modelo ARIMA(0,0,2):
Yt 1 et 1 2 et 2 et
Se demuestra que en la medida que toda puntuacin Y conlleva un cierto error asociado, los
procesos autorregresivos y de medias mviles no son mutuamente excluyentes.
Fases en la elaboracin de un modelo ARIMA
Identificacin
Estimacin
Diagnstico
Identificacin
Es fase ms importante. Se trata de determinar los parmetros p, d y q que conforma el
proceso ARIMA(p,d,q) generador de la serie. Hay que decir que aunque estos parmetros
pueden adoptar cualquier valor, en la prctica la casi totalidad de los casos sern 0 o 1, y raras
veces 2, lo que hace que el proceso de identificacin sea menos complejo de lo que
aparentemente resulta. Por ejemplo, el 51% de las series estudiadas por Glas y otros (1975) no
necesitaron diferenciacin y tal solo el 6% necesitaron una diferenciacin mayor del primer
orden. Igualmente, y esto mismos autores, detectaron que tan slo el 2% de las series tienen
un orden autorregresivo superior a la unidad. Igualmente son raras medias mviles superiores
a 1.
Lo primero es el parmetro d, estos es el grado de diferenciacin para que la serie sea
estacionaria. Para ello, el procedimiento es muy sencillo. En primer lugar se observa
grficamente si la series es estacionaria o no. Estacionaridad significa, como se sabe, que la
serie tiene la misma media y varianza a lo largo de todo su recorrido. Si la serie no es
estacionaria se procede a diferenciarla y se comprueba de nuevo grficamente si es
estacionaria. Si lo es, sabemos por tanto que el valor d vale 1. En caso contrario se deferencia
de nuevo, y as tantas veces hasta que se logre la estacionalidad. El valor d ser el nmero de
veces que se ha diferenciado.
Conocido el valor d procedemos a conocer p y q. Para ambos parmetros recurriremos a la
funcin de autocorrelacin ACF y a la funcin de autocorrelacin parcial PACF.
Los modelos AR(p) presenta un decaimiento exponencial en los valores de ACF y picos en los
primeros p valores del PACF. Por otro lado, los modelos MA(q) presentan q picos en los
primeros q valores del ACF, y valores decrecientes exponencialmente en PACF. Para otros
caso, ver el Apndice al final de estas pginas.
Estimacin
Los modelos ARIMA no son modelos lineales en sus parmetros, lo que imposibilita el
recurso a los programas estndar de regresin lineal. En su lugar se recurre a modelos
iteractivos y a la mxima verosimilitud como procedimiento de estimacin de parmetros. En
esta fase se determinan los valores de los parmetros p, d y q, que obviamente han de ser
estadsticamente significativos.
Diagnstico
Consistente en determinar la adecuacin del modelo con los datos empricos. Si el modelo
estimado es el adecuado, los residuales generados por el mismo sern verdaderamente
aleatorios y carecern de cualquier pauta o estructura. Para ello recurrimos de nuevos al ACF
y PACF donde cabe esperar valores de los residuos completamente aleatorios, esto es ruido
blanco. En caso de no ser as habra que replantearse el modelo y establecer otros parmetros
para el modelo.
Aplicacin prctica
Vamos a aplicar el modelo ARIMA sobre unos supuestos datos en el contexto del control de
calidad de una empresa en la produccin de unos determinados componentes. Los datos, una
vez definidas las fechas son los siguientes:
PUNTUACI
2180
2160
2140
1
21
11
41
31
61
51
81
71
101
91
121
111
141
131
161
151
181
171
Fecha
Se observa que la serie es estacionaria, lo que implica un valor d=0. No obstante, sobre el da
160 hay una perturbacin que interesa investigar. Para ello, trabajaremos en una primera
instancia con los 100 primeros das. Se lo especificamos mediante la siguiente sintaxis:
USE DAY_ 1 THRU DAY_ 100.
2240
2220
PUNTUACI
2200
2180
2160
1
11
6
21
16
31
26
41
36
51
46
61
56
71
66
81
76
91
86
96
Fecha
Autocorrelaciones simples
_
Autocorrelations:
Lag
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
PUNTUACI
Auto- Stand.
Corr.
Err. -1 -.75 -.5 -.25
0
.25
-.488
.099
******.***
.
-.053
.098
. *
.
.162
.098
.
***.
-.164
.097
.***
.
.112
.097
.
** .
-.037
.096
. *
.
-.076
.095
. **
.
.089
.095
.
** .
.058
.094
.
* .
-.230
.094
*.***
.
.177
.093
.
****
-.036
.093
. *
.
-.096
.092
. **
.
.090
.092
.
** .
.022
.091
.
*
.
-.054
.091
. *
.
Plot Symbols:
Total cases:
_
Autocorrelations *
100
.5
.75
Box-Ljung
Prob.
24.549
24.845
27.610
30.476
31.834
31.979
32.618
33.502
33.884
39.870
43.477
43.630
44.710
45.671
45.729
46.083
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
.000
99
Partial Autocorrelations:
PUNTUACI
Pr-Aut- Stand.
Lag Corr.
Err. -1 -.75 -.5 -.25
0
.25
1 -.488
.100
******.***
.
2 -.383
.100
****.***
.
3 -.093
.100
. **
.
4 -.184
.100
****
.
5 -.037
.100
. *
.
6 -.051
.100
. *
.
7 -.120
.100
. **
.
8 -.071
.100
. *
.
9
.103
.100
.
** .
10 -.181
.100
****
.
11 -.067
.100
. *
.
12 -.066
.100
. *
.
13 -.135
.100
.***
.
14 -.153
.100
.***
.
15
.015
.100
.
*
.
16 -.044
.100
. *
.
100
.75
99
PUNTUACI
1.0
.5
0.0
Lmites confidencial
-.5
ACF
Total cases:
Autocorrelations *
es
-1.0
Coeficiente
1
3
2
5
4
7
6
9
8
11
10
13
12
15
14
16
N de retardos
PUNTUACI
1.0
.5
0.0
ACF parcial
Plot Symbols:
.5
Lmites confidencial
-.5
es
-1.0
Coeficiente
1
3
2
5
4
7
6
N de retardos
9
8
11
10
13
12
15
14
16
Comparndolo con los grficos del Apndice A., se observa que encaja mejor con aqul que
hace referencia a un ARIMA(0,0,1), esto es un MA(1). As pues, se lo indicamos:
FINAL PARAMETERS:
Number of residuals
Standard error
Log likelihood
AIC
SBC
100
10.265823
-374.23949
752.47899
757.68933
Analysis of Variance:
Residuals
DF
Residual Variance
98
10425.658
105.38713
MA1
CONSTANT
SEB
T-RATIO
APPROX. PROB.
.78105
2200.16919
.06411139
.23323983
12.1828
9433.0765
.0000000
.0000000
Name
Label
FIT_1
ERR_1
LCL_1
UCL_1
SEP_1
Lo que nos permitir comprobar si los residuales constituyen son aleatorios (ruido blanco), lo
que ser evidencia de un buen ajuste del modelo:
Efectivamente:
MODEL:
_
MOD_41.
Autocorrelations:
Lag
1
2
3
4
5
6
7
8
9
10
11
12
13
ERR_1
Auto- Stand.
Corr.
Err. -1 -.75 -.5 -.25
0
.25
-.002
.099
.
*
.
.009
.098
.
*
.
.125
.098
.
** .
-.086
.097
. **
.
.040
.097
.
* .
-.068
.096
. *
.
-.102
.095
. **
.
.017
.095
.
*
.
-.052
.094
. *
.
-.239
.094
*.***
.
.030
.093
.
* .
-.067
.093
. *
.
-.090
.092
. **
.
.5
.75
Box-Ljung
Prob.
.000
.008
1.639
2.426
2.596
3.100
4.237
4.271
4.573
11.053
11.159
11.672
12.616
.985
.996
.651
.658
.762
.796
.752
.832
.870
.353
.430
.472
.478
10
14
15
16
.077
.065
.013
.092
.091
.091
Plot Symbols:
Total cases:
_
.
.
.
** .
* .
*
.
Autocorrelations *
100
13.323
13.829
13.851
Partial Autocorrelations:
ERR_1
99
Pr-Aut- Stand.
Lag Corr.
Err. -1 -.75 -.5 -.25
0
.25
1 -.002
.100
.
*
.
2
.009
.100
.
*
.
3
.125
.100
.
** .
4 -.087
.100
. **
.
5
.039
.100
.
* .
6 -.085
.100
. **
.
7 -.081
.100
. **
.
8
.002
.100
.
*
.
9 -.027
.100
. *
.
10 -.239
.100
*.***
.
11
.024
.100
.
*
.
12 -.060
.100
. *
.
13 -.061
.100
. *
.
14
.032
.100
.
* .
15
.106
.100
.
** .
16 -.035
.100
. *
.
Plot Symbols:
Total cases:
Autocorrelations *
100
.501
.539
.610
.5
.75
99
.5
0.0
Lmites confidencial
ACF
-.5
es
-1.0
Coeficiente
1
3
2
5
4
7
6
9
8
11
10
13
12
15
14
16
N de retardos
11
.5
ACF parcial
0.0
Lmites confidencial
-.5
es
-1.0
Coeficiente
1
3
2
5
4
7
6
9
8
11
10
13
12
15
14
16
N de retardos
Por ltimo, para conocer si el incidente ocurrido en el momento 160 se puede explicar por
azar o no, recurrimos a predecir la series hasta el momento 187, pero sobre los datos hasta el
momento 100. Le indicamos igual que anteriormente:
Pero en Guardar:
12
2280
2260
2240
2220
2200
PUNTUACI
2180
2160
2140
21
11
41
31
61
51
81
71
Fecha
Se observa que estos valores estn fuera del intervalo correspondiente al 95% de los valores,
lo que es indicativo de que no son explicados por el azar, sino debido a algn incidente. Si
queremos visualizarlo menor, le indicaremos que opere con los valores del 80 al 187:
USE DAY_ 80 THRU DAY_ 187.
13
Grficamente:
2280
2260
2240
2220
2200
PUNTUACI
2180
2160
2140
80
Fecha
14