Anda di halaman 1dari 21

INSTITUTO TECNOLGICO Y DE ESTUDIOS SUPERIORES DE MONTERREY

CAMPUS MONTERREY

SERIES DE TIEMPO
MA -140
Prof. Dra. Graciela Gonzlez Faras

Series de Tiempo con Valores Atpicos en


Procesos Industriales

Eddy Castillo Suriano 797717


Itzali Herrera Carrillo 797922
Cecilia Martnez Len 662095
Monterrey, NL. a 1ro. de Diciembre del 2007.

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

CONTENIDO

INTRODUCCIN

TIPOS DE VALORES ATPICOS

TCNICAS PARA TRATAR SERIES DE TIEMPO CON VALORES ATPICOS

MODELOS CON VALORES ATPICOS ADITIVOS Y DE INNOVACIN

DESARROLLO

1. ESTIMACIN DEL EFECTO DE UN VALOR ATPICO CUANDO EL TIEMPO DE LA OBSERVACIN ES


CONOCIDA

2. DETECCIN DE LOS VALORES ATPICOS UTILIZANDO UN PROCEDIMIENTO ITERATIVO

3. DETECCIN DE VALORES ATPICOS MEDIANTE LA DISTRIBUCIN DE VALORES EXTREMOS

12

4. DETECCIN DE VALORES ATPICOS EN CONTROL ESTADSTICO DE PROCESOS (CEP)

14

CONCLUSIONES

19

BIBLIOGRAFA

20

1 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Introduccin

Observaciones extraordinarias e inesperadas que parezcan discordantes con la mayora de las observaciones de
un conjunto de datos es comn encontrarlas en varios tipos de anlisis de datos, tal es le caso del anlisis de las
series de tiempo. A dems de los posibles errores las observaciones de una serie de tiempo, est sujeta a la
influencia de intervenciones exgenas no repetitivas, por ejemplo las huelgas, cambios repentinos en el mercado,
cambios inesperados de ciertas condiciones de un sistema fsico o un proceso industrial, entre otros. A este tipo
de observaciones se les conoce como valores atpicos (outliers)1.

Como consecuencia de los valores atpicos las series de tiempo se ven modificadas y se pueden evaluar dichas
intervenciones en cinco dimensiones2:
1) Cantidad y tipo de valor atpico
2) Punto de la serie de tiempo en el que ocurre el valor atpico
3) Duracin de la intervencin ocasionada por este valor atpico
4) Cantidad de repeticiones
5) Secuencia de los diferentes tipos de valores atpicos

A partir de estas cinco dimensiones se pueden identificar diferentes estrategias para modelar la serie de tiempo
que incluya la deteccin de valores atpicos y ajuste del nuevo modelo con dichos valores. El objetivo de este
trabajo es presentar dos de estas estrategias o tcnicas utilizando mxima verosimilitud y mediante una
distribucin Gumbel. Adems, se presentar una propuesta para la obtencin de valores atpicos aplicada a un
control estadstico de proceso. Para ello es necesario definir los tipos de valores atpicos que existen y mencionar
los diferentes mtodos para analizarlos.
Tipos de valores atpicos
Los valores atpicos se pueden presentar en muchas formas, tales como parches, que afectan el remanente del
registro; picos, que varan la forma y la frecuencia; cambios de nivel, que alteran la frecuencia y la magnitud; y
las disfuncionalidades en la captura de datos3. En la literatura se clasifican estas formas de valores atpicos en 4
categoras: Aditivo (AO), Desplazamiento de nivel (LS), Cambio Temporal (TC) e Innovacin (IO)4.

El valor atpico aditivo (AO), es un evento o en la serie de tiempo, el cual no tiene un efecto en la serie de
tiempo excepto en el tiempo en el que ocurre. yt = xt + vt , donde las observaciones son etiquetadas como yt,
con yt relacionado al proceso xt y vt representa los valores atpicos. Por lo tanto una serie de tiempo sin valores
atpicos implica que vt=0.
Un valor atpico aditivo en forma grfica se muestra en la figura 1.
Fig. 1. Valor atpico aditivo con un decaimiento abrupto

2 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

El desplazamiento de nivel (LS) ocurre a travs de una funcin de saltos, el efecto es un cambio permanente en
la serie de tiempo a partir de que ocurre el valor atpico xt y continuando en xt+1, xt+2,, xn(figura 2).

Fig. 2. Valor atpico LS con un inicio abrupto y un efecto permanente

El valor atpico de innovacin (IO) afecta la serie de tiempo despus del periodo t donde el valor atpico ocurre.
En IO afecta todos los valores subsecuentes en la serie de tiempo despus de que este ocurre de acuerdo a un
proceso ARIMA alterando los impactos i. Tpicamente un valor IO es ocasionado por un factor externo (ver
figura 3).

Fig. 3. Valor atpico IO con un cambio repentino y un decaimiento a un nivel permanente.

El TC es un evento con un impacto inicial que decae exponencialmente de acuerda a un factor . (ver figura 4)

Fig. 4. Valor atpico TC con un decaimiento exponencial

En este proyecto nos enfocaremos en valores atpicos aditivos (AO) y de Innovacin (IO).

Tcnicas para tratar series de tiempo con valores atpicos


La diversidad en tcnicas de deteccin de valores atpicos a primera instancia pudiera parecer abrumadora e
inclusive puede ser tan especializada para un problema en particular de valores atpicos, no obstante existen
tcnicas apropiadas para ciertos patrones de comportamiento en valores atpicos. Fox (1972) fue de los primeros
que considero la deteccin de los valores atpicos en un serie de tiempo, donde existe una correlacin entre
observaciones sucesivas, con su metodologa el solo puede detectar valores AO e IO sin hacer distincin entre
ellos, as mismo consider series de tiempo simultaneas en dos casos, cuando la ubicacin del valor atpico es
conocida pero el tipo no, y otra cuando ninguna de las dos son conocidas.

3 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Por ejemplo, el anlisis de intervencin es una tcnica que emplea una variable dummy estructurada que ha sido
propuesta por Box y Tiao (1975) para lidiar con situaciones en donde la causa del valor atpico es conocida y
que adems puede causar un efecto especial, similar a la de un valor atpico aditivo, este enfoque asume que el
efecto de la intervencin tiene una estructura paramtrica el cul puede ser conocido o fcilmente estimado3.

Por otro lado, Denby y Martin (1979) investigaron la estimacin robusta para un proceso autoregresivo de primer
orden con AI e IO. Abraham y Box (1979) usaron anlisis Bayesiano para hacer inferencias con respecto a los
parmetros de un modelo Autoregresivo con posibilidad de presencia de IO en la serie de tiempo. Chernick,
Downing, y Pike (1982) sugirieron que la estrategia para la deteccin de valores atpicos sea a travs de una
funcin matricial de intervencin de las correlaciones estimadas4.

Tres aos ms tarde Tiao investig un mtodo para la deteccin de valores atpicos en procesos autorregresivos
de promedios mviles (ARMA). Posteriormente, Chang, Tiao y Chen (1988) consideraron la estimacin de los
parmetros de series de tiempo tomando en cuenta la presencia de AO e IO para procesos autorregresivos
integrados de promedios mviles (ARIMA). Otras consideraciones, como es el problema de mltiples valores
atpicos fueron tratados por Schmid (1986).

Por su parte Muirhead (1986) y Abraham junto con Yatawara

(1988) trataron el caso de un solo valor atpico AO e IO pero cuando ste ocurre en un tiempo desconocido4.

Chen continu trabajando junto con Liu (1993) y juntos tambin presentaron un mtodo de deteccin de valores
atpicos para un proceso ARIMA considerando los cuatro tipos de valores atpicos. El enfoque de ellos fue
basado en la estimacin conjunta de los parmetros del modelo y en los efectos ocasionados por los valores
atpicos en la serie de tiempo ARIMA.

Para probar su mtodo, simularon 500 series de tiempo de 100

observaciones cada una para modelos AR(1), MA(1) e IMA(1,1).

4 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Modelos con Valores Atpicos Aditivos y de Innovacin

Dado un proceso estacionario, sea Zt la serie observada y Xt la serie libre de valores atpicos. Supongamos que
{Xt} sigue un modelo general ARMA(p,q)

(B )X t = (B )at
Donde

(B ) = 1 1B K p B p

(1)

(B ) = 1 1B K q B q

son operadores estacionarios e

invertibles sin factores comunes, y {at} es una secuencia de ruido blanco iid N(0, a ). Un modelo de valor
2

atpico aditivo (AO) definido como:

t T
Xt
Zt =
Xt + t = T

(2)

= X t + I t(T )
=

( B)
a +I t(T )
( B) t

(2a)

1, t = T
I t(T ) =
0, t T

donde

es una variable indicadora que representa la presencia o ausencia de un valor atpico en el tiempo T.
Un modelo con valor atpico de innovacin (OI) es definido como

Zt = X t +

( B ) (T )
I
( B) t

(3)

( B)
(
=
at + I t(T ) )
( B)

Entonces, un valor atpico aditivo afecta slo al nivel de la T-sima observacin, mientras que un valor atpico
de innovacin afecta a todas las observaciones ZT, ZT+1,, ms all del tiempo T a travs de la memoria del
sistema descrita por

( B) ( B ).

De forma ms general, una serie de tiempo puede contener varios, digamos k valores atpicos de distintos tipos, y
por tanto se tiene el siguiente modelo general de un modelo con valores atpicos:
k

Z t = j j (B )I t

(T j )

+ Xt

j =1

cuando X t =

(B)
a , (B ) = 1
( B) t j

para algn AO y j (B ) = ( B)

5 de 20

( B) para un IO en el tiempo t = T j .

(4)

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Desarrollo

1. Estimacin del Efecto de un valor atpico cuando el tiempo de la observacin es conocida


Este es el caso ms simple cuando T y todos los parmetros del modelo ARMA(p,q) son conocidos. Entonces,

(B ) =

( B)
= (1 1B 2 B 2 K)
( B)

(1.1)

y se define

et = ( B) Z t ,

(1.2)

Entonces de (2.a) y (3) de la seccin anterior se tiene que


AO: et = ( B ) I t

(T )

IO: et = I t

(T )

+ at ,

(1.3)

+ at .

(1.4)

De (1.4) podemos ver que la informacin contenida acerca de un IO est contenida en el residual et en el tiempo
T, mientras que la informacin para un AO est dispersa en la cadena de residuales eT, eT+1, Esto es, para n
observaciones disponibles el modelo AO de (1.3) puede escribirse de la siguiente forma:

e1
0 a1
M
M M

eT 1
eT 1 aT 1

eT = eT + aT
eT +1
eT +1 aT +1

eT + 2
eT + 2 aT + 2
M
M M

en
en an
Sea AT el estimador de mnimos cuadrados de

para el modelo AO.

(1.5)

Debido a que {at} es ruido blando, de la

teora de mnimos cuadrados tenemos que:


n T

AT =
AO:

eT j =1 j eT + j

n T

* ( F )eT
2
6 de 20

j =0

2j

(1.6)

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

donde

* (F ) = (1 1F 2 F 2 K n T F n T )

, F es el operador de adelanto tal que Fet=et+1 y

n T
= j = 0 2j . La varianza del estimador es

)
* ( F )eT
Var ( AT ) = Var

1
= 4 Var [ * ( F ) aT ]

(1.7)

2
= 2a

De manera similar, sea IT el estimador de mnimos cuadrados de

para el modelo IO.

Se tiene que:

IT =eT

IO:

(1.8)

Var ( IT ) = Var (eT ) = Var I t(T ) + aT

(1.9)

= a2

Entonces, el mejor estimador del efecto de un valor atpico de innovacin en el tiempo T es el residual eT,
mientras que el mejor estimador del efecto de un valor atpico aditivo es la combinacin lineal de et,et+1, y en
con el peso dependiente de la estructura del proceso Xt de la serie de tiempo.
Si comparamos las varianzas de AT y de IT podemos ver fcilmente que Var ( AT ) Var ( IT ) , esto es

a2 2 a2 ; y en algunos caso Var ( AT ) puede ser mucho ms pequea que a2 .


Varias pruebas de hiptesis se pueden definir tales como:
H0: AO = IO = 0

H0:

ZT no tiene ni AO ni IO

es decir,

H1:

ZT tiene AO

es decir,

H1:

AO 0

H2:

ZT tiene IO

es decir,

H2:

IO 0

Los estadsticos de prueba de mxima verosimilitud para AO e IO son:

Bajo la hiptesis nula H0, ambas

H1 vs. H0 :

1,T = AT a

(1.10)

H2 vs. H0 :

2,T = IT a

(1.11)

1,T y 2, T

se distribuyen N(0,1).

7 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Por otro lado, el mtodo de mxima verosimilitud nos da el siguiente criterio para probar la posibilidad de un AI
o IO en una posicin desconocida de la serie Zt.
AO:

{ }

IO: max 2 ,t

max 1, t

t =1,.... n

t =1,.... n

2. Deteccin de los Valores Atpicos Utilizando un Procedimiento Iterativo


Si T es desconocido pero los parmetros de la serie de tiempo son conocidos, entonces se puede proceder a
conocer

1,t y 2, t

para cada t =1,2,,n para tomar la decisin basado en los resultados de la muestra. Sin

j , j , j y a2

embargo, en la prctica, los parmetros de la serie de tiempo

son por lo general desconocidos y

deben ser estimados. Si se conoce de antemano la existencia de puntos atpicos, entonces los estimadores de los
parmetros pueden estar bastante sesgados. En particular,

a2

va a tender a estar sobreestimada.

Chang y Tiao (1983) como se mencion con anterioridad, propusieron un procedimiento iterativo para detectar y
manejar la situacin cuando un nmero desconocido de AO e IO pueda existir en la serie de tiempo.
Paso 1. Modelar la serie {Zt} bajo el supuesto de la ausencia de valores atpicos. Calcular los residuales del
modelo estimado, es decir,

et = ( B) Z t
=
donde

a2 =

(B )
Zt
(B )

(B ) = 1 1B 2 B 2 K p B p

(2.1)

(B ) = 1 1 B K q B q .

Sea

1 n 2
et el estimado inicial de a2 .
n t =1

Paso 2. Calcular 1, t y 2, t para t = 1, 2, , n utilizando el modelo estimado. Defina

{ }

T = max max i ,t ,
t

(2.2)

donde T denota el tiempo cuando el mximo ocurre. Si T = 1,T > C , donde C es una constante
positiva predeterminada tpicamente tomada de algn valor entre 3 y 4. Se recomienda utilizar C=3
para una alta sensibilidad, C=3.5 para sensibilidad media y C=4 para una sensibilidad baja en la
deteccin de puntos atpicos en la serie con longitud mxima de 200 observaciones.1 Entonces existe
un AO en el tiempo T con su efecto estimado por

AT .

Uno puede modificar los datos utilizando la

ecuacin (2) de la siguiente forma:

~
Z t = Z t AT I tT ,

(2.3)

y se definen los nuevos residuales utilizando la ecuacin (1.3):

e~t = et AT ( B) I t(T ) .
8 de 20

(2.4)

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Si T = 2 ,T > C , entonces existe un IO en el tiempo T con un efecto estimado

IT .

Este efecto

del IO puede ser eliminado mediante la modificacin de los datos utilizando la ecuacin (3), esto es,

)
(B)
~
Zt = Zt )
IT I t(T ) ,
( B)

(2.5)

y se definen los nuevos residuales utilizando la ecuacin (1.4):

~
et = et IT I t(T ) .

(2.6)

2
Se hace una nueva estimacin de ~a a partir de los residuales modificados.

2
Paso 3. Recalcular 1,t y 2, t a partir de los residuales modificados y ~a , y repetir paso 2 hasta que todos los

valores atpicos sean identificados. Las estimaciones iniciales de

(B) permanecen sin alteraciones.

Paso 4. Asumamos que el Paso 3 ha terminado y se han identificado tentativamente k valores atpicos en los
tiempos T1,T2, y Tk. Entonces tratemos a estos tiempos como si fueran conocidos, y ahora estimemos
los parmetros de los valores atpicos

1 , 2 K, k y los parmetros simultneos utilizando el modelo


k

Z t = j j (B )I t

(T j )

j =1

donde j (B ) = 1

para el AO y j (B ) = (B )

( B)
a
( B) t

(2.7)

(B ) para el IO en el tiempo t =

Tj. Esto conlleva a

nuevos residuales:

(1)
t

( B)
IT I t(T ) .
= ( B) Z t )
(B)

(1)

(2.8)

Un estimador revisado de a2 puede ser calculado.

Los pasos 2 al 4 son repetidos hasta que todos los valores atpicos son identificados y sus impactos son
simultneamente estimados. Entonces, se tiene el siguiente modelo ajustado:
k

Z t = j j (B )I t

(T j )

j =1

donde

j , (B ) = 1 1B 2 B 2 K p B p

( B)
at
( B)

(2.9)

(B ) = 1 1B K q B q son obtenidos de la

iteracin final.

9 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

En general, la potencia (probabilidad de detectar o identificar correctamente los valores atpicos) del
procedimiento aumenta cuando el tamao de la muestra aumenta y decrece cuando el valor crtico de C aumenta.
Para valores atpicos muy grandes, = 5a el procedimiento parece ser aceptable. Las probabilidades de detectar
correctamente valores atpicos con C = 3.5, oscila entre 89.6% a 98.8% para el caso de un solo valor atpico y
entre 79.2% a 95.2% para el caso de dos valores atpicos. Los porcentajes de de la correcta identificacin del
tipo de valor atpico est entre 76%-98% excepto para el caso de dos valores atpicos aditivos con n=50. Para
valores atpicos de tamao mediano, = 3a, el desempeo del procedimiento no es tan bueno.

El

procedimiento puede no identificar valores atpicos de forma regular especialmente cuando hay ms de un valor
atpico.
Ejemplo

Las observaciones de la serie representa el nmero de defectos por camin encontrados en la estacin de
inspeccin final de la lnea de ensamble de una planta manufacturera de vehculos comerciales. Los datos son
las observaciones de 45 das consecutivos laborales entre Noviembre 4 a Enero 10. La grfica de la serie sugiere
un proceso estacionario con una media y varianza constante.

Se observa de la grfica ACF que decae

exponencialmente y en la grfica PACF slo tiene un pico en el periodo 1, lo que sugiere que la serie es un
AR(1).

2.5
2.0
1.5
1.0
0

10

20

30

40

Dias

0.0

0.2

ACF
0.4

0.6

0.8

1.0

Series : TRUCK$W1

-0.2

No. de Defectos

3.0

3.5

Promedio Diario de Defectos en Manufactura de Camiones

10
Lag

10 de 20

15

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

-0.2

Partial ACF
0.0

0.2

0.4

Series : TRUCK$W1

10

15

Lag

El modelo resultante es el siguiente con las 45 observaciones:


(1-0.43B) Zt =0.89 + at

(2.9)

con = 0.21 . La inspeccin de los residuales del modelo ajustado sugiere la posible existencia de valores
2
a

atpicos. Para mantener la calidad en el proceso, la deteccin de valores atpicos es una actividad importante en
el control de calidad. En este ejemplo se aplic el procedimiento iterativo antes descrito y se obtuvo el siguiente
resultado:
DETECCIN DE VALORES ATPICOS
Iteracin

Tiempo

Tipo

36

AO

IO

AO

IO

Entonces se considera el siguiente modelo de valores atpicos:

Z t = 0 + 1I t(36 ) + 2

1
1
1
I t(9) + 3 I t( 7 ) + 4
I t( 4 ) +
a
(1 B )
(1 B )
(1 B ) t

= 0 + 1I t(36 ) + 3 I t( 7 ) + 2 I t(9) + 4 I t( 4 ) + at

) (1 1B )

(2.10)

(2.10a)

De una estimacin simultnea de los parmetros de (2.10a) obtenemos:

Z t = 1.14 + 1.39 I t(36 ) + 0.99 I t( 7 ) + 0.66 I t( 4 ) 0.61I t(9) + at

11 de 20

) (1 01.28B )

(2.11)

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

y a2 = 0.11 . Al comparar 2.11 con 2.9 se observa una reduccin del 100% en la estimacin de la varianza de

a2 de 0.21 a 0.11 cuando los efectos de los cuatro valores atpicos son tomados en cuenta. Adems, el cambio
en los parmetros autorregresivos es tambin substancial, decrecen de 0.43 a 0.28.

Para el proceso de

produccin bajo la perspectiva de control de calidad, uno esperara que los defectos de la serie ocurran bajo la
modalidad de ruido blanco. Esto ocurrira si se escogiera un valor de C ms pequeo y se identificaran ms
valores atpicos.

3. Deteccin de valores atpicos mediante la distribucin de valores extremos


Uno de los grandes problemas en las series de tiempo es determinar si una intervencin ha ocurrido, las pruebas
para detectar los valores atpicos usadas recientemente son poco analticas es decir, no siguen una distribucin
nula, y dichas pruebas no conducen a niveles de significancia especficos.

Una prueba para valores atpicos aditivos aplicada a series tiempo fue desarrollada por Patrick Chareka, Florance
Matarise, Rolf Turner en el 2005, en dicha prueba encontraron la distribucin del estadstico de prueba para
detectar valores atpicos aditivos. La distribucin del estadstico de prueba converge a una distribucin Gumbel.
En esta seccin se mostrar las ideas principales de la prueba y sus conclusiones ms relevantes.

Asumiendo que potencialmente hay valores atpicos aditivos en los tiempos t1,t2,,tk (usualmente desconocidos)
el modelo para la serie de tiempo puede ser escrito como sigue:
k

Yt = j I t

( tj )

+ Xt

(3.1)

j =1

donde

son constantes, y los indicadores de la serie estn dados por:

It

( tj )

si t = t j
1
=
0 en otro caso

y {X t } es una serie estacionaria con media cero y con varianza

2 . La prueba slo aplica cuando {X t } es una

serie de tiempo Gaussiana. Se trata de determinar si hay evidencia de influencias exgenas que hayan sido
introducidas a las observaciones de la serie de tiempo, en otras palabras, se desea probar si existe alguna
innovacin aditiva (AO).

Los procedimientos actuales para probar valores atpicos aditivos se basan tpicamente en estadsticos que
toman la forma del mximo en valor absoluto de ciertos estimadores, cuya distribucin nula no ha sido tratada.
Esta prueba estadstica se construye como sigue: Sea Y1 ,K, Yn la serie de tiempo observada, que se asume que
se modela por (3.1).

12 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales
2
(Y1 Y1 ( n) )2
(
Yn Yn (n) )
Tn = max
,L,
,
2
2
S
n
S
n
(
)
(
)
n
1

El conjunto

(3.2)

donde Yt (n) y St ( n) son la media y la varianza muestral de la serie observada, con la t-sima observacin
omitida.

Puede ser conveniente denotar

(Yt Yt (n)) 2
por Tt (n) , y por lo tanto

2
St ( n)

Tn = max{T1 ( n),K, Tn (n)} .


Bajo la hiptesis nula de un proceso estacionario (i.e. todas las

en (3.1) son cero) se tiene que:

(Y Y (n) )2
(Y Y (n) )2
,L, n 2
Tn max 1 2

S (n)
S (n)

(3.3)

donde Y (n) y S (n) son la media y la varianza muestral usual de la serie observada. Consecuentemente, para
n grande,
2
(Y1 )2
(
Yn )
Tn max
,L ,

2
2

donde

La distribucin
el proceso

(3.4)

son la media y la varianza usual, respectivamente, del proceso estacionario.

12

{Yt }

esta en el dominio mximo de una distribucin Gumbela. Esto es, bajo ciertas condiciones

(equivalente a

{X t })

el lado derecho de (3.4), propiamente normalizado, converge en

distribucin a la distribucin de Gumbel. Las dos aproximaciones, en (3.3) y (3.4) no influyen de manera
importante en el comportamiento lmite de Tn y por lo tanto el estadstico de prueba

Cn =

Tn d n
cn

(3.5)

converge en distribucin a la distribucin de Gumbel para ciertos valores de cn y d n . El hecho de que Cn se


distribuye aproximadamente Gumbel permite probar la hiptesis nula de la ausencia de valores atpicos aditivos
con un nivel de significancia dado.

Lo visto anteriormente se enuncia en el siguiente teorema:


Teorema 3.1 5. Suponer que {Yt } es una serie de tiempo que satisface el modelo de intervencin aditivo (3.1) y
que la serie estacionaria con media cero {X t } es Gaussiana, con funcin de autocovarianza

lim z (k ) ln(k ) = 0

{ z (k )} tal que

(Condicin de Berman)

(3.6)

La coleccin de distribuciones, para la cual la funcin de distribucin limite del mximo pertenece a una familia de distribucin en
particular, se llama mximo dominio de atraccin de esa familia.

13 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

k =1

z (k )
k

< para alguna ,

0 <1

(3.7)

Para cualquier realizacin Y1 ,K , Yn de esta serie de tiempo, sea Cn definido como en la ecuacin (3.5) donde

d n = 2 ln(n) ln(ln(n)) ln( )


y cn 2 . Bajo H 0 : j = 0,
D
Cn
( x)

donde ( x ) = e

conforme

( e )
x

(3.8)

j = 1,K, k (i.e. Yt = + X t para toda t) el estadstico Cn satisface

D
significa que converge en
< x < denota la distribucin de Gumbel y

distribucin.

Las condiciones (3.6) y (3.7) se satisfacen por una amplia variedad de procesos incluyendo todos los ARMA
estacionarios y todos los procesos estacionarios ARMA integrados fraccionarios. Asimismo, la serie de tiempo
con memoria larga tambin satisface estas condiciones.

Para comparar la potencia de esta prueba con la prueba de Chang-Tiao, se simularon varios modelos
estacionarios. En cada modelo se consideraron 100 series de 300 observaciones con un slo valor atpico de
magnitud 3 correspondiente a la serie evaluada, la posicin del valor atpico fue aleatorio. La potencia
alcanzada para la prueba de Chang-Tiao se encontr en un intervalo de 0.27 a 1.00. Mientras que la potencia de
la prueba propuesta por Chareka et al. se encuentra entre 0.25 y 1.00. La tasa de las potencias (prueba de ChangTiao sobre la propuesta aqu) tiene un intervalo cerca de 0.93 a 1.53, con mediana de 1.05 y media de 1.15. Esto
significa que bajo las condiciones simuladas, la prueba de Chang-Tiao tiene una mayor potencia.

4. Deteccin de valores atpicos en Control Estadstico de Procesos (CEP)


El CEP es una herramienta usada en el monitoreo de procesos en el cual se emplean principalmente cartas
estadsticas de control de procesos. Estas cartas se construyen a travs de muestras obtenidas directamente del
proceso, a intervalos regulares de tiempo y su objetivo es la deteccin de cambios en el comportamiento de la
variable que se est midiendo, que nos indiquen una posible condicin fuera de control.

En la prctica este tipo de control tiene varios defectos, entre los que destacan los siguientes:
- El intervalo de tiempo entre una muestra y otra puede ser muy grande comparado con la velocidad a la que
pueden ocurrir los cambios en el proceso.

- Las mediciones, al ser llevadas a cabo por diferentes personas y en muchos casos con diferentes instrumentos,
acumulan los errores de medicin de los operadores responsables y de los instrumentos.

14 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

- Es comn encontrar cartas de control implementadas en procesos para los cuales no son adecuadas.

- La mayora de las cartas de control empleadas no toman en cuenta la estructura dinmica del proceso que
genera los datos registrados.

- El tiempo de respuesta ante condiciones fuera de control es lento y en muchas circunstancias la presencia de
uno o ms de los problemas ya mencionados lo vuelve an ms lento.

Lo anterior vuelve necesaria la implementacin de procedimientos que eliminen o mitiguen de alguna manera
estos problemas, con el propsito no solo de controlar la calidad en un proceso, sino de asegurar un nivel
mnimo de calidad en el mismo.

Un mejor acercamiento al control del proceso estara dado por la implementacin de procedimientos
automatizados de registro y anlisis de la informacin, supervisados regularmente, en los cuales se tome en
cuenta tanto la velocidad de movimiento del proceso (inspeccin al 100%), como la naturaleza dinmica del
mismo. Esta aproximacin elimina los problemas generados por el tiempo de espera para tomar cada muestra,
adems de que remueve los errores provocados por los responsables de registrar la informacin.

CEP desde el punto de vista de los procesos ARMA con valores atpicos aditivos
Supongamos que se est monitoreando un proceso {Nt}, supongamos adems que el tiempo entre observaciones
requerido por el proceso es constante en t y que hemos empezado a registrar la informacin en t=0.

Bajo el supuesto inicial de que el proceso se ha mantenido estable durante un intervalo de tiempo lo
suficientemente largo, podemos ajustar un modelo ARMA(p,q) de la forma:
Nt = -1(B) (B) Zt = (B)Zt

(4.1)

donde se requiere que {Zt} ~ iid N(0,2).

Ahora, nuestro supuesto inicial de estabilidad del proceso no nos asegura que esta condicin se mantendr de
esta manera en el futuro; as pues, corremos el riesgo de que se introduzca un impacto generado por alguna
condicin externa al proceso, como por ejemplo el desajuste de uno de los mecanismos de operacin, la
introduccin de un nuevo material en el proceso, una modificacin en las especificaciones de diseo no
implementada correctamente, etc.

15 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Aunque la forma del impacto introducido puede llegar incluso a ser permanente en el proceso observado de no
ser controlado , al estar llevando a cabo una inspeccin al 100% en el proceso podemos estar en condiciones de
detectar cualquier indicio de que algo ha ocurrido y controlarlo. Esto nos permite que de manera razonable
podamos considerar nicamente impactos temporales, como aquellos provocados por valores atpicos aditivos
que pueden ser estudiados a travs de un modelo de intervencin que considere nicamente una intervencin en
el tiempo = n, donde n es el tamao de la serie considerada.

Un modelo de este tipo puede ser expresado como:


yt = = -1(B)(B) Pt() + Nt = (B)Pt() + Nt

(4.2)

donde (B) es un polinomio de intervencin tal que


(B)= 0 + 1B + 2B2 +
y
(B) = 1 1B rBr ,
(B) = 0 1 B s Bs
son los polinomios que determinan la forma especfica de la intervencin a partir de que sta ocurre.

Adems la fucin Pt() es una funcin indicadora que puede ser expresada en la forma

Pt ( ) =
0

t=
(4.3)
t

Escribamos pues el trmino de intervencin (B)Pt() de (4.2) como Xt y adems establezcamos = n y


t = n+i . Entonces podemos escribir,

i=o

Pn+i (n ) =
0

i = ... 2,1,0

(4.4)

io

y entonces

Xn+i = (B) Pn+i(n) =

Pn- j (n i ) =

j=o

16 de 20

P (n + j i )
j

j=0

(4.5)

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

En (4.5) podemos ver fcilmente que Pn(n+j-i) 0 siempre que i=j, o equivalentemente cuando j=0 en el punto
en el que Pn+i(n) 0 y asi,
Xn = 0

(4.6)

Resta ahora reescribir a (4.2) usando (4.6) como:

yt = 0,n + Nt

(4.7)

Esta ultima expresin, con la forma para Nt dada por (4.1), nos permite escribir un modelo que considera la
posible existencia de un valor atpico aditivo en la ltima observacin registrada, donde el subndice n en 0,n
indica que dicho trmino toma un valor de 0 en cualquier punto anterior a n.

Recordando nuestra suposicin inicial de que los parmetros del proceso que genera la serie observada son
estables hasta la observacin n-1, y expresando (4.7) en la forma

0,n = yt Nt

(4.8)

podemos probar la hiptesis de que en la n-sima observacin no ha ocurrido ningn impacto. Para hacer esto,
calculamos el mejor predictor lineal a un paso (en error cuadrado medio) para Nn en base a las n-1 observaciones
previas usando un modelo de la forma (4.1) y entonces

n
0,n = y n N

(4.9)

es el mejor estimador lineal del impacto sufrido en la n-sima observacin, en caso de existir.

Box (1976) encontr que el estadstico

02,n
Q = 2
z

(4.10)

Sigue una distribucin Ji-cuadrada con 1 grado de libertad bajo el supuesto de que el modelo ajustado sea
correcto y adems {Zt} sean iid N(0,2).

17 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Si el valor de Q es mayor que el valor de 21 tenemos entonces evidencia suficiente para rechazar la hiptesis de
que la ltima observacin obtenida no constituye un valor atpico en nuestra serie de tiempo y debera procederse
en ese momento a una verificacin de las condiciones de operacin en el proceso. En caso de verificarse una
condicin fuera de control, podemos sustituir el valor observado en la serie con la prediccin hecha para t=n y
continuar con el monitoreo. En caso de que la hiptesis no sea rechazada podemos reajustar el modelo hasta la
observacin n y esperar a la aparicin de una nueva observacin en t=n+1 para repetir el proceso.

Desventajas
Suponiendo que la forma del modelo empleado sea correcta y que adems conocemos el valor real de los
parmetros, el estadstico Q en (4.10) sigue exactamente una distribucin Ji-cuadrada con 1 grado de libertad.
En la prctica lo que hacemos es ajustar el mejor modelo para los datos de la realizacin disponible, lo que
introduce errores de estimacin de los parmetros del modelo ARMA y de la varianza de Zt, en la prediccin de
la ltima observacin de la serie.
Lo anterior nos indica que, lo que realmente tenemos, es una aproximacin a la distribucin en cuestin y hace
que nos preguntemos acerca del tamao del efecto que tienen los errores de estimacin en la deteccin de
posibles valores atpicos en la serie.

Para tener una idea de esto se realiz una simulacin en la cual se generaron 1000 series de tiempo con las
siguientes caractersticas:

Estructura

Parmetros
1

Series Generadas

Series con impacto

AR(2)

0.2

0.7

400

238

100

MA(2)

0.3

0.6

400

161

100

ARMA(1,1)

0.4

0.6

200

189

100

El valor de los parmetros se fij para todas las series con la misma estructura y luego se introdujo un impacto
aleatorio (con magnitud entre 1 y 3) en la observacin nmero 100 a un nmero de series seleccionado al azar.

Hecho esto, procedimos a ajustar los parmetros de las series simuladas usando mxima verosimilitud para las
primeras 99 observaciones, para despus obtener una prediccin para la observacin nmero 100 usando el
modelo ajustado.

Para todos los casos se calcul el estadstico Q y se prob la hiptesis de que no exista un valor atpico en la
ltima observacin de la serie. Una vez hechas todas las pruebas, comparamos el resultado contra el registro de
las series impactadas y pudimos as aproximar el valor de la potencia de la prueba para cada caso. Los resultados
se muestran en la siguiente tabla:

18 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Modelo

Potencia

Autorregresivo

52.10%

Promedio mvil

52.17%

ARMA

57.67%

Como puede verse, la potencia de la prueba se encontr desde un 52.1% para los modelos autorregresivos, hasta
un 57.67% para los modelos ARMA.

Conclusiones

El procedimiento iterativo mostrado en la seccin 2 del documento es til para la estimacin de parmetros de
series de tiempo con posibles valores atpicos y puede ser aplicado a cualquier modelo invertible ARMA, aunque
en la literatura tambin demuestran que aplica a modelos ARIMA. Adems, el algoritmo es fcil de interpretar y
de ajustar a situaciones especficas para su aplicacin.

Por otro lado, con la prueba de este mtodo existe la

desventaja de que no se asocia un valor de significancia especfico y en lugar de esto, se utiliza una constante
positiva predeterminada con valores entre 3 y 4.

Con la prueba de distribucin de valores extremos, en cambio si se tiene un nivel de significancia asociado a
diferencia de la de Tiao. Sin embargo, Tiao tiene mayor potencia comparado con la prueba escrita por Chareka y
otros.
Por otro lado, la aportacin de este trabajo se fundamenta en la distribucin del mejor estimador lineal para el
impacto de un valor atpico observado en la serie desarrollada por Box (1976). La deteccin de un valor atpico
en series de tiempo generado en la lnea de un proceso industrial. La importancia de detectar dicha valor en este
mbito, radica en que un valor atpico representa un defecto generado por el proceso, por lo tanto es crucial que
la deteccin de un cambio en el proceso y la correccin del efecto exgeno introducido en el modelo sea en el
tiempo en el que ste se presenta.

Finalmente, la potencia de la prueba no result ser tan alta, sin embargo un futuro trabajo puede ser la
consideracin de alternativas tales como la extensin del periodo de anlisis, es decir no limitarlo a que se
considere un valor atpico en la ltima observacin, sino hacer la prueba para un periodo final de 5
observaciones anteriores, por ejemplo. Otra alternativa puede ser emplear el estimador del impacto obtenido
como un estimador preliminar y ajustar a la serie completa por mxima verosimilitud un modelo que considere
los parmetros del proceso ms un parmetro que considere el impacto que se est investigando. En el futuro,
estas alternativas deben ser estudiadas a detalle para poder seleccionar la mejor alternativa para la deteccin de
valores atpicos.

19 de 20

MA00-140 SERIES DE TIEMPO


Series de Tiempo con Valores Atpicos en Procesos Industriales

Bibliografa
1
Ih Chang, George C. Tiao y Chung Chen, Estimation of Time Series Parameters in the Presence of Outliers, Technometrics, Vol. 30, No. 2.
(May, 1988), pp. 193-204.
2

Arnau Gras, Diseos de Series Temporales: Tcnicas de Anlisis, Edicions de la Universitat de Barcelona, Espaa 2001

D.R. Brillinger and P.R. Krishnaiah, Time Series un the Frequency Domain, Elsevier Science Publishers B.V., EUA 1983

Wright, Y. Hu, Booth, Effectiveness of Joint Estimation When the Outlier Is the Last Observation in an Autocorrelated Short Time Series,
Decision Sciences, Volume 30 Number 3, Summer 1999, Printed in the U.S.A.

Patrick Chareka, Florance Matarise, Rolf Turner, A test for additive outliers applicable to long-memory time series, Journal of Economic
Dynamics & Control 30 (2006) 595-621.

20 de 20