Anda di halaman 1dari 43

Escola Nacional de Cincias

Estatsticas

Modelagem em Sries Temporais


Prof.: Waldir Lobo

Leonardo Lucio e Fernando Leal

Rio de Janeiro, Junho de 2015

Introduo
O objetivo do trabalho ajustar um modelo ARIMA Sazonal (SARIMA)
para tentar prever valores futuros de uma srie temporal com caractersticas de
tendncia e sazonalidade. Dessa forma utilizou-se a modelagem de Box &
Jenkins para ajustar previses.
O livro de Anlise de Sries Temporais de Morettin e Toloi foi
fundamental para a realizao do trabalho.

Descrio dos dados


A primeira srie temporal utilizada neste trabalho refere-se quantidade
de gs natural que produzida em milhes de metros cbicos. Os dados
variam mensalmente de janeiro de 1998 a maro de 2015, resultando numa
srie de 207 valores. Os dados so provenientes da Agncia nacional do
Petrleo (ANP).

1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015

Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
177
186
181
184
190
181
190
183
185
192
194
197
203
200
203
204
203
207
202
205
209
206
207
211
217
213
221
222
225
232
230
224
235
233
241
247
237
221
240
226
234
238
240
237
241
234
252
265
271
278
280
279
277
273
263
268
262
255
253
251
267
271
267
269
262
258
269
278
284
285
279
276
280
286
291
292
283
292
297
296
297
297
287
303
298
294
299
309
316
315
309
305
297
304
314
300
296
300
300
308
313
309
315
308
299
309
303
302
302
309
310
312
301
310
317
313
309
313
322
336
342
357
364
365
362
384
380
384
382
390
371
372
337
353
364
353
367
372
365
359
377
374
372
380
368
381
374
385
391
396
392
393
402
409
417
435
417
395
386
393
419
423
421
418
410
417
427
449
447
422
417
411
430
453
446
449
451
459
461
479
477
481
486
470
471
503
494
484
492
458
497
513
505
524
525
521
532
544
553
572
559
583
577
598
607
600
601

Anlise dos Dados


Antes de iniciar a modelagem, ser feita a anlise exploratria dos dados,
isto , observar o grfico da srie para verificar se a mesma estacionria, ou
se composta por tendncia ou sazonalidade e etc. O grfico da srie temporal
pode ser visto a seguir.

O software R possui uma funo chamada monthplot que mostra a


variao dos dados para todos os meses. Nessa ferramenta possvel ver
indcios de sazonalidade. Veja o grfico abaixo:

Pode-se notar que a produo tende a ser maior nos primeiros meses e
vai diminuindo com o passar dos meses at se aproximar do incio de um novo
ano quando volta a crescer. Os traos no grfico indicam a mdia em cada
perodo.

DECOMPOSIO SERIAL
A decomposio serial uma das formas mais simples de se analisar
uma srie temporal, com a qual objetiva mensurar alguns componentes que
esto presentes intrinsecamente em uma observao (Yt). Desta Yt temos a
tendncia, que denota o comportamento mais geral da varivel no tempo;
sazonalidade, oscilaes de curto prazo peridicas, normalmente por origens
naturais; e o rudo, movimentos irregulares e por causas desconhecidas
(Montgomery et al., 1990).

Pode se observar que a srie aparenta ter tendncia e sazonalidade. A


componente aleatria aparenta ter comportamento similar ao de um rudo
branco.

Comportamento sazonal:

MODELOS BOX & JENKINS


A tcnica de decomposio serial, apesar de esclarecer o comportamento
estrutural da srie temporal, possui limitaes, principalmente na dificuldade de
tratar o rudo e buscar melhores explicaes para sua gerao. Para esse fim,
o uso de modelos estocsticos torna-se indispensveis para um estudo
resumido e objetivo da srie analisada.
As classes dos modelos mais comumente utilizadas em anlise de sries
temporais so as dos modelos autorregressivos integrados e de mdias mveis
- ARIMA
Os modelos ARIMA formam uma famlia de modelos propostos por Box &
Jenkins.
Essa famlia adequada para descrever sries no estacionrias, ou seja,
sries que no possuem mdia constante no perodo analisado. Segundo
Morettin, o modelo ARIMA pode ser classificado de diferentes maneiras,
conforme os parmetros AR(p) (autorregressivos de ordem p), MA(q) (mdia
mvel de ordem q) e I(d) (integrado de ordem d).
Etapas da Metodologia de Box & Jenkins
A famlia de modelos Box & Jenkins se apoia em uma metodologia consistente,
baseada em quatro passos:
Identificao
Estimao
Diagnstico
Previso
Atravs desses passos possvel especificar corretamente o modelo para o
objetivo desejado.
A fase de identificao busca a ordem dos parmetros do (S)ARIMA
(p,d,q)x(P,D,Q)S. Uma das maneiras de realizar a identificao da ordem p, P,
q e Q atravs da funo de autocorrelao (FAC) e da funo de
autocorrelao parcial (FACp).
A necessidade de se diferenciar a srie devido ausncia de estacionariedade
pode ser feita subjetivamente, observando a existncia de tendncia no grfico
plotado da srie temporal, ou atravs do comportamento vagaroso na queda da
FAC ao longo das defasagens (lag). Objetivamente a verificao da
estacionariedade feita atravs de alguns testes para identificao de raiz
unitria, como o Dickey-Fuller Aumentado, onde a hiptese alternativa
estacionariedade da srie.
A fase de estimao diz respeito prpria construo do modelo, atravs da
estimao dos parmetros por mnimos quadrados ordinrios ou o mtodo de
mxima verossimilhana.
O diagnstico baseado na anlise dos resduos do modelo. A ideia principal
que os resduos devem apresentar ausncia de autocorrelao, indicando
que a especificao do modelo foi correta. Esta feita atravs dos grficos dos

resduos em relao ao tempo, ora pela FAC dos resduos, onde se busca a
existncia de no autocorrelao dos resduos em alguma defasagem
(retirando a defasagem 0).
O teste de Ljung-Box busca testar a existncia significativa de autocorrelao
dos resduos em alguma k defasagem. A inexistncia de autocorrelao dos
resduos em nenhuma defasagem implica a ausncia de correlao temporal
na estrutura dos resduos do modelo.
Por fim, testamos a hiptese de os resduos seguirem uma distribuio
Gaussiana, atravs do teste de Jarque-Bera .
A ltima etapa consiste em realizar a previso, mas quando h um conjunto de
diferentes modelos, necessrio realizar testes e usar critrios para mensurar
o ajuste do modelo em relao aos dados e selecionar o melhor modelo de
previso.

MODELAGEM BOX & JENKINS


Para a modelagem Box & Jenkins, a srie temporal a ser utilizada deve ser
estacionria, isto , deve-se levar em considerao os seguintes pressupostos:
E[Zt]=(constante);
Var(Zt) = (constante)
(h) = Cov(Zt,Zt-h) s dependa de h.
Sendo assim para a anlise de modelos Box & Jenkins, a srie temporal deve
ser ao menos estacionria de 2 ordem.
Estacionariedade
Para analisarmos a estacionariedade da srie foi feito o correlograma da srie,
que nos mostra a FAC e a FACP da srie.

Ao observar o grfico acima, pode-se visualizar que a FAC da srie decai


lentamente, sugerindo que a srie no estacionria.

Todos os testes sero feitos com um grau de significncia de 5%. O primeiro


teste feito para confirmar a no estacionariedade da srie aplicando o teste
Aumentado de Dickey-Fuller. Suas hipteses so:

H0: a srie no estacionria x H1: a srie estacionria.

O teste Aumentado de Dickey-Fuller (ADF) testa se uma srie temporal


estacionria. Primeiramente, includa na equao do teste, a tendncia e a
constante. O teste foi realizado pelo Eviews:

Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

1,7637

-3,43

1,0000

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no rejeitada, logo a srie no estacionria. Estima-se a tendncia


para ver se ela significativa:

Retira-se a tendncia e refaz o teste sem a tendncia, s com a constante:

Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

1,9347

-3,43

0,9998

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no foi rejeitada. Ento estima-se a constante, para ver


se ela significativa:

Vemos que a constante tambm no significativa, logo feito o teste


sem a constante e sem a tendncia:

Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

1,1292

-3,43

0,9328

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no rejeitado, o teste termina e tira-se a concluso que a srie no


estacionria. Por isso preciso tomar uma diferena de lag =1 e devido a
presena de sazonalidade indicada pelo grfico da srie decomposta ser
preciso tomar uma diferena sazonal de ordem 12, pois uma srie mensal.
Segundo Morettin e Toloi (2006), necessrio aplicar a diferena sazonal de
ordem s na srie com o objetivo de eliminar a componente sazonal e conseguir
identificar o modelo SARIMA.

A seguir, tem-se o correlograma da srie diferenciada, que nos mostra a FAC e


a FACP:

Teste da Raiz Unitria para a srie Diferenciada:


Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

-4,3177

-3,43

0,0038

0 : Tem raiz unitria


1 : No tem raiz unitria

Logo, rejeita-se H0. Portanto a srie diferenciada no tem raiz unitria.

Seleo do Modelo:
O processo de modelagem foi feito baseado na anlise do
correlograma, e aps ser feito todos os testes para os resduos: de
normalidade dos resduos, homocedasticidade dos resduos e de
correlao serial, o modelo que melhor se ajustou foi esse:

Modelo SARIMA (p,d,q)x(P,D,Q)s


Modelo
(4,1,3)(0,1,1)12

Onde os componentes significativos ao nvel de 5% deste modelo foram:


ar(1) ar(2) ar(3) ar(4) ma(2) ma(4) sma(12).

Teste de Adequao do Modelo:


Grfico de Resduos do modelo:

Pelo grfico, percebe-se que os resduos esto distribudos em torno de


zero e parece no haver heterocedasticidade. Para que seja confirmado, testes
estatsticos sero feitos mais para frente.

Anlise do Correlograma residual:


Para testar a independncia dos resduos ser utilizado o teste de Ljung Box. As hipteses do teste so:

H0 : Os resduos so independentes, i.e, no correlacionados.


H1 : Os resduos no so independentes.

Pode-se observar que o p-valor para todos os lags maior que o


nvel de significncia de 5%, no rejeitando a hiptese de que os
resduos sejam independentes.

Teste de Breusch-Godfrey para autocorrelao serial:

H0: i = 0 x H1: i = 0.

Como p-valor > nvel usual de 5%, no rejeita-se H0, portanto no se tem
evidncias de que os resduos no sejam no correlacionados.

Teste para verificar a constncia da varincia dos resduos:

Test de White:
H0: Hiptese de homocesditicade x H1: Hiptese de heterocedasticidade

Como p valor > alfa (5%) no rejeita-se H0, portanto no h


evidncias de que a varincia dos resduos no sejam homocedasticas.

Outro teste que pode ser feito o de ARCH:


As hipteses so basicamente as mesmas:
H0: Hiptese de homocesditicade x H1: Hiptese de heterocedasticidade

H0 no foi rejeitado ao nvel de 5%, pois p valor > alfa(5%), portanto no


temos evidncias de que a varincia dos resduos no sejam homocedasticas.

Teste de Jarque Bera para normalidade dos termos de erro:


H0: Os resduos so normais x H1: Os resduos no so normais

O p valor do teste menor que os 5% usuais, rejeitamos que os resduos


sejam normais, alm da curtose no est prxima de 3, porm o mais
importante que os resduos tenham varincia constante e sejam nocorrelacionados, o que acontece nesse caso.

Previses:
Uma vez ajustados os modelos, daremos incio previso de valores
futuros. Sero previstos 11 passos frente pelo modelo, ou seja, os valores
previstos so para o perodo de: maio de 2014 a maro de 2015.

Previso para 11 passos frente


Meses

Ano

Previses

Valores
Verdadeiros

Previses de
Naive

Maio

2014

534,98

532

521

Junho

2014

534,82

544

532

Julho

2014

546,27

553

544

Agosto

2014

558,74

572

553

Setembro

2014

561,69

559

572

Outubro

2014

558,43

583

559

Novembro

2014

585,28

577

583

Dezembro

2014

579,68

598

577

Janeiro

2015

602,57

607

598

Fevereiro

2015

605,76

600

607

Maro

2015

600,59

601

600

O grfico das previses pode ser visto a seguir. A linha vermelha indica a
previso e as azuis, o intervalo de confiana de 95%.

NAIVE

Valores

RMSE

13,68476

MAE

12

MAPE

2,093842

Analisando e comparando os valores, pode-se observar que o modelo


ajustado apresentou melhor resultados que o modelo de Naive.

Grfico da srie original junto com a prevista:

Concluso
Baseado nos resultados anteriores, o modelo (4,1,3)(0,1,1)12,
parece ser um modelo adequado para prever os valores futuros da srie
temporal. Porm, com certeza devem haver outras ferramentas e outros tipos de
modelos que dariam previses mais eficientes.

Descrio dos dados


A segunda srie temporal utilizada neste trabalho refere-se a Produo
Industrial de Bens de Consumo No-Durveis que utilizado como medida o
ndice de quantum. Os dados variam mensalmente de janeiro de 1995 a
fevereiro de 2014, resultando numa srie de 230 valores. Os dados so
provenientes do IBGE atravs da Pesquisa Industrial Mensal.

1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014

Jan
91,29
91,31
91,04
86,17
82,23
83,03
89,95
92,3
90,11
90,03
98,62
98,68
101,08
107,08
97,92
103,34
104,64
106,92
111,16
107,73

Fev
82,77
82,23
80,85
82,09
77,94
86,8
82,64
87,36
86,83
84,16
88,59
94,13
94,92
96
93,23
102,63
106,74
106,15
101,44
105,08

Mar
97,12
89,55
89,54
94,25
94,91
91,88
93,87
94,22
89,8
98,61
100,29
106,51
107,04
103,84
107,17
119,31
117,42
118,87
109,85

Abr
85,29
87,57
94,41
89,53
90,95
84,56
88,18
96,78
88,69
91,18
99,11
96,8
100,81
106,52
102,45
110,33
108,33
107,66
113,54

Mai
90,01
99,49
95,82
96,51
97,13
95,34
98,32
96,68
93,46
95,31
102,34
107,47
111,75
111,63
109,24
115,35
118,16
115,58
116,11

Jun
94,36
96,49
100,34
99,9
99,31
97,85
96,19
92,17
89,61
95,59
102,7
104,32
109,98
110,63
106,21
112,64
111,29
110,13
112,02

Jul
98,98
111,47
108,5
110,61
105,14
102,64
104,27
102,47
96,3
100,9
103,95
107,56
111,72
117,49
114
118,5
118,72
116,53
120,15

Ago
105,87
112,31
108,91
108,27
108,11
108,9
112,16
107,67
98,6
105,55
113,51
114,98
119,92
118,44
117,1
121,88
125,26
125,62
124,36

Set
101,56
107,6
113,18
108,45
107,94
102,45
104,88
104,6
103,95
109,4
109,34
111,95
114,28
122,32
117,54
124,88
122,63
121,56
119,83

Out
105,96
113,99
118,69
110,57
109,13
111,5
111,05
117,69
111,11
110,93
112,45
118,89
126,39
127,73
126,98
128,44
126,32
131,25
131,02

Nov
105,73
108,76
106,61
107,81
105,96
107,25
111,66
110,46
105,87
112,13
114,86
118
123,15
119,49
121,93
126,1
125,56
126,9
124,67

Anlise dos Dados


Antes de iniciar a modelagem, ser feita a anlise exploratria dos dados,
isto , observar o grfico da srie para verificar se a mesma estacionria, ou
se composta por tendncia ou sazonalidade e etc. O grfico da srie temporal
pode ser visto a seguir:

Dez
93,78
94,06
92,43
92,88
93,8
95,14
93,43
97,54
99,3
106,37
109,12
108,93
110,43
108,31
114,99
115,36
114,53
114,54
110,85

O software R possui uma funo chamada monthplot que mostra a


variao dos dados para todos os meses. Nessa ferramenta possvel ver
indcios de sazonalidade. Veja o grfico abaixo:

Pode-se notar que a produo tende a ser menor nos primeiros meses e
vai crescendo com o passar dos meses at se aproximar de outubro quando
tem o seu maior crescimento e volta a decair.

DECOMPOSIO SERIAL:

Pode se observar que a srie aparenta ter tendncia e sazonalidade. A


componente aleatria aparenta ter comportamento similar ao de um rudo
branco.

Comportamento sazonal:

Estacionariedade
Para analisarmos a estacionariedade da srie foi feito o correlograma da srie,
que nos mostra a FAC e a FACP da srie.

Ao observar o grfico acima, pode-se visualizar que a FAC da srie


possui um comportamento sazonal.

Todos os testes sero feitos com um grau de significncia de 5%. O primeiro


teste feito para confirmar a no estacionariedade da srie aplicando o teste
Aumentado de Dickey-Fuller. Suas hipteses so:

H0: a srie no estacionria x H1: a srie estacionria.

O teste Aumentado de Dickey-Fuller (ADF) testa se uma srie temporal


estacionria. Primeiramente, includa na equao do teste, a tendncia e a
constante. O teste foi realizado pelo Eviews:
Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

-2,0180

-3,43

0,5876

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no rejeitada, portanto a srie no estacionria. Estima-se a


tendncia para ver se ela significativa:

Retira-se a tendncia e refaz o teste sem a tendncia, s com a constante:

Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

0,0111

-3,43

0,9577

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no foi rejeitada. Ento estima-se a constante, para ver


se ela significativa:

Vemos que a constante tambm no significativa, logo feito o teste


sem a constante e sem a tendncia:

Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

1,6314

-3,43

0,9750

0 : Tem raiz unitria


1 : No tem raiz unitria

H0 no rejeitado, o teste termina e tira-se a concluso que a srie no


estacionria. Por isso preciso tomar uma diferena de lag =1 e devido a
presena de sazonalidade indicada pelo grfico da srie decomposta ser
preciso tomar uma diferena sazonal de ordem 12, pois uma srie mensal.
Segundo Morettin e Toloi (2006), necessrio aplicar a diferena sazonal de
ordem s na srie com o objetivo de eliminar a componente sazonal e conseguir
identificar o modelo SARIMA.

A seguir, tem-se o correlograma da srie diferenciada, que nos mostra a FAC e


a FACP:

Teste da Raiz Unitria para a srie Diferenciada:


Teste ADF
Hipteses

Estatstica de Teste

Valor Crtico
(5%)

P Valor

-4,5164

-3,43

0,0018

0 : Tem raiz unitria


1 : No tem raiz unitria

Logo, rejeita-se H0. Portanto a srie diferenciada no tem raiz unitria.

Seleo do Modelo:
O processo de modelagem foi feito baseado na anlise do
correlograma, e aps ser feito todos os testes para os resduos: de
normalidade dos resduos, homocedasticidade dos resduos e de
correlao serial, os modelos que melhores se ajustaram foram esses:

Modelo SARIMA (p,d,q)x(P,D,Q)s


Modelo
(4,1,2)(1,1,0)12
(4,1,0)(1,1,0)12

Pelo princpio da parcimnia, foi escolhido o modelo:


(4,1,0)(1,1,0)12
Alm deste apresentar menor erro na previso que o outro.

Os componentes significativos ao nvel de 5% deste modelo foram:


ar(1) ar(2) sar(12) ar(24) ar(36) ar(48).

Teste de Adequao do Modelo:


Grfico de Resduos do modelo:

Pelo grfico, percebe-se que os resduos esto distribudos em torno de


zero e parece no haver heterocedasticidade. Para que seja confirmado, testes
estatsticos sero feitos mais para frente.

Anlise do Correlograma residual:


Para testar a independncia dos resduos ser utilizado o teste de Ljung Box. As hipteses do teste so:

H0 : Os resduos so independentes, i.e, no correlacionados.


H1 : Os resduos no so independentes

Pode-se observar que o p-valor para quase todos os lags maior


que o nvel de significncia de 5%, no rejeitando a hiptese de que os
resduos sejam independentes.

Teste de Breusch-Godfrey para autocorrelao serial:

H0: i = 0 x H1: i = 0.

Como p-valor > nvel usual de 5%, no rejeita-se H0, portanto no se tem
evidncias de que os resduos no sejam no correlacionados.

Teste para verificar a constncia da varincia dos resduos:

Test de White:
H0: Hiptese de homocesditicade x H1: Hiptese de heterocedasticidade

Como p valor > alfa(5%), logo no rejeita-se H0, portanto no h evidncias de


que a varincia dos resduos no sejam homocedasticas.

Outro teste que pode ser feito o de ARCH:


As hipteses so basicamente as mesmas:
H0: Hiptese de homocesditicade x H1: Hiptese de heterocedasticidade

H0 no foi rejeitado ao nvel de 5%, portanto no temos evidncias de que a


varincia dos resduos no sejam homocedasticas.

Teste de Jarque Bera para normalidade dos termos de erro:


H0: Os resduos so normais x H1: Os resduos no so normais

O p valor do teste maior que os 5% usuais, no rejeitamos que os


resduos sejam normais, alm da curtose est prxima de 3.

Previses:
Uma vez ajustados os modelos, daremos incio previso de valores
futuros. Sero previstos 12 passos frente pelo modelo, ou seja, os valores
previstos so para o perodo de: maro de 2013 a fevereiro de 2015.

Previso para 12 passos frente


Meses

Ano

Previses

Valores
Verdadeiros

Previses de
Naive

Maro

2013

115,18

109,85

101,44

Abril

2013

107,88

113,54

109,85

Maio

2013

116,64

116,11

113,54

Junho

2013

110,46

112,02

116,11

Julho

2013

118,78

120,15

112,02

Agosto

2013

125,71

124,36

120,15

Setembro

2013

123,26

119,83

124,36

Outubro

2013

129,69

131,02

119,83

Novembro

2013

124,81

124,67

131,02

Dezembro

2013

112,43

110,85

124,67

Janeiro

2014

107,78

107,73

110,85

Fevereiro

2014

99,43

105,08

107,73

O grfico das previses pode ser visto a seguir. A linha vermelha indica a
previso e as azuis, o intervalo de confiana de 95%.

NAIVE

Valores

RMSE
MAE
MAPE

6,983952
6,063333
5,185173

Analisando e comparando os valores, pode-se observar que o modelo


ajustado apresentou resultados bem melhores que o modelo de Naive.

Grfico da srie original junto com a prevista:

Concluso:
Baseado nos resultados anteriores, o modelo (4,1,0)(1,1,0)12,
parece ser um modelo adequado para prever os valores futuros da srie
temporal. Porm, com certeza devem haver outras ferramentas e outros tipos de
modelos que dariam previses mais eficientes.

Referncias
MORETTIN, Pedro A.; TOLOI, Clia M. C.; Anlise de Sries Temporais. 2
Edio. So Paulo: Blucher, 2006.
Sarima Models, acesso em 18 de junho de 2014. Disponvel em:
http://www.personal.psu.edu/asb17/old/sta4853/files/sta4853-17.pdf
HAMILTON, James D.; Time Series Analysis. Princeton University Press,
1954

Anda mungkin juga menyukai