EcAppl Dispense

Econometria Applicata
Tommaso Proietti
Dipartimento di Scienze Statistiche
Università di Udine
Indice
1 Descrizione e Previsione di Serie Temporali 6
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Analisi esplorativa delle serie temporali . . . . . . . . . . . . . . . . . 7
1.2.1 La trasformazione logaritmica e le dierenze della serie . . . . 8
1.2.2 Le sintesi della distribuzione del fenomeno . . . . . . . . . . . 10
1.2.3 Autocorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Il modello classico di scomposizione di una serie temporale . . . . . . 13
1.4 Stima del modello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.1 Test di ipotesi e di signicatività su un singolo coeciente . . 20
1.4.2 Misura della bont` a delladattamento . . . . . . . . . . . . . . 21
1.5 Previsione mediante modelli deterministici . . . . . . . . . . . . . . . 21
1.6 Previsione mediante livellamento esponenziale . . . . . . . . . . . . . 22
1.7 Previsione mediante il metodo di Holt-Winters . . . . . . . . . . . . . 23
1.8 Procedura di Holt-Winters stagionale . . . . . . . . . . . . . . . . . . 25
2 I modelli ARIMA 26
2.1 Premessa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2 Generalità sui processi stocastici . . . . . . . . . . . . . . . . . . . . . 26
2.3 Momenti campionari . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 Il teorema di Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Autocorrelazione parziale . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.6 Lalgebra delloperatore L . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7 Processi Autoregressivi . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.7.1 Processo AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.7.2 Processo AR(2) . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.7.3 Processo AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.8 Processi media mobile . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8.1 Processo MA(1) . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8.2 Processo MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.9 Processi misti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.10 Non stazionarietà . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1
2.11 Stagionalità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.12 Lapproccio di Box e Jenkins . . . . . . . . . . . . . . . . . . . . . . . 38
2.12.1 Identicazione . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.12.2 Stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.12.3 Verica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.13 Previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3 Analisi non parametrica delle serie temporali 44
3.1 Le medie mobili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.2 Eetto fase ed eetto ampiezza . . . . . . . . . . . . . . . . . . . . . 45
3.3 Leetto di Slutzky-Yule . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Polinomi locali; ltri di Macaulay . . . . . . . . . . . . . . . . . . . . 47
3.4.1 Varianza e distorsione . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Medie mobili aritmetiche semplici . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Componente stagionale di periodo s pari . . . . . . . . . . . . 50
3.6 Composizione di mm aritmetiche . . . . . . . . . . . . . . . . . . . . 50
3.7 Lisciamento e ltri di Henderson . . . . . . . . . . . . . . . . . . . . . 51
3.8 Il trattamento delle estremità della serie . . . . . . . . . . . . . . . . 51
4 La destagionalizzazione delle serie temporali 52
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 La procedura X-12-ARIMA . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Il ltro di destagionalizzazione (Enhanced X-11) . . . . . . . . . . . . 55
4.3.1 Prima fase: stime iniziali . . . . . . . . . . . . . . . . . . . . . 56
4.3.2 Seconda fase: fattori stagionali e destagionalizzazione . . . . . 57
4.3.3 Terza fase: stima nale delle componenti . . . . . . . . . . . . 59
4.4 Le proprietà teoriche del ltro . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Correzione dei valori anomali nellX-11 . . . . . . . . . . . . . . . . . 61
4.6 Le componenti di calendario . . . . . . . . . . . . . . . . . . . . . . . 62
4.7 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7.1 Test di stagionalità . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7.2 Nuova diagnostica su stagionalità residua e leetto del n.
giorni lavorativi . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.7.3 Test di casualità dei residui I
(3)
t
. . . . . . . . . . . . . . . . . 64
4.7.4 Bont` a della destagionalizzazione . . . . . . . . . . . . . . . . . 65
4.7.5 Diagnostiche basate sulla stabilità delle stime . . . . . . . . . 65
5 Analisi Econometrica di Dati non Stazionari 71
5.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Stazionarietà ed integrazione . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Il test di Dickey e Fuller . . . . . . . . . . . . . . . . . . . . . . . . . 75
2
5.4 Il test ADF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.5 Trend e RW nelle serie economiche . . . . . . . . . . . . . . . . . . . 78
5.6 Persistenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.7 Integrazione stagionale . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.8 Test di integrazione stagionale . . . . . . . . . . . . . . . . . . . . . . 86
5.9 Critiche allapplicazione dei test per radici unitarie . . . . . . . . . . 87
5.10 Le implicazioni econometriche . . . . . . . . . . . . . . . . . . . . . . 88
5.10.1 Modello nei livelli . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.10.2 Modello nelle dierenze . . . . . . . . . . . . . . . . . . . . . . 89
5.10.3 Regressione tra serie detrendizzate . . . . . . . . . . . . . . . 90
5.11 Modelli con meccanismo a correzione dellerrore . . . . . . . . . . . . 91
5.12 Cointegrazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6 I Modelli Strutturali per lAnalisi delle Serie
Temporali 99
6.1 Lapproccio modellistico e la classe dei modelli strutturali . . . . . . . 99
6.2 Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.3 La modellazione del ciclo economico . . . . . . . . . . . . . . . . . . . 102
6.4 Componente stagionale . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.5 Il trattamento statistico del modello e la stima delle componenti . . . 103
6.5.1 La rappresentazione nello spazio degli stati . . . . . . . . . . . 104
6.5.2 Il ltro di Kalman . . . . . . . . . . . . . . . . . . . . . . . . 105
6.5.3 Verosimiglianza e inizializzazione del ltro . . . . . . . . . . . 106
6.5.4 Smoothing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.5.5 Diagnostica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.6 Componenti di calendario . . . . . . . . . . . . . . . . . . . . . . . . 108
6.7 Altre specicazioni della componente stagionale . . . . . . . . . . . . 108
3
Elenco delle tabelle
4.1 Filtro di Henderson: pesi h
j
per le m.m a 9, 13, 17 e 23 termini . . . 58
4
Elenco delle gure
1.1 Graco di quattro serie temporali. . . . . . . . . . . . . . . . . . . . 9
1.2 Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE). 12
1.3 Correlogramma della trasformazione
12
ln y
t
della serie delle vendite
(variazioni relative su base annua). . . . . . . . . . . . . . . . . . . . 14
4.1 Destagionalizzazione della serie Airline. . . . . . . . . . . . . . . . 53
4.2 Pesi e funzioni di trasferimento per il ltro X-11 default . . . . . . . 68
4.3 Pesi e funzioni di trasferimento per il ltro X-11 con ltro di Hender-
son a 17 termini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 Serie BDIGENGS: livello degli ordini e della domanda dallinterno
per il totale industria (saldi), ISCO. . . . . . . . . . . . . . . . . . . 70
5
Capitolo 1
Descrizione e Previsione di Serie
Temporali
1.1 Introduzione
Una serie temporale costituisce una sequenza di osservazioni su un fenomeno y ef-
fettuate in istanti o intervalli (rispettivamente per le variabili di stock e di usso) di
tempo consecutivi e solitamente, anche se non necessariamente equispaziati (stock)
o della stessa lunghezza (ussi). Un esempio di una variabile di stock è costituito dal
prezzo di un prodotto, mentre un esempio di usso è rappresentato dalle vendite di
un particolare bene realizzate in un intervallo di tempo. Una tipologia intermedia è
costituita dalle medie temporali di uno stock (prezzi medi in un periodo di tempo).
Denotando con t = 1, . . . , T il tempo, indicheremo tale sequenza y
t
; il tempo è
il criterio ordinatore che non può essere trascurato, per cui occorre conoscere anche
la posizione dellosservazione lungo la dimensione temporale. Generalmente, si usa
rappresentare la coppia di valori (t, y
t
) su diagramma cartesiano, con un graco a
tratto continuo, come se il fenomeno fosse rilevato con continuit` a.
Lanalisi univariata delle serie temporali, oggetto del presente capitolo, si pro-
pone di interpretare il meccanismo dinamico che ha generato la serie e di prevedere
le realizzazioni future del fenomeno: in queste operazioni linformazione che viene
sfruttata riguarda esclusivamente la coppia (t, y
t
), t = 1, . . . , T. Il punto fondamen-
tale è che il passato ed il presente contengono informazioni rilevanti per prevedere
levoluzione futura del fenomeno.
Si può ritenere che lanalisi univariata sia troppo limitativa; solitamente si di-
spone di informazioni su fenomeni collegati a quello da prevedere e che andreb-
bero opportunamente incorporate al ne di migliorare la performance del modello
di previsione. Ciò nonostante, essa è un utile benchmark che consente di validare
alternative pi` u sosticate.
6
1.2 Analisi esplorativa delle serie temporali
Lanalista aziendale è interessato a seguire nel tempo levoluzione dei fenomeni eco-
nomici di interesse, quali la produzione e le vendite, le scorte di magazzino, i ussi
turistici, le quote di mercato etc. Molto spesso linteresse non è incentrato sul valore
assoluto del fenomeno, ma piuttosto sulle variazioni relative, vale a dire sui tassi di
crescita.
In tal caso lanalista può assumere un istante o intervallo temporale di riferi-
mento (detto base), che viene mantenuto sso, e valutare la dinamica del fenomeno
relativamente alla base. Sia ad es. y
0
il valore delle vendite di un particolare bene
al tempo base: il numero indice (percentuale) delle vendite al tempo t è fornito da
i
0t
= 100
y
t
y
0
,
mentre il tasso di variazione relativo è dato dal complemento a 100, i
0t
100; cos`,
se i
04
= 105.2, il valore delle vendite nel periodo t = 4 è superiore a quello del tempo
base per una quota pari al 5.2%.
Altre volte è utile rarontare il valore del fenomeno con quello del tempo prece-
dente, considerando gli indici a base mobile e le variazioni percentuali
i
t1,t
= 100
y
t
y
t1
, i
t1,t
100 = 100
y
t
y
t1
y
t1
Un problema sorge quando il fenomeno è complesso, vale a dire risulta dalla
combinazione di pi` u fenomeni elementari; si pensi alla costruzione di un indice dei
prezzi di vendita di unimpresa che produce beni dierenziati (ad es. cioccolatini,
caramelle, panettoni etc.). Una soluzione pratica consiste nel costruire un indice di
tipo Laspeyres:
I
0t
= 100
k
p
kt
q
k0
k
p
k0
q
k0
= 100
k
(p
kt
/p
k0
)p
k0
q
k0
k
p
k0
q
k0
dove p
kt
rappresenta il prezzo del prodotto k al tempo t e q
kt
la quantità venduta
corrispondente.
Se il fenomeno è stagionale, presentando delle oscillazioni ricorrenti e periodiche
nellarco dellanno (le vendite sono pi` u elevate nel mese di dicembre per eetto del
Natale), ha senso calcolare i tassi di variazione relativa con riferimento allo stesso
periodo dellanno precedente, al ne di ottenere una valutazione non inuenzata
dalla stagionalità. Nel caso di osservazioni mensili:
i
t12,t
= 100
y
t
y
t12
, i
t12,t
100 = 100
y
t
y
t12
y
t12
Uno dei pi` u ecaci strumenti esplorativi è senza dubbio il graco della serie (e
delle sue trasformazioni), il quale può immediatamente rivelare alcuni fatti stilizzati,
7
come la presenza e la natura del trend, della stagionalità, di uttuazioni di breve
periodo, di valori anomali o rotture strutturali (si veda [?], cap. 3, per alcune
questioni di stile concernenti le rappresentazioni grache delle serie temporali).
La gura 1.1 mette in luce che fenomeni diversi possono mostrare comporta-
menti molto dierenziati: la prima serie, formata da 135 misurazioni del diametro
di componenti di un pistone prodotte ad intervalli di tempo regolari, si manifesta
piuttosto irregolare, uttuando attorno ad un valore medio (linea tratteggiata)
che può essere assunto costante. La seconda è la serie semestrale dei contratti per
telefonia cellulare e presenta un evidente trend di natura esponenziale. La terza
riguarda le vendite eettuate da una società anonima ed ha periodicità mensile; le
vendite mostrano un trend crescente, ma il fatto nuovo, non osservabile nelle altre
serie, è la presenza di una forte stagionalità, tale che il massimo annuale si ha in
corrispondenza del mese di novembre ed il minimo in quello di maggio. Inoltre,
lampiezza delle uttuazioni stagionali cresce al crescere del trend. Lultima serie
rappresenta il logaritmo dei prezzi giornalieri di chiusura sul mercato azionario di
Londra (FTSE); torneremo tra breve su questa serie.
1.2.1 La trasformazione logaritmica e le dierenze della se-
rie
Con riferimento allultima serie abbiamo utilizzato la trasformazione logaritmica;
esistono almeno due buone ragioni che possono giusticarne limpiego. In primo
luogo essa stabilizza la variabilit` a della serie, quando questa si riveli crescente al
crescere del trend: questa circostanza si verica per la serie delle vendite, la cui
trasformazione logaritmica non possiede pi` u la caratteristica segnalata precedente-
mente riguardo alle uttuazioni stagionali, che presenteranno ampiezza costante. In
eetti, se la serie può essere pensata come il risultato dellinterazione moltiplicativa
di pi` u componenti, mediante la trasformazione logaritmica si rende tale relazione
puramente additiva.
In generale, si consideri una variabile casuale y
t
con media
t
e varianza
2
2
t
;
si desidera determinare la trasformazione f(y
t
) tale che Var[f(y
t
)] sia costante.
Lapprossimazione di Taylor del primo ordine attorno a
t
della funzione f(y
t
) è:
f(y
t
) f(
t
) + f
(
t
)(y
t
t
)
e, pertanto, Var[f(y
t
)] f
(
t
)
2
2
t
2
. Occorre dunque scegliere la funzione in modo
tale che:
f
(
t
) =
1
t
,
da cui discende che la trasformazione richiesta è quella logaritmica (d ln y/dy = 1/y),
per cui f() = ln().
8
Figura 1.1: Graco di quattro serie temporali.
Diametro pistone
0 20 40 60 80 120
3
5
4
0
4
5
Contratti Cellulari
1986 1990 1994
0
.
0

e
+
0
0
1
.
5

e
+
0
7
3
.
0

e
+
0
7
Vendite della compagnia X
1965 1967 1969 1971
2
0
0
4
0
0
6
0
0
8
0
0
UK FTSE
1992 1994 1996 1998
7
.
8
8
.
0
8
.
2
8
.
4
8
.
6
9
La seconda ragione attiene allimpiego della trasformazione in congiunzione alle
dierenze della serie. Infatti, denendo
k
ln y
t
= ln y
t
ln y
tk
,
si ha che le dierenze k-esime costituiscono unapprossimazione della variazione
relativa del fenomeno dal tempo t k al tempo t, ovvero:
k
y
t

y
t
y
tk
y
tk
.
Per comprendere la natura dellapprossimazione si prenda, senza perdita di
generalità, il caso k = 1 (dierenze prime logaritmiche):
ln y
t
= ln
_
y
t
y
t1
_
= ln
_
1 +
y
t
y
t1
_
= ln(1 +r
t
)
dove r
t
= y
t
/y
t1
è il tasso di variazione relativo rispetto al tempo precedente. Lo
sviluppo in serie di Taylor della funzione ln(1 +r
t
) attorno al punto r
t
= 0 risulta:
ln(1 +r
t
) = r
t
1
2
r
2
t
+
1
3
r
3
t
+ ,
per cui si può aermare che lny
t
rappresenta lapprossimazione di Taylor del primo
ordine della variazione relativa. La bont` a dellapprossimazione dipende dallordine
di grandezza di questultima.
1.2.2 Le sintesi della distribuzione del fenomeno
Le sintesi del fenomeno eettuate mediante le medie e le varianze
Media: y = T
1
T
t=1
y
t
Varianza: S
2
= T
1
T
t=1
(y
t
y)
2
o altre statistiche descrittive (asimmetria, curtosi, etc.), che consideriamo nel pro-
sieguo della discussione, hanno signicato solo se sono stabili nel tempo.
Nel caso di variabili univariate siamo soliti andare a guardare la distribuzione
dei valori mediante la stima della densità della stessa (cfr. appendice ??). Questa
sintesi potrebbe non avere molto senso nel caso di serie temporali data la forte
interdipendenza nel tempo, e sarebbe sicuramente non informativa per tutte le serie
considerate ad eccezione della prima. In eetti, lo stima della distribuzione di un
fenomeno assume che le osservazioni a nostra disposizione costituiscano un campione
casuale proveniente da ununica popolazione di valori, e risulta oltremodo dicile
ritenere che la distribuzione del fenomeno sia costante nel caso della serie delle
10
vendite, per il quale si osserva che in media il fenomeno è crescente e ha movimenti
stagionali.
Ciò non implica che lo studio della distribuzione sia del tutto privo di rilievo
anche con riferimento ad una trasformazione della serie. Si consideri, ad esempio,
la serie dei rendimenti (log return),
r
t
= ln y
t
= ln y
t
ln y
t1
,
calcolata con riferimento alla serie FTSE e presentata nel primo pannello della -
gura 1.2. Il graco dei rendimenti contro i valori ritardati di un periodo mostra,
nella sostanza, che r
t
è incorrelato con r
t1
(questo implicherebbe che la conoscenza
del passato non è di aiuto per predire il futuro); tuttavia, si osservano dei periodi
in cui la volatilit` a della serie è pi` u pronunciata, ed eettivamente, se consideriamo
la distribuzione dei rendimenti mediante listogramma e una stima non parametrica
della densità si nota la presenza del fenomeno noto come leptocurtosi: la distribuzio-
ne presenta un addensamento delle frequenze sui valori centrali e sulle code rispetto
al caso normale (lultimo riquadro riporta, accanto alla stima non parametrica, la
densità di una variabile casuale normale con media e varianza poste uguali a quelle
osservate per i rendimenti r
t
); questo implica che la possibilità di osservare eventi
estremi è maggiore.
Due misure di sintesi molto utili al ne di caratterizzare la natura della distri-
buzione sono lindice di asimmetria:
skewness =
1
T
T
t=1
_
y
t
y
S
_
3
,
e di curtosi:
curtosi =
1
T
T
t=1
_
y
t
y
S
_
4
.
Se la distribuzione è simmetrica il primo indice è pari a zero, mentre il valore teorico
di riferimento per il secondo è quello assunto sotto lipotesi di distribuzione normale,
pari a 3; valori superiori indicano che la distribuzione è leptocurtica.
Al ne di testare dal punto di vista formale la conformità con la distribuzione
normale si può utilizzare il test di Jarque e Bera [?], il quale è basato sulla statistica:
JB =
T
6
_
skewness
2
+
1
4
(curtosi 3)
2
_
che, sotto lipotesi nulla di normalità, ha distribuzione
2
con 2 gradi di libertà.
Un ausilio graco nalizzato alla valutazione di conformità con la distribuzione nor-
male è il cosiddetto qqplot che costituisce il diagramma a dispersione dei quantili
della distribuzione empirica della serie osservata con quelli teorici della distribuzione
normale con stessa media e varianza; esso può essere ottenuto in R utilizzando la
funzione qqnorm(). Se la distribuzione del fenomeno è normale i punti si dispongono
lungo una linea retta.
11
Figura 1.2: Distribuzione dei rendimenti sul mercato azionario di Londra (FTSE).
Rendimenti FTSE
1992 1994 1996 1998
0
.
0
4
0
.
0
0
0
.
0
2
0
.
0
4
0.04 0.00 0.02 0.04
0
.
0
4
0
.
0
0
0
.
0
2
0
.
0
4
r
t
versus r
t1
Distr. Rendimenti
0.04 0.00 0.02 0.04
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
0.04 0.00 0.02 0.04
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
Confronto distribuzione normale
12
1.2.3 Autocorrelazione
I fenomeni aziendali presentano una cosiddetta dipendenza temporale, o autocorrela-
zione, nel senso che il presente dipende dal passato; un semplice modo per vericare
se la serie è autocorrelata consiste nel rappresentare in un diagramma a dispersione
y
t
e y
t1
(la serie ritardata di un periodo - in generale deniamo la serie ritardata
di k periodi slittando la serie originaria k periodi in avanti, di modo che al tempo t
viene associato il valore y
tk
); se si ottiene una nuvola di punti che si muove attorno
ad una retta inclinata positivamente, allora si dice che y
t
presenta autocorrelazione
positiva e che quanto pi` u il valore registrato nel periodo precedente è elevato, tanto
pi` u è lecito attendersi un valore positivo ed alto per il tempo corrente; viceversa nel
caso di autocorrelazione negativa. Il coeciente di correlazione tra y
t
e y
t1
misura
lintensit` a del legame della serie con il passato. Si parla inoltre di autocorrelazione
di ordine k se y
t
è correlato con y
tk
.
Lautocovarianza campionaria a lag, o ritardo, k è calcolata come segue:
c
k
= T
1
T
t=1
(y
t
y)(y
tk
y)
si osservi che a stretto rigore gli scarti dalla media delle osservazioni ritardate do-
vrebbero essere calcolati con riferimento alla media delle T k osservazioni y
tk
, t =
k + 1, . . . , T; tuttavia, se T è sucientemente elevato e il fenomeno non presenta
tendenza, questa non dierisce dalla media globale. Il coeciente di autocorrela-
zione al medesimo ritardo è fornito da
k
= c
k
/c
0
. Osserviamo che a denominatore
dovremmo avere il prodotto degli scarti quadratici medi di y
t
, t = 1, . . . , T, e di
y
tk
, t = k + 1, . . . , T; anche in questo caso, sotto certe condizioni, il secondo non
dierisce da

c
0
= S.
La tipologia di rappresentazione graca che viene comunemente impiegata per
rappresentare le autocorrelazioni è il correlogramma, un diagramma ad aste che
contiene in ascissa i valori consecutivi del ritardo k e in ordinata i valori delle auto-
correlazioni corrispondenti. Un esempio è fornito dalla gura 1.3 ed è stato prodotto
dalla funzione acf() della libreria ts di R.
La dipendenza del fenomeno dal passato è fortemente legata alla possibilità di
prevedere le realizzazioni future dalla conoscenza del comportamento nel tempo.
1.3 Il modello classico di scomposizione di una
serie temporale
Le serie temporali relative a fenomeni economico-aziendali presentano delle carat-
teristiche comuni, che sono state identicate come trend, ciclo, stagionalità (per
13
Figura 1.3: Correlogramma della trasformazione
12
ln y
t
della serie delle vendite
(variazioni relative su base annua).
0.0 0.5 1.0 1.5
0
.
2
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Series diff(log(sales), 12)
14
osservazioni subannuali); questi segnali possono essere contaminati da oscillazio-
ni che a prima vista appaiono non strutturate e che possono essere identicate
come puramente casuali. Lanalisi classica prende le mosse da questa naturale con-
statazione, proponendo i seguenti modelli di scomposizione della serie temporale
(rispettivamente modello additivo e modello moltiplicativo):
y
t
=
t
+
t
+
t
+
t
y
t
=
t
t
(1.1)
dove, in generale, le componenti hanno natura deterministica ad eccezione di quella
irregolare; questultima viene intesa come una componente puramente casuale, non
prevedibile dalla conoscenza delle sue realizzazioni passate e che si sovrappone ai
segnali senza avere una sistematicità. Nel caso additivo, un modello statistico per
catturare queste caratteristiche postula che
t
sia una sequenza di realizzazioni di
variabili casuali normali identicamente e distribuite in maniera indipendente con
media nulla e varianza costante; in simboli,
t
NID(0,
2
). Una versione pi` u
debole non richiede la normalità, ma si limita ad assumere che
t
, t = 1, . . . , T siano
variabili causali incorrelate a media nulla e varianza costante. Nel seguito faremo
riferimento esclusivo al modello di scomposizione additivo, al quale si può ricondurre
il modello moltiplicativo in seguito allapplicazione della trasformazione logaritmica.
Il simbolo
t
denota la componente tendenziale (trend), espressione della di-
namica di lungo periodo della serie, generalmente rappresentata da una funzione
deterministica (ad es. un polinomio) del tempo, t:
Trend costante (di grado 0):
t
=
0
Trend lineare:
t
=
0
+
1
t
Trend quadratico:
t
=
0
+
1
t +
2
t
2
Trend logistico (per fenomeni caratterizzati da un livello di saturazione):
t
=

0
1 +
1
exp(
2
t)
Trend esponenziale:
t
= exp(
0
+
1
t)
La componente di breve periodo, detta anche ciclo, è denotata con
t
ed è
rappresentata da una funzione trigonometrica:
t
= cos(t) + sin(t)
dove [0, ] rappresenta la frequenza angolare, tale che il periodo delloscillazione
è pari a P = 2/ e e determinano lampiezza delloscillazione (A =
2
+
2
).
La componente stagionale coglie le oscillazioni sistematiche della serie che hanno
periodo uguale allanno; Hylleberg, [?] propone la seguente denizione:
15
Seasonality is the systematic, although not necessarily regular, intra-
year movement caused by the changes of the weather, the calendar, and
timing of decisions, directly or indirectly through the production and
consumption decisions made by the agents of the economy. These deci-
sions are inuenced by endowments, the expectations and preferences of
the agents, and the production techniques available in the economy.
Harvey [?] fornisce una denizione incentrata sul problema della previsione, che
individua la stagionalità nella componente della serie che estrapolata si ripete co-
stantemente per ogni periodo di tempo pari allanno (periodicità) ed ha somma nulla
su quel periodo. Sebbene vi sia suciente consenso attorno a queste denizioni, che
lasciano aperta la possibilità che la componente stagionale evolva nel tempo, un
aspetto altrettanto importante è la loro traduzione operativa.
Supponiamo che la serie temporale sia osservata con periodicità s (dove s denota
il numero di stagioni in un anno, vale a dire s = 4 per dati trimestrali, s = 12 per dati
mensili, s = 52 per dati settimanali, etc.) e denotiamo con
t
leetto stagionale al
tempo t. Ci sono due approcci equivalenti alla modellazione di un pattern stagionale
deterministico (vale a dire invariante nel tempo): nel dominio temporale, mediante
lintroduzione di particolari variabili indicatrici dette dummy stagionali; nel dominio
frequenziale, mediante una combinazione lineare di funzioni trigonometriche, seno e
coseno in particolare. Secondo il primo approccio,
t
=
s
j=1
j
D
jt
(1.2)
dove D
jt
è una dummy stagionale, D
jt
= 1 nella stagione j e 0 altrimenti, e i
coecienti
j
misurano leetto associato al corrispondente periodo dellanno. Se la
serie contiene anche una componente tendenziale e il modello di scomposizione è del
tipo
y
t
=
0
+
1
t +
s
j=1
j
D
jt
+
t
,
si incontra immediatamente una dicoltà, consistente nel fatto che il modello non è
identicato, poiche esiste dipendenza lineare tra i regressori (infatti la somma delle
s dummy stagionali è pari allunità e questo eetto viene confuso con lintercetta).
A tale problema si rimedia vincolando i coecienti
j
ad avere somma nulla; tale
restrizione consente di identicare il modello (1.1) quando è presente il termine
di intercetta e, sotto lipotesi che la componente irregolare sia abbia distribuzione
t
NID(0,
2
), il modello (1.1) può essere stimato mediante i minimi quadrati
(MQ) vincolati (cfr. [?]).
Invece di vincolare i coecienti
j
ad avere somma nulla, si possono utilizzare
strategie alternative che rendono praticabili le stime dei MQ ordinari.
16
Una parametrizzazione equivalente si ottiene ponendo

D
jt
= 1, t = j, mod
s,

D
jt
= 0, t = j mod s,

D
jt
= 1, t = s, mod s (vale a dire ponendo
D
jt
= D
jt
D
st
per j = 1, . . . , s 1) e stimando il modello
y
t
=
0
+
1
t +
s1
j=1
j

D
jt
+
t
Leetto stagionale associato alla stagione s si ottiene come segue:
s
=
s1
j=1
j
Una soluzione consiste nelleliminare lintercetta, stimando il modello
y
t
=
1
t +
s
j=1
j
D
jt
+
t
dove
j
=
j
+
0
, mediante i MQO. Ottenute le stime dei parametri, si ottiene
0
= 1/s
j
e

j
=

0
.
Alternativamente, possiamo modellare la stagionalità introducendo soltanto
s 1 dummy del tipo D
jt
, ad es. escludendo lultima:
y
t
=
0
+
1
t +
s1
j=1
j
D
jt
+
t
In tal caso,
0
+
j
=
0
+
j
, j = 1, . . . , s 1, e
0
=
0
+
s
; sommando
rispetto a j si ottiene:
0
=
0
+
1
s
s1
j=1
j
e successivamente si possono ricavare gli eetti originari
j
.
Il modello trigonometrico è formulato nei termini di s1 eetti associati allampiezza
di s/2 onde cicliche denite alle frequenze 2j/s, j = 1, 2, . . . , s/2: per s pari,
t
=
s/2
j=1
[
j
cos(
j
t) +
j
sin(
j
t)] (1.3)
La proprietà condivisa da tutte queste parametrizzazioni è che la somma degli
eetti stagionali su s unità temporali consecutive è identicamente nulla:
s1
j=0
tj
= 0.
17
1.4 Stima del modello
Il modello di scomposizione deterministico può essere rappresentato come segue:
y
t
= b
1
x
t1
+ . . . + b
k
x
tk
+
t
= x
t
b +
t
, t = 1, . . . , T,
con x
t
= [x
t1
, x
t2
, . . . , x
tk
] e b è un vettore contenente i k coecienti di regres-
sione. Ad esempio, il modello con trend lineare e s dummy stagionali ha x
t
=
[t, D
1t
, . . . , D
st
] e b = [
1
,
1
, . . . ,
s
]
, mentre il modello trend quadratico pi` u irrego-

lare, y
t
=
0
+
1
t +
2
t
2
+
t
presenta x
t
= [1, t, t
2
]
e b = [
0
,
1
,
2
]
.
Le T equazioni lineari possono essere riscritte in forma matriciale
y = Xb +,
con y = [y
1
, . . . , y
t
, . . . , y
T
]
e X = [x
1
, x
2
, . . . , x
T
]
. Il nostro obiettivo è stimare i

parametri incogniti (i coecienti b e
2
), fare inferenze, per vericare se soddisfano
le conoscenze a priori o altri vincoli, vericare che il modello costituisca una valida
interpretazione della realtà e prevedere le osservazioni future.
Sia

b una stima di b. In corrispondenza possiamo denire il vettore dei residui
(o scarti tra i valori osservati, y, e i valori interpolati, y = X
b):
e = y X
b.
Lo stimatore dei minimi quadrati (ordinari) si ottiene minimizzando la somma dei
quadrati dei residui:
S(
b) = e
e = (y X
b)
(y X
b) = y
y 2
y +

b
b
Le condizioni del primo ordine:
S(
b)
b
= 0
forniscono le cosiddette equazioni normali:
X
b = X
y,
le quali costituiscono un sistema di k equazioni in k incognite che ammette una
soluzione unica se la matrice X ha rango k: in tal caso la matrice (X
X) è non
singolare e la soluzione è
b = (X
X)
1
X
y =
_
T
t=1
x
t
x
t
_
1
T
t=1
x
t
y
t
.
18
Le condizioni del secondo ordine anche la soluzione individui un minimo della
funzione S(
b) richiedono che la matrice hessiana sia denita positiva: ciò si verica

in quanto
2
S(
b)
= 2(X
X) > 0.
Il vettore dei valori predetti dal modello di regressione e dei residui del sono
forniti rispettivamente da y = X
b, con elemento generico y

t
= x
b, e da e =
y y = y X
b, con elemento generico e

t
= y
t
x
b.
y = X
b +e = y +e
Sostituendo

b = (X
X)
1
X
y in S(
b) si ottengono le seguenti espressioni equi-

valenti per la somma dei quadrati dei residui:
e
e = y
b
= y
(I X(X
X)
1
X
)y
= y
y
= y
y y
b
Si osservi che se la prima colonna di X è il vettore unitario, i (il modello contiene
il termine di intercetta), le equazioni normali
X
e = X
(y X
b) = 0,
implicano che :
i residui dei minimi quadrati hanno somma (media) nulla: i
e = 0 e sono
ortogonali rispetto alle variabili indipendenti.
Liperpiano di regressione passa per il centroide y = x
b
La media dei valori predetti, y = X
b, coincide con la media dei valori

osservati.
Proprieta statistiche in campioni niti Se si assume che E() = 0, lo stimatore
b è corretto:
E(
b) = E[(X
X)
1
X
y] = b + E[(X
X)
1
X
] = b,
e ha matrice di covarianza:
Var(
b) =
2
(X
X)
1
19
Inoltre, sotto lassunzione di sfericità degli errori, E(
) =
2
I, si può dimostrare
che esso presenta varianza minima allinterno della classe degli stimatori lineari.
Tale risultato è noto come teorema di Gauss-Markov.
Lo stimatore è inoltre una combinazione lineare di y e quindi di . Se si assume
che sia distribuito normalmente,

b N(b,
2
(X
X)
1
). Tale risultato viene uti-
lizzato per la costruzione di statistiche test per la verica di ipotesi sui coecienti
b. Senza lassunzione di normalità la distribuzione degli stimatori MQO non è nota;
tuttavia, in campioni di grandi dimensioni, si può invocare il teorema del limite
centrale per trattare

b come approssimativamente normale.
Stima di
2
e della varianza di

b Uno stimatore corretto di di
2
è
s
2
=
e
e
T k
=
T
t=1
e
2
t
T k
.
La radice quadrata, s, è denominata errore standard della regressione. Il risultato
viene utilizzato per ottenere una stima della matrice di covarianza delle stime OLS:
Var(
b) = s
2
(X
X)
1
.
1.4.1 Test di ipotesi e di signicatività su un singolo coe-
ciente
Sotto lassunzione di normalità è stato desunto il risultato

b N(b,
2
(X
X)
1
).
Se a
ii
denota lelemento i-esimo sulla diagonale principale di (X
X)
1
:
b
i
b
i
a
ii
N(0, 1).
Inoltre, si può mostrare che (T k)s
2
/
2

2
nk
e che tale statistica è distribuita in
maniera indipendente da

b. Applichiamo ora il noto risultato per cui dividendo una
variabile casuale normale standardizzata per la radice di una v.c.
2
nk
indipendente
divisa per il numero dei gradi di libertà si ottiene una v.c. t
nk
:
t =
b
i
b
i
s
a
ii
t
nk
Il risultato può essere utilizzato per testare ipotesi su un singolo coeciente e
per costruire intervalli di condenza. Il test di H
0
: b
i
= 0 è anche detto test di
signicatività.
20
1.4.2 Misura della bontà delladattamento
Qualora il modello contenga un intercetta possiamo ottenere una misura sintetica
(scalare) della capacità esplicativa del modello che assume valori compresi tra 0 e
1; in particolare, possiamo calcolare la quota di varianza della serie spiegata dalle
variabili esplicative incluse nel modello di regressione. La misura in questione prende
il nome di R-quadro ed è fornita dalla seguente espressione:
R
2
= 1
t
e
2
t
t
(y
t
y)
2
.
1.5 Previsione mediante modelli deterministici
Al ne di illustrare la previsione eettuata mediante un modello deterministico di
scomposizione della serie temporale, consideriamo il seguente modello:
y
t
=
0
+
1
t +
t
= b
x
t
+
t
dove b = (
0
,
1
)
, x
t
= (1, t)
e
t
NID(0,
2
). Sia inoltre

b il vettore che contiene
le stime MQO. Il valore predetto al tempo t = 1, . . . , T, è ottenuto come segue:
y
t
=

b
x
t
= E[y
t
|x
t
]; la previsione l periodi in avanti è fornita da:
y
T+l
=

b
x
T+l
dove x
T+l
= (1, T +l)
.
Tale previsione è corretta nel senso che lerrore di previsione ha valore atteso
nullo:
E[y
T+l
y
T+l
] = E[(b
b)
x
T+l
+
T+l
] = 0
ed ottimale, nel senso che minimizza lerrore quadratico medio di previsione (questa
è una conseguenza del teorema di Gauss-Markov). Inne, la varianza dellerrore di
previsione risulta pari a:
Var[y
T+l
y
T+l
] = E[(b
b)
x
T+l
+
T+l
]
2
= 0
=
2
_
1 +x
T+l
(X
X)
1
x
T+l
_
dove X è la matrice T 2 la cui riga t è data da x
t
. Essa può essere stimata
sostituendo
2
= SSE/(T 2) nellespressione precedente.
Modello livello + irregolare : nel caso particolare in cui y
t
=
0
+
t
, y
T+l
=
0
= y, dove y = T
1
y
t
. Inoltre,
Var(y
T+l
y
T+l
) =
2
_
1 +
1
T
_
21
con
2
= (T1)
1
(y
t
y)
2
. Lintervallo di condenza all(1)% per la previsione
y
T+l
è:
y t
/2,T1

1 +
1
T
,
dove t
/2,T1
è il percentile della distribuzione t di Student con T 1 gradi di libertà.
1.6 Previsione mediante livellamento esponenzia-
le
In ambito aziendale sono spesso richieste previsioni a breve termine di un gran
numero di serie (vendite disaggregate per tipo di bene prodotto) per la pianicazione
della produzione e del magazzino. Un insieme di procedure di previsione ad hoc è
stato introdotto in questo contesto, caratterizzate da semplicità computazionale e
da immediatezza interpretativa, come dovrebbe essere per tecniche di applicazione
routinaria.
Consideriamo un fenomeno che oscilla attorno ad un valore medio approssimati-
vamente costante, e supponiamo di disporre di informazioni sino al tempo t incluso:
{y
1
, y
2
, . . . , y
t
}. Ci proponiamo ora di prevedere il valore del fenomeno un periodo
in avanti, al tempo t + 1.
Una previsione elementare può essere costruita a partire dalla media aritmetica
semplice delle osservazioni disponibili:
y
t+1|t
= y =
1
t
(y
t
+y
t1
+ + y
2
+ y
1
)
Si noti che tutte le osservazioni, anche le pi` u lontane nel tempo, ricevono un peso
costante pari a 1/t.
Potrebbe essere desiderabile ponderare le osservazioni in ragione della loro di-
stanza dal tempo corrente, assumendo che le osservazioni pi` u recenti presentino
un contenuto informativo pi` u elevato a ni previsivi. Ciò conduce a formulare la
previsione come segue:
y
t+1|t
= w
0
y
t
+ w
1
y
t1
+w
2
y
t2
+
dove w
j
, j = 0, 1, 2, . . . è un insieme di coecienti di ponderazione decrescenti al
crescere di j e a somma unitaria:

j
w
j
= 1. Al ne di ottenere leetto desiderato
si può prendere w
j
= (1 )
j
, dove è una costante di livellamento compresa tra
0 e 1. In tal caso i pesi seguono una progressione geometrica di ragione (1 ):
w
0
= , w
1
= (1 ), w
2
= (1 )
2
, . . .
(ad es. se = 0.8, w
0
= 0.8, w
1
= 0.16, w
2
= 0.032, per cui il peso dato allultima
osservazione è molto pi` u elevato di quello assegnato alle osservazioni precedenti, che
22
diventa molto piccolo già a partire dalla terzultima osservazione; nel caso in cui
= 0.1, i pesi risultano nellordine 0.1, 0.09, 0,081,. . . , presentando una variazione
molto pi` u limitata).
Riscriviamo ora la previsione dopo aver sostituito lespressione per w
j
:
y
t+1|t
= y
t
+ (1 )y
t1
+ (1 )
2
y
t2
+
analogamente, se disponessimo soltanto delle osservazioni no al tempo t 1 si
avrebbe:
y
t|t1
= y
t1
+ (1 )y
t2
+ (1 )
2
y
t3
+
Moltiplicando questultima espressione per (1 ) e sottraendo membro a membro
si ottiene:
y
t+1|t
(1 ) y
t|t1
= y
t
,
ovvero
y
t+1|t
= y
t
+ (1 ) y
t|t1
o equivalentemente
y
t+1|t
= y
t|t1
+ (y
t
y
t|t1
)
Si ottengono due formule ricorsive che forniscono la previsione un periodo in
avanti in funzione del valore corrente della serie, y
t
, del valore previsto al tempo
precedente, y
t|t1
, e della costante . La seconda espressione indica che nel for-
mulare la previsione al tempo corrente modichiamo la previsione precendente in
proporzione allerrore di previsione che abbiamo commesso nel prevedere y
t
. Per
linizializzazione delle formule ricorsive sono state avanzate diverse proposte: le pi` u
famose sono y
1|0
= y
1
, y
1|0
= s
1
s
t=1
y
t
, la media delle prime s osservazioni (es.
s = 6).
Questo modo di eettuare le previsioni viene detto livellamento esponenziale. Il
problema fondamentale sta nella determinazione di . Essa può essere eettuata
minimizzando la somma dei quadrati degli errori di previsione:
min
S() =
T
t=1
(y
t
y
t|t1
)
2
ciò può essere eettuato mediante una ricerca a griglia nellintervallo (0,1). Si no-
ti che per = 1, y
t+1|t
= y
t
e la previsione coincide con lultima osservazione
disponibile. Viceversa, per tendente a 0 si assegna lo stesso peso alle osservazioni.
1.7 Previsione mediante il metodo di Holt-Winters
Un fenomeno che presenta un trend lineare può essere interpretato mediante il
modello trend pi` u irregolare:
y
t
= + t +
t
, t = 1, 2, . . . , T.
23
I coecienti e possono essere stimati mediante il metodo dei minimi quadrati e
il modello può essere utilizzato per prevedere il fenomeno un periodo in avanti:
y
t+1|t
= + (t + 1) = + t + ;
in generale
y
t+l|t
= + (t + l) = + t + l;
Le previsioni si muovono lungo una retta, e il modello potrebbe rivelarsi scarsamente
essibile se il fenomeno presenta un trend locale. In tal caso ha senso estrapolare la
tendenza indicata dai dati pi` u vicini al tempo corrente.
Ora, ponendo m
t
= +t, si ha che m
t
rappresenta il livello del trend al tempo
t, mentre b
t
= rappresenta lincremento (costante), vale a dire la quantità che
occorre aggiungere a m
t
per ottenere y
t+1|t
; pertanto,
y
t+1|t
= m
t
+b
t
Si noti che m
t
(livello) e b
t
(incremento) possono essere riscritti nei termini di una
formula ricorsiva:
m
t
= m
t1
+ b
t1
b
t
= b
t1
con valori iniziali m
0
= e b
0
= . Risulta evidente che le osservazioni non giocano
alcun ruolo nellaggiornamento dei valori di m
t
e b
t
.
Le formule precedenti possono essere generalizzate in maniera essibile mediante
le formule di Holt & Winters:
y
t+1|t
= m
t
+ b
t
m
t
=
0
y
t
+ (1
0
)(m
t1
+ b
t1
)
b
t
=
1
(m
t
m
t1
) + (1
1
)b
t1
la prima equazione fornisce la nuova stima del livello come media ponderata dellul-
tima osservazione e della previsione eettuata al tempo precedente ed è pertanto
analoga allequazione di aggiornamento del livellamento esponenziale; lequazione
per laggiornamento di b
t
opera una media ponderata tra il valore precedente e la
dierenza tra il livello al tempo t e al tempo t 1.
La previsione l periodi in avanti giace su una retta
y
t+1|t
= m
t
+ lb
t
con origine in m
t
e coeciente angolare b
t
. Quando una nuova osservazione si rende
disponibile, queste quantità vengono aggiornate.
24
Le due costanti di livellamento,
0
e
1
, sono comprese tra 0 e 1 e possono essere
determinate minimizzando la somma dei quadrati degli errori di previsione
S(
0
,
1
) =
T
t=2
(y
t
y
t|t1
)
2
Dalla relazione m
t1
+b
t1
= y
t|t1
, dopo qualche passaggio algebrico, possiamo
riscrivere:
m
t
= m
t1
+ b
t1
+
0
e
t|t1
b
t
= b
t1
+
0
1
e
t|t1
dove e
t|t1
= y
t
y
t|t1
. La tecnica di previsione nota come livellamento esponenziale
doppio è un caso particolare del metodo di Holt & Winters, per cui si fanno dipendere
0
e
1
da un unico parametro, :
0
= 1
2
,
1
=
1
1 +
Per quanto riguarda linizializzazione delle formule ricorsive, si possono prendere
m
2
= y
2
e b
2
= y
2
y
1
.
1.8 Procedura di Holt-Winters stagionale
Consideriamo ora una serie stagionale di periodo s e prendiamo a riferimento il
modello di scomposizione moltiplicativo: y
t
= y
t
g
t
, dove y
t
denota la serie destagio-
nalizzata e g
t
è un fattore stagionale che misura lespansione o la contrazione del
fenomeno nelle stagioni dellanno. La previsione l = 1, 2, . . . , s, periodi in avanti al
tempo t sarà: y
t+l|t
= (m
t
+ b
t
l)g
t+ls
,
m
t
=
0
(y
t
/g
t
) + (1
0
)(m
t1
+ b
t1
)
b
t
=
1
(m
t
m
t1
) + (1
1
)b
t1
g
t
=
s
(y
t
/m
t
) + (1
s
)g
ts
con
s
(0, 1). Linizializzazione può avvenire al tempo t = s prendendo m
s
=
s
1
s
k=1
y
k
(in alternativa si può prendere la media geometrica delle prime s osser-
vazioni), b
s
= 0, g
j
= y
j
/m
s
, j = 1, 2, . . . , s.
Nel caso additivo si avranno le seguenti formule ricorsive:
m
t
=
0
(y
t
g
t
) + (1
0
)(m
t1
+ b
t1
)
b
t
=
1
(m
t
m
t1
) + (1
1
)b
t1
g
t
=
s
(y
t
m
t
) + (1
s
)g
ts
25
Capitolo 2
I modelli ARIMA
2.1 Premessa
Prenderemo in considerazione quello che, forse con terminologia inappropriata, è
conosciuto come approccio moderno delle serie temporali, il cui elemento di dif-
ferenziazione sta nel considerare la serie y
t
come realizzazione nita di un processo
stocastico. Il problema inferenziale è risalire da y
t
al processo generatore e, in tale
contesto, la modellistica ARIMA semplica il problema mediante una restrizione
della classe dei processi stocastici. La pretesa è quella di fornire una rappresenta-
zione unitaria ad una vasta gamma di fenomeni reali; ovviamente, la generalità va
a scapito della possibilità di interpretare il modello in termini di variabili latenti,
per cui nellambito dellapproccio moderno, si sono aermati i cosiddetti approc-
ci strutturali. Il riferimento bibliograco pi` u rilevante per questo capitolo è la
monograa di Box, Jenkins e Reinsel [?]
2.2 Generalità sui processi stocastici
Un processo stocastico,{Y
t
}, può essere denito come una successione ordinata di
variabili casuali Y
t
indicizzate dal parametro t appartenente ad un insieme parame-
trico T . Poiche nel seguito ci limiteremo a considerare la classe dei processi stocastici
continui a parametro discreto, avremo T = 1, 2, . . . e {Y
t
} = {Y
1
, Y
2
, . . .}.
Il p.s. è noto se è nota la funzione di ripartizione P(Y
1
a
1
, Y
2
a
2
, . . . , Y
T

a
T
) per ogni T-upla (a
1
, . . . , a
T
); in altre parole, se è nota la densità congiunta di ogni
evento nello spazio reale a T dimensioni. Nelle applicazioni si dispone, per ogni t, di
una singola realizzazione della v.c. y
t
, per cui il processo inferenziale presenterebbe
complicazioni insuperabili se non venissero imposte due classi di restrizioni sulle
caratteristiche del processo: la stazionarietà e lergodicità.
In particolare, diremo che un processo stocastico è stazionario in senso forte se
26
la distribuzione di probabilità congiunta di {Y
t
, Y
t+1
, . . . , Y
t+r
} è indipendente da t,
r. Condizione necessaria e suciente perche ciò si verichi è che tutti i momenti
della v.c. multipla {Y
t
, Y
t+1
, . . . , Y
t+r
} siano niti ed indipendenti da t. La struttura
dinamica è dunque invariante nel tempo. Ora, per un p.s. gaussiano la densità
congiunta dipende esclusivamente dal vettore delle medie delle v.c. Y
t
, Y
t+1
, . . . , Y
t+r
e dalla loro matrice di covarianza; pertanto, esso è stazionario se i suoi momenti no
al secondo sono niti ed indipendenti da t, vale a dire
E(Y
t
) =
E(Y
t
)
2
= (0) <
E[(Y
t
)(Y
tk
)] = (k) <
t, k, dove (k) denota lautocovarianza tra Y
t
e Y
tk
, che si assume essere funzione
esclusivamente di k. Si noti che come conseguenza della stazionarietà la funzione di
autocovarianza è simmetrica rispetto a k: (k) = (k). Un p.s. non gaussiano i
cui momenti e (k) sono indipendenti da t si dice stazionario in senso debole (in
covarianza). In tal caso la stazionarietà in covarianza non implica quella in senso
forte, ma è generalmente suciente per ottenere i risultati pi` u rilevanti.
Utili strumenti per la caratterizzazione di un processo stazionario nel dominio
temporale e frequenziale sono la funzione di autocorrelazione (FAC) e la densità
spettrale; la prima è denita (k) = (k)/(0), k = 0, 1, . . . , mentre la seconda da
f() =
1
2
_
(0) + 2
k=1
(k) cos k
_
,
dove è la frequenza in radianti che assume valori in [0, ]. E immediato dimostrare
che la FAC gode delle seguenti proprietà: i) (0) = 1, ii) |(k)| < 1, iii) (k) = (k).
White Noise (WN). Il processo stazionario pi` u elementare è costituito da una se-
quenza di variabili casuali incorrelate a media nulla e varianza costante: esso è deno-
minato white noise, e viene indicato con
t
WN(0,
2
), dove E(
t
) = 0, E(
2
t
) =
2
e E(
t
tk
) = 0 per k = 0.
2.3 Momenti campionari
Dalla sezione precedente è emerso che un processo stazionario (in senso debole) è
completamente caratterizzato dai parametri e (k). A partire da una realizzazione
nita, {y
t
}
T
t=1
possiamo costruire le seguenti statistiche:
Media campionaria: y = = T
1
T
t=1
y
t
Varianza campionaria: (0) = T
1
T
t=1
(y
t
y)
2
27
Autocovarianza campionaria a lag k: (k) = T
1
T
t=1
(y
t
y)(y
tk
y)
Se il p.s. è ergodico queste statistiche convergono (in media quadratica) ai mo-
menti del processo, rispettivamente , (0) e (k). Lergodicità richiede invece che
la memoria del processo sia limitata cos` che eventi distanti nel tempo abbiano un
basso grado di dipendenza; si dimostra che un p.s. gaussiano stazionario è ergodico
se
k=0
|(k)| < .
La funzione di autocorrelazione viene stimata mediante il rapporto: (k) =
(k)/ (0); il graco ad aste delle coppie (k, (k)) è noto come correlogramma; come
vedremo in seguito esso rappresenta uno degli strumenti cardine per lidenticazione
del processo stocastico che ha generato la serie.
Per un processo WN, tale che (k) = 0, k = 0, vale inoltre il risultato che (k)
ha distribuzione asintotica normale con media nulla e varianza pari a T
1
. Tale
risultato viene solitamente utilizzato al ne di costruire bande di condenza appros-
simate al 95% attorno allo zero per valutare la signicatività delle autocorrelazioni
stimate: queste sono giudicate non signicativamente diverse da zero se sono interne
allintervallo [2/
T, 2/
T].
2.4 Il teorema di Wold
Alla classe dei processi stazionari si applica un importante risultato noto come teo-
rema di Wold: esso aerma che ogni p.s. stazionario (in senso debole) può essere
scomposto in due processi stocastici mutualmente incorrelati, uno dei quali è linea-
re deterministico, c(t), mentre laltro (indeterministico) è una sequenza innita di
variabili causali incorrelate (processo lineare):
Y
t
= c(t) +
t
+
1
t1
+
2
t2
+ ,
con

|
j
| < e E[c(t)
tj
] = 0, t, j. Il termine
t
è WN e rappresenta lerrore di
previsione uniperiodale:
t
= Y
t
E(Y
t
|Y
t1
, Y
t2
, . . .), ed è anche detto innovazione.
Un processo è deterministico se può essere previsto senza errore a partire dai
valori passati di Y
t
; solitamente la parte deterministica corrisponde alla media del
processo, c(t) = . Come vedremo, il teorema consente di derivare la classe dei
processi ARMA, imponendo particolari restrizioni sullinsieme dei coecienti
j
.
2.5 Autocorrelazione parziale
Il coeciente di autocorrelazione parziale è una misura dellassociazione lineare tra
Y
t
e Y
tk
depurata della correlazione dovuta alle v.c. intermedie Y
t1
, . . . , Y
tk+1
.
28
Consideriamo un processo stazionario Y
t
, assumendo c(t) = 0 nella rappresenta-
zione di Wold, e proponiamoci di costruire il miglior previsore lineare non distor-
to di Y
t
sulla base della conoscenza di Y
t1
, Y
t2
, . . . , Y
tk
; denotato con X
t1
=
[Y
t1
, Y
t2
, . . . , Y
tk
]
il vettore contenente il set informativo di riferimento, si dimo-

stra che il previsore ottimale è
X
t1
=
k1
Y
t1
+
k2
Y
t2
+ +
kk
Y
tk
, (2.1)
dove il vettore dei coecienti della combinazione lineare, = [
k1
,
k2
, . . . ,
kk
]
, si
ottiene dalla relazione E[(Y
t
X
t1
)X
t1
] = 0, che fornisce
= E[X
t1
X
t1
]
1
E[X
t1
Y
t
].
Il coeciente associato a Y
tk
,
kk
, è detto coeciente di autocorrelazione parzia-
le a ritardo k, poiche fornisce una misura del legame lineare tra le v.c. al netto della
correlazione esistente con le v.c. intermedie. Tale interpretazione è dovuta al fatto
che
kk
= Y
t
/Y
tk
. Analogamente, si denisce il coeciente di autocorrelazione
parziale come il coeciente di correlazione lineare tra Y
t
E(Y
t
|Y
t1
, . . . , Y
tk+1
) e
Y
tk
.
Si noti che la matrice E[X
t1
X
t1
] contiene le autocovarianze ed è una matrice
di Toeplitz, tale che, cioè lelemento di posto (i, j) è pari a (|i j|), mentre il
vettore E[X
t1
Y
t
] = [(1), (2), . . . , (k)]
. Pertanto, i coecienti
kj
possono essere
ottenuti in maniera equivalente dal sistema di equazioni seguente, detto sistema di
Yule-Walker (si premoltiplica (2.1) per E[X
t1
X
t1
] e si dividono entrambi i membri
per (0)):
_
_
(1)
(2)
.
.
.
(k 1)
(k)
_
_
=
_
_
1 (1) (k 2) (k 1)
(1) 1 (k 3) (k 2)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
(k 2) (k 3) 1 (1)
(k 1) (k 2) (1) 1
_
_
_
k1
k2
.
.
.
k,k1
kk
_
_
ovvero, = P. La soluzione per
kk
si ottiene applicando la regola di Cramer:
kk
=
|P
|
|P|
dove P
si ottiene sostituendo lultima colonna di P con .

Il graco dei valori {
00
,
11
,
22
, . . . ,
kk
} contro k, viene detto correlogramma
parziale, mentre la sequenza
kk
è la funzione di autocorrelazione parziale (FACP).
Ovviamente,
00
= 1 e
11
= (1).
29
2.6 Lalgebra delloperatore L
Uno strumento molto importante è loperatore ritardo (lag), L, che, applicato ad Y
t
,
produce il valore ritardato di un periodo Y
t1
:
LY
t
= Y
t1
In generale, L
k
Y
t+r
= Y
t+rk
, k = 0, 1, . . .. Un polinomio di ordine mnelloperatore
ritardo è denito come segue:
(L) = 1 +
1
L +
2
L
2
+ +
m
L
m
Le radici del polinomio si ottengono ponendo (L) = 0 e risolvendo rispetto a L.
Le radici saranno reali o complesse coniugate: si dice che esse giacciono al di fuori
del (sul) cerchio di raggio unitario se il loro modulo è superiore (uguale) a 1. In
particolare, denendo il polinomio innito
(L) = 1 +
1
L +
2
L
2
+
possiamo riscrivere la rappresentazione di Wold in maniera pi` u sintetica: Y
t
= c(t)+
(L)
t
.
Importanti operatori (ltri) lineari possono essere deniti in funzione di L; di
particolare rilievo è loperatore dierenza, = 1 L, tale che Y
t
= Y
t
Y
t1
. Le
dierenze di ordine d sono date
d
Y
t
; ad esempio, per d = 2,
2
Y
t
= (1 2L +
L
2
)Y
t
= Y
t
2Y
t1
+ Y
t2
. Nel caso di processi mensili, la variazione rispetto allo
stesso mese dellanno precedente viene detta dierenza stagionale:
12
Y
t
= (1 L
12
)Y
t
= Y
t
Y
t12
2.7 Processi Autoregressivi
Dal teorema di Wold abbiamo appreso che qualunque processo stazionario può essere
espresso come una combinazione lineare di processi WN; tuttavia, la struttura dei
ritardi in
t
è di ordine innito, e non possiamo ambire a stimare inniti parametri
a partire da una realizzazione nita. In questa sezione mostreremo che notevole
parsimonia nel numero dei parametri richiesti per descrivere la struttura dinamica
del processo è resa possibile dallintroduzione dei processi autoregressivi.
Un processo autoregressivo di ordine p, AR(p), è denito come segue:
Y
t
= m +
1
Y
t1
+
2
Y
t2
+ +
p
Y
tp
+
t
con
t
WN(0,
2
). Nel seguito assumeremo m = 0 e riscriveremo il processo
(L)Y
t
=
t
, dove (L) = 1
1
L
p
L
p
è il polinomio autoregressivo di
ordine p.
30
2.7.1 Processo AR(1)
Il processo autoregressivo del primo ordine è tale che Y
t
si ottiene moltiplicando per
un coeciente il valore precedente Y
t1
ed aggiungendo un p.s.
t
WN(0,
2
):
Y
t
= Y
t1
+
t
Il processo è stazionario se || < 1; infatti, mediante sostituzione successiva si ottiene
la rappresentazione di Wold:
Y
t
=
t
+
t1
+ +
k
tk
+ ;
la successione (geometrica) dei pesi
j
=
j
risulta convergente se e solo se vale
giace nellintervallo (1, 1). Infatti,

||
j
= 1/(1 ||). Si noti che in tal caso
le realizzazioni passate della v.c.
t
hanno un peso geometricamente decrescente al
crescere della loro distanza dal tempo corrente (funzione di risposta allimpulso):
Y
t
tj
=
j
j
0
La condizione di stazionarietà può essere riferita alle radici del polinomio (L) =
1 L: in particolare, il p.s. è stazionario se e solo se la radice del polinomio,
ottenuta risolvendo per L lequazione 1 L = 0, è in modulo superiore allunità.
Deriviamo ora i momenti del processo quando è nella regione di stazionarietà:
E(Y
t
) = 0
(0) = Var(Y
t
) = E(Y
2
t
) = E[(Y
t1
+
t
)Y
t
]
= (1) +
2
poiche E(Y
t
t
) = E[(
t
+
t1
+ )
t
] =
2
.
(1) = E(Y
t
Y
t1
) = E[(Y
t1
+
t
)Y
t1
]
= (0)
poiche E(Y
t1
t
) = E[(
t1
+
t2
+ )
t
] = 0. Sostituendo lespressione per (1)
in quella per (0) si ottiene:
(0) =

2
1
2
(2) = E(Y
t
Y
t2
) = E[(Y
t1
+
t
)Y
t2
]
= (1)
=
2
(0)
In generale,(k) =
k
(0), e, ricordando la denizione di FAC, (k) =
k
. Pertanto
la FAC di un p.s. AR(1) è una successione geometrica decrescente di ragione . Per
quanto concerne la FACP, basta riettere su fatto che, dato Y
t1
, Y
t
è incorrelato
con Y
t2
, . . . , per comprendere che
kk
= 0 per k > 1. Inoltre,
11
= (1) = .
31
Note i) Se m = 0, E(Y
t
) = m/(1); ii) Per = 1 si ottiene il p.s. non stazionario
Y
t
= Y
t1
+
t
, noto come random walk (passeggiata aleatoria). E facile vedere che
le innovazioni passate hanno tutte peso unitario ed i momenti dipendono dal tempo:
ad es. la varianza è lineare in t, Var(Y
t
) = t
2
.
2.7.2 Processo AR(2)
Il processo autoregressivo del secondo ordine è generato dallequazione:
Y
t
= m +
1
Y
t1
+
2
Y
t2
+
t
Per processi di ordine superiore al primo è pi` u semplice denire la condizione di
stazionarietà con riferimento alle radici del polinomio (L): si dimostra infatti che
Y
t
è stazionario se le radici di 1
1
L
2
L
2
= 0 sono in modulo superiori ad
1. Nel caso in questione si ha che (L) = (L)
1
e pertanto i coecienti della
rappresentazione di Wold possono essere ottenuti eguagliando i termini associati
alle potenze di L in (L)(1
1
L
2
L
2
) = 1. Ne consegue che essi sono forniti
dalla formula ricorsiva
j
j1
j2
= 0 con valori iniziali
0
= 1 e
1
=
1
.
Si verica, appunto, che

j
|
j
| è convergente se e solo se (L) = 0 per |L| > 1.
La condizione di stazionarietà impone i seguenti vincoli sullo spazio parametrico
(
1
,
2
): i)
1
+
2
< 1 ii)
2
1
< 1 e iii)
2
> 1, per cui la regione di stazionarietà
dei parametri (
1
,
2
) è interna al triangolo di vertici (-2,-1),(2,-1),(0,1). Inoltre, si
avrà una coppia di radici complesse coniugate quando
2
1
+ 4
2
< 0.
Se Y
t
è stazionario (e gaussiano), esso è completamente caratterizzato dai mo-
menti:
Valore atteso: E(Y
t
) = = m/(1
1
2
).
La funzione di autocovarianza è data dalla formula ricorsiva
(k) =
1
(k 1) +
2
(k 2), k = 2, 3, . . .
con valori iniziali:
(0) =
(1
2
)
2
(1 +
2
)([(1
2
)
2
2
1
]
(2.2)
e (1) =
1
(0)/(1
2
).
La FAC è data dalla formula ricorsiva
(k) =
1
(k 1) +
2
(k 2), k = 2, 3, . . .
con valori iniziali: (0) = 1 e (1) =
1
/(1
2
). Il comportamento della FAC
è tale che (k) 0 per k ; se le radici del polinomio AR sono complesse
la FAC percorre unonda ciclica smorzata.
32
La FACP è tale che
kk
= 0 per k > 2; ciò è intuitivo dal momento che, dati
Y
t1
e Y
t2
, Y
t
è incorrelato con Y
t3
, Y
t4
, etc.
Il risultato per (k) è derivabile nella maniera seguente: supposto m = 0,
(0) = E[(
1
Y
t1
+
2
Y
t2
+
t
)Y
t
]
=
1
(1) +
2
(2) +
2
(1) = E[(
1
Y
t1
+
2
Y
t2
+
t
)Y
t1
]
=
1
(0) +
2
(1)
(2) = E[(
1
Y
t1
+
2
Y
t2
+
t
)Y
t2
]
=
1
(1) +
2
(0)

(k) = E[(
1
Y
t1
+
2
Y
t2
+
t
)Y
tk
]
=
1
(k 1) +
2
(k 2)
dalla seconda equazione si ricava (1), e sostituendo nella terza equazione si fa
dipendere (2) soltanto da (0) (e dai parametri AR); sostituendo le espressioni
trovate nella prima equazione si ottiene il risultato (2.2).
Esempio: Consideriamo il processo AR(2) con m = 0,
1
= 1.1,
2
= 0.18 e
2
= 1: le radici dellequazione (1 1.1L + 0.18L
2
) sono reali ed in modulo superiore
ad uno: L
1
= 1.
1 e L
2
= 5 (L = (1.1
_
1.1
2
4(.18))/(2 0.18)). Per esercizio si
calcoli (k) per k = 1, 2, 3.
2.7.3 Processo AR(p)
I risultati ottenuti precedentemente possono essere generalizzati al caso AR(p), (1
1
L
p
L
p
)Y
t
= m +
t
, nel modo seguente:
Y
t
è stazionario se le p radici del polinomio (L) sono in modulo superiori
allunità.
Il valore medio del processo è = m/(1), dove (1) = 1
1

p
. Si
può riscrivere Y
t
=
1
(Y
t1
) + +
p
(Y
tp
) +
t
.
La funzione di autocovarianza si ottiene moltiplicando lespressione precedente
per (Y
tk
) e prendendo il valore atteso.
(k) =
1
(k 1) + +
p
(k p), per k > 0
(k) =
1
(k 1) + +
p
(k p) +
2
, per k = 0
La FAC dà luogo al sistema di equazioni di Yule-Walker:
(k) =
1
(k 1) +
2
(k 2) + +
p
(k p), k = 1, 2, . . . , p
La FACP di un processo AR(p) è identicamente nulla per k > p
33
2.8 Processi media mobile
I processi media mobile (MA) si ottengono dalla rappresentazione di Wold assumen-
do
j
=
j
, j q e
j
= 0, j > q. Pertanto,
Y
t
= +
t
+
1
t1
+
2
t2
+ +
q
tq
dove
t
WN(0,
2
). Il termine MA viene dal fatto che Y
t
è una somma ponderata
dei valori pi` u recenti di
t
. Si noti che un processo MA soddisfa sempre la condizione
j
|
j
| < ed è dunque sempre stazionario. A dierenza del caso AR la parsimonia
nel numero dei parametri necessari per descrivere la struttura dinamica del processo
è ottenuta troncando i coecienti
j
ad un ritardo pressato.
2.8.1 Processo MA(1)
Il processo MA del primo ordine è fornito dallespressione:
Y
t
= +
t
+
t1
= + (1 +L)
t
E(Y
t
) = + E(
t
) + E(
t1
) =
(0) = E[(Y
t
)
2
] = E[(
t
+
t1
)
2
] = E(
2
t
) + 2E(
t
t1
) +
2
E(
2
t1
)
=
2
(1 +
2
)
(1) = E[(Y
t
)(Y
t1
)] = E[(
t
+
t1
)(
t1
+
t2
)]
=
2
(k) = 0, k > 1
La FAC è identicamente nulla a partire da k = 2:
(0) = 1
(1) =

1+
2
(k) = 0, k > 1
La FACP non si annulla mai, ma tende esponenzialmente a zero secondo landa-
mento dettato dal parametro .
Invertibilità Il MA(1) è invertibile se || < 1. Nel seguito restringeremo la nostra
attenzione alla classe dei processi MA(q) invertibili, per cui opereremo opportune
restrizioni nello spazio dei parametri MA. Per motivare la scelta, inizieremo col mo-
strare che per ogni rappresentazione MA(1) invertibile esiste una rappresentazione
MA(1) non invertibile, di parametro |
| > 1, che possiede gli stessi momenti. Si

consideri dunque il processo
Y
t
= +
t
+

t1
34
con

= 1/ e
t
WN(0,
2
). Si verica immediatamente che (0) e (1) sono eguali
a quelle del processo Y
t
= +
t
+
t1
con
2
=

2

2
; inoltre, (1) =
1
/(1+
2
) =
/(1 +
2
). I due processi hanno identiche proprietà e dunque sarebbe impossibile
discriminarli a partire da una serie storica. Tale problema di identicazione viene
risolto appunto vincolando il parametro nellintervallo (-1,+1). Il vincolo appa-
re arbitrario, ed ha comunque una giusticazione pratica. Il termine invertibilit` a
deriva dalla possibilità di riscrivere il processo come un AR() con coecienti
j
convergenti:
Y
t
+
1
Y
t1
+
2
Y
t2
+ +
k
Y
tk
+ = m +
t
,
j=1
|
j
| <
Nel caso in questione la sequenza
j
= ()
j
è convergente se e solo se || < 1.
2.8.2 Processo MA(q)
Il processo
Y
t
= +
t
+
1
t1
+ +
q
tq
è sempre stazionario; è invertibile se le soluzioni dellequazione
(1 +
1
L +
2
L
2
+ +
q
L
q
) = 0
sono in modulo superiori ad 1.
E(Y
t
) =
(0) = E[(Y
t
)
2
] = E[(
t
+
1
t1
+ +
q
tq
)
2
]
= (1 +
2
1
+ +
2
q
)
2
(k) = E[(
t
+
1
t1
+ +
q
tq
)(
tk
+
1
tk1
+ +
q
tqk
)
= (
k
+
1
k+1
+
2
k+2
+ +
qk
q
)
2
(k) = 0, k > q
Pertanto, la FAC è identicamente nulla per k > q. La PACF non si annulla mai e
tende a zero al crescere di k.
Esercizio: calcolare la FAC per il processo MA(2): Y
t
= (1 + 2.4L + 0.8L
2
)u
t
,
u
t
NID(.5, 1). Indicare inoltre se il processo è invertibile.
2.9 Processi misti
Il processo Y
t
= +
j=0
tj
può essere rappresentato in maniera parsimoniosa
da un processo ARMA(p, q), il quale può essere pensato come una generalizzazione
35
di un p.s. AR(p) con innovazioni che seguono un processo MA(q), ovvero come un
processo MA(q) che dipende ulteriormente dai suoi p valori passati.
Y
t
= m +
1
Y
t1
+
2
Y
t2
+ +
p
Y
tp
+
t
+
1
t1
+ +
q
tq
ovvero, (L)Y
t
= m+ (L)
t
.
Le condizioni sotto le quali il processo è stazionario sono le stesse per le quali
il processo AR è stazionario, vale a dire le p radici del polinomio (L) devono
essere esterne al cerchio di raggio unitario. Il processo è invertibile se le q radici del
polinomio (L) sono esterne al cerchio di raggio unitario.
La FAC e la FACP presentano un comportamento che rappresenta una mistura
di quelli che caratterizzano processi puramente AR e MA: in particolare, esse non si
annullano mai; la FAC tende a 0 a partire dal lag q, mentre la FACP a partire dal
lag p.
Il processo ARMA stazionario ed invertibile è identicabile se non esistono fattori
comuni: ad es. il processo ARMA(1,1), (1 L)Y
t
= (1 L)
t
, è equivalente a
Y
t
WN(0,
2
).
2.10 Non stazionarietà
Denizione: Ordine di integrazione. Il processo Y
t
è integrato di ordine d, e scrive-
remo Y
t
I(d), se le dierenze d-esime,
d
Y
t
, ammettono una rappresentazione di
Wold stazionaria e invertibile.
In altre parole applicando d volte loperatore dierenza, = 1 L, si ottiene
d
Y
t
= + (L)
t
,
j=0
|
j
| <
Es.: Y
t
= 2Y
t1
Y
t2
+
t
+
t1
, Y
t
I(2) || < 1 ;
Lesempio pi` u elementare di p.s. non stazionario è il random walk, denito dalla
relazione Y
t
= Y
t1
+
t
; esso è tale che le sue dierenze prime sono WN. Il processo
Y
t
= +
t
è detto RW con drift. Mediante sostituzione successiva si ha:
Y
t
= Y
0
+ t +
t
+
t1
+ +
1
,
che mostra che linnovazione
tk
ha eetti persistenti sul livello della serie (viene
per intero accumulata, o integrata, nel livello).
Al ne di estendere la classe dei processi che possono essere trattati si introduce la
classe dei processi ARIMA(p, d, q), tali che le dierenze d-esime seguono un modello
ARMA(p, q) stazionario e invertibile:
(L)
d
Y
t
= + (L)
t
36
2.11 Stagionalità
Serie osservate con cadenza subannuale (mensile o trimestrale) possono manifestare
un comportamento periodico, con oscillazioni che hanno ciclo annuale. Tipico è il
caso della produzione industriale, caratterizzata da una caduta in corrispondenza
del mese di agosto, e delle vendite al minuto, che hanno unimpennata in dicembre.
La stagionalità si ritrova nella funzione di autocorrelazione con valori alti a ritardi
stagionali (k = 12, 24, 36... per serie mensili).
Per catturare tali dinamiche occorre estendere adeguatamente la classe dei pro-
cesssi ARIMA. Può darsi il caso che le dierenze stagionali del processo,
s
Y
t
= Y
t
Y
ts
(s = 4, 12) siano non stagionali ed ammettano una rappresentazione ARIMA(p, d, q).
In tal caso si dice che Y
t
è integrato stagionalmente di ordine 1. Estendendo tale
concetto, Y
t
è integrato stagionalmente di ordine D se occorre applicare D volte
loperatore
s
.
Un processo AR stagionale del primo ordine è:
Y
t
= Y
ts
+
t
, || < 1
è facile mostrare che la FAC assume la forma: (k) =
k/s
per k = s, 2s, 3s, .., ed
è zero altrimenti. La condizione di stazionarietà è ovviamente riferita alle radici
del polinomio (1 L
s
) = (1 L)(1 + L + L
2
+ + L
s1
). In generale, il
modello ARIMA può essere generalizzato al ne di includere coecienti AR e MA a
ritardi stagionali. Tuttavia, la rappresentazione pi` u in auge ha natura moltiplicativa
e conduce al processo ARIMA(p, d, q) (P, D, Q)
s
:
(L)(L
s
)
d
D
s
Y
t
= +(L)(L
s
)
t
dove (L
s
) = 1
1
L
s
2
L
2s

P
L
Ps
, è il polinomio AR stagionale in L
s
di
ordine P, e (L
s
) = 1 +
1
L
s
+
2
L
2s
+ +
Q
L
Qs
è il polinomio MA stagionale
di ordine Q. Un caso di particolare rilevanza (per le serie temporali economiche) è
il cosidetto processo Airline: ARIMA(0, 1, 1) (0, 1, 1)
s
(1 L)(1 L
s
)Y
t
= (1 + L)(1 + L
s
)
t
,
con || < 1, || < 1. Per tale processo la funzione di autocovarianza presenta la
semplice struttura:
(0) = (1 +
2
)(1 +
2
)
2
(1) = (1 +
2
)
2
(k) = 0 per k = 2, . . . , s 2
(s 1) =
2
(s) = (1 +
2
)
2
(s + 1) =
2
(k) = 0 per k > s + 1
37
Esercizio: calcolare la FAC per il processo MA stagionale: Y
t
=
t
+.8
t12
. Mostrare
che esiste un processo non invertibile caratterizzato dalla medesima FAC.
2.12 Lapproccio di Box e Jenkins
Nelle sezioni precedenti abbiamo cominciato ad avere una certa familiarità con i
processi stocastici; essi dovrebbero essere riconoscibili in base alle loro proprietà,
espresse dalla FAC e dalla FACP. Ora, le serie temporali, che costituiscono una
realizzazione di tali processi, dovrebbero rispecchiarne le proprietà, fermo restando
che la limitatezza dellintervallo di osservazione può in concreto alterarne alcune.
Box e Jenkins hanno proposto una metodologia per ladattamento di un modello
ARIMA alla serie temporale, y
t
, che consiste nelliterare il seguente schema a tre
fasi: i) identicazione del modello; ii) stima e iii) verica.
2.12.1 Identicazione
La fase di identicazione mira in primo luogo a determinare la trasformazione della
serie che induce la stazionarietà in media, varianza e covarianza. Es. trasformazione
di Box-Cox. Nelle serie temporali macroeconomiche è usuale la trasformazione z
t
=
ln y
t
, che corrisponde approssimativamente al tasso di variazione del fenomeno:
y
t

y
t
y
t1
y
t1
Successivamente si passa a selezionare il modello ARMA (gli ordini p e q) sulla
base della FAC, (k), e FACP

kk
della serie trasformata. I correlogrammi fornisco-
no lo strumento pi` u importante di identicazione; dal confronto dei correlogrammi
stimati con quelli teorici che caratterizzano i p.s. al variare degli ordini p e q si
ottengono indicazioni circa i medesimi. Ad esempio, se (k) ha un salto a ritardo
q, oltre il quale è prossima a zero, si identica un processo MA(q). Lordine di un
processo AR è pi` u dicile a determinarsi a partire dalla sola FAC, ma soccorre la
FACP.
2.12.2 Stima
La stima avviene mediante il metodo della massima verosimiglianza (MV), sotto las-
suzione di normalità delle osservazioni; una semplicazione si ottiene condizionando
rispetto alle prime p+q osservazioni, poiche in tal caso il problema si riconduce alla
minimizzazione di una somma dei quadrati dei residui. Nel caso dei processi AR
le stime di MV condizionate sono equivalenti a quelle dei minimi quadrati ottenute
38
dalla regressione di y
t
su p valori ritardati. In tal caso esiste una soluzione esplicita
per le stime. Ad esempio, nel caso di un AR(1) senza costante,
T
t=2
y
t1
y
t
T
t=2
y
t1
Analogamente, il sistema di equazioni di Yule-Walker: =

P
1
, dove =
[
1
, . . . ,
p
]
, fornisce stime consistenti dei parametri autoregressivi di un processo

puro AR(p).
Nel caso di processi MA o misti la somma dei quadrati dei residui è non lineare
nei parametri e la minimizzazione utilizza algoritmi iterativi, non esistendo una
soluzione esplicita. Ad esempio, nel caso di un MA(1), la funzione obiettivo è data
da S =

2
t
=

(y
t

t1
)
2
; ora,
t1
dipende a sua volta da , per cui S/ è
pari alla somma dei termini
t1
+
t1
_
.
2.12.3 Verica
Test di signicatività dei parametri
Analisi dei residui
e
t
=
1

1
L

p
L
p
1 +

1
L + +

q
L
q
y
t
Si tratta di sottoporre a verica tre proprietà: normalità, omoschedasticità e
incorrelazione. Un test formale di normalità è quello di Bowman e Shenton,
basato sulla statistica N = N
1
+ N
2
, avente distribuzione
2
(2). N
1
è il test
per lasimmetria dei residui che fa riferimento al momento terzo rispetto alla
media: N
1
= (T 1)b
1
/6, dove
b
1
è il momento terzo centrato di e
t
, ed ha
distribuzione asintotica
2
(1). N
2
= (T 1)(b
2
3)
2
/24, dove b
2
rappresenta
il momento quarto centrato, è il statistica test per la presenza di curtosi e si
distribuisce secondo una
2
(1).
Per la presenza di eteroschedasticit` a possono essere utilizzati metodi graci e
test formali; se si sospetta che vi sia stato un cambiamento ad un tempo t
,
si può spezzare il campione in due sottoperiodi e testare lipotesi che
2
sia
uguale nei due sottoperiodi, mediante un opportuno test F.
Per testare lautocorrelazione dei residui, oltre al consueto test DW, solita-
mente si costruisce il correlogramma globale
e
(k), e parziale

e,kk
, e si valuta
la presenza di valori che fuoriescono dalle bande di condenza al 5% (2/
T).
39
La statistica test per lipotesi nulla H
0
:
(1) = =
(m) = 0 è fornita
dalla statistica di Ljung-Box, Q(m), basata su m autocorrelazioni dei residui.
Q(m) = T(T + 2)
m
j=1
(T j)
1

2
e
(j)
Sotto H
0
, Q(m) si distribuisce come una v.c.
2
con m (p + q) gradi di
libertà.
Bont` a delladattamento: se la serie è non stazionaria e lordine di dieren-
ziazione è d = 1, il coeciente di determinazione viene calcolato come segue:
R
2
D
= 1 SSE/SSD, dove SSE = (T 1)
2
e SSD è la somma dei quadrati
delle dierenze prime corrette della media. Il coeciente, che può anche ri-
sultare negativo, indica se ladattamento è migliore o peggiore di un semplice
ARIMA(0,1,0).
Spesso, soprattutto quando si ha a che fare con modelli misti, si procede
per tentativi, scoprendosi che diversi modelli sono compatibili, nel senso che
generano residui WN. La scelta tra di essi può essere eettuata mediante un
criterio di informazione: per dati ordini massimi p
, q
, si stimano tutti i p
modelli di ordine inferiore e si sceglie quello che

min
_
AIC(p, q) = ln
2
+ 2
p + q
T
_
,
oppure
min
_
BIC(p, q) = ln
2
+ ln T
p + q
T
_
.
2.13 Previsione
Data la disponibilità della serie temporale no al tempo T, ci proponiamo ora di
prevedere il fenomeno l periodi in avanti. Il set informativo a cui facciamo riferimento
è denotato F
T
= {y
1
, y
2
, . . . , y
T1
, y
T
}
Sfrutteremo il risultato fondamentale secondo il quale il previsore ottimale di
y
T+l
è il suo valore atteso condizionato allinformazione F
T
:
y
T+l|T
= E[y
T+l
|F
T
]
Lottimalità va intesa nel senso che y
T+l
minimizza lerrore quadratico medio di
previsione. Inoltre, lerrore di previsione, y
T+l
y
T+l|T
, ha valore atteso nullo e
varianza che denotiamo Var( y
T+l|T
).
La funzione di previsione verr` a ottenuta sotto le seguenti assunzioni:
1.
t
NID(0,
2
)
40
2. I parametri
1
, . . . ,
p
,
1
, . . . ,
q
, ,
2
sono noti
3. Si dispone di una realizzazione innita: F
T
= {y
T
, y
T1
, . . . , y
1
, y
0
, y
1
, . . .}:
Lassunzione 1 è pi` u forte di
t
WN(0,
2
) poiche postula lindipendenza (oltre
lincorrelazione) tra le v.c.
t
; la seconda implica che i parametri sono stimati senza
errore. La terza assunzione assume rilievo quando si ha a che fare con processi MA
o misti ed implica che le realizzazioni passate e corrente della v.c.
t
sono note. Ad
esempio, per un MA(1) essa consente di invertire il modello al ne di ottenere
t
= y
t
/(1 + L); al tempo T,
T
= y
T

T1
= y
T
y
T1
+
2
y
T2
3
y
T3
+ . . . =
j=0
()
j
y
Tj
e pertanto E(
T
|F
T
) =
T
è noto, poiche dipende dai valori passati di y. Nella prati-
ca, in cui si dispone esclusivamente di un campione nito, la sequenza
t
è generata
ricorsivamente ipotizzando
0
= 0:
1
= y
1

0
= y
1
;
2
= y
2
y
1
; . . . ,
T
=
y
T

T1
.
La previsione da modelli ARIMA viene eettuata applicando le seguenti regole
generali, che discendono direttamente dalle assunzioni precedenti:
y
T+j|T
= y
T+j
per j 0
T+j|T
=
_

T+j
per j 0
0 per j > 0
Infatti, quando j > 0, il miglior previsore lineare non distorto dei valori futuri di
t
è la media incondizionata,
T+j|T
= E[
T+j
|F
T
] = 0.
Lassunzione 1 implica che lintervallo di condenza al 95% attorno al valore
previsto è fornito da:
y
T+l
= y
T+l|T
1.96[Var( y
T+l|T
)]
1/2
Previsione da un modello AR(1): y
t
= y
t1
+
t
y
T+1|T
= E[y
T+1
|F
T
]
= E[y
T
|F
T
] + E[
T+1
|F
T
]
= y
T
;
y
T+2|T
= E[y
T+2
|F
T
]
= E[y
T+1
|F
T
] + E[
T+2
|F
T
]
= E[(y
T
+
T+1
)|F
T
] + E[
T+2
|F
T
]
=
2
y
T
;
In generale, le previsioni seguono la formula ricorsiva y
T+l|T
= y
T+l1|T
, con va-
lore iniziale (l = 0) pari allultimo valore osservato, y
T
. Nei termini di questultimo,
y
T+l|T
=
l
y
T
.
41
Calcoliamo ora la varianza dellerrore di previsione:
Var( y
T+1|T
) = E[(y
T+1
y
T+1|T
)
2
]
= E[(y
T
+
T+1
y
T
)
2
]
=
2
;
Var( y
T+2|T
) = E[(y
T+2
y
T+2|T
)
2
]
= E[(
2
y
T
+
T+1
+
T+2
y
2
T
)
2
]
=
2
(1 +
2
);
Var( y
T+l|T
) = E[(y
T+l
y
T+l|T
)
2
]
=
2
(1 +
2
+
4
+ +
2(l1)
);
Pertanto,
lim
l
Var( y
T+l|T
) =

2
1
2
Previsione da un modello ARIMA(0,1,1) Consideriamo il modello y
t
=
t
+
t1
:
y
T+1|T
= E[y
T+1
|F
T
]
= E[y
T
|F
T
] + E[
T+1
|F
T
] + E[
T
|F
T
]
= y
T
+
t
;
y
T+2|T
= E[y
T+2
|F
T
]
= E[y
T+2
|F
T
] + E[
T+2
|F
T
] + E[
T+1
|F
T
]
= y
T+1|T
= y
T
+
t
;
Per l > 1, y
T+l|T
= y
T+l1|T
= y
T
+
t
e la funzione di previsione è costante. Si
verica facilmente che se 1 < < 0 si eettua un livellamento esponenziale, vale a
dire il valore previsto è una media ponderata dei valori passati della serie, con pesi
decrescenti secondo i termini di una progressione geometrica di ragione :
y
T+l|T
= (1 +)
T1
j=0
()
j
y
Tj
Analogamente si dimostra che le previsioni dal modello
2
y
t
= (1 +
1
L +
2
L
2
)
t
sono equivalenti a quelle dello schema di Holt & Winters, sotto particolari restrizioni
sui parametri
1
e
2
.
Esercizio: Calcolare le previsioni l = 1, 2, 3 periodi in avanti eettutate a partire dai
modelli di seguito elencati
y
t
= 0.5 .7y
t1
+
t
,
t
WN(0, .1)
y
t
= 0.5 .7y
t1
+
t
,
t
WN(0, .1)
42
y
t
= 0.2 +
t
+ .4
t1
,
t
WN(0, .1)
y
t
= 0.2 +
t
.4
t1
,
t
WN(0, .1)
noto che y
T
= .40, y
T1
= .35 e
T
= 0.001,
T1
= 0.031. Calcolare inoltre la varian-
za dellerrore di previsione.
43
Capitolo 3
Analisi non parametrica delle serie
temporali
3.1 Le medie mobili
Una media mobile (mm) non è altro che una media aritmetica semplice o ponderata
di k osservazioni consecutive della serie temporale. In maniera pi` u formale possiamo
denirla come una trasformazione lineare della serie che può essere rappresentata
come combinazione lineare delle potenze positive e negative delloperatore ritardo,
L.
M =
m
2
i=m
1
w
i
L
i
Pertanto, My
t
= w
m
1
y
tm
1
+ + w
0
y
t
+ + w
m
2
y
t+m
2
.
Il numero delle osservazioni consecutive, m
1
+m
2
+1 è denominato ordine della
mm. Una mm si dice centrata qualora m
1
= m
2
= m; in tal caso
M = L
m
(w
m
+ w
m+1
L + +w
m
L
2m
) = L
m
w(L)
dove w(L) è un polinomio di grado 2m in L, detto polinomio associato alla mm.
Inoltre, una mm centrata è simmetrica se w
i
= w
i
, i = 1, . . . , m; il polinomio
associato è simmetrico e L
m
w(L) = L
m
w(L
1
).
Valgono le seguenti proprietà: a) la composizione di due mm è ancora una mm;
b) la composizione di due mm centrate è ancora una mm centrata; c) linsieme delle
mm simmetriche è chiuso rispetto alla composizione.
Nullità di una media mobile Si chiama nullit` a (spazio nullo) di una media
mobile M linsieme delle serie temporali y
t
tali che My
t
= 0:
My
t
= w
m
y
tm
+ + w
m
y
t+m
= 0, t
44
ovvero w(L)y
t
= 0. Gli elementi dello spazio nullo sono le soluzioni dellequazione
caratteristica w(r) = 0. Esempio: si consideri la serie {1, 1, 1, 1, 1, 1}; la media
mobile asimmetrica (1 +L)y
t
genera {NA, 0, 0, 0, 0, 0}.
Invarianza e nucleo Una serie temporale è invariante rispetto alla mm M se e
solo se My
t
= y
t
; le serie invarianti soddisfano
My
t
= w
m
y
tm
+ + w
m
y
t+m
= y
t
e si ottengono a soluzione dellequazione alle dierenze nite [w(L) L
m
]y
t
= 0.
La mm preserva i polinomi di grado non superiore a p se r = 1 è una radice di
molteplicità p+1 dellequazione caratteristica w(r)r
m
= 0. In tal caso il polinomio
[w(L) L
m
] contiene il fattore
p+1
.
Si consideri ad esempio m = 2, w
i
= 1/5, i = 0, 1, 2; si ha [w(L) L
m
] =
(1/5)[(1 L
2
) +(L L
2
) +(L
3
L
2
) +(L
4
L
2
)] = (1/5)(1 L)
2
(1 +3L +L
2
), il
quale contiene la radice 1 con molteplicità 2.
Teorema Una mm preserva una serie costante se e solo se w(1) = 1, vale a dire
m
i=m
w
i
= 1
Teorema Una mm simmetrica che preserva la costante preserva anche i polinomi
di primo grado. Sia y
t
= a + bt; My
t
= Ma + Mbt = a + bMt, ma Mt = w
m
(t
m) + + w
0
t + w
m
(t + m) = t.
Teorema Il nucleo di una composizione di medie mobili è dato dallintersezione
dei nuclei delle mm componenti. Pertanto il prodotto di due mm che preservano
entrambe i polinomi di grado non superiore a p preserva anche esso tali polinomi.
3.2 Eetto fase ed eetto ampiezza
Lapplicazione di una media mobile ad una serie determina due eetti: si viene a
modicare lampiezza delle uttuazioni (ad es. i punti di massimo e di minimo
risultano amplicati o attenuati) e si determina uno spostamento di fase, vale a dire
uno spostamento delloscillazione lungo lasse dei tempi.
Dato il generico ltro lineare W(L), si chiama funzione di risposta frequenziale
il termine W(e
) che si ottiene sostituendo e
= cos + sin a L.
Leetto relativo allampiezza è misurato dal guadagno (gain), il cui quadrato è
denominato funzione di trasferimento
|W(e
i
)| = [W(e
i
)W(e
i
)]
1/2
.
45
Infatti, data la serie y
t
, con spettro f
y
(), la densità spettrale di W(L)y
t
è pari a
|W(e
i
)|
2
f
y
(). Il guadagno (o la funzione di trasferimento) fornisce informazioni
importanti sulloperatività del ltro; ad esempio se è 1 attorno alle frequenze basse,
la mm preserva il trend; se è zero o prossimo a zero in un intorno di alcune frequenze
il ltro elimina le componenti oscillatorie corrispondenti a quelle frequenze.
La fase è rappresentata da
Ph() = arctan
_
()
W
()
_
dove W
() è la parte reale di W(e
) mentre W
() è la parte immaginaria.
La categoria dei ltri bidirezionali simmetrici presenta limportante caratteristica
di lasciare inalterata la posizione dei punti di svolta delle uttuazioni dal momento
che la loro fase è nulla : infatti essi ammettono la rappresentazione
W(L) = w
0
+
m
j=1
w
j
(L + L
1
); W(e
) = w
0
+ 2
m
j=1
w
j
cos j
Pertanto, la parte immaginaria della funzione di risposta è nulla e la funzione di fase
assume valore 0 (nessuno spostamento di fase) o (inversione di fase) se W(e
) è
negativa (caso irrilevante). Il guadagno della media mobile è in questo caso G() =
|w
0
+ 2
m
j=1
w
j
cos j|.
3.3 Leetto di Slutzky-Yule
Il ltraggio di un processo
t
WN(0,
2
) mediante una mm M conduce ad un
processo M
t
con media nulla e varianza
Var(M
t
) =
2
m
j=m
w
2
j
Il rapporto Var(M
t
)/
2
rappresenta il fattore di inazione della varianza, che se
inferiore allunità misura il lisciamento indotto dalla mm. Il processo M
t
sarà ora
autocorrelato e presenterà in generale 2m autocorrelazioni diverse da zero.
In relazione al ltro utilizzato possono prodursi ciclicità spurie evidenziate dalla
presenza di un massimo relativo nella funzione di trasferimento del ltro. Ai ni del
calcolo approssimato del periodo si può utilizzare la formula 2/(arccos (1)) dove
(1) è lautocorrelazione a ritardo 1 di M
t
. Leetto di Slutzky-Yule è funzione
crescente del fattore di inazione della varianza.
46
3.4 Polinomi locali; ltri di Macaulay
Una importante classe di mm si ottiene dalladattamento di un polinomio a 2h + 1
termini consecutivi di una serie; il polinomio stimato viene utilizzato per stima-
re il trend nella modalità centrale. Dal momento che la stima dei coecienti
del polinomio risulta lineare nelle osservazioni, anche la stima del trend linea-
re. y
t
= m(t) +
t
, dove m(t + j) m
t
(j) (approssimazione polinomiale locale),
m
t
(j) =
0
+
1
j + +
p
j
p
, j = h, . . . , h.
Lobiettivo è quello di ottenere un lisciamento (smoothing) della serie, rimuoven-
do le uttuazioni irregolari e isolando una stima del trend ovvero del valore atteso
di y
t
. L idea di fondo è che tale valore atteso varia debolmente nel tempo e che per-
tanto possa essere approssimato (nel senso dellapprossimazione di Taylor di ordine
p) localmente da un polinomio, che costituisce una funzione di t piuttosto lisciata e
con derivate continue no ad un certo ordine.
I coecienti w
j
della mm possono essere ottenuti adattando alla serie un po-
linomio locale (su intervalli di lunghezza 2h + 1) attraverso lottimizzazione di un
criterio che fa riferimento alla fedeltà dellapprossimazione.
min
h
i=h
[y
t+j
(
0
+
1
j + +
p
j
p
)]
2
La stima del trend al tempo t si ottiene come m
t
= b
0
, dove b
0
è lo stimatore di
0
e dal momento che gli stimatori dei MQ sono lineari nelle osservazioni si ha
m
t
=
h
j=h
w
j
y
t+j
.
Questa quantità fornisce a secondo membro i pesi di una mm centrata che preserva
localmente un polinomio di grado p. Se si denota con C la matrice del disegno
C =
_
_
1 h (h)
2
(h)
p
1 (h 1) [(h 1)]
2
[(h 1)]
p
.
.
.
.
.
.
.
.
.
.
.
.
1 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
1 h 1 (h 1)
2
(h 1)
p
1 h h
2
h
p
_
_
e con y = [y
th
, . . . , y
t+h
]
, sotto lipotesi
t
WN(0,
2
), lo stimatore dei minimi
quadrati ordinari di b = [b
0
, . . . , b
p
]
risulta
b = (C
C)
1
C
y;
47
i coecienti della mm sono forniti dalla prima riga della matrice (C
C)
1
C
.
m
t
= b
0
= e
1
b = e
1
(C
C)
1
C
y = w
y
dove w
= e
1
(C
C)
1
C
, e, denotando con c
(ij)
il generico elemento della matrice
(C
C)
1
si ha
m
t
=
p
l=1
c
(1l)
h
j=h
j
l
y
t+j
dalla quale si evidenzia c
(11)
= w
0
e in generale
w
j
= c
(11)
+ c
(12)
j + c
(1p)
j
p
=
p
l=1
c
(1l)
j
l
Pertanto,
m
t
= e
1
b = e
1
(C
C)
1
C
y = w
y
Proprietà:
1. La media mobile ottenuta mediante questo argomento preserva ovviamente i
polinomi di grado p: se infatti y
t
= m(t), con m
t
(j) =
0
+
1
j + +
p
j
p
, j =
h, . . . , h, allora m
t
= m(t): basta porre y = C, = [
0
, . . . ,
p
]
; segue
m
t
= w
(Cb) = e
1
=
0
= y
t
. Si noti che w
C = e
1
implica:
[
h
j=h
w
j
= 1,
h
j=h
j
l
w
j
= 0, l = 1, . . . , p
e pertanto preserva tutti i polinomi di grado inferiore a p. La somma dei
coecienti è unitaria e pertanto viene preservata la costante.
2. Simmetria: w
j
= w
j
; consegue dal disegno simmetrico dei punti temporali
presi in considerazione.
3. I pesi giacciono su un polinomio di grado k. Si confronti la formula precedente,
dove k = [p/2], dove [p/2] = p/2 per p pari e [p/2] = (p 1)/2 per p dispari.
Pertanto se p = 0, 1 i pesi sono costanti; per p = 2, 3 giacciono su una retta
4. Le medie calcolate con riferimento ai polinomi di ordine pari sono le stesse di
quelle calcolate per p + 1. Questo dovuto al fatto che la somma delle potenze
dispari di i e identicamente nulla per eetto della simmetria.
5.
w
w =
h
j=h
w
2
j
= e
1
(C
C)
1
C
C(C
C)
1
e
1
= e
1
(C
C)
1
e
1
= w
0
il primo elemento dellinversa che pari a w
0
Il fattore di inazione della varianza
è pari a w
0
(
w
2
i
= w
0
)
48
Esercizio: dimostrare che se m = k, k = [q/2], dove [q/2] = q/2 per q pari e
= (q 1)/2 per q dispari,

(t) = h
t
(0) = y
t
.
3.4.1 Varianza e distorsione
Dalla teoria dei MQO Var( m
t
) =
2
w
0
dal momento che il primo elemento della
matrice (CC)
1
corrisponde a w
0
. Per dato q, si dimostra che la varianza decresce
al crescere di m, mentre per dato m essa cresce con k, k = [q/2], dove [q/2] = q/2
per q pari e = (q 1)/2 per q dispari. Essa pertanto rimane inalterata se si passa
dal grado q pari al grado q +1. (questo si dimostra con il fatto che la mm e il trend
estratto coincidono).
La distorsione è nulla se E(y
t
) è esattamente un polinomio di grado p, altrimenti
E(y
t
m
t
) = h(t)
m
i=m
w
i
h(t +i).
Tra la distorsione e la varianza esiste il trade-o per cui allaumentare di m dimi-
nuisce la varianza ma aumenta la distorsione.
3.5 Medie mobili aritmetiche semplici
Una mm aritmetica semplice è tale che w
i
= w = 1/(2m + 1); essa si ottiene per
p = 0, 1, vale a dire quando il polinomio locale è una semplice costante o una retta,
nel qual caso le equazioni normali forniscono a
0
= (2m + 1)
1
m
i=m
y
t+i
.
Le mm semplici possono essere anche derivate a soluzione del seguente problema
di ottimo vincolato: minimizzare il coeciente di inazione della varianza sotto il
vincolo di somma ad uno dei coecienti:
min
m
i=m
w
2
i
, s.v.
m
i=m
w
i
= 1.
La soluzione fornisce appunto w
i
= 1/(2m+ 1) (media aritmetica semplice).
Il polinomio caratteristico associato alla mm è
w(L) =
1
2m+ 1
(1 + L + + L
2m
) =
(1 L
2m+1
)
(2m + 1)(1 L)
,
e la nullit` a della mm. è rappresentata dai processi periodici di periodo 2m + 1
(dispari).
Il nucleo della mm è rappresentato dalle sequenze costanti e lineari, ma non
da quelle quadratiche: se si considera infatti y
t
= a + bt + ct
2
si ha che My
t
=
a + bt + ct
2
+ cm(m + 1)/3.
49
Il guadagno è fornito da
G() =
1
2m + 1
1 + 2
m
i=1
cos(i)
=
1
2m + 1
sin(m+ 1/2)
sin(/2)
ed è nullo per = (2j)/(2m + 1), j = 1, . . . , 2m. Se applicata ad un processo

WN, il fattore di inazione della varianza è pari a (2m + 1)
1
e la funzione di
autocorrelazione di M
t
è una linea retta inclinata negativamente.
3.5.1 Componente stagionale di periodo s pari
La mm aritmetica di un numero pari di termini (s = 4, 12) non è centrata rispetto
alla modalità temporale di riferimento. Possiamo infatti costruire le due mm:
y
1t
=
1
2m
(y
tm
+ + y
t+m1
); y
2t
=
1
2m
(y
tm+1
+ +y
t+m
)
con m = s/2. Al ne di ottenere una mm centrata in t possiamo prendere
y
t
=
1
2
(y
1t
+ y
2t
) =
1
2m
(.5y
tm
+ y
t+m+1
+ +y
t+m1
+ .5y
t+m
)
Il polinomio associato è w(L) = (2s)
1
(1 +L)S(L) = (2s)
1
(1 +L)
s
/(), con
S(L) = 1 +L + +L
s1
.
3.6 Composizione di mm aritmetiche
La composizione di mm aritmetiche consente di derivare una famiglia di mm di
agevole calcolo che costituiscono buone approssimazioni di mm pi` u sosticate. Ad
esempio, se desiderassimo una mm che preservi i polinomi di grado uno e che elimini
un pattern stagionale con ampiezza linearmente crescente, si può applicare due volte
una mm a s termini:
M =
1
s
(L
s
+ + L + 1 + L
1
+ +L
s+1
)
1
s
(L
s1
+ + L + 1 + L
1
+ + L
s
)
=
1
s
2
(L
s
+ 2L
s1
+ + (s 1)L +s + (s 1)L
1
+ + 2L
s+1
+ L
s
)
Il polinomio caratteristico è proporzionale a S(L)
2
.
Tuttavia, le mm aritmetiche consentono di preservare i polinomi di grado non
superiore al primo. Le mm di Spencer superano questa limitazione. In particolare
esse, pur essendo caratterizzate da una struttura di coecienti molto semplice, eli-
minano una componente stagionale di periodo s con ampiezza variabile in maniera
lineare, etc..
50
3.7 Lisciamento e ltri di Henderson
In un paragrafo precedente abbiamo desunto le mm aritmetiche come soluzione del
problema di min w
w sotto il vincolo w
i = 1. Un criterio alternativo è basato sulla

minimizzazione della forma quadratica w
w, dove w
= (w
m
, . . . , w
0
, . . . , w
m
e è
una matrice simmetrica e denita positiva. Nel caso delle medie mobili di Henderson
= D
3
D
3
, D è la matrice tale che Dw = (w
m
, w
m+1
w
m
, . . . , w
m
w
m1
)
.
min
m
i=m+3
(
3
w
i
)
2
, s. v. C
w = c
dove i vincoli sono relativi alla preservazione dei polinomi di ordine p.
i
w
i
= 1,
i
j
w
i
= 0, j = 1, 2, . . . , p (3.1)
Al ne di comprendere la natura dei vincoli, consideriamo una polinomiale di
ordine p:
y
t
=
p
j=1
j
t
t
Anche sia
My
t
=
m
i=m
w
i
y
t+i
=
m
i=m
w
i
p
0j=1
j
(t + i)
j
,
devono essere soddisfatte le relazioni (3.1). Il lisciamento della mm viene misurato
dalla somma dei quadrati delle dierenze terze dei coecienti; questa quantità è
nulla se essi si dispongono lungo una parabola.
La soluzione è fornita da w =
1
C(C
1
C)
1
c. Per p = 2, ponendo k = m+2:
w
i
=
315[(k + 1)
2
i
2
](k
2
i
2
)[(k + 1)
2
i
2
)(3k
2
16 11i
2
)
8k(k
2
1)(4k
2
1)(4k
2
9)(4k
2
25)
Tali medie non elimininano la stagionalità, sebbene per una scelta opportuna di m
se ne può ridurre signicativamente lampiezza.
3.8 Il trattamento delle estremità della serie
I due approcci fondamentali per il trattamento delle estremità della serie sono di
seguito schematizzati:
1. Impiego di medie mobili asimmetriche per t = T m + 1, . . . , T a 2m, 2m
1, m + 1 termini. Pertanto, gli ultimi m termini della serie sono soggetti a
revisione quando una nuova osservazione si rende disponibile.
2. Estrapolazione (e retropolazione) della serie: y
T+l|T
, l = 1, . . . , m.
Se le previsioni sono lineari i due approcci sono equivalenti.
51
Capitolo 4
La destagionalizzazione delle serie
temporali
4.1 Introduzione
La stagionalità rappresenta una delle maggiori fonti di variabilit` a dei fenomeni azien-
dali. La sua rilevanza induce a ritenere che essa sia di autonomo interesse; tutta-
via, esistono argomenti sucientemente fondati ed istituzionalmente riconosciuti
che inducono ad isolarla e rimuoverla da una serie storica al ne di evidenziare
segnali meno appariscenti, ma altrettanto signicativi dal punto di vista interpre-
tativo, identicabili con la componente ciclica e la componente di lungo periodo, o
tendenziale.
Una procedura di destagionalizzazione, come la X-12-ARIMA, oggetto del pre-
sente capitolo, si fonda sul presupposto che non sussistano interazioni tra le com-
ponenti di una serie temporale, ed in particolare tra la stagionalità e le altre com-
ponenti; sotto queste ipotesi mira a eliminare una sovrastruttura dovuta a fattori
istituzionali, di calendario e climatici, legati allalternarsi delle stagioni e diversi da
quelli che presiedono alla componente di ciclo-trend, che possono essere legati alle
aspettative degli operatori, al clima economico prevalente, alla diusione delle inno-
vazioni tecnologiche, e cos` via. Il grado di realismo di tale assunzione è stato ed è
tuttora oggetto di un ricco ed approfondito dibattito.
Un punto fermo rimane comunque il fatto che la disponibilità di informazioni
statistico-economiche destagionalizzate costituisce un fabbisogno informativo dif-
fuso, soprattutto da parte degli utilizzatori meno esperti o semplicemente meno
interessati allanalisi statistica delle serie temporali, e sanzionato dai regolamenti
comunitari, che invitano gli Istituti di Statistica dei paesi membri a produrre serie
destagionalizzate in maniera routinaria, secondo determinati standard qualitativi.
Al ne di illustrare loperatività di una procedura di destagionalizzazione faremo
riferimento ad una serie mensile molto famosa nella letteratura, la serie Airline,
52
Figura 4.1: Destagionalizzazione della serie Airline.
50 55 60
200
300
400
500
600
Serie originaria
50 55 60
5
5.5
6
6.5
Trasformazione logaritmica
50 55 60
200
300
400
500
Serie destagionalizzata
50 55 60
200
300
400
500
600
Serie originaria e ciclo-trend
airline TRairline
relativa al numero dei passeggeri di una linea aerea nel periodo Gennaio 1941 -
Dicembre 1961. Da essa prende il nome il modello Airline introdotto nel capitolo
precedente, dal momento che questo ben si adatta alla serie e in generale presenta un
buon adattamento per un ampio spettro di fenomeni economici che presentano trend
e stagionalità. La gura 4.1 evidenzia la presenza di un trend crescente e di una
stagionalità abbastanza regolare, che tuttavia presenta un ampiezza delle oscillazioni
crescente al crescere del trend: siamo in presenza di una situazione tipica in cui
la trasformazione logaritmica elimina questa ultima caratteristica, come mostra il
secondo pannello.
Il modello della classe ARIMA adattato alla serie risulta:
12
ln y
t
= (1 0.40L)(1 0.56L
12
)
t
,
con
2
= 0.013, e supera tutti i test diagnostici. Gli ulteriori pannelli della gura
4.1 mostrano rispettivamente la serie destagionalizzata ottenuta come output della
procedura X-12, che come vedremo usa il modello ARIMA soltanto strumentalmente,
al ne di ottenere estensioni della serie mediante previsione, e la componente di ciclo-
trend. Le due dieriscono dal momento che la prima contiene anche una stima della
componente irregolare, fornendo dunque un segnale meno lisciato.
Quello che la serie destagionalizzata consente di evidenziare e che non era palese
a prima vista è la presenza di alcune essioni cicliche, di natura temporanea, in
particolare nellanno 1958.
53
4.2 La procedura X-12-ARIMA
La procedura X-12-ARIMA è stata sviluppata dal Census Bureau degli Stati Uniti
con lintento di sostituire la versione precedente, nota come X-11-ARIMA, che ha
rappresentato a lungo la procedura di destagionalizzazione impiegata da soggetti
istituzionali. Essa, distribuita in via sperimentale mediante il sito
ftp://ftp.census.gov/pub/ts/x12a/,
assieme al manuale ed al paper illustrativo (Findley et al., 1996), contiene elementi
di continuit` a rispetto alla precedente versione, ma anche forti punti di rottura. La
novità essenziale è rappresentata dal modulo RegARIMA, che va a sovrapporsi al
nucleo originale della procedura X-11-ARIMA e che riporta su basi inferenziali il
trattamento di aspetti che precedentemente ricevevano soluzioni ad hoc.
In particolare, RegARIMA consente di adattare alla serie Y
t
modelli del tipo
(L)(L
s
)
d
D
s
_
y
t
k=1
k
x
kt
_
= (L)(L
s
)
t
, (4.1)
dove y
t
= f(Y
t
/d
t
) è la trasformazione di Box-Cox della serie Y
t
corretta dei fattori
d
t
(ad es. per il diverso numero dei giorni lavorativi).
Le variabili esogene x
k
sono a) predenite; b) denite dallutente. Tra le prime
troviamo, oltre alle dummy stagionali, quelle per la diversa lunghezza dei mesi, per
leetto degli anni bisestili, per il numero dei giorni lavorativi, distintamente per
variabili di usso e di stock, per la Pasqua e altre festività mobili; per i valori
anomali additivi, cambiamenti di livello, rampe temporanee. Inoltre, per quanto
concerne il trattamento automatico dei valori anomali, si assiste allintroduzione
delle procedure di forward addition e backward deletion.
Findley et al. (1996) descrivono le procedure di selezione della trasformazione
preliminare della serie, del modello ARIMA (nel caso si usi lopzione automatica), di
stima dei parametri, etc.. Queste operazioni rientrano nella metodologia standard e
non vengono discusse ulteriormente. In eetti, RegARIMA costituisce un pacchetto
applicativo che può essere utilizzato autonomamente per lidenticazione, stima e
verica di modelli ARIMAX secondo la metodologia di Box & Jenkins, trascendendo
dallimpiego funzionale allestrapolazione della serie per lapplicazione in sequenza
del ltro X-11-enhanced.
Dopo aver realizzato laggiustamento preliminare e la previsione e retropolazione
della serie, si applica una versione arricchita del ltro X-11 che verrà descritta in
maniera pi` u approfondita nei paragra che seguono. Larricchimento ha riguarda-
to la possibilità di specicare medie mobili di Henderson e stagionali di qualsiasi
lunghezza, la ridenizione delle medie mobili asimmetriche e lintroduzione della
scomposizione pseudo-additiva.
54
Si noti che X-12, incorporando il modulo X-11, consente limpiego delle pre-
esistenti tecniche di aggiustamento per i valori anomali e per le componenti di
calendario, seppure il loro impiego appare ovviamente non opportuno.
La fase di diagnosi della bontà della destagionalizzazione conclude la procedura.
In realtà viene evidenziato un feedback con le fasi precedenti, poiche alcuni eetti
potrebbero essere individuati soltanto in questa sede. Gli strumenti diagnostici di
nuova introduzione sono: sliding spans, revision histories, la stima della densità
spettrale dei residui del modello regARIMA per lindividuazione della stagionalità
residua e delle componenti di calendario.
4.3 Il ltro di destagionalizzazione (Enhanced X-
11)
I modelli di scomposizione della serie storica Y
t
, t = 1, . . . , T, utilizzati dalla
procedura sono i seguenti:
Modello Scomposizione Serie destagionalizzata
Moltiplicativo (default) Y
t
= T
t
S
t
I
t
A
t
= T
t
I
t
Additivo Y
t
= T
t
+ S
t
+ I
t
A
t
= T
t
+I
t
Log-additivo ln Y
t
= T
t
+ S
t
+ I
t
A
t
= exp(T
t
+I
t
)
Pseudo-additivo Y
t
= T
t
(S
t
+ I
t
1) A
t
= T
t
I
t
La scomposizione pseudo-additiva è applicabile nei riguardi di serie che assumono
valori comunque non negativi, ma prossimi allo zero in alcune stagioni. Il modello
log-additivo fornisce stime della componente tendenziale distorte verso il basso; per
tale motivo si applica una correzione ad hoc atta ad assicurare che la media annua
della serie destagionalizzata coincida con quella della serie originaria.
Nella schematizzazione del ltro che segue presenteremo una esemplicazione
riferita ai modelli moltiplicativo (M) e additivo (A) applicati su dati mensili, s = 12.
La procedura X-11 risulta divisa in tre fasi ed è iterata tre volte, (iterazioni B,
C, D): le prime due iterazioni sono dedicate allidenticazione e alla stima nale dei
valori anomali, nel caso in cui laggiustamento preliminare non sia eettuato con
regARIMA; lultima alla destagionalizzazione in senso stretto sulla serie corretta
1
.
Di seguito descriveremo esclusivamente literazione D; i riferimenti utilizzati sono
prevalentemente Findley et al. (1996) e Ghysels et al. (1995).
1
In realtà una prima iterazione, A, è dedicata allaggiustamento preliminare della serie eettuata
con pesi a priori per i diversi giorni di calendario specicati dallutente.
55
4.3.1 Prima fase: stime iniziali
1. Stima iniziale del trend-ciclo, T
(1)
t
, mediante media mobile centrata a 12
termini (m.m. 2 12):
T
(1)
t
= C(L)Y
t
con C(L) =
1
24
(1+L)S(L)L
6
=
1
12
_
1
2
L
6
+ L
5
+ + L
1
+ 1 +L + +L
5
+
1
2
L
6
_
Y
t
.
La media mobile in questione elimina una stagionalità deterministica di
periodo pari a 12 mesi, preservando le altre componenti.
2. Stima iniziale della componente stagionale-irregolare, SI
(1)
t
, (rapporti - o dif-
ferenze - SI):
(M) SI
(1)
t
=
Yt
T
(1)
t
(A) SI
(1)
t
= Y
t
T
(1)
t
= SM(L)Y
t
dove
SM(L) = 1 C(L).
La divisione o sottrazione della stima preliminare del trend ciclo fornisce una
stima iniziale della componente stagionale-irregolare.
3. La serie SI
(1)
t
è suddivisa in 12 gruppi mensili. Si procede a perequare i rappor-
ti applicandovi una media mobile a 5 termini (m.m. 3 3) separatamente per
ciascun mese, dando luogo ad una stima preliminare dei cd. fattori stagionali
(seasonal factors),
S
(1)
t
= M
1
(L)SI
(1)
t
con
M
1
(L) =
1
9
(L
12
+ 1 + L
12
)
2
=
1
9
L
24
+
2
9
L
12
+
3
9
+
2
9
L
12
+
1
9
L
24
.
Le medie mobili mirano a eliminare la componente irregolare dalla componente
stagionale-irregolare.
4. Si ottengono i fattori stagionali iniziali, S
(1)
t
, le cui somme annuali sono pari
rispettivamente a 12 (M) e a zero (A).
(M) S
(1)
t
=

S
(1)
t
C(L)
S
(1)
t
(A) S
(1)
t
= SM(L)
S
(1)
t
Questa operazione eettua la centratura dei fattori stagionali.
56
5. Stima iniziale della serie destagionalizzata, A
(1)
t
:
(M) A
(1)
t
=
Yt
S
(1)
t
(A) A
(1)
t
= Y
t
S
(1)
t
La divisione per i fattori stagionali (M) o la sottrazione dei medesimi (A)
genera una stima della serie destagionalizzata.
4.3.2 Seconda fase: fattori stagionali e destagionalizzazione
1. La stima intermedia della componente trend-ciclo, T
(2)
t
, viene calcolata appli-
cando una m.m. di Henderson alla serie A
(1)
t
;
T
(2)
t
= H
m
(L)A
(1)
t
con H
m
(L) = h
m
L
m
+ +h
1
L
1
+ h
0
+ h
1
L + + h
m
L
m
.
Il ltro di Henderson riproduce un trend cubico e può essere derivato equi-
valentemente: (a) minimizzando la varianza delle dierenze terze della serie
ltrata (
3
T
(2)
t
); (b) minimizzando la somma dei quadrati delle dierenze ter-
ze dei coecienti della media mobile; (c) adattando alla serie un trend cubico
con i minimi quadrati ponderati, minimizzando la somma dei quadrati delle
dierenze terze dei pesi. Cfr Kenny & Durbin, 1982, JRSS, A, 145. Vedi anche
Kendall 1973. I valori tipici di m sono 4, 6 e 11, dando luogo a m.m. di 2m+1
termini. I coecienti h
j
possono essere ricavati dallapplicazione dellalgorit-
mo presentato in Findley et al. (1996, Appendice A): essi sono riportati nella
tabella 1 per alcuni valori di m.
La scelta di mè resa automatica dalla procedura Variable Trend Cycle Routine:
si considera inizialmente m = 6,

T
(2)
t
= H
6
(L)A
(1)
t
; il rapporto

I
t
= A
(1)
t
/
T
(2)
t
,
o la dierenza

I
t
= A
(1)
t

T
(2)
t
, rappresenta una stima preliminare della com-
ponente irregolare. Denotando con

T la media campionaria di |
T
t
| e con

I
quella di |
I
t
|, si costruisce il rapporto R =

T/
I, che rappresenta una misura,

anche se abbastanza rozza, di lisciamento del trend (R
1
misura di roughness);
la routine sceglie m = 4 se R
1
< 1.0 e m = 6 se 1.0 R
1
< 3.5.
2. Nuova stima dei rapporti SI:
(M) SI
(2)
t
= Y
t
/T
(2)
t
(A) SI
(2)
t
= Y
t
T
(2)
t
3. Con riferimento ai 12 gruppi mensili dei rapporti SI si calcolano stime preli-
minari dei fattori stagionali,

S
(2)
t
, mediante media mobile 3 5:
S
(2)
t
=
1
15
(L
36
+ 2L
24
+ 3L
12
+ 3 + 3L
12
+ 2L
24
+ L
36
)SI
(2)
t
= M
2
(L)SI
(2)
t
57
Pesi
j m = 4 m = 6 m = 8 m = 11
0 .33114 .24006 .18923 .14406
1 .26656 .21434 .17639 .13832
2 .11847 .14736 .14111 .12195
3 -.00987 .06549 .09229 .09740
4 -.04072 .00000 .04209 .06830
5 -.02786 .00247 .03893
6 -.01935 -.01864 .01343
7 -.02037 -.00495
8 -.00996 -.01453
9 -.01569
10 -.01092
11 -.01453
Tabella 4.1: Filtro di Henderson: pesi h
j
per le m.m a 9, 13, 17 e 23 termini
dove
M
2
(L) =
1
15
(L
12
+ 1 +L
12
)(L
24
+ L
12
+ 1 + L
12
+ L
24
)
Lopzione default eettua la scelta della media mobile 3 r, r = 3, 5, 9, in
maniera è automatica, mediante il sottoprogramma Seasonal-Factor Curve
Routine:
(a) Si calcola una m.m. a 7 termini dei rapporti SI
(2)
t
mese per mese, S
(p)
t
=
M
2
(L)SI
(2)
t
, considerando gli anni per i quali si dispone di un set di
rapporti completo.
(b) Si ottiene la stima della componente irregolare, I
(p)
t
, dal rapporto o dif-
ferenza tra SI
(2)
t
e S
(p)
t
.
(c) Separatamente per ciascun mese si calcola il cd Moving Seasonality Ratio,
MSR, fornito dal rapporto tra la media aritmetica di |I
(p)
t
| e quella di
|S
(p)
t
| (MSR rappresenta dunque una misura di roughness del pattern
stagionale), e la scelta di r è eettuata come segue: r = 3 se MSR 2.5;
r = 5 se 3.5 MSR 5.5; r = 9 se MSR 6.5; negli altri casi
si ridetermina MRS escludendo lultimo anno di osservazioni; se nessun
criterio è applicabile si continua con lesclusione di un anno alla volta no
ad un massimo di cinque, e se non si ottiene una risposta si prende r = 5.
58
4. Si eettua la centratura dei fattori stagionali:
(M) S
(2)
t
=

S
(2)
t
C(L)
S
(2)
t
(A) S
(2)
t
= SM(L)
S
(2)
t
5. Destagionalizzazione:
(M) A
(2)
t
= Y
t
/S
(2)
t
(A) A
(2)
t
= Y
t
S
(2)
t
La stima preliminare della componente irregolare si consegue rispettivamente
come I
(2)
t
= A
(2)
t
/T
(2)
t
e I
(2)
t
= A
(2)
t
T
(2)
t
.
4.3.3 Terza fase: stima nale delle componenti
1. La stima nale della componente tendenziale viene calcolata applicando una
m.m. di Henderson alla serie A
(2)
t
;
T
(3)
t
= H
m
(L)A
(2)
t
Lordine del ltro viene determinato ex novo dalla variable trend cycle routine,
la quale ora consente la scelta m = 11 qualora R
1
3.5.
2. La stima nale della componente irregolare è fornita ripettivamente da I
(3)
t
=
A
(2)
t
/T
(3)
t
e I
(3)
t
= A
(2)
t
T
(3)
t
.
La scomposizione nale risulta:
(M) Y
t
= T
(3)
t
S
(2)
t
I
(3)
t
(A) Y
t
= T
(3)
t
+ S
(2)
t
+ I
(3)
t
4.4 Le proprietà teoriche del ltro
Prescindendo dal trattamento dei valori anomali e dalla limitazione temporale della
serie, che richiede la modica dei ltri alle estremità della serie, il ltro X-11 è una
sequenza di medie mobili che dà luogo ad un ltro lineare
2
applicato a Y
t
, le cui
proprietà sono state approfondite nel dominio temporale e frequenziale.
Sebbene dal punto di vista operativo la scomposizione moltiplicativa sia utilizzata
pi` u di frequente, le proprietà del ltro sono state investigate nel caso additivo (Wallis,
2
Per una diversa opinione si veda Ghysels et al. (1996).
59
1974, Ghysels e Perron, 1993). Ovviamente, i risultati possono essere estesi al caso
moltiplicativo, via il caso log-additivo.
Seguendo lapproccio di Ghysels e Perron (1993), scriviamo:
A
(2)
t
=
X11
(L)Y
t
dove
X11
(L) = 1 SM(L)M
2
(L) +SM(L)M
2
(L)H
m
(L) SM
3
(L)M
1
(L)M
2
(L)H
m
(L)
Analogamente, possono essere desunti i ltri per lestrazione delle componenti:
T
(3)
t
= H
m
(L)
X11
(L)Y
t
S
(2)
t
= [1
X11
(L)]Y
t
I
(3)
t
= [1 H
m
(L)]
X11
(L)Y
t
Da ciascuna di queste rappresentazioni è possibile derivare i pesi applicati alla serie
Y
t
per estrarre la componente; inoltre, la funzione di trasferimento del ltro consente
la comprensione degli aspetti principali delloperatività del ltro. Se w
j
rappresenta
il peso associato al j-esimo ritardo, il guadagno del ltro è dato da G() = w
0
+
2
J
j=1
w
j
cos(j).
Le gure 1 e 2 mettono in luce tre aspetti fondamentali del ltro:
il ltro è relativamente insensibile a variazioni della lunghezza delle medie mo-
bili fondamentali; il ltro è pertanto ad hoc e non si adatta alle caratteristiche
della serie, dando luogo alla possibilità di sovra o sotto aggiustamento;
il ltro non è idempotente: se applicato alla serie destagionalizzata genera la
componente stagionale S
t
= [1
X11
(L)]
X11
(L)Y
t
= [1
X11
(L)]Y
t
=
S
(2)
t
;
il ltro può estrarre stagionalità spuria.
Al ne di illustrare la scarsa essibilità del ltro, consideriamo il problema di de-
stagionalizzare la serie mensile di fonte ISCO BDIGENGS che rappresenta il livello
degli ordini e della domanda dallinterno per il totale industria (saldi). La serie viene
presentata nella gura 4.4 assieme allo pseudospetto in decibels (10log
10
f()) sti-
mato con una nestra di Daniell, che mette in evidenza, tra laltro, la concentrazione
di potenza attorno alle frequenze stagionali.
Laggiustamento stagionale realizzato dalla procedura X-12 viene messo a con-
fronto con quello eettuato da SEATS a partire dal modello ARIMA (3, 1, 0)
(1, 0, 0)
12
. La scelta dellordine del polinomio AR non stagionale (p = 3) è imposta
dai limiti di SEATS; la diagnostica fornisce comunque un quadro sostanzialmente
60
accettabile. Il coeciente AR stagionale è pari a -.57 e sottintende un modello di
stagionalità stazionario. La procedura X12 è stata applicata con la specicazione
additiva.
Il graco delle serie destagionalizzate ed il loro pseudospettro sono riportate nel-
la gura 4.4; si noti che il pattern stagionale estratto da X12 è notevolmente pi` u
stabile di quello estratto da SEATS. Lo pseudospettro mette in luce che il primo
domina il secondo, con la conseguenza che la serie destagionalizzata con SEATS si
presenterà pi` u liscia (Froeb e Koyak, 1995) e che il fenomeno della sovraddieren-
ziazione, percepibile dai minimi relativi alle frequenze stagionali, ha una rilevanza
minore per SEATS.
4.5 Correzione dei valori anomali nellX-11
La correzione dei valori anomali costituisce una delle fonti di non linearità del ltro
X-11. Sebbene tale operazione possa essere eettuata in via preliminare allappli-
cazione del ltro X-11 mediante regARIMA, qui di seguito descriviamo la routine
originaria, ricordando che viene applicata nelle due iterazioni della procedura, B e
C, le cui fasi sono identiche a quelle descritte nella sezione 1.
La routine entra in azione alla ne della prima fase, in cui si ottiene I
(1)
t
=
SI
(1)
t
S
(1)
t
. Con riferimento a I
(1)
t
si calcola la deviazione standard mobile
I
per
sottoperiodi di 5 anni (60 osservazioni mensili consecutive). I valori della componen-
te irregolare dellanno centrale che escono dai limiti 2.5
I
sono rimossi e le deviazioni
standard ricalcolate; queste sono poi reimpiegate per ottenere la seguente funzione
ponderatrice:
w
t
=
_
_
1 se 0 |I
(1)
t
| 1.5
I
2.5
|I
(1)
t
|
I
se 1.5
I
< |I
(1)
t
| 2.5
I
0 se |I
(1)
t
| > 2.5
I
Per le osservazioni tali che w
t
< 1 i corrispondenti rapporti (o dierenze) SI sono
sostituiti dalla media di w
t
SI
(1)
t
e dei due valori precedenti e successivi pi` u vicini
riferiti allo stesso mese con peso unitario. Successivamente vengono ricalcolati e
centrati i fattori stagionali.
La procedura viene impiegata anche allinizio della seconda fase, con la correzione
dei rapporti SI, facendo riferimento a I
(2)
t
= SI
(2)
t
S
(2)
t
. Inoltre viene applicata
con riferimento a I
(2)
t
= A
(1)
t
/T
(2)
t
(M) o I
(2)
t
= A
(1)
t
T
(2)
t
(A): a) al ne di escludere
i valori estremi dallanalisi delle componenti di calendario; b) prima di ottenere le
stime nali (fase 3) in corrispondenza dei valori w
t
< 1, A
(2)
t
viene rimpiazzato dalla
media di w
t
A
(2)
t
e due valori precedenti e successivi pi` u vicini con peso unitario.
61
Inne, nella fase nale, con riferimento a I
(3)
t
, i pesi sono calcolati per ottenere i
fattori di correzione da applicare alle osservazioni originarie:
F
t
=
1 + (I
(3)
t
1)w
t
I
(3)
t
=
I
(3)
t
w
t
+ (1 w
t
)
I
(3)
t
=
I
t
I
(3)
t
Vengono calcolati i cosidetti valori estremi (extreme values) come reciproco dei
fattori di correzione F
t
: O
t
= F
1
t
.
4.6 Le componenti di calendario
Consideriamo innanzitutto leetto della diversa lunghezza dei mesi; a tal ne deno-
tiamo il numero dei giorni di calendario nel mese t con N
t
; questo non costituisce un
eetto puramente stagionale, avendo periodo pari a 4 anni per la presenza dellanno
bisestile; sopra un ciclo di 4 anni la media di N
t
è pari a

N = 365.25/12 = 30.4375, e
rappresenta la componente di livello in N
t
. Sempre a partire da N
t
possiamo denire
la variabile stagionale: N
t
= N
t
se t = 2 modulo 12 e N
t
= 28.5 se t = 2 mod 12
(mese di febbraio). Pertanto N
t
è periodica con periodo pari a 12 mesi. Leetto
della lunghezza del mese può essere visto come composto da trend,

N, stagionalità,
ed un residuo ciclico; nel caso moltiplicativo:
N
t
=

N
N
N
N
t
N
t
(4.2)
mentre nel caso additivo:
N
t
=

N + (N
t

N) + (N
t
N
t
)
La componente residua è dovuta alla presenza dellanno bisestile (leap year eect)
ed ha valori non nulli solo nel mese di febbraio.
Denotiamo ora con D
jt
il numero delle volte in cui il j-esimo giorno della settima-
na (Luned`, . . . , Domenica), entra nel mese t e con
j
leetto corrispondente (il tasso
medio di attività relativo al giorno j); si avr` a pertanto N
t
=

j
D
jt
,

=

7
j=1
j
/7.
Leetto cumulato nel mese t sarà dato da
TD
t
=
7
j=1
j
D
jt
=

N
t
+
6
j=1
(
j

)(D
jt
D
7t
) (4.3)
La seconda componente misura leetto legato alla composizione dei diversi mesi;
essa ha somma nulla sopra un numero di mesi che contiene un numero intero di
settimane, e pertanto non interferisce con la componente trend; la prima è dovuta
alla diversa lunghezza dei mesi e per la sua presenza TD
t
conterr` a una componente
di livello e una componente stagionale.
62
Dal momento che nel modello di scomposizione della serie sono già presenti le
componenti trend e stagionalità, questi possono essere scorporati da TD
t
dividendo
(caso moltiplicativo) - sottraendo (caso additivo) - per

N
t
:
(M) TD
t
=
Nt
N
t
+
6
j=1
j
D
jt
D
7t
N
t
(A) TD
t
=

(N
t
N
t
) +
6
j=1
j
(D
jt
D
7t
)
Si ottiene pertanto che TD
t
misura leetto dei giorni lavorativi e degli anni bisestili
(componente ciclica di N
t
). Se si desidera rimuovere soltanto leetto trend, si divide
o si sottrae per

N. Leetto corrispondente misura, oltre agli eetti in TD
t
leetto
stagionale della diversa lunghezza del mese.
La procedura X-11 stima gli eetti TD a partire da una stima preliminare della
componente irregolare e stima i coecienti
j
nel modello

I
t
= TD
t
+ e
t
mediante
i MQO. X-12 li stima direttamente sulla serie Y
t
, utilizzando il modello additivo,
nella fase regARIMA preliminare allaggiustamento. Levidenza empirica si rive-
la a favore di questa seconda strategia (Chen et al., 1995). Nel caso si adotti la
trasformazione logaritmica della serie la stima degli eetti TD mediante il modello
additivo rappresenta unapprossimazione di Taylor del primo ordine (Findley et al.,
1996). Pertanto, i regressori predeniti nella spec: REGRESSION sono le sei varia-
bili D
jt
D
7t
e lom= N
t

N o leap year= N
t
N
t
. Si noti che se D > 0 in (4.1),
leetto lom e lom pi` u leap year coincidono. Laggiustamento può essere eettuato
in maniera preliminare in sede di trasformazione di Y
t
Y
t
/d
t
, con d
t
= N
t
/

N
t
o
N
t
/N
t
.
X-12 ore lopzione automatica per determinare se includere gli eetti TD nel
modello (4.1): eettua la stima del modello in presenza degli eetti (d
t
= N
t
/N
t
e
regressori D
jt
D
7t
) ed in loro assenza e si seleziona il modello che fornisce il pi` u
piccolo AIC.
4.7 Diagnostica
4.7.1 Test di stagionalità
Una successione di test di stagionalità sono applicati nel corso della procedura:
a) Test F
S
per lassenza di stagionalità nei rapporti o dierenze SI
(1)
t
, propor-
zionale al rapporto tra la varianza tra i mesi e la varianza entro i mesi dei rapporti
SI; si suggerisce il livello di signicatività .001.
b) Test F
M
per lassenza di stagionalità evolutiva applicato alla serie |SI
(2)
t
| nel
caso additivo e |SI
(2)
t
100| nel caso moltiplicativo: la varianza totale è scomposta
in varianza tra i mesi, varianza tra gli anni e varianza residua; il test è proporzionale
al rapporto tra la varianza tra gli anni e la varianza residua.
63
c) Test congiunto per la presenza di stagionalità non identicabile. Vengono presi
in considerazione i test F
S
, F
M
ed il test nonparametrico di Kruskal-Wallis (KW)
3
.
Si dice che la stagionalità è identicabile quando F
S
e KW sono signicativi, mentre
F
M
cade nella zona di accettazione. Si è in presenza di stagionalità non identicabile
qualora: il test F
S
non risulta signicativo al livello .001; F
S
e F
M
sono signicativi
rispettivamente al livello .001 e .05, e la media aritmetica tra T
1
= 7/(F
M
F
S
) e
T
2
= 3F
M
/F
S
è non inferiore allunità. Non si esclude la presenza di stagionalità
identicabile qualora F
S
è signicativo, il test F
M
è non signicativo e T
1
, T
2
< 1 o
KW non è signicativo.
d) Test F
S
per lassenza di stagionalità residua applicato alla serie completa ed
agli ultimi tre anni di A
(2)
t
A
(2)
ts/4
(nel caso trimestrale A
(2)
t
).
4.7.2 Nuova diagnostica su stagionalità residua e leetto
del n. giorni lavorativi
La presenza di stagionalità residua viene studiata stimando la densità spettrale dei
residui alle frequenze stagionali con riferimento agli anni pi` u recenti (default: ulti-
mi 8 anni). X-12-ARIMA produce automaticamente queste stime per le dierenze
prime della serie destagionalizzata e per la stima nale della componente irregolare.
Viene eettuato il confronto con le due frequenze immediatamente vicine e se queste
sono inferiori di un dato margine, il programma produce il messaggio che i picchi
sono visually signicant. Gli stimatori spettrali sono due: il periodogramma e lo
stimatore autoregressivo con 30 ritardi.
Analogamente, per valutare la presenza di eetti legati ai giorni della settimana,
si valuta la signicatività dei picchi alle frequenze 2 .348 e 2 .432.
4.7.3 Test di casualità dei residui I
(3)
t
a) Un test non parametrico di autocorrelazione del primo ordine è fornito dalla
statistica ADR (Average Duration of Run), la quale misura il numero medio di
variazioni mensili consecutive nella stessa direzione. Per serie mensili di oltre dieci
anni valori esterni allintervallo [1.36, 1.75] sono da considerare signicativi.
3
Il test di Kruskal-Wallis è unalternativa al test F parametrico dellanalisi della varianza che
non richiede lassunzione di normalità e che sfrutta soltanto lordinamento delle osservazioni.
KW =
12
T(T + 1)
s
j=1
R
2
j
n
j
3(T + 1)
dove R
j
è la somma dei ranghi (per rango intendendosi il numero dordine dellosservazione nel-
lordinamento non decrescente) per la stagione j e n
j
è il numero degli anni in cui si presenta
la stagione j (solitamente n
j
= n = T/s). Sotto lipotesi nulla di assenza di stagionalità e di
indipendenza dei rapporti SI, KW
2
con s 1 gradi di libertà.
64
b) Periodogramma cumulativo normalizzato e test di Kolmogorov-Smirnov
4.7.4 Bontà della destagionalizzazione
Undici grandezze diagnostiche sono previste con la nalità di valutare la bont` a della
destagionalizzazione: M
1
: misura sintetica del contributo relativo della componente
irregolare I
2
t
/Y
2
t
. M
2
: misura sintetica del contributo relativo della componente
irregolare alla varianza della serie, resa stazionaria rimuovendo un trend lineare
(versione additiva e log-additiva) o esponenziale (versione moltiplicativa); M
3
=
R
1
, (cfr. Variable Trend Cycle Curve Routine); M
4
= ADR (Average Duration
of Run); M
5
: numero di mesi richiesto anche |T
(3)
t
| > |I
(3)
t
|; M
6
= MSR
(Moving Seasonality Ratio); M
7
= 100F
M
/F
S
(stagionalità variabile rapportata alla
stagionalità stabile); M
8
misura della variabilit` a tra gli anni di S
(2)
t
; M
9
trend lineare
medio nei fattori stagionali nali, S
(2)
t
; M
10
e M
11
sono identici alle due misure
precedenti, ma sono calcolate solo per gli anni pi` u recenti.
Il campo di variazione è [0, 3] e la regione di accettazione [0, 1]. Le stati-
stiche M
1
-M
11
sono poi aggregate in ununica misura sintetica della bont` a della
destagionalizzazione, Q.
4.7.5 Diagnostiche basate sulla stabilità delle stime
Un metodo di destagionalizzazione è detto stabile se la serie destagionalizzata non
è suscettibile di variazioni signicative con laggiunta di nuove osservazioni. La
stabilità è una caratteristica desiderabile per la previsione a breve termine ed è
appetibile per i produttori di dati e per il policy maker.
Le quantit` a diagnostiche disponibili in X-12-ARIMA si basano sulla revisioni
nella serie A
t
con laggiunta di nuove osservazioni. Sia A
t|j
la stima della serie
destagionalizzata che utilizza le osservazioni no al tempo j; quando j = t abbiamo
il cd. concurrent estimator (CE), mentre nel caso j = T abbiamo la stima pi` u
recente (more recent estimator), MR. Nel caso della scomposizione moltiplicativa
viene fornito lindice di revisione da CE a MR:
R
t|T
= 100
A
t|T
A
t|t
A
t|t
e per dati J
0
e J
1
, viene fornita la sequenza R
t|T
per J
0
t J
1
(revision history-
RH). Per la scelta di J
0
si suggerisce un numero di periodi almeno pari alla lunghezza
del ltro stagionale.
Dal momento che spesso linteresse si appunta sulle variazioni relative del fenome-
no, piuttosto che sul suo livello assoluto, X-12 prende in considerazione anche lindice
65
di revisione relativo al tasso di variazione uniperiodale della serie destagionalizzata:
R
t|j
= 100
A
t|j
A
t1|j
A
t1|t
,
e la corrispodente RH. Un ulteriore impiego delle RH è la determinazione del numero
di anni su cui estendere la serie per previsione, come argomentano Findley et al.
(1996).
Recentemente, Findley et alii (1990) hanno proposto le cd. sliding span dia-
gnostics. Queste si fondano sul confronto tra i dati destagionalizzati prendendo in
considerazione gruppi mobili di osservazioni (spans) che si sovrappongono mediante
laggiunta sequenziale di un anno di osservazioni alla volta e leliminazione dellanno
iniziale. Le stime A
t
sono giudicate adabili se non variano sensibilmente da un
gruppo allaltro.
Si supponga di considerare K(= 4) gruppi di lunghezza pari ad N anni; su
ciascuno viene applicata la procedura di destagionalizzazione e si denoti con

S
(k)
t
il
fattore stagionale associato al k-esimo gruppo, k = 1, . . . , K. La lunghezza degli
span risulta uguale a quella minima necessaria per lapplicazione dei ltri MA della
procedura X-11 e risulterà pertanto pari a N = 6, 8, 11 rispettivamente nei casi in
cui si scelgano le medie mobili 3 3, 3 5, 3 9 per perequare i fattori stagionali.
Si dice che il fattore stagionale al tempo t è inadabile se
S
max
t
=
max
k

S
(k)
t
min
k

S
(k)
t
min
k

S
(k)
t
> .03
Poiche lobiettivo della destagionalizzazione è quello di ottenere misure delle varia-
zioni mensili, si propone di valutare altres`
MM
max
t
= max
k
A
(k)
t
A
(k)
t
min
k
A
(k)
t
A
(k)
t
> .03
Al ne di cogliere se linstabilità riguarda periodi contigui o stagioni particolari,
la stima della variazione relativa su base annua è giudicata inadabile se
Y Y
max
t
= max
k
12
A
(k)
t
A
(k)
t
min
k
12
A
(k)
t
A
(k)
t
> .03
Misure sintetiche possono essere ottenute mediante la percentuale di mesi con
fattori stagionali non adabili, S(%), con variazioni relative mensili inadabili
(MM(%)) e variazioni annuali innadabili (Y Y (%)). Se ad esempio S(%) > 25 la
serie non dovrebbe essere destagionalizzata.
Per un ecace giudizio critico su queste statistiche, vedasi Maravall (1996). In
poche parole, la loro utilità sarebbe ristretta alla scelta tra la destagionalizzazione
66
diretta o indiretta (mediante le serie componenti) di un aggregato e nella selezione
della lunghezza del ltro. Pi` u oscuro il ruolo nella decisione se aggiustare o meno tout
court, poiche linstabilità è una proprietà della serie e non (soltanto) della procedura
di destagionalizzazione.
67
Figura 4.2: Pesi e funzioni di trasferimento per il ltro X-11 default
68
Figura 4.3: Pesi e funzioni di trasferimento per il ltro X-11 con ltro di Henderson
a 17 termini
69
Figura 4.4: Serie BDIGENGS: livello degli ordini e della domanda dallinterno per
il totale industria (saldi), ISCO.
BDIGENGS
Time
1986 1988 1990 1992 1994 1996
-
5
0
-
4
0
-
3
0
-
2
0
-
1
0
0
1
0
frequency
s
p
e
c
t
r
u
m
0 1 2 3 4 5 6
-
1
0
0
1
0
2
0
Series: bdigen
Smoothed Periodogram
bandwidth= 0.0571957 , 95% C.I. is ( -4.41115 , 9.00983 )dB
X12: Comp. Stagionale
Time
1986 1988 1990 1992 1994 1996 1998
-
8
-
6
-
4
-
2
0
2
4
SEATS: Comp. Stagionale
Time
1986 1988 1990 1992 1994 1996
-
1
0
-
5
0
5
S.Dest. X12:____, SEATS:....
Time
1986 1988 1990 1992 1994 1996
-
4
0
-
3
0
-
2
0
-
1
0
0
1
0
frequency
s
p
e
c
t
r
u
m
0 1 2 3 4 5 6
-
1
0
0
1
0
2
0
Series: bdigen.adj
Smoothed Periodogram
70
Capitolo 5
Analisi Econometrica di Dati non
Stazionari
5.1 Introduzione
Buona parte dellinformazione statistica, soprattutto in campo macroeconomico, è
organizzata in senso temporale; la cosiddetta Econometria delle serie storiche, pro-
ponendosi di stimare relazioni esistenti tra variabili osservate nel tempo, ha dedicato
unattenzione crescente alle proprietà dinamiche del processo generatore dei dati.
Ciò ha portato, nel corso dellultimo decennio, ad una profonda rivisitazione delle
basi statistiche della modellistica econometrica che ha fatto leva sui concetti di inte-
grazione e cointegrazione, introdotti al ne di interpretare una delle caratteristiche
principali delle serie macroeconomiche: lassenza di stazionarietà.
Di questi aspetti ci occuperemo ora con il seguente programma: nel paragrafo
2 verr` a introdotta la particolare forma di non stazionarietà legata alla presenza
di integrazione; di questa vengono illustrati gli eetti sulla dinamica dei processi
e sulle inferenze statistiche. Si discute quindi come condurre dei test parametrici
per vericarne la presenza in una serie storica (par. 3 e 4). Il par. 5 considera le
implicazioni dal punto di vista interpretativo mediante la contrapposizione di due
teorie relative alla dinamica di lungo periodo del sistema economico. Per processi
integrati la dinamica viene descritta come la reazione del sistema ad innovazioni di
tipo casuale; di qui linteresse a misurare la persistenza degli shock (par. 6). I par. 7
e 8 trattano lestensione del concetto di integrazione a processi di natura stagionale
e introducono il test HEGY di integrazione stagionale. Si passerà poi allambito
bivariato al ne di discutere gli eetti dellintegrazione sulle inferenze che possono
essere tratte da un modello a ritardi distribuiti (par. 10). Verranno quindi introdotti
due concetti complementari: il meccanismo a correzione dellerrore di equilibrio e la
cointegrazione, i quali presuppongono lesistenza di una relazione di lungo periodo
tra le serie esaminate (par 11-12).
71
5.2 Stazionarietà ed integrazione
Un processo stocastico può essere denito come una sequenza di variabili casuali
{y
t
} indicizzate da un parametro t appartenente ad un insieme parametrico T .
Poiche nel seguito ci limiteremo a considerare la classe dei processi stocastici continui
a parametro discreto, avremo T = 0, 1, . . .. Nelle applicazioni econometriche si
dispone, per ogni t, di una singola realizzazione della v.c. y
t
, per cui il processo
inferenziale presenterebbe complicazioni insuperabili se non venissero imposte due
classi di restrizioni sulle caratteristiche del processo: la stazionarietà e lergodicità.
In particolare, diremo che un processo stocastico è stazionario in senso debole se
i suoi momenti no al secondo sono niti ed indipendenti da t, vale a dire E(y
t
) = ,
E(y
t
)
2
=
0
e E[(y
t
)(y
tk
)] =
k
=
k
, t, k, dove
k
denota la covarianza
tra y
t
e y
tk
che si assume essere funzione esclusivamente di k. Lergodicità richiede
invece che la memoria del processo sia limitata cos` che eventi distanti nel tempo
abbiano un basso grado di dipendenza.
Utili strumenti per la caratterizzazione di un processo stazionario sono la funzio-
ne di autocorrelazione e densità spettrale; la prima è denita
k
=
k
/
0
, k = 0, 1, . . .
mentre la seconda da
f() =
1
2
_
0
+ 2
k=1
k
cos k
_
,
dove è la frequenza in radianti che assume valori in [0, ].
Il processo stazionario pi` u elementare è costituito da una sequenza di variabili
casuali incorrelate a media nulla e varianza costante: esso è denominato white noise,
ed indicato con
t
WN(0,
2
), dove E(
t
) = 0, E(
2
t
) =
2
e E(
t
tk
) = 0 per
k = 0.
Alla classe dei processi in questione si applica un importante risultato noto come
teorema di Wold: esso aerma che ogni processo stazionario può essere scompo-
sto in due processi stocastici stazionari e mutualmente incorrelati, uno dei quali è
deterministico mentre laltro (indeterministico) è il processo lineare:
z
t
=
t
+ C
1
t1
+ C
2
t2
+ ,
con

C
2
k
< .
Consideriamo ora un processo autoregressivo del primo ordine (AR(1)):
y
t
= y
t1
+
t
t = 1, 2, . . . , T
con
t
WN(0,
2
); è noto allora che se il processo è stazionario, vale a dire se
|| < 1, lo stimatore dei minimi quadrati
=
T
t=2
y
t
y
t1
T
t=2
y
2
t1
(5.1)
72
è
T-consistente ed inoltre
T(
)
d
N
_
0, (1
2
)
_
.
E immediato constatare che questo risultato non è pi` u valido se = 1. In
questo caso, noto nella letteratura anglosassone come random walk (RW), y
t
è non-
stazionaria perche risulta Var(y
t
) = t
2
; ciò può essere visto risolvendo lequazione
alle dierenze nite
y
t
= y
t1
+
t
.
Sotto speciche ipotesi riguardanti i valori iniziali,
s
= 0 per s 0 e y
0
noto (non
stocastico), si ottiene infatti la soluzione
y
t
= y
0
+
t1
j=0
tj
. (5.2)
La natura di tale processo (la varianza linearmente crescente) implica che esso
possa vagare indenitamente lontano dal valore iniziale con il procedere del tempo;
1
in altre parole, diversamente dal processo autoregressivo stazionario descritto prima,
non gode della proprietà di regressione verso la media (mean reversion). Si noti
anche che y
T+l
= E(y
T+l
|y
T
) = y
T
; pertanto tutta linformazione sul comportamento
del processo è contenuta nellultima realizzazione.
Il random walk è inoltre un processo dalla memoria lunga in quanto il peso
delle realizzazioni passate della v.c.
t
nella determinazione del presente rimane
inalterato, mentre nel caso del processo autoregressivo stazionario decade in maniera
esponenziale. Dalla (2) emerge infatti che la derivata parziale di y
t
rispetto a
tk
è
pari a uno, indipendentemente dal valore di k.
Il RW è un esempio di processo integrato del primo ordine, ovvero, con notazione
sintetica, y
t
I(1); introduciamo dunque la seguente denizione:
Def. Ordine di integrazione: il processo y
t
è integrato di ordine d, e scriveremo
y
t
I(d), se le dierenze d-esime
d
y
t
ammettono una rappresentazione di Wold
stazionaria e invertibile.
In altre parole applicando d volte loperatore dierenza, = 1L, si ottiene un
processo stazionario ed invertibile, per il quale vale la tradizionale teoria asintotica.
Es. 1: y
t
= 2y
t1
y
t2
+
t
+
t1
, y
t
I(2) || < 1 ;
Es. 2: y
t
=
0
+
1
t +
2
t
2
+
t
non è I(2), bens` I(0) con trend deterministico di secondo
grado.
1
Notiamo, per inciso, che nel caso || > 1 siamo in presenza di un processo non stazionario
(esplosivo) la cui varianza cresce esponenzialmente con t.
73
Il comportamento dei processi integrati dierisce da quello dei processi stazio-
nari anche per un altro aspetto; la presenza di un termine costante in un modello
autoregressivo non ha conseguenze drammatiche sulle sue proprietà temporali:
y
t
= + y
t1
+
t
t = 1, 2, . . . , T
y
t
è infatti un processo stazionario attorno a m = E(y
t
) = /(1 ), ed è noto
che m e possono essere stimati in maniera (asintoticamente) indipendente; inoltre
i momenti di ordine superiore al primo non sono aetti dalla presenza della me-
dia, la quale si congura come un parametro di disturbo eliminabile prendendo in
considerazione il processo scarti dalla media.
Vediamo invece cosa accade nel caso = 1: il processo
y
t
= +
t
t = 1, 2, . . . , T
è ancora I(1), ma le sue realizzazioni sono notevolmente diverse da quelle di un RW;
mediante sostituzione successiva troviamo infatti che
y
t
= y
0
+ t +
t1
j=0
tj
e che pertanto il valor medio del processo è un trend lineare deterministico attorno al
quale le oscillazioni si fanno sempre pi` u accentuate.
2
Tuttavia, in una realizzazione
nita il comportamento di detto processo può essere non troppo dissimile da quello
di un processo stazionario attorno ad un trend lineare, e ciò è tanto pi` u vero quanto
pi` u Var(
t
) è bassa. Quanto ottenuto nel caso del RW è generalizzabile nella maniera
seguente: se y
t
I(d) senza drift allora y
t
contiene un trend polinomiale di ordine
d 1; se invece y
t
I(d) con drift, y
t
contiene un trend polinomiale di ordine d.
In molte circostanze ha rilievo determinare lordine di integrazione di una variabi-
le. Un caso molto noto riguarda la trasformazione da adottare preliminarmente alla
specicazione di un modello ARMA al ne di ottenere la stazionarietà. Tuttavia, co-
me vedremo nel seguito, lordine di integrazione possiede un contenuto informativo
autonomo sulle proprietà dinamiche della serie.
Si potrebbe tentare il ricorso ai tradizionali strumenti di identicazione quali
il correlogramma, ma questultimo presenta una serie di limiti atti a sconsigliarne
limpiego. Dal punto di vista teorico la funzione di autocovarianza del RW non tende
a zero rapidamente, risultando Cov(y
t
, y
t
) = E[(y
t
y
0
)(y
t
y
0
)] =
2
|t |;
pertanto, quando t è elevato relativamente a il processo è altamente autocorrelato.
Tuttavia in realizzazioni brevi il correlogramma stimato potrebbe erroneamente
indurre ad accettare lipotesi di stazionarietà.
Lo scopo dei paragra successivi è appunto quello di analizzare il problema dal
punto di vista dellinferenza parametrica introducendo una batteria di test per la
verica delle ipotesi concernenti lordine di integrazione di una serie.
2
Il processo è denominato Random Walk with Drift; si noti che se y
t
è espresso in logaritmi il
drift rappresenta il tasso medio di crescita.
74
5.3 Il test di Dickey e Fuller
Fuller (1976, p. 367) ha studiato le proprietà dello stimatore (1) sotto lipotesi
= 1, vale a dire quando il meccanismo generatore dei dati è un RW.
Un primo risultato riguarda la proprietà di superconsistenza dello stimatore:
nellipotesi che y
0
= 0 e
t
NID(0,
2
)
1 = O
p
(T
1
)
il che signica che quando il valore vero è = 1, la stima converge in probabilità a
tale valore pi` u rapidamente che nel caso stazionario. Il risultato è dovuto al fatto
che al crescere di T il denominatore cresce, relativamente al numeratore, ad un ritmo
superiore rispetto al caso stazionario.
Malgrado

sia (super)consistente, non gode tuttavia della proprietà di corret-
tezza asintotica e la sua distribuzione non è normale, ma asimmetrica a sinistra:
questo implica che la stima di è distorta verso il basso e che se ci dassimo cie-
camente delle stime dei minimi quadrati saremo indotti a riutare lipotesi di una
radice unitaria pi` u spesso del dovuto.
La distribuzione di

non è standard; la tavola 8.5.1 del libro di Fuller (p. 371)
fornisce i percentili della funzione di ripartizione della v.c T(
1) ottenuti attraverso
la simulazione Monte-Carlo sotto lipotesi = 1 per le dimensioni campionarie
T = 25, 50, 100, 250, 500 e .
Lipotesi nulla può essere testata facendo ricorso alla statistica
=
1
s
_
T
t=2
y
2
t1
_
1
2
,
con s
2
pari alla somma dei quadrati dei residui, che sotto H
0
non è pi` u distribuita
come una t di Student. La distribuzione è riportata nella tavola 8.5.2, p. 373 del
libro di Fuller.
Unaltra rilevante dierenza dal caso stazionario, che abbiamo avuto modo di
rilevare nel paragrafo precedente, è relativa alla circostanza che, sotto H
0
: = 1,
la distribuzione non è invariante rispetto alla presenza di un termine costante: in
questo caso il modello di riferimento è
y
t
= +
y
t1
+
t
t = 1, 2, . . . , T
e le tavole sopra citate riportano i percentili delle distribuzioni empiriche di T(

1)
e della statistica
= (
1)/se(
).
Dickey e Fuller (DF) tabulano i valori di
nellipotesi che il processo generatore

dei dati abbia, oltre a
= 1, = 0. Pertanto, il solo fatto che il modello stimato

contenga un termine costante ha eetto sulla distribuzione di
anche quando = 0.
75
Tuttavia se il processo generatore ha un termine ha eettivamente = 0, ed il
modello stimato include un termine costante, si dimostra che

d
N(0, 1). Tale
apparente anomalia si spiega, euristicamente, col fatto che il processo in questione
è asintoticamente dominato dal trend deterministico (dovuto allaccumulazione del
termine costante).
Se si rigetta H
0
allora y
t
è un processo stazionario con media che può anche
non risultare signicativa in base al canonico test t (poiche vale la tradizionale
teoria asintotica). Quando invece è accettata lipotesi di radice unitaria diventa
rilevante accertarsi se il drift assume un valore signicativamente diverso da zero.
Ora, la distribuzione asintotica del t test associato al parametro sotto lipotesi nulla
(
= 1), che indichiamo con
, non è normale, sebbene sia ancora simmetrica. Un

test bidirezionale dellipotesi = 0 può essere basato sulla distribuzione empirica
tabulata da Dickey e Fuller (1981). Qualora risulti che = 0 allora la distribuzione
di
tende asintoticamente ad una normale standard, per cui la zona di accettazione

sarà pi` u ridotta rispetto alla distribuzione DF. Se invece il test
non è signicativo
si prende come modello generatore y
t
=
t
.
Inne potremmo essere interessati a testare la presenza di una radice unitaria
nel modello
y
t
= + t +
y
t1
+
t
t = 1, 2, . . . , T (5.3)
La terza parte della tavola di DF presenta i percentili della distribuzione della sta-
tistica test associata a y
t1
,
, simulata per
= 1 e = 0: in questo caso la
distribuzione di
cessa di dipendere da , ma dipende da , e se = 0 torna ad

essere asintoticamente normale.
Come nel caso precedente, se la presenza di una radice unitaria è accettata, la
distribuzione del test t sui coecienti e non è standard (ed è tabulata da Dickey
e Fuller, cfr.
). Allora, tenuto fermo che = 1, se risulta signicativo il

test
, la statistica
associata a y
t1
nel modello di partenza ha distribuzione
asintotica normale e pertanto si farà riferimento alle tavole ordinarie per decidere se
accettare H
0
o meno; qualora esso risulti non signicativo allora y
t
I(1).
Al ne di minimizzare il rischio di inferenze non corrette, rischio dovuto alla
presenza di parametri di disturbo che sotto determinate condizioni cambiano le pro-
prietà distributive delle statistiche test, viene generalmente suggerita una procedura
top down che parte dalla specicazione pi` u generale (3) allo scopo di valutare in
primo luogo limpatto di e poi quello di sulle inferenze circa la presenza di radici
unitarie.
Es. 3. Applichiamo il test di DF alla serie trimestrale relativa al tasso si disoccupazione,
Italia 1970Q1-1990Q4.
ln y
t
= 0.3077 +0.0020t +0.8165 ln y
t1
(0.1129) (0.0008) (0.0699)
Si ottiene
= (0.8165 1)/0.0699 = 2.62 e
= 2.411. Pertanto si accetta H

0
: = 1
76
con = 0. Si noti inne che
= 2.73 è molto prossimo al valore critico al 10%, suggerendo

che un RW+drift può essere un valido punto di partenza.
In sintesi il test di Dickey e Fuller ha la seguente struttura:
Modello H
0
H
1
Statistica test
y
t
= y
t1
+
t
= 1 < 1
y
t
= +
y
t1
+
t

= 1
< 1
y
t
= + t +
y
t1
+
t

= 1
< 1
Si noti che i valori delle statistiche test possono essere derivati immediatamente dalle
statistiche t relative ai coecienti di y
t1
nelle regressioni:
3
y
t
=
y
t1
+
t
y
t
= +
y
t1
+
t
y
t
= + t +
y
t1
+
t
in questa parametrizzazione lipotesi nulla implica che il coeciente di regressione
di y
t1
è pari a zero e ciò può essere testato ricorrendo ai valori tabulati da Dickey
e Fuller (si ha ad es.
= 1).
Es. 4. Per i dati dellesempio precedente:
ln y
t
= 0.3077 +0.0020t 0.1835 ln y
t1
(0.1129) (0.0008) (0.0699)
e pertanto
= 0.1835/0.0699 = 2.62.
Per vericare lipotesi y
t
I(d) per d > 1 si eettua un test DF sulle dierenze
d-esime; ovviamente lalternativa è che la serie sia integrata di ordine d 1.
5.4 Il test ADF
I modelli nora considerati sono eccessivamente semplicati; in particolare si è sup-
posto che la v.c.
t
sia incorrelata nel tempo e omoschedastica. Ci si è chiesti allora
come modicare le inferenze sulle radici unitarie in presenza di autocorrelazione ed
eteroschedasticit` a.
Phillips e Perron (1988) propongono di operare opportune modiche non para-
metriche alle statistiche test considerate precedentemente al ne di non alterare la
loro distribuzione asintotica.
La via alternativa proposta da Said e Dickey (1984) si fonda sullidea di appros-
simare un processo lineare mediante un processo autoregressivo di ordine adeguato.
3
E suciente sottrarre y
t1
da ambo i membri.
77
Supponiamo allora che y
t
AR(p) e proponiamoci di testare la presenza di una
radice unitaria nel polinomio autoregressivo. Ciò può essere eettuato notando che
è sempre possibile riscrivere (L) = 1
1
L . . .
p
L
p
come
(L) = (1)L +
(L)
dove
(L) = 1
1
L. . .
p1
L
p1
è il polinomio autoregressivo di ordine p 1
il cui termine generico è
j
=
p
i=j+1
i
.
Se ad esempio prendiamo in considerazione il modello (L)y
t
=
t
, la presenza
di una radice unitaria nel polinomio autoregressivo comporta che (1) = 0; pertanto
è possibile riparametrizzare il modello autoregressivo nella maniera seguente:
y
t
=
y
t1
+
p1
j=1
j
y
tj
+
t
, (5.4)
dove
= (1) =

p
j=1
j
1. La procedura test consiste nel vericare la presenza
di una radice unitaria nella regressione aumentata (4) attraverso lusuale impiego
della statistica t associata con y
t1
, la cui distribuzione è asintoticamente indipen-
dente dai parametri
j
e pertanto coincide con quella tabulata da Fuller; il test per
la presenza di una radice unitaria prende il nome di Augmented Dickey-Fuller test.
Il problema lasciato aperto dallADF riguarda ovviamente la determinazione del-
lordine p del polinomio autoregressivo, che appare piuttosto arbitraria. Si suggerisce
di partire da un ordine sucientemente elevato, con riserva di ridurlo se i coecienti
del polinomio autoregressivo
(L) non risultino signicativi; per questi ultimi vale

la tradizionale teoria asintotica: le stime MQO sono consistenti, hanno distribu-
zione normale e sono ecienti (se lordine p è correttamente specicato). Occorre
comunque controllare che i residui della (4) risultino sbiancati.
Es. 5. Per la serie del PIL italiano a prezzi 1985 (1970:q1,1993:q1) è stato stimato il
modello:
ln y
t
= .8176+0.0004t0.0689 ln y
t1
+0.5250ln y
t1
+.1159ln y
t2
+.1805ln y
t3
dal quale risulta che
= 2.00 e
= 1.80, portando allaccettazione di H

0
con = 0.
5.5 Trend e RW nelle serie economiche
Lordine di integrazione di una variabile economica ha rilevanti implicazioni di na-
tura interpretativa. La questione è stata originariamente sollevata da Nelson e Plos-
ser (1982), i quali esaminano alcune macrovariabili statunitensi alla luce della con-
trapposizione di due processi/modelli miranti entrambi ad interpretare lassenza di
stazionarietà nelle serie economiche:
78
1. Processi TS (trend-stationary): processi la cui componente evolutiva di lungo
periodo è esprimibile nei termini di una funzione deterministica del tempo e la
cui componente di breve periodo è rappresentata da un processo stazionario a
media nulla:
y
t
= f(t) + c
t
(5.5)
nel caso di trend lineare
y
t
= + t + c
t
(5.6)
dove c
t
ha una rappresentazione ARMA(p, q) stazionaria e invertibile. Nel
lungo periodo il fenomeno ha unevoluzione deterministica nella cui determi-
nazione il presente ed il passato non hanno alcun ruolo, mentre linformazione
rilevante per la previsione è la posizione nel tempo.
2. Processi DS (dierence-stationary): processi per i quali le dierenze d-esime
della variabile y
t
ammettono una rappresentazione ARMA stazionaria ed in-
vertibile. La controparte del processo TS (6) è dunque:
(1 L)y
t
= +
t
(5.7)
(L)
t
= (L)
t
(5.8)
Al ne di stabilire il collegamento tra le due classi di processi, si supponga che
c
t
e
t
siano WN e si noti che mediante sostituzione successiva nella (7) si ottiene:
y
t
= y
0
+ t +
t1
j=0
tj
.
A questo punto è evidente come entrambi i processi possano essere scritti in
termini di una funzione lineare del tempo t; tuttavia emergono due importanti dif-
ferenze: in primo luogo il termine costante (intercetta) dipende nel secondo caso
dalla storia del processo (è il valore iniziale), mentre è un parametro sso nel pri-
mo; in secondo luogo le deviazioni dalla componente lineare sono stazionarie per il
processo TS ma non lo sono per quello DS, la cui varianza aumenta indenitamente
al crescere di t.
Da ciò consegue che mentre le previsioni dal modello TS non sono inuenzate,
nel lungo periodo, dagli shock casuali provenienti da
t
, quelle del modello DS con-
serveranno linuenza dei fatti storici intervenuti; inoltre la varianza dellerrore di
previsione cresce senza limiti.
Al ne di discriminare tra i due tipi di processo si noti che entrambi sono sono
casi particolari di
(L)y
t
= + t +
t
;
ovvero il processo è DS se

p
j=1
j
= 1 e = 0.
79
Adottando quindi la reparametrizzazione del paragrafo precedente, in particola-
re:
y
t
= +t +
y
t1
+
p1
j=1
j
y
tj
+
t
,
si eettua un test ADF dellipotesi
= 0 e = 0. Nel caso di accettazione

dellipotesi nulla si concluderà che la serie appartiene alla categoria DS.
Nelson e Plosser applicarono questo test ad insieme di serie economiche statu-
nitensi, concludendo che, ad eccezione del tasso di disoccupazione, la totalità delle
serie risulta DS.
Es. 6. Per la serie del PNL Statunitense dal 1910 al 1970 risulta:
ln y
t
= 0.8035 + 0.0056t 0.1734 ln y
t1
+ 0.4250ln y
t1
dal quale
= 2.93 e
= 3.01, portando allaccettazione dellipotesi nulla H

0
:
= 1,
con = 0.
Questi risultati mettevano in discussione la maniera tradizionale di rappresentare
la non stazionarietà, consistente nel pensare la serie nei termini della somma di due
componenti ortogonali, ciclo e trend, questultimo rappresentato da una funzione
del tempo (una funzione lineare o quadratica, una logistica). La conseguenza pi` u
rilevante, dal punto di vista interpretativo, è che viene a cadere la tradizionale
distinzione tra forze che determinano il comportamento del sistema nel breve periodo
e forze che determinano le uttuazioni cicliche: quando infatti il processo generatore
è integrato le innovazioni sono persistenti, inuendo sulla dinamica di lungo periodo.
Si osservi anche che dierenziando un processo TS si ottiene un termine di di-
sturbo che è strettamente non invertibile e che pertanto non ammette una rappre-
sentazione autoregressiva. Viceversa, leliminazione di un trend lineare mediante
regressione di y
t
su una costante e il tempo t, a lungo adottata come una trasfor-
mazione preliminare allanalisi econometrica strutturale, dà luogo ad un processo
stazionario se e solo se y
t
TS.
Nelson e Kang (1984) hanno approfondito le conseguenze derivanti dal conside-
rare un processo DS alla stregua di uno TS: supponiamo che ad un processo y
t
DS
venga ugualmente adattato un trend lineare e proponiamoci di considerare cosa av-
viene alle tradizionali statistiche di regressione. Allora abbiamo che gli scostamenti
da un trend lineare sono forniti da
y
t
t = (y
0
) ( )t +
t1
j=0
tj
.
Il termine di errore è allora fortemente autocorrelato (un RW) e le stime degli errori
standard e le statistiche t per la signicatività dei parametri sono distorte e portano
ad esagerare la signicatività dei parametri. Anche il coeciente di determinazione
80
R
2
risulterà elevato, ma la bontà delladattamento è soltanto illusoria, poiche si
ha un caso di regressione spuria. Inoltre, e ciò assume una rilevanza particolare
per lanalisi del ciclo economico, i residui dal trend mostrano periodicità del tutto
articiali
4
.
La scomposizione di Beveridge-Nelson Beveridge e Nelson (1981) hanno mo-
strato che un processo DS ammette ununica scomposizione additiva in una com-
ponente tendenziale, generata da un processo random walk, e in una componente
ciclica, generata da un processo stazionario. Il risultato prende le mosse dalla deni-
zione del trend come previsione di lungo periodo della serie; il suo rilievo, attestato
dal numero dei lavori che nel corso degli anni 80 e 90 hanno fatto riferimento ad
esso, deriva dal fatto che il trend è intrinsecamente stocastico, risultando dalleetto
cumulato della propagazione di shock. In tal modo BN forniscono la chiave interpre-
tativa in senso strutturale di un modello ARIMA(p, 1, q). Per lestensione a processi
I(2) e a processi integrati stagionalmente, si veda Proietti (1995).
Gli autori partono dalla considerazione della rappresentazione di Wold di un
processo DS, y
t
= m+C(L)
t
= m+w
t
, dove si è posto w
t
= C(L)
t
. La previsione
l periodi in avanti, y
t+l|t
= E[y
t+l
|Y
t
], è fornita dallequazione alle dierenze del
primo ordine: y
t+l|t
= y
t+l1|t
+m + w
t+l|t
, la cui soluzione generale è
y
t+l|t
= y
t
+ lm +
l
i=1
w
t+i|t
.
Beveridge e Nelson procedono dunque alla denizione della componente perma-
nente o trend,
t
, con approccio predittivo, come il valore che y
t
assumerebbe se si
giacesse sul sentiero di lungo periodo, o, in maniera equivalente, come il valore cor-
rente della serie pi` u all forecastable future changes in the series beyond the mean
rate of drift (Beveridge and Nelson, 1981, p. 156). Pertanto,
t
= lim
l
[ y
t+l|t
lm] = y
t
+ U
t
,
con
U
t
= lim
l
_
l
i=1
w
t+i|t
_
=
i=1
j=0
C
i+j
tj
=
j=0
_
_
k=j+1
C
k
_
_
tj
= C
(L)
t
(5.9)
dove C
(L) = [C(L) C(1)]/ =
j=0
C
j
L
j
, C(1) =
j=0
C
j
, e C
j
=
k=j+1
C
k
,
j = 0, 1, . . ..
4
I due autori conducono unanalisi di simulazione dalla quale emerge che la funzione di autocor-
relazione dei residui oscilla con un periodo pari approssimativamente a 2T/3 e pertanto i residui
mostreranno un ciclo lungo interamente spurio.
81
In conclusione, il trend è generato da un RW con drift costante, m, e varianza
delle innovazioni (detta anche size of the RW) C(1)
2
2
:
t
= m + C(1)
t
. La
componente transitoria è denita in maniera residuale come
t
= y
t
t
= U
t
.
5.6 Persistenza
Si è già accennato al fatto che le innovazioni casuali hanno eetti persistenti sui pro-
cessi DS; riprendiamo dunque la rappresentazione di Wold di un processo integrato
del primo ordine:
y
t
= m+ C(L)
t
,
dove C(L) =
j=1
C
j
L
j
, con C
0
= 1 e

C
2
j
< . Il coeciente C
k
associato alla
potenza k-esima delloperatore ritardo misura leetto su y
t
di uno shock unitario
realizzatosi k periodi precedenti. Leetto cumulato su y
t
dopo k periodi di tempo
è invece 1 +C
1
+ +C
k
; facendo dunque tendere k allinnito si ha che limpatto
di uno shock unitario nel lungo periodo è pari alla somma dei coecienti della
rappresentazione MA, vale a dire C(1).
In maniera equivalente
C(1) = lim
k
E(y
t+k
|I
t
)
t
,
dove I
t
denota linformazione accumulata no al tempo t, si interpreta come la
revisione nella previsione di lungo periodo della serie dovuta ad uno shock unitario
occorso al tempo t. Ciò ha portato Campbell e Mankiw (1987) a suggerire ladozione
di C(1) come misura di persistenza. La stima parametrica si ottiene a partire dalla
rappresentazione MA() di un processo ARMA adattato alle dierenze prime della
serie analizzata.
Cochrane (1986) ha invece proposto una misura di persistenza non parametrica
denominata rapporto di varianze normalizzato poiche si fonda sulla statistica
V
k
=
1
k
Var(y
t
y
tk
)
Var(y
t
y
t1
)
, k = 1, 2, . . . .
Facendo uso dellidentit` a
k
= 1L
k
= S
k
(L), dove S
k
(L) = 1+L+ +L
k1
,
possiamo riscrivere il numeratore come segue:
Var(y
t
y
tk
) = Var(
k1
j=0
y
tj
)
=
k1
j=0
Var(y
t
) + 2
k1
i=0
k1
j=i+1
Cov(y
ti
, y
tj
)
= k
0
+ 2
k1
j=1
(k j)
j
;
82
Pertanto,
V
k
= 1 + 2
k1
j=1
_
k j
k
_
j
,
e per k tendente ad innito si ottiene:
V = lim
k
V
k
= 1 + 2
j=1
j
=
2f(0)
0
;
il che mostra che tra V e la densità spettrale a frequenza = 0 esiste una relazione
di diretta proporzionalità.
Se il processo generatore dei dati è un RW,
= 0, > 0 implica V
k
= 1; in
maniera equivalente si ha Var(y
t
y
tk
) = k
2
e Var(y
t
y
t1
) =
2
. Daltra parte, se
il processo è TS, Var(y
t
y
tk
) non cresce linearmente (tende piuttosto a 2Var(y
t
)),
cosicche V
k
tende a zero. Questi due casi possono essere assunti a riferimento per
giudicare se un processo sia pi` u o meno persistente. In particolare, si parlerà di
un processo altemente persistente qualora per esso V
k
risulti tendere ad un valore
superiore allunità; al contrario il processo sarà giudicato a bassa persistenza se V
k
si attesta su un valore inferiore allunità.
La stima del rapporto di Cochrane a partire da una serie storica può avvenire
sostituendo le autocorrelazioni stimate a quelle teoriche, cos` da ottenere:
V
k
= 1 + 2
k1
j=1
_
k j
k
_

j
.
Si noti che V
k
corrisponde alla stima della densità spettrale a frequenza zero utiliz-
zando la nestra di Bartlett.
Le due misure di persistenza sono legate dalla relazione:
C(1) =
V
0
2
il che parrebbe suggerire una certa sostituibilità tra di esse. In realtà esse risultano
dicilmente conciliabili, poiche i modelli ARIMA stimati in base al criterio della par-
simonia tendono ad enfatizzare il ruolo delle componenti ad alta frequenza, alle spe-
se delle correlazioni di lungo periodo, le quali sono indicative di un comportamento
mean reverting.
5.7 Integrazione stagionale
Finora abbiamo considerato la non-stazionarietà legata alla presenza del trend, vale
a dire della componente di lungo periodo. E noto tuttavia che altre componenti
83
oscillatorie di periodo pi` u breve possono indurre non-stazionarietà: la presenza di
una componente stagionale rappresenta il caso pi` u frequente nelle serie storiche
economiche. Consideriamo a titolo di esempio il processo
(1 + L)y
t
=
t
, t = 1, . . . , T
che supponiamo valido per dati semestrali. E immediato vericare che y
t
non è
stazionario in quanto E(y
t
) = (1)
t
y
0
e la varianza cresce linearmente al crescere
di t; ed infatti rileviamo che il polinomio autoregressivo possiede la radice -1. In
questo caso il processo oscilla con periodo pari allanno e lampiezza delle oscillazioni
è determinata dalle realizzazioni della v.c.
t
.
Al ne di eettuare una trattazione adeguata di questa tipologia di processi
stocastici si rende necessaria unestensione del concetto di integrazione (cfr. Engle
et al., 1989):
Def. Ordine di integrazione Sia y
t
un processo lineare indeterministico; allora si
dirà che y
t
è un processo integrato di ordine d a frequenza , e si scriver` a y
t
I
(d),
se lo (pseudo-)spettro di potenza, f(), assume la forma:
f() ( )
2d
,
in un intorno di .
Secondo questa denizione il random walk è un processo integrato del primo
ordine alla frequenza = 0, mentre il processo (1 +L)y
t
=
t
è integrato del primo
ordine a frequenza . Infatti, considerando lo sviluppo della funzione coseno in serie
di Taylor del secondo ordine si ha
cos = cos ( ) sin
( )
2
2
+o[( )
2
],
dove o(.) denota un innitesimo di ordine inferiore allargomento. Poiche lo spettro
di un RW è [4(1 cos )]
1
2
, si ottiene f(0) ( )
2
. Allo stesso modo si
verica che lo spettro del processo y
t
= (1 +L)
1
t
a frequenza è proporzionale a
( )
2
.
Consideriamo ora un processo che è osservato s volte lanno, con s pari (tipi-
camente s = 4 per dati trimestrali e 12 per dati mensili); tale processo è detto
stagionale se possiede uno spettro caratterizzato dalla concentrazione di potenza
attorno alle frequenze stagionali
j
= 2j/s, j = 1, . . . , s/2.
Esistono diversi modi in cui può scaturire il comportamento stagionale; si sup-
porrà che siano tutti casi particolari del seguente processo generatore:
(L)y
t
=
t
+
t
, t = 1, . . . , T, (5.10)
84
dove (L) è un polinomio in L di grado p e
t
WN(0,
2
); la stagionalità
deterministica è ascrivibile alla componente
t
=
s
j=1
j
S
jt
+t
dove le S
jt
sono dummies stagionali che assumono valore 1 nella stagione j e zero
altrove;
j
sono le medie stagionali.
Il processo y
t
è stazionario se le radici di (L) giacciono tutte al di fuori del
cerchio di raggio unitario ed è stagionale se il polinomio possiede radici complesse
coniugate a frequenze stagionali; ad esempio il processo generato da y
t
= y
t4
+
t
con || < 1 ha uno spettro che assume il massimo (2)
1
/(1 )
2
alle frequenze
0, /2 e in corrispondenza delle radici
1/4
, i
1/4
e
1/4
rispettivamente.
Se 1 lo spettro è innito alle stesse frequenze.
Quando le radici del polinomio autoregressivo giacciono sul cerchio unitario, è
possibile adottare la fattorizzazione:
(L)(L)y
t
=
t
+
t
(5.11)
dove (L) è un polinomio AR le cui radici sono unitarie in modulo e (L) è un
polinomio AR stazionario di ordine q. y
t
è dunque un processo stagionale integrato
se il suo spettro è illimitato alle frequenze stagionali
j
= 2j/s. I casi pi` u rilevanti
sono elencati di seguito: (i) (L) = S(L) = 1 + L + + L
s1
, loperatore di
somma stagionale; (ii) (L) =
s
= 1 L
s
, loperatore dierenza stagionale; (iii)
(L) =
s
= (1 L)(1 L
s
).
Consideriamo il processo (10) nel caso (i) con s = 4 (dati trimestrali): loperatore
di somma stagionale può essere fattorizzato come S(L) = (1 + L)(1 + iL)(1 iL),
da cui si evince che le radici di S(L) sono i e -1; in corrispondenza lo spettro di
potenza è illimitato alla frequenza fondamentale /2 e allarmonica . Pertanto, due
cicli si combinano in maniera moltiplicativa e sono responsabili del comportamento
stagionale: il primo ha un periodo pari allanno, mentre il secondo ha un periodo
pari a due trimestri
5
.
Le proprietà dinamiche di un processo stagionale integrato dieriscono notevol-
mente da quello di uno stazionario: in primo luogo gli shocks sono persistenti e
hanno un impatto permanente sul pattern stagionale; inoltre, la varianza cresce
man mano che ci allontaniamo dal tempo iniziale.
Loperatore dierenza stagionale
4
= S(L) ha quattro radici unitarie: 1, -1 e
la coppia i; pertanto è anche integrato di ordine 1 a frequenza 0. Inne, nel caso
(L) =
4
=
2
S(L) il processo è I
0
(2), I
/2
(1) e I
(1).
5
In generale S(L) ha (s 2)/2 coppie di radici complesse coniugate alle frequenze
j
=
2j/s, j = 1, . . . , s/2 e la radice -1 2/s.
85
Per tutti questi casi abbiamo bisogno di una notazione pi` u compatta: a tal pro-
posito introduciamo la seguente denizione, anchessa dovuta a Engle et al. (1989):
Def. Integrazione stagionale y
t
è integrato stagionalmente di ordine d
0
e d
s
, e si
denota y
t
SI(d
0
, d
s
), se
d
0
S(L)
ds
y
t
è stazionario e invertibile.
Secondo questa denizione il processo
s
y
t
= + (L)
t
è SI(2, 1) se (L) è
un polinomio invertibile.
5.8 Test di integrazione stagionale
Il problema delintegrazione stagionale è sorto con qualche ritardo rispetto a quel-
lo dellintegrazione a frequenza zero, ciò essendo legato alla disponibilità di dati
destagionalizzati. Tuttavia è stato recentemente provato che lutilizzo di dati de-
stagionalizzati, in relazione alla natura del ltro di aggiustamento, può modicare
le inferenze sulle radici unitarie a frequenza zero nel senso di dare pi` u supporto
allipotesi nulla di integrazione.
Nella tradizione del test DF, Dickey, Hasza e Fuller (DHF) (1984) hanno sugge-
rito un test basato sulla regressione
(1 L
s
)y
t
=
s
y
ts
+
t
, s = 2, 4, 12
La statistica test per H
0
:
s
= 0 è la statistica t associata al parametro
s
. DHF
forniscono i percentili della distribuzione corrispondente, che possono essere utilizza-
ti per testare H
0
contro lalternativa
s
< 0 (che implica che il processo considerato
è generato da un processo stagionale autoregressivo stazionario del primo ordine.
Valori ritardati di
s
y
t
possono essere aggiunti al lato destro dellequazione al ne
di sbiancare i residui senza alterare la distribuzione asintotica del test. Come nel
caso del test DF può essere presa in considerazione la presenza di componenti deter-
ministiche quali un intercetta, un trend lineare, e dummy stagionali: ovviamente la
distribuzione non è invariante rispetto alla componente di volta in volta considerata.
Il test DHF non soddisfa appieno in quanto costituisce un test congiunto operato
su tutte le frequenze sia stagionali che non (H
0
: y
t
SI(1, 1) contro H
1
: y
t

SI(0, 0)). Il test proposto per dati trimestrali
6
da Hylleberg, Engle, Granger and Yoo
(test HEGY) consente invece di esaminare lintegrazione a ciascuna delle frequenze
stagionali e a frequenza zero.
Gli autori suppongono che i dati siano generati da un processo autoregressivo di
ordine nito (L)y
t
=
t
+
t
. Poniamoci dunque il problema di testare lipotesi y
t

6
Per lestensione a dati mensili si veda Beaulieu e Miron (1993).
86
SI(1, 1); ricordando che loperatore dierenza stagionale ammette la fattorizzazione
4
= (1 L)(1 +L)(1 +iL)(1 iL), si dimostra che, espandendo il polinomio (L)
attorno alle radici unitarie 1, -1 e i si può riscrivere:
(L)
4
y
t
=
1
Z
1,t1
+
2
Z
2,t1
+
3
Z
3,t2
+
4
Z
3,t1
+
t
+
t
, (5.12)
dove Z
1t
= S(L)y
t
, Z
2t
= (1 L + L
2
L
3
)y
t
e Z
3t
= (1 L
2
)y
t
.
La trasformazione che genera Z
1t
rimuove le radici unitarie stagionali; quella che
genera Z
2t
rimuove quelle a frequenza zero e /2, lasciando un processo integrato
sotto H
0
soltanto a frequenza ; inne Z
3t
è un processo integrato a /2.
Lutilità della rappresentazione (11) è legata alla relazione tra le radici unitarie
di (L) e i parametri
i
(i = 1, 2, 3, 4): in particolare (1) = 0 implica
1
=
0 cosicche la presenza di una radice unitaria a frequenza zero può essere testata
contro
1
< 0 (corrispondente alla alternativa stazionaria (1) > 0); analogamente
(1) = 0 (una radice unitaria a frequenza ) implica
2
= 0, mentre lalternativa
di stazionarietà (1) > 0 implica
2
< 0. Inne, lipotesi che la serie sia I
/2
(1)
comporta che entrambi
3
e
4
siano nulli.
Lequazione (11) può essere stimata mediante i minimi quadrati e le statistiche
t associate ai parametri
i
(i = 1, 2, 3, 4) possono essere impiegate per testare la
presenza di radici unitarie alle frequenze corrispondenti. Dal momento che H
0
:
(
3
= 0)(
4
= 0) è bidimensionale, HEGY suggeriscono di utilizzare una statistica
F per un test congiunto sulla signicatività dei due parametri. Alternativamente si
può prima condurre un test t bidirezionale dellipotesi
4
= 0 e, qualora non risulti
signicativo, testare
3
= 0 contro lalternativa
3
< 0.
HEGY hanno tabulato la distribuzione dei test t unidirezionali sui parametri
1
,
2
and
3
, per il test t bidirezionale su
4
e per il test F dellipotesi (
3
=
0) (
4
= 0). La distribuzione cambia a seconda del nucleo deterministico presente
nel modello di regressione: i.
t
= 0, ii.
t
= , iii.
t
=

s
j=1
j
S
jt
, iv.
t
= +
t
,
v.
t
=

s
j=1
j
S
jt
+ t (si vedano le tavole 1a e 1b a pag. 227). Si noti che la
distribuzione

t
:
1
è pi` u sensibile alla presenza dei termini di trend ed intercetta
piuttosto che alla presenza di dummy stagionali; per le altre statistiche test vale
lopposto.
Quando un processo è integrato stagionalmente è possibile misurare la persi-
stenza delle innovazioni sul pattern stagionale mediante opportune estensioni del
rapporto di varianze normalizzato di Cochrane, come mostrato in Proietti (1996).
5.9 Critiche allapplicazione dei test per radici uni-
tarie
E noto che laccettazione dellipotesi nulla non esclude che lalternativa sia vera.
Nel caso in questione la potenza dei test per la presenza di radici unitarie (1
87
P(H
0
|H
1
)) è estremamente bassa riettendo la circostanza che in campioni niti è
dicile discriminare un processo con una radice unitaria da uno con radice 1, >
0 qualsiasi.
Le realizzazioni possono essere virtualmente identiche per dimensioni campiona-
rie non elevatissime e pertanto sia i metodi basati sui momenti che sulla funzione di
verosimiglianza non riescono a discernere le due situazioni. Cochrane (1991) porta
alle estreme conseguenze questo punto mostrando che per ogni processo DS esiste un
corrispondente processo stazionario le cui inferenze parametriche (e quindi anche i
test per le radici unitarie) sono arbitrariamente vicine a quelle condotte sul processo
DS.
Perron mostra che cambiamenti di regime e la presenza di punti di rottura nella
serie (break e shift strutturali) possono comportare laccettazione dellipotesi DS
quando il meccanismo generatore sia TS e riformula la distribuzione delle statistiche
test per tener conto della possibilità che la non stazionarietà sia da attribuire alla
presenza di suddetti shocks. In altre parole è possibile che una serie sia stazionaria
attorno ad un trend segmentato, rappresentabile da una spezzata che incorpori le
variazioni del livello ed i cambiamenti del tasso di crescita, mentre non lo sia rispetto
ad un trend lineare.
Schwert (1989) e Pantula (1991) contestano lidea che governa lADF consistente
nellapprossimare il processo generatore con un AR di ordine nito e citano levi-
denza delle principali serie macroeconomiche studiate che sarebbero bene adattate
da un modello IMA(1,1). Se il parametro MA è vicino allunità, allora una rap-
presentazione autoregressiva nita non è adeguata e i due autori dimostrano che
limpiego dei valori critici tabulati da Dickey e Fuller porta erroneamente a rigettare
la presenza di una radice unitaria. In eetti si realizza una quasi-cancellazione degli
operatori AR e MA, che lascia un processo virtualmente non distinguibile dal WN.
5.10 Le implicazioni econometriche
Supponiamo che y
t
e x
t
siano entrambe I(1) e che esista una relazione causale
unidirezionale x y; ci proponiamo allora di stimare una relazione econometrica tra
lendogena y e lesogena x. Lordine di integrazione delle variabili non è indierente
e concorre a determinare diversi modi di formalizzare la relazione tra le due variabili
dal punto di vista econometrico.
Partiamo dalla seguente rappresentazione (ADL(r, s) Autoregressive Distributed
Lag):
(L)z
t
= + (L)v
t
+
t
dove (L) = 1
1
L . . .
r
L
r
e (L) =
0
+
1
L + . . . +
s
L
s
; questultima
incorpora un ampio spettro di modelli dinamici (modelli a ritardi distribuiti, modelli
autoregressivi, modelli con funzione di trasferimento) a seconda della specicazione
88
dei polinomi (L) e (L), delle assunzioni sul termine di errore e delle trasformazioni
adottate su y
t
e x
t
per ottenere rispettivamente z
t
e v
t
. Il modello ADL è stabile se
le radici del polinomio (L) giacciono tutte al di fuori del cerchio di raggio unitario;
tale proprietà è importante per lesistenza di una soluzione di lungo periodo.
Nel seguito non ci proponiamo di eettuare una rassegna delle numerose spe-
cicazioni esistenti nella letteratura econometrica; ci limiteremo ad esporre alcuni
punti fondamentali per lanalisi successiva.
5.10.1 Modello nei livelli
In questo caso si ha z
t
= y
t
e v
t
= x
t
. Consideriamo per semplicità il caso di
regressione statica:
y
t
= + x
t
+
t
,
t
WN(0,
2
),
in cui si ipotizza una dipendenza istantanea tra le due variabili; la presenza di
integrazione può dar luogo al fenomeno che prende il nome di regressione spuria:
se y
t
e x
t
sono generate da due random walk indipendenti la stima dei MQO di
può risultare signicativamente diversa da zero; inoltre si otterrà un coeciente di
determinazione R
2
alto in presenza di un DW estremamente basso e prossimo a zero.
Pertanto nella stima di relazioni in livelli tra processi integrati si va incontro al
rischio che il buon adattamento del modello ai dati sia del tutto illusoria. Ne
vale il ricorso agli usuali test statistici in quanto la correlazione seriale esistente nei
residui implica che i livelli di signicatività dei test t ed F non risultino pi` u corretti.
Il fenomeno ha trovato una spiegazione formale in campo asintotico grazie a Phillips
(1985), il quale ha dimostrato che per T il test DW tende a zero, R
2
allunità
e che le usuali statistiche test divergono, con la conseguenza che la probabilità di
riutare H
0
: = 0 cresce al crescere di T.
Questo risultato è piuttosto sconfortante dal punto di vista della teoria econo-
mica, la quale formula delle relazioni tra variabili in livello. Tuttavia non tutto è
perduto, come vedremo successivamente.
5.10.2 Modello nelle dierenze
Considerati i problemi posti dalla regressione statica in livelli si potrebbe pensare di
formulare una relazione econometrica tra le variazioni delle variabili; la dierenzia-
zione dei dati è una delle trasformazioni che viene solitamente suggerita per aggirare
il problema:
y
t
= + x
t
+
t
Si noti che se le due variabili sono generati da RW indipendenti, la dierenzia-
zione consente di eliminare il problema di regressione spuria, poiche per il test t
89
dellipotesi = 0 vale la tradizionale teoria distributiva. Tuttavia, anche questo
approccio non va esente da critiche: innanzitutto non contiene alcuna relazione sui
livelli, per cui, se esiste una relazione di equilibrio di lungo periodo y = cx, essa non
può essere incorporata nel modello: infatti quando il sistema raggiunge lo stato di
equilibrio stazionario, y
t
= y
e
e x
t
= x
e
, entrambe le dierenze prime sono nulle.
E inoltre possibile che la dierenziazione dia luogo ad un termine di errore
strettamente non invertibile, da cui consegue che per approssimare la dinamica del
sistema è necessario un polinomio autoregressivo di ordine molto elevato, cosa che
potrebbe violare il principio di parsimonia.
5.10.3 Regressione tra serie detrendizzate
La nonstazionarietà può essere incorporata nel modello introducendo un trend li-
neare tra i regressori:
y
t
= + t + x
t
+
t
.
Tale procedura ha qualche probabilità di successo solo se le variabili sono pro-
cessi TS; un importante risultato, noto come teorema di Frisch e Waugh, ha infatti
stabilito che inserire un trend lineare equivale ad eettuare una regressione statica
tra serie detrendizzate mediante leliminazione di un trend lineare. Pertanto se le
variabili sono generate da RW indipendenti si incorre in una regressione spuria poi-
che la detrendizzazione ha eetto solo sul nucleo deterministico, lasciando inalterato
quello stocastico.
Un possibile rimedio alla regressione spuria può consistere nellinclusione di valori
ritardati delle variabili esplicative e della dipendente; nel caso dei RW indipendenti,
ad esempio, aggiungendo tra i regressori il valore ritardato di entrambe le variabili,
y
t
= + y
t1
+
0
x
t
+
1
x
t1
+
t
,
esiste la combinazione con = 1,
0
=
1
= 0, tale che
t
I(0). Si può dimostrare
che le stime MQO sono consistenti per tutti i parametri e che i test t delle ipotesi
0
=
0 e
1
= 0 hanno distribuzione asintotica normale. Il test F dellipotesi congiunta,
al pari del test t dellipotesi = 1, ha tuttavia distribuzione limite nonstandard.
Tuttavia, almeno in parte la teoria asintotica gaussiana viene recuperata.
Possiamo concludere dunque che nel generico modello ADL, se non esiste almeno
un punto nello spazio dei parametri tale che
t
è stazionario, la stima MQO può dar
luogo a risultati spuri nel senso sopra precisato.
90
5.11 Modelli con meccanismo a correzione deller-
rore
Il modello ADL(r, s) in livelli
(L)y
t
= + (L)x
t
+
t
con (L) = 1
1
L . . .
r
L
r
, (L) =
0
+
1
L + . . . +
s
L
s
e
t
WN(0,
2
),
può essere riparametrizzato nella forma a correzione dellerrore, il cui signicato
emergerà tra non molto.
Mediante la stessa tecnica adottata precedentemente riscriviamo (L) = (1)L+
(L), (L) = (1)L+
(L), dove
(L) e
(L), sono polinomi di ordine r 1

e s 1 rispettivamente (di primo termine 1 e
0
).
Sostituendo e riordinando i termini otteniamo:
(L)y
t
= (1)(y
t1
cx
t1
) +
(L)x
t
+
t
, (5.13)
ovvero:
(L)y
t
= (1)(y
t1
mcx
t1
) +
(L)x
t
+
t
,
dove m = /(1) e c = (1)/(1) è il moltiplicatore totale che può essere valida-
mente interpretato come il coeciente di risposta di lungo periodo della relazione di
equilibrio (statico) tra y e x; se le variabili sono espresse in logaritmi c rappresenta
lelasticità di lungo periodo di y rispetto a x. In equilibrio y
t
= y
e
e x
t
= x
e
: sosti-
tuendo si ottiene la relazione di equilibrio y = cx; è evidente che y
t1
cx
t1
misura
lentit` a del disequilibrio realizzatosi nel periodo precedente; il primo termine a se-
condo membro si congura pertanto come un meccanismo di correzione dellerrore
(MCE).
La parametrizzazione con MCE presenta alcuni pregi: il primo, di natura inter-
pretativa, consiste nel combinare opportunamente la dinamica di breve periodo con
con le proprietà di equilibrio di lungo periodo suggerite dalla teoria economica. Le
variazioni di y dipendono non soltanto dalle variazioni di x ma anche dallentità del
disequilibrio al tempo precedente. A titolo esemplicativo consideriamo un modello
ADL(1, 1), che ammette la parametrizzazione MCE:
y
t
= + (
1
1)(y
t1
cx
t1
) +
0
x
t
+
t
,
con c = (
0
+
1
)/(1
1
); se il modello è stabile (|
1
| < 1) allora il secondo termine
al secondo membro gioca un rilevante ruolo stabilizzatore: qualora nel periodo pre-
cedente y si fosse rivelata superiore (inferiore) al suo livello di equilibrio statico cx,
il tasso di crescita di y risulterebbe diminuito (aumentato), contribuendo a riportare
la y verso il sentiero di equilibrio.
91
Es. 7: Levidenza empirica suggerisce che nel lungo periodo lelasticità del consumo totale
C
t
rispetto al reddito Y
t
è costante. Tuttavia la funzione keynesiana del consumo aggregato
postula che lelasticità sia decrescente; in realtà la teoria economica è in contraddizione con
levidenza empirica solo apparentemente se si considera che la funzione keynesiana è valevole
nel breve periodo.
La rappresentazione MCE consente di conciliare la relazione di lungo periodo C = kY
,
dove rappresenta lelasticità di lungo periodo, supposta costante, con la dinamica di breve
periodo (nella parametrizzazione con MCE derivata dallADL(1, 1) si avrebbe
0
< 1).
Un altro rilevante vantaggio di natura pi` u strettamente econometrica sta nel
fatto che le variabili originarie {y
t
, y
t1
, . . . , y
tr
, x
t
, x
t1
, . . . , x
ts
} costituiscono un
insieme fortemente collineare, mentre la forma con MCE realizza un notevole ridi-
mensionamento della multicollinearit` a. Se
t
WN(0,
2
) allora, supposto noto c,
i coecienti possono essere stimati in maniera consistente ed eciente mediante i
MQO.
5.12 Cointegrazione
Generalmente, combinazioni lineari di variabili integrate di ordine d risultano in-
tegrate dello stesso ordine; esistono casi, che sono poi quelli veramente rilevanti
dal punto di vista della teoria econometrica, in cui particolari combinazioni lineari
presentano un ordine di integrazione inferiore a quello delle serie di partenza.
Torniamo al caso pi` u semplice, in cui le variabili sono I(1): può esistere una
combinazione lineare che sia stazionaria e diremo che le variabili sono cointegrate
perche i movimenti di lungo periodo presenti in ciascuna si eliminano. Ciò viene
attribuito al fatto che esiste una relazione di equilibrio statico tra di esse e che la loro
dinamica non può discostarsi troppo (esiste in altre parole una tendenza comune).
Def. Cointegrazione: I processi y
t
e x
t
sono detti cointegrati di ordine d e b,
0 < b d, e scriveremo u
t
= [y
t
x
t
]
CI(d, b), se:

entrambi i processi sono I(d);
= [
1

2
]
tale che
u
t
I(d b).
La denizione precedente esclude la possibilità di cointegrazione tra processi che
mostrano diversi ordini di integrazione; questo non ci meraviglia perche ad es. un
processo I(1) ed uno I(0) hanno proprietà temporali notevolmente diormi atte ad
escludere la possibilità di un andamento solidale. Pertanto la verica statistica della
cointegrazione è sempre preceduta dallanalisi dellintegrazione delle serie componen-
ti il sistema. prende il nome di vettore di cointegrazione ed è denito unicamente
a meno di una normalizzazione (in genere si prenderà [1 c], c =
2
/
1
)
92
La cointegrazione è un occorrenza pi` u eccezionale che abituale nelle serie storiche
reali; la sua presenza implica ed è implicata dallesistenza di un trend comune: sia
w
t
I(1),
xt
e
yt
due processi I(0) e si supponga che i dati siano generati dal
meccanismo seguente: x
t
= w
t
+
xt
e y
t
= cw
t
+
yt
; pertanto y
t
cx
t
=
yt
c
xt

I(0).
Riconoscere lesistenza di cointegrazione ha importanti conseguenze sotto il pro-
lo della modellistica, come emerge da un fondamentale risultato noto come teorema
di rappresentazione di Granger (Engle e Granger 1987), il quale aerma, tra laltro,
che se due serie sono cointegrate esse ammettono sempre una rappresentazione con
MCE:
y
t
=
1
+
1
z
t1
+
1k
y
tk
+
1k
x
tk
+ d(L)
1t
x
t
=
2
+
2
z
t1
+
2k
y
tk
+
2k
x
tk
+ d(L)
2t
dove z
t1
= y
t1
cx
t1
(si noti che nella combinazione lineare stazionaria può essere
presente un termine costante se la relazione di equilibrio non è di stretta propor-
zionalità: y = m + cx; in questo caso si ha z
t1
= y
t1
m cx
t1
; ovviamente i
termini costanti
1
e
2
scompaiono in quanto incorporati nella relazione di equili-
brio) e |
1
| +|
2
| = 0; lultima condizione assicura che il termine con MCE compaia
in almeno una delle due relazioni.
La precedente proposizione può essere rovesciata nel senso che se u
t
ammette
una rappresentazione con MCE, le variabili sono cointegrate. Si noti che poiche
(y
t
, x
t
) I(1) e (
1t
,
2t
) I(0) tutti i termini della rappresentazione sono stazionari
e per i relativi coecienti vale la tradizionale teoria asintotica.
Nel paragrafo precedente abbiamo supposto che il vettore di cointegrazione fos-
se noto (molto spesso viene assunto c = 1, vale a dire che vi sia omogeneità tra
le due variabili). In realtà, il fondamentale problema statistico-econometrico po-
sto dalla teoria della cointegrazione è duplice: si tratta di vericare lesistenza di
cointegrazione tra le variabili e di stimare il vettore di cointegrazione. I due punti
sono strettamente collegati, per cui partiamo dal secondo; nel seguito ci limiteremo
a descrivere la procedura suggerita da Engle e Granger (1987), che si articola in due
stadi:
1. Stima del vettore di cointegrazione attraverso regressione statica e verica
dellipotesi di cointegrazione
2. Stima dei parametri della forma con MCE assumendo z
t
nonstocastico.
La procedura descritta è improntata alla massima semplicità: entrambi gli stadi
richiedono limpiego dei MQO.
Lidea fondamentale è quella di ottenere la stima del vettore di cointegrazione
regredendo la variabile il cui coeciente è normalizzato allunità sulle rimanenti; nel
93
caso bivariato:
y
t
= m+ cx
t
+
t
(5.14)
per vericare lipotesi di cointegrazione si controlla che i residui ottenuti siano I(0).
Come è possibile che un processo generatore estremamente semplice, quale la
regressione statica di y
t
su una costante e x
t
fornisca informazioni tanto importanti
sul comportamento di lungo periodo del sistema considerato? La risposta sta nelle
proprietà della regressione statica tra variabili cointegrate: è stato infatti dimostra-
to (Stock, 1987) che la stima del vettore di cointegrazione è (super)consistente e,
pur essendo distorta, la distorsione tende a scomparire, al crescere del periodo cam-
pionario, pi` u rapidamente del caso di regressione tra variabili stazionarie, essendo
di ordine T
1
. Unaltra interessante proprietà consiste nella possibilità di ignorare
il problema della presenza di non contemporaneità tra x e y, per cui non cè bi-
sogno di introdurre nella (13) valori ritardati della variabile dipendente e/o della
indipendente.
Questi risultati paiono confortanti; eppure vanno interpretati con qualche circo-
spezione in quanto hanno valenza asintotica; per le realizzazioni nite comunemente
disponibili fare adamento su di essi può anche essere fuorviante: è stato mostrato,
mediante simulazione, che in campioni niti la distorsione nella stima del vettore di
cointegrazione può permanere elevata anche per valori grandi di T e che declina ad
ritmo meno elevato di quello teorico. La distorsione deriva dallomissione delle varia-
bili esprimenti la dinamica di breve periodo, il cui peso, trascurabile asintoticamente,
può essere rilevantissimo in campioni niti.
Si consideri poi che le inferenze su c non sono quelle usuali poiche, seppure la
stima dei parametri della (13) sia consistente, lo stesso non vale per la stima deller-
rore standard, precludendo la possibilità di vericare ipotesi di interesse economico
sui coecienti della regressione statica
7
.
La verica dellipotesi di cointegrazione si eettua contestualmente alla stima
della (13). Per la precisione lipotesi sottoposta a verica è che y
t
e x
t
non siano
cointegrate, nel qual caso una radice unitaria è presente nei residui della regressione
(13), e per testarla Engle e Granger propongono una batteria di test: il primo è il cd.
CRDW (Cointegrating Regression Durbin-Watson), rappresentato dal DW calcolato
sui residui e
t
della regressione statica; sotto lipotesi nulla
t
I(1) la statistica DW
è pari a 0, per cui il test è signicativo se CRDW risulta signicativamente maggiore
di zero. I valori critici non sono quelli tabulati da Durbin e Watson, ma sono forniti
da Sargan e Bhargava (1983).
7
Va considerato poi che, nel caso bivariato, esistono due vettori di cointegrazione, il primo [1 c]
ottenuto dalla (13), il secondo [ c 1] ottenuto dalla regressione inversa x

t
= m+ cy
t
. In campioni
niti c = 1/ c; tuttavia se esiste cointegrazione si avrà che R
2
1 e, tenuto conto della relazione
R
2
= c c, si ha anche c 1/ c.
94
Un secondo gruppo di test fa capo alle statistiche DF e ADF per testare la
presenza di radici unitarie: se lipotesi nulla viene riutata si può concludere che y
t
e x
t
sono cointegrate.
A questo scopo si considera la statistica t per
= 0 nella regressione:
e
t
=
e
t1
+ u
t
ovvero, per tener conto dellautocorrelazione dei residui si considera
e
t
=
e
t1
+
j
e
tj
+ u
t
.
In entrambe è assente lintercetta poiche se essa è presente nella regressione di coin-
tegrazione i residui hanno media nulla e linclusione di un termine costante ha eetti
trascurabili sulle statistiche test.
Purtroppo la distribuzione delle statistiche test non è quella tabulata da Dickey
e Fuller e faremo riferimento ad essa come distribuzione EG: ad es. per T = 100 il
valore critico unidirezionale al livello di signicatività del 5% sarebbe pari a 2.89
per la distribuzione DF e 3.17 per la distribuzione EG.
In eetti se il vettore di cointegrazione fosse noto a priori non sorgerebbero
dicoltà di sorta, poiche i test di radice unitaria su z
t
seguirebbero la distribuzione
di DF. Il problema è invece posto dal fatto che il vettore di cointegrazione è stimato
a partire dai dati: i MQO, minimizzando la varianza dei residui, agiranno in modo
da far apparire i residui stazionari anche quando non lo sono e il test DF indurrà al
riuto di H
0
troppo spesso.
Ovviamente anche per il test EG si ripresenta il problema della dipendenza da
parametri di disturbo, per cui la distribuzione varia a seconda che la regressione
di cointegrazione (ovvero la regressione ADF sui residui) sia stimata in presenza di
un termine costante e/o di trend. Linclusione di un trend lineare avrebbe senso se
si volesse eliminare la dipendenza del test EG dal termine costante m e qualora si
desiderasse testare lipotesi che le serie non sono cointegrate anche dopo lestrazione
di un trend lineare da ognuna. I valori critici dipendono inoltre dal numero di
variabili esogene impiegate nel modello statico.
I due autori considerano inne unaltra batteria di test basati sulla stima del
modello con MCE e di modelli autoregressivi vettoriali; per essi si segnala che godono
di una potenza estremamente pi` u bassa del test EG e pertanto hanno una valenza
limitata. Per maggiori dettagli si rimanda comunque ad Engle e Granger (1987) e
a Banerjee et al. (1993).
Per quanto concerne il secondo stadio EG dimostrano che il fatto di stimare il
vettore di cointegrazione non ha conseguenze sulle proprietà distributive delle stime
dei coecienti della forma con MCE: pertanto la stimatore a due stadi del modello
con MCE, ottenuto assumendo ( m, c) stimati tramite la (13) come il valore vero,
95
ha la stessa distribuzione asintotica dello stimatore MV che impiega m, c; inoltre le
stime degli errori standard sono consistenti.
Es. 8: Questo esempio è tratto da Engle e Granger e riguarda i consumi per beni non
durevoli e il reddito disponibile pro capite a prezzi costanti dal 1947Q1 al 1981Q2. Dallanalisi
di integrazione scaturisce che le serie sono I(1), mentre la regressione di cointegrazione fornisce:
c
t
= m + 0.23y
t
con R
2
= 0.99, CRDW = 0.465 che risulta signicativamente diverso da
zero; inoltre il test EG risulta pari a 4.3 ed è signicativo all1% portando al riuto dellipotesi
di assenza di cointegrazione. Il modello con MCE stimato risulta:
c
t
= 0.14z
t1
+ 0.068y
t1
.
Il coeciente del consumo nella regressione di y
t
su una costante e c
t
è pari a 4.3, che coincide
col reciproco di 0.23. Anche in questo caso lipotesi di non cointegrazione è riutata e il termine
che incorpora il MCE è signicativo. Nelle situazioni di questo tipo nessuna delle due variabili
è esogena ed esiste feedback.
Riferimenti bibliograci
Beaulieu J.J. e Miron J.A. (1993). Seasonal Unit Roots in Aggregate U.S. Data, Journal
of Econometrics, 55, 305-328.
Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, Error-
Correction, and the Econometric Analysis of Non-Stationary Data., Oxford Univer-
sity Press.
Beveridge, S. and Nelson, C.R. (1981), A New Approach to the Decomposition of Economic
Time Series into Permanent and Transitory Components with Particular Attention
to the Measurement of the Business Cycle. Journal of Monetary Economics, 7,
151-174.
Campbell, J.Y. e Mankiw, N.S. (1987). Are Output Fluctuations Transitory? Quarterly
Journal of Economics, 102, 857-880.
Cochrane J. (1988). How Big is the Random Walk Component in GNP? Journal of Political
Economy, 96, 893-920.
Cochrane J. (1991). A Critique of the Application of Unit Root Tests, Journal of Economic
Dynamics and Control, 15, 275-284.
Dickey D.A. e Fuller W. A. (1981). Likelihood Ratio Statistics for Autoregressive Time
Series with a Unit Root, Econometrica, 49, 1057-1077.
Dickey, D.A., D.P. Hasza e W.A. Fuller (1984): Testing for Unit Roots in Seasonal Time
Series. Journal of the American Statistical Association, Vol. 79, No. 386, pp.
355-67.
96
Engle, R.F., C.W.J. Granger e J.J. Hallman (1989): Merging Short- and Long-Run Fo-
recasts. An Application of Seasonal Cointegration to Monthly Electricity Sales
Forecasting. Journal of Econometrics, Vol. 40, pp. 45-62.
Engle R.F. e Granger C.W.J. (1987). Co-integration and Error Correction: Representation,
Estimation and Testing, Econometrica, 55, 251-276.
Fuller W. A. (1976). Introduction to Statistical Time Series, New York, Wiley.
Hylleberg, S., R.F. Engle, C.W.J. Granger e B.S. Yoo (1990): Seasonal Integration and
Cointegration. Journal of Econometrics, Vol. 44, pp. 215-38.
Nelson C.R. e Kang H. (1984). Pitfalls in the Use of Time as an Explanatory Variable,
Journal of Business and Economic Statistics, 2, 73-82.
Nelson C.R. e Plosser C.I. (1982). Trends and Random Walks in Macroeconomic Time
Series: some Evidence and Implications, Journal of Monetary Economics, 10, 139-
162.
Pantula S.G. (1991). Asymptotic Distribution of the Unit Root Tests when the Process is
Nearly Stationary, Journal of Business and Economic Statistics, 9, 63-71.
Perron P. (1989). The Great Crash, the Oil Shock and the Unit Root Analysis, Econome-
trica, 57, 1361-1402.
Phillips P.C.B. e Perron P. (1988). Testing for a Unit Root in Time Series Regression,
Biometrika, 75, 335-346.
Proietti, T. (1995). The Beveridge-Nelson Decomposition. Properties and Extensions.
Journal of the Italian Statistical Society, 4, 1, 101-124.
Proietti, T. (1996). Persistence of Shocks on Seasonal Processes. Journal Applied Econo-
metrics, 11, 383-398.
Said S.E. e Dickey D.A. (1984). Testing for Unit Roots in Autoregressive Moving Average
Models of Unknown Order, Biometrika, 71, 599-607.
Sargan J.D. e Barghava A. (1983). Testing Residuals from Least Squares Regression for
Being Generated by the Gaussian Random Walk, Econometrica, 51, 153-174.
Schwert G.W. (1989). Test for Unit Roots: a Monte Carlo Investigation, Journal of
Business and Economic Statistics, 7, 147-159.
Stock J.H. (1987). Asymptotic Properties of Least Squares Estimators of Cointegrating
Vectors, Econometrica, 55, 1035-1056.
Opere generali:
97
Banerjee, A., Dolado J., Galbraith J.W. e Henry D.F. (1993). Co-Integration, Error-
Correction, and the Econometric Analysis of Non-Stationary Data., Oxford Univer-
sity Press.
Cappuccio, N. e Orsi R. (1991). Econometria, Il Mulino, Bologna.
Engle R.F. e Granger C.W.J. (a cura di) (1991). Long Run Economic Relationships -
Readings on Cointegration, Oxford University Press.
J.D. Hamilton (1994). Time Series Analysis, Princeton University Press, New Jersey.
Hatanaka M. (1996). Time-Series-Based Econometrics. Unit Roots and Cointegration,
Oxford University Press.
Johansen S. (1995). Likelihood-based inference in cointegrated vector autoregressive models,
Oxford University Press.
98
Capitolo 6
I Modelli Strutturali per lAnalisi delle Serie
Temporali
6.1 Lapproccio modellistico e la classe dei mo-
delli strutturali
La classe dei modelli strutturali racchiude un insieme, pi` u vasto di quanto si possa
ritenere a prima vista, di approcci il cui tratto comune va ritrovato nella speci-
cazione diretta del modello di scomposizione della serie temporale in termini di
componenti non osservabili, identicabili con trend, ciclo, stagionalità etc.; in ciò
esso raccoglie leredità dellanalisi classica. Nel seguito ci limiteremo a descrivere le
proposte pi` u importanti, dando particolare rilievo ai modelli strutturali di Harvey e
dei suoi collaboratori, che tra laltro forniscono un metodo di destagionalizzazione
competitivo con X-12-ARIMA e TRAMO-SEATS.
Lapproccio ha molti punti in comune con quello AMB (Arima Model Based) di
Maravall, che trova la sua implementazione nel software TRAMO-SEATS, corren-
temente utilizzato dallIstituto Nazionale di Statistica italiano ai ni della destagio-
nalizzazione delle serie temporali; in particolare, entrambi prendono le mosse dalla
rappresentazione a componenti latenti di tipo ARIMA, detta UCARIMA, in cui tut-
te le componenti e, per aggregazione, la serie stessa, y
t
, hanno una rappresentazione
ARIMA:
y
t
=
K
k=0
y
kt
=
K
k=0
k
(L)
k
(L)
k
(L)
kt
(6.1)
con
kt
NID(0,
2
k
).
Le assunzioni comuni ai due approcci sono le seguenti:
I polinomi
k
(L),
k
(L) e
k
(L) non presentano radici comuni; lo stesso vale
per
k
(L) e
h
(L),
k
(L) e
h
(L),
k
(L) e
h
(L), h, k = 0, . . . , K.
99
I polinomi
k
(L) sono stazionari e di ordine p
k
.
I polinomi
k
(L) sono invertibili (anche se non strettamente invertibili) e di
ordine q
k
.
Le radici dei polinomi
k
(L) giacciono tutte sul cerchio di raggio unitario.
le innovazioni
kt
sono mutualmente incorrelate.
Tali assunzioni implicano che y
t
ammette una rappresentazione lineare di tipo
ARIMA (forma ridotta o forma osservabile):
y
t
=
(L)
(L)(L)
t
con
t
NID(0,
2
). Linvertibilità della rappresentazione per y
t
è assicurata
dallassunzione che i polinomi MA
k
(L) non possiedono radici comuni.
Dal momento che esistono inniti modi di scomporre y
t
secondo la (6.1), si richie-
de lintroduzione di un insieme di restrizioni nella rappresentazione delle componen-
ti. Nel caso dei modelli strutturali si fa riferimento ad Hotta (1983), che ha fornito
una condizione necessaria e suciente per lidenticabilit` a della scomposizione: per
almeno K componenti si richiede che p
k
+ d
k
q
k
+ 1. Lapproccio strutturale,
pertanto, identica le componenti restringendo lordine dei polinomi MA.
Lapproccio AMB assegna il noise ad una sola componente e rende le altre non
invertibili (Maravall e Planas,1994), imponendo le restrizioni:
p
k
+ d
k
q
k
per almeno K componenti
per le medesime componenti il minimo della densità spettrale è zero (non
invertibilit` a a determinate frequenze).
Le componenti per le quali vale la seconda condizione sono dette canoniche; in sintesi,
si richiede che segnali quali il trend, la stagionalità ed il ciclo, non contengano rumore
separabile.
Per lapproccio AMB il punto di partenza è rappresentato dalla forma ridotta
del modello, che è vincolante per la caratterizzazione dinamica delle componen-
ti: si procede allidenticazione e stima del modello ARIMA per y
t
e si ottiene
una rappresentazione delle componenti consistente con la forma ridotta. Nellap-
proccio strutturale, invece, questultima non gioca alcun ruolo fondamentale nella
specicazione del modello di scomposizione, che è denito a priori dal ricercatore.
La linearità della rappresentazione (6.1) implica che le scomposizioni consentite
sono ladditiva e la log-additiva. Il modello default è costituito dal cosidetto Modello
Strutturale di Base (MSB)
y
t
=
t
+
t
+
t
, t = 1, . . . , T, (6.2)
100
dove
t
è il trend,
t
è la componente stagionale e
t
WN(0,
2
). Maravall (1987)
ha mostrato la prossimità col modello Airline, il quale ultimo costituisce lanello di
congiunzione ed il riferimento comune delle varie tecniche di destagionalizzazione.
La specicazione delle componenti è discussa nelle sezioni successive.
Il modello può essere esteso al ne di comprendere eetti di calendario, cicli
stocastici stazionari e un nucleo di regressione, che consente linclusione di variabili
esogene, valori ritardati della variabile indipendente e variabili di intervento.
6.2 Trend
Un trend lineare deterministico,
t
= + t, può essere rappresentato in maniera
ricorsiva come segue:
t
=
t1
+
t1
,
t
=
t1
, con
0
= e
0
= . Al ne di
ottenere un trend stocastico possiamo introdurre degli shock casuali nelle equazioni
che deniscono
t
e
t
. Questa è la genesi del modello lineare locale:
t
=
t1
+
t1
+
t
t
=
t1
+
t
(6.3)
dove
t
e
t
sono due WN incorrelati con media nulla e varianza rispettivamente
2
e
2
. Qualora
2
= 0 il modello è una passeggiata aleatoria con drift costante:
t
=
t1
+ +
t
; quando
2
= 0 si ha il cosidetto modello IRW (Integrated
Random Walk) privilegiato da Young (1990) e Kitagawa e Gersch (1984), in quanto
fornisce un trend caratterizzato da un grado di lisciamento pi` u elevato. Il ltro di
Hodrick & Prescott si ottiene nel caso particolare in cui
2
= 0 e
2
= q
2
, per
q = 1/1600. Inne, quando entrambe le varianze sono nulle,
t
è un processo lineare
deterministico. Nel modello con damped slope la seconda equazione è sostituita dal
processo AR(1) stazionario:
t
=
t1
+
t
, con (0, 1)
Supponiamo che la serie y
t
abbia una rappresentazione trend + irregolare:
y
t
=
t
+
t
,
t
WN(0,
2
)
dove
t
è un trend lineare locale (6.3) e si assume che
t
sia incorrelato con
t
e
t
.
E immediato vericare che
2
y
t
=
t
+
t1
+
2
t
e che pertanto E(
2
y
t
) = 0. La funzione di autocovarianza, (k) = E(
2
y
t
2
y
tk
), è
tale che (0) = 2
2
+
2
+6
2
, (1) =
2
4
2
, (2) =
2
e (k) = 0, k > 2, che
implica che y
t
ARIMA(0, 2, 2). La struttura del modello implica forti restrizioni
nello spazio parametrico dei parametri MA: in particolare, la FAC a ritardo 1 è
compresa tra -2/3 e 0 e quella a ritardo 2 tra 0 e 1/6. Inne, la funzione di previsione
realizza uno smorzamento esponenziale del tipo di quello tipico della procedura di
Holt & Winters.
101
6.3 La modellazione del ciclo economico
Un ciclo deterministico,
t
= A
1
cos
c
t + A
2
sin
c
t, dove
c
[0, ] rappresenta la
frequenza angolare e (A
2
1
+ A
2
2
)
1/2
lampiezza delloscillazione, può essere scritto in
forma ricorsiva:
_

t
t
_
=
_
cos
c
sin
c
sin
c
cos
c
_ _

t1
t1
_
con [
0
,
0
] = [A
1
, A
2
].
La versione stocastica del modello si ottiene introducendo un fattore di smor-
zamento, , che assume valori nellintervallo [0,1], e due disturbi stocastici mutual-
mente incorrelati e a varianza comune,
t
,
t
:
_

t
t
_
=
_
cos
c
sin
c
sin
c
cos
c
_ _

t1
t1
_
+
_

t
t
_
con
t
WN(0,
2
) e
t
WN(0,
2
).
La forma ridotta è un modello ARMA(2,1) con radici del polinomio AR com-
plesse, di modulo
1
e fase
c
:
(1 2 cos
c
L +
2
L
2
)
t
= (1 cos
c
L)
t
+ sin
c
L
t
,
ad eccezione del caso
c
0, , in cui il modello si riduce ad un AR(1) di parametro
rispettivamente positivo e negativo.
Una rappresentazione equivalente si ottiene facendo variare nel tempo i coe-
cienti A
1
e A
2
che deniscono lampiezza delloscillazione:
t
= [cos t, sin t]A
t
, A
t
= [A
1t
, A
2t
]
A
1,t
= A
1,t1
+
1t
A
2,t
= A
2,t1
+
2t
dove
1t
WN(0,
2
) e
2t
WN(0,
2
).
La possibilità di modellare il ciclo appare appetibile per le serie temporali econo-
miche; tuttavia è sperimentato che la destagionalizzazione è relativamente insensibile
allintroduzione del ciclo. In eetti, se il periodo del ciclo è sucientemente elevato
(ad es. è superiore a tre anni) il ltro di estrazione della componente stagionale ha
una funzione di trasferimento pressoche nulla in corrispondenza delle frequenze cicli-
che e lestrazione del ciclo interagisce essenzialmente con la componente tendenziale,
che risulta pi` u lisciata: generalmente quelle che vengono descritte come uttuazioni
cicliche vengono assorbite dalla componente
t
.
102
6.4 Componente stagionale
La componente stagionale, di periodo pari a s, ha due rappresentazioni fondamentali:
dummy e trigonometrica. La prima è tale che S(L)
t
=
t
, dove
t
WN(0,
2
)
e S(L) = 1 + L + + L
s1
, mentre nella seconda leetto stagionale risulta dalla
combinazione di s/2 cicli stocastici integrati del primo ordine deniti alle frequenze
stagionali
j
= 2j/s, j = 1, . . . , s/2:
t
=
s/2
j=1
it
(6.4)
dove
_

jt
jt
_
=
_
cos
j
sin
j
sin
j
cos
j
_ _

j,t1
j,t1
_
+
_

j,t
jt
_
, (6.5)
(1 +L)
s
2
,t
=
s
2
,t
(6.6)
jt
e
jt
costituiscono un set di WN mutualmente incorrelati con varianza comune
. Si mostra che S(L)

t
ha rappresentazione MA(s 2).
La formulazione trigonometrica è preferibile in termini di lisciamento, poiche
dà luogo ad una componente che evolve meno rapidamente della corrispondente
formulazione dummy. La restrizione di eguaglianza delle varianze degli shock è
di sovraidenticazione e può essere rimossa (Bruce e Jurke (1996), Bell (1992)).
Levidenza mostra che rimuovendo tale restrizione migliora in maniera signicativa
ladattamento del modello, soprattutto nel caso mensile, quando ad es. la frequenza
fondamentale ha un ruolo pi` u importante delle armoniche. Tuttavia, ciò richiede la
stima di s/2 parametri in luogo di uno, con corrispondente allungamento del tempo
computazionale e problemi di convergenza.
6.5 Il trattamento statistico del modello e la sti-
ma delle componenti
La rappresentazione del modello nello spazio degli stati apre la via al trattamento
statistico del modesimo. Ad essa si applica il ltro di Kalman (FK) che costitui-
sce lalgoritmo fondamentale per il calcolare della funzione di verosimiglianza me-
diante la tecnica di scomposizione in errori di previsione uniperiodali. La verosimi-
glianza è massimizzata numericamente ricorrendo allalgoritmo di Broyden-Fletcher-
Goldfarb-Shanno. Stime iniziali possono essere ottenute mediante lalgoritmo EM.
103
6.5.1 La rappresentazione nello spazio degli stati
Sia y
t
una serie temporale multivariata che contiene N elementi; essa è collegata ad
un vettore m1 di componenti latenti attraverso lequazione di misurazione:
y
t
= Z
t
t
+d
t
+
t
, t = 1, 2, . . . , T, (6.7)
dove Z
t
è una matrice N m, d
t
è un vettore N 1 di grandezze deterministiche
(esogene rispetto al sistema),
t
è il vettore di stato, e
t
NID(0, H
t
).
Il modello dinamico che genera gli stati è fornito dalla equazione di transizione:
t
= T
t
t1
+c
t
+R
t
t
, t = 1, 2, . . . , T, (6.8)
dove T
t
è la matrice di transizione (m m), c
t
è un vettore m 1 di grandezze
deterministiche,
t
NID(0, Q
t
), un vettore g 1 di disturbi stocastici, e R
t
è una
matrice mg.
La specicazione del modello è completata dallassunzione che il vettore di stato
iniziale abbia media a
0
= E(
0
) e matrice di covarianza P
0
= Cov(
0
) e che
0
,
t
e
t
siano mutualmente incorrelate per ogni t. Le matrici Z
t
, d
t
, H
t
, T
t
, c
t
, R
t
, Q
t
,
dette matrici del sistema, hanno natura non stocastica e per i modelli strutturali da
noi considerati sono invarianti nel tempo (Z
t
= Z, etc.).
Es. Modello ARIMA(p, d, q) Consideriamo il modello
(L)
d
y
t
= + (L)
t
,
t
WN(0,
2
)
e sia m = max(p, q+1). Denotando = [
1
,
2
, . . . ,
m
]
and = [1,
1
,
2
, . . . ,
m1
]
;
il modello ARMA(p, q) per
d
y
t
può essere rappresentato nello spazio degli stati
denendo un vettore m1 che segue la seguente equazione di transizione:
t
= T
t1
+c +R
t
,
dove R = ,
T =
_
I
m1
0
_
,
c = [, 0, . . . , 0]
, I
m1
è la matrice identit` a di ordine (m 1) e 0 è un vettore
(m1) 1 di 0.
Lequazione di misurazione seleziona il primo elemento di
t
: pertanto, denendo
Z = [1, 0
], si ha
d
y
t
= Z
t
.
Inne, a
0
= (I
m
T)
1
c e P
0
soddisfa lequazione P
0
= TP
0
T
+
2
R
t
R
t
.
104
6.5.2 Il ltro di Kalman
Il ltro di Kalman è un algoritmo ricorsivo che calcola il valore atteso del vettore
di stato al tempo t,
t
, condizionato allinformazione disponibile al tempo t 1,
Y
t1
= {y
1
, y
2
, . . . , y
t1
}, che denoteremo a
t|t1
= E(
t
|Y
t1
), assieme al suo
errore quadratico medio di stima, P
t|t1
= E[(
t
a
t|t1
)(
t
a
t|t1
)
|Y
t1
].
Tale valore atteso rappresenta lo stimatore ottimale di
t
sulla base di Y
t1
, nel
senso che minimizza lerrore quadratico medio di stima nella classe degli stimatori
lineari in y
t
. Sotto lipotesi di normalità, lo stimatore è ottimale tout court.
Il ltro, inoltre, aggiorna la stima di
t
quando linformazione corrente, y
t
, si
aggiunge al set informativo e consente il calcolo della funzione di verosimiglianza
mediante la scomposizione in errori di previsione.
Ai ni della derivazione del ltro supponiamo di trovarci al tempo t 1 e di
conoscere, sulla base del set informativo Y
t1
, lo stimatore ottimale di
t1
con-
dizionato a Y
t1
, che denotiamo a
t1
= E(
t1
|Y
t1
), e la matrice di covarianza
dellerrore di stima: P
t1
= E[(
t1
a
t1
)(
t1
a
t1
)
|Y
t1
].
Proponiamoci di prevedere un periodo in avanti il vettore di stato e di calcolare
la matrice di covarianza del corrispondente errore di previsione; dallequazione di
transizione:
a
t|t1
= T
t
a
t1
+c
t
P
t|t1
= T
t
P
t1
T
t
+R
t
Q
t
R
t
(6.9)
Le equazioni (6.9) sono denominate equazioni di predizione. Consideriamo ora il
problema di prevedere y
t
un periodo in avanti: dalla (6.7) si ottiene:
y
t|t1
= E(y
t
|Y
t1
) = Z
t
a
t|t1
+d
t
e, denotando con
t
lerrore di previsione,
t
= y
t
Z
t
a
t|t1
d
t
, si ha
E(
t
|Y
t1
) = 0, F
t
= Cov(
t
) = E(
t
t
|Y
t1
) = Z
t
P
t|t1
Z
t
+H
t
Supponiamo ora di trovarci al tempo t e di aver acquisito la pi` u recente osser-
vazione y
t
. E a questo punto possibile aggiornare la stima del vettore di stato
utilizzando il set informativo Y
t
. Ciò dà luogo alle equazioni di aggiornamento:
a
t
= a
t|t1
+P
t|t1
Z
t
F
1
t

t
P
t
= P
t|t1
P
t|t1
Z
t
F
1
t
Z
t
P
t|t1
(6.10)
Derivazione delle equazioni di aggiornamento Si parte dalla considerazione
della distribuzione congiunta y
t
e
t
condizionata a Y
t1
:
y
t
Y
t1
, N
__
Z
t
a
t|t1
+d
t
T
t
a
t1
+c
t
_
,
_
Z
t
P
t|t1
Z
t
+H
t
Z
t
P
t|t1
P
t|t1
Z
t
P
t|t1
__
105
Al ne di ottenere il risultato si sfrutta un noto teorema per il quale la distribuzione
di
t
|Y
t1
, condizionata a y
t
ha valore atteso:
E(
t
|Y
t
) = E(
t
|Y
t1
) + Cov(
t
, y
t
|Y
t1
)[Cov(y
t
|Y
t1
)]
1
(y
t
E(y
t
|Y
t1
))
che produce
a
t
= a
t|t1
+P
t|t1
Z
t
F
1
t

t
Inoltre,
Cov(
t
|Y
t
) = Cov(
t
|Y
t1
) Cov(
t
, y
t
|Y
t1
)[Cov(y
t
|Y
t1
)]
1
Cov(y
t
,
t
|Y
t1
)
che fornisce la seconda equazione di aggiornamento nella (6.10).
Il ltro di Kalman può anche essere scritto compattando la fase di aggiornamento
del ltro: dati i valori iniziali a
1|0
, P
1|0
,
t
= y
t
Z
t
a
t
d
t
, F
t
= Z
t
P
t|t1
Z
t
+H
t
K
t
= T
t+1
P
t|t1
Z
t
F
1
t
,
a
t+1|t
= T
t+1
a
t|t1
+K
t
t
+c
t
, P
t+1|t
= T
t+1
(P
t|t1
P
t|t1
Z
t
F
1
t
Z
t
P
t|t1
)T
t+1
+R
t+1
Q
t+1
R
t+1
6.5.3 Verosimiglianza e inizializzazione del ltro
Le matrici del sistema dipendono da un insieme di parametri . La funzione di
densità congiunta delle osservazioni,
L(y
1
, . . . , y
T
; ) =
T
t=1
f(y
t
|Y
t1
)
dove
f(y
t
|Y
t1
) = (2)
N/2
|F
t
|
1/2
exp
_
1
2
t
F
1
t

t
_
Pertanto
ln L =
1
2
_
NT ln 2 +
T
t=1
ln |F
t
| +
T
t=1
t
F
1
t

t
_
La massimizzazione rispetto ai parametri incogniti può essere eettuata mediante
un algoritmo numerico.
Tale espressione fornisce la verosimiglianza solo se a
0
e P
0
sono noti, come av-
viene nel caso in cui
t
è stazionario. Quando
t
contiene d elementi non stazionari,
si può mostrare che le prime d osservazioni possono essere utilizzate per ottenere i
momenti della distribuzione di
d
e pertanto, considerando dette osservazioni come
sse,
ln L =
1
2
_
_
N(T d) ln 2 +
T
t=d+1
ln |F
t
| +
T
t=d+1
t
F
1
t

t
_
_
106
Ai ni computazionali, una soluzione approssimata consiste nellinizializzare il ltro
mediante un diuse prior: supponendo senza perdita di generalità che i primi m
1
elementi siano non stazionari, si pone
a
0
=
_
0
m
1
a
20
_
,
_
I
m
1
0
0 P
m
2
_
dove è un numero sucientemente elevato. DeJong (1991) ha introdotto un ltro
di Kalman modicato che supera elegantemente il problema dellinizializzazione e
che consente di calcolare la funzione di verosimiglianza esatta.
6.5.4 Smoothing
Loperazione che prende il nome di smoothing mira ad ottenere stime delle com-
ponenti condizionate allintero set di osservazioni, Y
T
. Il tradizionale algoritmo di
smoothing ad intervallo sso (dal momento che opera su un set di dati sso) è quel-
lo di Anderson e Moore (1979), ed è fornito dalle seguenti formule retro-ricorsive,
inizializzate con a
T|T
= a
T
e P
T|T
= P
T
:
a
t|T
= a
t
+P
t
(a
t+1|T
T
t+1
a
t
)
P
t|T
= P
t
+P
t
(P
t+1|T
P
t+1|t
)P
t
dove a
t|T
= E(
t
|Y
T
), P
t|T
= E[(
t
a
t|T
)(
t
a
t|T
)
|Y
T
] e P
t
= P
t
T
t+1
P
1
t+1|t
.
Si noti che lalgoritmo deve essere preceduto da unapplicazione del ltro di Kal-
man, passo nel quale le stime aggiornate e le matrici P
t+1|t
devono essere tenute
in memoria. Inoltre, si richiede linversione di queste ultime. Ciò è ineciente dal
punto di vista computazionale e in letteratura sono disponibili versioni pi` u ecienti
per le quali rimandiamo a DeJong (1989) e Koopman (1993).
Ai ni della destagionalizzazione, la serie aggiustata è ottenuta per sottrazione
dalla serie delle stime smoothed della componente stagionale:
a
t
= y
t

t|T
.
6.5.5 Diagnostica
Le innovazioni (standardizzate) del FK sono utilizzate in sede di verica del mo-
dello e per la valutazione della bont` a delladattamento. A tal ne vengono impie-
gati gli stessi strumenti diagnostici che sono utilizzati dalla modellistica ARIMA, il
correlogramma, il periodogramma, il test di Ljung-Box, etc.
107
6.6 Componenti di calendario
Dagum & Quenneville (1995) e Durbin & Quenneville (1997) considerano la seguente
estensione del modello strutturale di base:
y
t
=
t
+
t
+ TD
t
+
t
, (6.11)
dove
TD
t
=
6
i=1
it
(D
it
D
7t
)
D
it
è il numero dei giorni di tipo i nel mese e gli eetti sono variabili nel tempo
secondo un rw:
it
=
i,t1
+
it
,
t
WN(0,
2
)
tale che
it
, i = 1, . . . , 6 sono mutualmente incorrelati. Poiche può apparire eccessivo
che gli eetti abbiano una variazione di periodo in periodo, si può semplicare il
modello ponendo:
it
=
i,ts
+
t
. Levidenza empirica mostra che la formulazione
deterministica è generalmente appropriata.
6.7 Altre specicazioni della componente stagio-
nale
La destagionalizzazione cambia al variare della specicazione della componente sta-
gionale. Il modello di Harrison e Stevens (1971) ha la rappresentazione
t
= x
t
,
dove x
t
è un vettore s 1 di selezione con 1 nella posizione corrispondente alla
j-esima stagione e 0 altrove, mentre
t
è un vettore s 1 che segue la seguente
equazione di transizione:
t
=
t1
+
t
, con
t
WN
_
0,
2
[I
s
(i
s
i
s
)
1
i
s
i
s
]
_
La forma ridotta è tale che S(L)
t
ha una rappresentazione MA(s 2). La densità
spettrale è monotonicamente decrescente da 0 a e, a dierenza della specicazione
trigonometrica non presenta un massimo relativo alla frequenza . Conseguente-
mente, si ottiene una componente stagionale pi` u lisciata (Proietti, 1997).
Den Butter e Fase (1991) propongono la seguente specicazione:
t
=
ts
1
s
S(L)
t1
+
t
che può essere riscritta
(1
s
)S(L)
t
=
t
, con
s
=
s 1
s
108
Le proprietà di lisciamento sono abbastanza simili a quelle del modello di Harrison
e Stevens, anche se S(L)
t
ha rappresentazione AR(1).
Il vincolo imposto dallidenticabilità del modello esclude la possibilità di rap-
presentare la componente stagionale con il modello
t
=
ts
+
t
o con modelli la
cui parte AR contiene il fattore
s
(Engle, 1976). Altre estensioni per modellare
leteroschedasticità stagionale e per trend stagionali sono disponibili.
109

EcAppl Dispense

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

EcAppl Dispense

Diunggah oleh

Hak Cipta:

Format Tersedia

Econometria Applicata

, mentre il modello trend quadratico pi` u irrego-

. Il nostro obiettivo `e stimare i

b) richiedono che la matrice hessiana sia denita positiva: ci`o si verica

b, con elemento generico y

b, con elemento generico e

b) si ottengono le seguenti espressioni equi-

b, coincide con la media dei valori

il vettore contenente il set informativo di riferimento, si dimo-

si ottiene sostituendo lultima colonna di P con .

| > 1, che possiede gli stessi momenti. Si

, fornisce stime consistenti dei parametri autoregressivi di un processo

modelli di ordine inferiore e si sceglie quello che

) che si ottiene sostituendo e

() `e la parte reale di W(e

ed `e nullo per = (2j)/(2m + 1), j = 1, . . . , 2m. Se applicata ad un processo

i = 1. Un criterio alternativo `e basato sulla

I, che rappresenta una misura,

nellipotesi che il processo generatore

= 1, = 0. Pertanto, il solo fatto che il modello stimato

= 1), che indichiamo con

, non `e normale, sebbene sia ancora simmetrica. Un

tende asintoticamente ad una normale standard, per cui la zona di accettazione

cessa di dipendere da , ma dipende da , e se = 0 torna ad

). Allora, tenuto fermo che = 1, se risulta signicativo il

= (0.8165 1)/0.0699 = 2.62 e

= 2.411. Pertanto si accetta H

= 2.73 `e molto prossimo al valore critico al 10%, suggerendo

(L) non risultino signicativi; per questi ultimi vale

= 1.80, portando allaccettazione di H

= 0 e = 0. Nel caso di accettazione

= 3.01, portando allaccettazione dellipotesi nulla H

(L) = [C(L) C(1)]/ =

(L), (L) = (1)L+

(L), sono polinomi di ordine r 1

CI(d, b), se:

ottenuto dalla (13), il secondo [ c 1] ottenuto dalla regressione inversa x

. Si mostra che S(L)

Anda mungkin juga menyukai