Pen Ting

1
PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG

MISSING OBSERVATIONS DAN LONG MEMORY
Studi Kasus : Polusi Udara di Kota Surabaya

Nurbaety Basmar
1
, Irhamah
2

1
Mahasiswa S2 Jurusan Statistika FMIPA ITS (1308201018)
2
Dosen Jurusan Statistika FMIPA ITS
Email:
1
ety.stat04@gmail.com,
2
irhamah@statistika.its.ac.id

ABSTRAK
Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya
berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara
lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive
Integrated Moving Avarage (ARIMA). Ada beberapa data yang tidak stasioner tetapi plot ACFnya
tidak turun secara eksponensial melainkan secara hiperbolik. Data seperti inilah yang
dikategorikan sebagai data deret berkala jangka panjang yang dapat dimodelkan menggunakan
ARFIMA (Autoregressive Fractionally Integrated Moving Avarage). Tujuan dari penelitian ini
adalah untuk membandingkan beberapa metode estimasi data hilang dan memodelkan residual
regresi yang diterapkan pada data polusi udara di Kota Surabaya yang mengandung beberapa data
hilang. Hasil dari penelitian ini menunjukkan model ARFIMA lebih baik dibandingkan dengan
model ARIMA dalam memodelkan residual regresi. Diperoleh model terbaik yaitu model
ARFIMA(1,d,1) dengan outlier t=804.
Kata Kunci : ARIMA, ARFIMA, long memory, missing observations
1. Pendahuluan
Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya
berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara
lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive
Integrated Moving Avarage (ARIMA). ARIMA sangat efektif digunakan untuk memodelkan data
time series yang tidak stasioner, yang ditunjukkan oleh plot Autocorrelation Function (ACF) yang
turun secara eksponensial atau sinusoidal. Ada beberapa data yang tidak stasioner tetapi plot
ACFnya tidak turun secara eksponensial melainkan turun secara hiperbolik. Data seperti inilah
yang dikategorikan sebagai data deret berkala jangka panjang (long memory).
Untuk memodelkan deret berkala jangka panjang, Hosking (1981) telah memperkenalkan
model ARFIMA (Autoregressive Fractionally Integrated Moving Avarage) yang dapat mengatasi
kelemahan model ARIMA, dimana ARIMA hanya dapat menjelaskan deret berkala jangka pendek
(short memory) sedangkan ARFIMA dapat menjelaskan baik short memory maupun long memory.
Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode
pendugaan parameter, maupun aplikasi ARFIMA pada data riil. Penelitian tentang estimasi
parameter model ARFIMA dengan Exact Maximum Likelihood Estimation dan kriteria pemilihan
model dilakukan oleh Lardic, S. dan Mignon, V. (2003). Doornik, J. A. dan Ooms, M. (2001)
menganalisa aspek komputasi dari Maximum Likelihood Estimation pada model ARFIMA.
Hauser (1998) melakukan studi simulasi Monte Carlo dengan Maximum Likelihood Estimators
pada model ARMA dan ARFIMA.
Analisis regresi merupakan salah satu analisis yang digunakan untuk mengetahui estimasi
pola hubungan antara variabel prediktor (X) dan variabel respon (). Salah satu hal penting dalam
analisis regresi adalah pemeriksaan residual, hal ini terkait dengan kelayakan model regresi.
Asumsi-asumsi residual yang harus dipenuhi dalam analisis regresi adalah IIDN yaitu residual
identik, independen dan berdistribusi Normal (u, o
2
).
Sebuah deret waktu yang diamati seringkali mengandung beberapa data hilang (missing
observations). Banyak metode yang bisa digunakan untuk mengatasi masalah missing
2
observations, pada penelitian ini akan dibandingkan metode mean (rata-rata), minimum (nilai
paling kecil) dan maximum (nilai paling besar).
Pada penelitian ini, akan memodelkan residual dari model regresi yang memiliki pola
jangka panjang dengan menggunakan pendekatan ARFIMA. Data yang digunakan adalah data
polusi udara di Kota Surabaya. Data ini mengandung missing observations (data hilang). Dalam
penganalisaannya, digunakan teknik single imputation untuk mengatasi masalah data hilang
tersebut.
2. Analisis Regresi
Analisis regresi merupakan analisis untuk mendapatkan model dan hubungan antara
variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Hubungan antara respon dan
prediktor yang mempengaruhinya dapat dituliskan dalam bentuk persamaan regresi (2.1), (Draper
dan Smith 1992). Dalam persamaan regresi, y dinotasikan sebagai variabel respon dan y sebagai
taksirannya, sedangkan variabel prediktor adalah X. Parameter regresi disimbolkan dan
taksirannya adalah [
`
. Residual dari persamaan regresi dinotasikan yang diasumsikan IIDN (0,
2
)
y
= [
0
+ [
]
X
]
+
k
]=1
e
(1)
Taksiran persamaan (2.1) adalah
y
= [
`
0
+ [
`
]
X
]
k
]=1
(2)
dengan i = 1,2 ..n dan j = 1,2,.k, dengan n adalah banyaknya pengamatan dan (k+1) adalah
banyaknya parameter. Asumsi residual dalam analisis regresi meliputi uji independen, identik dan
berdistribusi normal (u, o
2
).

3. Model Autoregressive Integrated Moving Average (ARIMA)
Model ARIMA pertama kali diperkenalkan oleh Box-Jenkins (1970). Bentuk umum
ARIMA (p,d,q) adalah suatu model campuran antara autoregressive (AR) orde p dengan moving
average (MA) orde q dengan difference d sebagai berikut.
p
(B)(1 - B)
d
Z
t
= 0
0
+0
q
(B) (3)
dengan,
0
q
(B) = (1 -0
1
B -0
2
B
2
-- 0
q
B
q
) adalah koefisien komponen MA dengan orde q
p
(B) = (1 -
1
B -
2
B
2
--
p
B
p
) adalah koefisien komponen AR dengan orde p
Tahap-tahap pembentukan model ARIMA (p,d,q) adalah identifikasi model, Uji signifikansi
model ARIMA, dan cek diagnosa (Wei, 1990). Identifikasian model ARIMA dapat dilakukan
dengan melihat plot time series, plot ACF (Autocorrelation Function), dan plot PACF (Partial
Autocorrelation Function). Secara teoritis, bentuk-bentuk plot ACF dan PACF dari model ARIMA
adalah seperti pada Tabel 2.1 sebagai berikut (Bowerman dan OConnel, 1993).
Tabel 2.1 Bentuk ACF dan PACF untuk model ARIMA
Model ACF PACF
AR(p): autoregressive orde p Dies down Cuts off after lag p
MA(q): moving average orde q Cuts off after lag q Dies down
AR(p) or MA(q) Cuts off after lag q Cuts off after lag p
ARMA(p,q): mixed autoregressive-moving
average orde (p,q)
Dies down Dies down
No order AR or MA (White Noise or
Random process)
No spike No spike

3
Pada permodelan data dengan menggunakan Time Series, terdapat benyak kemungkinan
model yang menghasilkan model yang sesuai dengan kriteria semua parameternya signifikan,
residual memenuhi asumsi white noise serta berdistribusi normal. Sehingga diperlukan kriteria
untuk menentukan model terbaik dari beberapa model yang memenuhi syarat tersebut. Terdapat 2
keriteria antara lain kriteria In-sample dan Out-sample. Kriteria In-sample adalah kriteria yang
biasa digunakan untuk memilih model berdasarkan residual, antara lain AIC (Akaikes Informa-
tion Criterion.

4. Deret Berkala Jangka Panjang
Deret berkala jangka panjang ditandai oleh fungsi autokorelasi yang turun lambat secara
hiperbolik. Sebaliknya, ACF dari proses jangka pendek turun secara eksponensial (Iglesias,
Jorquera dan Parma, 2005).
Fungsi autokovarians sebuah proses ARFIMA (p, J, q) dapat ditemukan dalam Sowell
(1992). Untuk proses fraktional noise, yaitu ARFIMA (u, J, u), fungsi autokovarians dapat ditulis
sebagai berikut:
y
k
= o
2
:(1-2d):(k+d)
:(1-d):(k-d+1):(d)
(4)
Suatu proses stasioner dengan fungsi autokorelasi p(k) dikatakan sebagai proses memori jangka
panjang jika |p(k)|
k=0
tidak konvergen (Hosking, 1981).

5. Model Autoregressive Fractionally Integrated Moving Average (ARFIMA)
Model ARIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter
autoregressive, q adalah parameter moving average dan d adalah difference. Demikian juga pada
model ARFIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter
autoregressive, q adalah parameter moving average, dan d mempunyai nilai bilangan riil antara 0
dan 1. Model ARFIMA merupakan pengembangan dari model ARIMA dimana parameter d
bernilai bilangan riil.
Secara umum model ARFIMA dapat ditulis sebagai,
(B)v
d
(Z
t
-
t
) = (B)
t
, t = 1,2, , T (5)
Filter pembeda (v
d
) dalam ARFIMA menggambarkan adanya ketergantungan jangka panjang
dalam deret. Filter ini diekspansikan sebagai deret binomial.
v
d
= (1 -B)
d
= _
J
]
]
]=0
(-1)
]
B
]
(6)
dengan, _
J
]
] =
d!
]!(d-])!
=
:(d+1)
:(]+1):(d-]+1)
dan
(x) merupakan fungsi Gamma
sehingga,
v
d
= [
J
u
(-1)
0
B
0
+[
J
1
(-1)
1
B
1
+[
J
2
(-1)
2
B
2
+[
J
S
(-1)
3
B
3
+
=
d!
0!(d-0)!
B
0
-
d!
1!(d-1)!
B
1
+
d!
2!(d-2)!
B
2
-
d!
3!(d-3)!
B
3
+
= 1 -JB +
1
2
(J -1)JB
2
-
1
2
(J -2)(J -1)JB
3
+
= 1 -JB -
1
2
J(1 -J)B
2
-
1
6
J(1 -J)(2 -J)B
3
- (7)
(Hosking, 1981)

6. Single Imputation
Seringkali, nilai-nilai yang hilang diabaikan karena alasan kenyamanan, yang mungkin
dapat diterima ketika bekerja dengan dataset besar dan jumlah data hilang yang relatif kecil. Selain
itu, ketika berhadapan dengan dataset relatif kecil menjadi praktis hanya mengabaikan nilai-nilai
yang hilang untuk menghapus pengamatan tidak lengkap dari dataset. Dalam situasi ini, metode
imputasi lebih handal, walaupun ada metode yang berbeda untuk menangani data yang hilang. Di
4
samping itu, metode imputasi juga dapat menangani masalah data hilang pada dataset yang besar
tanpa mengurangi keakuratannya. Salah satu pendekatan umum adalah single imputation, yaitu
dengan mengganti nilai yang hilang dengan nilai yang pasti mengikuti prosedur yang ditetapkan.

7. Tinjauan non statistik tentang polusi udara
Pada tahun-tahun terakhir ini pertumbuhan Kota Surabaya mengalami kemajuan yang
sangat pesat baik dari segi aspek fisik maupun non fisik, hal ini disebabkan oleh fungsi kota yang
multi dimensi sebagai akibat kemudahan-kemudahan dan kondisi yang kondusif dalam
pertumbuhan kota. Pertumbuhan sektor industri yang cukup fantastis membawa implikasi sangat
besar ke semua sektor dan konsekuensinya akan menimbulkan dampak positif dan negatif terhadap
lingkungan hidup di Kota Surabaya. Industri-industri yang ada banyak menghasilkan polusi udara,
dan juga daya tarik kegiatannya terhadap kebutuhan transportasi dan orang cukup besar.
Faktor-faktor yang menyebabkan pencemaran udara merupakan faktor yang secara tidak
langsung menjadi sumber terjadinya pencemaran udara. Banyak faktor yang dapat menyebabkan
pencemaran udara secara tidak langsung, namun faktor-faktor yang memilki pengaruh sangat
dominan antara lain:
1. Tingginya kuantitas pergerakan kendaraan, dari, ke, dan di dalam Kota Surabaya.
2. Penyebaran fasilitas perkotaan yang tidak merata dan berkurangnya Ruang Terbuka Hijau.
3. Konsumsi energi yang lebih tinggi dan ketergantungan sektor transportasi terhadap minyak
bumi.
4. Masalah komitmen perilaku masyarakat/aparat/industri untuk melakukan tindak nyata ramah
lingkungan.

8. Metodologi Penelitian
Data yang digunakan adalah data polusi udara per hari di Kota Surabaya pada bulan
Januari 2006 Desember 2008. Dari data yang digunakan dapat disusun beberapa variabel yang
akan dijadikan obyek penelitian, yaitu polusi udara Kota Surabaya terdiri dari:
i. Particular Matter (PM) sebagai varibael dependent (Y)
ii. Karbon Monoksida (CO) dan Ozon (O
3
) sebagai variabel independent (X)
Data dari ketiga variabel di atas, diambil berdasarkan rata-rata harian
polusi udara Kota Surabaya, pada bulan Januari 2006 Desember 2008. Data dibagi
menjadi 2 (dua), yaitu data in sample dan out sample. Yang dipakai sebagai data in
sample berjumlah 1080 pengamatan dimulai dari pengamatan pertama sampai
pengamatan ke-1080, dan data out sample berjumlah 16. Secara umum, tahapan pada
penelitian ini adalah sebagai berikut:
1. Statistika deskriptif
2. Membandingkan beberapa metode estimasi data hilang pada data polusi udara di Kota
Surabaya.
3. Meregresikan variabel dependent (Y) dengan variabel-variabel independent (X)
4. Uji Signifikansi parameter
5. Uji asumsi residual, meliputi uji identik, independen dan berdistribusi normal (u, o
2
).
6. Pemodelan residual regresi dengan ARIMA
Langkah-langkah ARIMA untuk residual regresi adalah sebagai berikut:
i. Identifikasi Model
ii. Penaksiran Parameter
iii. Uji Diagnostik
iv. Pemilihan Model Terbaik
7. Pemodelan residual regresi dengan ARFIMA
Langkah-langkah pemodelan residual regresi dengan ARFIMA hampir sama
dengan langkah-langkah pemodelan residual dengan ARIMA. Perbedaannya hanya pada
tahap identifikasi, dimana untuk pemodalan ARFIMA terdapat pengujian long memory.

9. Statistika deskriptif
Hasil statistika deskriptif dapat dilihat pada Tabel 2

5
Tabel 2 Statistik Deskriptif Data Polusi Udara

Variabel Total
Total
Non
Mising
Total
Mising
Mean
Standar
deviasi
Minimum Maksimum
PM10 1096 940 156 54,903 21,154 11,48 311,96
CO 1096 1053 43 1,2347 0,5246 0,1 4,46
O3 1096 1071 25 64,5 38,42 17,77 723,19

Berdasarkan hasil di atas dapat diketahui bahwa jumlah data sebanyak 1096 yang merupakan data
harian polusi udara mulai dari Januari 2006 sampai Desember 2008, dengan variabel respon PM10
dan variabel bebas CO dan O
3
. Varibel respon PM10 memiliki missing observations sebanyak
156, variabel CO sebanyak 43 pengamatan dan variabel O3 sebanyak 25 pengamatan.

10. Missing observations
Penelitian ini menggunakan data polusi udara di Kota Surabaya pada bulan Januari 2006
sampai dengan bulan Desember 2008. Pada data tersebut terdapat beberapa data yang hilang
(missing observations). Untuk menangani masalah tersebut, digunakan metode imputasi yang
terdapat pada paket statistika SAS. Ada beberapa metode yang digunakan yaitu dengan
menggunakan nilai mean (rata-rata), nilai minimum (nilai paling kecil), dan nilai maksimum (nilai
paling besar) dari data tersebut untuk setiap variabel. Analisis yang digunakan yaitu, dengan
mengganti nilai-nilai yang hilang dengan rata-rata dari data yang ada pada tiap-tiap variabel.
Analisis ini juga dilakukan pada metode minimum dan maksimum. Kemudian, data lengkap yang
telah diperoleh diregresikan antara variabel dependen dengan variabel-variabel bebasnya. Ketiga
metode ini akan dibandingkan dengan menggunakan nilai MSE yang terkecil. Hasil dari output
MINITAB dapat dilihat pada Tabel 3 berikut:

Tabel 3 Perbandingan Metode imputasi
Metode MSE
MEAN 374.7
MIN 595
MAX 8098

Dari Tabel 3 diperoleh nilai MSE terkecil yaitu dengan menggunakan metode MEAN. Sehingga
untuk tahap selanjutnya, data yang digunakan yaitu data yang sudah lengkap, dimana data yang
hilang diganti dengan rata-rata dari data polusi udara pada tiap-tiap variabel.

11. Pemodelan Data Polusi Udara
Pemodelan Data Polusi Udara diperoleh dengan cara meregresikan variabel dependen
(Particular Matter 10) dengan semua variabel bebas (CO dan O
3
). Dari hasil model lengkap
diperoleh persamaan sebagai berikut:
PH
t
= [
0
+[
1
C0
t
+[
2
0
3
t
+e
t
(8)
dimana t= 1, 2, .,1096.

Pengujian Asumsi Residual
Model regresi dikatakan baik, jika memenuhi asumsi residual. Asumsi residual dalam analisis
regresi meliputi uji identik, independen dan berdistribusi normal (u, o
2
).
a. Uji Asumsi Residual Independen
Sehubungan dengan data penelitian ini, maka dengan bantuan MINITAB 14 diperoleh nilai
Durbin-Watson sebesar 1.0663, dengan nilai d
L
=1,8988772 dan nilai d
U
=1,9025316. Karena
nilai d
W
< d
L
, maka tolak H
0
, sehingga dapat disimpulkan bahwa residual terdapat autokorelasi
atau asumsi independen tidak terpenuhi.

6
b. Uji Asumsi Identik

Fit t ed Value
S
t
a
n
d
a
r
d
i
z
e
d

R
e
s
i
d
u
a
l
180 160 140 120 100 80 60 40 20 0
10.0
7.5
5.0
2.5
0.0
-2.5
-5.0
Resi dual s Ver sus t he Fi t t ed Val ues
(response is PM10)

Gambar 1 Residual Versus Fit
Pada Gambar 1, terlihat bahwa pola residual versus fit tidak membentuk pola corong,
sehingga dapat dikatakan bahwa varians residual homogen (residual identik). Dan dapat dikatakan
bahwa asumsi identik telah terpenuhi.

c. Uji Asumsi Residual Berdistribusi Normal
Selanjutnya, asumsi lain yang perlu dipenuhi adalah residual berdistribusi normal. Uji
kenormalan residual ini dapat dilakukan dengan uji Anderson Darling. Berikut merupakan
Probability Plots dari residual dengan menggunakan Uji Anderson Darling.. Pada Gambar 2,
diperoleh p_value <0,005, yang berarti bahwa residual tidak berdistribusi normal pada tingkat
kepercayaan 5%.. Dari gambar 2 juga dapat dilihat bahwa residual mendekati garis lurus, namun
karena ada outlier sehingga menyebabkan distribusi residual menjadi tidak normal.

RESI 2
P
e
r
c
e
n
t
300 200 100 0 - 100
99. 99
99
95
80
50
20
5
1
0. 01
Mean
< 0. 005
1. 789388E- 13
StDev 19.34
N 1096
AD 10. 084
P- Value
Pr obabi l i t y Pl ot of RESI 2
Nor mal

Gambar 2 Probability Plot residual Anderson Darling
Dari beberapa pengujian asumsi di atas, hanya asumsi identik yang terpenuhi, sehingga residual
dari model regresi tersebut perlu dianalisis lebih lanjut. Plot ACF menunjukkan bahwa masih
terdapat lag-lag yang signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual pada
periode pengamatan saat ini (t) dengan residual pada pengamatan sebelumnya (t-k). Selanjutnya
residual dari model regresi dimodelkan dengan pemodelan timeseries. Pada penelitian kali ini akan
dilakukan pemodelan pada residual dengan pendekatan ARIMA dan ARFIMA. Model yang
terbaik adalah model yang menghasilkan kesalahan yang lebih kecil.
7
12 Pemodelan ARIMA
Tahap ini meliputi identifikasi model, penaksiran parameter, uji diagnostik, pemilihan
model terbaik dan peramalan.
Identifikasi Model
Pertama-tama, data dibagi dua menjadi data in sample dan out sample. Pada umumnya,
tahapan identifikasi yang pertama kali dilakukan dalam pemodelan time series adalah melihat plot
time series in sample seperti pada gambar 2. ARIMA mengasumsikan kondisi stasioner, sehingga
perlu diuji stasioner dalam varian dan mean. Dilihat dari TS plot dan ACF Plot terlihat bahwa data
telah stasioner dalam varian dan mean. Untuk menguji kestasioneran dalam mean digunakan uji
Dickey Fuller dengan
Z
t
= (p - 1)Z
t-1
+o
t

= oZ
t-1
+ o
t

Didapatkan hasil sebagai berikut
Tabel 4 Uji Dickey Fuller
Prediktor Koefisien SE Koefisien T P_value
t-1
-0,54331 0,02708 -20,06 0,000

Sehingga data telah stasioner, sebab o signifikan dengan alpha 0.05. Karena residual model regresi
sudah stasioner dalam mean dan varian, maka dapat dilakukan penentuan orde dari model AR atau
MA. Berikut adalah plot ACF dan PACF dari residual regresi.
Gambar 3 (a) dan Gambar 3 (b) dapat ditentukan dugaan orde untuk model ARIMA dari
residual model regresi. Dari bentuk plot ACF dilihat bahwa plotnya cenderung dies down dan dari
plot PACF dapat dilihat bahwa lag-lag yang signifikan yaitu pada lag 1,2,3,5,8,9,11,12. Sehingga,
dapat dilakukan pendugaan model yaitu ARIMA ([1,2,3,5,8,9,11,12],0,0).

Setelah diperoleh model dugaan, selanjutnya dilakukan pengujian signifikansi parameter
model. Taksiran parameter dari model serta pengujian signifikansi parameter adalah ARIMA
([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan pengujian signifikansi parameter,
terdapat parameter yang tidak signifikan. Parameter yang tidak signifikan dikeluarkan dari model
satu persatu dimulai dari yang memiliki nilai p_value terbesar. Sehingga diperoleh model yang
semua parameternya signifikan yaitu model ARIMA ([1,2,5,12],0,0). Estimasi dan pengujian

Dari Tabel 5 dapat dilihat bahwa semua parameter untuk model ARIMA ([1,2,5,12],0,0)
signifikan pada o = S%. Karena model sudah signifikan pada tingkat kesalahan 5%, maka dapat
dilanjutkan pada pengujian berikutnya.
Tabel 5. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0)
Parameter Estimasi T_hit P_value
1
0,37403 12,44 <0,001
2
0,09073 2,98 0,0029
3
0,11098 3,99 <0,001
4
0,11651 3,84 0,001
Lag
A
u
t
o
c
o
r
r
e
l
a
t
i
o
n
75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
Aut ocor r el at i on Funct i on f or I nsampl e
(with 5% significance limits for the autocorrelations)
Lag
P
a
r
t
i
a
l

A
u
t
o
c
o
r
r
e
l
a
t
i
o
n
75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 1
1.0
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
-0.8
-1.0
Par t i al Aut ocor r el at i on Funct i on f or I nsampl e
(with 5% significance limits for the partial autocorrelations)
(a) (b)
Gambar 3 Plot ACF dan PACF residual Regresi
8

Pada cek disgnosa dilakukan pengujian terhadap residual dari model, yaitu uji white noise
yaitu residual bersifat identik dan independen serta pengujian terhadap asumsi kenormalan
residual. Pengujian yang digunakan untuk uji asumsi independensi adalah Ljung Box. Nilai
statistic uji Chi-Square dengan o = S% untuk pengujian residual ditampilkan pada Tabel 6 berikut
ini.
Tabel 6 Nilai Statistik Uji Chi-Square Residual Model ARIMA ([1,2,5,12],0,0)
Lag _
ht
2
p_value Kesimpulan
6 4,76 0,0925 Gagal Tolak Ho

Dari Tabel 4.9 dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0) memenuhi asumsi white
noise karena semua p_value lebih besar dari o yaitu 5%. Karena model telah memenuhi asumsi
white noise, maka dapat dilanjutkan ke pengujian yang berikutnya.
Setelah diketahui bahwa residual memenuhi asumsi white noise, selanjutnya akan diuji
apakah residual dari model berdistribusi normal atau tidak. Pengujiannya adalah dengan
menggunakan uji Kolmogorov-Smirnov. Hasil perhitungan Kolmogorov-Smirnov dengan tingkat
signifikansi kesalahan 5% untuk pengujian kenormalan residual dapat dilihat pada Tabel 7

Tabel 7 Pengujian Kenormalan Residual untuk Model
Model Statistik Uji D p-value
ARIMA ([1,2,5,12],0,0) 0,09659 <0,0100

Tabel 7 menunjukkan bahwa nilai p_value untuk uji Kolmogorov-Smirnov (<0,0100) lebih
kecil dari o yaitu 5%, maka dapat disimpulkan bahwa residual untuk model ARIMA
([1,2,5,12],0,0) tidak berdistribusi normal pada tingkat signifikansi kesalahan 5%. Sehingga model
terbaik untuk residual regresi adalah model ARIMA ([1,2,5,12],0,0) dengan persamaan sebagai
berikut:
Z
t
= u.S74uS Z
t-1
-u.u9u7S Z
t-2
- u.11u98 Z
t-5
- u.116S1 Z
t-12
+o
t
(9)
dengan AIC sebesar 9159,503 dan MSE pada criteria out sample sebesar 537.5336.
Sebagaimana pada pemodelan ARIMA (0,1,[1,2,4]), diperoleh hasil bahwa residual model
ARIMA ([1,2,5,12],0,0) tidak memenuhi asumsi normal karena terdapat outlier. Untuk lebih
jelasnya, dapat dilihat pada Gambar 4.
I ndex
D
a
t
a
990 880 770 660 550 440 330 220 110 1
250
200
150
100
50
0
- 50
Var iable
Ak tual
Ramalan Outsample
Ti me Ser i es Pl ot of Akt ual , Ramal an Out sampl e

Gambar 4.10 Plot Aktual dan Ramalan pada pemodelan ARIMA ([1,2,5,12],0,0).
9
13. Pemodelan ARFIMA

Tahap-tahap dalam pemodelan ARFIMA sama dengan tahap pemodelan pada ARIMA.
Identifikasi Model
Tahapan identifikasi pada ARFIMA hamper sama dengan tahapan identifikasi pada
ARIMA. Yaitu pertama-tama melihat plot time series.
Selanjutnya, dilakukan identifikasi long memory pada data untuk mengetahui ada tidaknya
ketergantungan jangka panjang. Ketergantungan jangka panjang dapat dilihat dari plot ACF
residual regresi. Long memory dapat dilihat dari plot ACF yang autokorelasinya turun lambat
secara hiperbolik. Hal ini tidak terlihat pada Gambar 4.8(a). Selain dengan plot ACF, cara untuk
melihat ketergantungan jangka panjang dapat juga melalui periodogram. Ternyata bentuk
periodogram yang meningkat menuju nilai yang sangat besar tetapi berhingga untuk frekuensi
yang semakin mendekati nol (Gambar 4.8 (b)) menunjukkan adanya ketergantungan jangka
panjang.
Berdasarkan identifikasi plot periodogram, residual regresi memiliki ketergantungan
jangka panjang, sehingga dapat dimodelkan dengan menggunakan ARFIMA.

I ndex
p
e
r
io
d
o
g
r
a
m
495 440 385 330 275 220 165 110 55 1
2000000
1500000
1000000
500000
0
Ti me Ser i es Pl ot of per i odogr am

Gambar 4.11 Plot Periodogram Residual Regresi

Estimasi Parameter Model
Langkah pertama yang dilakukan untuk mengestimasi parameter model adalah estimasi
nilai d. Pada penelitian ini ditentukan terlebih dahulu nilai parameter differencing d pada data
keseluruhan (data in sample), sehingga dalam estimasi parameter dari model-model awal
ARFIMA menggunakan nilai d yang sama. Data in sample residual regresi memiliki nilai d
sebesar 0.331096. Ini dilihat dari nilai p_value = 0,000 yang lebih kecil dari nilai o = u,uS.
Selanjutnya dilakukan estimasi aspek jangka pendek yaitu parameter p dan q dilihat dari plot ACF
(Gambar 4.5 a) dan PACF (Gambar 4.5 b) . Taksiran parameter beberapa model ditampilkan
dalam Tabel 4.6 berikut.

Tabel 4.12 Estimasi parameter model ARFIMA
No
Model
ARFIMA
1

2

3

1

1 [1],d,[1]
-0,880165
[0.000]

0.919562
[0.000]
2 [1,2],d,[1]
0.720971
[0.000]
-0.577182
[0.059]

-0.688728
[0.000]
3 [1,2,3],d,[1]
0,686064
[0,003]
-0,0503132
[0,183]
-0,0110528
[0,744]
-0,654334
[0,000]

Keterangan: [] : p_value uji-t dengan o = u.uS
Dari Tabel 4.12 dilihat bahwa hanya parameter
1
dan parameter
1
di semua model yang
signifikan. Sehingga, model dugaan adalah ARFIMA (1,d,1).

10
Uji Diagnostik
Setelah diperoleh parameter model ARFIMA yang signifikan, akan dilanjutkan dengan
pemeriksaan diagnostik. Pemeriksaan diagnostik meliputi uji asumsi white noise dan uji normal
residual. Pemeriksaan diagnostik untuk residual model dijelaskan pada Tabel 9 berikut.

Tabel 9 Uji Asumsi Residual Model ARFIMA (1,d, 1)
Model ARFIMA Normal ARCH 1-1 Portmanteau
ARFIMA
([1],d,[1])
[0.000]** [0.0183]* [0.8670]
Dari tabel dapat diketahui bahwa residual untuk model ARFIMA (1,d, 1) memenuhi asumsi white
noise dan homogen varians, tetapi tidak memenuhi asumsi kenormalan.

Pemilihan Model Terbaik
Seperti pada pemilihan model terbaik ARMA pada tahap sebelumnya, hanya diperoleh
satu model yang parameternya signifikan. Sehingga model terbaik untuk residual regresi adalah
model ARFIMA (1, d, 1) dengan AIC sebesar 9159,00399 dan MSE pada kriteria out sample
sebesar 280,337. Persamaan Model ARFIMA (1,d, 1) diberikan sebagai berikut:
(1 -
1
B)(1 -B)
d
Z
t
= (1 -0
1
B)o
t

(1 + u,88u16SB)(1 -B)
0,331096
Z
t
= (1 -u,919S62B)o
t
(1u)
Dengan menggunakan persamaan (2.12), (1 -B)
0,331096
dapat dijabarkan sebagai berikut
(1 - B)
0,331096
= 1 - u,SS1u96B - -
1
2
(u,SS1u96)(1 -u,SS1u96)B
2
+
-
1
6
(u,SS1u96)(1 -u,SS1u96)B
3
-

Pada ARFIMA ([1],d,1) tidak memenuhi asumsi normal, sehingga analisis dilanjutkan dengan
pendeteksian outlier.

Pemodelan ARFIMA dengan Deteksi Outlier
Adanya outlier pada data menyebabkan ketidaknormalan. Outlier dapat dideteksi dengan
menggunakan Boxplot seperti pada Gambar 6. Pada penelitian ini, di ambil dua buah outlier yang
paling ekstrim yaitu data ke-804 dan data ke-1070.

R
e
s
i
250
200
150
100
50
0
- 50
-100
1073
1072
1071
1070
1059
1045 1043
1039
942
909
907
899
898
896
893 892 891
854 851
843
828
827 825
824
816
810
806
805
804
803
787
782
756
753 738
711
707
706
669
617
616
575 515 460
458 455
437
411 392
388
374
278 202
154
129
125 103
67 63
46
20
18
Boxpl ot of Resi

Gambar 6 Boxplot Residual Model ARFIMA (1,d, 1)

Variabel dummy dimasukkan satu per satu pada model, dimulai dari t terkecil, maka dummy data
ke-804 dimasukkan terlebih dahulu. Diperoleh hasil bahwa semua parameter sudah signifikan,
seperti terlihat pada Tabel 10 berikut.

11
Tabel 4.14 Signifikansi Parameter Model ARFIMA (1,d, 1) dengan outlier t=804
Parameter Estimasi t-hit P_value
1
-0,800973 -7,15 0,000
1
0,849818 8,60 0,000
804t
92,1031 6,04 0,000

Model di atas sudah memenuhi asumsi white noise dan homogenitas, tetapi belum memenuhi
asumsi distribusi normal. Ini dapat dilihat dari nilai _
2
uji normality test sebesar 1024,3 dengan p-
_value sebesar 0,000 berarti H
0
ditolak pada nilai o = u,uS.
Persamaan model ARFIMA (1,d, 1) dapat dituliskan sebagai berikut.
(1 +u,8uu97SB)(1 - B)
0,331096
(Z
t
- 92,1uS1X
804t
) = (1 -u,849818B)o
t
(11)
Selanjutnya, memasukkan variabel dummy untuk data ke-1070, tetapi terdapat variabel
yang tidak signifikan, sehingga analisis tidak dapat dilanjutkan lagi, dan model (4.3) yang akan
dianalisis lebih lanjut lagi.
Model (11) sudah memenuhi asumsi residual yang white noise. Nilai AIC dan MSE pada
model (11) di atas juga lebih kecil dari nilai AIC dan MSE pada model (10) yaitu sebesar
9125,61531 dan 271,304. Tetapi model (11) di atas belum memenuhi asumsi berdistribusi normal.
Dari gambar di bawah dapat diketahui bahwa nilai skewness yaitu 3,4151. Ketidaknormalan data
juga dapat dilihat dari nilai kurtosis yaitu 46,9632 (berdistribusi normal bila nilai kurtosis adalah
nol). Pada penelitian ini, residual model ARFIMA (1,d, 1) dengan outlier t=804 memiliki kurtosis
positif, yang biasa disebut dengan leptoturtic. Untuk melihat karakteristik residual dari model
ARFIMA (1,d,1), maka dapat dilihat pada Gambar 7 di bawah.

250 200 150 100 50 0 -50
Medi an
Mean
1.0 0.5 0.0 -0.5 -1.0
A nderson-Darling Normalit y Test
Variance 271. 524
Skew ness 3. 4151
Kurt osis 46. 9632
N 1080
Minimum -62. 447
A-Squared
1st Quart ile -8. 353
Median -0. 551
3rd Quart ile 6. 889
Maximum 246. 490
95% Conf idence I nt erv al f or Mean
-0. 811
19. 98
1. 156
95% Conf idence I nt erv al f or Median
-1. 114 0. 068
95% Conf idence I nt erv al f or St Dev
15. 811 17. 204
P-V alue < 0. 005
Mean 0. 173
St Dev 16. 478
9 5 % Conf i dence I nt er v al s
Summar y f or REsi 5

Gambar 4.13 Grafik Summary Residual Model ARFIMA (1,d, 1) dengan Outlier t=804.

Ketidaknormalan yang terjadi pada residual dari model ARFIMA ini disebabkan karena
terdapat banyak outlier di pengamatannya.

4.6 Perbandingan Model ARIMA dan ARFIMA
Dari pemodelan ARIMA dan ARFIMA di atas, diperoleh perbandingan nilai
AIC dan MSE pada kriteria out sample

Tabel 11 Perbandingan model ARIMA dan ARFIMA
Model AIC MSE
ARIMA ([1,2,5,12],0,0) 9259,903 537,5336
ARFIMA (1,d, 1) dengan outlier
t=804
9125,61531 271,304

12
Dari Tabel 11 dilihat bahwa model ARFIMA (1,d,1) dengan outlier t=804 memiliki nilai
AIC dan MSE yang lebih kecil dibandingkan dengan model ARIMA ([1,2,5,12],0,0). Sehingga
model terbaik untuk pemodelan residual regresi adalah model ARFIMA (1,d, 1).
Berikut ini adalah model regresi untuk pemodelan polusi udara:
PH
t
= 67,444 +6,u24C0
t
+e
t
(12)
Dengan e
t
mengikuti model ARFIMA sebagai berikut:
(1 + u,8uu97SB)(1 -B)
0,331096
(Z
t
-92,1uS1X
804t
) = (1 -u,849818B)o
t

KESIMPULAN
Berdasarkan perhitungan MSE model regresi dengan error, pemodelan residual regresi
dengan ARFIMA memberikan nilai MSE yang jauh lebih kecil dibandingkan pemodelan dengan
ARIMA, sehingga dapat dikatakan bahwa model ARFIMA merupakan metode terbaik yang
memodelkan residual regresi pada pemodelan data polusi udara di Kota Surabaya. Model terbaik
yang diperoleh adalah model ARFIMA (1,d,1) dengan outlier t=804.
(1 +u,8uu97SB)(1 -B)
0,331096
(Z
t
-92,1uS1X
804t
) = (1 -u,849818B)o
t
(13)

DAFTAR PUSTAKA
Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of
Autoregressive Fractionaly Integrated Moving Average models. Nuffield College,
University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free
University of Amsterdam 1081 HV Amsterdam, Te Nederlands.
Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte
Carlo Study. University of Econometrics and Business Administraton, Department of
Statistics, Vienna.
Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with
Missing Observations and Long-memory: An Application Study. Journal of
Computational Statistics and Data Analysis 50, 20282043.
Lardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA
Processed and Model Selection Criteria: A Monte Carlo Study. MODEM- CNRS,
University of Paris X.
Sowell, F. (1992). Maximum likelihood estimation of stationary univariate fractionally integrated
models. J. Econometrics 53, 165188.
Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company.

Pen Ting

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pen Ting

Diunggah oleh

Hak Cipta:

Format Tersedia

1

PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG

Tabel 2 Statistik Deskriptif Data Polusi Udara

b. Uji Asumsi Identik

13. Pemodelan ARFIMA

Anda mungkin juga menyukai