Peramalan Debit Air Sungai Brantas Dengan Model Gstar Dan Arima
Peramalan Debit Air Sungai Brantas Dengan Model Gstar Dan Arima
Oleh:
Henny Dwi Khoirun Nisa’
1205 100 044
Dosen Pembimbing:
Dra. Nuri Wahyuningsih, M.Kes
Jurusan Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Institut Teknologi Sepuluh November
Surabaya 2010
Abstrak
Dalam kehidupan sehari-hari, seringkali kita jumpai data yang tidak hanya mengandung keterkaitan dengan
kejadian pada waktu sebelumnya, tetapi juga mempunyai keterkaitan dengan lokasi atau tempat yang lain. Data seperti
ini disebut data spasial, salah satu data yang diduga mempunyai keterkaitan antar waktu dan lokasi adalah data debit air
sungai. Untuk mendapatkan hasil peramalan yang baik maka dilakukan perbandingan dua model yaitu model
Generalized Space Time Autoregressive (GSTAR) dan model Autoregressive Integrated Moving Average (ARIMA).
Dalam penilitian ini akan diterapkan model GSTAR dengan dua bobot lokasi yaitu bobot seragam, dan bobot inverse
jarak. Pemodelan ARIMA dimaksudkan untuk mengatasi permasalahan yang mungkin muncul yaitu dugaan tidak
adanya hubungan keterkaitan antar lokasi. Dari analisis yang telah dilakukan, didapatkan model yang sesuai dengan data
yaitu model GSTAR(21) – I(1) untuk ketiga lokasi, model ARIMA(1,0,0) untuk Z1, model ARIMA(1,0,0) untuk Z2 ,
dan model ARIMA([3,10],1,[3,13]) untuk Z3. Dari model GSTAR dan ARIMA yang terbentuk akan dipilih model
terbaik yang menghasilkan kesalahan ramalan terkecil. Pemilihan model terbaik didasarkan pada nilai RMSE dari
model. Berdasarkan nilai rata-rata RMSE dari peramalan dengan menggunakan one step forecast, didapatkan
kesimpulan bahwa model yang paling sesuai dengan kondisi data adalah model GSTAR(2 1) – I(1) dengan bobot lokasi
inverse jarak.
Kata kunci: GSTAR, ARIMA, RMSE, Debit air, one step forecast.
1. Pendahuluan
Sungai Brantas, terletak di propinsi Jawa Timur dengan luas wilayah sungai 26,5% dari wilayah propinsi
Jawa Timur. Sebagai sumber air yang sangat potensial bagi usaha pengelolaan dan pengembangan sumber
daya air, Sungai Brantas digunakan untuk kebutuhan domestik, air baku air minum dan industri, irigasi, dan
lain lain. Seiring dengan semakin banyaknya kajian-kajian mengenai analisis time series, muncul pemikiran
adanya dugaan bahwa ada beberapa data dari suatu kejadian yang tidak hanya mengandung keterkaitan
dengan kejadian pada waktu-waktu sebelumnya, tetapi juga mempunyai keterkaitan dengan lokasi atau
tempat yang lain. Dengan adanya keheterogenan debit air sungai pada setiap lokasi pengukuran maka untuk
melakukan pemodelan hendaknya tidak hanya memperhatikan masalah waktu, akan tetapi juga
memperhatikan masalah lokasi. Model space-time ini pertama kali diperkenalkan oleh Pfeifer dan Deutsch
(1980a, 1980b). Model space-time yang dikembangkan oleh Pfeifer dan Deutsch mempunyai kelemahan dan
kelemahan ini diperbaiki oleh Borovkova, Lopuhaa, dan Ruchjana (2002) melalui model yang dikenal dengan
model Generalized Space-Time Autoregressive (GSTAR). Model GSTAR ini muncul atas ketidakpuasan
terhadap pengasumsian karakteristik lokasi yang seragam (homogen) pada model STAR yang membuat
model ini menjadi tidak fleksibel, khususnya pada saat dihadapkan pada lokasi-lokasi yang memiliki
karakteristik yang heterogen. Ruchjana (2002) melakukan pemodelan dengan GSTAR untuk data produksi
minyak bumi, model yang didapatkan yaitu GSTAR (11) dengan matrik bobot spasial serta estimasinya
menggunakan metode kuadrat terkecil (Least Square). Penelitian lainnya dilakukan oleh Borovkova dkk.
(2008) mengenai hasil produksi teh bulanan di Jawa Barat. Pada penelitian ini diambil 24 lokasi dengan 94
pengamatan dan estimasinya menggunakan metode kuadrat terkecil (Least Square). Pada tahun 2009 Mir
Atus Shofiyah menerapkan model GSTAR pada data produksi gas, model yang didapatkan yaitu model
1
GSTAR (11) – I(1) dengan bobot lokasi inverse jarak dan menggunakan one step forecast. Amstrong (2006)
serta Kostenko dan Hydman (2008) menyatakan bahwa variabel yang tidak signifikan dapat digunakan untuk
melakukan peramalan. Model GSTAR ini dapat diterapkan pada data debit air sungai Brantas. Dengan
diperoleh model GSTAR, diharapkan akan diketahui hasil debit air sungai Brantas, yang menjadi masalah
utama dalam model GSTAR adalah pada pemilihan bobot lokasi. Pemilihan bobot lokasi yang optimal akan
menghasilkan model yang lebih tepat sehingga diperoleh hasil peramalan yang tepat pula. Kawasan rawan
banjir adalah kawasan yang setiap musim hujan mengalami genangan lebih dari enam jam pada saat hujan
turun dalam keadaan normal. Dengan diketahuinya peramalan debit air sungai Brantas maka akan diketahui
kapan banjir itu akan datang. Sehingga perlu kiranya untuk melakukan peramalan debit air sungai Brantas
pada periode yang akan datang.
Dengan:
1 𝑁
𝚽𝒌𝟎 = diag 𝜙𝑘0 , … , 𝜙𝑘0
1 𝑁
𝚽𝒌𝟏 = diag 𝜙𝑘1 , … , 𝜙𝑘1
pembobot dipilih sedemikian hingga 𝒘𝒊𝒊 = 0 dan 𝒊≠𝒋 𝒘𝒊𝒋 = 1
Penaksir parameter model GSTAR dapat dilakukan dengan menggunakan metode kuadrat terkecil dengan
cara meminimumkan jumlah kuadrat simpangannya.
Pemilihan atau penentuan bobot lokasi merupakan salah satu permasalahan utama pada pemodelan
GSTAR. Beberapa cara penentuan bobot lokasi yang sering digunakan dalam aplikasi model GSTAR telah
disebutkan dalam Suhartono dan Atok (2006). Dua bobot lokasi yang digunakan dalam penelitian ini adalah :
1. Bobot seragam (uniform) w ij 1 ni dengan ni = jumlah lokasi yang berdekatan dengan lokasi i. Bobot
lokasi jenis ini seringkali digunakan pada data yang lokasinya homogen atau mempunyai jarak antar
lokasi yang sama,
2. Bobot invers jarak.
Root Mean Squared Error (RMSE) adalah Ukuran perbedaan antara nilai prediksi dari model atau
penaksir dengan nilai sebenarnya dari observasi. RMSE dirumuskan sebagai berikut :
Z
n
1 2 (3)
RMSE MSE n1 Ẑ n ( l )
n l 1
dengan n merupakan banyak ramalan yang dilakukan. Nilai RMSE berkisar antara 0 sampai . Semakin
kecil nilai RMSE maka model semakin bagus
2
Akaike’s Information Criteria (AIC) merupakan salah satu kriteria pemilihan dalam penentuan model
terbaik pada data in-sample. Model terbaik adalah model dengan nilai AIC paling kecil. Berikut cara
perhitungan nilai AIC (Lutkepohl, 2005):
~
2 (4)
∑
AIC ( p ) log det( ( p )) K 2
p
u
~ T
Log adalah notasi logaritma natural, det(.) merupakan notasi determinan, dan ∑( p ) T ∑û û
u
1
t 1
t
'
t
adalah
matriks taksiran kovarian residual dari model VAR(p), T merupakan jumlah residual, dan K merupakan
jumlah variabel.
Dalam hidrologi dikemukakan, debit air sungai adalah, tinggi permukaan air atau elevasi muka air
sungai yang terukur oleh alat ukur permukaan air sungai. Pengukuran dilakukan tiap hari, pada jam-jam
tertentu. Mrican, Kertosona, dan Ploso merupkan salah satu tempat pengukuran debit air di sepanjang aliran
sungai Brantas. Peta ketiga tempat pengukuran debit air sungai Brantas dapat dilihat pada gambar gambar 1
berikut:
Gambar 1 peta lokasi pengukuran debit air di Mrican, Kertosono, dan Ploso
3. Metodelogi Penelitian
Data yang digunakan dalam penelitian ini didapat dari Biro Pengelolaan Dat dan Lingkungan. Data yang
digunakan sebanyak 120 dibagi menjadi dua yaitu sebagai data in-sample dan data out-sample. Untuk data in-
sample digunakan 90 data yaitu bulan Januari-Maret 2010, sedangkan yang out-sample sebanyak 30 data
yaitu bulan April 2010. Data in-sample digunakan untuk membentuk model dan data out-sample digunakan
untuk mengecek ketepatan model. Terdapat tiga variabel penelitian yang digunakan dalam penelitian ini,
yaitu:
1. Jumlah debit air sungai di out mrican (Z1).
2. Jumlah debit air sungai di kertosono (Z2).
3. Jumlah debit air sungai di ploso (Z 3).
Metode time series yang digunakan pada penelitian ini adalah pemodelan ARIMA dan pemodelan
GSTAR dengan dua bobot lokasi yaitu bobot lokasi seragam dan bobot lokasi inverse jarak. Pemodelan
dilakukan pada data in-sample. Pemilihan model terbaik pada data in-sample berdasarkan pada nilai AIC.
Selanjutnya dilakukan peramalan untuk data out-sample. Dari hasil ramalan tersebut dapat diketahui model
terbaik yaitu model dengan nilai RMSE terkecil.
4. Hasil Penelitian
Data debit air sungai yang dijadikan sebagai data in-sample pada penelitian ini adalah dari bulan Januari-
Maret 2010. Deskripsi secara statistik dari data in-sample dapat dilihat pada tabel berikut ini.
Tabel 1 Statistika Deskriptif Debit Air sungai
Variabel Mean Varians Minimum Maximum
Z1 186,196 105,457 42,875 584,833
Z2 295,827 137,533 97,000 787,083
Z3 363,010 136,362 179,333 853,208
3
Pola data dari masing-masing variabel dapat dilihat pada Gambar 2.
Model GSTAR
Dalam pemodelan data time series ada dua asumsi yang harus dipenuhi yaitu data harus stasioner dan
residual harus white noise. Untuk langkah awal identifikasi model asumsi yang harus dipenuhi adalah data
harus stasioner dalam varian dan mean. Stasioneritas data dalam varian dapat dilihat dari plot Box-Cox.
sedangkan stasioneritas data dalam mean dapat dilihat dari skema matriks korelasi silang antar variabel dan
matriks parsial korelasi silang antar variabel. Hasil identifikasi stasioneritas dalam varian dengan metode
Box-Cox Transformation disajikan dalam plot Box-Cox Gambar 3.
4
Skema matriks korelasi silang pada Gambar 4 terlihat bahwa pada semua lag terdapat nilai korelasi
silang yang keluar. Hal ini ditunjukkan oleh banyaknya simbol (+) yang dapat diartikan bahwa adanya
hubungan memiliki korelasi positif, sehingga dapat dikatakan bahwa data Z 1, Z2, dan Z3 tidak stasioner dalam
mean. Karena data belum stasioner dalam mean maka dilakukan differencing. Setelah dilakukan differencing
tingkat 1, didapatkan skema matriks korelasi seperti pada Gambar 5.
Gambar 5 Skema Matriks Korelasi Silang Z1, Z2, dan Z3 sesudah Differencing
Gambar 5 menujukkan bahwa data sudah stasioner dalam mean. Hal ini ditunjukkan oleh banyaknya
simbol (.) yang mengindikasikan bahwa tidak adanya korelasi. Sedangkan simbol (+) dan (-) pada skema
hanya keluar pada lag tertentu. Kondisi ini berarti bahwa data telah stasioner setelah dilakukan differencing 1.
Karena data telah stasioner dalam varian dan mean maka dapat dilanjutkan dengan pembentukan model
GSTAR. Pencarian orde dilakukan dengan menggunakan model VARIMA, yaitu dengan memeriksa skema
matriks korelasi silang (MACF) dan skema matriks korelasi silang parsial (MPACF). Skema matrik korelasi
silang dapat dilihat pada Gambar 5, sedangkan skema matriks korelasi silang parsial dapat lihat pada Gambar
6.
Gambar 6 Skema Matriks Korelasi Silang Parsial Z1, Z2, dan Z3 sesudah Differencing
Nilai korelasi silang dari lag-lag yang berada diluar nilai standar deviasi dipilih sebagai orde model
VARIMA. Orde VARIMA yang mempunyai nilai AIC terkecil merupakan orde yang dianggap paling sesuai
dengan karakteristik data. Adapun nilai AIC untuk setiap lag dapat dilihat pada Tabel 3.
Tabel 3 Nilai AIC untuk Menentukan Orde GSTAR
Model Dugaan Nilai AIC
GSTAR(11)–I(1) 24,23252
GSTAR(21)–I(1) 24,054788*
GSTAR(31)–I(1) 24,12024
GSTAR(41)–I(1) 24,289707
* Nilai AIC terkecil
Identifikasi terhadap nilai AIC dari model dugaan menghasilkan kesimpulan bahwa model GSTAR yang
paling sesuai untuk data in-sample adalah model GSTAR(21)–I(1) karena model dugaan ini mempunyai nilai
AIC terkecil diantara model dugaan lainnya.
Dari hasil identifikasi yang telah dilakukan, selanjutnya dilakukan penerapan tiga macam bobot lokasi
pada model GSTAR(21) – I(1). Dua bobot lokasi yang digunakan dalam penelitian ini adalah :
0 0 ,5 0 ,5
Bobot seragam
W 0 ,5 0 0 ,5
0 ,5 0 ,5 0
0 0 ,503726 0 ,496274
Bobot invers jarak W 0 ,500049 0
0 ,499951
0 ,496323 0 ,503677 0
5
Penerapan kedua bobot lokasi pada model GSTAR(21) – I(1) menghasilkan nilai taksiran parameter yang
berbeda-beda. Hasil dari estimasi parameter dengan metode least square tersebut ditampilkan dalam Tabel 4
berikut ini.
Tabel 4 Taksiran Parameter Model CSTAR(21)-I(1)
Paramet Bobot lokasi seragam Bobot lokasi invers jarak Kriteria
t tabel Kesimpulan
er t hitung t hitung Pengujian
Nilai taksiran Nilai taksiran
01
1
0,47 0.1064 0,47 0.1067 1.96 H 0 diterima tidak signifikan
2
01 0,25 0.0568 0,25 0.0568 1.96 H 0 ditolak signifikan
3
01 -4,18 -0.5688 -4,18 -0.5691 1.96 H 0 diterima tidak signifikan
11
1
-0,71 -0.1146 -0,71 -0.1148 1.96 H 0 diterima tidak signifikan
11
2
-0,40 -0.1005 -0,40 -0.1004 1.96 H 0 diterima tidak signifikan
11
3
4,45 0.886 4,44 0.885 1.96 H 0 ditolak signifikan
21
1
0,32 0.035 0,32 0.0354 1.96 H 0 diterima tidak signifikan
21
2
-0,44 -0.058 -0,44 -0.058 1.96 H 0 diterima tidak signifikan
3
21 2,26 0.3209 2,26 0.3205 1.96 H 0 ditolak signifikan
Kriteria Pengujian :
Dengan = 5%, jika t hitung > t 0 ,025 ; 261 maka H 0 ditolak artinya parameter signifikan. Hasil keputusan
pengujian masing-masing parameter model dapat dilihat pada kolom 5 Tabel 4 dan dapat disimpulkan seperti
yang ada dalam kolom 6 Tabel 4
6
Karena ada parameter yang tidak signifikan, maka dilakukan pemilihan model regresi terbaik dengan
prosedur eleminasi langkah mundur. Parameter yang belum signifikan dihilangkan. Sehingga parameter yang
sudah signifikan dapat dilihat pada Tabel 5.
Tabel 5 Taksiran Parameter Model CSTAR(21)-I(1) yang signifikan
Param Bobot Lokasi Seragam Bobot Lokasi Invers jarak Kriteria
t hitung t hitung t tabel Kesimpulan
eter Nilai taksiran Nilai taksiran Pengujian
01
3
-4,22 -0,57 -4,22 -0,57 1.96 H 0 ditolak signifikan
11
3
4,49 0,88 4,49 0,88 1.96 H 0 ditolak signifikan
21
3
2,28 0,32 2,28 0,32 1.96 H 0 ditolak signifikan
Dari perhitungan parameter diatas hanya di dapat persamaan pada lokasi 3 saja, Parameter yang tidak
signifikan tersebut seharusnya tidak dimasukkan dalam persamaan model, namun untuk mengetahui ramalan
dari model GSTAR dengan bobot lokasi seragam maka semua parameterakan dimasukkan ke dalam model.
Seperti yang dijelaskan oleh Amstrong (2006) serta Kostenko dan Hydman (2008) bahwa variabel yang tidak
signifikan dapat digunakan untuk melakukan peramalan. Sehingga dalam penelitian ini, untuk model GSTAR
parameter yang tidak signifikan akan tetap digunakan.
Setelah didapatkan nilai taksiran untuk semua parameter, selanjutnya dilakukan cek diagnosa untuk
mengetahui apakah model yang terbentuk telah sesuai dengan kondisi data. Cek diagnosa dilakukan terhadap
residual dari model. Model GSTAR yang terbentuk dikatakan sesuai jika residualnya telah white noise dan
mengikuti distribusi multivariate normal. Identifikasi white noise dapat dilihat melalui skema matriks
korelasi silang residual pada Gambar 7.
Gambar 7 MACF residual GSTAR(21)-I(1) dengan Bobot Lokasi (a) Seragam, (b) Inverse Jarak.
Selanjutnya residual diuji apakah berdistribusi multivariate normal dengan menggunakan q-q plot dan
hasilnya ditampilkan pada Tabel 6
Tabel 6 Hasil Uji Multivariate Normal untuk Residual
Bobot Lokasi t
Seragam 0.733333
Inverse Jarak 0.733333
Residual dari model GSTAR(21) – I(1) dengan bobot lokasi seragam telah memenuhi asumsi white noise
dan multivariate normal. Terpenuhinya asumsi white noise dapat dilihat dari Gambar 7 dimana pada skema
matriks korelasi silang residual tidak ada lag yang keluar secara bersama. Sedangkan terpenuhinya asumsi
multivariate normal dibuktikan oleh t-value dari masing-masing residual yang lebih besar dari 0.05 sehingga
dapat dikatakan residual dari bobot lokasi seragam dan inverse jarak sudah berdistribusi multivariate normal.
Karena dua asumsi untuk residual telah terpenuhi, maka dapat disimpulkan bahwa model GSTAR(21) – I(1)
sudah baik dan sesuai dengan kondisi data.
Model ARIMA
Penaksiran parameter pada pemodelan GSTAR(21) – I(1) dengan dua macam bobot lokasi menghasilkan
parameter yang tidak signifikan. Sehingga muncul dugaan bahwa tidak terdapat korelasi antar lokasi dan
antar waktu. Oleh karena itu perlu untuk dilakukan pemodelan pada tiap-tiap lokasi dengan menggunakan
7
model ARIMA. Seperti pada pemodelan GSTAR(21) – I(1) yang telah dilakukan sebelumnya, sebelum
menduga model ARIMA perlu diketahui terlebih dahulu apakah data telah stasioner dalam varian dan mean.
Kestasioneran dalam varian telah dibuktikan oleh hasil identifikasi dengan menggunakan Box-Cox
Transformation yang dilakukan sebelumnya yaitu pada saat pembentukan model GSTAR(21) – I(1).
Identifikasi tersebut membuktikan bahwa data pada tiap-tiap lokasi telah stasioner dalam varian. Sedangkan
pengujian kestasioneritasan dalam mean untuk tiap-tiap lokasi dapat dilihat dari plot ACF tiap-tiap lokasi
pada Gambar 8.
8
Tabel 8. Ljung-Box Model ARIMA
Lokasi Model Lag 6 Lag 12 Lag 18
Z1 ARIMA (1,0,0) 2,68 8,84 14,67
Z2 ARIMA (1,0,0) 2,02 6,79 14,18
Z3 ARIMA ([3,10],1,[3,13]) 3,82 5,22 14,99
Gambar 10. Hasil Peramalan One Step Model GSTAR dengan Bobot Invers Jarak
9
5. Kesimpulan
Dari analisis yang telah dilakukan didapatkan kesimpulan bahwa model yang sesuai untuk data debit air
sungai pada penelitian ini adalah model GSTAR(21) – I(1) untuk ketiga lokasi, model ARIMA(1,0,0) untuk
Z1, model ARIMA(1,0,0) untuk Z 2 , dan model ARIMA([3,10],1,[3,13]) untuk Z3. Model terbaik yang
dihasilkan adalah model GSTAR(21) - I(1) dengan bobot lokasi inverse jarak. Nilai rata-rata RMSE dari
model ini dengan metode peramalan one step forecast adalah 165,5078. Pola ramalan dari model ini dengan
metode peramalan one step forecast sudah cukup baik dan mengikuti pola data out-sample.
6. Daftar Pustaka
Armstrong, J.S. (2006). Significance Test Harm Progress in Forecasting. International Journal of
Forecasting, vol 23, pp. 321-327.
Borovkova, S.A. (2002). Generalized STAR model with experimental weights. In M. Stasionopoulos and G.
Toulomi (Eds.). Proceedings of the 17th International Workshop on Statistical Modeling, Chania, pp.
139-147.
Borovkova, S.A. (2008). Consistency and asymptotic normality of least square estimators in generalized
STAR models. Journal compilation Statistica Neerlandica, Neerlandica, pp. 482-508.
Box, G.E.P. (1994). Time Series Analysis: Forcasting and Control. 3rd edition, Englewood Cliffs: Prentice
Hall.
Kostenko, A.V. (2008). Forecasting without significance test?. RobJHynman.com/papers/sst2.pdf.
Lutkepohl, H. (2005). New Introduction to Multiple Time Series Analysis, New York: Springger.
Pfeifer, P.E. (1980a). A Three Stage Iterative Procedure for Space-Time Modeling. Technometrics, 22 (1),
35-47.
Pfeifer, P.E. (1980b). Identification and Interpretation of First Orde Space-Time ARMA Models.
Technometrics, 22 (1), 397-408.
Ruchjana, B.N. (2002). Pemodelan Kurva Produksi Minyak Bumi Menggunakan Model Generalisasi S-TAR.
Forum Statistika dan Komputasi, IPB, Bogor.
Shofiyah, M.A. (2009). Peramalan Data PdoduksinGas di Joint Operating Body Pertamina-Petrochina East
Java (JOB P-PEJ) dengan Model GSTAR dan ARIMA.
Suhartono (2006). Pemilihan bobot lokasi yang optimal pada model GSTAR. Prosiding Konferensi Nasional
Matematika XIII, (h. 571-580). Semarang, Indonesia: Universitas Negeri Semarang.
Wei, W.W.S. (2006). Time Series Analysis Univariate and Multivariate Methods, second edition, Pearson
Education, Inc.
10