Anda di halaman 1dari 24

RANCANGAN USULAN PENELITIAN (DISERTASI)

PENGEMBANGAN ROBUST WEIGHTED BOOTSTRAP


DALAM MEMBANGUN CONFIDENCE DISTRIBUTION
PADA KOMBINASI ENSEMBLE

DEFI YUSTI FAIDAH

PROGRAM DOKTOR
BIDANG KEAHLIAN STATISTIKA
PROGRAM STUDI / JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI SEPULUH NOPEMBER
SURABAYA

2017

iii
PENGEMBANGAN ROBUST WEIGHTED BOOTSTRAP
DALAM MEMBANGUN CONFIDENCE DISTRIBUTION
PADA KOMBINASI ENSEMBLE

Defi Yusti Faidah

ABSTRAK
Model combining atau yang dikenal dengan kombinasi ensemble
merupakan salah satu teknik untuk menggabungkan hasil dari beberapa model
individu. Dengan demikian diharapkan mampu memprediksi dengan tingkat
akurasi yang tinggi. Model combining digunakan untuk proses kalibrasi, feature
selection dan fusion. Pada penelitian ini akan difokuskan pada model combining
untuk fusion learning. Proses penggabungan pada fusion learning menggunakan
Confidence Distribution (CD) dari hasil bootstrap. Studi kasus yang digunakan
adalah data peramalan ensemble curah hujan. Distribusi data curah hujan
umumnya menunjukkan sifat yang tidak simetris dan memiliki ekor distribusi
yang gemuk (fat tailed). Selain itu, hasil peramalan ensemble cenderung
overdispersive atau underdispersive. Dengan demikian proses bootsrap tidak bisa
digunakan. Sebagai alternative akan dikembangkan weighted robust bootstrap
untuk membangun Confidence Distribution mengatasi masalah tersebut.

Kata kunci : bootstrap, confident distribution, fusion learning

iv
DAFTAR ISI

Halaman Judul...........................................................................................................i
Abstrak....................................................................................................................iii
Daftar isi...................................................................................................................v
BAB I. PENDAHULUAN.......................................................................................1
1.1. Latar Belakang Penelitian...................................................................1
1.2. Perumusan Masalah............................................................................7
1.3. Tujuan Penelitian................................................................................7
1.4. Manfaat Penelitian..............................................................................7
BAB II. DASAR TEORI..........................................................................................8
2.1. Analisis Time Series............................................................................8
2.2. Kombinasi Peramalan.........................................................................9
2.3. Fusion Learning................................................................................10
2.4. Kombinasi Peramalan.......................................................................11
2.5. Fusion Learning................................................................................12
2.6. Curah Hujan......................................................................................13
BAB III. METODE PENELITIAN........................................................................14
3.1. Desain Penelitian...............................................................................14
3.2. Langkah Analisis...............................................................................14
DAFTAR PUSTAKA............................................................................................16

v
BAB 1
PENDAHULUAN

1.1 Latar Belakang


Peramalan merupakan suatu kegiatan yang dilakukan untuk memperkirakan
apa yang akan terjadi pada masa mendatang. Hasil peramalan yang memiliki
akurasi tinggi merupakan salah satu tujuan utama dalam pemodelan peramalan
time series. Berbagai metode peramalan time series berkembang cukup pesat
dengan tujuan mencapai hasil peramalan yang akurat. Kajian penelitian
menunjukkan dengan melakukan kombinasi beberapa model peramalan yang
berbeda dapat menghasilkan peramalan yang lebih baik (Bunn, 1988; Elliott, et
al., 2006; Wang & Hu, 2015; Barrow & Crone, 2016). Hal ini ditunjukkan dengan
tingkat akurasi yang meningkat jika dibandingkan dengan model tunggal (Zaier,
et al., 2010). Pada kombinasi model peramalan, teknik yang digunakan adalah
hasil peramalan dari masing-masing model peramalan dirata-ratakan dengan
memberikan bobot yang sesuai.

Ide dasar dari kombinasi model peramalan adalah bahwa masing-masing


model memiliki kemampuan yang berbeda dalam menangkap pola data (Zang,
2003). Selain dapat meningkatkan hasil akurasi hasil peramalan, Goodwin (2009)
memaparkan sisi lain dari keunggulan kombinasi model peramalan yaitu dapat
memberikan informasi yang lengkap. Setiap model peramalan yang terbentuk
dapat memberikan informasi yang beragam karena sesuai dengan karakteristik
model dalam menangkap pola data yang berbeda. Dengan melakukan kombinasi
model peramalan dapat menggabungkan informasi dari beberapa model
peramalan.

Kombinasi model peramalan yang berbeda biasa disebut dengan pendekatan


ensemble. Metode peramalan ensemble merupakan peramalan probabilistik yang
dapat menangkap adanya unsur ketidakpastian (Vrught, et al., 2008). Hasil
peramalan didasarkan pada didasarkan pada Probability Density Function (PDF)
bukan dari nilai peramalan tunggal (Zhu, 2005). Peramalan probabilistik lebih

1
unggul jika dibandingkan dengan peramalan deterministik. Peramalan
deterministik hanya memberikan hasil berupa satu titik nilai ramalan. Peramalan
satu titik hanya terfokus pada penggunakan satu model dasar saja, dan
mengabaikan model lain yang mungkin juga signifikan dan memberikan hasil
peramalan yang akurat. Hal ini yang menyebabkan peramalan deterministik
kurang dapat menangkap pola data dengan variasi tinggi. Dengan demikian
dengan dilakukan kombinasi beberapa model peramalan diharapkan diperoleh
varian peramalan yang minimum (Kapetanios, et.al., 2007).

Konsep dasar model kombinasi digunakan dalam meta analisis. Meta analisis
merupakan suatu teknik dalam statistika yang menggabungkan dua atau lebih
penelitian sejenis sehingga diperoleh perpaduan data dan informasi yang lebih
lengkap (Liu, et al., 2015). Telah banyak penelitian yang mengkaji tentang
metode kombinasi. Peng, et al., (2017) meramalkan kecepatan angin yang
didasarkan pada kombinasi adaptive ensemble on-line sequential ORELM
(Outlier Robust Extreme Learning Machine) dan TVMCF (Time-Varying Mixture
Copula Function). Sifat ketidakpastian dan kecepatan angin yang bersifat
nonstatisoner merupakan alasan utama penggunaan metode ensemble untuk
mendapatkan peramalan yang akurat. Hasil penelitian menunjukkan bahwa
metode kombinasi tidak hanya dapat meningkatkan akurasi hasil peramalan tetapi
juga meningkatkan kualitas probabilistic prediction intervals (PIs). Selain itu
Wang, et al., (2016) juga melakukan peramalan kecepatan angin di China dan
Mongolia dengan kombinasi Ensemble Empirical Mode Decomposition (EEMD)
dan metode GA-BP neural Network. Hasil peramalan akhir diperoleh dengan
menggabungkan hasil peramalan individu. Blanc dan Setzer (2016) mengkaji
kombinasi peramalan dengan Simple Averaging (SA). Hingga tahun 2016 model
Simple Averaging masih sering digunakan karena prosesnya yag tidak terlalu
rumit. Menurut Blanc dan Setzer dalam menerapkan metode simple averaging
diperlukan bobot optimal yang dapat meminimalkan varians error dari data out
sample. Permasalahan klasik yang sering dihadapi dalam penggunaan model
Simple Averaging adalah penentuan bobot yang optimal. Selain itu, Wang dan Hu
(2015) mengusulkan robust short term untuk peramalan kecepatan angin dengan

2
mengkombinasikan ARIMA (Autoregressive Integrated Moving Average), ELM
(Extreme Learning Machine), SVM (Support Vector Machine) dan LSSVM (Least
Square SVM) dengan model GPR (Gaussian Process Regression). Kombinasi
model tersebut dapat memberikan informasi probabilistik lebih lanjut tentang
prediksi kecepatan angin. Pendekatan ini diterapkan pada data kecepatan angin
pada dua lokasi di China. Hasil yang diperoleh menunjukkan bahwa model
peramalan individu tidak konsisten dalam meramalan kecepatan angin jangka
pendek untuk dua lokasi. Sementara itu metode kombinasi yang diusulkan
menghasilkan hasil peramalan yang lebih handal dan akurat.

Model kombinasi ensemble digunakan dalam kalibrasi, feature selection dan


fusion. Hasil peramalan dari model kombinasi perlu dilaklukan kalibrasi sehingga
lebih akurat. Hasil peramalan yang sudah dikalibrasi akan menghasilkan suatu
peramalan yang berupa interval. Apabila hasil observasi berada dalam selang
kepercayaan, kondisi tersebut menunjukan bahwa kombinasi hasil peramalan
mampu menangkap nilai observasi. Semakin banyak observasi yang ditangkap
selang kepercayaan peramalan kombinasi, menunjukkan bahwa kombinasi
peramalan yang terbentuk cukup baik (Fildes & Petropoulos, 2015). Terdapat
beberapa penelitian yang sudah mengkaji metode kombinasi untuk kalibrasi antara
lain Wilks dan Hamill (2007) memaparkan teknik peramalan ensemble merupakan
kalibrasi terbaik. Sama halnya dengan penelitian yang dilakukan Sloughter et al.
(2010) yang mengkaji peramalan probabilistik dan diterapkan pada kecepatan
angin. Sementara itu Kuswanto (2010) mengembangkan metode kalibrasi untuk
peramalan ensemble dengan menggunakan distribusi meta-gaussian. Metode
tersebut menggabungkan kelebihan dari BMA dengan distribusi klimatologi
sehingga diperoleh hasil kalibrasi peramalan yang reliabel. Kuswanto dan Sari
(2013) menggunakan BMA dimana parameter-parameternya di estimasi dengan
pendekatan Markov Chain Monte Carlo (MCMC). Sabourine, et al. (2013)
mencoba menggabungkan hasil estimasi dari nested asymmetric logistic models
dan Pairwise Beta (PB) model menggunakan BMA sebagai metode kalibrasinya.

Dalam analisis big data, sebelum melakukan analisis data, terdapat


preprocessing data untuk mendapatkan data yang berkualitas. Pada tahapan ini

3
terdapat empat langkah yang dilakukan (Han & Kamber, 2012). Langkah-langkah
yang harus dilakukan meliputi tahap pembersihan data, tahap integrasi data, tahap
reduksi data, dan tahap transformasi data. Di dalam preprocessing data, terdapat salah
satu teknik yaitu feature selection. Teknik ini digunakan untuk mengurangi dimensi data
atau feature yang dianggap kurang relevan untuk dianalisis lebih lanjut. Salah satu
metode feature selection adalah dengan kombinasi beberapa model sehingga mampu
menjaga informasi penting pada data (Gao, et al., 2014). Selain itu kombinasi model juga
diterapkan pada fusion learning.
Model kombinasi pada penelitian ini difokuskan pada fusion learning. Fusion
learning mencoba menggabungkan beberapa model yang berbeda sehingga
menghasilkan kesimpulan yang lebih lengkap (Liu, et al., 2015; Elmenreich,
2007; dan Pagano, et al., 2014). Penelitian Elmenreich (2007) mengkaji fusion
learning untuk menggabungkan ukuran sensor continuous-valued. Sensor
continuous-valued ini digunakan untuk nilai constraint pada klasifikasi. Proses
penggabungan sensor continuous-valued ini dengan menggunakan Confidence
Weighted Averaging (CWA). Sementara itu Pagano, et al., 2014 menerapkan
fusion learning dengan menggabungkan hasil klasifikasi adaptive ensemble.
Setiap hasil klasifikasi diberikan bobot yang telah disesuaikan. Liu, et al. (2014)
menggabungan informasi yang terdapat pada beberapa model tersebut melalui
Confidence Distribution (CD). CD merupakan fungsi distribusi dari sample
dependent yang dapat digunakan untuk mengestimasi parameter yang tidak
diketahui. CD dapat dipandang sebagai “distribution estimator” dari parameter.
Liu menerapkan fusion learning pada data performansi pesawat pada saat
mendarat. Liu menggabungkan kesimpulan yang diperoleh dari beberapa studi
yang berbeda dengan mengkombinasikan fungsi P-value dari masing-masing studi
individu yang dibangun melalui proses boostrab. Dalam segi teori dan aplikasinya
pendekatan ini memiliki beberapa keunggulan. Pendekatan yang diusulkan
memberikan kesimpulan yang valid untuk pengujian hipotesis yang melibatkan
beberapa studi.
Contoh kasus yang diteliti oleh Liu merupakan kasus dengan data normal.
Tidak semua fenomena yang terjadi di alam mengikuti distribusi normal. Hal ini
sering ditemui pada kasus yang melibatkan kejadian ekstrim. Menurut Ribatet, et

4
al. (2007), kejadian ekstrem ialah suatu kejadian yang jarang terjadi namun
intensitasnya sangat berbeda dengan rata-rata intensitas yang telah terjadi
sebelumnya. Kejadian ekstrim dapat menimbulkan kerugian bagi manusia
maupun alam lingkungan. Kejadian ekstrim yang telah terjadi dalam kurun waktu
tertentu disebut pengamatan ekstrim.

Kejadian ekstrim yang akhir-akhir ini sering terjadi di Indonesia salah


satunya adalah curah hujan. Keragaman curah hujan yang cukup besar antar
daerah seringkali ditemui pada benua maritime salah satunya adalah Indonesia.
Akurasi prediksi curah hujan menjadi hal yang sangat penting. Hal ini karena
memberikan dampak secara langsung pada perekonomian dan keselamatan
transportasi. Selain itu sebagai upaya mitigasi bencana di bidang hidrologi dan
penyusunan rencana pembangunan jangka panjang yang efisien dalam
manajemen risiko (Cooley, et al., 2007). Salah satu sistem prediksi cuaca yang
bersifat numerik adalah Numerical Wheater Prediction (NWP). Data peramalan
ensemble curah hujan diperoleh dari NWP. Distribusi data curah hujan umumnya
menunjukkan sifat yang tidak simetris. Bentuk distribusinya memiliki ekor yang
lebih panjang di suatu sisi (Coles, 2001; Davison, et al., 2012). Studi mengenai
perilaku ekor distribusi menunjukkan bahwa hampir semua data klimatologi
memiliki ekor distribusi yang gemuk (fat tailed) yaitu ekor distribusi yang turun
secara lambat bila bandingkan dengan distribusi normal, akibatnya peluang akan
kejadian tersebut ju ga akan besar. Misalnya dalam hal klimatologi, terjadinya
curah hujan ekstrem akan lebih besar dari pada pemodelan dengan distribusi
normal.

Fusion learning pada penelitian ini akan diterapkan pada data peramalan
ensemble curah hujan. Untuk membangun confidence distribution dilakukan
dengan pendekatan bootstrap. Pendekatan bootstrap merupakan metode
nonparametric yang memiliki keunggulan dibandingkan dengan pendekatan
parametrik. Pendekatan bootstrap tidak terikat pada asumsi-asumsi. Selain itu
dengan pendekatan bootsrap dapat diperoleh penaksir parameter yang terkadang
dengan menggunakan metode parametrik tidak dapat terselesaikan (Hydman, et
al., 2002; Kim, et al., 2009; Clements & Kim, 2007). Akan tetapi mengingat

5
karakteristik data peramalan ensemble curah hujan yang memiliki distribusi fat
tailed maka teknik bootstrap tidak dapat digunakan (Amado, et al., 2014; Abadir
dan Medeira 2009). Berdasarkan penelitian Amado, et al. (2014) prosedur
bootstrap tidak dapat diterapkan pada data yang mengandung pengamatan ekstrim
sehingga sebagai alternatif digunakan robust bootstrap. Sementara Abadir dan
Medeira (2009) membuktikan bahwa prosedur naïve bootstrap tidak mampu
mengatasi data yang memiliki distribusi fat tailed, sehingga sebagai alternatif
penyelesainnya dikembangkan prosedur naïve bootstrap yang lebih robust dan
telah diperluas. Sementara itu Amado, et al, (2004) menggunakan robust bootsrap
dalam membentuk fungsi influence untuk menentukan confidence interval
parameter.

Hasil peramalan dari metode kombinasi tersebut cenderung bersifat


underdispersive ataupun overdispersive. Underdispersive yaitu nilai
peramalannya cenderung terpusat pada suatu titik tertentu dengan varians rendah.
Sementara overdispersive yaitu varians cenderung tinggi (Hamill dan Colucci,
1997). Dengan demikian untuk menggabungkan confident distribution (CD)
diperlukan bobot yang sesuai sehingga dalam proses resampling bootstrap perlu
dilakukan pembobotan yang dikenal dengan weighted boostrap. Norazan, et al,
(2009) menggunakan weighted bootstrab untuk mengatasi adanya pengamatan
yang outlier. Pengamatan outlier diberi bobot yang lebih kecil sehingga
kemungkinan tersampling pada proses bootrab pun semakin kecil. Selain itu
Makarenkov, et al, (2010) menggunakan weighted boostrap untuk mengevaluasi
kualitas pohon filogenetik. Masing-masing pohon filogenetik dari hasil
resampling diberikan bobot berdasarkan estimasi pohon Least Square (LS) dan
rata-rata Secondary Boostrap Score (SBS). LS dan SBS dirancang untuk
mengetahui kualitas pohon filogenetik yang telah dibentuk.

Dengan menggunakan ide dasar tersebut, pada penelitian ini akan difokuskan
pada mengembangkan prosedur robust weighted bootsrap untuk membangun
confidence distribution. Prosedur ini akan diaplikasikan pada data peramalan
ensemble curah hujan. Dengan menggunakan pendakatan robust weighted

6
bootsrap diharapkan diperoleh hasil peramalan ensemble yang lebih reliabel
dibandingkan dengan metode yang lainnya.

1.2 Perumusan Masalah

Sesuai dengan latar belakang telah dipaparkan maka penelitian ini digunakan
untuk menyelesaikan permasalahan tentang bagaimana pengembangan weighted
robust bootstrab dalam membangun confidence distribution pada kombinasi
ensemble serta aplikasinya pada data curah hujan.

1.3 Tujuan Penelitian


Untuk dapat mengatasi masalah yang diuraikan sebelumnya, penelitian ini
ditujukan untuk mengembangkan weighted robust bootstrap dalam membangun
Confidence Distribution pada kombinasi ensemble serta mendapatkan hasil
peramalan curah hujan yang reliable .

1.4 Manfaat Penelitian


Manfaat dari penelitian ini diharapkan dapat menjadi salah satu alternatif
metode dalam menggabungkan hasil peramalan dari beberapa model sehingga
diperoleh hasil peramalan yang reliable. Selain itu diharapkan dapat menambah
dan mengambangkan wawasan keilmuan dan pengetahuan tentang weighted
robust bootstrap dalam membangun confidence distribution.

7
BAB II
TINJAUAN PUSTAKA
2.1 Analisis Time Series

Time series adalah suatu pengamatan yang tersusun berdasarkan urutan waktu
(Wei, 2006). Data time series dapat dipandang sebagai sebuah realisasi dari proses
stokastik (Box dkk, 1994). Proses stokastik adalah fenomena statistik yang
tersusun dalam urutan waktu berdasarkan hukum probabilitas. Menurut Wei (2006)
proses stokastik adalah suatu kelompok data berdasarkan waktu yang tersusun oleh

variabel random Ζ ( ω ,t ) dimana ω adalah ruang sampel dan t adalah indeks waktu.
Z t ,Z t 2 ,. . . ,Zt n
Fungsi distribusi dari variabel random 1 adalah sebagai berikut.

F ( z t1 ,z t 2 , .. . ,z tn ) =p {ω:z ( ω,t 1 ) ¿ z t 1 , . .. ,z ( ω,t n ) ¿ z t n }


(2.1)

2.2 Kombinasi Peramalan


Kombinasi model peramalan atau yang popular disebut dengan model
ensemble merupakan metode peramalan dengan menggabungkan beberapa model
time series yang berbeda sehingga menjadi satu model gabungan. Diharapkan
dengan menggabungkan model time series yang berbeda dapat meningkatkan
keakuratan hasil peramalan dibandingkan dengan hasil peramalan model individu.
Selain itu berdasarkan penelitian Kapetanios, et al. (2007) dipaparkan bahwa
model kombinasi dapat mengurangi bias dari hasil peramalan suatu model yang
terbentuk karena seringkali model individu menghasilkan peramalan yang terlalu
tinggi atau terlalu rendah. metode untuk mengabungkan beberapa model
diantaranya adalah Simple Combination.
2.2.1 Simple Combination
Simple combination merupakan penggabungan beberapa model peramalan
yang berbeda (Timmermann, 2006). Pada simple combination tidak memerlukan
estimasi parameter yang cukup banyak. Teknik untuk menggabungkan model
dilakukan dengan menjumlahkan hasil peramalan setiap model yang telah diberi
bobot masing-masing yang sesuai. Palm dan Zellner (1992) memaparkan

8
keuntungan menggunakan Simple Model Averaging diantaranya adalah sebagai
berikut
 Bobot yang digunakan untuk hasil peramalan tidak perlu dilakukan
estimasi
 Dalam beberapa situasi, simple model averaging mengurangi
variansi dan bias hasil peramalan dari model individu
 hasil peramalan dari kombinasi model time series yang berbeda
akan menghasilkan nilai MSE yang kecil.

Menurut kajian dari Ravazzolo (2007) yang didasarkan pada penelitian


Timmermann (2006), hasil peramalan dari kombinasi model untuk y t +1 adalah
sesuai dengan persamaan (2.2)

^y T +1= y^ T +,1,1 w^ T+1 ,1+ ^y T +1 ,2 w^ T+1 ,2 (2.2)

Terdapat dua teknik dalam membentuk simple model averaging yaitu sebagai
berikut

 Bobot Seimbang
Pada bobot seimbang, besarnya bobot yang diberikan pada setiap hasil
peramalan model individu sesuai dengan persamaan (2.3)
1
w^ i=
n (2.3)
Besarnya bobot untuk setiap hasil peramalan memiliki nilai yang sama.
Bobot seimbang akan maksimal ketika error dari hasil peramalan model
individu memiliki varians yang sama serta nilai pair wise correlationnya
identik.
 Bobot Invers Mean Square Prediction Error
Teknik yang kedua, bobot diperoleh dari Invers Mean Square Prediction
Error relative model yang dihitung dengan sebuah window dari v periode
sebelumnya. Estimasi error dari bobot kombinasi memiliki nilai yang
cenderung lebih besar. Hal ini karena masih sulitnya mengestimasi matriks
kovarian dari error hasil peramalan. Cara untuk mengatasi hal tersebut

9
adalah dengan mengabaikan korelasi antar error hasil peramalan dan
membuat bobot kombinasi yang menunjukan performasi setiap model
individu terhadap model rata-rata. MSPE adalah rata-rata error dari hasil
peramalan yang ditunjukkan pada persamaan 2.4
v −1
∑ ( ^y T − j, i − ^y T− j )
MSPETv , i= j=0
v (2.4)
Sehingga besarnya bobot untuk setiap model peramalan sesuai pada
persamaan 2.5

w T+1 , i=
( 1
MSPE vT , i )
2

j=1 ( 1
MSPE vT , i ) (2.5)

2.3 Fusion Learning

Fusion learning merupakan salah satu pendekatan yang digunakan untuk


menggabungkan beberapa model yang berbeda sehingga dapat menghasilkan
kesimpulan yang lebih efektif dan lengkap jika dibandingkan dengan model
individu (Liu et al, 2015; Elmenreich, 2007; dan Pagano et al, 2014). Fusion
learning merupakan cara yang tepat untuk menganalisis data yang dikumpulkan
secara rutin. Data tersebut dapat berasal dari beberapa sumber domain dan setiap
waktu. Liu (2015) mengaplikasikan fusion learning pada data performansi
pesawat pada saat mendarat. Ide dasar dari fusion learning adalah menerapkan
konsep Confident Distribution dari hasil bootstrap untuk membentuk pendekatan
nonparametric dengan menggambungkan beberapa kesimpulan dari beberapa
metode untuk hipotesis yang sama.
CD merupakan fungsi distribusi dari sample dependent yang dapat digunakan
untuk mengestimasi parameter yang tidak diketahui. CD dapat dipandang sebagai
“distribution estimator” dari parameter. CD telah terbuki sebagai alat yang efektif
pada inferensi statistika. Liu menerapkan CD pada studi kasus dalam menentukan
P-value dari beberapa metode. Liu mengembangkan pendekatan nonparametric

10
yang baru dalam menggabungkan hasil pengujian dari beberapa studi yang
independen. Sebagai contoh Liu menggabungkan kesimpulan yang diperoleh dari
beberapa studi yang berbeda dengan mengkombinasikan fungsi P-value dari studi
individu dengan P-Value yang dibangun dari boostrap. Dalam segi teori dan
aplikasinya pendekatan ini memiliki beberapa keunggulan. Pendekatan yang
diusilkan memberikan kesimpulan yang valid untuk pengujian hipotesis yang
melibatkan beberapa studi. Pengujian hipotesis yang digunakan dalam studi
individu dapat menggunakan metode yang bervariasi.

2.4 Confidence Distribution


Confidence distribution seringkali dipandang sebagai fungsi distribusi dari
sample dependent yang dapat merepresentasikan confidence interval untuk
parameter yang akan diestimasi (Cox, 1958; Efron, 1993; dan Xie & Singh, 2013).
Salah satu confidence distribution yang popular adalah bootstrab distribution yang
dibangun oleh Efron, meskipun sebenarnya konsep CD lebih luas karena
mencakup semua pendekatan yang dapat digunakna untuk mebangun confidence
interval (Liu, et al., 2015). Menurut Efron (1998), bootstrab distribution
merupakan CD dari parameter yang akan diestimasi. CD adalah distribution
estimator yang secara konsep tidak berbeda dengan taksiran titik dan confidence
interval pada umumnya. Hanya saja pada CD menggunakan fungsi distribusi
sample-dependent untuk mengestimasi parameter yang akan ditaksir. Seperti
halnya pada esimasi titik, setiap nilai tunggal baik nilai dari data riil maupun
statistik pada prinsipnya dapat digunakan untuk menaksir parameter. Setiap fungsi
distribusi sampel dependent dapat juga digunakan untuk menaksir parameter.
Pada prakteknya tidak jauh berbeda dengan estimasi titik, pada CD juga diberikan
batasan agar diperoleh hasil estimasi yang unbias,konsisten dan efisien (Xie &
Sing, 2013). Menurut Cox (2013) menyatakan bahwa pendekatan CD
memberikan ringkasan data yang sederhana dan mudah diinterpretasikan. Selain
itu CD berisi seluruh informasi dari berbagai metode inferens.
Sesuai definisi yang dibangun oleh Schweder dan Hjort (2002) serta Singh et
al. (2005; 2007) Θ adalah parameter space dari parameter yang akan diestimasi

11
θ , dan X adalah ruang sampel yang sesuai dengan data sampel x={x 1 ,…, x n }.

Menurut Xie dan Sing (2013), fungsi H n (.)=H n ( x . ) disebut confidence

distribution untuk parameter θ jika (i) H n ( x.) adalah fungsi distribusi kumulatif pada

ruang parameter dan (ii) Nilai parameter


θ=θ0 H n (θ0 ) adalah fungsi dari sampel x
yang mengikuti distribusi uniform [0,1]

2.5 Boostrap

Penggunaan metode statistika parametrik dalam penyelesaian kasus seringkali


mensyaratkan informasi atau asumsi tertentu. Pada data time series, asumsi
tersebut terkadang sulit untuk dipenenuhi seperti terdapat pengamatan outlier,
memiliki pola yang tidak linear, atau tidak berdistribusi normal sehingga metode
parametrik tidak menyelesaikan persoaln tersebut dengan baik. Oleh karena itu,
diperlukan alternative pendekatan statistik yang tidak memerlukan asumsi yang
ketat (Hydman et al, 2002; Kim, et al, 2009, Clements & Kim, 2007). Salah satu
pendekatan nonparametric yang bisa digunakan sebagai alternative adalah
bootstrap.

Metode bootstrap merupakan prosedur pengambilan sample baru secara berulang-

ulang sebanyak N sample baru dari data asal yang berukuran n . Misalkan

terdapat data asal yang berukuran n yaitu X =( x 1 , x 21 ,…, x n ) maka dengan


menggunakan prosedur bootstrap akan diperoleh sampel yang baru berukuran n .

Dengan parameternya adalah θ maka dapat dilakukan estimasi mean untuk


bootstrap adalah sebagai berikut:

N
^ 1
θ= ∑ θ^ i
N i=1 (2.6)

Dan sample untuk varians untuk sample bootsrap adalah

N
1
2
S = ∑ ( θ^ −θ)
N −1 i =1 i
^ 2
(2.7)

12
Sementara itu untuk taksiran standar error bootstap yaitu

[ ]
1
N
1 2
Se= ∑
N −1 i =1
( θ^ i−θ^ )2
(2.8)

Salah satu bentuk aplikasi metode resampling bootstrap adalah mengestimasi


selang kepercayaan dari parameter sampel. Pada kasus selang kepercayaan dan
pengujian hipotesis pengambilan sampel boostrap paling sedikit sebanyak 1000
replikasi bootstrap. Selain itu bootstrap dapat digunakan untuk membangun
interval prediksi pada model state space. Selain itu, terdapat beberapa alternatif
untuk menentukan selang kepercayaan berdasarkan bootstrap, seperti metode
normal bootstrap, persentil bootstrap, dan pusat persentil bootstrap. Selang
kepercayaan dengan metode persentil bootstrap menggunakan kuantil sesuai
persamaan (2.8)

( θ^ α , θ^
)
¿ ¿
α
( ) (1− )
2 2 (2.8)

θ^ ( α θ^ ( 1−α
¿ ¿
) )
Dimana 2 dan 2 adalah kuantil dari estimasi distribusi bootstrap. Sebagai
contoh misalkan dilakukan bootstrap sebanyak 1000 kali pengulangan
¿ ¿ ¿
(θ1 ,θ2 ,⋯,θ1000 ) yang kemudian diurutkan dari nilai terendah hingga nilai tertinggi
¿ ¿ ¿
(θ(1 ) ,θ(2) ,⋯,θ(1000 ))
sehingga menjadi . Maka selang kepercayaan persentil bootstrap
¿ ¿
(θ(25) ,θ(975) )
pada 95% adalah .

2.6 Curah Hujan

` Indonesia berada di daerah khatulistiwa sehingga memiliki curah hujan


yang beragam antar wilayah. Hujan merupakan salah satu bentuk presipitasi uap
air yang berasal dari awan di atmosfer. Bentuk presipitasi dapat berupa salju dan
es (Kartasapoetra, 2008). Curah hujan didefinisikan sebagai banyaknya air yang
jatuh ke permukaan bumi, dalam hal ini permukaan bumi dianggap datar dan
kedap, tidak mengalami penguapan dan tersebar merata serta dinyatakan sebagai
ketebalan air. Satuan curah hujan diukur dalam milimeter (mm). Curah hujan satu

13
mm artinya air hujan yang jatuh setelah satu mm tidak mengalir, tidak
meresap dan tidak menguap. Intensitas hujan adalah banyaknya curah hujan per
satuan jangka waktu tertentu. Apabila dikatakan intensitas besar berarti hujan
lebat dan berisiko terjadinya erosi dan banjir.

14
BAB III
METODE PENELITIAN

3.1. Desain Penelitian

Sesuai dengan tujuannya, penelitian ini ingin melakukan kajian mengenai


pengembangan weighted robust bootstap dalam membangun confidence
distribution. Metode ini akan diaplikasikan pada data curah hujan. Data yang
digunakan pada peneletian ini adalah data observasi dan data peramalan ensemble
curah hujan. Kelemahan dan kekuatan dari model analisis yang dibentuk akan
dilaporkan untuk kemudian ditelaah dalam ruang penelitian terbuka. Adapun
usulan langkah analisis dijabarkan pada sub bab 3.2.

3.2. Langkah Analisis

Langkah analisis yang akan dilakukan pada penelitian ini adalah diawali
dengan melakukan pembagian data menjadi data in sample dan out sample. Data
in sample digunakan untuk pembentukan model. Adapaun langkah – langkahnya
adalah sebagai berikut:

1. Mendapatkan data observasi dan data peramalan ensemble curah


hujan.
2. Melakukan proses verifikasi hasil peramalan ensemble dengan plot
time series. Berdasarkan langkah verifikasi ini dapat diketahhui
karakteristik dan kebaikan hasil peramalan ensemble
3. Melakukan prosedur regresi antara data observasi dengan masing-
masing kelompok hasil peramalan ensemble. Memperoleh koefisien
b0 dan b1 yang digunakan untuk menghilangkan bias dari peramalan
kombinasi. Tujuannya adalah untuk menggeser nilai miu peramalan
kombinasi agar hasilnya mendekatu nilai observasi

15
4. Melakukan prosedur weighted robust bootstap untuk mendapatkan
parameter-parameternya
5. Dari parameter tersebut dicari confident distribution kemudian
digaungkan
6. Mengkombinasikan confident distribution dari masing-masing hasil
resampling sehingga diperoleh kesimpulan yang umum.

16
DAFTAR PUSTAKA

Amado, C., Bianco, A. M., Boente, G. & Pires, A.M. (2014). Robust Bootstrap:
An Alternative To Bootstrapping Robust Estimators. REVSTAT – Statistical
Journal, Vol.12(2), Hal.169–197.
Abadir, K. M., & Medeira, A. C. (2009). Approximating moments by nonlinear
transformations, with an application to resampling from fat-tailed
distributions.
Barrow, D. K., & Crone, S. F. (2016). A comparison of AdaBoost algorithms for
time series forecast Combination. International Journal of Forecasting, Vol.
32, Hal: 1103–1119
Blanc, S. M., & Setzer, T. (2016). When To Choose The Simple Average In
Forecast Combination. Journal of Business Research, Vol. 69, Hal. 3951-
3962.
Bunn, D. W. (1988). Combining forecasts. European Journal of Operational
Research, Vol. 33(3), Hal. 223–229.
Cooley, D., Naveau, P., Jornelli, V., Rabatel, A. & Grancher, D. (2006). A
Bayesian Hierarchical Extreme Value Model for Lichenometry.
Environmetrics, Vol. 17, hal. 557-574.
Coles, S. (2001). An Introduction to Statistical Modeling of Extreme Values,
Springer Series in Statistics.
Cox, D. R. (1958), “Some Problems Connected With Statistical Inference,”The
Annals of Mathematical Statistics, 29, 357–372
Davison, A.C., Padoan, S.A. dan Ribatet, M. (2012), Statistical Modeling of
Spatial Extremes, Statistical Science, Vol. 27(2), Hal.161-18
Donoho, D. L., dan Gasko, M.m (1992). Breaking Properties of Location
Estimates Based on Halfspace Depth and Projected Outlyingness. Annals of
Statistics, Vol. 20, Hal. 1803-1827.
Efron, B. (1993). Bayes and Likelihood Calculations From Confidence Intervals.
Biometrika, Vol.80, Hal.3–26.
Efron, B. (1998). R.A.Fisher in the 21st century. Stat. Sci., Vol.13, Hal.95–122.
Efron, B. (2013), Discussion of “Confidence Distribution, the Frequentist
Distribution Estimator of a Parameter — A Review” by Xie and Singh.
International Statistical Review, Vol.81, Hal.40–48.
Elliott, G., Granger, C. W. J., & Timmermann, A. (2006). Handbook of economic
forecasting. Holland.

17
Elmenreich, W. (2007). Fusion of Continuous-Valued Sensor Measurements
using Confidence-Weighted Averaging. Journal of Vibration and Control,
Vol. 13(9-10), Hal.1303-1312.
Fildes, R., & Petropoulos, F. (2015).Simple versus complex selection rules for
forecasting many time series.Journal of Business Research, Vol. 68(8),
1692–1701.
Gao, K., Khoshgoftaar, T., & Wald, R. (2014). Combining Feature Selection and
Ensemble Learning for Software Quality Estimation. Proceedings of the
Twenty-Seventh International Florida Artificial Intelligence Research
Society Conference.
Goodwin, P., (2010). Correct or combine? Mechanically integrating judgmental
forecasts q with statistical methods. International Journal of Forecasting.
Vol. 16, hal. 261 – 275.
Hamill, T.M., dan Colucci, S.J., (1997). Verivication of Eta-RSM Short-Range
Ensemble Forecast. Monthly Weather Forecast, Vol. 125, hal. 1312 – 1327.
Han, J., & Kamber, M. (2012). Data Mining Concepts and Techniques Third
Edition. USA: Elsevier Inc.
Hoeting, J., Madigan, D., Raftery, A.E., dan Volinsky, C.T. (1999).
Bayesian Model Averaging: A Tutorial. Statistical Science, Vol. 14, Hal.
382–401.
Hydman, R. J. Yao, Q. (2002). Nonparametric estimation and symmetry tests for
conditional density functions. Journal of nonparametric statistics, Vol.14(3).
Hal. 259-278
Kapetanios, G.,Labhard, V.,dan Price, S., (2005). Forecasting Using Bayesian and
Information Theoretic Model Averaging : an Application to UK Inflation.
Working Paper No. 323. United Kingdom : Bank of England.
Kartasapoetra, A.G. (2008), Klimatologi: Pengaruh Iklim Terhadap Tanah
Dan Tanaman, Revisi Edition, PT. Bumi Aksara.
Kim, J.H. ((2009). Estimating classification error rate: Repeated Cross-Validation,
Repeated Hold-Out And Bootstrap. Computational Statistics & Data
Analysis, Vol.53(11), Hal.3735–3745
Kuswanto, H., (2010). New Calibration Method for Ensemble Forecast of Non-
Normally Distributed Climate Variables Using Meta-Gaussian Distribution.
Proceeding of The Third International Conference on Mathemathics and
Natural Sciences, hal. 932 – 939.
Kuswanto, H., dan Sari, M.R., (2013). Bayesian Model Averaging With Markov
Chain Monte Carlo For Calibrating Temperature Forecast From

18
Combination Of Time Series Models. Journal Of Mathematics And
Statistics, Vol. 9 (4), hal. 349 – 356.
Liu, D., Liu, R. Y., & Xie, M. (2015). Multivariate Meta-Analysis of
Heterogeneous Studies Using Only Summary Statistics: Efficiency and
Robustness .Journal of the American Statistical Association, Vol. 110(509),
Hal. 326-340.
Liu, D., Liu, R. Y., & Xie, M. (2015). Fusion Learning: Combining Inferences
From Multiple Studies/Data Sources. Second Workshop on BFF in ECNU,
Shanghai.
Liu, R., Parelius, J. M., dan Singh, K., (1999). Multivariate analysis by data depth
descriptive statistics, graphics and inference. Annals of Statistics, Vol. 27,
Hal. 783-858.
Makarenkov, V., Boc, A., Neto, P. P., Lapointe, F. J. & Legendre, P. (2010).
Weighted bootstrapping: a correction method for assessing the robustness
of phylogenetic trees. BMC Evolutionary Biology, Vol.10(250).
Norazan, M. R., Habshah, M. & Imon, A. H. M. R. (2009). Weighted Bootstrap
with Probability in Regression. Proceedings of the 8th WSEAS International
Conference on Applied Computer and Applied Computational Science.
Pagano, C., Granger, E., Sabourin, R., Marcialis, G. L., & Roli, F. (2014).
Dynamic Weighted Fusion of Adaptive Classifier Ensembles Based on
Changing Data Streams. Artificial Neural Networks in Pattern
Recognition, Hal. 105-116

Peng, X., Zheng, W., Zhang, D., Liu, Y., Lu, D., & Lin, L. (2017). A novel
probabilistic wind speed forecasting based on combination of the adaptive
ensemble of on-line sequential ORELM (Outlier Robust Extreme Learning
Machine) and TVMCF (Time-Varying Mixture Copula Function). Energy
Conversion and Management, Vol.138, Hal: 587–602
Raftery, A.E., Gneiting, T., Balabdoul, F., dan Polakowski, M., (2005). Using
Bayesian Model Averaging to Calibrate Forecast Ensembles. Monthly
Weather Review, Vol. 133, Hal. 1155 – 1174.
Ravazzolo, F., (2007). Forecasting Financial Time Series Using Model
Averaging. Rotterdam: Erasmus Universiteit Rotterdam.
Ribatet, M., Sauquet, E., Grésillon, J.M. & Ouarda, T.B.M.J. (2007). A Regional
Bayesian POT Model For Flood Frequency Analysis. Stoch Environmental
Res. Ris. Assess, Vol. 21, hal. 327-339. DOI: 10.1007/s00477-006-0068-z.
Springer Science+Business Media New York.

19
Sabourin, A., Naveau, P., dan Fougeres, A.L., (2013). Bayesian Model Averaging
For Multivariate Extremes. Extremes. DOI 10.1007/s10687-012-0163-0.
Springer Science+Business Media New York.
Schweder, T. & Hjort, N.L. (2002). Confidence And Likelihood. Scand. J. Stat.,
Vol.29, Hal.309–332
Serfling, R., (2004). Nonparametric multivariate descriptive measures based on
spatial quantiles. Journal of Statistical Planning and Inference, Vol. 123.
Singh, K., Xie, M. & Strawderman, W.E. (2005). Combining Information From
Independent Sources Through Confidence Distributions. Ann. Statist.
Vol.33, Hal.159–183.
Singh, K., Xie, M. & Strawderman, W.E. (2007). Confidence distribution (CD)-
distribution estimator of a parameter. In Complex Datasets and Inverse
Problems. IMS Lecture Notes-Monograph Series, Vol.54, Hal.132–150
Sloughter, J. M., Gneiting, T., dan Raftery, A. E., (2010). Probabilistic Wind
Speed Forecasting Using Ensembels And Bayesian Model Averaging.
Journal Of The American Statistical Association, Vol. 105.
Timmermann, A., (2000). Moments of Markov Switching Models. Journal of
Econometrics, Vo. 96, Hal. 75 – 111.
Vrugt, J.A., Diks, C.G.H., & Clark, M.P., (2008). Ensemble Bayesian Model
Averaging Using Markov Chain Monte Carlo Sampling. Environmental
Fluid Mechanics, Vol. 8, hal. 579 – 595.
Wang, J., & Hu, J. (2015). A Robust Combination Approach For Short-Term
Wind Speed Forecasting and Analysis Combination Of The ARIMA
(Autoregressive Integrated Moving Average), ELM (Extreme Learning
Machine), SVM (Support Vector Machine) and LSSVM (Least Square
SVM) forecasts using a GPR (Gaussian Process Regression) model.
Energy, Vol. 93, Hal : 41-56
Wang, J., & Serfling, R., (2005). Nonparametric multivariate kurtosis and
tailweight measures. Journal of Nonparametric Statistics, Vol. 17, Hal. 441-
456 259-278.
Wang S, Zhang N, Wu L, et al. Wind speed forecasting based on the hybrid
ensemble empirical mode decomposition and GA-BP neural network
method. Renew Energy 2016;94:629–36
Wei, W.W.S., (2006). Time Series Analysis Second Edition: Univariate and
Multivariate Methods (2nd eds). New York, United States of America:
Pearson Education.

20
Wilks, D.S., & Hamill, T.M., (2007). Comparison of Ensemble MOS Methods
Using GFS Reforecast. American Meteorological Society, Vol. 8, hal. 579 –
595.
Xie, T., (2017). Heteroscedasticity-Robust Model Screening: A Useful Toolkit
For Model Averaging In Big Data Analytics. Economics Letters, Vol. 151,
Hal. 119–122.
Xie, M. & Singh, K. (2013). Confidence Distribution, the Frequentist Distribution
Estimator of a Parameter: A Review. International Statistical Review ,
Vol.81(1), Hal.3–39.
Zaier, I., Shu, C., Ouarda, T.B.M.J., Seidou, O., & Chebana, F., (2010).
Estimation of Ice Thickness on Lakes Using Artificial Neural Network
Ensembles. Journal Of Hidrology, Vol. 383, hal. 330 -340.
Zhang, G. P., (2003). Time Series Forecasting Using a Hybrid ARIMA and
Neural Network Model. Neurocomputing. Vol. 50, hal. 159 -175.
Zhu, Y., (2005). Ensemble Forecast : A New Approach to Uncertainty and
Predictibility. Advance in Atmospheric Science, Vo. 22(6), hal. 781-788.

21

Anda mungkin juga menyukai