Anda di halaman 1dari 5

BAB I

PENDAHULUAN
1.1 Latar Belakang
Data hidrologi khususnya data curah hujan yang diamati
pada periode tertentu seringkali tidak tersedia, atau dengan kata
lain terdapat data missing. Ketidaktersediaan data tersebut
menjadi masalah penting untuk proses pengolahan data
selanjutnya. Adanya data missing akan mengurangi informasi
yang terkandung pada data. Oleh karena itu, kebutuhan kualitas
data hidrologi khususnya data curah hujan untuk perencanaan,
pengembangan, dan pengelolaan sumber daya air menjadi
semakin penting.
Pengumpulan data curah hujan menjadi tidak lengkap
(terdapat data missing) disebabkan oleh beberapa hal, antara lain :
perubahan tipe sensor atau instrumen, perubahan penentuan
waktu observasi, kelalaian petugas pencatat, pemburukan sensor,
penuaan bearing pada anemometer, penggunaan koefisien
kalibrasi yang tidak tepat, variasi dalam supply power,
pertumbuhan pohon (tanaman tinggi) atau konstruksi bangunan
(pagar) di dekat rain gauge, anemometer, atau evaporation pan,
perubahan lokasi stasiun curah hujan, perubahan air, tipe, atau
pemeliharaan vegetasi pada kedekatan stasiun curah hujan, dan
perubahan signifikan pada air atau tipe vegetasi wilayah yang
mengelilingi stasiun curah hujan.
Pada dasarnya data missing tidak bermasalah bagi
keseluruhan data, apalagi jika jumlahnya hanya sedikit, misal
hanya sekitar 1% dari seluruh data. Namun jika persentase data
yang missing tersebut cukup besar (sekitar 30%), maka perlu
dilakukan pengujian apakah data yang mengandung banyak
missing tersebut masih layak diproses lebih lanjut atau tidak
(Santoso, 2002). Terdapat tiga pola data missing, antara lain : (1)
pola data missing univariat yaitu data missing hanya terletak pada
satu variabel, (2) pola data missing monoton, yaitu data missing
1

2
mempunyai pola khusus, dan (3) pola data missing umum tanpa
struktur khusus, yaitu data missing tidak mempunyai pola khusus.
Dalam kasus penanganan data missing, analisis statistik
yang standar sulit digunakan untuk menduga parameter-parameter
yang ada sehingga perlu menemukan bentuk alternatif untuk
menyelesaikannya. Analisis data semacam ini sering dilakukan
dengan terlebih dulu melakukan pendugaan data missing seperti
yang dibahas Hartley (1958) mengenai pendugaan maximum
likelihood untuk data missing. Demikian juga Hartley dan
Hocking (1971) yang membahas tentang analisis data missing.
Seringkali persoalan estimasi pada Maximum Likelihood
Estimation (MLE) membutuhkan algoritma iteratif dan hasil
iterasinya mempunyai limit yang dapat menjawab pemaksimuman
likelihood permasalahan semula. Algoritma iteratif tersebut
dinamakan Expectation Maximization (EM) algorithm (Casella
and Berger, 2002). Beberapa peneliti yang telah menerapkan
pengisian data missing antara lain : Maximum Likelihood
Estimation (MLE) untuk data missing oleh Dempster et al.
(1977), analisis missing data curah hujan dengan estimasi nilai
mean, matriks kovarians, serta pengisian data missing oleh
Schneider (2000), penyelesaian optimasi fungsi likelihood dengan
algoritma ekspektasi maksimum oleh Sudiarsa (2001), pemodelan
farmakokinetika populasi dan individu menggunakan algoritma
EM nonparametrik dan analisis bayesian oleh Prastyo (2008),
serta pendugaan dan uji hipotesis untuk vektor mean dan matriks
kovarians pada data tidak lengkap oleh Rini (2002).
Selain menggunakan EM algorithm, pendugaan data
tidak lengkap (data missing) dapat dilakukan dengan analisis
regresi (Teixeira, 2003). Metode ini membutuhkan dua obyek
dimana obyek pertama (X) sebagai obyek yang memiliki data
lengkap dan obyek kedua (Y) sebagai obyek yang memiliki data
tidak lengkap (terdapat data missing). Sebelum menggunakan
metode analisis regresi, kedua obyek tersebut harus memenuhi
asumsi kerandoman, kehomogenan, dan kedua obyek mempunyai
korelasi cukup tinggi. Setelah ketiga asumsi tersebut terpenuhi,

3
langkah selanjutnya adalah meregresikan X dan Y untuk periode
dimana data pada kedua obyek (X dan Y) tersedia. Persamaan
regresi yang diperoleh dapat digunakan untuk menduga data tidak
lengkap pada obyek kedua (Y).
Oleh karena penelitian tentang pengisian data missing
masih sangat terbatas, maka dilakukan penelitian pengisian
missing data curah hujan. Lokasi penelitian yang digunakan
adalah stasiun curah hujan di Kabupaten Subang, Indramayu, dan
Karawang. Hasil penelitian diharapkan dapat menentukan metode
yang sesuai dengan karakteristik data dan mendapatkan dugaan
yang mempunyai presisi dan akurasi tinggi. Metode yang
digunakan untuk pengisian missing data curah hujan di tiga
kabupaten tersebut adalah analisis regresi dan Expectation
Maximization (EM) algorithm. Penggunaan kedua metode
tersebut karena kedua metode tersebut yang dapat diterapkan pada
tiga pola data missing, yaitu pola data missing univariat, monoton,
dan umum tanpa struktur khusus.
1.2 Perumusan Masalah
Berdasarkan latar belakang di atas, maka permasalahan
yang dibahas pada penelitian ini adalah :
1. Bagaimana prosedur pengisian missing data curah hujan
dengan analisis regresi dan EM algorithm ?
2. Bagaimana karakteristik data yang digunakan untuk pengisian
missing data curah hujan dengan analisis regresi dan EM
algorithm ?
3. Bagaimana kehandalan metode analisis regresi dan EM
algorithm dalam menangani missing data curah hujan ?

4
1.3 Tujuan Penelitian
Tujuan melakukan penelitian ini adalah sebagai berikut :
1. Mengkaji prosedur pengisian missing data curah hujan
dengan analisis regresi dan EM algorithm.
2. Mengidentifikasi karakteristik data yang digunakan untuk
pengisian missing data curah hujan dengan analisis regresi
dan EM algorithm.
3. Membandingkan kehandalan metode analisis regresi dan EM
algorithm dalam menangani missing data curah hujan.

1.4 Manfaat Penelitian


Beberapa manfaat yang diharapkan pada penelitian ini
antara lain :
1. Penulis memperoleh pengetahuan akademis dan pengalaman
praktis untuk menyelesaikan masalah data missing.
2. Dengan dibahasnya permasalahan data missing diharapkan
dapat memberikan suatu alternatif terhadap penyelesaian
masalah pendugaan untuk data missing.
3. Hasil penelitian ini diharapkan dapat memberikan efisiensi
kerja dalam analisis data penelitian dengan data missing dan
untuk memberikan sumbangan pemikiran dalam memperluas
wawasan mengenai data missing.
4. Bagi pengguna penelitian, hasil penelitian ini dapat
digunakan oleh Badan Meteorologi Klimatologi dan
Geofisika (BMKG), Lembaga Penerbangan dan Antariksa
Nasional (LAPAN), dan instansi lainnya dimana peneliti
sering menghadapi data missing.

5
1.5 Batasan Masalah
Agar penelitian ini lebih mudah dan terfokus maka perlu
batasan masalah. Batasan masalah penelitian ini yaitu :
1. Metode analisis regresi dan EM algorithm hanya digunakan
untuk pengisian missing data curah hujan. EM algorithm
dilakukan dengan tahap prediksi (prediction step), sedangkan
tahap estimasi (estimation step) tidak dilakukan.
2. Pada penelitian ini menggunakan Kabupaten Subang,
Indramayu, dan Karawang dengan pola curah hujan monsun.