Anda di halaman 1dari 8

PEMODELAN POTENSI BANJIR KOTA MATARAM MENGGUNAKAN PENDEKATAN DATA

MINING DENGAN ALGORITMA C4.5


Flood Potential Modeling for Mataram City Using Data Mining Approach with C4.5
Algorithm

Toufani Rizal Alfarisi1*, I Made Budi Suksmadana2, Misbahuddin3


1 Jurusan Teknik Elektro, Fakultas Teknik, Universitas Mataram
2 Jurusan Teknik, Fakultas Teknik, Universitas Mataram
3 Jurusan Teknik Elektro, Fakultas Teknik, Universitas Mataram

* Korespondensi: No. telp/HP:085205036969, Email: mdbudisuk@unram.ac.id

ABSTRAK. Banjir merupakan bencana alam yang sering terjadi Kota Mataram dengan tujuh titik wilayah
rawan banjir. Sekarbela merupakan salah satu wilayah yang sering terkena bencana ini. Sistem deteksi
banjir yang ada saat ini hanya mampu mendeteksi ketinggian air pada sungai dengan jarak antara waktu
deteksi dan kejadian banjir sangat singkat. Pemanfaatan data mining sebagai salah satu solusi
peringatan dini kejadian banjir telah diterapkan oleh beberapa peneliti namun belum melakukan analisa
kinerja algoritma yang digunakan. Penelitian ini menerapkan algoritma data mining C4.5 untuk memahami
pola data rekaman iklim harian kota Mataram yang diperoleh dari BMKG tahun 2016-2017 sebagai
variabel masukan serta kejadian bencana banjir milik BPBD Mataram sebagai variabel target. Tahapan
data mining terdiri dari tiga langkah yaitu prapemrosesan data, pelatihan data dan evaluasi model dengan
metode hold-out dan k-fold cross validation. Hasil menunjukan akurasi 90% dan tingkat presisi model
meningkat drastis setelah diterapkan random oversampling yakni dari 5,6 % menjadi 93,4 % untuk holdout
dan dari 10,67% menjadi 95,33% untuk k-fold cross validation.
ABSTRACT. Flooding is a natural disaster that often happened in Mataram with seven points of flood
prone areas. Sekarbela is one of the areas that often affected by flooding. The available flood detection
system only has a capability to detect the height of the river water with the interval between detection time
and flood event is very short. The use of data mining as a solution for early warning system of flooding has
been applied by some researchers but not conducting analysis of the algorithm performance. This
research uses C4.5 algorithm to recognize the pattern inside of the daily wheater dataset of Mataram
obtained from BMKG in 2016 through 2017 as input variable and also flooding event data obtained from
BPBD of Mataram as target variable. The steps of data mining implementation consist of conducting data
preprocessing, training the dataset and evaluating the model with hold-out and k-fold cross validation
method. The results show 90% accuracy and the model precision after applying random oversampling
technique increases drastically from 5,6 % to 93,4 % for the hold-out and from 10,67 % to 95,33 % for k-
fold cross validation.
_____________________
Keywords: C4.5 algorithm, data mining, flooding, model evaluation, random oversampling

PENDAHULUAN

Banjir merupakan salah satu bencana alam yang sering terjadi di Kota Mataram khususnya
kecamatan Sekarbela. Kota Mataram memiliki tujuh titik wilayah rawan banjir dan wilayah yang paling
sering terkena bencana ini adalah kecamatan tersebut (Republika, 2017). Namun, sistem yang ada saat
ini hanya mampu mendeteksi banjir berdasarkan ketinggian air pada sungai sehingga jarak kejadian banjir
antara peringatan dikeluarkannya informasi banjir dengan kejadian banjir sangat singkat. Pengurangan
resiko akibat banjir penting untuk dilakukan dengan cara melakukan pemantauan, prediksi, deteksi dan
peringatan dini secara tepat (Aziz, 2011). Data mining memberikan komputer kemampuan untuk belajar
membuat keputusan berdasarkan data masa lalu dan juga dapat diterapkan untuk memodelkan atau
memprediksi potensi banjir di suatu daerah. Penelitian terdahulu memanfaatkan teknik data mining untuk
memprediksi potensi banjir dengan membuat sistem peringatan dini banjir (early warning system) secara
real time menggunakan algoritma C4.5 di daerah Batu Busuk, kota Padang (Putra 2016). Akan tetapi,
penelitian tersebut belum mampu menjelaskan kinerja dari model yang dihasilkan oleh algoritma C4.5
dalam memprediksi potensi banjir secara mendalam. Pemodelan potensi banjir dengan pendekatan data
mining sangat diperlukan agar suatu saat dapat diterapkan pada sistem nyata (real time system) seperti
stasiun cuaca yang dapat memberikan informasi mengenai potensi banjir.
Data mining merupakan aktifitas untuk pengumpulan dan penggunaan data historis dalam rangka
untuk menemukan pola atau korelasi dalam data yang berukuran besar yang mana keluarannya
digunakan untuk membantu pengambilan keputusan di masa depan (Mujiasih, 2011). Data mining
berhasil diterapkan pada berbagai bidang dan proses inti pada data mining adalah untuk mendapatkan
pengetahuan dari kumpulan data dan mengubahnya menjadi struktur yang dapat dipahami (Lee & Siau,
2001). Santosa (2007) menjabarkan data mining terdiri atas gabungan dari beberapa disiplin ilmu yakni
statistik, visualisasi, database, dan machine learning. Secara sistematis, terdapat beberapa langkah
utama dalam data mining yaitu: eksplorasi/papemrosesan data, membangung model dan melakukan
validasi serta implementasi model pada data baru (Gorunescu, 2011). Data mining memberian cara
komputer untuk belajar bagaimana membuat keputusan berdasarkan data yang mana keputusan tersebut
dapat memprediksi cuaca keesokan harinya, memblokir sebuah email spam di dalam inbox dan
mendeteksi bahasa yang digunakan (Suryanto, 2017). Algoritma C4.5 memanfaatkan konsep entropy
untuk membuat pohon keputusan dengan mengubah tabel data menjadi sebuah pohon keputusan
(Agrawal & Gupta, 2013). C4.5 memetakan nilai atribut menjadi kelas yang dapat diterapkan untuk
klasifikasi baru (Xindong & Kumar, 2009). Larose (2006) menjabarkan beberapa tahapan dalam membuat
sebuah pohon keputusan dalam algoritma C4.5 yaitu: mempersiapkan data training ,menghitung akar dari
pohon, menghitung nilai gain dari setiap variabel dan mempartisi semua record.
Oleh karena itu, penelitian ini bertujuan untuk menerapkan teknik data mining untuk memodelkan
atau memprediksi potensi banjir kota Mataram dengan algoritma C4.5 serta mengevaluasi kinerja atau
unjuk kerja model yang dihasilkan dalam memprediksi atau memodelkan potensi banjir kota Mataram.

BAHAN DAN METODE

Kebutuhan perangkat lunak

Penelitian ini mengunakan perangkat lunak atau aplikasi yang mendukung prapemrosesan
data, perancangan serta evaluasi model seperti:
1. Aplikasi jupyterlab (berbasis python v.3.6) digunakan untuk keperluan data processing,
konstruksi pohon dan evaluasi model
2. Web browser digunakan untuk menjalankan aplikasi jupyterlab
Kebutuhan data dan informasi

dataset diperoleh dari badan meteorologi, klimatologi dan geofisika (BMKG) yang berupa
data pengukuran cuaca harian khusus kota Mataram tahun 2016-2017 sebagai variabel masukan
algoritmanya. Sementara itu, data kejadian bencana banjir di Kota Mataram didapatkan dari
BPBD Kota Mataram dan media online yang memberitakannya. Adapun struktur dataset yang
dimaksud adalah sebagai berikut.

Tabel 1. Struktur dataset yang diguakan untuk pembuatan model pohon keputusan

Variabel Tipe Data Keterangan

Tanggal datetime Berisi tanggal, bulan dan tahun.

Suhu minimum Float Suhu terendah dalam satuan cecius (oC).

Suhu rata-rata Float Suhu rata-rata dalam satuan celcius (oC).

Suhu maksimum Float Suhu tertinggi dalam satuan celcius (oC).

Kelembapan rata-rata Float Kelembapan dalam satuan persen (%).

Curah hujan Integer Curah hujan harian dalam satuan milimeter (mm).
Durasi waktu selama penyinaran dalam satuan
Lama Penyinaran Integer
jam.
Kecepatan angin rata-rata Integer Kecepatan angin dalam satuan knot.

Arah angin terbanyak String / category arah mata angin.

Kecepatan angin maksimum yang terukur dalam


Kecepatan angin terbesar Integer
satuan knot.
Arah angin saat kecepatan Indikator arah angin saat kecepatan tertinggi
Integer
maksimum dalam satuan derajat (deg)
Status keadaan banjir suatu wilayah. Datanya
Status banjir String / category
dapat direpresentasian dengan 1 dan 0.

Tahapan penelitian

Penelitian ini dibagi menjadi beberapa tahapan utama yaitu:


1. Prapenelitian, dimulai dari melakukan studi literatur atau pendahuluan dalam rangka
mengidentifikasi masalah yang ada dan pengumpulan data rekaman pengukuran cuaca
harian BMKG tahun 2016-2017, data kejadian banjir dari BPBD Mataram dan media online.
2. Melakukan data preprocessing (prapemrosesan data) yang bertujuan untuk meningkatkan
kualitas data sehingga hasil data mining menjadi lebih baik. Pada penelitian ini, data
diperoses melalui 4 tahapan: data cleaning (pembersihan data yang hilang dan data
pencilan), data integration (proses penggabungan data dari berbagai sumber), data
transformation (pengubahan bentuk atau forma data asli), data selection (pemecahan
dataset ke dalam data training dan testing) dan data sampling (pencuplikan data).

3. Konstruksi model dengan algoritma C4.5 dengan melakukan pelatihan terhadap data-data
yang telah didapatkan untuk membentuk model pohon keputusan. Proses pada pohon
keputusan adalah mengubah bentuk data (tabel) menjadi model pohon kemudian mengubah
model pohon menjadi aturan (rule). Adapun tahapan-tahapan dalam membangun model
pohon keputusan dengan algoritma C4.5 yaitu:
a. Memilih variabel sebagai akar yang didasarkan pada nilai gain tertinggi dari variabel
yang ada berdasarkan nilai entropy.
b. Membuat cabang untuk masing-masing kasus/nilai.
c. Membagi kasus/nilai dalam cabang.
d. Mengulangi proses tersebut sampai dengan semua kasus pada cabang memiliki
kelas yang sama.

4. Melakukan Pengujian kinerja model hasil pelatihan untuk mendapatkan tingkat akurasi,
presisi, recall dan error rate dalam memprediksi atau memodelkan potensi banjir. Metode
pengujian yang digunakan ada 2 yaitu hold-out dan k-fold cross validation. Metode
pengujian hold-out memecah dataset menjadi 2 bagian yaitu bagian training (digunakan
untuk membuat model) dan bagian testing (digunakan untuk menguji model hasil pelatihan)
dengan rasio tertentu. Sementara k-fold cross validation memecah dataset menjadi k partisi
dengan ukuran sama yang mana beberapa subset/partisi (k) digunakan untuk membuat
model pelatihan dan subset lainnya (k-1) digunakan untuk testing. Jika kinerja model yang
dihasilkan tidak sesuai dengan yang diharapkan, maka akan dilakukan tahapan
prapemrosesan data kembali.

Analisis data

Hasil pengujian model yang dihasilkan dari algoritma C4.5 dituangkan dalam bentuk
confusion matrix yang merupakan matriks yang merepresentasikan kuantitas dan kualitas
prediksi yang dilakukan. Artinya bahwa pengujian yang dilakukan akan mengukur berapa jumlah
prediksi benar yang berhasilkan dipetakan model serta berapa prediksi yang salah (miss
classification).
Tabel 2. Confusion matrix untuk dua kelas

Kelas hasil prediksi


fij
Positif Negatif
Positif True Positive (TP) False Negative (FN)
Kelas asli
Negatif False Positive (FP) True Negative (TN)

Dengan mengetahui jumlah prediksi yang benar dan salah, dapat dihitung kinerja model
seperti nilai akurasi, presisi kelas banjir dan tidak banjir, nilai error rate yang dihasilkan dan waktu
komputasi untuk membangun model melalui metode pengujian hold-out dan k-fold cross
validation. Jumlah data yang dilatih akan divariasikan sementara jumlah data testing tetap
sehingga dapat dianalisa model yang memiliki kinerja terbaik. Adapun variasi pemecahan dataset
(rasio) untuk penguijan hold-out yaitu: 30:30, 40:30, 50:30, 60:30 dan 70:30. Sementara itu,
dilakukan validasi bersilang (cross validation) sebanyak 4, 6 dan 8 subset (iterasi) untuk
pengujian k-fold cross validation.

HASIL DAN PEMBAHASAN

Implementasi algoritma C4.5

Gambar 1. Visualisasi pohon keputusan dengan jumlah data training sebesar 70%.

Gambar di atas merupakan visualisasi dari sebagian pohon keputusan yang dihasilkan
dengan jumlah data training sebesar 70% dari dataset. Artinya bahwa jumlah data training yang
digunakan untuk membuat pohon keputusan sebesar 507 sampel data. Pohon keputusan
tersebut memiliki 26 node cabang, 27 leaf node dan 1 root node. Pada setiap kotak, terdapat 5
parameter yaitu variabel berserta nilainya, entropy, samples, value dan class.
Pengujian model dengan hold-out dan k-fold cross validation

Kinerja model dalam prediksi setelah diuji dengan metode hold-out memiliki akurasi rata-
rata yang tinggi yaitu sebesar 94,93%. Akurasi tertinggi dengan error rate paling minim
didapatkan saat jumlah data training yang digunakan sebesar 60% dari total keseluruhan dataset.
Hal ini karena jumlah prediksi benar yang dilakukan paling banyak serta jumlah kesalahan
prediksi yang paling sedikit daripada pelatihan dengan jumlah data training lainnya. Sementara
untuk model yang diuji dengan metode k-fold cross validation, akurasi rata-rata yang dihasilkan
tinggi yaitu sebesar 92,60%. Fenomena yang muncul setelah pengujian adalah bahwa semakin
besar jumlah subset yang digunakan, kinerja model dari segi akurasi cendrung menurun dan
waktu komputasi yang semakin lama.
Untuk pengujian model dengan kedua model, kepresisian dalam memprediksi banjir sangat
kecil yaitu rata-rata di bawah 20%. Hal ini disebabkan karena terdapat ketidakseimbangan pada
nilai variabel keluaran yang akan diprediksi.
Penerapan Random Oversampling untuk Memprebaiki Kinerja Model

Kinerja model dapat ditingkatkan dengan menerapkan teknik random oversampling yang
mampu mengatasi sebaran kelas data (banjir dan tidak banjir) yang tidak seimbang. Jumlah
kelas banjir merupakan kelas minoritas sementara kelas tidak banjir merupakan kelas mayoritas.
Hasilnya adalah tingkat kepresisian dalam memprediksi banjir menjadi tinggi yaitu rata-rata
bernilai 85% untuk hold-out dan 96,52%
Perbandingan Metode Hold-out dan K-fold Cross validation
Tabel 3. Perbandingan kinerja model antara pengujian hold-out dan k-fold cross validation

Nilai rata-rata
Presisi (%)
Durasi
Akurasi (%) No Yes Error rate (%)
Training (ms)
banjir banjir
Hold-out 93,55 97,8 5,6 6,45 3,431
K-fold Cross validation 92,60 97 10,67 6,89 5,385
Hold-out oversampling 96,52 100 93,4 3,48 4,281
K-fold Cross validation oversampling 97,83 100 95,33 2,17 6,291

Tabel 3 menjelaskan bahwa model yang diuji dengan metode hold-out menunjukan kinerja
yang lebih baik dari pada dari pada k-fold cross vadiation karena memiliki tingkat akurasi dan
presisi yang lebih tinggi, error rate yang lebih rendah serta waktu komputasi yang lebih cepat.
Setelah diterapkan oversampling, akurasi model dengan dua metode pengujian tersebut
mengalami pengingkatan. Tingkat kepresisian dalam memprediksi banjir (yes banjir) meningkat
drastis yaitu di atas 90%. Teapi, waktu komputasi setelah oversampling menjadi lebih lama
dalam membentuk model.

Gambar 2. Perbandingan akurasi antara metode hold-out sebelum oversampling dengan setelah
oversampling

Gambar 3. Perbandingan akurasi antara metode k-fold cross validation sebelum oversampling
dengan setelah oversampling
KESIMPULAN DAN SARAN
Model yang dibangun menggunakan algoritma C4.5 dari tahapan prapemrosesan data, pelatihan
dan evaluasi dengan metode hold-out dan k-fold cross validation mampu melakukan pemodelan/prediksi
dengan akurasi di atas 90%. Metode pengujian hold-out menunjukan kinerja model yang lebih baik dari
pada metode k-fold cross validation karena menghasilkan akurasi lebih tinggi sebesar 93,55% dan waktu
komputasi yang lebih cepat yaitu sebesar 3,431 ms. Penerapan randon oversampling meningkatkan
tingkat kepresisian model menjadi di atas 90% tetapi cendrung memperlambat proses komputasi.
Sebaiknya perlu dilakukan penelitian lebih lanjut lagi mengenai cara mengatasi data imbalance
pada kasus prediksi atau pemodelan potensi banjir untuk meningkatkan kinerja model dengan
menerapkan metode-metode lain seperti random undersampling dan synthetic minority oversampling
method (SMOTE).

DAFTAR PUSTAKA
Aziz NAA. 2011. Managing Disaster with Wireless Sensor Network. ICACT2011
Gaurav L. Agrawal, Hitesh Gupta. 2013. Optimization of C4.5 Decision Tree Algorithm for Data Mining Application.
IJTAE 2013. ISSN 2250-2459 Volume 3,Issue 3, March.2013.
Larose DT. 2006. Data Mining Methods and Models. New Jersey: John Willey & Sons, Inc. Hoboken.
Putra R. 2016. Desain dan Implementasi Peringatan Dini Banjir Menggunakan Data Mining dengan Wireless Sensor
Network. Jurnal Nasional Teknik Elektro 181-191.
Mujiasih S. 2011. Pemanfaatan Data Mining untuk Prakiraan Cuaca. Jurnal Meteorologi dan Geofisika BMKG.
Larose, Daniel T. 2006. Data Mining Methods and Models. New Jersey: John Willey & Sons, Inc. Hoboken.
Santosa B. 2007.Data mining:Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu
Sun Jun Lee, Keng Siau. 2001. A review of datamining techniques, Industrial Manajement and Data System.
Suryanto S. 2017. Data Mining untuk Klasifikasi dan Klasterisasi Data. Bandung: Informatika Bandung.
Republika. 16-11-2017. Titik Banjir Mataram Bertambah. Republika, 16 November 2017.
http://nasional.republika.co.id/ diakses: 8 Mei 2018
Xindong Wu, Vipin Kumar. 2009. The Top Ten Algorithms in Data Mining. Florida: CRC Press

Anda mungkin juga menyukai