net/publication/316661764
CITATIONS READS
0 4,580
7 authors, including:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Natalis Ransi on 04 May 2017.
Abstrak
Kecelakaan lalu lintas kerap menjadi masalah utama dalam pemerintahan dan sosial karena
dapat menyebabkan kerugian dari segi biaya dan keselamatan manusia.DataMining telah terbukti
sebagai teknik yang dapat dipercaya untuk menganalisa data kecelakaan lalu lintas dan memberikan
hasil yang produktif. Kebanyakan analisis data kecelakaan lalu lintas, hanya terfokus
mengidentifikasi faktor-faktor yang mempengaruhi seberapa parah kecelakaan tersebut. Terkadang,
kecelakaan terjadi lebih sering pada suatu lokasi tertentu. Analisis pada lokasi tersebut dapat
membantu mengidentifikasi penyebab terjadinya kecelakaan yang membuat kecelakaan lalu lintas
lebih sering terjadi di lokasi tersebut. Dari 2620 data kecelakaan yang tercatat di dalam basis data
Resor Kendari, data tersebut diseleksi menjadi 500 data. Data tersebut kemudian dianalisis
menggunakan algoritma K-Means Clustering dengan bantuan aplikasi RapidMiner Studio. Hasil
analisis menunujukan frekuensi tingkat kecelakaan di tiap lokasi beserta waktu-waktu rawan yang
berpotensi terjadi kasus kecelakaan.
Nama
No. Nilai
Attribut Tahapan dalam melakukan data mining
1 Hari 1,....,7 salah satunya adalah preprosesing data yaitu
2 Bulan 1,....,12 data perlu di bersihkan sebelum diproses, hal
3 Jam 0,....,23
ini terjadi karena biasanya data yang akan
Lokasi
4
(no.lokasi)
1,....,171 digunakan belum baik.
Karakteristik lurus, tikungan, pertigaan, Teknik atau metode yang digunakan
5 dalam data preprocessing, diantaranya:
Jalan perempatan, tanjakan
6 Cuaca cerah, mendung, hujan 1. Data cleaning
Keadaan beraspal, tidak beraspal, Data cleaning adalah menghilangkan nilai-
7
Jalan rusak nilai data yang salah, memperbaiki kekacauan
Keadaan ramai, agak ramai, sedang, data dan memeriksa data yang tidak konsisten.
8
Lalu Lintas agak sepi, sepi Adapun beberapa teknik membersihkan data,
Kelurahan yakni mengisi missing value dan
9 (no. 1,....,71
mengidentifikasi atau membuang outlier.
kelurahan)
Kecamatan
a. Missing value adalah informasi yang tidak
10 (no. 1,....,16 tersedia untuk sebuah objek (kasus).
kecamatan) Missing value terjadi karena informasi
kawasan pemukiman, untuk sesuatu tentang objek tidak
kawasan pertokoan (mall), diberikan, sulit dicari, atau memang
Lingkungan
11
Sekitar
pusat perbelanjaan informasi tersebut tidak ada. Missing value
(pasar), tempat hiburan, pada dasarnya tidak bermasalah bagi
kawasan wisata, lain-lain keseluruhan data, apalagi jika jumlahnya
kab/kota, propinsi, hanya sedikit, misal hanya 1 % dari seluruh
12 Daerah
nasional,desa data. Namun jika persentase data yang
depan-samping, depan- hilang tersebut cukup besar, maka perlu
depan, depan-belakang,
Jenis tabrak manusia, tungal,
dilakukan pengujian apakah data yang
13 mengandung banyak missing tersebut
Kecelakaan tabrak lari, samping-
samping, beruntun, lain- masih layak diproses lebih lanjut ataukah
lain tidak.
batas kecepatan, tidak b. Data outlier (pencilan) adalah data yang
Kondisi tertib, lengah, pengaruh secara nyata berbeda dengan data-data yang
14
Pengendara alkohol, lelah, mengantuk, lain.
sakit
Dataset yang digunakan bersumber dari
data kecelakaan yang tercatat pada basis data
Resor Kendari. Sebanyak 2620 kasus
kecelakaan tercatat di dalam basis data
tersebut. Data tersebut kemudian diseleksi
menjadi 500 kasus kecelakaaan pada rentang
tahun 2010-2011 sebagai sampel dari data.
Dari 500 data tersebut, diperoleh171 lokasi
kecelakaan yang berbeda.
Untuk atribut yang digunakan pada data
ini dapat dilihat pada Tabel 1. Atribut-atribut Gambar 1 Missing Value dan Data Outlier
tersebut dipilih berdasarkaan faktor-faktor (Sumber : (missing value & outlier)
yang dianggap dapat mempengaruhi file.upi.edu/Direktori/FPIPS/.../Modul_Ana
kecelakaan secara signifikan dan juga lisis_Missing_Value_%26_Outlier.pdf)
mencocokan dengan atribut-atribut yang
digunakan pada data panggilan darurat 2. Data integrasi
ambulan tentang kecelakaan yang juga pernah
Menggabungkan data dari beberapa
digunakan untuk klasifikasi daerah rawan
sumber (database, data cube, atau file) ke
kecelakaan [9].
dalam penyimpanan data yang sesuai.
3. Data transformasi
Tabel 1. Daftar Atribut yang Digunakan
Title of manuscript is short and clear, implies research results (First Author)
60 Implementasi K-Means Clustering pada RapidMiner untuk Analisis Daerah…
RapidMiner merupakan
software/perangkat lunak untuk pengolahan
Algoritma K-Means merupakan data. Dengan menggunakan prinsip dan
algoritma klasterisasi yang mengelompokkan algoritma data mining, RapidMiner
data berdasarkan titik pusat klaster (centroid) mengekstrak pola-pola dari data set yang besar
terdekat dengan data. Tujuan dari K-Means dengan mengkombinasikan metode statistika,
adalah pengelompokkan data dengan kecerdasan buatan dan database.
memaksimalkan kemiripan data dalam satu RapidMiner memudahkan penggunanya
klaster dan meminimalkan kemiripan data dalam melakukan perhitungan data yang
antar klaster. Ukuran kemiripan yang sangat banyak dengan menggunakan operator-
digunakan dalam klaster adalah fungsi jarak. operator. Operator ini berfungsi untuk
Sehingga pemaksimalan kemiripan data memodifikasi data. Data dihubungkan dengan
didapatkan berdasarkan jarak terpendek antara node-node pada operator kemudian kita hanya
data terhadap titik centroid. tinggal menghubungkannya ke node hasil
Tahapan awal yang dilakukan pada untuk melihat hasilnya. Hasil yang
proses klasterisasi data dengan menggunakan diperlihatkan RapidMiner pun dapat
algoritma K-Means adalah pembentukan ditampilkan secara visual dengan grafik.
IJCCS Vol. x, No. x, July 201x : first_page – end_page
Rahmat dkk.IJCCSISSN: 1978-1520 61
Menjadikan RapidMiner adalah salah satu kami menggunakan konfigurasi data dan
software pilihan untuk melakukan ekstraksi operator seperti yang dapat terlihat pada
data dengan metode-metode data mining. Gambar 2.
Pada contoh kasus analisis data kecelakaan,
Analisis daerah rawan kecelakaan grafik frekuensi kecelakaan tiap lokasi. Dari
menggunakan RapidMiner dapat dilakukan total 171 lokasi yang ada, diketahui bahwa Jl.
dengan mudah. Kita juga dapat mengetahui A.Yani memiliki tingkat frekuensi kecelakaan
jumlah kasus kecelakaan yang terjadi di tiap mencapai 34 kasus.
lokasi yang berbeda. Untuk itu, data tersebut Tidak hanya itu, kami juga menganalisis
dapat dilihat pada gambar 3 yang menunjukan pengaruh dari atribut-atribut temporal (dalam
Title of manuscript is short and clear, implies research results (First Author)
62 Implementasi K-Means Clustering pada RapidMiner untuk Analisis Daerah…
hal ini bulan, hari, dan jam). Hubungan atribut bahwa analisis data kecelakaan menggunakan
tersebut juga dapat dilihat pada Gambar 5 aplikasi RapidMiner dapat mengekstraksi
dimana gambar tersebut berisi grafik beberapa informasi yang dibutuhkan untuk
hubungan antara bulan, hari dan jam terjadinya mengelompokkan data kecelakaan menjadi 3
kecelakaaan. buah kelompok/cluster dari 500 contoh data
kecelakaan. Hasil ekstraksi data juga
menunjukan tingkat frekuensi kecelakaan
pada tiap lokasi kejadian. Serta mengekstraksi
hubungan antara bulan, hari, dan waktu
terjadinya kecelakaan lalu lintas di kota
Kendari.
5. SARAN
DAFTAR PUSTAKA
Gambar 4. Frekuensi Lokasi Kejadian [1] Beshah, T., & Hill, S. (2010, March).
Mining Road Traffic Accident Data to
Improve Safety: Role of Road-Related
Factors on Accident Severity in
Ethiopia. In AAAI Spring Symposium:
Artificial Intelligence for Development.
[2] Bener, A., & Crundall, D. (2005). Road
traffic accidents in the United Arab
Emirates compared to Western
countries. In Advances in Transportation
Studies, Section A 6.
[3] Darccedil; in, A., & Buuml; lent, A.
(2010). A neural network (NN) model to
predict intersection crashes based upon
driver, vehicle and roadway surface
characteristics. Scientific Research and
Essays, 5(19), 2832-2836.
[4] Larose, D. T. (2014). Discovering
knowledge in data: an introduction to
data mining. John Wiley & Sons.
Gambar 5. Hubungan antara Bulan, Jam, dan [5] Tan, P. N. (2006). Introduction to data
Hari Kecelakaan mining. Pearson Education India.
[6] Ransi, N. (2014). Pengaplikasian
Dari grafik tersebut, dapat diketahui bahwa Algoritma Classification Based On
kecelakan di kota Kendari sering terjadi pada Predictive Association Rules Untuk
bulan Januari hingga bulan Juli pada hari-hari Analisa Karakteristik Kecelakaan Lalu
kerja seperti hari Senin-Jum’at dari jam 10 Lintas. Yogyakarta: Program Magister
pagi hingga jam 10 malam. Ilmu Komputer UGM.
[7] Yunanto, W., Hariadi, M., & Purnomo,
4. KESIMPULAN M. H. (2012). Pemetaan Kecelakaan
Lalu Lintas Berbasis Klasifikasi Naive
Dari hasil penelitian ini, dapat disimpulkan
IJCCS Vol. x, No. x, July 201x : first_page – end_page
Rahmat dkk.IJCCSISSN: 1978-1520 63
Title of manuscript is short and clear, implies research results (First Author)