Data Mining - Clusteringe

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/316661764
IMPLEMETASI K-MEANS CLUSTERING PADA RAPIDMINER UNTUK ANALISIS

DAERAH RAWAN KECELAKAAN
Conference Paper · April 2017
CITATIONS READS
0 4,580
7 authors, including:
Nurul Fajriani Natalis Ransi

Universitas Haluoleo Universitas Haluoleo
3 PUBLICATIONS 0 CITATIONS 9 PUBLICATIONS 1 CITATION
SEE PROFILE SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Data Warehouse of Halu Oleo University View project
Pattern Recognition View project
All content following this page was uploaded by Natalis Ransi on 04 May 2017.
The user has requested enhancement of the downloaded file.

Seminar Nasional Riset Kuantitatif Terapan 2017  58
Kendari, 8 April 2017
IMPLEMETASI K-MEANS CLUSTERING PADA

RAPIDMINER UNTUK ANALISIS DAERAH RAWAN
KECELAKAAN
Brilian Rahmat C.T.I.*1, Agum Agidtama Gafar2, Nurul Fajriani3, Umar Ramdani4,
Fitria Rihin Uyun5, Yuwanda Purnamasari P.6, Natalis Ransi7
*1,2,3,4,5,6,7
Jurusan Teknik Informatika, Universitas Halu Oleo – Kendari – Sulawesi Tenggara
email : *1it.brilian@gmail.com, 2superagum@gmail.com, 3nfajriani96@gmail.com,
4
umarramdhani24@gmail.com, 5fitriauyuun@gmail.com, 6yuwandapurnamasari@gmail.com,
7
natalis.ransi@uho.ac.id,
Abstrak
Kecelakaan lalu lintas kerap menjadi masalah utama dalam pemerintahan dan sosial karena
dapat menyebabkan kerugian dari segi biaya dan keselamatan manusia.DataMining telah terbukti
sebagai teknik yang dapat dipercaya untuk menganalisa data kecelakaan lalu lintas dan memberikan
hasil yang produktif. Kebanyakan analisis data kecelakaan lalu lintas, hanya terfokus
mengidentifikasi faktor-faktor yang mempengaruhi seberapa parah kecelakaan tersebut. Terkadang,
kecelakaan terjadi lebih sering pada suatu lokasi tertentu. Analisis pada lokasi tersebut dapat
membantu mengidentifikasi penyebab terjadinya kecelakaan yang membuat kecelakaan lalu lintas
lebih sering terjadi di lokasi tersebut. Dari 2620 data kecelakaan yang tercatat di dalam basis data
Resor Kendari, data tersebut diseleksi menjadi 500 data. Data tersebut kemudian dianalisis
menggunakan algoritma K-Means Clustering dengan bantuan aplikasi RapidMiner Studio. Hasil
analisis menunujukan frekuensi tingkat kecelakaan di tiap lokasi beserta waktu-waktu rawan yang
berpotensi terjadi kasus kecelakaan.
Kata kunci— K-Means Clustering, Kecelakaan Lalu Lintas, RapidMiner.
1. PENDAHULUAN tidak diduga, menemukan pola yang dapat

dipahami dan bermanfaat bagi pemilik data
K ecelakaan lalu lintas kerap menjadi

masalah utama dalam pemerintahan
dan sosial karena dapat menyebabkan
kerugian dari segi biaya dan keselamatan
manusia. Beshah [1] menyatakan bahwa setiap
[4]. Berbagai macam teknik data mining [5]
seperti teknik asosiasi [6], klasifikasi [7], dan
klastering [8] banyak digunakan dalam
menganalisis daerah rawan kecelakaan lalu
lintas.
tahun di seluruh dunia, ada lebih dari 1,2 juta Untuk dapat mengelompokkan data dan
orang meninggal dan 50 orang terluka akibat memberikan list (daftar) daerah rawan
kecelakaan. Sebuah studi yang dilakukan oleh kecelakaan yang dapat dijadikan informasi
Bener et al. [2] menyatakan bahwa penyebab bagi pengendara. Metode pengelompokkan K-
utama kematian setelah kardiovascular adalah Means digunakan untuk mengelompokkan
kecelakaan lalu lintas jalan. data-data yang memiliki ciri yang sama dan
Kecelakaan lalu lintas dipengaruhi mengelompokkannya ke dalam sebuah klaster.
beberapa faktor yang diakibatkan karena Oleh karena itu, dengan menggunakan
kondisi pengendara, karakteristik jalan, salah satu metode data mining, penelitian ini
lingkungan dan cuaca [3]. Sampai saat ini, dapat mengelompokkan daerah rawan
daerah rawan kecelakaan makin meningkat kecelakaan berdasarkan metode K-Means
yang mengakibatkan banyak korban. Clustering..
Dalam dunia ilmu komputer, dikenal luas
data mining sebagai teknik untuk meringkas 2. METODE PENELITIAN
data dengan cara yang berbeda dengan yang
biasa diterapkan, menemukan hubungan yang 2.1. Dataset
Received June 1 ,2012; Revised June 25 , 2012; Accepted July 10th, 2012
st th
Rahmat dkk.IJCCSISSN: 1978-1520  59
Nama
No. Nilai
Attribut Tahapan dalam melakukan data mining
1 Hari 1,....,7 salah satunya adalah preprosesing data yaitu
2 Bulan 1,....,12 data perlu di bersihkan sebelum diproses, hal
3 Jam 0,....,23
ini terjadi karena biasanya data yang akan
Lokasi
4
(no.lokasi)
1,....,171 digunakan belum baik.
Karakteristik lurus, tikungan, pertigaan, Teknik atau metode yang digunakan
5 dalam data preprocessing, diantaranya:
Jalan perempatan, tanjakan
6 Cuaca cerah, mendung, hujan 1. Data cleaning
Keadaan beraspal, tidak beraspal, Data cleaning adalah menghilangkan nilai-
7
Jalan rusak nilai data yang salah, memperbaiki kekacauan
Keadaan ramai, agak ramai, sedang, data dan memeriksa data yang tidak konsisten.
8
Lalu Lintas agak sepi, sepi Adapun beberapa teknik membersihkan data,
Kelurahan yakni mengisi missing value dan
9 (no. 1,....,71
mengidentifikasi atau membuang outlier.
kelurahan)
Kecamatan
a. Missing value adalah informasi yang tidak
10 (no. 1,....,16 tersedia untuk sebuah objek (kasus).
kecamatan) Missing value terjadi karena informasi
kawasan pemukiman, untuk sesuatu tentang objek tidak
kawasan pertokoan (mall), diberikan, sulit dicari, atau memang
Lingkungan
11
Sekitar
pusat perbelanjaan informasi tersebut tidak ada. Missing value
(pasar), tempat hiburan, pada dasarnya tidak bermasalah bagi
kawasan wisata, lain-lain keseluruhan data, apalagi jika jumlahnya
kab/kota, propinsi, hanya sedikit, misal hanya 1 % dari seluruh
12 Daerah
nasional,desa data. Namun jika persentase data yang
depan-samping, depan- hilang tersebut cukup besar, maka perlu
depan, depan-belakang,
Jenis tabrak manusia, tungal,
dilakukan pengujian apakah data yang
13 mengandung banyak missing tersebut
Kecelakaan tabrak lari, samping-
samping, beruntun, lain- masih layak diproses lebih lanjut ataukah
lain tidak.
batas kecepatan, tidak b. Data outlier (pencilan) adalah data yang
Kondisi tertib, lengah, pengaruh secara nyata berbeda dengan data-data yang
14
Pengendara alkohol, lelah, mengantuk, lain.
sakit
Dataset yang digunakan bersumber dari
data kecelakaan yang tercatat pada basis data
Resor Kendari. Sebanyak 2620 kasus
kecelakaan tercatat di dalam basis data
tersebut. Data tersebut kemudian diseleksi
menjadi 500 kasus kecelakaaan pada rentang
tahun 2010-2011 sebagai sampel dari data.
Dari 500 data tersebut, diperoleh171 lokasi
kecelakaan yang berbeda.
Untuk atribut yang digunakan pada data
ini dapat dilihat pada Tabel 1. Atribut-atribut Gambar 1 Missing Value dan Data Outlier
tersebut dipilih berdasarkaan faktor-faktor (Sumber : (missing value & outlier)
yang dianggap dapat mempengaruhi file.upi.edu/Direktori/FPIPS/.../Modul_Ana
kecelakaan secara signifikan dan juga lisis_Missing_Value_%26_Outlier.pdf)
mencocokan dengan atribut-atribut yang
digunakan pada data panggilan darurat 2. Data integrasi
ambulan tentang kecelakaan yang juga pernah
Menggabungkan data dari beberapa
digunakan untuk klasifikasi daerah rawan
sumber (database, data cube, atau file) ke
kecelakaan [9].
dalam penyimpanan data yang sesuai.
3. Data transformasi
Tabel 1. Daftar Atribut yang Digunakan
Title of manuscript is short and clear, implies research results (First Author)
60 Implementasi K-Means Clustering pada RapidMiner untuk Analisis Daerah…
Normalisasi dan pengumpulan data titik awal centroid cj Pada umumnya

sehingga menjadi sama. pembentukan titik awal centroid
4. Data reduksi dibangkitkan secara acak. Jumlah centroid cj
Menguraikan data ke dalam bentuk yang yang dibangkitkan sesuai dengan jumlah
lebih kecil ukurannya tetapi tetap klaster yang ditentukan di awal. Setelah k
menghasilkan hasil analitis yang sama. centroid terbentuk kemudian dihitung jarak
tiap data xi dengan centroid ke-j sampai k
5. Data diskretisasi dinotasikan dengan d(xi,cj). Terdapat
Bagian dari data reduksi tetapi memiliki beberapa ukuran jarak yang digunakan sebagai
arti penting tersendiri, terutama untuk data ukuran kemiripan suatu instance data, salah
numerik. satunya adalah jarak Euclid. Perhitungan jarak
Euclidean seperti pada Persamaan 4.
2.2. K-Means Clustering
Metode K-Means adalah salah satu
metode dalam fungsi clustering atau
pengelompokan. Menurut [19](Larose, 2005)
clustering mengacu pada pengelompokkan Duran dan Odell (1974) [13]
data, observasi atau kasus berdasar kemiripan menyatakan jika d(Xi,Cj) semakin kecil,
objek yang diteliti. Sebuah cluster adalah kesamaan antara dua unit pengamatan
suatu kumpulan data yang mirip dengan semakin dekat. Syarat menggunakan jarak
lainnya atau ketidakmiripan data pada Euclid adalah jika semua fitur dalam dataset
kelompok lain. Sedangkan [11](Xu & Wunsch tidak saling berkorelasi. Jika terdapat fitur
II, 2009) menjelaskan bahwa clustering adalah yang berkorelasi maka menggunakan konsep
membagi objek data (bentuk, entitas, contoh, jarak Mahalanobis.
ketaatan, unit) ke dalam beberapa jumlah Agusta (2007) [14] menyatakan
kelompok (grup, bagian atau kategori). kelanjutan dari jarak tersebut dicari yang
Du (2010) [12] menjelaskan bahwa terdekat sehingga data akanmengelompok
klasterisasi adalah proses membagi data yang berdasarkan centroid yang paling dekat.
tidak berlabel menjadi kelompok - kelompok Tahap berikutnya adalah update titik centroid
data yang memiliki kemiripan. Misalkan K dengan menghitung rata-rata jarakseluruh data
adalah jumlah klaster, C merupakan label terhadap centroid. Selanjutnya akan kembali
klaster, dan P merupakan dataset. lagi ke proses awal. Iterasi iniakan diulangi
Klasterisasi harus memenuhi kriteria terus sampai didapatkan centroidyang konstan
berdasarkan Persamaan (1), (2) dan (3). artinya titik centroid sudah tidakberubah lagi.
Atau iterasi dihentikan berdasarkan jumlah
iterasi maksimal yang ditentukan.
3. HASIL DAN PEMBAHASAN
RapidMiner merupakan
software/perangkat lunak untuk pengolahan
Algoritma K-Means merupakan data. Dengan menggunakan prinsip dan
algoritma klasterisasi yang mengelompokkan algoritma data mining, RapidMiner
data berdasarkan titik pusat klaster (centroid) mengekstrak pola-pola dari data set yang besar
terdekat dengan data. Tujuan dari K-Means dengan mengkombinasikan metode statistika,
adalah pengelompokkan data dengan kecerdasan buatan dan database.
memaksimalkan kemiripan data dalam satu RapidMiner memudahkan penggunanya
klaster dan meminimalkan kemiripan data dalam melakukan perhitungan data yang
antar klaster. Ukuran kemiripan yang sangat banyak dengan menggunakan operator-
digunakan dalam klaster adalah fungsi jarak. operator. Operator ini berfungsi untuk
Sehingga pemaksimalan kemiripan data memodifikasi data. Data dihubungkan dengan
didapatkan berdasarkan jarak terpendek antara node-node pada operator kemudian kita hanya
data terhadap titik centroid. tinggal menghubungkannya ke node hasil
Tahapan awal yang dilakukan pada untuk melihat hasilnya. Hasil yang
proses klasterisasi data dengan menggunakan diperlihatkan RapidMiner pun dapat
algoritma K-Means adalah pembentukan ditampilkan secara visual dengan grafik.
IJCCS Vol. x, No. x, July 201x : first_page – end_page
Menjadikan RapidMiner adalah salah satu kami menggunakan konfigurasi data dan
software pilihan untuk melakukan ekstraksi operator seperti yang dapat terlihat pada
data dengan metode-metode data mining. Gambar 2.
Pada contoh kasus analisis data kecelakaan,
Gambar 2. Konfigurasi RapidMiner

Data awalnya dilakukan preproses Setelah itu data kemudian dapat benar-benar
terlebih dahulu yaitu dengan mengganti di-cluster. Pada proses pengelompokkan itu
atribut-atribut yang memiliki nilai kosong sendiri, kami menentukan 3 titik centroid
dengan mengambil rata-rata nilai dari atribut secara random/acak.
tersebut. Setelah itu data dilakukan proses Dengan konfigurasi operator demikian,
penghilangan outlier. Ditentukan 10 outlier diketahui bahwa hasil klasterisasi data
yang dieksklusikan dari cluster/kelompok data menunjukkan 490 data yang dikelompokkan
yang lain. Kemudian data diseleksi dengan ke 3 cluster. Cluster pertama berjumlah 82
mengambil data yang bukan outlier yang kasus, cluster kedua berjumlah 295 kasus dan
berpotensi masuk ke dalam cluster tertentu. cluster ketiga berjumlah 113 kasus. Hubungan
Sebelum data benar-benar di-cluster, terlebih tiap kasus dengan titik centroid dari tiap
dahulu, dilakukan proses diskritisasi data cluster dapat dilihat pada Gambar 3. Gambar 4
dengan mengubah data nominal menjadi berisi grafik yang menunjukan hubungan
numerik dikarenakan dalam proses clustering, centroid dari tiap cluster.
data yang diproses haruslah data numerik.
Gambar 1. Hubungan Titik Centroid dari Tiap Cluster
Analisis daerah rawan kecelakaan grafik frekuensi kecelakaan tiap lokasi. Dari
menggunakan RapidMiner dapat dilakukan total 171 lokasi yang ada, diketahui bahwa Jl.
dengan mudah. Kita juga dapat mengetahui A.Yani memiliki tingkat frekuensi kecelakaan
jumlah kasus kecelakaan yang terjadi di tiap mencapai 34 kasus.
lokasi yang berbeda. Untuk itu, data tersebut Tidak hanya itu, kami juga menganalisis
dapat dilihat pada gambar 3 yang menunjukan pengaruh dari atribut-atribut temporal (dalam
62 Implementasi K-Means Clustering pada RapidMiner untuk Analisis Daerah…
hal ini bulan, hari, dan jam). Hubungan atribut bahwa analisis data kecelakaan menggunakan
tersebut juga dapat dilihat pada Gambar 5 aplikasi RapidMiner dapat mengekstraksi
dimana gambar tersebut berisi grafik beberapa informasi yang dibutuhkan untuk
hubungan antara bulan, hari dan jam terjadinya mengelompokkan data kecelakaan menjadi 3
kecelakaaan. buah kelompok/cluster dari 500 contoh data
kecelakaan. Hasil ekstraksi data juga
menunjukan tingkat frekuensi kecelakaan
pada tiap lokasi kejadian. Serta mengekstraksi
hubungan antara bulan, hari, dan waktu
terjadinya kecelakaan lalu lintas di kota
Kendari.
5. SARAN
Penelitian ini masih memiliki banyak

kekurangan. Diharapkan kepada para peneliti
yang lain untuk dapat menggunakan
penelitian ini sebagai bahan ilmiah untuk
melanjutkan analisis lokasi rawan kecelakaan
DAFTAR PUSTAKA
Gambar 4. Frekuensi Lokasi Kejadian [1] Beshah, T., & Hill, S. (2010, March).
Mining Road Traffic Accident Data to
Improve Safety: Role of Road-Related
Factors on Accident Severity in
Ethiopia. In AAAI Spring Symposium:
Artificial Intelligence for Development.
[2] Bener, A., & Crundall, D. (2005). Road
traffic accidents in the United Arab
Emirates compared to Western
countries. In Advances in Transportation
Studies, Section A 6.
[3] Darccedil; in, A., & Buuml; lent, A.
(2010). A neural network (NN) model to
predict intersection crashes based upon
driver, vehicle and roadway surface
characteristics. Scientific Research and
Essays, 5(19), 2832-2836.
[4] Larose, D. T. (2014). Discovering
knowledge in data: an introduction to
data mining. John Wiley & Sons.
Gambar 5. Hubungan antara Bulan, Jam, dan [5] Tan, P. N. (2006). Introduction to data
Hari Kecelakaan mining. Pearson Education India.
[6] Ransi, N. (2014). Pengaplikasian
Dari grafik tersebut, dapat diketahui bahwa Algoritma Classification Based On
kecelakan di kota Kendari sering terjadi pada Predictive Association Rules Untuk
bulan Januari hingga bulan Juli pada hari-hari Analisa Karakteristik Kecelakaan Lalu
kerja seperti hari Senin-Jum’at dari jam 10 Lintas. Yogyakarta: Program Magister
pagi hingga jam 10 malam. Ilmu Komputer UGM.
[7] Yunanto, W., Hariadi, M., & Purnomo,
4. KESIMPULAN M. H. (2012). Pemetaan Kecelakaan
Lalu Lintas Berbasis Klasifikasi Naive
Dari hasil penelitian ini, dapat disimpulkan
IJCCS Vol. x, No. x, July 201x : first_page – end_page
Bayes Dengan Parameter Infrastruktur

Jalan. Seminar on Intelligent
Technology and Its Applications
(SITIA). Surabaya.
[8] Iswari, L., & Ayu, E. G. (2016).
Pemanfaatan Algoritma K-Means Untuk
Pemetaan Hasil Klasterisasi Data
Kecelakaan Lalu Lintas. Jurnal Teknoin,
21(1).
[9] Kumar, S., & Toshniwal, D. (2016). A
Data Mining Approach To Characterize
Road Accident Locations. Journal of
Modern Transportation, 24(1), 62-72.
[10] Larose, D. T. (2005). An introduction to
data mining. Traduction et adaptation de
Thierry Vallaud.
[11] Xu, R., & Wunsch, I. I. DC (2009).
Clustering.
[12] Du, K. L. (2010). Clustering: A neural
network approach. Neural networks,
23(1), 89-107.
[13] Duran, Benjamin S. & P.L. Odell.
(1974). Cluster Analysis A Survey.
Springer-Verlag. Berlin, Heidelberg,
New York.
[14] Agusta, Y. (2007). K-Means-
Penerapan, Permasalahan dan Metode
Terkait. Jurnal Sistem dan Informatika,
3(1), 47-60.
View publication stats

Data Mining - Clusteringe

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining - Clusteringe

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

IMPLEMETASI K-MEANS CLUSTERING PADA RAPIDMINER UNTUK ANALISIS

Conference Paper · April 2017

Nurul Fajriani Natalis Ransi

SEE PROFILE SEE PROFILE

Data Warehouse of Halu Oleo University View project

Pattern Recognition View project

The user has requested enhancement of the downloaded file.

IMPLEMETASI K-MEANS CLUSTERING PADA

Kata kunci— K-Means Clustering, Kecelakaan Lalu Lintas, RapidMiner.

1. PENDAHULUAN tidak diduga, menemukan pola yang dapat

K ecelakaan lalu lintas kerap menjadi

Normalisasi dan pengumpulan data titik awal centroid cj Pada umumnya

3. HASIL DAN PEMBAHASAN

Gambar 2. Konfigurasi RapidMiner

Gambar 1. Hubungan Titik Centroid dari Tiap Cluster

Penelitian ini masih memiliki banyak

Bayes Dengan Parameter Infrastruktur

View publication stats

Anda mungkin juga menyukai