Anda di halaman 1dari 73

SKRIPSI

KLASTERISASI DAERAH RAWAN KECELAKAAN LALU


LINTAS DI KOTA SEMARANG MENGGUNAKAN
CHEBYSHEV DISTANCE K-MEANS

CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN


SEMARANG USING CHEBYSHEV DISTANCE K-MEANS

Diajukan untuk memenuhi salah satu syarat


Memperoleh gelar Sarjana Teknik Informatika

Disusun Oleh :

Nama : M. Abdillah Luthfi


NIM : A11.2012.07225
Program Studi : Teknik Informatika-S1

FAKULTAS ILMU KOMPUTER


UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2016
PERSETUJUAN SKRIPSI

Nama : M. Abdillah Luthfi


NIM : A11.2012.07225
Program Studi : Teknik Informatika-S1
Fakultas : Ilmu Komputer
Judul Tugas Akhir : Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di
Kota Semarang Menggunakan Chebychev Distance K-
Means.

Tugas Akhir ini telah diperiksa dan disetujui,


Semarang, Oktober 2016

Menyetujui : Menyetujui :
Pembimbing Dekan Fakultas Ilmu Komputer

Purwanto, Ph.D Dr. Abdul Syukur


NPP.0686.11.1994.051 NPP.0686.11.1992.017

ii
PENGESAHAN DEWAN PENGUJI

Nama : M. Abdillah Luthfi


NIM : A11.2012.07225
Program Studi : Teknik Informatika-S1
Fakultas : Ilmu Komputer
Judul Tugas Akhir : KLASTERISASI DAERAH RAWAN KECELAKAAN
LALU LINTAS DI KOTA SEMARANG
MENGGUNAKAN CHEBYSHEV DISTANCE K-
MEANS

Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir pada Oktober 2016. Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar
Sarjana Komputer (S.Kom).

Semarang, Oktober 2016


Dewan Penguji :

Penguji 1 Penguji 2
Anggota Anggota

Hanny Haryanto,S.Kom,M.T Edy Mulyanto, S.Si, M.Kom


NPP. 0686.11.2009.371 NPP.0686.11.1993.040

Penguji 3
Ketua Penguji

Setia Astuti, S.Si, M.Kom


NPP. 0686.11.1994.058

iii
PERNYATAAN KEASLIAN SKRIPSI

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah


ini, saya :
Nama : M. Abdillah Luthfi
NIM : A11.2012.07225
Menyatakan bahwa karya ilmiah saya yang berjudul :
KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI
KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE
K-MEANS
merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll).
Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya,
dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang
Pada tanggal : Oktober 2016
Yang menyatakan

(M. Abdillah Luthfi)

iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS

Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah


ini, saya :
Nama : M. Abdillah Luthfi
NIM : A11.2012.07225
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul :
KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI
KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE
K-MEANS
Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti Non-
Eksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy,
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data
(database), mendistribusikannya dan menampilkan/ mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.

Dibuat di : Semarang
Pada tanggal : Oktober 2016
Yang menyatakan

(M. Abdillah Luthfi)

(M. Abdillah Luthfi)

v
KATA PENGANTAR

Alhamdulillah, puji syukur kehadirat Allah SWT yang telah


melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada
Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas
Akhir ini dengan judul Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas
di Kota Semarang Menggunakan Chebyshev Distance K-Means dengan baik
tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi
syarat kelulusan akademik.
Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari
berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada
waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesar-
besarnya kepada semua pihak yang telah membantu dalam proses
penyusunan Tugas Akhir ini, yaitu kepada :
1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan
menyelesaikan Tugas Akhir ini.
2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas
Dian Nuswantoro.
3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu
Komputer Universitas Dian Nuswantoro.
4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik
Informatika Fakultas Ilmu Komputer Universitas Dian
Nuswantoro.
5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang
dengan sabar selalu memberikan arahan, bimbingan dan
motivasi dalam penyusunan Tugas Akhir ini.
6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik
Informatika Universitas Dian Nuswantoro Semarang yang telah
memberikan ilmu dan pengalamannya masing-masing,
sehingga penulis dapat mengimplementasikan ilmu yang telah
disampaikan.

vi
7. Kedua Orang Tua yang selalu saya cintai dan banggakan.
8. Semua pihak yang namanya tidak dapat disebutkan satu per
satu.

Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas


Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis
sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran
maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan
yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat
bagi semua pihak. Amin

Semarang, Oktober 2016

Penulis

vii
ABSTRAK

Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi
penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia
sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia
dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah
satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di
masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas
yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu
lintas terjadi karena masyarakat modern menempatkan transportasi sebagai
kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan
penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status
daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas
Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma K-
Means klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster
berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan
kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat
dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas.
Dalam penelitian ini dilakukan pengelompokkan data menggunakan
Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam
kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih
optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena
nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416
lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426.

Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone
Areas.

viii
DAFTAR ISI

HALAMAN JUDUL................................................................................................ i
PERSETUJUAN SKRIPSI ..................................................................................... ii
PENGESAHAN DEWAN PENGUJI .................................................................... iii
PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS .............................................................................. v
KATA PENGANTAR ........................................................................................... vi
ABSTRAK ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ............................................................................................ xii
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 4
1.3 Batasan Masalah ....................................................................................... 4
1.4 Tujuan Penelitian ...................................................................................... 5
1.5 Manfaat Penelitian .................................................................................... 5
BAB II ..................................................................................................................... 6
TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6
2.1 Penelitian Terkait ..................................................................................... 6
2.2 Landasan Teori ....................................................................................... 12
2.2.1 Kecelakaan Lalu Lintas ................................................................... 12
2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12
2.2.3 Pengertian Jalan .............................................................................. 13
2.2.4 Data Mining .................................................................................... 14
2.2.5 CRISP-DM ...................................................................................... 16
2.2.6 Clustering ........................................................................................ 19
2.2.7 Algoritma K-Means ........................................................................ 19
2.2.8 Davies Bouldin Index ...................................................................... 21
2.3 Kerangka Pemikiran ............................................................................... 22

ix
BAB III ................................................................................................................. 23
METODE PENELITIAN ...................................................................................... 23
3.1 Data Penelitian ....................................................................................... 23
3.2 Tahapan Penelitian ................................................................................. 25
BAB IV ................................................................................................................. 29
4.1 Pengolahan Data ..................................................................................... 29
4.1.1 Persiapan Data ................................................................................. 29
4.1.2 Preprocessing .................................................................................. 29
4.2 Proses Klastering .................................................................................... 30
4.2.1 Chebychev Distance K-Means ........................................................ 31
4.2.2 Euclidean K-Means ......................................................................... 39
4.3 Proses Menggunakan Rapidminer .......................................................... 44
4.4 Pengujian Klastering .............................................................................. 54
4.5 Hasil Pengujian ....................................................................................... 58
BAB V................................................................................................................... 59
5.1 Kesimpulan ............................................................................................. 59
5.2 Saran ....................................................................................................... 59
DAFTAR PUSTAKA ........................................................................................... 60

x
DAFTAR TABEL

Tabel 2. 1 Penelitian Terkait ................................................................................... 8


Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13

Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24


Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24

Tabel 4. 1 Pemilihan Atribut ................................................................................. 29


Tabel 4. 2 Data Awal ............................................................................................ 30
Tabel 4. 3 Iterasi 1 ................................................................................................. 32
Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33
Tabel 4. 5 Iterasi ke-2............................................................................................ 33
Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35
Tabel 4. 7 Iterasi ke-3............................................................................................ 35
Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37
Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37
Tabel 4. 10 Iterasi ke-10........................................................................................ 37
Tabel 4. 11 Iterasi 1 ............................................................................................... 40
Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42
Tabel 4. 13 Iterasi 2 ............................................................................................... 42
Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43
Tabel 4. 15 Iterasi ke-11........................................................................................ 43
Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44
Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45
Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45
Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49
Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49
Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53
Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means
............................................................................................................................... 55
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56
Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57
Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58

xi
DAFTAR GAMBAR

Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15


Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17
Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20
Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22

Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23

xii
BAB I
PENDAHULUAN

1.1 Latar Belakang


Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang
menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia.
Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas
tertinggi di dunia dengan menempati peringkat ke 5 [1].
Selain itu kecelakaan lalu lintas merupakan salah satu topik
pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat.
Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi
di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas
terjadi karena masyarakat modern menempatkan transportasi sebagai
kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena
itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam
berbagai bidang kehidupan masyarakat.
Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis
kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia
dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua
pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi
terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan
penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas
(Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam
menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya
atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas)
[4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena
kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius
mengingat besarnya kerugian yang ditimbulkan.

1
2

Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan,


diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan
yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2%
akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan
akibat dari beberapa faktor yang saling tergantung satu sama lain [5].
Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan
Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa
di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan
atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau
kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang
meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan
perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas
yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak
dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin
mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk
pelanggaran lainnya [7].
Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya,
dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor
antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan
dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara
beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan,
kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan
yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu
lintas [8].
Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota
Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu
jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat
kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan
menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah
terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota
Semarang. Data mining merupakan metode pengolahan data berskala besar,
3

oleh karena itu data mining memiliki peranan penting dalam berbagai bidang.
Secara umum kajian data mining membahas metode-metode seperti clustering,
klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering
merupakan suatu metode untuk mencari dan mengelompokkan data yang
memiliki kemiripan karakteristik antara satu data dengan data yang lain [11].
Salah satu ciri clustering yang baik atau optimal adalah menghasilkan
cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada
cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang
berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan
distance measure. Jika menggunakan distance measure yang berbeda maka
hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10].
Dalam perkembangan clustering terdapat berbagai algoritma yang salah
satunya adalah K-Means.
K-Means clustering merupakan salah satu metode data clustering non-
hirarki yang mengelompokkan data dalam bentuk satu atau lebih
cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan
dalam satu cluster/kelompok dan data yang memiliki karakteristik yang
berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data
yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil
[9].
Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto,
Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan
algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik
menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14]
meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat
Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah.
Penelitian ini menggunakan teknik data mining dengan algoritma K-Means
untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di
Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang
ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita,
angka kesakitan bayi dan balita, dan status gizi bayi dan balita.
4

Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa


penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member
di alvaro fitness menggunakan k-means clustering dengan menggunakan 3
macam distance measure. Didapatkan bahwa dalam pengujian silhouette
coefficient clustering, Chebyshev Distance memiliki nilai silhouette
coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan
Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan
0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk
kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance.
Berdasarkan hasil dari latar belakang di atas, penelitian yang akan
diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev
Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes
Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan
kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada
agar monitoring terhadap keselamatan pengendara di jalan raya dapat
diantisiasi sejak dini.

1.2 Rumusan Masalah


Berdasarkan latar belakang diatas, maka dapat dirumuskan
permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan
lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik
daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas
dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat
diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah.

1.3 Batasan Masalah


Batasan permasalahan dalam penelitian ini adalah :
1. Data yang digunakan dalam penelitian ini adalah data sekunder yang
berasal dari Polrestabes Kota Semarang.
2. Algoritma yang digunakan dalam penelitian ini adalah K-Means.
5

3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor


di Kota Semarang dari tahun 2014-2015.
4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti
kecelakaan lalu lintas antar kendaraan bermotor, kendaraan
bermotor dengan pejalan kaki.
5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang
terjadi di wilayah ruas jalan kota.
6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota
Semarang terhadap kecelakaan lalu lintas.
7. Tidak membahas penanggulangan kecelakaan.

1.4 Tujuan Penelitian


Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini
adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan
menggunakan Chebyshev Distance pada algoritma K-Means yang dapat
mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang
berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator
daerah rawan kecelakaan lalu lintas.

1.5 Manfaat Penelitian


Dengan adanya penelitian ini diharapkan dapat :
1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah
rawan kecelakaan lalu lintas di Kota Semarang.
2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama
dengan menggunakan algoritma K-Means.
3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam
berkendara.
4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota
Semarang yang rawan terhadap kecelakaan.
BAB II

TINJAUAN PUSTAKA DAN LANDASAN TEORI

2.1 Penelitian Terkait


Tinjauan studi yang menjadi sumber referensi dari penelitian yang
penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari
beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang
penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan
beberapa penelitian yang terkait dan relevan dengan penelitian ini.
Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu
yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk
Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam
penelitian ini, peneliti menggunakan metode clustering untuk
mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas
jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering
dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada
penggunaan data temporal dalam periode bulanan. Sedangkan dalam
penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih
bersumber pada deskripsi kejadian dan belum melibatkan data geometri
(kondisi fisik) jalan raya [2].
Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi
Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang
Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode K-
Means. Dalam penelitian ini penulis menggunakan metode k-means dan
manhattan distance sebagai distance measure (perhitungan jarak). Penelitian
ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3
cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras
kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian,
didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat

6
7

cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta


dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat
dijadikan sebagai acuan dalam klasterisasi kualitas beras [15].
Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti
tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan
Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini
menggunakan teknik data mining dengan algoritma K-Means untuk
mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi
Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari
nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan
bayi dan balita, dan status gizi bayi dan balita.
Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa
indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk
karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan
pada kabupaten/kota dengan indikator kesehatan tinggi.
Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain
Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan
Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan
Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk
pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa
suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab
keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah,
salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni
(APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang
mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan
yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar.
Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA
tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM)
dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin
Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh.
8

Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari


pihak berwenang[16].
Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi
Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian
terhadap pengelompokan member di alvaro fitness menggunakan k-means
clustering dengan menggunakan 3 macam distance measure. Didapatkan
bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance
memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan
Euclidean Distance dan Manhattan Distance memiliki nilai silhouette
coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa
distance measure paling optimal untuk kasus pengelompokkan member di
Alvaro fitness adalah Chebyshev Distance.

Tabel 2. 1 Penelitian Terkait

No Peneliti Pembahasan Metode Hasil


1 Lizda Iswari Pemanfaatan Algoritma K-Means Dalam penelitian ini masih
dan Ervina K-Means Untuk Pemetaan terbatas pada penggunaan
Gita Ayu Hasil Klasterisasi Data data temporal dalam periode
Kecelakaan Lalu Lintas bulanan. Sedangkan dalam
penentuan parameter
klasterisasi yang digunakan
dalam penelitian ini masih
bersumber pada deskripsi
kejadian dan belum
melibatkan data geometri
(kondisi fisik) jalan raya.

2 Silvi Clustering Kualitas Beras K-Means Penelitian ini menggunakan


Agustina, Berdasarkan Ciri Fisik 20 data uji, dimana ke-20
Dhimas data tersebut dibagi menjadi
9

Yhudo, Hadi Menggunakan Metode K- 3 cluster dengan cluster 1


Santoso, Means merupakan beras kualitas
Nofiandi buruk, cluster 2 beras
Marnasusanto, kualitas sedang, dan cluster
Arif Tirtana, 3 beras kualitas baik. Dari
Fakhris hasil penelitian, didapatkan
Khusnu 3 pusat cluster akhir yaitu
pusat cluster 1
(5,89333;2,05), pusat cluster
2 (6,28199;2,546), dan pusat
cluster 3
(6,96583;2,999167) serta
dihasilkan validasi sebesar
92,8% yang menunjukan
bahwa program ini dapat
dijadikan sebagai acuan
dalam klasterisasi kualitas
beras.
3 Erga Aprina Penerapan Algoritma K- K-Means Dari hasil uji coba didapat
Sari Means Untuk Menentukan kabupaten/kota yang
Tingkat Kesehatan Bayi memiliki hasil analisa
dan Balita Pada indikator kesehatan tinggi
Kabupaten dan Kota di yang tingkat kesehatan pada
Jawa Tengah indikator tersebut buruk
karena jumlah penderitanya
banyak. Penanganan
masalah dapat difokuskan
pada kabupaten/kota dengan
indikator kesehatan tinggi.
10

4. Firli Irhamni, Optimalisasi SOM dan Penelitian ini tentang


Fitri Pengelompokan Davies pengelompokan kecamatan
Damayanti, Kecamatan Berdasarkan Bouldin untuk pemerataan
Bain Khusnul Indikator Pendidikan pendidikan menggunakan
K, Mifftachul Menggunakan Metode indicator pendidikan yang
A Clustering dan Davies terdapat pasa suatu
Bouldin Index kecamatan sebagai salah satu
organisasi pemerintah.
Parameter penyebab
keberhasilan pendidikan
dapat dilihat dariindikator
pendidikan di suatu daerah,
salah satu tolak ukurnya
adalah rendahnya nilai
Angka Partisipasi Murni
(APM) dan nilai Angka
Partisipasi Kasar (APK).
Indikator lain yang
mempengaruhi pemerataan
pendidikan adalah sarana
dan prasarana pendidikan
yang meliputi jumlah
sekolah, ruang kelas, dan
tenaga pengajar.
Pengelompokan kecamatan
berdasarkan tingkat
pendidikan SMA/SMK/MA
tersebut menggunakan
metode clustering yaitu Self
Organizing Map (SOM) dan
hasil clustering tersebut
11

kemudian diolah dengan


metode Davies Bouldin
Index(DBI) untuk
menunjukkan seberapa baik
cluster yang diperoleh.
Penelitian ini memberikan
kontribusi terhadap
pengambilan kebijakan dari
pihak berwenang
5 Mario Pemilihan Distance K-Means penelitiannya mendapatkan
Anggara, Measure Pada K-Means hasil pengujian terhadap
Henry Sujiani, Clustering Untuk pengelompokan member di
Helfi Nasution Pengelompokkan Member alvaro fitness menggunakan
Di Alvaro Fitness k-means clustering dengan
menggunakan 3 macam
distance measure.
Didapatkan bahwa dalam
pengujian silhouette
coefficient clustering,
Chebyshev Distance
memiliki nilai silhouette
coefficient-nya sebesar
0.242821. Sedangkan
Euclidean Distance dan
Manhattan Distance
memiliki nilai silhouette
coefficient sebesar 0.232149
dan 0.240016. Hal itu
menunjukan bahwa distance
measure paling optimal
untuk kasus
12

pengelompokkan member di
Alvaro fitness adalah
Chebyshev Distance.

2.2 Landasan Teori


2.2.1 Kecelakaan Lalu Lintas
Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak
disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau
tanpa pemakai jalan lainnya mengakibatkan korban manusia atau
kerugian harta benda [6].

2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas


Suatu tempat dikatakan daerah atau lokasi apabila diketahui
letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi
Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat
perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan
lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya
dengan daerah rawan kecelakaan, sedangkan Departemen Pemukiman
dan Prasana Wilayah menyebutnya dengan lokasi rawan kecelakaan.
Daerah yang memiliki angka kecelakaan tinggi, resiko
kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan
dapat disebut juga dengan daerah rawan kecelakaan [18].
Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan
apabila [19] :
1. Memiliki angka kecelakaan yang tinggi.
2. Lokasi kejadian kecelakaan relatif bertumpuk.
3. Lokasi kecelakaan berupa persimpangan, atau segmen
ruas jalan sepanjang 100 300 m untuk jalan perkotaan,
atau segmen ruas jalan sepanjang 1 km utnuk jalan antar
kota.
13

4. Kecelakaan terjadi dalam ruang dan rentan waktu yang


relatif sama.
5. Memiliki penyebab kecelakaan dengan factor yang
spesifik.

2.2.3 Pengertian Jalan


Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap
dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang
berada pada permukaan tanah, diatas permukaan tanah, dibawah
permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan
rel dan jalan kabel [6].
Jalan dibagi kedalam kelas kelas bukan hanya didasarkan pada
fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat
lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini :
Tabel 2. 2 Klasifikasi Kelas Jalan

Tipe Klasifikasi Keterangan


Tipe I Klas I Jalan dengan standar tinggi untuk
melayani antar wilayah atau antar kota
untuk kecepatan tinggi dengan
pembatasan jalan masuk.
Klas II Jalan dengan standar tinggi untuk
melayani antar wilayah atau didalam
metropolitan untuk kecepatan tinggi
dengan pembatasan jalan masuk.
Tipe II Klas I Jalan dengan standar tinggi, 2 jalur atau
lebih untuk antar kota atau dalam kota,
kecepatan tinggi, volume lalu lintas tinggi
dengan masih ada beberapa pembatas
jalan masuk.
Klas II Jalan dengan standar tinggi, 2 lajur atau
lebih untuk melayani antar /dalam kota,
kecepatan tinggi, volume lalu lintas
sedang dengan/ tanpa pembatas jalan
masuk.
Klas III Jalan dengan standar menengah, 2 lajur
atau lebih melayani antas distrik,
kecepatan sedang, volume lalu lintas
tinggi, tanpa pembatas jalan masuk.
14

Klas IV Jalan dengan standar rendah, I lajur dua


arah sebagai jalan penghubung.

2.2.4 Data Mining


Data mining merupakan analisis dari peninjauan kumpulan data
untuk menemukan hubungan yang tidak diduga dan meringkas data
dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan
bermanfaat bagi pemilik data.

Data mining dibagi menjadi beberapa kelompok berdasarkan


tugas yang dapat dilakukan, yaitu [12] :

a. Description (Deskripsi)
Peneliti dan analis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam
data.

b. Estimation (Estimasi)
Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang
lebih kearah numerik daripada ke arah kategori.

c. Prediction (Prediksi)
Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu
yang belum terjadi).

d. Association (Asosiasi)
Asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.

e. Clustering
Clustering merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
15

f. Classification (Klasifikasi)
Penyusunan data menjadi beberapa kelompok yang ditentukan.

2.2.4.1 Tahap-Tahap Data mining


Rangkaian proses data mining dibagi menjadi
beberapa tahap yang bersifat interaktif seperti pada gambar
2.1.

Cleaning and Selection and Data Mining Evaluation and


Integration Transformation Presentation

Knowledge
Data WareHouse

Patterns

Gambar 2. 1 Tahap-Tahap Data mining [17]

a. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah dari basis
data operasional.
b. Cleaning
Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan ketik (tipografi).
16

c. Transformation
Pengubahan data ke dalam format yang sesuai untuk dapat
diproses dalam data mining. Misal, beberapa metode standar
seperti analisis asosiasi dan clustering hanya bisa menerima
input data kategorikal, maka data berupa angka numerik yang
berlanjut perlu dibagi menjadi beberapa interval.
d. Data mining
Proses pencarian pola atau informasi yang menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu.
e. Pattern Evaluation
Tahap ini mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesis yang
ada sebelumnya.

2.2.5 CRISP-DM
Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti
DaimlerChrysler, SPSS dan NCR. CRISP-DM menyediakan
standarproses data mining sebagai strategi pemecahan masalah secara
umumdari bisnis atau unit penelitian.
17

Gambar 2. 2 Gambar siklus hidup CRISP-DM [12]


Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase
[12] yaitu :

1. Fase Pemahaman Bisnis (Business Understanding)


a. Penentuan tujuan proyek dan kebutuhan secara detail dalam
lingkup bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih
lanjut data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
18

d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin


mengandung pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat
yang perlu dilaksanakan secara intensif.
b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai
analisis yang akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modelling Phase)
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data
untuk menjadikan data ke dalam bentuk yang sesuai dengan
spesifikasi kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitasdan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada
fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari
data mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikan proyek.
19

b. Contoh sederhana penyebaran: Pembuatan laporan.


c. Contoh kompleks penyebaran: Penerapan proses data mining
secara pararel pada departemen lain.
2.2.6 Clustering
Clustering merupakan salah satu teknik data mining yang
digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek
yang mempunyai karakteristik yang umum di data yang cukup besar.
Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan
utama dari metode clustering sehingga dalam setiap cluster akan diisi
data yang memiliki tingkat kemiripan yang tinggi [13].

Sebuah cluster adalah kumpulan data yang memiliki kemiripan


karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster
lain. Clustering bersifat unsupervised learning karena pengelompokan
data yang didasarkan pada kesamaan antar objek.

2.2.7 Algoritma K-Means


Beberapa teknik clustering yang paling sederhana diantara teknik
lainnya adalah Klastering K-Means. K-means merupakan salah satu
metode pengelompokan data (clustering) nonhierarki yang termasuk
dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk
dua atau lebih kelompok. Metode ini mengelompokan data yang
berkarakteristik sama menjadi satu kelompok dan data yang
berkaraktersitik berbeda dikelompokkan kedalam kelompok lain.

Algoritma K-means secara umum memiliki tahapan sebagai


berikut:

1. Tentukan jumlah kelompok


2. Inisialisasi titik centroid k (pusat cluster) secara acak.
3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu
cluster akan menentukan data tersebut masuk dalam cluster mana.
Perhitungan jarak yang digunakan adalah sebagai berikut :
20

Chebyshev Distance

= | | (2.1)

Dimana :
K = Dimensi data
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.

START

Jumlah K
Inisiasi
Pusat

Hitung jarak data


ke pusat

Kelompokkan
data berdasarkan
jarak minimum Pusat cluster lama =
pusat cluster baru

Pusat cluster baru

tidak
ada
Selisih Pusat
cluster lama dan
baru

End

Gambar 2. 3 Flowchart Algoritma K-Means


21

2.2.8 Davies Bouldin Index


Davies Bouldin Index merupakan metode evaluasi cluster dari
hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif
0) maka semakin baik cluster yang diperoleh dari pengelompokan K-
Means yang digunakan [20].


1
() = ( )2 (2.2)
1
=1

max
= (2.3)
= 1, . . ,

( ) + ( )
= (2.4)
|| ||


1
= . (2.5)

=1

Dimana
: rata-rata dari cluster x dan N adalah jumlah anggota cluster
Var : variance dari data
: cluster i dan adalah centroid dari cluster i
22

2.3 Kerangka Pemikiran

Masalah Studi Pustaka

Bagaimana mengklasterisasi Buku dan Jurnal tentang data


daerah rawan kecelakaan lalu lintas mining, algoritma k-means dan
di Kota Semarang daerah rawan kecelakaan

Metode

Algoritma K-Means dengan


menggunakan chebyshev distance

Penerapan
Data Kecelakaan
Polrestabes Semarang
2014-2015

Pengembangan
Microsoft Excel dan
Rapidminer

Pengujian
Davies Bouldin Indeks
(DBI)

Hasil

Pengelompokkan dan penentuan status daerah di Kota


Semarang yang rawan terhadap kecelakaan menggunakan
chebyshev distance k-means

Gambar 2. 4 Kerangka Pemikiran


BAB III

METODE PENELITIAN

3.1 Data Penelitian


Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan
pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang
antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder
melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman
data Satlantas Polrestabes Kota Semarang :

Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas


Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel
di bawah ini :

23
24

Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas

Atribut Keterangan
Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan
tempat kejadian terjadinya kecelakaan
Uraian Singkat Kejadian Atribut yang menginformasikan uraian
singkat terjadinya kecelakaan
Korban Atribut yang menginformasikan jumlah
korban pada saat terjadinya kecelakaan
tersebut baik koban meninggal dunia, luka
berat, luka ringan, serta menjelaskan pula
kerugiaan materiil yang didapat akibat
terjadinya kecelakaan tersebut
Yang terlibat Atribut yang menginformasikan pengguna
jalan (kendaraan bermotor, pejalan kaki,
dsb.) yang terlibat dalam kecelakaan tersebut
Identitas Pengemudi Atribut yang menginformasikan tentang
identitas korban yang terlibat dalam
kecelakaan tersebut.

Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen


jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu
jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban
Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas
DATA LAKA LANTAS POLRESTABES
SEMARANG
BULAN JANUARI S/D DESEMBER 2014
NO Nama Jalan Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban
yang terlibat
1 Brigjend Sudiarto 59 116 80
2 Dr. Cipto 18 34 25
3 Durian 1 2 1
4 P.Kemerdekaan 26 55 41
5 Medoho 2 4 2
25

6 Brigjend Katamso 3 6 4
7 Fatmawati 5 10 6
8 Sarwo Edi Wibowo 2 4 2
9 Thamrin 2 3 4
10 MT Haryono 16 32 25

3.2 Tahapan Penelitian


Tahapan analisis data pada penelitian ini menggunakan data kecelakaan
lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan
data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak
semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan
data tersebut harus melalui beberapa tahap pengolahan awal data. Agar
mendapatkan data yang berkualitas yaitu dengan teknik data cleaning.
Tahapan penelitian menggunakan metode Cross Industry Standard
Process- Data Mining (CRISP-DM).
1. Tahap Pemahaman Bisnis (Bussines Understanding Phase)
Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah
atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas
karena dengan penelitian ini nantinya dapat digunakan oleh pihak
kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau
rawan terhadap kecelakaan.
2. Tahap Pemahaman Data (Data Understanding Phase)
Pengumpulan data sekunder dilakukan dengan cara mengambil data
kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan
2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014
sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang
diambil dari bulan januari hingga bulan november yaitu sebanyak 748
kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang
didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi
waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban
yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan
identitas korban.
26

3. Tahapan Pengolahan Data (Data Preparation Phase)


Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan
lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli
seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan
generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak
semua data dan atribut dapat digunakan, karena masih ada data yang
mengandung missing value (memiliki keterangan yang kurang lengkap)
oleh karena itu dilakukan cleaning data dan selection data, data reduksi.
Cleaning data dan selection data merupakan tahap awal dalam
processing data mining. Pembersihan ini dilakukan untuk membuang data-
data yang informasi terter, seperti tidak adanya informasi identitas korban,
umur, pekerjaan.
Data reduksi adalah data yang informative, data dengan record dan
jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang
dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang
terdiri dari 3 atribut yang akan diolah.
4. Fase pemodelan (Modeling Phase)
Tahap pemodelan merupakan tahap pengolahan dataset yang
dimodelkan dengan algoritma k-means sehingga perhitungan dan
Pengelompokan data.
Algoritma K-Means
Algoritma K-means secara umum memiliki tahapan sebagai
berikut:

1. Tentukan jumlah kelompok


2. Inisialisasi titik centroid k (pusat cluster) secara acak.
3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu
cluster akan menentukan data tersebut masuk dalam cluster mana.
Perhitungan jarak yang digunakan adalah sebagai berikut :
27

Chebyshev Distance

= | | (3.1)

Dimana :
K = Dimensi data
= Data dari jumlah kecelakaan, jumlah kendaraan yang
terlibat, jumlah korban
= Centroid
= Jarak antara dan dan || adalah nilai mutlak.
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.
5. Fase Evaluasi (Evaluation Phase)
Pada fase ini dilakukan penilaian menggunakan Davies Bouldin
Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses
clustering tersebut, dengan membandingkan pengelompokan sebanyak 3
klaster menggunakan Chebychev K-Means dengan Euclidean K-Means
yang telah digunakan pada penelitian sebelumnya. Dimana dalam
penentuannya nilai DBI yang paling rendah diantara keduanya dianggap
paling optimal dalam menghasilkan cluster set sebanyak 3 klaster.
6. Fase Penyebaran
Fase yang terakhir adalah fase penyebaran dimana data yang telah
dievaluasi diimplementasikan sehingga dapat digunakan untuk
menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data
diuji dengan menggunakan tool rapidminer. Dengan menggunakan
pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil
clustering yang dilakukan menggunakan perhitungan pada Microsoft
28

Excel dengan Rapidminer dalam penentuan status daerah terhadap


kecelakaan lalu lintas di Kota Semarang.
BAB IV
ANALISA DAN PEMBAHASAN

4.1 Pengolahan Data


4.1.1 Persiapan Data
Dalam penelitian ini data yang digunakan merupakan data
sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang
antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat
kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian
Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas
Polrestabes Kota Semarang seperti yang sudah dijelaskan pada
Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian:
Tabel 4. 1 Pemilihan Atribut

Atribut
Waktu & Tempat Kejadian
(Jumlah Kecelakaan)
Uraian Singkat Kejadian X
Korban
Kendaraan Yang terlibat
Identitas Pengemudi X

4.1.2 Preprocessing
Preprocessing yang dilakukan adalah penghapusan data
missing value (memiliki keterangan yang kurang lengkap) Pada
tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak
memiliki keterangan yang kurang lengkap seperti kejadian
kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya
keterangan identitas korban, umur, pekerjaan, maka jalan tersebut
tidak digunakan.

29
30

Dari rekaman data yang diperoleh, semua data terisi sesuai


dengan ketentuan tidak ada yang kosong, sehingga semua data yang
diperoleh dapat digunakan pada proses selanjutnya. Setelah data
yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel
sehingga diperoleh hasil simplikasi dan generalisasi seperti yang
terlihat dibawah ini :
Tabel 4. 2 Data Awal

Jumlah Jumlah Jumlah


Kecelakaan Kendaraan yang Korban
No Nama Jalan (X1) Terlibat (X2) (X3)
1 Brigjend Sudiarto 103 200 143
2 Dr. Cipto 25 48 33
3 Durian 2 4 2
4 P.Kemerdekaan 51 104 74
5 Raya Medoho 6 11 7
6 Brigjend Katamso 4 8 5
7 Fatmawati 12 22 14
8 Sarwo Edi Wibowo 3 6 3
9 Thamrin 5 9 7
10 MT Haryono 32 65 48
- - - - -
- - - - -
- - - - -
- - - - -
116 Prof. Suharso 2 4 2
Pawiyatan Luhur
117 IV 2 4 2
118 Tlogosari raya 2 4 1
119 Suratmo 3 6 3

4.2 Proses Klastering


Proses klastering yaitu proses pengelompokan data berdasarkan
kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan
algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan
kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance
sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam
31

menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering


dengan perhitungan algoritma k-mean sebagai berikut :

4.2.1 Chebychev Distance K-Means


Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu
lintas dengan menggunakan algoritma k-means dan Chebychev
Distance sebagai perhitungan jarak setiap data terhadap pusat
klaster:
1. Menentukan jumlah klaster, berapa banyak klaster yang akan
dibuat, k=3.
2. Menentukan pusat klaster awal secara acak, missal ditentukan
C1=(2,2,2); C2=(3,3,3); C3=(4,4,4).
3. Menghitung jarak setiap data terhadap pusat klaster, misalkan
untuk menghitung jarak data pertama dengan pusat klaster
pertama yaitu :

Chebyshev Distance

= | | (4.1)

Dimana :
K = Dimensi data
11 = max( |103 2|, |200 2|, |143 2|)
= 198
Jarak data pertama dengan pusat klaster kedua:
12 = max( |103 3|, |200 3|, |143 3|)
= 197
Jarak data pertama dengan pusat klaster ketiga:

13 = max( |103 4|, |200 4|, |143 4|)


= 196
32

Hasil perhitungan terdapat pada table berikut:


Tabel 4. 3 Iterasi 1
Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Anggota
ke- (X1) terlibat (X2) (X3) C1 C2 C3 klaster
1 103 200 143 198 197 196 C3
2 25 48 33 46 45 44 C3
3 2 4 2 2 1 2 C2
4 51 104 74 102 101 100 C3
5 6 11 7 9 8 7 C3
6 4 8 5 6 5 4 C3
7 12 22 14 20 19 18 C3
8 3 6 3 4 3 2 C3
9 5 9 7 7 6 5 C3
10 32 65 48 63 62 61 C3
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
116 2 4 2 2 1 2 C2
117 2 4 2 2 1 2 C2
118 2 4 1 2 2 3 C1
119 3 6 3 4 3 2 C3

4. Suatu data akan menjadi bagian anggota klaster dengan jarak


terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3
diatas, jarak terkecil terdapat pada klaster ketiga sehingga data
pertama masuk dalam anggota data klaster ketiga. Begitu pula
untuk data ketiga, jarak terkecil terdapat pada klaster kedua
sehingga data tersebut masuk dalam anggota klaster kedua.
5. Menghitung pusat klaster baru dengan mencari rata-rata dari
semua data dalam klaster tertentu. Untuk klaster pertama terdapat
3 data, sehingga:
2+2+2
11 = =2
3
3+2+4
12 = =3
3
33

1+2+1
13 = = 1.33333333
3
Untuk klaster dua ada 20 data, sehingga:
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2
21 = = 2.05
20
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4
22 = =4
20
2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2
23 = = 2.6
20
Untuk klaster ketiga ada 96 data, sehingga:
103 + 25 + 51 + + 4 + 3 + 3
31 = = 13.55208
96
200 + 48 + 104 + + 8 + 5 + 6
32 = = 27.6875
96
143 + 33 + 74 + + 4 + 4 + 3
33 = = 18.38542
96
Tabel 4. 4 Centroid baru untuk iterasi 2

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 2 3 1.33333
C2 2.05 4 2.6
C3 13.55208 27.6875 18.38542

6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi


klaster tidak berubah.
Tabel 4. 5 Iterasi ke-2
Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Claster Claster Claster Anggota
ke- (X1) terlibat (X2) (X3) ke-1 (C1) ke-2 (C2) ke-3 (C3) klaster
197 196 172.3125 C3
1 103 200 143
45 44 20.3125 C3
2 25 48 33
1 0.6 23.6875 C2
3 2 4 2
100.2 98.53846 75.21978 C3
4 51 104 74
34

7.2 5.538462 17.78022 C2


5 6 11 7
4.2 2.538462 20.78022 C2
6 4 8 5
18.2 16.53846 6.78022 C3
7 12 22 14
2.2 0.538462 22.78022 C2
8 3 6 3
5.2 4.153846 19.78022 C2
9 5 9 7
61.2 59.53846 36.21978 C3
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
0.2 1.461538 24.78022 C1
116 2 4 2
0.2 1.461538 24.78022 C1
117 2 4 2
0.866667 1.846154 24.78022 C1
118 2 4 1
2.2 0.538462 22.78022 C2
119 3 6 3

Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi
klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu
menghitung titik pusat klaster baru.

Untuk klaster pertama terdapat 18 data, sehingga:


2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2
11 = = 2.055556
18
4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4
12 = = 3.833333
18
2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1
13 = = 2.055556
18

Untuk klaster kedua terdapat 63 data, sehingga:


2+6+4++4+3+3
21 = = 4.539683
63
4 + 11 + 8 + + 8 + 5 + 6
22 = = 9.142857
63
2 + 7 + 5 + + 4 + 4 + 3
23 = 5.936508
63
35

Untuk klaster ketiga terdapat 38 data, sehingga:


103 + 25 + 51 + + 9 + 12 + 9
31 = = 26.97368
38
200 + 48 + 104 + + 18 + 25 + 20
32 = = 55.31579
38
143 + 33 + 74 + + 12 + 18 + 11
33 = = 37.10526
38

Tabel 4. 6 Centroid baru untuk iterasi 3

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 2.055556 3.833333 2.055556
C2 4.539683 9.142857 5.936508
C3 26.97368 55.31579 37.10526

Tabel 4. 7 Iterasi ke-3


Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Claster Claster Claster Anggota
ke- (X1) terlibat (X2) (X3) ke-1 (C1) ke-2 (C2) ke-3 (C3) klaster
196.1667 190.8571 144.6842 C3
1 103 200 143
44.16667 38.85714 7.315789 C3
2 25 48 33
0.166667 5.142857 51.31579 C1
3 2 4 2
100.1304 94.41379 48.68421 C3
4 51 104 74
7.130435 1.413793 44.31579 C2
5 6 11 7
4.130435 1.586207 47.31579 C2
6 4 8 5
18.13043 12.41379 33.31579 C2
7 12 22 14
2.130435 3.586207 49.31579 C1
8 3 6 3
5.130435 0.87931 46.31579 C2
9 5 9 7
61.13043 55.41379 10.89474 C3
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
36

. . . . . . . .
0.434783 5.586207 51.31579 C1
116 2 4 2
0.434783 5.586207 51.31579 C1
117 2 4 2
1.434783 5.586207 51.31579 C1
118 2 4 1
2.130435 3.586207 49.31579 C1
119 3 6 3

Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi
klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu
menghitung titik pusat klaster baru.

Untuk klaster pertama terdapat 39 data, sehingga:


2+3+2++2+2+3
11 = = 2.435897
39
4 + 6 + 4 + + 4 + 4 + 6
12 = = 4.74359
39
2+3+2++2+1+3
13 = = 2.948718
39

Untuk klaster kedua terdapat 57 data, sehingga:


6 + 4 + 12 + + 4 + 6 + 4
21 = = 6.894737
57
11 + 8 + 22 + + 8 + 12 + 8
22 = = 14.07018
57
7 + 5 + 14 + + 4 + 8 + 4
23 = = 8.929825
57

Untuk klaster ketiga terdapat 23 data, sehingga:


103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21
31 = =
23

37.3913
32 =
200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43
=
23

76.52174
37

33 =
143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32
=
23

52.04348
Tabel 4. 8 Centroid baru untuk iterasi 4

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 2.055556 3.833333 2.055556
C2 4.539683 9.142857 5.936508
C3 26.97368 55.31579 37.10526

Tabel 4. 9 Informasi Centroid akhir

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 4.795699 9.655914 6.16129

C2 20.76471 43.76471 28.58824


C3 61 122.7778 84.66667

Tabel 4. 10 Iterasi ke-10


Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Claster Claster Claster Anggota
ke- (X1) terlibat (X2) (X3) ke-1 (C1) ke-2 (C2) ke-3 (C3) klaster
190.3441 156.2353 77.22222 C3
1 103 200 143
38.34409 4.411765 74.77778 C2
2 25 48 33
5.655914 39.76471 118.7778 C1
3 2 4 2
94.34409 60.23529 18.77778 C3
4 51 104 74
1.344086 32.76471 111.7778 C1
5 6 11 7
1.655914 35.76471 114.7778 C1
6 4 8 5
12.34409 21.76471 100.7778 C1
7 12 22 14
3.655914 37.76471 116.7778 C1
8 3 6 3
38

0.83871 34.76471 113.7778 C1


9 5 9 7
55.34409 21.23529 57.77778 C2
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
5.655914 39.76471 118.7778 C1
116 2 4 2
5.655914 39.76471 118.7778 C1
117 2 4 2
5.655914 39.76471 118.7778 C1
118 2 4 1
3.655914 37.76471 116.7778 C1
119 3 6 3

Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan.


Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi
sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir.
Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas,
dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan
kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan
C3 merupakan kategori jalan yang sangat rawan kecelakaan.
Hasil analisis klastering dari table 4.10 :
a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699,
9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster
kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan
kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93.
b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471,
28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat
klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat
klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan
kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17.
c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778,
84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster
39

pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan


kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.

4.2.2 Euclidean K-Means


Berikut merupakan proses klasterisasi daerah rawan
kecelakaan lalu lintas dengan menggunakan algoritma k-means dan
Euclidean Distance sebagai perhitungan jarak setiap data terhadap
pusat klaster:
1. Menentukan jumlah klaster, berapa banyak klaster yang akan
dibuat, k=3.
2. Menentukan pusat klaster awal secara acak, missal ditentukan
C1=(2,2,2); C2=(3,3,3); C3=(4,4,4).
3. Menghitung jarak setiap data terhadap pusat klaster, misalkan
untuk menghitung jarak data pertama dengan pusat klaster
pertama yaitu :

Euclidean Distance
2 2 2
(,) = (1 1 ) + (2 2 ) + + ( ) (4.2)

dimana:
D (i,j) = Jarak data ke i ke pusat cluster j
Xki = Data ke i pada atribut data ke k
Xkj = Titik pusat ke j pada atribut ke k
11 = (103 2)2 + (200 2)2 + (143 2)2 = 263.222
Jarak data pertama dengan pusat klaster kedua:
12 = (103 3)2 + (200 3)2 + (143 3)2 = 261.551
Jarak data pertama dengan pusat klaster ketiga:

13 = (103 4)2 + (200 4)2 + (143 4)2 = 259.881


40

Hasil perhitungan terdapat pada table berikut:


Tabel 4. 11 Iterasi 1
Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Anggota
ke- (X1) terlibat (X2) (X3) C1 C2 C3 klaster
263.2223 261.5511 259.8807 C3
1 103 200 143
60.04998 58.38664 56.72742 C3
2 25 48 33
2 1.732051 2.828427 C2
3 2 4 2
134.1231 132.4613 130.8014 C3
4 51 104 74
11.04536 9.433981 7.874008 C3
5 6 11 7
7 5.477226 4.123106 C3
6 4 8 5
25.37716 23.72762 22.09072 C3
7 12 22 14
4.242641 3 2.44949 C3
8 3 6 3
9.110434 7.483315 5.91608 C3
9 5 9 7
83.57631 81.91459 80.25584 C3
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
2 1.732051 2.828427 C2
116 2 4 2
2 1.732051 2.828427 C2
117 2 4 2
2.236068 2.44949 3.605551 C1
118 2 4 1
4.242641 3 2.44949 C3
119 3 6 3

4. Suatu data akan menjadi bagian anggota klaster dengan jarak


terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11
diatas, jarak terkecil terdapat pada klaster ketiga sehingga data
pertama masuk dalam anggota data klaster ketiga. Begitu pula
untuk data ketiga, jarak terkecil terdapat pada klaster kedua
sehingga data tersebut masuk dalam anggota klaster kedua.
41

5. Menghitung pusat klaster baru dengan mencari rata-rata dari


semua data dalam klaster tertentu. Untuk klaster pertama terdapat
3 data, sehingga:
2+2+2
11 = =2
3
3+2+4
12 = =3
3
1+2+1
13 = = 1.333333
3

Untuk klaster kedua terdapat 19 data, sehingga:


21
2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2+ 2 + 2 + 2
=
19
= 2.052632
22
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4
=
19
=4
23
2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2
=
19
= 2.473684
Untuk klaster ketiga terdapat 97 data, sehingga:
103 + 25 + 51 + + 4 + 3 + 3
31 = = 13.43299
97
200 + 48 + 104 + + 8 + 5 + 6
32 = = 27.4433
97
143 + 33 + 74 + + 4 + 4 + 3
32 = = 18.24742
97
42

Tabel 4. 12 Centroid baru untuk iterasi 2

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 2 3 1.33333
C2 2.052632 4 2.473684
C3 13.43299 27.4433 18.24742

Tabel 4. 13 Iterasi 2
Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Anggota
ke- (X1) terlibat (X2) (X3) C1 C2 C3 klaster
262.8297 261.446 231.0006 C3
1 103 200 143
59.63873 58.2618 27.82108 C3
2 25 48 33
1.20185 0.476599 30.72914 C2
3 2 4 2
133.7253 132.3324 101.885 C3
4 51 104 74
10.58825 9.223299 21.26349 C2
5 6 11 7
6.51494 5.116104 25.34793 C2
6 4 8 5
24.92879 23.57554 7.051494 C3
7 12 22 14
3.574602 2.274756 28.30453 C2
8 3 6 3
8.781293 7.360334 23.18998 C2
9 5 9 7
83.19722 81.79542 51.38536 C3
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
1.20185 0.476599 30.72914 C2
116 2 4 2
1.20185 0.476599 30.72914 C2
117 2 4 2
1.054093 1.474624 31.2694 C1
118 2 4 1
3.574602 2.274756 28.30453 C2
119 3 6 3
43

Tabel 4. 14 Informasi centroid akhir Euclidean Distance

Jumlah Jumlah Kendaraan Jumlah Korban


Kecelakaan (x1) yang Terlibat (x2) (x3)
C1 4.795699 9.655914 6.16129

C2 20.76471 43.76471 28.58824


C3 61 122.7778 84.66667

Tabel 4. 15 Iterasi ke-11


Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Claster Claster Claster Anggota
ke- (X1) terlibat (X2) (X3) ke-1 (C1) ke-2 (C2) ke-3 (C3) klaster
254.1649 210.3857 105.499 C3
1 103 200 143
50.97842 7.439025 97.76073 C2
2 25 48 33
7.557885 51.38366 156.2784 C1
3 2 4 2
125.0509 81.26926 23.7988 C3
4 51 104 74
1.990061 41.92343 146.8039 C1
5 6 11 7
2.173427 46.00624 150.8964 C1
6 4 8 5
16.30104 27.62859 132.48 C1
7 12 22 14
5.155967 48.95422 153.8522 C1
8 3 6 3
1.084157 43.85388 148.7061 C1
9 5 9 7
74.52194 30.88667 74.32171 C2
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
7.557885 51.38366 156.2784 C1
116 2 4 2
7.557885 51.38366 156.2784 C1
117 2 4 2
8.151332 51.90816 156.8097 C1
118 2 4 1
5.155967 48.95422 153.8522 C1
119 3 6 3
44

Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan.


Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi
sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir.
Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14
diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak
rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan
kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan.
Hasil analisis klastering dari table 4.15 :
a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699,
9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster
kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan
kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93.
b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471,
28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat
klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat
klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan
kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17.
c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778,
84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster
pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan
kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.

4.3 Proses Menggunakan Rapidminer


Setelah melalui proses preprocessing data akan diproses dengan
menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di
import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan
nilai dari setiap variable seperti table berikut.
Tabel 4. 16 Data yang diimport ke Rapidminer
Jumlah Jumlah Jumlah
Kecelakaan Kendaraan Korban

103 200 143


45

25 48 33
2 4 2
51 104 74
6 11 7
4 8 5
12 22 14
3 6 3
5 9 7
32 65 48
. . .
. . .
. . .
. . .
2 4 2
2 4 2
2 4 1
3 6 3

Nantinya data di atas akan diproses menggunakan rapidminer dengan


Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel
centroid dan tabel hasil clustering sebagai berikut:
Tabel 4. 17 Centroid Table Chebychev K-Means

Cluster_0 Cluster_1 Cluster_2


Jumlah 4.795698924731183 20.764705882352942 61.0
Kecelakaan
Jumlah 9.655913978494624 43.76470588235294 122.77777777777777
Kendaraan
Jumlah 6.161290322580645 28.58823529411765 84.66666666666667
Korban

Tabel 4. 18 Hasil Klastering Chebychev K-Means

No Id Cluster Jumlah Jumlah Kendaraan Jumlah


Kecelakaan yang terlibat Korban
1 1 cluster_2 103 200 143
2 2 cluster_1 25 48 33
3 3 cluster_0 2 4 2
4 4 cluster_2 51 104 74
5 5 cluster_0 6 11 7
6 6 cluster_0 4 8 5
46

7 7 cluster_0 12 22 14
8 8 cluster_0 3 6 3
9 9 cluster_0 5 9 7
10 10 cluster_1 32 65 48
11 11 cluster_2 58 102 77
12 12 cluster_1 18 35 24
13 13 cluster_0 4 8 5
14 14 cluster_1 16 34 43
15 15 cluster_2 45 96 59
16 16 cluster_0 5 9 7
17 17 cluster_1 25 60 38
18 18 cluster_0 2 4 2
19 19 cluster_0 7 14 9
20 20 cluster_0 12 23 14
21 21 cluster_0 6 12 7
22 22 cluster_1 28 56 32
23 23 cluster_0 2 3 1
24 24 cluster_1 19 39 21
25 25 cluster_2 52 107 73
26 26 cluster_2 55 119 101
27 27 cluster_1 30 68 44
28 28 cluster_1 15 28 17
29 29 cluster_0 9 17 16
30 30 cluster_0 6 12 7
31 31 cluster_0 4 8 6
32 32 cluster_0 7 15 8
33 33 cluster_0 10 22 16
34 34 cluster_2 48 100 50
35 35 cluster_2 61 123 86
36 36 cluster_0 7 16 5
37 37 cluster_1 28 56 39
38 38 cluster_0 7 14 8
39 39 cluster_1 18 42 16
40 40 cluster_1 16 34 18
41 41 cluster_0 3 4 2
42 42 cluster_0 10 20 12
47

43 43 cluster_2 76 154 99
44 44 cluster_0 3 6 4
45 45 cluster_1 16 35 20
46 46 cluster_0 11 23 15
47 47 cluster_1 19 40 27
48 48 cluster_0 9 20 8
49 49 cluster_0 3 6 6
50 50 cluster_0 6 11 8
51 51 cluster_0 6 12 8
52 52 cluster_1 21 43 32
53 53 cluster_0 8 16 10
54 54 cluster_0 7 14 9
55 55 cluster_0 3 8 7
56 56 cluster_0 4 7 6
57 57 cluster_0 5 10 8
58 58 cluster_0 7 15 9
59 59 cluster_0 6 13 9
60 60 cluster_0 4 8 6
61 61 cluster_1 12 30 15
62 62 cluster_0 2 4 2
63 63 cluster_0 5 10 7
64 64 cluster_0 9 20 15
65 65 cluster_0 11 23 11
66 66 cluster_1 15 31 19
67 67 cluster_0 9 18 12
68 68 cluster_0 2 4 2
69 69 cluster_0 2 4 4
70 70 cluster_0 5 10 6
71 71 cluster_0 3 6 4
72 72 cluster_0 5 10 4
73 73 cluster_0 5 10 6
74 74 cluster_0 5 9 5
75 75 cluster_0 7 14 9
76 76 cluster_0 2 4 2
77 77 cluster_0 4 8 4
78 78 cluster_0 12 25 18
48

79 79 cluster_0 2 4 2
80 80 cluster_0 9 20 11
81 81 cluster_0 3 6 3
82 82 cluster_0 5 10 8
83 83 cluster_0 3 6 4
84 84 cluster_0 2 4 2
85 85 cluster_0 3 7 7
86 86 cluster_0 2 4 4
87 87 cluster_0 2 4 3
88 88 cluster_0 5 10 6
89 89 cluster_0 3 6 6
90 90 cluster_0 3 7 4
91 91 cluster_0 4 8 5
92 92 cluster_0 6 12 9
93 93 cluster_0 3 6 3
94 94 cluster_0 2 4 2
95 95 cluster_0 3 6 3
96 96 cluster_0 8 16 11
97 97 cluster_0 3 6 3
98 98 cluster_0 2 4 2
99 99 cluster_0 8 16 12
100 100 cluster_0 6 13 8
101 101 cluster_0 2 4 3
102 102 cluster_0 6 12 8
103 103 cluster_0 2 4 5
104 104 cluster_0 3 6 3
105 105 cluster_0 3 6 3
106 106 cluster_0 3 7 2
107 107 cluster_0 4 8 4
108 108 cluster_0 3 6 5
109 109 cluster_0 6 12 8
110 110 cluster_0 2 2 2
111 111 cluster_0 2 4 4
112 112 cluster_0 2 4 2
113 113 cluster_0 4 8 4
114 114 cluster_0 3 5 4
49

115 115 cluster_0 2 4 3


116 116 cluster_0 2 4 2
117 117 cluster_0 2 4 2
118 118 cluster_0 2 4 1
119 119 cluster_0 3 6 3

Tabel 4. 19 Tabel Centroid Euclidean K-Means

Cluster_0 Cluster_1 Cluster_2

Jumlah
20.7647 4.7957 61
Kecelakaan
Jumlah
43.7647 9.65591 122.778
Kendaraan
Jumlah
28.5882 6.16129 84.6667
Korban

Tabel 4. 20 Hasil Klastering Euclidean K-Means

Jumlah Jumlah Jumlah


No Id Cluster
Kecelakaan Kendaraan Korban
1 1 cluster_2 103 200 143
2 2 cluster_0 25 48 33
3 3 cluster_1 2 4 2
4 4 cluster_2 51 104 74
5 5 cluster_1 6 11 7
6 6 cluster_1 4 8 5
7 7 cluster_1 12 22 14
8 8 cluster_1 3 6 3
9 9 cluster_1 5 9 7
10 10 cluster_0 32 65 48
11 11 cluster_2 58 102 77
12 12 cluster_0 18 35 24
13 13 cluster_1 4 8 5
14 14 cluster_0 16 34 43
15 15 cluster_2 45 96 59
16 16 cluster_1 5 9 7
17 17 cluster_0 25 60 38
50

18 18 cluster_1 2 4 2
19 19 cluster_1 7 14 9
20 20 cluster_1 12 23 14
21 21 cluster_1 6 12 7
22 22 cluster_0 28 56 32
23 23 cluster_1 2 3 1
24 24 cluster_0 19 39 21
25 25 cluster_2 52 107 73
26 26 cluster_2 55 119 101
27 27 cluster_0 30 68 44
28 28 cluster_0 15 28 17
29 29 cluster_1 9 17 16
30 30 cluster_1 6 12 7
31 31 cluster_1 4 8 6
32 32 cluster_1 7 15 8
33 33 cluster_1 10 22 16
34 34 cluster_2 48 100 50
35 35 cluster_2 61 123 86
36 36 cluster_1 7 16 5
37 37 cluster_0 28 56 39
38 38 cluster_1 7 14 8
39 39 cluster_0 18 42 16
40 40 cluster_0 16 34 18
41 41 cluster_1 3 4 2
42 42 cluster_1 10 20 12
43 43 cluster_2 76 154 99
44 44 cluster_1 3 6 4
45 45 cluster_0 16 35 20
46 46 cluster_1 11 23 15
47 47 cluster_0 19 40 27
48 48 cluster_1 9 20 8
49 49 cluster_1 3 6 6
50 50 cluster_1 6 11 8
51 51 cluster_1 6 12 8
52 52 cluster_0 21 43 32
53 53 cluster_1 8 16 10
51

54 54 cluster_1 7 14 9
55 55 cluster_1 3 8 7
56 56 cluster_1 4 7 6
57 57 cluster_1 5 10 8
58 58 cluster_1 7 15 9
59 59 cluster_1 6 13 9
60 60 cluster_1 4 8 6
61 61 cluster_0 12 30 15
62 62 cluster_1 2 4 2
63 63 cluster_1 5 10 7
64 64 cluster_1 9 20 15
65 65 cluster_1 11 23 11
66 66 cluster_0 15 31 19
67 67 cluster_1 9 18 12
68 68 cluster_1 2 4 2
69 69 cluster_1 2 4 4
70 70 cluster_1 5 10 6
71 71 cluster_1 3 6 4
72 72 cluster_1 5 10 4
73 73 cluster_1 5 10 6
74 74 cluster_1 5 9 5
75 75 cluster_1 7 14 9
76 76 cluster_1 2 4 2
77 77 cluster_1 4 8 4
78 78 cluster_1 12 25 18
79 79 cluster_1 2 4 2
80 80 cluster_1 9 20 11
81 81 cluster_1 3 6 3
82 82 cluster_1 5 10 8
83 83 cluster_1 3 6 4
84 84 cluster_1 2 4 2
85 85 cluster_1 3 7 7
86 86 cluster_1 2 4 4
87 87 cluster_1 2 4 3
88 88 cluster_1 5 10 6
89 89 cluster_1 3 6 6
52

90 90 cluster_1 3 7 4
91 91 cluster_1 4 8 5
92 92 cluster_1 6 12 9
93 93 cluster_1 3 6 3
94 94 cluster_1 2 4 2
95 95 cluster_1 3 6 3
96 96 cluster_1 8 16 11
97 97 cluster_1 3 6 3
98 98 cluster_1 2 4 2
99 99 cluster_1 8 16 12
100 100 cluster_1 6 13 8
101 101 cluster_1 2 4 3
102 102 cluster_1 6 12 8
103 103 cluster_1 2 4 5
104 104 cluster_1 3 6 3
105 105 cluster_1 3 6 3
106 106 cluster_1 3 7 2
107 107 cluster_1 4 8 4
108 108 cluster_1 3 6 5
109 109 cluster_1 6 12 8
110 110 cluster_1 2 2 2
111 111 cluster_1 2 4 4
112 112 cluster_1 2 4 2
113 113 cluster_1 4 8 4
114 114 cluster_1 3 5 4
115 115 cluster_1 2 4 3
116 116 cluster_1 2 4 2
117 117 cluster_1 2 4 2
118 118 cluster_1 2 4 1
119 119 cluster_1 3 6 3

Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil
clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data
tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam
perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama
dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2
53

juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table
4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir
yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam
penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki
anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data
sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian
sebagai berikut:
a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih
rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat
disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan
(tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan.
b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih
tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga,
sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan
tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17
jalan.
c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih
tinggi daripada klaster pertama dan klaster kedua, sehingga dapat
disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan
(sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.

Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan
kecelakaan lalu lintas yang tertera pada table 4.21 berikut:
Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas

Tidak Rawan Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo


Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok,
Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto,
Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar,
Imam Bonjol, Gajah Mada, Purwosari, Citarum raya,
Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol
54

Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir


Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam
Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang,
Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya
Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng,
Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto,
Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol
R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo,
Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja,
Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi,
Kokrosono, DI panjaitan, Basudewo, Raden Patah,
Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman,
Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O
Simpang Lima, Ketileng Raya, Elang Raya, Manyaran,
Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot
Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan
Luhur IV, Tlogosari raya, Suratmo
Rawan Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang,
Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo,
Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu,
Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang,
Untung Suropati
Sangat Rawan Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta,
Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo,
Siliwangi, Raya kaligawe

4.4 Pengujian Klastering


Pengujian ini dilakukan untuk menentukan jumlah claster paling
optimal dalam proses clustering tersebut, dengan membandingkan
pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means
55

dengan Euclidean K-Means yang telah digunakan pada penelitian


sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah
diantara keduanya dianggap paling optimal dalam menghasilkan cluster set
sebanyak 3 klaster.
Berikut merupakan langkah perhitungan Davies Bouldin Index dengan
menggunakan persamaan (2.2) sampai (2.5) :
1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev
K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster.
2. Cari nilai rata-rata dari masing masing nilai cluster.
3. Hitung variance data dari masing-masing dalam cluster dengan
menggunakan persamaan (2.2).
4. Cari R Max dari langkah 2 dan 3.
5. Hasil akhir adalah nilai DBI dari cluster.

Langkah pertama, data yang digunakan dalam langkah ini adalah


data yang telah ter-cluster dari Chebychev K-Means dan Euclidean K-
Means yang didapat dari perhitungan manual menggunakan Excel. Dalam
contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan
Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil
klasternya :
Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means

Data ke i Jarak Cluster


1 77.22222 3
2 4.411765 2
3 5.655914 1
4 18.77778 3
5 1.344086 1
6 1.655914 1
7 12.34409 1
8 3.655914 1
9 0.83871 1
10 21.23529 2
11 20.77778 3
56

12 8.764706 2
13 1.655914 1
14 14.41176 2
15 26.77778 3
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means
Data ke i Jarak Cluster
1 105.499 3
2 7.439025 2
3 7.557885 1
4 23.7988 3
5 1.990061 1
6 2.173427 1
7 16.30104 1
8 5.155967 1
9 1.084157 1
10 30.88667 2
11 22.34936 3
12 10.27208 2
13 2.173427 1
14 18.04857 2
15 40.39588 3

Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang


tertera di table 4.22
1. Cari nilai rata-rata dari masing-masing nilai cluster
1
5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914
=
7
= 3.878648
4.411765 + 21.23529 + 8.764706 + 14.41176
2 = = 12.20588
4
77.22222 + 18.77778 + 20.77778 + 26.77778
3 = = 35.88889
4
57

2. Hitung variance data dari masing-masing dalam cluster


Cluster1
1
() = (5.655914 3.878648)2 + (1.344086 3.878648)2
71
+ (1.655914 3.878648)2 + (12.34409 3.878648)2
+ (3.655914 3.878648)2 + (0.63671 3.878648)2
+ (1.655914 3.878648)2 = 16.73637

Cluster2
1
() = (4.411765 12.20588)2 + (21.23529 12.20588)2
41
+ (8.764706 12.20588)2 + (14.41176 12.20588)2 = 52.99539
Cluster3
1
() = (77.22222 35.88889)2 + (18.77778 35.88889)2
41
+ (20.77778 35.88889)2 + (26.77778 35.88889)2 = 770.8642
3. Cari R max
16.73637 + 52.99539 + 770.8642
123 = = 19.01107
||3.878648 12.20588 35.88889||

4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya:


1
= (19.01107) = 6.337024
3
Dengan langkah yang sama dilakukan pada Euclidean K-Means dan
perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI
dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies
Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat
dilihat pada table 4.24. berikut:
Tabel 4. 24 Perbandingan Nilai DBI Sample

Klaster Nilai DBI


Chebychev Distance K-Means 6.337024
Euclidean Disance K-Means 9.38884
58

Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer

Klaster Nilai DBI


Chebychev K-Means 0.416
Euclidean K-Means 0.426

Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang


telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai
DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev K-
Means dengan nilai DBI 0.416.

4.5 Hasil Pengujian


Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat
diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang
menggunakan Chebychev K-Means paling optimal dalam menghasilkan
cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang
menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari
Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean
Distance (0.426).
BAB V
KESIMPULAN DAN SARAN

5.1 Kesimpulan
Dari hasil penelitian yang dilakukan, maka dapat disimpulkan
bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan
rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas
dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran
Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI)
memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal
tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means
lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster
dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling
rendah diantara keduanya dinilai paling optimal.
5.2 Saran
Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai
berikut:

1. Penelitian ini dapat dikembangkan dengan algoritma data mining


lainnya khususnya algoritma didalam teknik clustering,
membandingkan atau mengkombinasikan dengan algoritma lain untuk
mendapatkan hasil yang lebih optimal.
2. Dapat dikembangkan dengan menggunakan system atau apikasi yang
menarik dan informatif dalam menyediakan informasi daerah rawan
kecelakaan lalu lintas di Kota Semarang.

59
DAFTAR PUSTAKA

[1] Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. Studi
Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam.
Jurnal Karya Teknik Sipil. 2015.
[2] E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan
Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam
Indonesia. 2015.
[3] Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. Pemetaan
Kecelakaan Lalu Lintas Berbasis Klasifikasi Nave Bayes dengan Parameter
Infrastruktur Jalan.
[4] Natalis Rans. Pengaplikasian Algoritma Classification Based on Predictive
Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas
(Studi pada Kepolisian Daerah Sulawesi Tenggara). Universitas Gadjah
Mada. Yogyakarta. 2014.
[5] International Labour Organization, "A. Worker's Education Manual
International Labour Office," Accident Prevention , 1998.
[6] Undang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan
(LLAJ),2009.
[7] Aztria Dharma. Identifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan
Dalu-dalu sampai Pasir Pengaraian). Universitas Pasir Pengaraian.
[8] H. M. T. R. P. Simanungkalit, Y. Aswad. Analisa faktor penyebab
kecelakaan lalu lintas di ruas jalan Sisingamangaraja Kota
Medan.Universitas Sumatera Utara. 2014.
[9] J. O. Ong, Implementasi Algotritma K-means clustering untuk menentukan
strategi marketing president university, Jurnal Ilmiah Teknik Industri
vol.12, 2013.
[10] M. Anggara, H. Sujiani, H. Nasution, Pemilihan Distance Measure Pada K-
Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness, vol.
1, no. 1, pp. 16, 2016.

60
61

[11] D. Sinwar, R. Kaushik, Study of Euclidean and Manhattan Distance Metrics


using Simple K-Means Clustering, Int. J. Res. Appl. Sci. Eng. Technol., vol.
[12, no. 5, pp. 270274, 2014.
[12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to
Data Mining, John Willey & Sons, Inc.
[13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk
Keperluan Bisnis. Yogyakarta: Graha Ilmu.
[14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan
tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah".
Universitas Dian Nuswantoro. Semarang. 2015.
[15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu,
Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode K-
Means Algorima, Clust. K-Means, pp. 17, 2012.
[16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., Optimalisasi
Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan
Menggunakan Metode Clustering dan Davies Bouldin Index, Universitas
Trunojoyo. Madura. 2014.
[17] Irwan Budiman. Data Clustering Menggunakan Metodologi CRISP-DM
untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma, Universitas
Diponegoro. 2012.
[18] Bayu Pramadya K.S. Analisis Penentuan Lokasi Rawan Kecelakaan Lalu
Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator
Kerawanan), Universitas Jember. 2012.
[19] Isa Al Qurni. Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional
Kabupaten Kendal, Universitas Negeri Semarang. 2013.
[20] Alith Fajar M. Klasterisasi Proses Seleksi Pemain Menggunakan Algoritma
K-Means, Universitas Dian Nuswantoro. Semarang. 2015

Anda mungkin juga menyukai