Disusun Oleh :
Menyetujui : Menyetujui :
Pembimbing Dekan Fakultas Ilmu Komputer
ii
PENGESAHAN DEWAN PENGUJI
Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir pada Oktober 2016. Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar
Sarjana Komputer (S.Kom).
Penguji 1 Penguji 2
Anggota Anggota
Penguji 3
Ketua Penguji
iii
PERNYATAAN KEASLIAN SKRIPSI
Dibuat di : Semarang
Pada tanggal : Oktober 2016
Yang menyatakan
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Dibuat di : Semarang
Pada tanggal : Oktober 2016
Yang menyatakan
v
KATA PENGANTAR
vi
7. Kedua Orang Tua yang selalu saya cintai dan banggakan.
8. Semua pihak yang namanya tidak dapat disebutkan satu per
satu.
Penulis
vii
ABSTRAK
Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi
penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia
sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia
dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah
satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di
masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas
yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu
lintas terjadi karena masyarakat modern menempatkan transportasi sebagai
kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan
penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status
daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas
Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma K-
Means klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster
berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan
kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat
dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas.
Dalam penelitian ini dilakukan pengelompokkan data menggunakan
Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam
kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih
optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena
nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416
lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426.
Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone
Areas.
viii
DAFTAR ISI
HALAMAN JUDUL................................................................................................ i
PERSETUJUAN SKRIPSI ..................................................................................... ii
PENGESAHAN DEWAN PENGUJI .................................................................... iii
PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS .............................................................................. v
KATA PENGANTAR ........................................................................................... vi
ABSTRAK ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ............................................................................................ xii
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 4
1.3 Batasan Masalah ....................................................................................... 4
1.4 Tujuan Penelitian ...................................................................................... 5
1.5 Manfaat Penelitian .................................................................................... 5
BAB II ..................................................................................................................... 6
TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6
2.1 Penelitian Terkait ..................................................................................... 6
2.2 Landasan Teori ....................................................................................... 12
2.2.1 Kecelakaan Lalu Lintas ................................................................... 12
2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12
2.2.3 Pengertian Jalan .............................................................................. 13
2.2.4 Data Mining .................................................................................... 14
2.2.5 CRISP-DM ...................................................................................... 16
2.2.6 Clustering ........................................................................................ 19
2.2.7 Algoritma K-Means ........................................................................ 19
2.2.8 Davies Bouldin Index ...................................................................... 21
2.3 Kerangka Pemikiran ............................................................................... 22
ix
BAB III ................................................................................................................. 23
METODE PENELITIAN ...................................................................................... 23
3.1 Data Penelitian ....................................................................................... 23
3.2 Tahapan Penelitian ................................................................................. 25
BAB IV ................................................................................................................. 29
4.1 Pengolahan Data ..................................................................................... 29
4.1.1 Persiapan Data ................................................................................. 29
4.1.2 Preprocessing .................................................................................. 29
4.2 Proses Klastering .................................................................................... 30
4.2.1 Chebychev Distance K-Means ........................................................ 31
4.2.2 Euclidean K-Means ......................................................................... 39
4.3 Proses Menggunakan Rapidminer .......................................................... 44
4.4 Pengujian Klastering .............................................................................. 54
4.5 Hasil Pengujian ....................................................................................... 58
BAB V................................................................................................................... 59
5.1 Kesimpulan ............................................................................................. 59
5.2 Saran ....................................................................................................... 59
DAFTAR PUSTAKA ........................................................................................... 60
x
DAFTAR TABEL
xi
DAFTAR GAMBAR
xii
BAB I
PENDAHULUAN
1
2
oleh karena itu data mining memiliki peranan penting dalam berbagai bidang.
Secara umum kajian data mining membahas metode-metode seperti clustering,
klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering
merupakan suatu metode untuk mencari dan mengelompokkan data yang
memiliki kemiripan karakteristik antara satu data dengan data yang lain [11].
Salah satu ciri clustering yang baik atau optimal adalah menghasilkan
cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada
cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang
berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan
distance measure. Jika menggunakan distance measure yang berbeda maka
hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10].
Dalam perkembangan clustering terdapat berbagai algoritma yang salah
satunya adalah K-Means.
K-Means clustering merupakan salah satu metode data clustering non-
hirarki yang mengelompokkan data dalam bentuk satu atau lebih
cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan
dalam satu cluster/kelompok dan data yang memiliki karakteristik yang
berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data
yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil
[9].
Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto,
Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan
algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik
menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14]
meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat
Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah.
Penelitian ini menggunakan teknik data mining dengan algoritma K-Means
untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di
Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang
ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita,
angka kesakitan bayi dan balita, dan status gizi bayi dan balita.
4
6
7
pengelompokkan member di
Alvaro fitness adalah
Chebyshev Distance.
a. Description (Deskripsi)
Peneliti dan analis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam
data.
b. Estimation (Estimasi)
Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang
lebih kearah numerik daripada ke arah kategori.
c. Prediction (Prediksi)
Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu
yang belum terjadi).
d. Association (Asosiasi)
Asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
e. Clustering
Clustering merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
15
f. Classification (Klasifikasi)
Penyusunan data menjadi beberapa kelompok yang ditentukan.
Knowledge
Data WareHouse
Patterns
a. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah dari basis
data operasional.
b. Cleaning
Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan ketik (tipografi).
16
c. Transformation
Pengubahan data ke dalam format yang sesuai untuk dapat
diproses dalam data mining. Misal, beberapa metode standar
seperti analisis asosiasi dan clustering hanya bisa menerima
input data kategorikal, maka data berupa angka numerik yang
berlanjut perlu dibagi menjadi beberapa interval.
d. Data mining
Proses pencarian pola atau informasi yang menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu.
e. Pattern Evaluation
Tahap ini mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesis yang
ada sebelumnya.
2.2.5 CRISP-DM
Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti
DaimlerChrysler, SPSS dan NCR. CRISP-DM menyediakan
standarproses data mining sebagai strategi pemecahan masalah secara
umumdari bisnis atau unit penelitian.
17
Chebyshev Distance
= | | (2.1)
Dimana :
K = Dimensi data
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.
START
Jumlah K
Inisiasi
Pusat
Kelompokkan
data berdasarkan
jarak minimum Pusat cluster lama =
pusat cluster baru
tidak
ada
Selisih Pusat
cluster lama dan
baru
End
1
() = ( )2 (2.2)
1
=1
max
= (2.3)
= 1, . . ,
( ) + ( )
= (2.4)
|| ||
1
= . (2.5)
=1
Dimana
: rata-rata dari cluster x dan N adalah jumlah anggota cluster
Var : variance dari data
: cluster i dan adalah centroid dari cluster i
22
Metode
Penerapan
Data Kecelakaan
Polrestabes Semarang
2014-2015
Pengembangan
Microsoft Excel dan
Rapidminer
Pengujian
Davies Bouldin Indeks
(DBI)
Hasil
METODE PENELITIAN
23
24
Atribut Keterangan
Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan
tempat kejadian terjadinya kecelakaan
Uraian Singkat Kejadian Atribut yang menginformasikan uraian
singkat terjadinya kecelakaan
Korban Atribut yang menginformasikan jumlah
korban pada saat terjadinya kecelakaan
tersebut baik koban meninggal dunia, luka
berat, luka ringan, serta menjelaskan pula
kerugiaan materiil yang didapat akibat
terjadinya kecelakaan tersebut
Yang terlibat Atribut yang menginformasikan pengguna
jalan (kendaraan bermotor, pejalan kaki,
dsb.) yang terlibat dalam kecelakaan tersebut
Identitas Pengemudi Atribut yang menginformasikan tentang
identitas korban yang terlibat dalam
kecelakaan tersebut.
6 Brigjend Katamso 3 6 4
7 Fatmawati 5 10 6
8 Sarwo Edi Wibowo 2 4 2
9 Thamrin 2 3 4
10 MT Haryono 16 32 25
Chebyshev Distance
= | | (3.1)
Dimana :
K = Dimensi data
= Data dari jumlah kecelakaan, jumlah kendaraan yang
terlibat, jumlah korban
= Centroid
= Jarak antara dan dan || adalah nilai mutlak.
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.
5. Fase Evaluasi (Evaluation Phase)
Pada fase ini dilakukan penilaian menggunakan Davies Bouldin
Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses
clustering tersebut, dengan membandingkan pengelompokan sebanyak 3
klaster menggunakan Chebychev K-Means dengan Euclidean K-Means
yang telah digunakan pada penelitian sebelumnya. Dimana dalam
penentuannya nilai DBI yang paling rendah diantara keduanya dianggap
paling optimal dalam menghasilkan cluster set sebanyak 3 klaster.
6. Fase Penyebaran
Fase yang terakhir adalah fase penyebaran dimana data yang telah
dievaluasi diimplementasikan sehingga dapat digunakan untuk
menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data
diuji dengan menggunakan tool rapidminer. Dengan menggunakan
pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil
clustering yang dilakukan menggunakan perhitungan pada Microsoft
28
Atribut
Waktu & Tempat Kejadian
(Jumlah Kecelakaan)
Uraian Singkat Kejadian X
Korban
Kendaraan Yang terlibat
Identitas Pengemudi X
4.1.2 Preprocessing
Preprocessing yang dilakukan adalah penghapusan data
missing value (memiliki keterangan yang kurang lengkap) Pada
tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak
memiliki keterangan yang kurang lengkap seperti kejadian
kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya
keterangan identitas korban, umur, pekerjaan, maka jalan tersebut
tidak digunakan.
29
30
Chebyshev Distance
= | | (4.1)
Dimana :
K = Dimensi data
11 = max( |103 2|, |200 2|, |143 2|)
= 198
Jarak data pertama dengan pusat klaster kedua:
12 = max( |103 3|, |200 3|, |143 3|)
= 197
Jarak data pertama dengan pusat klaster ketiga:
1+2+1
13 = = 1.33333333
3
Untuk klaster dua ada 20 data, sehingga:
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2
21 = = 2.05
20
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4
22 = =4
20
2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2
23 = = 2.6
20
Untuk klaster ketiga ada 96 data, sehingga:
103 + 25 + 51 + + 4 + 3 + 3
31 = = 13.55208
96
200 + 48 + 104 + + 8 + 5 + 6
32 = = 27.6875
96
143 + 33 + 74 + + 4 + 4 + 3
33 = = 18.38542
96
Tabel 4. 4 Centroid baru untuk iterasi 2
Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi
klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu
menghitung titik pusat klaster baru.
. . . . . . . .
0.434783 5.586207 51.31579 C1
116 2 4 2
0.434783 5.586207 51.31579 C1
117 2 4 2
1.434783 5.586207 51.31579 C1
118 2 4 1
2.130435 3.586207 49.31579 C1
119 3 6 3
Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi
klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu
menghitung titik pusat klaster baru.
37.3913
32 =
200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43
=
23
76.52174
37
33 =
143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32
=
23
52.04348
Tabel 4. 8 Centroid baru untuk iterasi 4
Euclidean Distance
2 2 2
(,) = (1 1 ) + (2 2 ) + + ( ) (4.2)
dimana:
D (i,j) = Jarak data ke i ke pusat cluster j
Xki = Data ke i pada atribut data ke k
Xkj = Titik pusat ke j pada atribut ke k
11 = (103 2)2 + (200 2)2 + (143 2)2 = 263.222
Jarak data pertama dengan pusat klaster kedua:
12 = (103 3)2 + (200 3)2 + (143 3)2 = 261.551
Jarak data pertama dengan pusat klaster ketiga:
Tabel 4. 13 Iterasi 2
Jumlah Jumlah Jumlah
Data Kecelakaan Kendaraan yang Korban Anggota
ke- (X1) terlibat (X2) (X3) C1 C2 C3 klaster
262.8297 261.446 231.0006 C3
1 103 200 143
59.63873 58.2618 27.82108 C3
2 25 48 33
1.20185 0.476599 30.72914 C2
3 2 4 2
133.7253 132.3324 101.885 C3
4 51 104 74
10.58825 9.223299 21.26349 C2
5 6 11 7
6.51494 5.116104 25.34793 C2
6 4 8 5
24.92879 23.57554 7.051494 C3
7 12 22 14
3.574602 2.274756 28.30453 C2
8 3 6 3
8.781293 7.360334 23.18998 C2
9 5 9 7
83.19722 81.79542 51.38536 C3
10 32 65 48
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
1.20185 0.476599 30.72914 C2
116 2 4 2
1.20185 0.476599 30.72914 C2
117 2 4 2
1.054093 1.474624 31.2694 C1
118 2 4 1
3.574602 2.274756 28.30453 C2
119 3 6 3
43
25 48 33
2 4 2
51 104 74
6 11 7
4 8 5
12 22 14
3 6 3
5 9 7
32 65 48
. . .
. . .
. . .
. . .
2 4 2
2 4 2
2 4 1
3 6 3
7 7 cluster_0 12 22 14
8 8 cluster_0 3 6 3
9 9 cluster_0 5 9 7
10 10 cluster_1 32 65 48
11 11 cluster_2 58 102 77
12 12 cluster_1 18 35 24
13 13 cluster_0 4 8 5
14 14 cluster_1 16 34 43
15 15 cluster_2 45 96 59
16 16 cluster_0 5 9 7
17 17 cluster_1 25 60 38
18 18 cluster_0 2 4 2
19 19 cluster_0 7 14 9
20 20 cluster_0 12 23 14
21 21 cluster_0 6 12 7
22 22 cluster_1 28 56 32
23 23 cluster_0 2 3 1
24 24 cluster_1 19 39 21
25 25 cluster_2 52 107 73
26 26 cluster_2 55 119 101
27 27 cluster_1 30 68 44
28 28 cluster_1 15 28 17
29 29 cluster_0 9 17 16
30 30 cluster_0 6 12 7
31 31 cluster_0 4 8 6
32 32 cluster_0 7 15 8
33 33 cluster_0 10 22 16
34 34 cluster_2 48 100 50
35 35 cluster_2 61 123 86
36 36 cluster_0 7 16 5
37 37 cluster_1 28 56 39
38 38 cluster_0 7 14 8
39 39 cluster_1 18 42 16
40 40 cluster_1 16 34 18
41 41 cluster_0 3 4 2
42 42 cluster_0 10 20 12
47
43 43 cluster_2 76 154 99
44 44 cluster_0 3 6 4
45 45 cluster_1 16 35 20
46 46 cluster_0 11 23 15
47 47 cluster_1 19 40 27
48 48 cluster_0 9 20 8
49 49 cluster_0 3 6 6
50 50 cluster_0 6 11 8
51 51 cluster_0 6 12 8
52 52 cluster_1 21 43 32
53 53 cluster_0 8 16 10
54 54 cluster_0 7 14 9
55 55 cluster_0 3 8 7
56 56 cluster_0 4 7 6
57 57 cluster_0 5 10 8
58 58 cluster_0 7 15 9
59 59 cluster_0 6 13 9
60 60 cluster_0 4 8 6
61 61 cluster_1 12 30 15
62 62 cluster_0 2 4 2
63 63 cluster_0 5 10 7
64 64 cluster_0 9 20 15
65 65 cluster_0 11 23 11
66 66 cluster_1 15 31 19
67 67 cluster_0 9 18 12
68 68 cluster_0 2 4 2
69 69 cluster_0 2 4 4
70 70 cluster_0 5 10 6
71 71 cluster_0 3 6 4
72 72 cluster_0 5 10 4
73 73 cluster_0 5 10 6
74 74 cluster_0 5 9 5
75 75 cluster_0 7 14 9
76 76 cluster_0 2 4 2
77 77 cluster_0 4 8 4
78 78 cluster_0 12 25 18
48
79 79 cluster_0 2 4 2
80 80 cluster_0 9 20 11
81 81 cluster_0 3 6 3
82 82 cluster_0 5 10 8
83 83 cluster_0 3 6 4
84 84 cluster_0 2 4 2
85 85 cluster_0 3 7 7
86 86 cluster_0 2 4 4
87 87 cluster_0 2 4 3
88 88 cluster_0 5 10 6
89 89 cluster_0 3 6 6
90 90 cluster_0 3 7 4
91 91 cluster_0 4 8 5
92 92 cluster_0 6 12 9
93 93 cluster_0 3 6 3
94 94 cluster_0 2 4 2
95 95 cluster_0 3 6 3
96 96 cluster_0 8 16 11
97 97 cluster_0 3 6 3
98 98 cluster_0 2 4 2
99 99 cluster_0 8 16 12
100 100 cluster_0 6 13 8
101 101 cluster_0 2 4 3
102 102 cluster_0 6 12 8
103 103 cluster_0 2 4 5
104 104 cluster_0 3 6 3
105 105 cluster_0 3 6 3
106 106 cluster_0 3 7 2
107 107 cluster_0 4 8 4
108 108 cluster_0 3 6 5
109 109 cluster_0 6 12 8
110 110 cluster_0 2 2 2
111 111 cluster_0 2 4 4
112 112 cluster_0 2 4 2
113 113 cluster_0 4 8 4
114 114 cluster_0 3 5 4
49
Jumlah
20.7647 4.7957 61
Kecelakaan
Jumlah
43.7647 9.65591 122.778
Kendaraan
Jumlah
28.5882 6.16129 84.6667
Korban
18 18 cluster_1 2 4 2
19 19 cluster_1 7 14 9
20 20 cluster_1 12 23 14
21 21 cluster_1 6 12 7
22 22 cluster_0 28 56 32
23 23 cluster_1 2 3 1
24 24 cluster_0 19 39 21
25 25 cluster_2 52 107 73
26 26 cluster_2 55 119 101
27 27 cluster_0 30 68 44
28 28 cluster_0 15 28 17
29 29 cluster_1 9 17 16
30 30 cluster_1 6 12 7
31 31 cluster_1 4 8 6
32 32 cluster_1 7 15 8
33 33 cluster_1 10 22 16
34 34 cluster_2 48 100 50
35 35 cluster_2 61 123 86
36 36 cluster_1 7 16 5
37 37 cluster_0 28 56 39
38 38 cluster_1 7 14 8
39 39 cluster_0 18 42 16
40 40 cluster_0 16 34 18
41 41 cluster_1 3 4 2
42 42 cluster_1 10 20 12
43 43 cluster_2 76 154 99
44 44 cluster_1 3 6 4
45 45 cluster_0 16 35 20
46 46 cluster_1 11 23 15
47 47 cluster_0 19 40 27
48 48 cluster_1 9 20 8
49 49 cluster_1 3 6 6
50 50 cluster_1 6 11 8
51 51 cluster_1 6 12 8
52 52 cluster_0 21 43 32
53 53 cluster_1 8 16 10
51
54 54 cluster_1 7 14 9
55 55 cluster_1 3 8 7
56 56 cluster_1 4 7 6
57 57 cluster_1 5 10 8
58 58 cluster_1 7 15 9
59 59 cluster_1 6 13 9
60 60 cluster_1 4 8 6
61 61 cluster_0 12 30 15
62 62 cluster_1 2 4 2
63 63 cluster_1 5 10 7
64 64 cluster_1 9 20 15
65 65 cluster_1 11 23 11
66 66 cluster_0 15 31 19
67 67 cluster_1 9 18 12
68 68 cluster_1 2 4 2
69 69 cluster_1 2 4 4
70 70 cluster_1 5 10 6
71 71 cluster_1 3 6 4
72 72 cluster_1 5 10 4
73 73 cluster_1 5 10 6
74 74 cluster_1 5 9 5
75 75 cluster_1 7 14 9
76 76 cluster_1 2 4 2
77 77 cluster_1 4 8 4
78 78 cluster_1 12 25 18
79 79 cluster_1 2 4 2
80 80 cluster_1 9 20 11
81 81 cluster_1 3 6 3
82 82 cluster_1 5 10 8
83 83 cluster_1 3 6 4
84 84 cluster_1 2 4 2
85 85 cluster_1 3 7 7
86 86 cluster_1 2 4 4
87 87 cluster_1 2 4 3
88 88 cluster_1 5 10 6
89 89 cluster_1 3 6 6
52
90 90 cluster_1 3 7 4
91 91 cluster_1 4 8 5
92 92 cluster_1 6 12 9
93 93 cluster_1 3 6 3
94 94 cluster_1 2 4 2
95 95 cluster_1 3 6 3
96 96 cluster_1 8 16 11
97 97 cluster_1 3 6 3
98 98 cluster_1 2 4 2
99 99 cluster_1 8 16 12
100 100 cluster_1 6 13 8
101 101 cluster_1 2 4 3
102 102 cluster_1 6 12 8
103 103 cluster_1 2 4 5
104 104 cluster_1 3 6 3
105 105 cluster_1 3 6 3
106 106 cluster_1 3 7 2
107 107 cluster_1 4 8 4
108 108 cluster_1 3 6 5
109 109 cluster_1 6 12 8
110 110 cluster_1 2 2 2
111 111 cluster_1 2 4 4
112 112 cluster_1 2 4 2
113 113 cluster_1 4 8 4
114 114 cluster_1 3 5 4
115 115 cluster_1 2 4 3
116 116 cluster_1 2 4 2
117 117 cluster_1 2 4 2
118 118 cluster_1 2 4 1
119 119 cluster_1 3 6 3
Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil
clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data
tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam
perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama
dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2
53
juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table
4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir
yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam
penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki
anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data
sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian
sebagai berikut:
a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih
rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat
disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan
(tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan.
b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih
tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga,
sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan
tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17
jalan.
c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih
tinggi daripada klaster pertama dan klaster kedua, sehingga dapat
disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan
(sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.
Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan
kecelakaan lalu lintas yang tertera pada table 4.21 berikut:
Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas
12 8.764706 2
13 1.655914 1
14 14.41176 2
15 26.77778 3
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means
Data ke i Jarak Cluster
1 105.499 3
2 7.439025 2
3 7.557885 1
4 23.7988 3
5 1.990061 1
6 2.173427 1
7 16.30104 1
8 5.155967 1
9 1.084157 1
10 30.88667 2
11 22.34936 3
12 10.27208 2
13 2.173427 1
14 18.04857 2
15 40.39588 3
Cluster2
1
() = (4.411765 12.20588)2 + (21.23529 12.20588)2
41
+ (8.764706 12.20588)2 + (14.41176 12.20588)2 = 52.99539
Cluster3
1
() = (77.22222 35.88889)2 + (18.77778 35.88889)2
41
+ (20.77778 35.88889)2 + (26.77778 35.88889)2 = 770.8642
3. Cari R max
16.73637 + 52.99539 + 770.8642
123 = = 19.01107
||3.878648 12.20588 35.88889||
5.1 Kesimpulan
Dari hasil penelitian yang dilakukan, maka dapat disimpulkan
bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan
rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas
dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran
Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI)
memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal
tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means
lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster
dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling
rendah diantara keduanya dinilai paling optimal.
5.2 Saran
Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai
berikut:
59
DAFTAR PUSTAKA
[1] Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. Studi
Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam.
Jurnal Karya Teknik Sipil. 2015.
[2] E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan
Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam
Indonesia. 2015.
[3] Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. Pemetaan
Kecelakaan Lalu Lintas Berbasis Klasifikasi Nave Bayes dengan Parameter
Infrastruktur Jalan.
[4] Natalis Rans. Pengaplikasian Algoritma Classification Based on Predictive
Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas
(Studi pada Kepolisian Daerah Sulawesi Tenggara). Universitas Gadjah
Mada. Yogyakarta. 2014.
[5] International Labour Organization, "A. Worker's Education Manual
International Labour Office," Accident Prevention , 1998.
[6] Undang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan
(LLAJ),2009.
[7] Aztria Dharma. Identifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan
Dalu-dalu sampai Pasir Pengaraian). Universitas Pasir Pengaraian.
[8] H. M. T. R. P. Simanungkalit, Y. Aswad. Analisa faktor penyebab
kecelakaan lalu lintas di ruas jalan Sisingamangaraja Kota
Medan.Universitas Sumatera Utara. 2014.
[9] J. O. Ong, Implementasi Algotritma K-means clustering untuk menentukan
strategi marketing president university, Jurnal Ilmiah Teknik Industri
vol.12, 2013.
[10] M. Anggara, H. Sujiani, H. Nasution, Pemilihan Distance Measure Pada K-
Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness, vol.
1, no. 1, pp. 16, 2016.
60
61