ALGORITMA SILHOUETTE
TESIS
HANDRY ELDO
177038055
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik
Informatika
HANDRY ELDO
177038055
2020
iii
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan
di bawah ini :
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-
Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan
tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya
sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Handry Eldo
177038055
v
Telah diuji pada
Tanggal : 30 Januari 2020
vi
RIWAYAT HIDUP
DATA PRIBADI
DATA PENDIDIKAN
vii
UCAPAN TERIMA KASIH
Puji dan syukur dipanjatkan kehadapan Tuhan Yang Maha Esa atas berkat, karena
hanya atas karunia-Nya, tesis ini dapat diselesaikan berupa pengetahuan,
kesehatan dan kesempatan yang diberikan kepada penulis sehingga dapat
menyelesaikan tesis dengan judul “PENENTUAN CLUSTER TERBAIK K-MEANS
MENGGUNAKAN ALGORITMA SILHOUETTE”. disusun untuk penyelesaian
tugas akhir perkuliahan program pasca sarjana Universitas Sumatera Utara.
Pada kesempatan ini penulis ingin menyampaikan ucapan rasa terima kasih yang
sebesar-besarnya di tujukan kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H, M.Hum., selaku Rektor Universitas
Sumatera Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul., selaku Dekan Fakultas Ilmu
Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera
Utara.
3. Bapak Prof. Dr. Muhammad Zarlis., selaku Ketua Program Studi Magister
Teknik Informatika dan juga selaku Dosen Pembanding I yang dengan
penuh perhatian telah memberikan dorongan, semangat, bimbingan, dan
saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam
penyelesaian tesis ini.
4. Bapak Dr.Syahril Efendi, S.Si, M.IT., selaku Sekretaris Program Studi
Magister Teknik Informatika dan juga selaku Dosen Pembimbing I yang
selama ini telah memberikan saran yang berharga bagi penulis sebagai
arahan dalam penyelesaian tesis ini.
5. Bapak Prof. Herman Mawengkang., selaku Dosen Pembimbing II yang
telah memberikan banyak saran serta pembelajaran yang berharga bagi
penulis sebagai arahan dalam penyelesaian tesis ini.
6. Bapak Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng., selaku Dosen
Pembanding II yang yang selama ini telah memberikan saran yang
berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
viii
7. Bapak/Ibu Dosen Program Studi Pasca Sarjana (S-2) Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang
telah memberikan bekal ilmu yang sangat berharga bagi penulis selama
menjadi mahasiswa.
8. Seluruh Staf Akademika, dan Pegawai Program Studi Pasca Sarjana (S-2)
Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas
Sumatera Utara yang telah membantu penulis dalam menyelesaikan
penelitian ini.
9. Ayahanda Ibbaidullah dan Ibunda Nurhaslinda Meutia yang tercinta atas
pengorbanan dan dukungan yang sangat luar biasa bagi penulis selama
menjalani perkuliahan sehingga penulis dapat menjalani dan
menyelesaikan studi.
10. Sahabat-sahabat yang luar biasa di Magister Teknik Informatika KOM-C
2017
Penulis menyadari bahwa masih banyak kekurangan dalam tesis ini, Akhir
kata penulis berharap semoga tesis ini ada mamfaatnya bagi peneliti lainnya,
khususnya dalam bidang pendidikan. Penulis menyadari masih ada kekurangan
dalam penulisan tesis, untuk itu penulis mengharapkan kritik dan saran dari
pembaca demi kesempurnaan penelitian selanjutnya.
(Handry Eldo)
viii
ABSTRAK
Pada penelitian ini dilakukan untuk mendapatkan jumlah klaster terbaik dalam
algoritma K-Means dengan menghitung nilai Silhouette Coefficient untuk setiap
jumlah pusat klaster. Pada algoritma K-Means tahapan perhitungan jarak
menggunakan Euclidean Distance. Dataset yang digunakan dalam percobaan
penelitian ini diambil dari repository UCI Machine Learning dengan dataset Iris,
Blood Transfusion Service Center, Wholesale Customers. Adapun hasil pecobaan
dengan menggunakan 10 pusat cluster pada masing-masing dataset didapatkan
dataset Iris dengan jumlah klaster optimum adalah k=2 dan indeks validitas
Silhouette 0.681046, untuk dataset Blood Transfusion Service Center jumlah
klaster optimum K=2 dan indeks validitas Silhouette 0.70497874. Sedangkan
untuk dataset Wholesale Customers jumlah klaster optimum K=2 dengan indeks
validitas silhouette 0.4263.
ix
ABSTRACT
This research was conducted to get the best number of clusters in the K-Means
algorithm by calculating the Silhouette Coefficient value for each number of
cluster centers. In the K-Means algorithm the distance calculation step uses
Euclidean Distance. The dataset used in this research experiment was taken from
the UCI Machine Learning repository with Iris dataset, Blood Transfusion Service
Center, Wholesale Customers. The results of experiments using 10 cluster centers
in each dataset obtained Iris dataset with the optimum number of clusters is k = 2
and the Silhouette validity index 0.681046, for the Blood Transfusion Service
Center dataset the optimum cluster number K = 2 and Silhouette validity index
0.70497874. As for the Wholesale Customers dataset, the optimum number of
clusters is K = 2 with a silhouette validity index of 0.4263. Keywords: Dataset, K-
Means Algorithm, Silhouette Coefficient
x
DAFTAR ISI
Hal.
HALAMAN JUDUL ........................................................................................ i
PERSETUJUAN .............................................................................................. ii
PERNYATAAN ORISINALITAS .................................................................. iii
PERSETUJUAN PUBLIKASI ........................................................................ iv
PANITIA PENGUJI ........................................................................................ v
RIWAYAT HIDUP .......................................................................................... vi
UCAPAN TERIMA KASIH ............................................................................ vii
ABSTRAK ....................................................................................................... ix
ABSTRACT ....................................................................................................... x
DAFTAR ISI .................................................................................................... xi
DAFTAR TABEL ............................................................................................ xii
DAFTAR GAMBAR ....................................................................................... xiii
BAB 1. PENDAHULUAN
1.1 Latar Belakang Masalah ........................................................... 1
1.2 Rumusan Masalah .................................................................... 2
1.3 Batasan Masalah ....................................................................... 2
1.4 Tujuan Penelitian ...................................................................... 3
1.5 Manfaat Penelitian .................................................................... 3
BAB 2. TINJAUAN PUSTAKA
2.1 Data Mining .............................................................................. 4
2.2 Tahapan Data Mining ............................................................... 4
2.3 Metode Clustering .................................................................... 8
2.4 Manfaat Clutering Data ............................................................ 8
2.4.1 Algoritma K-Means ...................................................... 10
2.4.2 Metode Silhoutte ........................................................... 13
2.4.3 Riset Terkait.................................................................. 14
2.4.4 Perbedaan Penelitian Dengan Penelitian Terdahulu ..... 15
xi
BAB 3. METODE PENELITIAN
3.1 Perancangan Algoritma 16
3.2 Metode Penelitian 17
BAB 4. HASIL DAN PEMBAHASAN
4.1 Hasil Pengujian 19
4.2 Dataset Blood Transfusion Service Center 19
4.3 Perhitungan K-Means 24
4.4 Hasil Silhoutte Coeffcient 64
4.5 Hasil Pengujian Menggunakan Dataset Lain 68
4.6 BAB 5. KESIMPULAN DAN SARAN
5.1 Kesimpulan 70
5.2 Saran 70
DAFTAR PUSTAKA
xii
DAFTAR TABEL
Hal.
Tabel 2.1 Riset – Riset Terkait .............................................................................................. 14
Tabel 4.1 Ringkasan Dataset Yang Digunakan ................................................................. 19
Tabel 4.2 Dataset Blood Transfussion Service Center ..................................................... 20
Tabel 4.3 Perhitungan Jarak Dengan Titik Pusat Cluster ................................................ 26
Tabel 4.4 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 2 ............................ 29
Tabel 4.5 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 3 ............................ 33
Tabel 4.6 Hasil Akhir Perhitungan K-means Dengan Pusat Cluster Sebanyak 4 37
Tabel 4.7 Hasil Akhir K-Means Dengan Jumlah Pusat Cluster 5 ................................. 41
Tabel 4.8 Hasil Akhir K-Means Pada Pusat Cluster 6 ..................................................... 44
Tabel 4.9 Hasil Akhir K-Means Pada Pusat Cluster 7 ..................................................... 48
Tabel 4.10 Hasil Akhir K-Means Pada Pusat Cluster 8 ................................................... 52
Tabel 4.11 Hasil Akhir K-Means Pada Pusat Cluster 9 ................................................... 56
Tabel 4.12 Hasil Akhir K-Means Pada Pusat Cluster 10 ................................................. 60
Tabel 4.13 Hasil Akhir Pusat Cluster ................................................................................... 64
Tabel 4.14 Shilhouette Coeffient........................................................................................... 64
Tabel 4.15 Hasil Data Iris ....................................................................................................... 68
Tabel 4.16 Hasil Wholesale Costomers ............................................................................... 69
xiii
DAFTAR GAMBAR
Hal.
Gambar 2.1Proses Menggali Pengetahuan Dari Pangkalan Data .................................. 5
Gambar 2.2 Contoh Proses Clustering ................................................................................. 10
Gambar 2.3 Proses Clustering Objek Menggunakan Metode K-Means ...................... 10
Gambar 2.4 Flowchart Algoritma K-Means ....................................................................... 13
Gambar 3.1 Flowchart K-Means Berbasis Shilhouette .................................................... 16
Gambar 3.2Langkah-langkah Penelitian ............................................................................. 18
Gambar 4.1Nilai Shilhouette Dengan K=2 ......................................................................... 65
Gambar 4.2Nilai Shilhouette Dengan K=3 ......................................................................... 65
Gambar 4.3Nilai Shilhouette Dengan K=4 ......................................................................... 66
Gambar 4.4Nilai Shilhouette Dengan K=5 ......................................................................... 66
Gambar 4.5Nilai Shilhouette Dengan K=6 ......................................................................... 66
Gambar 4.6Nilai Shilhouette Dengan K=7 ......................................................................... 67
Gambar 4.7Nilai Shilhouette Dengan K=8 ......................................................................... 67
Gambar 4.8Nilai Shilhouette Dengan K=9 ......................................................................... 67
Gambar 4.9Nilai Shilhouette Dengan K=10 ....................................................................... 68
xiv
BAB I
PENDAHULUAN
1
Penulis menggunakan metode silhouette untuk menemukan nilai k terbaik
pada metode k-means. Metode silhouette mampu menemukan fungsi dari jumlah
cluster dari sebuah data yang diuji. Hasil jumlah cluster menjadi lebih optimal
setiap nilai k yang diperoleh pada K-means.
2
1.4 Tujuan Penelitian
Tujuan tesis adalah melakukan optimasi cluster dengan modifikasi metode
shilhouette dalam menentukan jumlah cluster yang paling bagus.
3
BAB II
TINJAUAN PUSTAKA
Proses untuk memperbaiki nilai tambah dari data yang diperoleh sangat
maksimal pada pangkalan data (knowledge Discovery in Database = KDD).
Diskusi yang di ajukan akan di tujukan pada gambar 2.1 berikut :
4
Gambar 2.1 Proses menggali pengetahuan dara pangkalan data
(sumber ; Han.J & Kember 2006)
Adapun pangkalan data sesuai proses hanya saja tidak dinamis pada gambar
2.1 diatas. Data bersifat interaktif dimana pemakai terlibat secara langsung melalui
perantaran yang ada knowledge base.
1. Data Selection
Ini target tujuan memfokuskan pada subset variabel data yang dibutuhkan untuk
digunakan pada saat target dihasilkan. Hasil disimpan dalam folder yang terpisah
dari basis data yang dioperasikan.
2. Pre-Processing
Tahap ini dilakukan untuk menghilangkan data yang tidak ofisien (noise),
diaplikasi oleh data agar data dapat di uji Kembali.
3. Transformation
Tranformasi tujuan untuk mengubah skala pengukuran data asli menjadi bentuk
lain yang sudah di analisi data. Dengan teknik data mining membutuhkan format
data yang khusus sebelum bisa dijadikan aplikasi utuh.
5
4. Data Mining
Data informasi dihasilkan proses data mining perlu ditampilkan dalam bentuk
operasional supaya informasi dapat dihasilkan sesuai kepentingan. Tahap ini salah
satu bagian dari proses KDD yang disebut dengan interpretation.
5. Evaluasi
Fungsi ini menjelaskan bentuk cluster yang dihasilkan melalui terhadap data
kompleks. Evaluasi yang dimaksudkan disini dengan cara memeriksa apakah
informasi yang ditemukan sesuai atau berlawan arah dengan fakta sebelumnya.
6. Deployment
Model ini yang telah dibuat, deployment yang sederhana adalah sampai
menghasilkan data dalam bentuk laporan sedangkan deployment yang kompleks
adalah melaksanakan model baru dihasilkan proses paralel pada departemen
lainnya.
2. Fungsi Estimasi
Fungsi ini untuk memperkirakan suatu data yang sudah terurai. Fungsi estimasi
ini sendiri terdiri dari dua fungsi yaitu Estimasi Titik dan Estimasi Selang
Kepercayaan.
6
memprediksi dalam fungsi ini adalah Regresi Linier.
7
2.2 Metode Clustering
Clustering merupakan pengelompokan suatu partisi berbeda, atau lebih
tepatnya partisi tidak melakukan data pengulangan dengan berkali kali. Cluster ini
terdiri dari kumpulan benda-benda yang mirip antara satu dengan yang lainnya
dan berbeda dengan benda yang terdapat pada cluster lainnya. Algoritma
clustering terdiri dari dua bagian yaitu secara hirarkis dan secara partitional.
Algoritma partitional menentukan semua kelompok pada waktu tertentu.
Metodologi cluster baik digunakan untuk eksplorasi hubungan antar data untuk
membuat suatu penilaian pada sebuah strukturnya. Clustering juga bisa dikatakan
suatu proses dimana mengelompokan dan membagi pola data menjadi beberapa
jumlah data set sehingga akan membentuk pola yang serupa dan dikelompokkan
pada cluster yang sama dan memisahkan diri dengan membentuk pola yang
berbeda di cluster yang berbeda. Clustering dapat ditemukan dibeberapa aplikasi
yang ada di berbagai bidang. Sebagai pengelompokan data yang digunakan untuk
menganalisa data statistik untuk pembelajaran mesin, data mining, pengenalan
pola, analisis citra dan bioinformatika di ering clustering tersebut.
8
3. Kelompok koleksi dokumen pada cluster
4. Pencarian dan pengaturan dokumen
5. Tingkatan precision dan recall pada information retrieval
6. Meningkatan kecepatan pencarian pada search engine
7. Penentuan topik dokumen
8. Clustering ialah segmentasi data yang sangat berguna dalam prediksi dan
analisa masalah bisnis tertentu. Misalnya Segmentasi pasar, marketing
dan pemetaan zonasi wilayah.
9. Identifikasi objek dalam bidang berbagai bidang seperti computer vision
dan image processing.
9
Gambar 2.2 Contoh proses clustering(sumber ; Nugraheni, 2011)
K-Means menggunakan teknik yang sederhana dan cukup cepat dalam proses
10
pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam
penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2,
…,xn} maka xi = (xi1, xi2, …, xin) adalah ystem dalam ruang real Rn, maka
algoritma k-Means akan menyalin partisi X dalam sejumlah k cluster. Sehingga
setiap cluster memiliki wilayah titik tengah (centroid) yang merupakan nilai rata-
rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-
Means adalah memilih secara acak k buah obyek sebagai centroid untuk data.
Jumlah cluster awal yang diminta sebagai masukan dan hasil jumlah cluster akhir
sebagai output. Jika algoritma diperlukan untuk menghasilkan cluster K maka
akan ada K awal dan K akhir. Metode K-Means akan memilih pola k sebagai titik
awal centroid secara acak. Jumlah iterasi untuk mencapai cluster centroid akan
dipengaruhi oleh cluster centroid secara random dimana jika posisi centroid baru
tidak akan berubah atau teracak. Nilai K yang dipilih menjadi pusat awal, akan
dihitung dengan menggunakan rumus Euclidean Distance yaitu mencari jarak
terdekat antara titik centroid dengan data/objek. Data yang memiliki jarak pendek
atau terdekat dengan centroid akan membentuk sebuah cluster. Salah satu metode
yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah
metode k-means. Pada umumnya metode k-means ini melakukan proses
pengelompokan dengan tahapan sebagai berikut:
5. Ulang proses pada nomor 3 (tiga), sampai proses tidak ada perubahan atau
perubahan yang rusak terjadi di bawah threshold yang ditentukan atau apabila
perubahan nilai pada objective function yang digunakan di atas nilai threshold
yang ditentukan
11
Berikut ini tahap-tahap dalam menyelesaikan algoritma K-Means
Xi = objek ke-i
n= banyaknya objek/jumlah objek yang menjadi anggota cluster
3. Hitung jarak objek ke centroid dari masing-masing cluster. Untuk
menghitung jarak antara objek dengan centroid untuk dapat menggunakan
Euclidian Distance.
( , ) = | − || = √∑ ( − ) ; I = 1,2,3….,n ..........................
−1
(2)
Dimana : Xi = objek x ke i
Yi = daya y ke i
N = banyaknya objek
12
start
Set hitungan
cluster k
Tentukan titik k
Clustering terhadap
jarak minimum
Apakah ya
centroid
selalu mirip ?
tidak
selesai
13
2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen
di cluster lain, dan diambil nilai terkecilnya.
(, )= 1
∑ ∈ ( , ) ………………………………………(4)
| |
14
2 Algoritma modified k- Rena Algoritma k- Modifikasi Algoritma
means clustering pada Nainggolan means dan K-Means Clustering
penentuan cluster centre (2014) sum of dengan berbasis SSE
berbasis sum of squared squared error lebih optimum
error (SSE)
15
BAB III
METODE PENELITIAN
Proses penelitian tentang analisis dan pemodelan menjadi persoalan teknik
informasi pada saat meneliti yang belum benar dilakukan terknik untuk
menentukan cluster yang optimum.
Jumlah Cluster
Nilai K
Hitung Jarak
Silhouette coefficient
Selesai
16
Algoritma diatas menjelaskan langkah-langkag berikut :
17
Gambar 3.2 Langkah-Langkah Penelitian
18
BAB IV
Untuk menguji penulis menggunakan beberapa data yang bersumber dari repository
UCI Machine Learning. Adapun ringkasan dataset table 4.1 berikut :
Blood Transfussion Service Center untuk perhitungan manual yang diperoleh dari
proses clustering digunakan 748 dengan total atribut 5 didalamnya. Dataset tersebut
19
Tabel 4.2 Dataset Blood Transfussion Service Center
20
Dataset Blood Transfussion Service Center
Nomor V1 V2 V3 V4 Class
38 4 6 1500 16 2
39 2 14 3500 57 2
40 4 7 1750 22 2
41 2 13 3250 53 2
42 2 5 1250 16 1
43 2 5 1250 16 2
44 2 5 1250 16 1
45 4 20 5000 69 2
46 4 9 2250 28 2
47 2 9 2250 36 1
48 2 2 500 2 1
49 2 2 500 2 1
50 2 2 500 2 1
51 2 11 2750 46 1
52 2 11 2750 46 2
53 2 6 1500 22 1
54 2 12 3000 52 1
55 4 5 1250 14 2
56 4 19 4750 69 2
57 4 8 2000 26 2
58 2 7 1750 28 2
59 2 16 4000 81 1
60 3 6 1500 21 1
61 2 7 1750 29 1
62 2 8 2000 35 2
63 2 10 2500 49 1
64 4 5 1250 16 2
65 2 3 750 9 2
66 3 16 4000 74 1
67 2 4 1000 14 2
68 0 2 500 4 1
69 4 7 1750 25 1
70 1 9 2250 51 1
71 2 4 1000 16 1
72 2 4 1000 16 1
73 4 17 4250 71 2
74 2 2 500 4 1
75 2 2 500 4 2
76 2 2 500 4 2
21
Dataset Blood Transfussion Service Center
Nomor V1 V2 V3 V4 Class
77 2 4 1000 16 2
78 2 2 500 4 1
79 2 2 500 4 1
80 2 2 500 4 1
81 4 6 1500 23 2
82 2 4 1000 16 1
83 2 4 1000 16 1
84 2 4 1000 16 1
85 2 6 1500 28 2
86 2 6 1500 28 1
87 4 2 500 4 1
88 4 2 500 4 1
89 4 2 500 4 1
90 2 7 1750 35 2
91 4 2 500 4 2
92 4 2 500 4 1
93 4 2 500 4 1
94 4 2 500 4 1
95 12 11 2750 23 1
96 4 7 1750 28 1
97 3 17 4250 86 1
98 4 9 2250 38 2
99 4 4 1000 14 2
100 5 7 1750 26 2
101 4 8 2000 34 2
102 2 13 3250 76 2
103 4 9 2250 40 1
104 2 5 1250 26 1
105 2 5 1250 26 1
106 6 17 4250 70 1
107 0 8 2000 59 1
108 3 5 1250 26 1
109 2 3 750 14 1
110 2 10 2500 64 1
… … … … … …
… … … … … …
… … … … … …
… … … … … …
748 72 1 250 72 1
22
Setelah data ini di input, maka selanjutkan akan dilakukan algoritma k-means.
1. K = 2
Dengan pusat cluster yang diambil secara acak berada pada data ke :1 dan 9
yaitu (2, 50, 12500, 98, 2) dan (2, 9, 2250, 22, 2). Dengan jarak yang dihitung
menggunakan Euclidean Distance. Perhitungan 1 sampai 10: a. Jarak data ke-
1 dengan pusat cluster
(1, 1) = √(2 − 2)2 + (50 − 50)2 + (12500 − 12500)2 + (98 − 98)2 + (2 − 2)2
(1, 1) = 0
(1, 2) = √(2 − 2)2 + (50 − 9)2 + (12500 − 2250)2 + (28 − 22)2 + (2 − 2)2 (1, 2) = 10250.36
23
(5, 1) = √(1 − 2)2 + (24 − 50)2 + (6000 − 12500)2 + (77 − 98)2 + (1 − 2)2
(5, 1) = 6500.0 86
(5, 2) = √(1 − 2)2 + (24 − 9)2 + (6000 − 2250)2 + (77 − 22)2 + (1 − 2)2 (5, 2) = 3750.434
(6, 2) = √(4 − 2)2 + (4 − 9)2 + (1000 − 2250)2 + (4 − 22)2 + (1 − 2)2 (6, 2) = 1250.142
(7, 2) = √(2 − 2)2 + (7 − 9)2 + (1750 − 2250)2 + (14 − 22)2 + (2 − 2)2 (7, 2) = 500.068
(8, 2) = √(1 − 2)2 + (12 − 9)2 + (3000 − 2250)2 + (35 − 22)2 + (1 − 2)2 (8, 2) = 750.12
(9, 2) = √(2 − 2)2 + (9 − 9)2 + (2250 − 2250)2 + (22 − 22)2 + (2 − 2)2 (9, 2) = 0
(10, 2) = √(5 − 2)2 + (46 − 9)2 + (11500 − 2250)2 + (98 − 22)2 + (2 − 2)2 (10, 2) = 9250.387
Perhitungan data dengan kedua cluster, dapat dilihat pada tabel 4.3 berikut:
date ke c1 c2
1 0 10250.36
24
date ke c1 c2
2 9250.339 1000.028
3 8500.302 1750.063
4 7500.247 2750.118
5 6500.086 3750.434
6 11500.48 1250.142
7 10750.41 500.068
8 9500.285 750.12
9 10250.36 0
10 1000.012 9250.387
11 6750.173 3500.214
12 11750.47 1500.122
13 10000.32 250.074
14 9250.215 1000.321
15 11000.4 750.0387
16 11250.43 1000.068
17 9000.211 1250.28
18 8750.207 1500.255
19 11000.4 750.0387
20 11750.47 1500.12
21 11750.47 1500.12
22 9750.33 500.045
23 11000.39 750.03
24 11000.39 750.03
25 10250.41 9.273618
26 9000.259 1250.142
27 11000.41 750.052
28 9500.292 750.1047
29 11250.43 1000.07
30 10500.37 250.014
31 9000.161 1250.529
32 10000.33 250.082
33 10000.33 250.082
34 10250.34 4.472136
35 8500.136 1750.518
36 10500.32 250.074
37 9500.213 750.4225
38 11000.39 750.0327
39 9000.165 1250.5
40 10750.35 500.008
41 9250.183 1000.488
25
date ke c1 c2
42 11250.39 1000.026
43 11250.39 1000.026
44 11250.39 1000.026
45 7500.116 2750.424
46 10250.32 6.324555
47 10250.27 14.03567
48 12000.48 1750.129
49 12000.48 1750.129
50 12000.48 1750.129
51 9750.217 500.5807
52 9750.217 500.5797
53 11000.35 750.0067
54 9500.187 750.6064
55 11250.4 1000.042
56 7750.117 2500.463
57 10500.33 250.042
58 10750.31 500.04
59 8500.085 1751.009
60 11000.36 750.008
61 10750.31 500.054
62 10500.27 250.3398
63 10000.2 251.4577
64 11250.39 1000.028
65 11750.43 1500.068
66 8500.102 1750.787
67 11500.4 1250.036
68 12000.46 1750.108
69 10750.33 500.018
70 10250.19 29.03446
71 11500.38 1250.025
72 11500.38 1250.025
73 8250.11 2000.617
74 12000.46 1750.107
75 12000.46 1750.107
76 12000.46 1750.107
77 11500.38 1250.024
78 12000.46 1750.107
79 12000.46 1750.107
80 12000.46 1750.107
81 11000.34 750.0093
26
date ke c1 c2
82 11500.38 1250.025
83 11500.38 1250.025
84 11500.38 1250.025
85 11000.31 750.03
86 11000.31 750.0307
87 12000.46 1750.108
88 12000.46 1750.108
89 12000.46 1750.108
90 10750.27 500.173
91 12000.46 1750.108
92 12000.46 1750.108
93 12000.46 1750.108
94 12000.46 1750.108
95 9750.372 500.106
96 10750.31 500.045
97 8250.075 2001.04
98 10250.26 16.12452
99 11500.4 1250.037
100 10750.33 500.029
… … …
… … …
... … …
748 12250.33 2001.865
27
date ke Hasil Clustering
Data 3 Clustering 1
Data 4 Clustering 1
Data 5 Clustering 1
Data 6 Clustering 2
Data 7 Clustering 2
Data 8 Clustering 1
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 1
Data 12 Clustering 2
Data 13 Clustering 2
Data 14 Clustering 1
Data 15 Clustering 2
Data 16 Clustering 2
Data 17 Clustering 1
Data 18 Clustering 1
Data 19 Clustering 2
Data 20 Clustering 2
Data 21 Clustering 2
Data 22 Clustering 2
Data 23 Clustering 2
Data 24 Clustering 2
Data 25 Clustering 2
Data 26 Clustering 2
Data 27 Clustering 2
Data 28 Clustering 1
Data 29 Clustering 2
Data 30 Clustering 2
Data 31 Clustering 1
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 1
Data 36 Clustering 2
Data 37 Clustering 1
Data 38 Clustering 2
Data 39 Clustering 1
Data 40 Clustering 2
Data 41 Clustering 1
Data 42 Clustering 2
28
date ke Hasil Clustering
Data 43 Clustering 2
Data 44 Clustering 2
Data 45 Clustering 1
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 2
Data 49 Clustering 2
Data 50 Clustering 2
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 2
Data 54 Clustering 1
Data 55 Clustering 2
Data 56 Clustering 1
Data 57 Clustering 2
Data 58 Clustering 2
Data 59 Clustering 1
Data 60 Clustering 2
Data 61 Clustering 2
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 2
Data 65 Clustering 2
Data 66 Clustering 1
Data 67 Clustering 2
Data 68 Clustering 2
Data 69 Clustering 2
Data 70 Clustering 2
Data 71 Clustering 2
Data 72 Clustering 2
Data 73 Clustering 1
Data 74 Clustering 2
Data 75 Clustering 2
Data 76 Clustering 2
Data 77 Clustering 2
Data 78 Clustering 2
Data 79 Clustering 2
Data 80 Clustering 2
Data 81 Clustering 2
Data 82 Clustering 2
29
date ke Hasil Clustering
Data 83 Clustering 2
Data 84 Clustering 2
Data 85 Clustering 2
Data 86 Clustering 2
Data 87 Clustering 2
Data 88 Clustering 2
Data 89 Clustering 2
Data 90 Clustering 2
Data 91 Clustering 2
Data 92 Clustering 2
Data 93 Clustering 2
Data 94 Clustering 2
Data 95 Clustering 2
Data 96 Clustering 2
Data 97 Clustering 1
Data 98 Clustering 2
Data 99 Clustering 2
Data 100 Clustering 2
… …
… …
... …
Data 748 Clustering 2
Dari 748 data, yang termasuk dalam Clustering 1 sebanyak 81 data dan yang
termasuk ke dalam Clustering 2 sebanyak 657.
2. K = 3
Dengan menggunakan pusat cluster sebanyak 3 pusat cluster yang diambil
secara acak berhenti di iterasi ke-2 dengan hasil akhir Clustering sebagai
berikut :
30
date ke Hasil Clustering
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 2
Data 12 Clustering 3
Data 13 Clustering 2
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 2
Data 18 Clustering 2
Data 19 Clustering 3
Data 20 Clustering 3
Data 21 Clustering 3
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 2
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 2
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 2
Data 36 Clustering 2
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 2
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 2
Data 46 Clustering 2
31
date ke Hasil Clustering
Data 47 Clustering 2
Data 48 Clustering 3
Data 49 Clustering 3
Data 50 Clustering 3
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 2
Data 57 Clustering 2
Data 58 Clustering 3
Data 59 Clustering 2
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 3
Data 66 Clustering 2
Data 67 Clustering 3
Data 68 Clustering 3
Data 69 Clustering 3
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 2
Data 74 Clustering 3
Data 75 Clustering 3
Data 76 Clustering 3
Data 77 Clustering 3
Data 78 Clustering 3
Data 79 Clustering 3
Data 80 Clustering 3
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
32
date ke Hasil Clustering
Data 87 Clustering 3
Data 88 Clustering 3
Data 89 Clustering 3
Data 90 Clustering 3
Data 91 Clustering 3
Data 92 Clustering 3
Data 93 Clustering 3
Data 94 Clustering 3
Data 95 Clustering 3
Data 96 Clustering 3
Data 97 Clustering 2
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 3
Dari 748 data yang dihitung dengan pusat cluster 3, yang termasuk dalam
Clustering 1 sebanyak 8, Clustering 2 sebanyak 164, Clustering 3 sebanyak 576.
3. K = 4
Dengan menggunakan pusat cluster sebanyak 4 pusat cluster yang diambil secara
acak berhenti di iterasi ke-4 dengan hasil akhir Clustering ini :
33
date ke Hasil Clustering
Data 10 Clustering 1
Data 11 Clustering 2
Data 12 Clustering 4
Data 13 Clustering 3
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 2
Data 18 Clustering 2
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 3
Data 26 Clustering 2
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 3
Data 31 Clustering 2
Data 32 Clustering 3
Data 33 Clustering 3
Data 34 Clustering 3
Data 35 Clustering 2
Data 36 Clustering 3
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 2
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 2
Data 46 Clustering 3
Data 47 Clustering 3
Data 48 Clustering 4
Data 49 Clustering 4
34
date ke Hasil Clustering
Data 50 Clustering 4
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 2
Data 57 Clustering 3
Data 58 Clustering 3
Data 59 Clustering 2
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 3
Data 63 Clustering 3
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 2
Data 67 Clustering 4
Data 68 Clustering 4
Data 69 Clustering 3
Data 70 Clustering 3
Data 71 Clustering 4
Data 72 Clustering 4
Data 73 Clustering 2
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 4
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 4
Data 83 Clustering 4
Data 84 Clustering 4
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
35
date ke Hasil Clustering
Data 90 Clustering 3
Data 91 Clustering 4
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 4
Data 95 Clustering 2
Data 96 Clustering 3
Data 97 Clustering 2
Data 98 Clustering 3
Data 99 Clustering 4
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan pusat cluster 4, yang termasuk dalam
Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 95 data, Clustering 3
sebanyak 226 data, dan Clustering ke 4 sebanyak 419 data.
4. K = 5
Dengan menggunakan pusat cluster sebanyak 5 pusat cluster yang diambil secara
acak berhenti di iterasi ke-5 dengan hasil akhir Clustering ini:
36
date ke Hasil Clustering
Data 10 Clustering 1
Data 11 Clustering 5
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 2
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 5
Data 18 Clustering 5
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 2
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 5
Data 27 Clustering 3
Data 28 Clustering 2
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 5
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 2
Data 38 Clustering 3
Data 39 Clustering 5
Data 40 Clustering 3
Data 41 Clustering 2
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
37
date ke Hasil Clustering
Data 50 Clustering 4
Data 51 Clustering 2
Data 52 Clustering 2
Data 53 Clustering 3
Data 54 Clustering 2
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 3
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 3
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 3
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
38
date ke Hasil Clustering
Data 90 Clustering 3
Data 91 Clustering 4
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 2
Data 95 Clustering 3
Data 96 Clustering 5
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 3
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan jumlah pusat cluster 5, yang termasuk dalam
Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 114 data, Clustering 3
sebanyak 219 data, Clustering ke 4 sebanyak 357 data dan Clustering 5 sebanyak
50 data.
5. K = 6
39
date ke Hasil Clustering
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 3
Data 16 Clustering 3
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 3
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 6
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 3
Data 28 Clustering 6
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 6
Data 38 Clustering 3
Data 39 Clustering 6
Data 40 Clustering 2
Data 41 Clustering 6
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
Data 50 Clustering 4
Data 51 Clustering 6
40
date ke Hasil Clustering
Data 52 Clustering 6
Data 53 Clustering 3
Data 54 Clustering 6
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 2
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 2
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 2
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 3
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
Data 90 Clustering 2
Data 91 Clustering 4
41
date ke Hasil Clustering
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 4
Data 95 Clustering 6
Data 96 Clustering 2
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 2
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan jumlah pusat cluster 6, yang termasuk
dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 112 data, Clustering 3
sebanyak 176 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31
data dan Clustering 6 sebanyak 64.
6. K = 7
42
date ke Hasil Clustering
Data 11 Clustering 5
Data 12 Clustering 4
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 7
Data 16 Clustering 3
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 7
Data 20 Clustering 4
Data 21 Clustering 4
Data 22 Clustering 6
Data 23 Clustering 7
Data 24 Clustering 7
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 7
Data 28 Clustering 6
Data 29 Clustering 3
Data 30 Clustering 2
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 2
Data 37 Clustering 6
Data 38 Clustering 7
Data 39 Clustering 6
Data 40 Clustering 7
Data 41 Clustering 6
Data 42 Clustering 3
Data 43 Clustering 3
Data 44 Clustering 3
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 4
Data 49 Clustering 4
Data 50 Clustering 4
43
date ke Hasil Clustering
Data 51 Clustering 6
Data 52 Clustering 6
Data 53 Clustering 7
Data 54 Clustering 6
Data 55 Clustering 3
Data 56 Clustering 5
Data 57 Clustering 2
Data 58 Clustering 7
Data 59 Clustering 5
Data 60 Clustering 7
Data 61 Clustering 7
Data 62 Clustering 2
Data 63 Clustering 2
Data 64 Clustering 3
Data 65 Clustering 4
Data 66 Clustering 5
Data 67 Clustering 3
Data 68 Clustering 4
Data 69 Clustering 7
Data 70 Clustering 2
Data 71 Clustering 3
Data 72 Clustering 3
Data 73 Clustering 5
Data 74 Clustering 4
Data 75 Clustering 4
Data 76 Clustering 4
Data 77 Clustering 3
Data 78 Clustering 4
Data 79 Clustering 4
Data 80 Clustering 4
Data 81 Clustering 7
Data 82 Clustering 3
Data 83 Clustering 3
Data 84 Clustering 3
Data 85 Clustering 7
Data 86 Clustering 7
Data 87 Clustering 4
Data 88 Clustering 4
Data 89 Clustering 4
Data 90 Clustering 7
44
date ke Hasil Clustering
Data 91 Clustering 4
Data 92 Clustering 4
Data 93 Clustering 4
Data 94 Clustering 4
Data 95 Clustering 6
Data 96 Clustering 7
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 3
Data 100 Clustering 7
… …
… …
... …
Data 748 Clustering 4
Dari 748 data yang dihitung dengan jumlah pusat cluster 7, yang termasuk
dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 69 data, Clustering 3
sebanyak 124 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31
data, Clustering 6 sebanyak 64 dan Clustering 7 sebanyak 95.
7. K = 8
8. K = 9
45
date ke Hasil Clustering
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 4
Data 7 Clustering 8
Data 8 Clustering 6
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 5
Data 12 Clustering 9
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 3
Data 16 Clustering 4
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 3
Data 20 Clustering 9
Data 21 Clustering 9
Data 22 Clustering 6
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 3
Data 28 Clustering 6
Data 29 Clustering 4
Data 30 Clustering 8
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 8
Data 37 Clustering 6
Data 38 Clustering 3
Data 39 Clustering 6
Data 40 Clustering 8
Data 41 Clustering 6
Data 42 Clustering 4
46
date ke Hasil Clustering
Data 43 Clustering 4
Data 44 Clustering 4
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 9
Data 49 Clustering 9
Data 50 Clustering 9
Data 51 Clustering 6
Data 52 Clustering 6
Data 53 Clustering 3
Data 54 Clustering 6
Data 55 Clustering 4
Data 56 Clustering 5
Data 57 Clustering 8
Data 58 Clustering 8
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 8
Data 62 Clustering 8
Data 63 Clustering 2
Data 64 Clustering 4
Data 65 Clustering 9
Data 66 Clustering 5
Data 67 Clustering 4
Data 68 Clustering 9
Data 69 Clustering 8
Data 70 Clustering 2
Data 71 Clustering 4
Data 72 Clustering 4
Data 73 Clustering 5
Data 74 Clustering 9
Data 75 Clustering 9
Data 76 Clustering 9
Data 77 Clustering 4
Data 78 Clustering 9
Data 79 Clustering 9
Data 80 Clustering 9
Data 81 Clustering 3
Data 82 Clustering 4
47
date ke Hasil Clustering
Data 83 Clustering 4
Data 84 Clustering 4
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 9
Data 88 Clustering 9
Data 89 Clustering 9
Data 90 Clustering 8
Data 91 Clustering 9
Data 92 Clustering 9
Data 93 Clustering 9
Data 94 Clustering 9
Data 95 Clustering 6
Data 96 Clustering 8
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 4
Data 100 Clustering 8
… …
… …
... …
Data 748 Clustering 9
Dari 748 data yang dihitung dengan jumlah pusat cluster 9, yang termasuk
dalam Clustering 1 sebanyak 8 data, kelompok Clustering 2 sebanyak 38 data,
Clustering 3 sebanyak 33 data, Clustering ke 4 sebanyak 124 data, Clustering 5
sebanyak 31 data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering
8 sebanyak 74, dan Clustering 9 sebanyak 357.
9. K = 10
48
date ke Hasil Clustering
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 4
Data 7 Clustering 8
Data 8 Clustering 6
Data 9 Clustering 2
Data 10 Clustering 1
Data 11 Clustering 5
Data 12 Clustering 9
Data 13 Clustering 2
Data 14 Clustering 6
Data 15 Clustering 3
Data 16 Clustering 4
Data 17 Clustering 6
Data 18 Clustering 6
Data 19 Clustering 3
Data 20 Clustering 9
Data 21 Clustering 9
Data 22 Clustering 6
Data 23 Clustering 3
Data 24 Clustering 3
Data 25 Clustering 2
Data 26 Clustering 6
Data 27 Clustering 3
Data 28 Clustering 6
Data 29 Clustering 4
Data 30 Clustering 8
Data 31 Clustering 6
Data 32 Clustering 2
Data 33 Clustering 2
Data 34 Clustering 2
Data 35 Clustering 5
Data 36 Clustering 8
Data 37 Clustering 6
Data 38 Clustering 3
Data 39 Clustering 6
Data 40 Clustering 8
Data 41 Clustering 6
Data 42 Clustering 4
Data 43 Clustering 4
49
date ke Hasil Clustering
Data 44 Clustering 4
Data 45 Clustering 5
Data 46 Clustering 2
Data 47 Clustering 2
Data 48 Clustering 9
Data 49 Clustering 9
Data 50 Clustering 9
Data 51 Clustering 6
Data 52 Clustering 6
Data 53 Clustering 3
Data 54 Clustering 6
Data 55 Clustering 4
Data 56 Clustering 5
Data 57 Clustering 8
Data 58 Clustering 8
Data 59 Clustering 5
Data 60 Clustering 3
Data 61 Clustering 8
Data 62 Clustering 8
Data 63 Clustering 2
Data 64 Clustering 4
Data 65 Clustering 9
Data 66 Clustering 5
Data 67 Clustering 4
Data 68 Clustering 9
Data 69 Clustering 8
Data 70 Clustering 2
Data 71 Clustering 4
Data 72 Clustering 4
Data 73 Clustering 5
Data 74 Clustering 9
Data 75 Clustering 9
Data 76 Clustering 9
Data 77 Clustering 4
Data 78 Clustering 9
Data 79 Clustering 9
Data 80 Clustering 9
Data 81 Clustering 3
Data 82 Clustering 4
Data 83 Clustering 4
50
date ke Hasil Clustering
Data 84 Clustering 4
Data 85 Clustering 3
Data 86 Clustering 3
Data 87 Clustering 9
Data 88 Clustering 9
Data 89 Clustering 9
Data 90 Clustering 8
Data 91 Clustering 9
Data 92 Clustering 9
Data 93 Clustering 9
Data 94 Clustering 9
Data 95 Clustering 6
Data 96 Clustering 8
Data 97 Clustering 5
Data 98 Clustering 2
Data 99 Clustering 4
Data 100 Clustering 8
… …
… …
... …
Data 748 Clustering 10
Dari 748 data yang dihitung dengan jumlah pusat cluster 9, yang termasuk
dalam Clustering 1 sebanyak 278 data, Clustering 2 sebanyak 38 data, Clustering
3 sebanyak 33 data, Clustering ke 4 sebanyak 62 data, Clustering 5 sebanyak 31
data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering 8 sebanyak
74, Clustering 9 sebanyak 149, dan Clustering 10 sebanyak 270.
Jumlah iterasi yang dihasilkan oleh masing-masing pusat klaster dapat di lihat pada
table (nomor table) adalah sebagai berikut :
51
5 Pusat klaster 6 Iterasi 5
6 Pusat klaster 7 Iterasi 8
7 Pusat klaster 8 Iterasi belum diisi
8 Pusat klaster 9 Iterasi 9
9 Pusat klaster 10 Iterasi 9
Tabel 4.9 data validasi cluster dengan indeks validasi shilhouette yang paling
optimum. Proses K=3 indeks validitas 0.7417428908457862. Grafik hasil
perhitungan shilhoutte :
52
Gambar 4.1 Nilai Shilhouette dengan K =2
53
Gambar 4.3 Nilai Shilhouette dengan K = 4
54
Gambar 4.5 Nilai Shilhouette dengan K = 6
55
Gambar 4.7 Nilai Shilhouette dengan K = 8
56
Gambar 4.9 Nilai Shilhouette dengan K = 10
4.5 Hasil Pengujian Mengunakan Dataset lain
Dalam penelitian ini menggunakan tiga jenis dataset, hasil yang di ujicoba
menggunakan python adalah sebegai berikut :
57
Dari tabel di atas bahwa kesimpulan pusat klaster mempunyai dua nilai
shilhoette paling tinggi. Maka dengan itu pusat klaster dua adalah pusat klaster
yang paling optimum.
58
BAB V
5.1 Kesimpulan
5.2 Saran
1. Agar memudahkan dalam rekapitulasi kelompok cluster, sebaiknya
dilakukan dengan membuat program agar secara otomatis setiap anggota
yang terbentuk dari cluster tersusun dengan cepat.
2. Penelitian selanjutnya diharapkan dapat menghitung tingkat error dari
masing-masing jumlah cluster dengan menggunakan salah model grafik
seperi SSE (sum of squares error).
59
DAFTAR PUSTAKA
Agusta, Y. 2007. K-Means Penerapan, Permasalahan Dan Metode Terkait. Jurnal Sistem dan
Informatika Vol.3 : 47-60.
Everitt, Brian S., et.al. 2011. Cluster Analysis 5th Edition. United Kingdom: John Wiley &
Sons, Ltd.
Han & Kember, 2006. Data Mining: Concepts and Techniques, 2nd ed.
H. Prasetyo and A. Purwariati, “Comparison of Distance Measures for Clustering Data with
Mix Attribute Types,” in International Conference on Information Technology Systems
and Innovation, 2014.
J. Bora and A. K. Gupta, “Effect of Different Distance Measures on the Performance of K-
Means Algorithm: An Experimental Study in Matlab,” Eff. Differ. Distance Meas.
Perform. K-Means Algorithm An Exp. Study Matlab, vol. 5, no. 2, pp. 2501–2506, 2014.
Kusnawi. 2007. Pengantar Solusi Data Mining. Seminar Nasional Teknologi STMIK
AMIKOM Yogyakarta. 24 November: 1-9.
M. Nishom, “Implementasi Metode K-Means berbasis Chi-Square pada Sistem Pendukung
Keputusan untuk Identifikasi Disparitas Kebutuhan Guru,” J. Sist. Inf. Bisnis, vol. 8, no.
2, pp. 1–8, 2018.
Oliveira, J. V. De, & Pedrycz, W. (2007). Advances in Fuzzy Clustering and its Applications.
(J. Valente de Oliveira & W. Pedrycz, Eds.). Chichester, UK: John Wiley & Sons, Ltd.
Ong, Johan Oscar. 2013. “Implementasi Algoritma K-Means Clustering Untuk Menentukan
Strategi Marketing.” (April): 10–20.
P.-N. Tan, M. Steinbach, A. Karpatne, and V. Kumar, Introduction to Data Mining (2nd
Edition). New York: Pearson, 2018
Santoso, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha
Ilmu, Yogyakarta.
60