Penentuan Cluster Terbaik K-Means Menggunakan Algoritma Silhouette

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN
ALGORITMA SILHOUETTE
TESIS
HANDRY ELDO
177038055
PROGRAM STUDI S2 TEKNIK INFORMATIKA

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2020
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik
Informatika
HANDRY ELDO
177038055
PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN

TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN
2020
iii
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan
di bawah ini :
Nama : HANDRY ELDO

NIM : 177038055
Program Studi : Magister (S-2) Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas

Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti Free Right) atas tesis
saya yang berjudul :

Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-
Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan
tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya
sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.

Medan, 30 Januari 2020
Handry Eldo
177038055
v
Telah diuji pada
Tanggal : 30 Januari 2020
PANITIA PENGUJI TESIS

Ketua : Dr. Syahril Efendi, S.Si., M.IT
Anggota : 1. Prof. Herman Mawengkang
: 2. Prof. Dr. Muhammad Zarlis
: 3. Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng.
vi
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap : Handry Eldo

Tempat dan Tanggal Lahir : Lhokseumawe, 04 Juli 1991
Alamat Rumah : Hagu Kec. Banda Sakti Kab. Lhokseumawe
Prov.Aceh
Telepon/HP/WA : 085297000022
Email : handry.eldo@gmail.com
DATA PENDIDIKAN
SD : SD Negeri 1 Lhokseumawe TAMAT : 2003

SMP : SLTP Negeri 2 Lhokseumawe TAMAT : 2006
SMA : SMA Negeri 2 Lhokseumawe TAMAT : 2009
S1 : Teknik Informatika Universitas Malikussaleh TAMAT : 2014
S2 : Teknik Informatika Universitas Sumatera Utara TAMAT : 2020
vii
UCAPAN TERIMA KASIH
Puji dan syukur dipanjatkan kehadapan Tuhan Yang Maha Esa atas berkat, karena
hanya atas karunia-Nya, tesis ini dapat diselesaikan berupa pengetahuan,
kesehatan dan kesempatan yang diberikan kepada penulis sehingga dapat
menyelesaikan tesis dengan judul “PENENTUAN CLUSTER TERBAIK K-MEANS
MENGGUNAKAN ALGORITMA SILHOUETTE”. disusun untuk penyelesaian
tugas akhir perkuliahan program pasca sarjana Universitas Sumatera Utara.
Pada kesempatan ini penulis ingin menyampaikan ucapan rasa terima kasih yang
sebesar-besarnya di tujukan kepada :
1. Bapak Prof. Dr. Runtung Sitepu, S.H, M.Hum., selaku Rektor Universitas
Sumatera Utara.
2. Bapak Prof. Dr. Opim Salim Sitompul., selaku Dekan Fakultas Ilmu
Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera
Utara.
3. Bapak Prof. Dr. Muhammad Zarlis., selaku Ketua Program Studi Magister
Teknik Informatika dan juga selaku Dosen Pembanding I yang dengan
penuh perhatian telah memberikan dorongan, semangat, bimbingan, dan
saran serta pembelajaran yang berharga bagi penulis sebagai arahan dalam
penyelesaian tesis ini.
4. Bapak Dr.Syahril Efendi, S.Si, M.IT., selaku Sekretaris Program Studi
Magister Teknik Informatika dan juga selaku Dosen Pembimbing I yang
selama ini telah memberikan saran yang berharga bagi penulis sebagai
arahan dalam penyelesaian tesis ini.
5. Bapak Prof. Herman Mawengkang., selaku Dosen Pembimbing II yang
telah memberikan banyak saran serta pembelajaran yang berharga bagi
penulis sebagai arahan dalam penyelesaian tesis ini.
6. Bapak Dr. Benny Benyamin Nasution, Dipl.Ing., M.Eng., selaku Dosen
Pembanding II yang yang selama ini telah memberikan saran yang
berharga bagi penulis sebagai arahan dalam penyelesaian tesis ini.
viii
7. Bapak/Ibu Dosen Program Studi Pasca Sarjana (S-2) Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Universitas Sumatera Utara yang
telah memberikan bekal ilmu yang sangat berharga bagi penulis selama
menjadi mahasiswa.
8. Seluruh Staf Akademika, dan Pegawai Program Studi Pasca Sarjana (S-2)
Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Universitas
Sumatera Utara yang telah membantu penulis dalam menyelesaikan
penelitian ini.
9. Ayahanda Ibbaidullah dan Ibunda Nurhaslinda Meutia yang tercinta atas
pengorbanan dan dukungan yang sangat luar biasa bagi penulis selama
menjalani perkuliahan sehingga penulis dapat menjalani dan
menyelesaikan studi.
10. Sahabat-sahabat yang luar biasa di Magister Teknik Informatika KOM-C
2017
Penulis menyadari bahwa masih banyak kekurangan dalam tesis ini, Akhir
kata penulis berharap semoga tesis ini ada mamfaatnya bagi peneliti lainnya,
khususnya dalam bidang pendidikan. Penulis menyadari masih ada kekurangan
dalam penulisan tesis, untuk itu penulis mengharapkan kritik dan saran dari
pembaca demi kesempurnaan penelitian selanjutnya.
Medan, 30 Januari 2020
(Handry Eldo)
viii
ABSTRAK
Pada penelitian ini dilakukan untuk mendapatkan jumlah klaster terbaik dalam
algoritma K-Means dengan menghitung nilai Silhouette Coefficient untuk setiap
jumlah pusat klaster. Pada algoritma K-Means tahapan perhitungan jarak
menggunakan Euclidean Distance. Dataset yang digunakan dalam percobaan
penelitian ini diambil dari repository UCI Machine Learning dengan dataset Iris,
Blood Transfusion Service Center, Wholesale Customers. Adapun hasil pecobaan
dengan menggunakan 10 pusat cluster pada masing-masing dataset didapatkan
dataset Iris dengan jumlah klaster optimum adalah k=2 dan indeks validitas
Silhouette 0.681046, untuk dataset Blood Transfusion Service Center jumlah
klaster optimum K=2 dan indeks validitas Silhouette 0.70497874. Sedangkan
untuk dataset Wholesale Customers jumlah klaster optimum K=2 dengan indeks
validitas silhouette 0.4263.
Kata Kunci : Dataset , Algoritma K-Means, Silhouette Coefficient
ix
ABSTRACT
This research was conducted to get the best number of clusters in the K-Means
algorithm by calculating the Silhouette Coefficient value for each number of
cluster centers. In the K-Means algorithm the distance calculation step uses
Euclidean Distance. The dataset used in this research experiment was taken from
the UCI Machine Learning repository with Iris dataset, Blood Transfusion Service
Center, Wholesale Customers. The results of experiments using 10 cluster centers
in each dataset obtained Iris dataset with the optimum number of clusters is k = 2
and the Silhouette validity index 0.681046, for the Blood Transfusion Service
Center dataset the optimum cluster number K = 2 and Silhouette validity index
0.70497874. As for the Wholesale Customers dataset, the optimum number of
clusters is K = 2 with a silhouette validity index of 0.4263. Keywords: Dataset, K-
Means Algorithm, Silhouette Coefficient
x
DAFTAR ISI
Hal.
HALAMAN JUDUL ........................................................................................ i
PERSETUJUAN .............................................................................................. ii
PERNYATAAN ORISINALITAS .................................................................. iii
PERSETUJUAN PUBLIKASI ........................................................................ iv
PANITIA PENGUJI ........................................................................................ v
RIWAYAT HIDUP .......................................................................................... vi
UCAPAN TERIMA KASIH ............................................................................ vii
ABSTRAK ....................................................................................................... ix
ABSTRACT ....................................................................................................... x
DAFTAR ISI .................................................................................................... xi
DAFTAR TABEL ............................................................................................ xii
DAFTAR GAMBAR ....................................................................................... xiii
BAB 1. PENDAHULUAN
1.1 Latar Belakang Masalah ........................................................... 1
1.2 Rumusan Masalah .................................................................... 2
1.3 Batasan Masalah ....................................................................... 2
1.4 Tujuan Penelitian ...................................................................... 3
1.5 Manfaat Penelitian .................................................................... 3
BAB 2. TINJAUAN PUSTAKA
2.1 Data Mining .............................................................................. 4
2.2 Tahapan Data Mining ............................................................... 4
2.3 Metode Clustering .................................................................... 8
2.4 Manfaat Clutering Data ............................................................ 8
2.4.1 Algoritma K-Means ...................................................... 10
2.4.2 Metode Silhoutte ........................................................... 13
2.4.3 Riset Terkait.................................................................. 14
2.4.4 Perbedaan Penelitian Dengan Penelitian Terdahulu ..... 15
xi
BAB 3. METODE PENELITIAN
3.1 Perancangan Algoritma 16
3.2 Metode Penelitian 17
BAB 4. HASIL DAN PEMBAHASAN
4.1 Hasil Pengujian 19
4.2 Dataset Blood Transfusion Service Center 19
4.3 Perhitungan K-Means 24
4.4 Hasil Silhoutte Coeffcient 64
4.5 Hasil Pengujian Menggunakan Dataset Lain 68
4.6 BAB 5. KESIMPULAN DAN SARAN
5.1 Kesimpulan 70
5.2 Saran 70
DAFTAR PUSTAKA
xii
DAFTAR TABEL
Hal.
Tabel 2.1 Riset – Riset Terkait .............................................................................................. 14
Tabel 4.1 Ringkasan Dataset Yang Digunakan ................................................................. 19
Tabel 4.2 Dataset Blood Transfussion Service Center ..................................................... 20
Tabel 4.3 Perhitungan Jarak Dengan Titik Pusat Cluster ................................................ 26
Tabel 4.4 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 2 ............................ 29
Tabel 4.5 Hasil Akhir Pengujian K-Means Dengan Pusat Cluster 3 ............................ 33
Tabel 4.6 Hasil Akhir Perhitungan K-means Dengan Pusat Cluster Sebanyak 4 37
Tabel 4.7 Hasil Akhir K-Means Dengan Jumlah Pusat Cluster 5 ................................. 41
Tabel 4.8 Hasil Akhir K-Means Pada Pusat Cluster 6 ..................................................... 44
Tabel 4.9 Hasil Akhir K-Means Pada Pusat Cluster 7 ..................................................... 48
Tabel 4.10 Hasil Akhir K-Means Pada Pusat Cluster 8 ................................................... 52
Tabel 4.11 Hasil Akhir K-Means Pada Pusat Cluster 9 ................................................... 56
Tabel 4.12 Hasil Akhir K-Means Pada Pusat Cluster 10 ................................................. 60
Tabel 4.13 Hasil Akhir Pusat Cluster ................................................................................... 64
Tabel 4.14 Shilhouette Coeffient........................................................................................... 64
Tabel 4.15 Hasil Data Iris ....................................................................................................... 68
Tabel 4.16 Hasil Wholesale Costomers ............................................................................... 69
xiii
DAFTAR GAMBAR
Hal.
Gambar 2.1Proses Menggali Pengetahuan Dari Pangkalan Data .................................. 5
Gambar 2.2 Contoh Proses Clustering ................................................................................. 10
Gambar 2.3 Proses Clustering Objek Menggunakan Metode K-Means ...................... 10
Gambar 2.4 Flowchart Algoritma K-Means ....................................................................... 13
Gambar 3.1 Flowchart K-Means Berbasis Shilhouette .................................................... 16
Gambar 3.2Langkah-langkah Penelitian ............................................................................. 18
Gambar 4.1Nilai Shilhouette Dengan K=2 ......................................................................... 65
Gambar 4.9Nilai Shilhouette Dengan K=10 ....................................................................... 68
xiv
BAB I
PENDAHULUAN
1.1 Latar Belakang

Clustering merupakan proses pada pengelompokkan data kedalam
beberapa cluster berdasarkan persamaan yang dimiliki data dalam suatu cluster
tersebut tingkat kemiripan maksimal, Tan(2006). Proses partisi suatu objek data
pada clustering. Sampai saat ini menggunakan algoritma clustering dan tidak
dilakukan secara manual. Clustering sangat bermanfaat dalam menggelompokan
yang tidak dikenal penggelompokan data. Sehingga Algoritma clustering sudah
sangat banyak di pergunakan dalam berbagai bidang diantaranya pengolahan citra,
pendukung dalam pengambilan keputusan, pengenalan pola hingga dalam bidang
bioinformatika.
Di dalam sistem clustering terdapat beberapa pendekatan yang bisa

menggelompokan data secara akurat dan benar. Algoritma k-means salah satu
contohnya. K-means merupakan algoritma untuk menganalisa data ke partisian N
untuk melakukan objek ke dalam data cluster. Setiap objek yang diamati dalam
kelompok tersebut berdasarkan nilai jarak terdekat. Sehingga dapat
mengoptimalkan objek dengan data yang lebih terukur.
K-means banyak digunakan lebih efektif dan efesien penglompokan data.

Salah satu yang menjadi faktornya adalah lebih mudah dipelajari dan waktu
komputasi relatif lebih singkat. Penentuan hasil cluster k-means dilihat dari jarak
objek. Sebelum mencari jarak cluster yang terdekat, untuk mengetahui jumlah
cluster dan data yang menjadi titik cluster wajib ditentukan terlebih dahulu. Selain
ketelitian yang tinggi ke beberapa objek, algoritma k-means juga pemprosesan
data ke jumlah banyak.
Alasan memilih clustering dalam pemprosesan data ialah menentukan k

terbaik pada pengelompokan dalam data set. Penganalisaan k suatu cara efektif
karena hasil cluster bergantung pada jumlah k yang digunakan.
1
Penulis menggunakan metode silhouette untuk menemukan nilai k terbaik
pada metode k-means. Metode silhouette mampu menemukan fungsi dari jumlah
cluster dari sebuah data yang diuji. Hasil jumlah cluster menjadi lebih optimal
setiap nilai k yang diperoleh pada K-means.
Di dalam bidang algoritma K- means bersifat Unsupervised Learning yang

dapat menerima data tanpa label kelas dan algoritma , input jumlah , dan
kelompok sebuah centroid untuk mempsentasikan cluster tersebut.
1.2 Rumusan Masalah

Nilai cluster adalah aspek ke sistem clustering. Nilai cluster berpengaruh
dalam konsistensi, ketetapan dan kualitas dari cluster yang dibentuk. Pada
penelitian ini penulis mencoba menentukan cluster terbaik yang selanjutnya di
cluster menggunakan K-Means. Diharapkan pada penelitian ini nilai cluster yang
dihasilkan lebih optimal.
1.3 Batasan Masalah

Masalah berkaitan kepada penentuan cluster optimum permasalahan
penelitian ini adalah:
1. Metode K-Means Cluster

a. Iterasi maksimal sebanyak 20.
b. Untuk mencari jarak data dan centroid menggunakan pendekatan
Euclidean distance,manhattan distance, chebyshev distance, dan
minkowski distance .
c. Dataset Wholesale Customers, yang berjumlah total keseluruhan
440 data dengan 8 atribut numerik, di proses dari UCI Machine
Learning Repository.
d. Iris, berjumlah total 150 data dengan 4 atribut numerik, diperoleh
dari UCI Machine Learning Repository.
2. Output jumlah cluster yang paling optimum.
2
1.4 Tujuan Penelitian
Tujuan tesis adalah melakukan optimasi cluster dengan modifikasi metode
shilhouette dalam menentukan jumlah cluster yang paling bagus.
1.5 Manfaat Penelitian

Meliputi untuk meneliti sebagai berikut:
1. Didapatkan suatu metode cluster dengan jumlah K paling optimum

2. Menjadi perbandingan peneliti lain. Mengganalisis menggunakan
metode clustering
3
BAB II
TINJAUAN PUSTAKA
2.1 Data Mining

Data mining adalah sebuah informasi menarik dalam metode tertentu
dengan data terpilih yang menggunakan teknik yang relatif akurat. Dengan ada
nya teknik yang digunakan data mining seperti teknik statistik, matematika,
kecerdasan buatan dan machine learning untuk menganalisa sebagai informasi
yang di terima dan didapatkan dalam database yang cukup besar agar
mempermudah koneksi pada database yang digunakan (Turban et al, 2005).
Pengumpulan data mining tersebut memiliki informasi ilmu untuk

menggali data yang di reset ulang pada program kecerdasan buatan memiliki
ekstraksi dan membersihkan data dari data pertama di ekstrak dari data aslinya
yang sesuai dengan data model khas. (Prasetyo, 2012).
2.1.1 Tahapan Data Mining

Data mining suatu pekerjaan yang diterapkan ketika diterapkan pada data
berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika
melakukan analisa saja tetapi juga ketika mempersiapkan data algoritma dengan
progress dan juga melakukan interpretasi dari hasilnya sehingga menemukan pola
yang barudan berguna .Seharusnya tahapan-tahapan yang diperlukan tentu
menjadi umpan balik atau arah panah yang berhadapan. Pada proses yang berjalan
secara interaktif akan menemukan hasil jarang tidak sesuai alur dikarenakan
proses sudah berat untuk di uji ulang. (kusnawi, 2007)
Proses untuk memperbaiki nilai tambah dari data yang diperoleh sangat
maksimal pada pangkalan data (knowledge Discovery in Database = KDD).
Diskusi yang di ajukan akan di tujukan pada gambar 2.1 berikut :
4
Gambar 2.1 Proses menggali pengetahuan dara pangkalan data
(sumber ; Han.J & Kember 2006)
Adapun pangkalan data sesuai proses hanya saja tidak dinamis pada gambar
2.1 diatas. Data bersifat interaktif dimana pemakai terlibat secara langsung melalui
perantaran yang ada knowledge base.
1. Data Selection
Ini target tujuan memfokuskan pada subset variabel data yang dibutuhkan untuk
digunakan pada saat target dihasilkan. Hasil disimpan dalam folder yang terpisah
dari basis data yang dioperasikan.
2. Pre-Processing
Tahap ini dilakukan untuk menghilangkan data yang tidak ofisien (noise),
diaplikasi oleh data agar data dapat di uji Kembali.
3. Transformation
Tranformasi tujuan untuk mengubah skala pengukuran data asli menjadi bentuk
lain yang sudah di analisi data. Dengan teknik data mining membutuhkan format
data yang khusus sebelum bisa dijadikan aplikasi utuh.
5
4. Data Mining
Data informasi dihasilkan proses data mining perlu ditampilkan dalam bentuk
operasional supaya informasi dapat dihasilkan sesuai kepentingan. Tahap ini salah
satu bagian dari proses KDD yang disebut dengan interpretation.
5. Evaluasi
Fungsi ini menjelaskan bentuk cluster yang dihasilkan melalui terhadap data
kompleks. Evaluasi yang dimaksudkan disini dengan cara memeriksa apakah
informasi yang ditemukan sesuai atau berlawan arah dengan fakta sebelumnya.
6. Deployment
Model ini yang telah dibuat, deployment yang sederhana adalah sampai
menghasilkan data dalam bentuk laporan sedangkan deployment yang kompleks
adalah melaksanakan model baru dihasilkan proses paralel pada departemen
lainnya.
Fungsi-fungsi dalam data mining:
1. Fungsi deskripsi (desciption)
Fungsi deskripsi ialah yang digunakan untuk merancang sekumpulan data

secara ringkas. Sampai saat ini cara yang digunakan dalam memberikan arah
secara ringkas dalam bentuk jumlah yang cukup besar dan banyak memberikan
Deskripsi Grafis, Deskripsi Lokasi, dan Deskripsi Keragaman.
2. Fungsi Estimasi
Fungsi ini untuk memperkirakan suatu data yang sudah terurai. Fungsi estimasi
ini sendiri terdiri dari dua fungsi yaitu Estimasi Titik dan Estimasi Selang
Kepercayaan.
3. Fungsi prediksi (prediction)

Fungsi prediksi adalah mengutamakan hasil dari hal yang belum dihasilkan untuk
mendapatkan data baru yang akan muncul pada periode berikutnya. Cara
6
memprediksi dalam fungsi ini adalah Regresi Linier.
4. Fungsi klasifikasi (classification)

Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan terdiri
dari algoritma Mean Vector, algoritme K-nearest Neighbor, algoritma ID3,
algoritma C4.5, dan algoritma C5.0
5. Fungsi pengelompokan (cluster)

Fungsi kelompok ini data yang dikelompokan sebuah objek atau catatan yang
memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang
berbeda. Algoritma yang digunakan adalah algoritma Hirarchical Clustering,
algoritma Partitional Clustering, algoritma Single Linkage, algoritma Complete
Linkage, algoritma Average Linkage, algoritma K-Means dan lain-lain.
6. Fungsi asosiasi (association)

Fungsi asosiasi ini untuk menemukan aturan asosiasi (association rule) yang
mampu mengidentifikasi item-item pada objek. Algoritma yang digunakan
algoritma Generalized Association Rules, Quantitative Association Rule,
asynchronous Parallel Mining
7
2.2 Metode Clustering
Clustering merupakan pengelompokan suatu partisi berbeda, atau lebih
tepatnya partisi tidak melakukan data pengulangan dengan berkali kali. Cluster ini
terdiri dari kumpulan benda-benda yang mirip antara satu dengan yang lainnya
dan berbeda dengan benda yang terdapat pada cluster lainnya. Algoritma
clustering terdiri dari dua bagian yaitu secara hirarkis dan secara partitional.
Algoritma partitional menentukan semua kelompok pada waktu tertentu.
Metodologi cluster baik digunakan untuk eksplorasi hubungan antar data untuk
membuat suatu penilaian pada sebuah strukturnya. Clustering juga bisa dikatakan
suatu proses dimana mengelompokan dan membagi pola data menjadi beberapa
jumlah data set sehingga akan membentuk pola yang serupa dan dikelompokkan
pada cluster yang sama dan memisahkan diri dengan membentuk pola yang
berbeda di cluster yang berbeda. Clustering dapat ditemukan dibeberapa aplikasi
yang ada di berbagai bidang. Sebagai pengelompokan data yang digunakan untuk
menganalisa data statistik untuk pembelajaran mesin, data mining, pengenalan
pola, analisis citra dan bioinformatika di ering clustering tersebut.
2.3 Manfaat Clustering data
Pengelompokkan objek didasarkan pada kesamaan antar objek tidak

melalui proses klasifikasi yang bersifat supervised learning, pada clustering.
Pengelompokkan yang dilakukan salah satu dasar unsupervised learning. Pada
proses klasifikasi, akan ditentukan lokasi dari suatu kejadian pada klas tertentu
dari beberapa klas yang telah teridentifikasi sebelumnya. Kesamaan di klas
terbilang tinggi dan kesamaan antar klas terbilang rendrah, tergantung pada
pengukuran klasnya. Kemampuan untuk mendapatkan beberapa atau semua pola
yang tersembunyi salah satu hasil kelompok yang baik. Sedangkan pada proses
clustering, proses pengelompokkan kejadian dalam klas akan dilakukan secara
alami tanpa mengidentifikasi klas-klas sebelumnya. Poses berikut memberikan
manfaat clustering bedasarkan klasifikasi.
1. Kelompok hasil pencarian search engine

2. Penelusuran hasil pencarian data
8
3. Kelompok koleksi dokumen pada cluster
4. Pencarian dan pengaturan dokumen
5. Tingkatan precision dan recall pada information retrieval
6. Meningkatan kecepatan pencarian pada search engine
7. Penentuan topik dokumen
8. Clustering ialah segmentasi data yang sangat berguna dalam prediksi dan
analisa masalah bisnis tertentu. Misalnya Segmentasi pasar, marketing
dan pemetaan zonasi wilayah.
9. Identifikasi objek dalam bidang berbagai bidang seperti computer vision
dan image processing.
Pendekatan clustering sangat berpengaruh di wilayah mirip dibagian

clusternya. Dua pendekatan utama adalah clustering dengan pendekatan partisi
dan clustering dengan pendekatan hirarki (Oliveira et al, 2007). Sebenarnya
dengan pendekatan partisi pengelompokkan data dengan memilah-milah data yang
dianalisa ke dalam cluster yang ada. Clustering hirarki sangat mirip Ketika
mendekati data dalam cluster yang berbeda (Self-Organising Map/SOM).
Tujuan utama dari metode clustering adalah pengelompokan sejaumlah

objek kedalam cluster sehingga setiap cluster akan berisi data yang semirip
mungkin. Artinya, objek dalam satu cluster sangat mirip satu sama lain dan
berbeda dengan objek yang ada dalam cluster lainnya. (Santosa, 2007)
9
Gambar 2.2 Contoh proses clustering(sumber ; Nugraheni, 2011)
2.4 Algoritma K-Means

K-Means salah satu algoritma dengan partitional, karena K-Means didasarkan
pada penentuan jumlah awal kelompok dengan mendefinisikan nilai centroid pada
dasarnya . Algoritma K-Means menggunakan proses secara berulang-ulang untuk
mendapatkan basis data cluster. Partitional clustering ialah hasil data yang
dikelompokkan ke dalam sejumlah cluster tanpa adanya struktur hirarki antara
satu sama yang lain. Pada metode partitional clusteringsetiap cluster memiliki
titik pusat cluster (centroid) secara umum metode ini memiliki fungsi tujuan yaitu
minimum jarak dari keseluruh data ke pusat cluster masing-masing. Contoh
metode partitional clustering: K-Means, Fuzzy K-means dan Mixture Modelling.
G ambar 2.2 Proses Clustering Obyek Menggunakan metode k-Mean

(Sumber: Han dkk, 2012)
K-Means menggunakan teknik yang sederhana dan cukup cepat dalam proses
clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau
10
pusat cluster dari cluster menjadi rata-rata point dari cluster tersebut. Dalam
penerapan algoritma k-Means, jika diberikan sekumpulan data X = {x1, x2,
…,xn} maka xi = (xi1, xi2, …, xin) adalah ystem dalam ruang real Rn, maka
algoritma k-Means akan menyalin partisi X dalam sejumlah k cluster. Sehingga
setiap cluster memiliki wilayah titik tengah (centroid) yang merupakan nilai rata-
rata (mean) dari data-data dalam cluster tersebut. Tahapan awal, algoritma k-
Means adalah memilih secara acak k buah obyek sebagai centroid untuk data.
Jumlah cluster awal yang diminta sebagai masukan dan hasil jumlah cluster akhir
sebagai output. Jika algoritma diperlukan untuk menghasilkan cluster K maka
akan ada K awal dan K akhir. Metode K-Means akan memilih pola k sebagai titik
awal centroid secara acak. Jumlah iterasi untuk mencapai cluster centroid akan
dipengaruhi oleh cluster centroid secara random dimana jika posisi centroid baru
tidak akan berubah atau teracak. Nilai K yang dipilih menjadi pusat awal, akan
dihitung dengan menggunakan rumus Euclidean Distance yaitu mencari jarak
terdekat antara titik centroid dengan data/objek. Data yang memiliki jarak pendek
atau terdekat dengan centroid akan membentuk sebuah cluster. Salah satu metode
yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah
metode k-means. Pada umumnya metode k-means ini melakukan proses
pengelompokan dengan tahapan sebagai berikut:
1. Menentukan jumlah cluster
2. Lokasi data secara random ke cluster tersebut
3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
4. Lokasikan kembali semua data ke cluster yang terdekat
5. Ulang proses pada nomor 3 (tiga), sampai proses tidak ada perubahan atau
perubahan yang rusak terjadi di bawah threshold yang ditentukan atau apabila
perubahan nilai pada objective function yang digunakan di atas nilai threshold
yang ditentukan
11
Berikut ini tahap-tahap dalam menyelesaikan algoritma K-Means
1. Tentukan k sebagai jumlah cluster yang akan rancang

2. Tentukan k Centroid (titik pusat cluster) awal secara acak
= ∑ − 1
…….i=1,2,3,….,n ...................................................... (1)
Dimana : v = centroid pada cluster
Xi = objek ke-i
n= banyaknya objek/jumlah objek yang menjadi anggota cluster
3. Hitung jarak objek ke centroid dari masing-masing cluster. Untuk
menghitung jarak antara objek dengan centroid untuk dapat menggunakan
Euclidian Distance.
( , ) = | − || = √∑ ( − ) ; I = 1,2,3….,n ..........................
−1
(2)
Dimana : Xi = objek x ke i
Yi = daya y ke i
N = banyaknya objek
4. Alokasikan masing-masing objek ke dalam centroid yang paling dekat

5. Lakukan iterasi, kemudian tentukan posisi centroid baru dengan
menggunakan persamaan
6. Ulangi langkah 3 jika posisi centroid baru tidak sama
12
start
Set hitungan
cluster k
Tentukan titik k
Tentukan jarak objek

dengan k centroid
Clustering terhadap
jarak minimum
Apakah ya
centroid
selalu mirip ?
tidak
selesai
Gambar 2.4 Flowchart algoritma K-means
2.5 Metode Silhouette
Silhouette Coefficient ialah untuk melihat kualitas pada kekuatan cluster,

seberapa ofisien suatu objek ditempatkan dalam suatu cluster. Metode ini
merupakan gabungan dari metode cohesion dan separation. Tahapan perhitungan
Silhouette Coefficient adalah sebagai berikut:
1. Rata-rata jarak dari suatu dokumen misalkan i dengan semua dokumen

lain yang berada dalam satu cluster
1
()= ( , )………………………………………(3)
| |−1 ∑ ∈ ≠ ,
Dimana : j adalah dokumen lain dalam satu cluster A

d(I,j) adalah jarak antara dokumen I dengan j.
13
2. Hitung rata-rata jarak dari dokumen i tersebut dengan semua dokumen
di cluster lain, dan diambil nilai terkecilnya.
(, )= 1
∑ ∈ ( , ) ………………………………………(4)
| |
Dimana d(I,C) adalah jarak rata-rata document i dengan semua objek

pada cluster lain C dimana A ≠ C
( ) = min ≠ ( , ) .................................................................. (5)
3. Nilai Silhouette Coefficient nya adalah :

()= ………………………………………………(6)
max ( ( ), ( ))
( )− ( )
2.6 Riset Terkait

Pada peneitian ini suatu acuan dalam penulisan penelitian sehingga
penulisan dapat memberikan banyak teori untuk digunakan dalam kajian
penelitian yang dilakukan. Dari penelitian terdahulu, sampai saat ini penulis tidak
menemukan penelitian dengan judul yang sama seperti judul penulis. Namun
penulis mengangkat penulisan beberapa metode penelitian sebagai referensi dalam
menganalisa sebuah metode dan memperkaya bahan kajian pada penelitian
penulis. Berikut ini adalah penelitian terdahulu berupa beberapa jurnal terkait
dengan penelitian yang dilakukan penulis.
Tabel 2.1 Riset-riset terkait
No Judul Riset Nama dan Metode yang Hasil penelitian

Tahun digunakan
Penelitan
1 Modifikasi K-Means Ulya. M Algoritma K- Tingkat akurasi metode
Berbasis Ordered (2011) Means OWA k-means berbasis OWA
Weighted Averaging dalam klastering data
(OWA) Untuk Kasus set iris adalah 96.67%
Klastering
14
2 Algoritma modified k- Rena Algoritma k- Modifikasi Algoritma
means clustering pada Nainggolan means dan K-Means Clustering
penentuan cluster centre (2014) sum of dengan berbasis SSE
berbasis sum of squared squared error lebih optimum
error (SSE)
3 Integration K-Means M A Saakut, K-Means dan K=3 adalah hasil cluster

Clustering Method and BK Elbow yang optimal dengan
Elbow Method For Khotimah, E jumlah data testing 500.
Identification of The Best MS
Customer Profile Cluster Rochman, B
D Satoto
(2017)
4 Pemilihan Distance Mario Distance Distance measure paling

Measure Pada K-Means Anggara, measure dan maksimal untuk
Clustering Untuk Herry K-Means digunakan dalam kasus
Pengelompokkan Sujiani, Helfi pengelompokkan
Member Di Alvaro Nasution member di Alvaro
Fitness (2016) fitness adalah
Chebyshev Distance
2.7 Perbedaan Penelitian dengan Penelitian Terdahulu

Berdasarkan riset yang sudah pernah dilakukan, peneliti mampu membuat
perbedaan dalam penelitian ini sebagai berikut :
1. Algoritma K-Means yang digunakan dalam penentuan pusat cluster

adalah algoritma modified K-Means berbasais Silhouette.
2. Untuk menghitung jarak antara distance antara data dan centroid
menggunakan Euclidienc Distance Space.
3. Nilai K hasil dari Silhouette akan dilihat nilai SSE( Sum Of Sequere
Error) pada nilai cluster yang dihasilkan.
15
BAB III
METODE PENELITIAN
Proses penelitian tentang analisis dan pemodelan menjadi persoalan teknik
informasi pada saat meneliti yang belum benar dilakukan terknik untuk
menentukan cluster yang optimum.
3.1 Rancangan Algoritma

Desain diagram alir untuk penentuan jumlah cluster optimum K-Means
menggunakan algoritma Silhouette dapat digambarkan sebagai berikut :
Start
Jumlah Cluster
Nilai K
Hitung Jarak
Euclidean Manhattan Chebyshev Minkowski
Kelompok Berdasarkan Jarak
Apakah sentroid Tidak
Silhouette coefficient
Selesai
Gambar 3.1 Struktur K-Means metode Silhouette
16
Algoritma diatas menjelaskan langkah-langkag berikut :
1. Cluster yang akan di uji

2. Pusat cluster secara random.
3. Jumlah cluster adalah sebanyak 3 cluster.
4. Menghitung jarak setiap cluster menggunakan Euclidean distance,
Manhattan distance, Chebyshev distance dan Minkowski distance
5. Data berdasarkan jarak yang sudah dihitung.
6. Perhitungan jarak dan menentukan jumlah cluster yang optimum.
3.2 Metode penelitian

perancangan k-means dalam penelitian ini sebagai berikut:
1. Studi literatur
Studi literatur penelitian ini untuk mengumpulkan laporan yang efesien
tentang algoritma k-means dan Silhouette dari berbagai sumber buku dan
jurnal.
2. Analisa permasalahan
Analisis data studi literatur untuk mengumpulkan dan memberi
pemahaman tentang algoritma K-Means dan Silhouette untuk menghitung
jumlah cluster optimum.
3. Inisialisasi data
Jika data tidak valid maka dilakukan observasi lapangan kembali.
4. Penyusunan dataset pengujian
Setelah didapat data yang valid, maka sekarang disusun metode-
metode pengujian agar tujuan penelitian terpenuhi.
5. Pelaksanaan pengujian menggunakan aplikasi dan Evaluasi hasil.
6. Tahap ini untuk menguji data menggunakan program aplikasi dan
melakukan analisa terhadap hasil pengujian dan evaluasi kesalahan.
7. Menyusun buku tugas akhir.
Tahap akhir ini merupakan dokumentasi dari teori-teori penunjang,
perancangan system aplikasi, hasil dan analisa pengujian, serta saran dan
kesimpulan.
17
Gambar 3.2 Langkah-Langkah Penelitian
18
BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Pengujian
Untuk menguji penulis menggunakan beberapa data yang bersumber dari repository
UCI Machine Learning. Adapun ringkasan dataset table 4.1 berikut :
Tabel 4.1 Ringkasan Dataset
No Dataset Jumlah Jumlah Jenis Data Tipe

Data Atribut Data
1 Iris 150 4 Numerik Real
Blood Transfusion
2 748 5 Numerik Real
Service Center
Wholesale
3 440 6 Numerik Real
Customers
Mendapatkan jumlah cluster optimal yang menganalisa hasil perhitungan k-means

menggunakan shilhoutte.
4.2 Dataset Blood Transfusion Service Center
Untuk mendukung kelancaran penelitian ini, berikut akan di paparkan dataset
Blood Transfussion Service Center untuk perhitungan manual yang diperoleh dari
proses clustering digunakan 748 dengan total atribut 5 didalamnya. Dataset tersebut
dapat dilihat pada table berikut :
19
Tabel 4.2 Dataset Blood Transfussion Service Center
Dataset Blood Transfussion Service Center

Nomor V1 V2 V3 V4 Class
1 2 50 12500 98 2
2 0 13 3250 28 2
3 1 16 4000 35 2
4 2 20 5000 45 2
5 1 24 6000 77 1
6 4 4 1000 4 1
7 2 7 1750 14 2
8 1 12 3000 35 1
9 2 9 2250 22 2
10 5 46 11500 98 2
11 4 23 5750 58 1
12 0 3 750 4 1
13 2 10 2500 28 2
14 1 13 3250 47 1
15 2 6 1500 15 2
16 2 5 1250 11 2
17 2 14 3500 48 2
18 2 15 3750 49 2
19 2 6 1500 15 2
20 2 3 750 4 2
21 2 3 750 4 2
22 4 11 2750 28 1
23 2 6 1500 16 2
24 2 6 1500 16 2
25 9 9 2250 16 1
26 4 14 3500 40 1
27 4 6 1500 14 1
28 4 12 3000 34 2
29 4 5 1250 11 2
30 4 8 2000 21 1
31 1 14 3500 58 1
32 4 10 2500 28 2
33 4 10 2500 28 2
34 4 9 2250 26 2
35 2 16 4000 64 1
36 2 8 2000 28 2
37 2 12 3000 47 2
20
38 4 6 1500 16 2
39 2 14 3500 57 2
40 4 7 1750 22 2
41 2 13 3250 53 2
42 2 5 1250 16 1
43 2 5 1250 16 2
44 2 5 1250 16 1
45 4 20 5000 69 2
46 4 9 2250 28 2
47 2 9 2250 36 1
48 2 2 500 2 1
49 2 2 500 2 1
50 2 2 500 2 1
51 2 11 2750 46 1
52 2 11 2750 46 2
53 2 6 1500 22 1
54 2 12 3000 52 1
55 4 5 1250 14 2
56 4 19 4750 69 2
57 4 8 2000 26 2
58 2 7 1750 28 2
59 2 16 4000 81 1
60 3 6 1500 21 1
61 2 7 1750 29 1
62 2 8 2000 35 2
63 2 10 2500 49 1
64 4 5 1250 16 2
65 2 3 750 9 2
66 3 16 4000 74 1
67 2 4 1000 14 2
68 0 2 500 4 1
69 4 7 1750 25 1
70 1 9 2250 51 1
71 2 4 1000 16 1
72 2 4 1000 16 1
73 4 17 4250 71 2
74 2 2 500 4 1
75 2 2 500 4 2
76 2 2 500 4 2
21
77 2 4 1000 16 2
78 2 2 500 4 1
79 2 2 500 4 1
80 2 2 500 4 1
81 4 6 1500 23 2
82 2 4 1000 16 1
83 2 4 1000 16 1
84 2 4 1000 16 1
85 2 6 1500 28 2
86 2 6 1500 28 1
87 4 2 500 4 1
88 4 2 500 4 1
89 4 2 500 4 1
90 2 7 1750 35 2
91 4 2 500 4 2
92 4 2 500 4 1
93 4 2 500 4 1
94 4 2 500 4 1
95 12 11 2750 23 1
96 4 7 1750 28 1
97 3 17 4250 86 1
98 4 9 2250 38 2
99 4 4 1000 14 2
100 5 7 1750 26 2
101 4 8 2000 34 2
102 2 13 3250 76 2
103 4 9 2250 40 1
104 2 5 1250 26 1
105 2 5 1250 26 1
106 6 17 4250 70 1
107 0 8 2000 59 1
108 3 5 1250 26 1
109 2 3 750 14 1
110 2 10 2500 64 1
… … … … … …
… … … … … …
… … … … … …
… … … … … …
748 72 1 250 72 1
22
Setelah data ini di input, maka selanjutkan akan dilakukan algoritma k-means.
4.3 Pencarian K-Means
Tahapan akan dilakukan menggunakan k-means pada dataset blood Transfusion

Service Center. Perhitungan akan dilakukan menggunakan pusat cluster dua (dua)
samapi dengan 10 (sepuluh) yang diambil secara acak. Berikut penyelesaiannya :
1. K = 2
Dengan pusat cluster yang diambil secara acak berada pada data ke :1 dan 9
yaitu (2, 50, 12500, 98, 2) dan (2, 9, 2250, 22, 2). Dengan jarak yang dihitung
menggunakan Euclidean Distance. Perhitungan 1 sampai 10: a. Jarak data ke-
1 dengan pusat cluster
(1, 1) = √(2 − 2)2 + (50 − 50)2 + (12500 − 12500)2 + (98 − 98)2 + (2 − 2)2
(1, 1) = 0
(1, 2) = √(2 − 2)2 + (50 − 9)2 + (12500 − 2250)2 + (28 − 22)2 + (2 − 2)2 (1, 2) = 10250.36
b. Jarak data ke-2 dengan pusat cluster

(2, 1) = √(0 − 2)2 + (13 − 50)2 + (3250 − 12500)2 + (28 − 98)2 + (2 − 2)2 (2, 1) = 9250.339.
(2, 2) = √(0 − 2)2 + (13 − 9)2 + (3250 − 2250)2 + (28 − 22)2 + (2 − 2)2 (2, 2) = 1000.028
c. Jarak data ke-3 dengan pusat cluster

(3, 1) = √(1 − 2)2 + (16 − 50)2 + (4000 − 12500)2 + (35 − 98)2 + (2 − 2)2 (3, 1) = 8500.302
(3, 2) = √(1 − 2)2 + (16 − 9)2 + (4000 − 2250)2 + (35 − 22)2 + (2 − 2)2 (3, 2) = 1750.063
d. Jarak data ke-4 dengan pusat cluster

(4, 1) = √(2 − 2)2 + (20 − 50)2 + (5000 − 12500)2 + (45 − 98)2 + (2 − 2)2 (4, 1) = 7500.247
(4, 2) = √(2 − 2)2 + (20 − 9)2 + (5000 − 2250)2 + (45 − 22)2 + (2 − 2)2 (4, 2) = 2750.118
e. Jarak data ke-5 dengan pusat cluster
23
(5, 1) = √(1 − 2)2 + (24 − 50)2 + (6000 − 12500)2 + (77 − 98)2 + (1 − 2)2
(5, 1) = 6500.0 86
(5, 2) = √(1 − 2)2 + (24 − 9)2 + (6000 − 2250)2 + (77 − 22)2 + (1 − 2)2 (5, 2) = 3750.434
f. Jarak data ke-6 dengan pusat cluster

(6, 1) = √(4 − 2)2 + (4 − 50)2 + (1000 − 12500)2 + (4 − 98)2 + (1 − 2)2
(6, 1) = 11500.48
(6, 2) = √(4 − 2)2 + (4 − 9)2 + (1000 − 2250)2 + (4 − 22)2 + (1 − 2)2 (6, 2) = 1250.142
g. Jarak data ke-7 dengan pusat cluster

(7, 1) = √(2 − 2)2 + (7 − 50)2 + (1750 − 12500)2 + (14 − 98)2 + (2 − 2)2
(7, 1) = 10750.41
(7, 2) = √(2 − 2)2 + (7 − 9)2 + (1750 − 2250)2 + (14 − 22)2 + (2 − 2)2 (7, 2) = 500.068
h. Jarak data ke -8 dengan pusat cluster

(8, 1) = √(1 − 2)2 + (12 − 50)2 + (3000 − 12500)2 + (35 − 98)2 + (1 − 2)2
(8, 1) = 9500.2 85
(8, 2) = √(1 − 2)2 + (12 − 9)2 + (3000 − 2250)2 + (35 − 22)2 + (1 − 2)2 (8, 2) = 750.12
i. Jarak data ke -9 dengan pusat cluster

(9, 1) = √(2 − 2)2 + (9 − 50)2 + (2250 − 12500)2 + (22 − 98)2 + (2 − 2)2
(9, 1) = 10250.36
(9, 2) = √(2 − 2)2 + (9 − 9)2 + (2250 − 2250)2 + (22 − 22)2 + (2 − 2)2 (9, 2) = 0
j. Jarak data ke -10 dengan pusat cluster

(10, 1) = √(5 − 2)2 + (46 − 50)2 + (11500 − 12500)2 + (98 − 98)2 + (2 − 2)2
(10 1) = 1000.12
(10, 2) = √(5 − 2)2 + (46 − 9)2 + (11500 − 2250)2 + (98 − 22)2 + (2 − 2)2 (10, 2) = 9250.387
Perhitungan data dengan kedua cluster, dapat dilihat pada tabel 4.3 berikut:
Tabel 4.3 Pencarian jarak dengan titik pada cluster
date ke c1 c2
1 0 10250.36
24
date ke c1 c2
2 9250.339 1000.028
3 8500.302 1750.063
4 7500.247 2750.118
5 6500.086 3750.434
6 11500.48 1250.142
7 10750.41 500.068
8 9500.285 750.12
9 10250.36 0
10 1000.012 9250.387
11 6750.173 3500.214
12 11750.47 1500.122
13 10000.32 250.074
14 9250.215 1000.321
15 11000.4 750.0387
16 11250.43 1000.068
17 9000.211 1250.28
18 8750.207 1500.255
19 11000.4 750.0387
20 11750.47 1500.12
21 11750.47 1500.12
22 9750.33 500.045
23 11000.39 750.03
24 11000.39 750.03
25 10250.41 9.273618
26 9000.259 1250.142
27 11000.41 750.052
28 9500.292 750.1047
29 11250.43 1000.07
30 10500.37 250.014
31 9000.161 1250.529
32 10000.33 250.082
33 10000.33 250.082
34 10250.34 4.472136
35 8500.136 1750.518
36 10500.32 250.074
37 9500.213 750.4225
38 11000.39 750.0327
39 9000.165 1250.5
40 10750.35 500.008
41 9250.183 1000.488
25
date ke c1 c2
42 11250.39 1000.026
43 11250.39 1000.026
44 11250.39 1000.026
45 7500.116 2750.424
46 10250.32 6.324555
47 10250.27 14.03567
48 12000.48 1750.129
49 12000.48 1750.129
50 12000.48 1750.129
51 9750.217 500.5807
52 9750.217 500.5797
53 11000.35 750.0067
54 9500.187 750.6064
55 11250.4 1000.042
56 7750.117 2500.463
57 10500.33 250.042
58 10750.31 500.04
59 8500.085 1751.009
60 11000.36 750.008
61 10750.31 500.054
62 10500.27 250.3398
63 10000.2 251.4577
64 11250.39 1000.028
65 11750.43 1500.068
66 8500.102 1750.787
67 11500.4 1250.036
68 12000.46 1750.108
69 10750.33 500.018
70 10250.19 29.03446
71 11500.38 1250.025
72 11500.38 1250.025
73 8250.11 2000.617
74 12000.46 1750.107
75 12000.46 1750.107
76 12000.46 1750.107
77 11500.38 1250.024
78 12000.46 1750.107
79 12000.46 1750.107
80 12000.46 1750.107
81 11000.34 750.0093
26
date ke c1 c2
82 11500.38 1250.025
83 11500.38 1250.025
84 11500.38 1250.025
85 11000.31 750.03
86 11000.31 750.0307
87 12000.46 1750.108
88 12000.46 1750.108
89 12000.46 1750.108
90 10750.27 500.173
91 12000.46 1750.108
92 12000.46 1750.108
93 12000.46 1750.108
94 12000.46 1750.108
95 9750.372 500.106
96 10750.31 500.045
97 8250.075 2001.04
98 10250.26 16.12452
99 11500.4 1250.037
100 10750.33 500.029
… … …
… … …
... … …
748 12250.33 2001.865
Langkah selanjutnya yaitu menentukan centroid (mean) pada cluster. Setelah

diperoleh nilai baru maka selanjutnya akan kembali menghitung jarak. Iterasi
selanjutnya akan dihitung dengan cara yang sama dan perpindahan data lain.
Setelah tidak terjadi perpindahan data dari cluster yang satu dengan yang
lainnya, maka proses clustering dihentikan. Pada pengujian yang dilakukan
menggunakan dataset Blood Transfusion Service Center dengan jumlah
pusat cluster 2 (dua) berhenti pada iterasi ke – 12 (dua belas). Berikut
merupakan hasil akhir pengujian yang dilakukan.
Tabel 4.4 Pengujian k-means dengan pusat cluster 2
date ke Hasil Clustering

Data 1 Clustering 1
Data 2 Clustering 1
27
Data 3 Clustering 1
Data 4 Clustering 1
Data 5 Clustering 1
Data 6 Clustering 2
Data 7 Clustering 2
Data 8 Clustering 1
Data 9 Clustering 2
Data 10 Clustering 1
28
29
… …
… …
... …
Dari 748 data, yang termasuk dalam Clustering 1 sebanyak 81 data dan yang
termasuk ke dalam Clustering 2 sebanyak 657.
2. K = 3
Dengan menggunakan pusat cluster sebanyak 3 pusat cluster yang diambil
secara acak berhenti di iterasi ke-2 dengan hasil akhir Clustering sebagai
berikut :
Tabel 4.5 Pengujian k-means pada pusat cluster 2

Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 2
Data 4 Clustering 2
Data 5 Clustering 2
Data 6 Clustering 3
30
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 2
31
32
… …
… …
... …
Dari 748 data yang dihitung dengan pusat cluster 3, yang termasuk dalam
Clustering 1 sebanyak 8, Clustering 2 sebanyak 164, Clustering 3 sebanyak 576.
3. K = 4
Dengan menggunakan pusat cluster sebanyak 4 pusat cluster yang diambil secara
acak berhenti di iterasi ke-4 dengan hasil akhir Clustering ini :
Tabel 4.6 Perhitungan k-means dengan pusat cluster sebanyak 4

Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 2
Data 4 Clustering 2
Data 5 Clustering 2
Data 6 Clustering 4
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 3
33
34
35
… …
… …
... …
Dari 748 data yang dihitung dengan pusat cluster 4, yang termasuk dalam
Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 95 data, Clustering 3
sebanyak 226 data, dan Clustering ke 4 sebanyak 419 data.
4. K = 5
Dengan menggunakan pusat cluster sebanyak 5 pusat cluster yang diambil secara
acak berhenti di iterasi ke-5 dengan hasil akhir Clustering ini:
Tabel 4.7 Hasil akhir k-means pada pusat cluster 5

Data 1 Clustering 1
Data 2 Clustering 2
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 3
Data 8 Clustering 2
Data 9 Clustering 2
36
37
38
… …
… …
... …
Dari 748 data yang dihitung dengan jumlah pusat cluster 5, yang termasuk dalam
Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 114 data, Clustering 3
sebanyak 219 data, Clustering ke 4 sebanyak 357 data dan Clustering 5 sebanyak
50 data.
5. K = 6

secara acak berhenti di iterasi ke-5 dengan hasil akhir Clustering sebagai berikut :

Data 1 Clustering 1
Data 2 Clustering 6
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 2
Data 8 Clustering 6
Data 9 Clustering 2
39
40
41
… …
… …
... …
Dari 748 data yang dihitung dengan jumlah pusat cluster 6, yang termasuk
dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 112 data, Clustering 3
sebanyak 176 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31
data dan Clustering 6 sebanyak 64.
6. K = 7


Data 1 Clustering 1
Data 2 Clustering 6
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 3
Data 7 Clustering 7
Data 8 Clustering 6
Data 9 Clustering 2
42
43
44
… …
… …
... …
dalam Clustering 1 sebanyak 8 data, Clustering 2 sebanyak 69 data, Clustering 3
sebanyak 124 data, Clustering ke 4 sebanyak 357 data, Clustering 5 sebanyak 31
data, Clustering 6 sebanyak 64 dan Clustering 7 sebanyak 95.
7. K = 8

8. K = 9

secara acak berhenti di iterasi ke-9 dengan hasil akhir pengelompokan sebagai
berikut :

Data 1 Clustering 1
Data 2 Clustering 6
45
Data 3 Clustering 5
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 4
Data 7 Clustering 8
Data 8 Clustering 6
Data 9 Clustering 2
46
47
… …
… …
... …
dalam Clustering 1 sebanyak 8 data, kelompok Clustering 2 sebanyak 38 data,
Clustering 3 sebanyak 33 data, Clustering ke 4 sebanyak 124 data, Clustering 5
sebanyak 31 data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering
8 sebanyak 74, dan Clustering 9 sebanyak 357.
9. K = 10


Data 1 Clustering 1
Data 2 Clustering 6
Data 3 Clustering 5
48
Data 4 Clustering 5
Data 5 Clustering 5
Data 6 Clustering 4
Data 7 Clustering 8
Data 8 Clustering 6
Data 9 Clustering 2
49
50
… …
… …
... …
dalam Clustering 1 sebanyak 278 data, Clustering 2 sebanyak 38 data, Clustering
3 sebanyak 33 data, Clustering ke 4 sebanyak 62 data, Clustering 5 sebanyak 31
data, Clustering 6 sebanyak 64, Clustering 7 sebanyak 19, Clustering 8 sebanyak
74, Clustering 9 sebanyak 149, dan Clustering 10 sebanyak 270.
Jumlah iterasi yang dihasilkan oleh masing-masing pusat klaster dapat di lihat pada
table (nomor table) adalah sebagai berikut :
Nomor Jumlah pusat klaster Jumlah iterasi

1 Pusat klaster 2 Iterasi 12
51
7 Pusat klaster 8 Iterasi belum diisi
4.4 Hasil silhouette coefficient

Berdasarkan hasil penelitian ini diperoleh jumlah cluster optimu
berdasarkan indeks validitas shilhouette :
Tabel 4.9 Shilhouette Coefficient
Nomor Jumlah cluster k Hasil shilhouette S(i)

1 2 0.70497874
2 3 0.58820040
3 4 0.65051866
4 5 0.57455669
5 6 0.43902711
6 7 0.37286151
7 8 0.327991787
8 9 0.332222712
9 10 0.338617252
Tabel 4.9 data validasi cluster dengan indeks validasi shilhouette yang paling
optimum. Proses K=3 indeks validitas 0.7417428908457862. Grafik hasil
perhitungan shilhoutte :
52
Gambar 4.1 Nilai Shilhouette dengan K =2
Gambar 4.2 Nilai Shilhouette dengan K =3
53
Gambar 4.3 Nilai Shilhouette dengan K = 4
54
55
56
4.5 Hasil Pengujian Mengunakan Dataset lain
Dalam penelitian ini menggunakan tiga jenis dataset, hasil yang di ujicoba
menggunakan python adalah sebegai berikut :
1. Hasil pengujian Iris Dataset
Nilai shilhouette coefision yang didapatkan menggunakan dataset Iris

dengan ujicoba menggunakan 10 pusat klaster dan data pusat klaster diambil
secara acak adalah sebagai berikut :
Nomor Jumlah Pusat Cluster Nilai Shilhouette

1 2 0.681046
2 3 0.552819
3 4 0.497217
4 5 0.488748
5 6 0.364834
6 7 0.349747
7 8 0.350060
8 9 0.328819
9 10 0.329014
57
Dari tabel di atas bahwa kesimpulan pusat klaster mempunyai dua nilai
shilhoette paling tinggi. Maka dengan itu pusat klaster dua adalah pusat klaster
yang paling optimum.
2. Hasil Pengujian Wholesale Customers
Nilai shilhouette coefision yang didapatkan menggunakan dataset

Wholesale Customers dengan ujicoba menggunakan 10 pusat klaster dan data
pusat klaster diambil secara acak adalah sebagai berikut :
Nomor Jumlah Pusat Cluster Nilai Shilhouette

1 2 0.4263
2 3 0.3969
3 4 0.3320
4 5 0.3510
5 6 0.3666
6 7 0.3633
7 8 0.3510
8 9 0.3541
9 10 0.3510
58
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
1. Dari poengujian menggunakan dataset Iris, Blood Transfusion Service

Center, dan Wholesale Customers didapatkan bahwa jumlah cluster yang
paling optimum adalah k = 2 dengan nilai validasi shilhouette untuk
masing-masing dataset. Iris = 0.681046. Blood Transfusion Service Center
= 0.70497874, dan Wholesale Customers = 0.4263.
2. Jumlah iterasi yang dihasilkan berbeda-beda untuk setiap dataset meskipun
menggunakan jumlah pusat klaster yang sama.
5.2 Saran
1. Agar memudahkan dalam rekapitulasi kelompok cluster, sebaiknya
dilakukan dengan membuat program agar secara otomatis setiap anggota
yang terbentuk dari cluster tersusun dengan cepat.
2. Penelitian selanjutnya diharapkan dapat menghitung tingkat error dari
masing-masing jumlah cluster dengan menggunakan salah model grafik
seperi SSE (sum of squares error).
59
DAFTAR PUSTAKA
Agusta, Y. 2007. K-Means Penerapan, Permasalahan Dan Metode Terkait. Jurnal Sistem dan
Informatika Vol.3 : 47-60.
Everitt, Brian S., et.al. 2011. Cluster Analysis 5th Edition. United Kingdom: John Wiley &
Sons, Ltd.
Han & Kember, 2006. Data Mining: Concepts and Techniques, 2nd ed.
H. Prasetyo and A. Purwariati, “Comparison of Distance Measures for Clustering Data with
Mix Attribute Types,” in International Conference on Information Technology Systems
and Innovation, 2014.
J. Bora and A. K. Gupta, “Effect of Different Distance Measures on the Performance of K-
Means Algorithm: An Experimental Study in Matlab,” Eff. Differ. Distance Meas.
Perform. K-Means Algorithm An Exp. Study Matlab, vol. 5, no. 2, pp. 2501–2506, 2014.
Kusnawi. 2007. Pengantar Solusi Data Mining. Seminar Nasional Teknologi STMIK
AMIKOM Yogyakarta. 24 November: 1-9.
M. Nishom, “Implementasi Metode K-Means berbasis Chi-Square pada Sistem Pendukung
Keputusan untuk Identifikasi Disparitas Kebutuhan Guru,” J. Sist. Inf. Bisnis, vol. 8, no.
2, pp. 1–8, 2018.
Oliveira, J. V. De, & Pedrycz, W. (2007). Advances in Fuzzy Clustering and its Applications.
(J. Valente de Oliveira & W. Pedrycz, Eds.). Chichester, UK: John Wiley & Sons, Ltd.
Ong, Johan Oscar. 2013. “Implementasi Algoritma K-Means Clustering Untuk Menentukan
Strategi Marketing.” (April): 10–20.
P.-N. Tan, M. Steinbach, A. Karpatne, and V. Kumar, Introduction to Data Mining (2nd
Edition). New York: Pearson, 2018
Santoso, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha
Ilmu, Yogyakarta.
60

Penentuan Cluster Terbaik K-Means Menggunakan Algoritma Silhouette

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Penentuan Cluster Terbaik K-Means Menggunakan Algoritma Silhouette

Diunggah oleh

Hak Cipta:

Format Tersedia

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN

PROGRAM STUDI S2 TEKNIK INFORMATIKA

PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN

Nama : HANDRY ELDO

Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas

PENENTUAN CLUSTER TERBAIK K-MEANS MENGGUNAKAN

Demikian pernyataan ini dibuat dengan sebenarnya.

PANITIA PENGUJI TESIS

Nama Lengkap : Handry Eldo

SD : SD Negeri 1 Lhokseumawe TAMAT : 2003

Medan, 30 Januari 2020

Kata Kunci : Dataset , Algoritma K-Means, Silhouette Coefficient

1.1 Latar Belakang

Di dalam sistem clustering terdapat beberapa pendekatan yang bisa

K-means banyak digunakan lebih efektif dan efesien penglompokan data.

Alasan memilih clustering dalam pemprosesan data ialah menentukan k

Di dalam bidang algoritma K- means bersifat Unsupervised Learning yang

1.2 Rumusan Masalah

1.3 Batasan Masalah

1. Metode K-Means Cluster

1.5 Manfaat Penelitian

1. Didapatkan suatu metode cluster dengan jumlah K paling optimum

2.1 Data Mining

Pengumpulan data mining tersebut memiliki informasi ilmu untuk

2.1.1 Tahapan Data Mining

Fungsi-fungsi dalam data mining:

1. Fungsi deskripsi (desciption)

Fungsi deskripsi ialah yang digunakan untuk merancang sekumpulan data

3. Fungsi prediksi (prediction)

4. Fungsi klasifikasi (classification)

5. Fungsi pengelompokan (cluster)

6. Fungsi asosiasi (association)

2.3 Manfaat Clustering data

Pengelompokkan objek didasarkan pada kesamaan antar objek tidak

1. Kelompok hasil pencarian search engine

Pendekatan clustering sangat berpengaruh di wilayah mirip dibagian

Tujuan utama dari metode clustering adalah pengelompokan sejaumlah

2.4 Algoritma K-Means

G ambar 2.2 Proses Clustering Obyek Menggunakan metode k-Mean

clustering obyek (clustering). Algoritma K-mean mendefinisikan centroid atau

1. Menentukan jumlah cluster

2. Lokasi data secara random ke cluster tersebut

3. Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

4. Lokasikan kembali semua data ke cluster yang terdekat

1. Tentukan k sebagai jumlah cluster yang akan rancang

Dimana : v = centroid pada cluster

4. Alokasikan masing-masing objek ke dalam centroid yang paling dekat

Tentukan jarak objek

Gambar 2.4 Flowchart algoritma K-means

2.5 Metode Silhouette

Silhouette Coefficient ialah untuk melihat kualitas pada kekuatan cluster,

1. Rata-rata jarak dari suatu dokumen misalkan i dengan semua dokumen

Dimana : j adalah dokumen lain dalam satu cluster A

Dimana d(I,C) adalah jarak rata-rata document i dengan semua objek

( ) = min ≠ ( , ) .................................................................. (5)

3. Nilai Silhouette Coefficient nya adalah :

2.6 Riset Terkait

Tabel 2.1 Riset-riset terkait

No Judul Riset Nama dan Metode yang Hasil penelitian

3 Integration K-Means M A Saakut, K-Means dan K=3 adalah hasil cluster

4 Pemilihan Distance Mario Distance Distance measure paling

2.7 Perbedaan Penelitian dengan Penelitian Terdahulu