K- MEANS
MKB14-2337
www.yourcompany.com PitchDeck
K- MEANS
K-Means adalah algoritma yang cukup sederhana dan efektif dalam proses
pengelompokkan data berdasarkan kemiripannya atau disebut clustering.
Penentuan kemiripan data dihitung menggunakan rumus Euclidean Distance
(Anggodo dkk., 2017).
www.yourcompany.com PitchDeck 2
(Mahdi, 2019)
Kelebihan :
Mudah dilakukan saat pengimpelementasian dan di jalankan.
Waktu yang di butuhkan untuk melakukan pembelajaran relatif lebih cepat.
Sangat fleksibel, adaptasi yang mudah untuk di lakukan
Sangat umum penggunaannya.
Menggunakan prinsip yang sederhana dapat di jelaskan dalam non-statistik.
Kekurangan :
Sebelum algoritma di jalankan, titik K diinisialisasikan secara random sehingga pengelompokan data yang di
dapatkan bisa berbeda-beda. Namun apabila nilai yang diperoleh acak untuk penginisialisasi kurang baik
maka pengelompokan yang didapatkn menjadi tidak optimal.
Apabila hanya ada terdapat beberapa buah titik sampel data yang ada, maka hal yang mudah untuk
melakukan penghitungan dan mencari jarak titik terdekat dengan k titik yang telah di lakukan inisialisasi
yang secara acak. Namun jika ada banyak titik data, misalkan satu juta data, maka perhitungan dan
pencarian titik terdekat akan sangat membutuhkan waktu yang lama. Proses tersebut dapat dipercepat
namun dibutuhkan sebuah struktur data yang lebih rumit seperti kD-tree atau hashing untuk melakukan
proses tersebut.
Adanya penggunaan k buah random, tidak ada jaminan untuk menemukan kumpulan cluster yang optimal.
www.yourcompany.com PitchDeck 3
K- Means
www.yourcompany.com PitchDeck 4
Pada algoritma K-Means penentuan awal titik centroid didapatkan secara random, dan pada
iterasi berikutnya titik centroid didapatkan dari perhitungan jarak rata-rata dari anggota
cluster terhadap titik centroid awal. Adapun algoritma dari K-Means adalah sebagai berikut:
1. Tentukan Nilai K terlebih dahulu. Nilai K adalah jumlah cluster yang ingin dibuat.
2. Generate titik centroid awal secara random, apabila K=2 maka diperlukan 2 titik centroid
awal yang didapatkan secara acak dari dataset.
3. Perhitungan jarak antara data 𝑥𝑖 dengan titik centroid dengan rumus Euclidean
Distance(D) pada persamaan (2) berikut.
𝑝
𝐷 (𝑋𝑖 , 𝐶𝑗 = ( 𝑋𝑖 − 𝐶𝑗 )2
𝑖=1
Keterangan =
𝑋𝑖 = data ke-i
𝐶𝑗 = titik pusat cluster atau (centroid)
P = dimensi data
www.yourcompany.com PitchDeck 5
4. Menentukan setiap objek data masuk kedalam cluster dengan jarak euclidean terdekat
atau terkecil.
5. Melakukan perhitungan ulang titik centroid pada iterasi berikutnya dengan menghitung
rata-rata jarak antara semua objek dalam cluster.
6. Ulangi langkah ke-3 hingga nilai centroid tidak berubah atau telah dalam kondisi berhenti
(stopping condition).
www.yourcompany.com PitchDeck 6
Contoh Studi Kasus :
Ditentukan banyaknya cluster yang dibentuk dua (k=2). Banyaknya cluster harus lebih kecil dari
pada banyaknya data (k<n).
Langkah Pertama :
Tentukan Nilai K terlebih dahulu. Nilai K adalah jumlah cluster yang ingin dibuat.
K=2
www.yourcompany.com PitchDeck 7
Contoh Studi Kasus :
Untuk iterasi berikutnya (iterasi ke-1 sampai selesai), centroid yang baru 𝑝
dihitung dengan menghitung nilai rata-rata data pada setiap cluster. Jika
𝐷 (𝑋𝑖 , 𝐶𝑗 = ( 𝑋𝑖 − 𝐶𝑗 )2
centroid baru berbeda dengan centroid sebelumnya, maka proses dilanjutkan
𝑖=1
ke langkah berikutnya. Namun jika centroid yang baru dihitung sama dengan
centroid sebelumnya, maka proses clustering selesai.
Rumus yang digunakan untuk menghitung distance space atau jarak data
dengan centroid menggunakan Euclidiean Distance.
www.yourcompany.com PitchDeck 8
Iterasi ke-1
Jarak data dengan Centroid C1 adalah:
www.yourcompany.com PitchDeck 9
Iterasi ke-2
Jarak data dengan Centroid C2 adalah:
www.yourcompany.com PitchDeck 10
𝑥3
9
𝑥5 Nama Nilai UTS (a) Nilai UAS (b)
8 𝑥1 Bunga 8 7
NILAI UAS (b)
𝑥2 Dahlia 6 7
𝑥3
7 𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥2 𝑥1
6 𝑥5 Bagas 5 8
5 6 7 8 9
NILAI UTS (a)
www.yourcompany.com PitchDeck 11
𝑥3
9
𝑥5 Nama Nilai UTS (a) Nilai UAS (b)
8 𝑥1 Bunga 8 7
NILAI UAS (b)
𝑥2 Dahlia 6 7
𝑥3
7 𝑥3 Fani 8 9
𝑥4 Ayu 9 7
𝑥1 𝑥2
6 𝑥5 Bagas 5 8
5 6 7 8 9
NILAI UTS (a)
www.yourcompany.com PitchDeck 12
Nama Nilai UTS (a) Nilai UAS (b)
𝑥7
𝑥3 𝑥1 Bunga 8 7
9
𝑥2 Dahlia 6 7
𝑥5
𝑥6 𝑥3 Fani 8 9
8
NILAI UAS (b)
𝑥4 Ayu 9 7
𝑥4 𝑥5 Bagas 5 8
7
𝑥6 Fajar 9 8
𝑥1 𝑥2 𝑥7 Putri 6 9
6
www.yourcompany.com PitchDeck 13
Nama Nilai UTS (a) Nilai UAS dc1 dc2
(b)
𝑥1 Bunga 8 7 0 2
𝑥2 Dahlia 6 7 2 0
𝑥3 Fani 8 9 2 4
𝑥4 Ayu 9 7 1 3
𝑥5 Bagas 5 8 4 2
Fajar 9 8 2 4
Putri 6 9 4 2
C1 C2
Bunga Dahlia
Fani Bagas
Ayu Putri
Fajar
www.yourcompany.com PitchDeck 14