Anda di halaman 1dari 26

Clustering K-Mean

YUlia arvita
Program Studi Teknik Informatika, Sistem Informasi
Universitas Dinamika Bangsa
🞂Suatu cluster merupakan sekelompok entitas yang
memiliki kesamaan dan memiliki perbedaan dengan
entitas dari kelompok lain(Everitt,1980).
🞂Algoritma K-Means diperkenalkan oleh J.B.
MacQueen pada Tahun 1976. K-means adalah salah
satu algoritma unsupervised yang paling sederhana
yang dikenal dapat menyelesaikan permasalahan
clustering dengan baik. Data di dalam cluster
mempunyai ciri-ciri (fitur, karakteristik, atribut,
properti) serupa dan tidak serupa dengan data pada
cluster lain
🞂Clustering menggunakan metode K-Means secara umum
dilakukan dengan algoritma sbb
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam kelompok secara acak
3. Hitung pusat cluster (centroid) menggunakan k-mean utk masing-
masing kelompok
4. Alokasikan masing-masing data ke centroid terdekat
5. Kembali ke langkah 3, jika masih ada data yang berpindah cluster,
atau jika nilai centroid diatas nilai ambang, atau jika nilai pada
fungsi obyektif yang digunakan masih diatas ambang
🞂Rumus Eucledian
No Nama Tinggi (cm) Berat (kg)
1 Adin 179 79
2 Bima 170 70
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
10 Diego 178 78
🞂 dari data diatas kita tentukan jumlah cluster (misalnya = 3)
🞂 lalu kita pilih secara acak pusat clusternya
◦ misalnya data 2, 6 dan 8

No Nama Tinggi (cm) Berat (kg)


1 Adin 179 79
2 Bima 170 70
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
10 Diego 178 78
🞂Maka
◦ Centroid M1 (170,70)
◦ Centroid M2 (175,75)
◦ Centroid M3 (182,80)

🞂Selanjutnya kita hitung Jarak masing2 data ke masing2


pusat cluster dengan menggunakan rumus eucledian
Hitung jarak masing2 data ke centroid

🞂Data 1 (179,79)
◦ Centroid M1 (170,70)
◦ Centroid M2 (175,75)
◦ Centroid M3 (182,80)
🞂Data 2 (170,70)
◦ Centroid M1 (170,70)
◦ Centroid M2 (175,75)
◦ Centroid M3 (182,80)
🞂Dan seterusnya sampai data ke 10
Jarak Data ke masing Centroid
🞂Dari tabel diatas didapatkan keanggotaan sbb:
◦ Cluster 1
● Bima

◦ Cluster 2
● Dodi
● David
● Lena
● Ziko
● Diego

◦ Cluster 3
● Adin
● Zidane
● Andrea
● Anas
🞂Menghitung Between Cluster Variation
◦ Centroid M1 (170,70)
◦ Centroid M2 (175,75)
◦ Centroid M3 (182,80)

◦ Maka BCV nya adalah = 7,0710 + 15,205 + 12,2065 menjadi =


34,8981
Menghitung WCV
(Within Cluster Variation)
🞂Langkah Selanjutnya adalah menghitung Ratio

🞂Ratio = BCV / WCV


🞂Ratio = 34,8981 / 160
🞂Ratio = 0,2181

🞂Karena ini adalah langkah iterasi 1, maka harus


dilanjutkan ke iterasi ke-2
🞂Pembaharuan Centroid
🞂Sehingga Centroid baru adalah
◦ Centroid M1 (170 ; 70)
◦ Centroid M2 (176,2 ; 77,4)
◦ Centroid M3 (180 ; 82 )

◦ Dan Selanjutnya kita hitung dengan cara yang sama seperti


pada langkah pertama
● Bedanya adalah nilai centroidnya
🞂Hasil Iterasi-2 dengan centroid baru (terakhir)
🞂Dari tabel diatas didapatkan keanggotaan sbb:
◦ Cluster 1
● Bima

◦ Cluster 2
● Dodi
● David
● Lena
● Ziko
● Diego

◦ Cluster 3
● Adin
● Zidane
● Andrea
● Anas
🞂Menghitung Between Cluster Variation
◦ Centroid M1 (170 ; 70)
◦ Centroid M2 (176,2 ; 77,4)
◦ Centroid M3 (180 ; 82 )

🞂Maka BCV nya adalah = 9,6540 + 15,205 + 5,9665


menjadi = 31,2410
Menghitung WCV
(Within Cluster Variation)
🞂Menghitung Ratio
▪ Ratio = BCV / WCV
▪ Ratio = 31,2410 / 92
▪ Ratio = 0,3395

🞂Bandingkan dengan Ratio pada iterasi sebelumnya


▪ Ratio sebelumnya = 0,2181
▪ Ratio sekarang = 0,3395
o Jika Ratio sekarang > dari ratio sebelumnya
o Maka iterasi berlanjut

o Berarti lanjut ke iterasi-3


🞂Lakukan langkah seperti pada iterasi sebelumnya
(seperti biasa) yaitu
◦ Membuat centroid baru
◦ Menghitung jarak masing2 data ke centroid baru
◦ Menentukan data dalam cluster
◦ Menghitung BCV WCV dan Ratio
◦ Membandingkan Ratio sekarang dengan ratio sebelumnya

◦ Catatan : Iterasi akan berhenti


● Jika ratio sekarang lebih kecil atau sama dengan ratio sebelumnya
● Jika tidak ada data yang berpindah Cluster
🞂Untuk contoh yang ini setelah dihitung proses iterasi=3
menghasilkan Ratio yaitu = 0,3395

🞂Kalau dilihat ke belakang, ratio sekarang = ratio


sebelumnya
🞂Dan setelah data di cek, tidak ada yang berpindah
cluster
🞂Jadi iterasi berhenti pada iterasi-3
Demikian terima kasih
Semoga bermanfaat

Salam Data Mining

Anda mungkin juga menyukai