OLEH :
Adapun contoh soal clustering dengan K-Means pada set data 2 dimensi, yaitu sebagai
berikut.
Langkah 1:
Table 2 Penentuan Centroid
C1 C2 C3
Fitur X 1 3 5
Fitur Y 1 8 3
Menetukan pusat cluster secara acak atau telah ditentukan sebelumnya. Disini digunakan
data ke 1, 10, dan 6. Yang berarti C1=1,1), C2=(3,8), dan C3=(5,3). Untuk data yang digunakan
dapat dilihat pada Tabel 1.
Langkah 2:
Melakukan perhitungan jarak setiap data yang ada terhadap setiap clutser menggunakan
perhitungan jarak Euclidean. Perhitungannya adalah sebagai berikut.
Langkah 3:
Menetukan cluster dengan jarak terdekat pada masing-masing data. Hasil dari jarak
terdekat pada masing-masing data adalah sebagai berikut.
Table 4 Iterasi I
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 0 7.28011 4.472136 0 1
2 3 7.071068 2.236068 2.236068 3
3 5 7.615773 2.236068 2.236068 3
4 1 6.324555 4.123106 1 1
5 2.236068 5.09902 3 2.236068 1
6 4.472136 5.385165 0 0 3
7 4.123106 3.162278 3.605551 3.162278 2
8 4.472136 3 2.828427 2.828427 3
9 5.09902 2.236068 4.242641 2.236068 2
10 7.28011 0 5.385165 0 2
Langkah 4:
Langkah selanjutnya adalah menghitung pusat cluster baru. Cluster pertama terdapat 3 data
yaitu data ke 1,4, dan 5. Perhitungannya adalah dengan cara mencari rata-rata dari setiap cluster.
C11 = (1+1+2)/3 = 1,333
C12 = (1+2+3)/3= 2
Sedangkan untuk cluster kedua menggunakan data ke 7, 9, dan 10. Hingga perhitungannya
menjadi seperti berikut.
C21 = (2+2+3)/3 = 2,333
C22 = (5+2+3)/3= 6,333
Sedangkan untuk cluster ketiga menggunakan data ke 2, 3, 6, dan 8. Hingga
perhitungannya menjadi seperti berikut.
C31 = (4+6+5+3)/4 = 4,5
C32 = (1+1+3+5)/4= 2,5
Langkah 5:
Ulangi dari langkah 2 hingga 4, sampai posis data terhadap cluster tidak mengalami
perubahan. Berikut merupakan hasil dari setiap iterasi.
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.497474 3.807887 1.054093 1
2 2.848001 5.587685 1.581139 1.581139 3
3 4.772607 6.472163 2.12132 2.12132 3
4 0.333333 4.533824 3.535534 0.333333 1
5 1.20185 3.349959 2.54951 1.20185 1
6 3.800585 4.268749 0.707107 0.707107 3
7 3.073181 1.374369 3.535534 1.374369 2
8 3.431877 1.490712 2.915476 1.490712 2
9 4.055175 0.471405 4.301163 0.471405 2
10 6.227181 1.795055 5.700877 1.795055 2
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.220153 5.656854 1.054093 1
2 2.848001 5.220153 4.123106 2.848001 1
3 4.772607 6.103278 4.123106 4.123106 3
4 0.333333 4.272002 5 0.333333 1
5 1.20185 3.041381 3.605551 1.20185 1
6 3.800585 3.905125 2 2 3
7 3.073181 1.118034 3 1.118034 2
8 3.431877 1.118034 2 1.118034 2
9 4.055175 0.5 3.162278 0.5 2
10 6.227181 2.061553 3.605551 2.061553 2
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.220153 4.055175 1.054093 1
2 2.848001 5.220153 1.20185 1.20185 3
3 4.772607 6.103278 1.20185 1.20185 3
4 0.333333 4.272002 4.013865 0.333333 1
5 1.20185 3.041381 3.282953 1.20185 1
6 3.800585 3.905125 1.333333 1.333333 3
7 3.073181 1.118034 4.484541 1.118034 2
8 3.431877 1.118034 3.887301 1.118034 2
9 4.055175 0.5 5.270463 0.5 2
10 6.227181 2.061553 6.64162 2.061553 2
Karena pada iterasi ke-4 dan ke-5 posisi cluster tidak mengalami perubahan. Maka iterasi
dapat dihentikan dan berikut merupakan hasil akhir yang diperoleh adalah 3 cluster, yaitu sebagai
berikut.
a) Cluster pertama dengan data ke 1,4, dan 5
C11= (1+1+5)/3 = 2,333
C12= (1+2+3)/3 = 2
Cluster pertama memiliki pusat (2,33 ; 2)