Anda di halaman 1dari 8

DATA MINING

K-Means dan K-Modes

OLEH :

I MADE RIKEN INDRA PUTERA


1605551106

PROGRAM STUDI TEKNOLOGI INFORMASI


FAKULTAS TEKNIK
UNIVERSITAS UDAYANA
2019
1. Algoritma K-Means
Algoritma K-Means merupakan salah satu algoritma clustering yang sederhana dan
umum diterapkan. Adapun langkah-langkah dalam penggunaan K-Means :
1) Inisialisasi, tentukan nilai K sebagai jumlah cluster. Jika perlu tetapkan ambang batas
perubahan fungsi objektif (batas yang menentukan iterasi berhenti atau tidak) dan ambang
batas perubahan posis centroid.
2) Pilih K data dari data set X sebagai centroid
3) Alokasikan semua data ke centroid terdekat dengan menghitung metrik jarak
4) Hitunglah kembali centroid C berdasarkan data yang mengikuti cluster masing-masing.
5) Ulangi langkah 3 dan 4 sehingga kondisi konvergen tercapai, yaitu
- Perubahan fungsi objektif sudah diambang batas atau,
- Tidak ada data yang berpindah, atau
- Perubahan posisi centroid sudah berada di bawah ambang batas.

Adapun contoh soal clustering dengan K-Means pada set data 2 dimensi, yaitu sebagai
berikut.

Table 1 Set data sintetik numerik 2 dimensi


Data Ke-I Fitur X Fitur Y
1 1 1
2 4 1
3 6 1
4 1 2
5 2 3
6 5 3
7 2 5
8 3 5
9 2 6
10 3 8
Disediakan 10 data pada set data 2 dimensi yang menggunakan fitur x dan fitur y agar
mudah divisualisasikan dalam koordinat kartesius. Berdasarkan data pada tabel 1, dilakukan proses
pengelompokan menjadi 3 cluster (k = 3). Berdasarkan k=3, maka ditentukan titik centroid
sebanyak k berdasarkan titik-titik tertentu data set. Dapat dilakukan secaraa acak ataupun
ditentukan secara langsung. Pada kasus ini ditentukan penggunakan 3 digit NIM terakhir sebagai
centroid awal. Maka yang digunakan adalah data ke 1, 10, dan 6. Perhitungan jarak setiap data
terhadap titik centroid dilakukan dengan perhitungan jarak Euclidean. Berikut adalah
penyelesaiannya :

Langkah 1:
Table 2 Penentuan Centroid
C1 C2 C3
Fitur X 1 3 5
Fitur Y 1 8 3

Menetukan pusat cluster secara acak atau telah ditentukan sebelumnya. Disini digunakan
data ke 1, 10, dan 6. Yang berarti C1=1,1), C2=(3,8), dan C3=(5,3). Untuk data yang digunakan
dapat dilihat pada Tabel 1.

Langkah 2:
Melakukan perhitungan jarak setiap data yang ada terhadap setiap clutser menggunakan
perhitungan jarak Euclidean. Perhitungannya adalah sebagai berikut.

Jarak data ke-i pertama dengan pusat cluster pertama :


d(x1, c1) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐1𝑖 )2 = √(1 − 1)2 + (1 − 1)2 = 0

Jarak data ke-i pertama dengan pusat cluster kedua :


d(x1, c2) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐2𝑖 )2 = √(1 − 3)2 + (1 − 8)2 = 7.2801

Jarak data ke-i pertama dengan pusat cluster kedua :


d(x1, c3) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐3𝑖 )2 = √(1 − 5)2 + (1 − 3)2 = 4.4721
Hasil perhitungan jarak keseluruhan data dapat dilihat lebih lengkapnya pada Tabel 3 di
bawah ini.

Table 3 Pehitungan data terhadap masing-masing cluster


Jarak ke Centroid
Data Ke-i
1 2 3
1 0 7.28011 4.472136
2 3 7.071068 2.236068
3 5 7.615773 2.236068
4 1 6.324555 4.123106
5 2.236068 5.09902 3
6 4.472136 5.385165 0
7 4.123106 3.162278 3.605551
8 4.472136 3 2.828427
9 5.09902 2.236068 4.242641
10 7.28011 0 5.385165

Langkah 3:
Menetukan cluster dengan jarak terdekat pada masing-masing data. Hasil dari jarak
terdekat pada masing-masing data adalah sebagai berikut.
Table 4 Iterasi I
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 0 7.28011 4.472136 0 1
2 3 7.071068 2.236068 2.236068 3
3 5 7.615773 2.236068 2.236068 3
4 1 6.324555 4.123106 1 1
5 2.236068 5.09902 3 2.236068 1
6 4.472136 5.385165 0 0 3
7 4.123106 3.162278 3.605551 3.162278 2
8 4.472136 3 2.828427 2.828427 3
9 5.09902 2.236068 4.242641 2.236068 2
10 7.28011 0 5.385165 0 2

Langkah 4:
Langkah selanjutnya adalah menghitung pusat cluster baru. Cluster pertama terdapat 3 data
yaitu data ke 1,4, dan 5. Perhitungannya adalah dengan cara mencari rata-rata dari setiap cluster.
C11 = (1+1+2)/3 = 1,333
C12 = (1+2+3)/3= 2
Sedangkan untuk cluster kedua menggunakan data ke 7, 9, dan 10. Hingga perhitungannya
menjadi seperti berikut.
C21 = (2+2+3)/3 = 2,333
C22 = (5+2+3)/3= 6,333
Sedangkan untuk cluster ketiga menggunakan data ke 2, 3, 6, dan 8. Hingga
perhitungannya menjadi seperti berikut.
C31 = (4+6+5+3)/4 = 4,5
C32 = (1+1+3+5)/4= 2,5

Langkah 5:
Ulangi dari langkah 2 hingga 4, sampai posis data terhadap cluster tidak mengalami
perubahan. Berikut merupakan hasil dari setiap iterasi.

Table 5 Hasil Iterasi 2

Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.497474 3.807887 1.054093 1
2 2.848001 5.587685 1.581139 1.581139 3
3 4.772607 6.472163 2.12132 2.12132 3
4 0.333333 4.533824 3.535534 0.333333 1
5 1.20185 3.349959 2.54951 1.20185 1
6 3.800585 4.268749 0.707107 0.707107 3
7 3.073181 1.374369 3.535534 1.374369 2
8 3.431877 1.490712 2.915476 1.490712 2
9 4.055175 0.471405 4.301163 0.471405 2
10 6.227181 1.795055 5.700877 1.795055 2

Table 6 Hasil Iterasi 3

Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.220153 5.656854 1.054093 1
2 2.848001 5.220153 4.123106 2.848001 1
3 4.772607 6.103278 4.123106 4.123106 3
4 0.333333 4.272002 5 0.333333 1
5 1.20185 3.041381 3.605551 1.20185 1
6 3.800585 3.905125 2 2 3
7 3.073181 1.118034 3 1.118034 2
8 3.431877 1.118034 2 1.118034 2
9 4.055175 0.5 3.162278 0.5 2
10 6.227181 2.061553 3.605551 2.061553 2

Table 7 Hasil Iterasi 4

Data Jarak ke Centroid


Terdekat Cluster
Ke-i 1 2 3
1 1.25 5.220153 4.609772 1.25 1
2 2.136001 5.220153 1.802776 1.802776 3
3 4.069705 6.103278 1.118034 1.118034 3
4 1.030776 4.272002 4.5 1.030776 1
5 1.25 3.041381 3.640055 1.25 1
6 3.25 3.905125 1.118034 1.118034 3
7 3.25 1.118034 4.609772 1.118034 2
8 3.400368 1.118034 3.905125 1.118034 2
9 4.25 0.5 5.315073 0.5 2
10 6.329494 2.061553 6.5 2.061553 2

Table 8 Hasil Iterasi 5

Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 1.054093 5.220153 4.055175 1.054093 1
2 2.848001 5.220153 1.20185 1.20185 3
3 4.772607 6.103278 1.20185 1.20185 3
4 0.333333 4.272002 4.013865 0.333333 1
5 1.20185 3.041381 3.282953 1.20185 1
6 3.800585 3.905125 1.333333 1.333333 3
7 3.073181 1.118034 4.484541 1.118034 2
8 3.431877 1.118034 3.887301 1.118034 2
9 4.055175 0.5 5.270463 0.5 2
10 6.227181 2.061553 6.64162 2.061553 2

Karena pada iterasi ke-4 dan ke-5 posisi cluster tidak mengalami perubahan. Maka iterasi
dapat dihentikan dan berikut merupakan hasil akhir yang diperoleh adalah 3 cluster, yaitu sebagai
berikut.
a) Cluster pertama dengan data ke 1,4, dan 5
C11= (1+1+5)/3 = 2,333
C12= (1+2+3)/3 = 2
Cluster pertama memiliki pusat (2,33 ; 2)

b) Clutser kedua dengan data ke 7,8,9, dan 10


C21= (2+3+2+3)/4 = 2,5
C22= (5+5+6+8)/4 = 6
Cluster kedua memiliki pusat (2,5 ; 6)

c) Cluster ketiga dengan data 2,3, dan 6.


C31= (4+6+5)/3 = 5
C32= (1+1+3)/3 = 1,67
Cluster ketiga memiliki pusat (5 ; 1,67)
2. Algoritma K-Modes

Anda mungkin juga menyukai