Data Mining (K-Means Dan K-Modes)

DATA MINING
K-Means dan K-Modes
OLEH :
I MADE RIKEN INDRA PUTERA

1605551106
PROGRAM STUDI TEKNOLOGI INFORMASI

FAKULTAS TEKNIK
UNIVERSITAS UDAYANA
2019
1. Algoritma K-Means
Algoritma K-Means merupakan salah satu algoritma clustering yang sederhana dan
umum diterapkan. Adapun langkah-langkah dalam penggunaan K-Means :
1) Inisialisasi, tentukan nilai K sebagai jumlah cluster. Jika perlu tetapkan ambang batas
perubahan fungsi objektif (batas yang menentukan iterasi berhenti atau tidak) dan ambang
batas perubahan posis centroid.
2) Pilih K data dari data set X sebagai centroid
3) Alokasikan semua data ke centroid terdekat dengan menghitung metrik jarak
4) Hitunglah kembali centroid C berdasarkan data yang mengikuti cluster masing-masing.
5) Ulangi langkah 3 dan 4 sehingga kondisi konvergen tercapai, yaitu
- Perubahan fungsi objektif sudah diambang batas atau,
- Tidak ada data yang berpindah, atau
- Perubahan posisi centroid sudah berada di bawah ambang batas.
Adapun contoh soal clustering dengan K-Means pada set data 2 dimensi, yaitu sebagai
berikut.
Table 1 Set data sintetik numerik 2 dimensi

Data Ke-I Fitur X Fitur Y
1 1 1
2 4 1
3 6 1
4 1 2
5 2 3
6 5 3
7 2 5
8 3 5
9 2 6
10 3 8
Disediakan 10 data pada set data 2 dimensi yang menggunakan fitur x dan fitur y agar
mudah divisualisasikan dalam koordinat kartesius. Berdasarkan data pada tabel 1, dilakukan proses
pengelompokan menjadi 3 cluster (k = 3). Berdasarkan k=3, maka ditentukan titik centroid
sebanyak k berdasarkan titik-titik tertentu data set. Dapat dilakukan secaraa acak ataupun
ditentukan secara langsung. Pada kasus ini ditentukan penggunakan 3 digit NIM terakhir sebagai
centroid awal. Maka yang digunakan adalah data ke 1, 10, dan 6. Perhitungan jarak setiap data
terhadap titik centroid dilakukan dengan perhitungan jarak Euclidean. Berikut adalah
penyelesaiannya :
Langkah 1:
Table 2 Penentuan Centroid
C1 C2 C3
Fitur X 1 3 5
Fitur Y 1 8 3
Menetukan pusat cluster secara acak atau telah ditentukan sebelumnya. Disini digunakan
data ke 1, 10, dan 6. Yang berarti C1=1,1), C2=(3,8), dan C3=(5,3). Untuk data yang digunakan
dapat dilihat pada Tabel 1.
Langkah 2:
Melakukan perhitungan jarak setiap data yang ada terhadap setiap clutser menggunakan
perhitungan jarak Euclidean. Perhitungannya adalah sebagai berikut.
Jarak data ke-i pertama dengan pusat cluster pertama :

d(x1, c1) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐1𝑖 )2 = √(1 − 1)2 + (1 − 1)2 = 0
Jarak data ke-i pertama dengan pusat cluster kedua :

d(x1, c2) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐2𝑖 )2 = √(1 − 3)2 + (1 − 8)2 = 7.2801
Jarak data ke-i pertama dengan pusat cluster kedua :

d(x1, c3) = √∑𝑛𝑖=0(𝑥1𝑖 − 𝑐3𝑖 )2 = √(1 − 5)2 + (1 − 3)2 = 4.4721
Hasil perhitungan jarak keseluruhan data dapat dilihat lebih lengkapnya pada Tabel 3 di
bawah ini.
Table 3 Pehitungan data terhadap masing-masing cluster

Jarak ke Centroid
Data Ke-i
1 2 3
1 0 7.28011 4.472136
2 3 7.071068 2.236068
3 5 7.615773 2.236068
4 1 6.324555 4.123106
5 2.236068 5.09902 3
6 4.472136 5.385165 0
7 4.123106 3.162278 3.605551
8 4.472136 3 2.828427
9 5.09902 2.236068 4.242641
10 7.28011 0 5.385165
Langkah 3:
Menetukan cluster dengan jarak terdekat pada masing-masing data. Hasil dari jarak
terdekat pada masing-masing data adalah sebagai berikut.
Table 4 Iterasi I
Jarak ke Centroid
Data Ke-i Terdekat Cluster
1 2 3
1 0 7.28011 4.472136 0 1
2 3 7.071068 2.236068 2.236068 3
3 5 7.615773 2.236068 2.236068 3
4 1 6.324555 4.123106 1 1
5 2.236068 5.09902 3 2.236068 1
6 4.472136 5.385165 0 0 3
7 4.123106 3.162278 3.605551 3.162278 2
8 4.472136 3 2.828427 2.828427 3
9 5.09902 2.236068 4.242641 2.236068 2
10 7.28011 0 5.385165 0 2
Langkah 4:
Langkah selanjutnya adalah menghitung pusat cluster baru. Cluster pertama terdapat 3 data
yaitu data ke 1,4, dan 5. Perhitungannya adalah dengan cara mencari rata-rata dari setiap cluster.
C11 = (1+1+2)/3 = 1,333
C12 = (1+2+3)/3= 2
Sedangkan untuk cluster kedua menggunakan data ke 7, 9, dan 10. Hingga perhitungannya
menjadi seperti berikut.
C21 = (2+2+3)/3 = 2,333
C22 = (5+2+3)/3= 6,333
Sedangkan untuk cluster ketiga menggunakan data ke 2, 3, 6, dan 8. Hingga
perhitungannya menjadi seperti berikut.
C31 = (4+6+5+3)/4 = 4,5
C32 = (1+1+3+5)/4= 2,5
Langkah 5:
Ulangi dari langkah 2 hingga 4, sampai posis data terhadap cluster tidak mengalami
perubahan. Berikut merupakan hasil dari setiap iterasi.
Table 5 Hasil Iterasi 2
Jarak ke Centroid
1 2 3
1 1.054093 5.497474 3.807887 1.054093 1
2 2.848001 5.587685 1.581139 1.581139 3
3 4.772607 6.472163 2.12132 2.12132 3
4 0.333333 4.533824 3.535534 0.333333 1
5 1.20185 3.349959 2.54951 1.20185 1
6 3.800585 4.268749 0.707107 0.707107 3
7 3.073181 1.374369 3.535534 1.374369 2
8 3.431877 1.490712 2.915476 1.490712 2
9 4.055175 0.471405 4.301163 0.471405 2
10 6.227181 1.795055 5.700877 1.795055 2
Jarak ke Centroid
1 2 3
1 1.054093 5.220153 5.656854 1.054093 1
2 2.848001 5.220153 4.123106 2.848001 1
3 4.772607 6.103278 4.123106 4.123106 3
4 0.333333 4.272002 5 0.333333 1
5 1.20185 3.041381 3.605551 1.20185 1
6 3.800585 3.905125 2 2 3
7 3.073181 1.118034 3 1.118034 2
8 3.431877 1.118034 2 1.118034 2
9 4.055175 0.5 3.162278 0.5 2
10 6.227181 2.061553 3.605551 2.061553 2
Data Jarak ke Centroid

Terdekat Cluster
Ke-i 1 2 3
1 1.25 5.220153 4.609772 1.25 1
2 2.136001 5.220153 1.802776 1.802776 3
3 4.069705 6.103278 1.118034 1.118034 3
4 1.030776 4.272002 4.5 1.030776 1
5 1.25 3.041381 3.640055 1.25 1
6 3.25 3.905125 1.118034 1.118034 3
7 3.25 1.118034 4.609772 1.118034 2
8 3.400368 1.118034 3.905125 1.118034 2
9 4.25 0.5 5.315073 0.5 2
10 6.329494 2.061553 6.5 2.061553 2
Jarak ke Centroid
1 2 3
1 1.054093 5.220153 4.055175 1.054093 1
2 2.848001 5.220153 1.20185 1.20185 3
3 4.772607 6.103278 1.20185 1.20185 3
4 0.333333 4.272002 4.013865 0.333333 1
5 1.20185 3.041381 3.282953 1.20185 1
6 3.800585 3.905125 1.333333 1.333333 3
7 3.073181 1.118034 4.484541 1.118034 2
8 3.431877 1.118034 3.887301 1.118034 2
9 4.055175 0.5 5.270463 0.5 2
10 6.227181 2.061553 6.64162 2.061553 2
Karena pada iterasi ke-4 dan ke-5 posisi cluster tidak mengalami perubahan. Maka iterasi
dapat dihentikan dan berikut merupakan hasil akhir yang diperoleh adalah 3 cluster, yaitu sebagai
berikut.
a) Cluster pertama dengan data ke 1,4, dan 5
C11= (1+1+5)/3 = 2,333
C12= (1+2+3)/3 = 2
Cluster pertama memiliki pusat (2,33 ; 2)
b) Clutser kedua dengan data ke 7,8,9, dan 10

C21= (2+3+2+3)/4 = 2,5
C22= (5+5+6+8)/4 = 6
Cluster kedua memiliki pusat (2,5 ; 6)
c) Cluster ketiga dengan data 2,3, dan 6.

C31= (4+6+5)/3 = 5
C32= (1+1+3)/3 = 1,67
Cluster ketiga memiliki pusat (5 ; 1,67)
2. Algoritma K-Modes

Data Mining (K-Means Dan K-Modes)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Data Mining (K-Means Dan K-Modes)

Diunggah oleh

Hak Cipta:

DATA MINING

K-Means dan K-Modes

I MADE RIKEN INDRA PUTERA

PROGRAM STUDI TEKNOLOGI INFORMASI

Table 1 Set data sintetik numerik 2 dimensi

Jarak data ke-i pertama dengan pusat cluster pertama :

Jarak data ke-i pertama dengan pusat cluster kedua :

Jarak data ke-i pertama dengan pusat cluster kedua :

Table 3 Pehitungan data terhadap masing-masing cluster

Table 5 Hasil Iterasi 2

Table 6 Hasil Iterasi 3

Table 7 Hasil Iterasi 4

Data Jarak ke Centroid

Table 8 Hasil Iterasi 5

b) Clutser kedua dengan data ke 7,8,9, dan 10

c) Cluster ketiga dengan data 2,3, dan 6.

Anda mungkin juga menyukai