Clustering Menggunakan K Means Algorithm PDF
Clustering Menggunakan K Means Algorithm PDF
Abstract
Classification is the process of organizing object into groups whose members are similar
in same way and a part of pattern recognition. Two kind of classification is supervised
classification and unsupervised classification. K-Means is a type of unsupervised classification
method which partitions data items into one or more clusters. K-Means tries to model a dataset
into clusters so that data items in a cluster have similar characteristic and have different
characteristics from the other clusters.
Gambar 1. Beberapa cluster dari clustering criterion. Gambar (a) kelompok cara binatang
membawa keturunannya, Gambar (b) kelompok paru-paru binatang
Clustering dapat dianggap yang paling merupakan "proses mengatur objek menjadi
penting dalam masalah unsupervised learning, anggota kelompok yang hampir sama dalam
karena setiap masalah semacam ini, ia beberapa cara”. Sebuah cluster merupakan
berurusan dengan mencari struktur dalam kumpulan objek-objek yang "sama" di antara
kumpulan yang tidak diketahui datanya. mereka dan "berbeda" pada objek dari cluster
Sehingga dapat didefinisikan bahwa clustering lainnya.
memiliki dua atau lebih kelompok Terdapat empat algoritma yang paling sering
yang berbeda sesuai derajat digunakan dalam clustering, yaitu:
keanggotaannya. Dalam hal ini data • K-means (exclusive clustering)
akan dihubungkan dengan nilai • Fuzzy C-means (overlapping clustering)
keanggotaannya. • Hierarchical clustering
3. Hierarchical Clustering • Mixture of Gaussians (probabilistic
o Didasarkan pada kesatuan antara clustering)
dua kelompok terdekat. Permulaan IV. K-MEANS
kondisi diwujudkan dengan K-Means merupakan algoritma untuk cluster n
menetapkan setiap datum sebagai objek berdasarkan atribut menjadi k partisi,
cluster. Setelah beberapa iterasi dimana k < n. Gambar berikut ini
mencapai final kelompok yang menunjukkan k-means clustering algoritma
diinginkan. dalam tindakan, untuk kasus dua dimensi.
4. Probabilistic Clustering Pusat awal yang dihasilkan secara acak untuk
o Sepenuhnya menggunakan menunjukkan tahapan lebih rinci. Background
pendekatan probabilistic ruang partisi hanya untuk ilustrasi dan tidak
dihasilkan oleh algoritma k-means.
iterasi, maka digunakan rumus sebagai i adalah banyaknya objek,
berikut (x,y) merupakan koordinat object dan
1 Ni (s,t) merupakan koordinat centroid.
vij =
Ni
∑x
k =0
kj , 4. Pengelompokan object
Untuk menentukan anggota cluster
dimana : adalah dengan memperhitungkan jarak
vij adalah centroid/ rata-rata cluster ke-I minimum objek. Nilai yang diperoleh
untuk variable ke-j dalam keanggotaan data pada distance
Ni adalah jumlah data yang menjadi matriks adalah 0 atau 1, dimana nilai 1
anggota cluster ke-i untuk data yang dialokasikan ke cluster
i,k adalah indeks dari cluster dan nilai 0 untuk data yang dialokasikan
j adalah indeks dari variabel ke cluster yang lain.
xkj adalah nilai data ke-k yang ada di 5. Kembali ke tahap 2, lakukan perulangan
dalam cluster tersebut untuk variable ke-j hingga nilai centroid yang dihasilkan tetap
3. Menghitung jarak antara titik centroid dan anggota cluster tidak berpindah ke
dengan titik tiap objek cluster lain.
Untuk menghitung jarak tersebut dapat
menggunakan Euclidean Distance, yaitu Flowchart K-Means Clustering
Berikut penggambaran algoritma k-means
( xi − si ) + ( yi − ti )
2 2
De = clustering menggunakan flowchart :
,
dimana :
De adalah Euclidean Distance
V. Kasus :
Misalnya kita memiliki 4 objek sebagai titik data pelatihan dan setiap obyek memiliki 2 atribut .
Tiap atribut mewakili koordinat dari objek, yaitu
Objek Atribut 1 (X): bobot indeks
Objek Atribut 2 (Y): pH
Tabel 1. Data Kasus
Object Atribut 1 (X) : Atribut 2 (Y) :
bobot index pH
Medicine A 1 1
Medicine B 2 1
Medicine C 4 3
Medicine D 5 4
Gambar 5. Iteration 0
Berikut adalah cara untuk menghitung 4. Pengelompokan Object.
distance dari tiap object : Setelah menghitung distance matriks, kita
• Medicine A = (1,1) dengan C1=(1, 1) menentukan anggota cluster menurut jarak
minimum dari centroid. Dengan merujuk
Æ= (1 − 1) + (1 − 1) =0
2 2
pada distance matriks, medicine A termasuk
dengan C2=(2,1) cluster 1, sedangkan medicine B, C dan D
termasuk cluster 2. Hal ini dapat dilihat pada
Æ= (1 − 2 ) + (1 − 1) =1
2 2
⎛1 0 0 0⎞ Æ Cluster 1
dengan C2=(2,1) G0 = ⎜ ⎟ Æ Cluster 2
⎝0 1 1 1⎠
Æ= ( 2 − 2 ) + (1 − 1) =0
2 2
Gambar 6. Iteration 1
6. Iterasi 1, menghitung jarak antara titik
A B C D
centroid baru dengan tiap titik object.
Pada tahap menghitung jarak antara ⎛1 1 0 0⎞ Æ Cluster 1
object dengan centroid baru. Hal ini G1 = ⎜ ⎟ Æ Cluster 2
hampir sama dengan tahap 3, yaitu ⎝0 0 1 1⎠
menghitung jarak dengan C2
8. Iterasi 2, menentukan centroid baru.
⎛ 11 8 ⎞
C2 = ⎜ , ⎟ Tahap ini mengulang kembali tahap 5,
⎝ 3 3⎠ yaitu menghitung centroid baru. Dari
Dengan cara perhitungan yang sama cluster 1 yang mempunyai 2 anggota
pada tahap 3, maka diperoleh distance yaitu medicine A dan B, dan cluster 2
matriksnya, yaitu yang mempunyai 2 anggota yaitu
medicine C dan D, maka hasil centroid
A B C D baru yang diperoleh adalah :
⎛ 0 1 3.61 5 ⎞ Æ C1 = (1,1) ⎛ 1+ 2 1+1 ⎞
D1 = ⎜ C1 = ⎜ , ⎟
⎟ Æ ⎛ 11 8 ⎞ ⎝ 2 2 ⎠
⎝ 3.14 2.36 0.47 1.89 ⎠ C2 = ⎜ , ⎟
⎝ 3 3⎠
⎛3 ⎞
C1 = ⎜ ,1⎟
7. Iterasi 1, melakukan pengelompokan ⎝2 ⎠
object
⎛ 4+5 3+ 4 ⎞
Hampir sama dengan tahap 4, yaitu C2 = ⎜ , ⎟
menentukan anggota cluster dengan ⎝ 2 2 ⎠
menghitung jarak minimum tiap object ⎛9 7⎞
C2 = ⎜ , ⎟
dengan centroid baru. Hasil yang ⎝2 2⎠
diperoleh :
Gambar 7. Iteration 2
Dengan cara perhitungan yang sama Berdasarkan hasil anggota cluster yang
pada tahap 3, maka diperoleh distance diperoleh tetap sama antara G1 = G2,
matriksnya, yaitu maka iterasi dihentikan.
A B C D
VI. KESIMPULAN
⎛ 0.5 0.5 3.20 4.61⎞ Æ C1 = ⎛⎜ 3 ,1⎞⎟
Dari 4 objek yang digunakan dalam kasus
D2 = ⎜ ⎟ ⎝2 ⎠
tersebut, dapat disimpulkan bahwa :
⎝ 4.30 3.54 0.71 0.71⎠ Æ C 2 = ⎛⎜ 9 , 7 ⎞⎟ 1. K-means Algoritma merupakan
⎝2 2⎠
algoritma yang sederhana
10. Iterasi 2, melakukan pengelompokan
2. K-means clustering mampu
object menyelesaikan permasalahan yang ada
Hampir sama dengan tahap 4, yaitu 3. Terdapat 2 cluster yang dihasilkan,
menentukan anggota cluster dengan untuk cluster 1 mempunyai anggota
menghitung jarak minimum tiap object medicine A dan B, sedangkan cluster 2
dengan centroid baru yang telah mempunyai anggota C dan D
dihasilkan. Hasil yang diperoleh :
A B C D
Untuk hasil yang diperoleh, dapat dilihat
⎛1 1 0 0⎞ Æ Cluster 1 pada table berikut.
G =⎜2
⎟ Æ Cluster 2
⎝0 0 1 1⎠