Clustering

1.
Definisi :
Clustering
adalah
suatu
metode
pengelompokan
berdasarkan
ukuran
kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompok

yang sama,kondisinya kalau tidak ya pasti bukan kelompoknya.Tetapi kalau cluster
tidak harus sama akan tetapi pengelompokannya berdasarkan pada kedekatan dari
suatu karakteristik sample yang ada, salah satunya dengan menggunakan rumus
jarak ecluidean.Aplikasinya cluster ini sangat banyak, karena hamper dalam
mengidentifikasi permasalahan atau pengambilan keputusan selalu tidak sama
persis akan tetapi cenderung memiliki kemiripan saja.
2.Manfaat
Identifikasi obyek (Recognition) :

Dalam bidang mage Processing , Computer Vision atau robot vision
Decission Support System dan data mining

Segmentasi pasar, pemetaan wilayah, Manajemen marketing dll.
3. Prinsip dasar :
Similarity Measures (ukuran kedekatan)
Distances dan Similarity Coeficients untuk beberapa sepasang dari item

Ecluidean Distance:
d ( x, y ) ( x1 y1 ) 2 ( x2 y2 ) 2 ... ( x p y p ) 2
Atau :
d ( x, y )
| x
i 1
1/ 2
yi |
2
KLASIFIKASI
Clustering algoritma dapat diklasifikasikan sebagai berikut:
1
Exclusive Clustering
o
Data dikelompokkan ke dalam suatu cara yang eksklusif, sehingga jika suatu
fakta milik suatu cluster maka tidak dapat dipakai (menjadi anggota) di cluster
lain
Overlapping Clustering
o
Menggunakan fuzzy set untuk cluster data sehingga titik kemungkinan

memiliki dua atau lebih kelompok yang berbeda sesuai derajat
keanggotaannya. Dalam hal ini data akan dihubungkan dengan nilai
keanggotaannya.
Hierarchical Clustering
o
Didasarkan pada kesatuan antara dua kelompok terdekat. Permulaan kondisi

diwujudkan dengan menetapkan setiap datum sebagai cluster. Setelah
beberapa iterasi mencapai final kelompok yang diinginkan.
Probabilistic Clustering
o
Sepenuhnya menggunakan pendekatan probabilistic
K-Means
K-Means algoritma merupakan algoritma untuk cluster n objek berdasarkan atribut menjadi k
partisi, dimana k < n. Gambar berikut ini menunjukkan k-means clustering algoritma dalam
tindakan, untuk kasus dua dimensi. Pusat awal yang dihasilkan secara acak untuk
menunjukkan tahapan lebih rinci. Background ruang partisi hanya untuk ilustrasi dan tidak
dihasilkan oleh algoritma k-means.
Kelemahan dari K-Means Clustering
K-means clustering memiliki banyak kelemahan, antara lain:
Bila jumlah data tidak terlalu banyak, mudah untuk menentukan cluster awal.
Jumlah cluster, sebanyak K, harus ditentukan sebelum dilakukan perhitungan.
tidak pernah mengetahui real cluster dengan menggunakan data yang sama, namun
jika dimasukkan dengan cara yang berbeda mungkin dapat memproduksi cluster yang
berbeda jika jumlah datanya sedikit.
tidak tahu kontribusi dari atribut dalam proses pengelompokan karena dianggap
bahwa setiap atribut memiliki bobot yang sama.
Algoritma K-Means Clustering

1
Menentukan jumlah cluster
Menentukan nilai centroid

Jika nilai centroid merupakan awal iterasi, maka nilai awal centroid dilakukan
secara acak. Sedangkan jika nilai centroid merupakan tahap dari iterasi,
maka digunakan rumus rata-rata centroid, yaitu
vij
1
Ni
Ni
x
k 0
kj
, dimana N = jumlah anggota cluster

3
Menghitung jarak antara titik centroid dengan titik tiap objek
De =
Menggunakan
Euclidean
Distance
xi si
yi ti
dimana
adalah banyaknya objek, (x,y) merupakan koordinat object dan (s,t)

merupakan koordinat centroid.
4
Pengelompokan object
Untuk menentukan anggota cluster adalah dengan memperhitungkan jarak
minimum objek dalam tiap cluster yang disimbolkan dengan angka 1.
Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan

tetap dan anggota cluster tidak berpindah ke cluster lain.
Flowchart K-Means Clustering

Clustering

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Clustering

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

kedekatan(kemiripan).Clustering beda dengan group, kalau group berarti kelompok

Identifikasi obyek (Recognition) :

Decission Support System dan data mining

Similarity Measures (ukuran kedekatan)

Distances dan Similarity Coeficients untuk beberapa sepasang dari item

Menggunakan fuzzy set untuk cluster data sehingga titik kemungkinan

Didasarkan pada kesatuan antara dua kelompok terdekat. Permulaan kondisi

Sepenuhnya menggunakan pendekatan probabilistic

Jumlah cluster, sebanyak K, harus ditentukan sebelum dilakukan perhitungan.

Algoritma K-Means Clustering

Menentukan jumlah cluster

Menentukan nilai centroid

, dimana N = jumlah anggota cluster

Menghitung jarak antara titik centroid dengan titik tiap objek

adalah banyaknya objek, (x,y) merupakan koordinat object dan (s,t)

Kembali ke tahap 2, lakukan perulangan hingga nilai centroid yang dihasilkan

Flowchart K-Means Clustering

Anda mungkin juga menyukai