Materi8 Dan 9 Analisis Cluster K-Mean
Materi8 Dan 9 Analisis Cluster K-Mean
K-MEAN
Analisis cluster merupakan salah satu teknik
data mining yang bertujuan untuk
mengidentifikasi sekelompok obyek yang
mempunyai kemiripan karakteristik tertentu,
yang dapat dipisahkan dengan kelompok
obyek lainnya,
Sehingga obyek yang berada dalam
kelompok yang sama relatif lebih homogen
daripada obyek yang berada pada kelompok
yang berbeda.
Contoh penggunaan analisis cluster
1. Identifikasi obyek (Recognition) :
Dalam bidang image Processing , Computer Vision
atau robot vision
2. Decission Support System dan data mining
• Membuat segmen pasar (segmenting the market).
• Memahami perilaku pembeli.
• Mengenali peluang produk baru
Di dalam analisis cluster kita ingin
menggerombolkan/mengklasterkan dari
sekelompok obyek. Sedemikian sehingga obyek-
obyek dalam klaster yang sama lebih mirip
dibandingkan dengan obyek-obyek dalam klaster
yang lain.
Hasil dari analisis klaster dipengaruhi oleh :
obyek yang diklasterkan, peubah yang diamati,
ukuran kemiripan (jarak) rang dipakai, skala
ukuran yang dipakai, serta metode pengklasteran
yang digunakan.
Secara umum metode pengklasteran dapat
diklasifikasikan sesuai diagram berikut :
Algoritma Cluster
Dua metode paling umum dalam algoritma cluster
adalah metode hirarkhi dan metode non hirarkhi.
Keuntungan metode hirarkhi adalah cepat dalam
proses pengolahan sehingga menghemat waktu,
namun kelemahannya metode ini dapat menimbulkan
kesalahan. Selain itu tidak baik diterapkan untuk
menganalisis sampel dengan ukuran besar.
Metode Non Hirarkhi memiliki keuntungan lebih
daripada metode hirarkhi. Hasilnya memiliki sedikit
kelemahan pada data outlier, ukuran jarak yang
digunakan, dan termasuk variabel tak relevan atau
variabel yang tidak tepat.
METODE HIRARKI
Teknik hirarki (hierarchical methods) adalah teknik clustering
membentuk kontruksi hirarki atau berdasarkan tingkatan tertentu
seperti struktur pohon (struktur pertandingan).
Dengan demikian proses pengelompokkannya dilakukan secara
bertingkat atau bertahap. Hasil dari pengelompokan ini dapat
disajikan dalam bentuk dendogram. Metode-metode yang
digunakan dalam teknik hirarki
Hal penting dalam metode hirarkhi adalah bahwa hasil pada tahap
sebelumnya selalu bersarang di dalam hasil pada tahap berikutnya,
membentuk sebuah pohon.
Ada 2 macam metode hirarkikal:
1. Agglomerative Methods. Metode ini dimulai
dengan kenyatan bahwa setiap obyek
membentuk clusternya masing-masing.
Kemudian dua obyek dengan jarak terdekat
bergabung. Selanjutnya obyek ketiga akan
bergabung dengan cluster yang ada atau
bersama obyek lain dan membentuk cluster
baru. Hal ini tetap memperhitungkan jarak
kedekatan antar obyek. Proses akan berlanjut
hingga akhirnya terbentuk satu cluster yang
terdiri dari keseluruhan obyek.
2. Divisive Methods. Metode ini diawali
dengan satu cluster besar yang mencakup
semua observasi (obyek). Selanjutnya
obyek yang mempunyai ketidakmiripan
yang cukup besar akan dipisahkan
sehingga membentuk cluster yang lebih
kecil. Pemisahan ini dilanjutkan sehingga
mencapai sejumlah cluster yang
diinginkan.
METODE NON-HIRARKIKAL
Berbeda dengan metode hirarkikal,
prosedur non hirarkikal (K-means
Clustering) dimulai dengan memilih
sejumlah nilai cluster awal sesuai dengan
jumlah yang diinginkan dan kemudian
obyek digabungkan ke dalam cluster-
cluster tersebut.
K-Means Clustering
K-Means merupakan salah satu metode pengelompokan data non
hirarki yang digunakan untuk mempartisi N objek data ke dalam K
kelompok.
Setiap kelompok data memiliki jarak terdekat dengan centroidnya
masing-masing.
Algoritma K-Means :
1. Tentukan jumlah cluster/kelompok.
2. Alokasikan data ke dalam kelompok secara acak.
3. Hitung pusat cluster dari data yang ada di masing-masing cluster.
4. Alokasikan masing-masing data ke centroid terdekat.
5. Kembali ke langkah 3, jika masih ada data yang berpindah cluster atau
ada perubahan nilai centroid di atas nilai ambang/Threshold yang
ditentukan, atau jika perubahan nilai pada fungsi objektif masih di atas
nilai ambang atau dengan batasan iterasi max.
6. Selesai.
K-Means Clustering
Menentukan Centroid (Titik Pusat) setiap kelompok diambil dari nilai rata-
rata (Means) semua nilai data pada setiap fiturnya. Jika M menyatakan
jumlah data pada suatu kelompok, i menyatakan fitur ke-i dalam sebuah
kelompok, berikut rumus untuk menghitung centroid :
M
1
Ci
M
x
j
j
1
Hitung jarak titik terdekat (Euclidean Distance):
p
Dx2, x 1 x
2
2j x1 j
j
1
Pengalokasian keanggotaan titik : • Fungsi Objektif
: N K
1 , d min( D(x j, C i))
a ji F a ji D(x j , Ci )
0 , j 1 i1
lainnya
Studi Kasus
Perhatikan dataset berikut :
Data Fitur x Fitur y Kelompok 1 Kelompok 2 Kelompok 3
1 1 1 *
Inisialisasi :
2 4 1 *
3 6 1 * K = 3,
4 1 2 * Fungsi Objektif (F) = 0,
5 2 3 * Threshold (T) = 0.8, dan
6 5 3 *
7 2 5 *
Data dicluster
8 3 5 * sebanyak K secara
9 2 6 * random.
10 3 8 *
Tentukan Hasil Akhir
Bentuk Visualisasi data : Clusteringnya !
Menghitung Centroid Setiap Cluster :
Data Fx Fy K1 K2 K3 K1Fx K1Fy K2Fx K2Fy K3Fx K3Fy
1 1 1 * 1 1
2 4 1 * 4 1
3 6 1 * 6 1
4 1 2 * 1 2
5 2 3 * 2 3
6 5 3 * 5 3
7 2 5 * 2 5
8 3 5 * 3 5
9 2 6 * 2 6
10 3 8 * 3 8
Total 2 5 3 2 3 21 18 6 14
Sehingga, F baru = 1 + 7 + 8 = 16
Delta = | F baru – F lama | = | 16 – 0 | = 16 ( > T) , Lanjutkan !
Iterasi 1 : (Mengalokasikan Setiap Data Pada Centroid Terdekat)
Data Fx Fy K1 K2 K3 Jarak Ke C 1 Jarak Ke C 2 Jarak Ke C 3 Min Kelompok Baru
1 1 1 * 0.5000 4.1231 3.8006 0.5000 1
2 4 1 * 3.0414 2.6077 4.1767 2.6077 2
3 6 1 * 5.0249 3.1623 5.4263 3.1623 2
4 1 2 * 0.5000 3.5777 2.8480 0.5000 1
5 2 3 * 1.8028 2.2804 1.6667 1.6667 3
6 5 3 * 4.2720 1.0000 3.4319 1.0000 2
7 2 5 * 3.6401 2.6077 0.3333 0.3333 3
8 3 5 * 4.0311 1.8439 1.0541 1.0541 3
9 2 6 * 4.6098 3.2558 1.3333 1.3333 3
10 3 8 * 6.8007 4.5607 3.4801 3.4801 3
Total 2 3 5 1.0000 13.1746 3.3333
Menghitung Centroid Setiap Cluster :
Data Fx Fy K1 K2 K3 K1Fx K1Fy K2Fx K2Fy K3Fx K3Fy
1 1 1 * 1 1
2 4 1 * 4 1
3 6 1 * 6 1
4 1 2 * 1 2
5 2 3 * 2 3
6 5 3 * 5 3
7 2 5 * 2 5
8 3 5 * 3 5
9 2 6 * 2 6
10 3 8 * 3 8
Total 2 3 5 2 3 15 5 12 27
8 3 5 * 3 5
9 2 6 * 2 6
10 3 8 * 3 8
Total 3 3 4 4 6 15 5 10 24