Cluster Analysis
Cluster Analysis
Sutikno
Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam ITS
sutikno@statistika.its.ac.id; tikno@yahoo.com
085230203017
Outline
Homogen
Heterogen
7
Tahapan Umum Cluster Analysis
Analisis Kelompok
Klasifikasi Cluster (Cluster Analysis)
Analysis
Pengelompokan Pengelompokan Pengelompokan
Data Numerik Data Kategorik Data Campuran
Single
linkage
Hierarki: jumlah kelompok belum diketahui
Non-Hierarki: jumlah kelompok sudah diketahui Complete
linkage
Average
linkage
Ward
7
Pendekatan Hierarchical Clustering (Khusus tipe data metric: numerik)
Ukuran Kemiripan dan Ketidakmiripan
• Semakin besar nilai ukuran ketidakmiripan antara dua objek maka semakin
besar pula perbedaan antara kedua objek tersebut, sehingga makin cenderung
untuk tidak berada dalam kelompok yang sama.
Ukuran Kemiripan dan Ketidakmiripan
Dendogram
1.
d w ( u ,v ) min(d wu , d wv )
5
1
3
0.2
5
2 1 0.15
2 3 6
0.1
4
4 0.05
0
3 6 2 5 4 1
Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Single Linkage
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
d w ( u ,v ) max(d wu , d wv )
0.4
4 1
0.35
2 5
0.3
5
MAX 2 0.25
3 6 0.2
3
1 0.15
4 0.1
0.05
0
3 6 4 1 2 5
Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Complete Linkage
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1
nu nv
d w( u ,v ) d wu d wv
nu nv nu nv
0.4
5
1 0.35
2 0.3
5 0.25
2
0.2
3 6 0.15
3
4 1 0.1
4
0.05
0
3 6 4 1 2 5
Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Average Linkage 2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1
OBJECT2
Distance Cluster
OBJECT3
0 1,2,3,4,5
OBJECT4
2 (1, 2), 3, 4, 5
OBJECT5
3 (1, 2), 3, (4, 5)
0 1 2 3 4 5 6 7 8
Distances 4.5 (1, 2), (3, 4, 5)
7.8 (1, 2, 3, 4, 5)
Cluster Hierarki
Object 1 2 3 4 5
1
Centroid
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1
OBJECT2
Distance Cluster
OBJECT3 0 1,2,3,4,5
OBJECT4 2 (1, 2), 3, 4, 5
OBJECT5 3 (1, 2), 3, (4, 5)
0 1 2 3 4
Distances
5 6 7
3.75 (1, 2), (3, 4, 5)
6.00 (1, 2, 3, 4, 5)
Cluster Hierarki Object 1 2 3 4 5
1
Ward 2 2
3 6 5
4 10 9 4
Cluster Tree
5 9 8 5 3
OBJECT2
Distance Cluster
OBJECT3
0 1,2,3,4,5
OBJECT4
2 (1, 2), 3, 4, 5
OBJECT5
3 (1, 2), 3, (4, 5)
0 5 10 15
Distances 5 (1, 2), (3, 4, 5)
14.4 (1, 2, 3, 4, 5)
Pendekatan K-Mean Clustering (1)
Pendekatan K-Mean Clustering (2)
Pendekatan K-Mean Clustering (3)
Kinerja Hasil Pengelompokan
1 C
“ Kinerja suatu metode S w Sc
pengelompokan akan
C c 1
semakin baik jika semakin Simpangan baku kelompok ke-c
kecil rasio antara SW dan
Simpangan baku dalam kelompok
SB, yang berarti bahwa
1/ 2
terdapat homogenitas 1 C
2
maksimum dalam
SB
C 1 c 1
c
x x
kelompok dan
heterogenitas maksimum Rata-rata kelompok ke-c
antar kelompok ” Simpangan baku Rata-rata
(Bunkers dan James, 1996) antar kelompok total