Anda di halaman 1dari 23

CLUSTER ANALYSIS

Sutikno
Departemen Statistika
Fakultas Matematika dan Ilmu Pengetahuan Alam ITS
sutikno@statistika.its.ac.id; tikno@yahoo.com
085230203017
Outline

• Pengertian Metode Clustering


• Klasifikasi Metode Clustering
• Tahapan metode clustering
Apa itu Analisis Cluster ?
• Analisis kelompok adalah suatu metode yang digunakan untuk
mengelompokkan objek-objek pengamatan (observasi) menjadi
beberapa kelompok berdasarkan karakteristik yang dimiliki
dengan ciri-ciri tertentu yang relatif homogen, sehingga objek
dalam kelompok memiliki kesamaan yang sama, sedangkan
objek antar kelompok tidak memiliki kesamaan (Johnson &
Wichern, 2007).
Konsep Analisis Cluster

Kelompok yang baik adalah


kelompok yang mempunyai:
• Homogenitas (kesamaan) yang
tinggi antara anggota dalam satu
kelompok (within cluster)
• Heterogenitas (perbedaan) yang
tinggi antara kelompok yang satu
dengan kelompok yang lain
(between cluster)

Homogen
Heterogen

7
Tahapan Umum Cluster Analysis
Analisis Kelompok
Klasifikasi Cluster (Cluster Analysis)
Analysis
Pengelompokan Pengelompokan Pengelompokan
Data Numerik Data Kategorik Data Campuran

Hierarki Hierarki Ensembel


Non-
Hierarki: K-
Mean
Divisive Agglomerative

Single
linkage
Hierarki: jumlah kelompok belum diketahui
Non-Hierarki: jumlah kelompok sudah diketahui Complete
linkage

Average
linkage

Ward

7
Pendekatan Hierarchical Clustering (Khusus tipe data metric: numerik)
Ukuran Kemiripan dan Ketidakmiripan

• Algoritma pengelompokan menggunakan ukuran kemiripan atau


ketidakmiripan digunakan untuk menggabungkan atau memisahkan objek
dari suatu kelompok.
• Ukuran kemiripan biasanya digunakan oleh algoritma pengelompokan untuk
menganalisis data kategori, sedangkan ukuran ketidakmiripan digunakan oleh
algoritma pengelompokan untuk menganalisis data numerik.
• Ukuran ketidakmiripan antara objek ke-i dengan objek ke-j (dij), merupakan
fungsi (jarak) yang memiliki sifat-sifat sebagai berikut:
• dij ≥ 0, dii = 0,

• dij = dji, dan

• dik + djk ≥ dij , untuk setiap i, j dan k.

• Semakin besar nilai ukuran ketidakmiripan antara dua objek maka semakin
besar pula perbedaan antara kedua objek tersebut, sehingga makin cenderung
untuk tidak berada dalam kelompok yang sama.
Ukuran Kemiripan dan Ketidakmiripan
Dendogram
1.

Tahapan Hierarchical Clustering

1. Mulai dengan N kelompok, setiap kelompok mengandung objek


tunggal dan sebuah matriks simetrik dari jarak D = {dik}.
2. Cari matriks jarak untuk pasangan kelompok yang terdekat (paling
mirip). Misalkan jarak antara kelompok U dan V yang paling mirip
adalah duv.
3. Gabungkan kelompok U dan V. Label kelompok yang baru dibentuk
dengan (UV). Membuat matrik jarak baru dengan cara :
• Hapus baris dan kolom yang bersesuaian dengan kelompok U dan V
• Tambahkan baris dan kolom yang memberikan jarak-jarak antara kelompok
(UV) dan kelompok-kelompok yang tersisa.

4. Ulangi langkah 2 dan 3 sebanyak (N-1) kali. (Semua objek akan


berada dalam kelompok tunggal setelah algoritma berakhir).
Cluster Hierarki: Pengabungan antar Kelompok
Single Linkage
Prosedur ini didasarkan pada jarak terkecil atau jarak terdekat. Jika dua objek terpisah oleh jarak yang
pendek maka kedua objek tersebut digabung menjadi satu kelompok daan demikian saterusnya.
Ukuran jarak yang digunakan adalah

d w ( u ,v )  min(d wu , d wv )

5
1
3
0.2
5
2 1 0.15
2 3 6
0.1

4
4 0.05

0
3 6 2 5 4 1

Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Single Linkage
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3

OBJECT1 Distance matrix


OBJECT2
Distance (d) Cluster
OBJECT3
0 1,2,3,4,5
OBJECT4
2 (1, 2), 3, 4, 5
OBJECT5 3 (1, 2), 3, (4, 5)
0 1 2 3 4 5 6
Distances 4 (1, 2), (3, 4, 5)
5 (1, 2, 3, 4, 5)
Cluster Hierarki
Complete Linkage
Prosedur ini pengelompokannya berdasarkan jarak terbesar atau jarak terjauh, berlawanan dengan single
linkage.
Ukuran jarak yang digunakan adalah

d w ( u ,v )  max(d wu , d wv )

0.4
4 1
0.35
2 5
0.3
5
MAX 2 0.25

3 6 0.2
3
1 0.15

4 0.1

0.05

0
3 6 4 1 2 5

Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Complete Linkage
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1

OBJECT2 Distance Cluster


OBJECT3 0 1,2,3,4,5
OBJECT4 2 (1, 2), 3, 4, 5
OBJECT5 3 (1, 2), 3, (4, 5)
0 2 4 6
Distances
8 10 12
5 (1, 2), (3, 4, 5)
10 (1, 2, 3, 4, 5)
Cluster Hierarki
Average Linkage
prosedure ini hampir sama dengan single linkage maupun complete linkage, namun kriteria yang
digunakan adalah rata-rata jarak seluruh individu dalam suatu kelompok dengan jarak seluruh individu
dalam kelompok yang lain. Dengan dan merupakan jumlah pengamatan dalam kelompok ke-u dan ke-v.
Ukuran jarak yang digunakan adalah

nu nv
d w( u ,v )  d wu  d wv
nu  nv nu  nv

0.4
5
1 0.35

2 0.3

5 0.25
2
0.2
3 6 0.15
3
4 1 0.1
4
0.05

0
3 6 4 1 2 5

Dendrogram
Cluster Hierarki
Object 1 2 3 4 5
1
Average Linkage 2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1

OBJECT2
Distance Cluster
OBJECT3
0 1,2,3,4,5
OBJECT4
2 (1, 2), 3, 4, 5
OBJECT5
3 (1, 2), 3, (4, 5)
0 1 2 3 4 5 6 7 8
Distances 4.5 (1, 2), (3, 4, 5)
7.8 (1, 2, 3, 4, 5)
Cluster Hierarki
Object 1 2 3 4 5
1
Centroid
2 2
3 6 5
4 10 9 4
Cluster Tree 5 9 8 5 3
Distance matrix
OBJECT1

OBJECT2
Distance Cluster
OBJECT3 0 1,2,3,4,5
OBJECT4 2 (1, 2), 3, 4, 5
OBJECT5 3 (1, 2), 3, (4, 5)
0 1 2 3 4
Distances
5 6 7
3.75 (1, 2), (3, 4, 5)
6.00 (1, 2, 3, 4, 5)
Cluster Hierarki Object 1 2 3 4 5
1
Ward 2 2
3 6 5
4 10 9 4
Cluster Tree
5 9 8 5 3

OBJECT1 Distance matrix

OBJECT2
Distance Cluster
OBJECT3
0 1,2,3,4,5
OBJECT4
2 (1, 2), 3, 4, 5
OBJECT5
3 (1, 2), 3, (4, 5)
0 5 10 15
Distances 5 (1, 2), (3, 4, 5)
14.4 (1, 2, 3, 4, 5)
Pendekatan K-Mean Clustering (1)
Pendekatan K-Mean Clustering (2)
Pendekatan K-Mean Clustering (3)
Kinerja Hasil Pengelompokan

1 C
“ Kinerja suatu metode S w   Sc
pengelompokan akan
C c 1
semakin baik jika semakin Simpangan baku kelompok ke-c
kecil rasio antara SW dan
Simpangan baku dalam kelompok
SB, yang berarti bahwa
1/ 2
terdapat homogenitas  1 C
2

maksimum dalam
SB   
 C  1 c 1
 c 
x  x

kelompok dan
heterogenitas maksimum Rata-rata kelompok ke-c
antar kelompok ” Simpangan baku Rata-rata
(Bunkers dan James, 1996) antar kelompok total

Anda mungkin juga menyukai