Anda di halaman 1dari 26

Clustering

yudi@upi.edu
19 des 08
Contoh
Cluster Analysis?
• Cluster: kumpulan objek data
– Anggota cluster yang sama memiliki kemiripan satu sama lain, tetapi
berbeda dengan anggota cluster lain.
• Cluster analysis
– Menemukan kemiripan data berdasarkan karakteristik dan
mengelompokan data yang mirip ke dalam cluster.
• Unsupervised learning: class tidak ditentukan sebelumnya
• Penggunaan
– Tool untuk melihat distribusi data
– Preprocessing untuk langkah berikutnya
Aplikasi Cluster Analysis
• Pengenalan Pola
• Spatial Data Analysis
– Cluster spatial
• Pemrosesan gambar
• Economic Science (terutama market research)
• WWW
– Berita, hasil pencarian
– Cluster Weblog data to discover groups of similar access
patterns
Aplikasi clustering (lanj)
• Marketing: Membantu pihak pemasaran untuk menentukan
grup khusus dan membuat program khusus untuk grup ini.
• Land use: Identifikasi area yang digunakan untuk hal yang
sama.
• Asuransi: Identifikasi grup yang memiliki tingkat claim yang
tinggi.
• Tata kota: Identifikasi rumah-rumah berdasrkan tipe, harga
dan lokasi.
Cluster yang berkualitas:
• Metode yang bagus akan menghasilkan:
– intra-class similarity yang tinggi (anggota di dalam kelas yang
sama mirip)
– low inter-class similarity (anggota di kelas yang lain, jauh
berbeda)

• Kualitas cluter bergantung kepada ukuran kemiripan


yang digunakan oleh metode clustering.
• Kualitas juga ditentukan sejauh mana clustering dapat
menemukan pola tersembunyi.
Ukuran Kesamaan
• Kesamaan/kemiripan diukur berdasarkan fungsi jarak,
d(i, j)
• Definisi distance functions bisanya sangat berbeda untuk
interval-scaled, boolean, categorical, ordinal ratio, and
vector variables.
• Bobot diasosiasikan dengan aplikasi dan arti data.
• Sulit untuk mendefinsikan “cukup sama ” or “cukup
bagus” karena subyektif.
Requirement Clustering
• Scalability  untuk data dalam jumlah besar
• Menangani berbagai macam tipe atribut.
• clusters dengan berbagai bentuk.
• Sesedikit mungkin parameter
• Meanangani noise dan outliers
• Tidak peduli urutan input record
• High dimensionality  banyak atribut
• Incorporation of user-specified constraints
• Interpretability and usability
Struktur Data
• Data matrix
 x11 ... x1f ... x1p 
– (two modes)  
 ... ... ... ... ... 
x ... xif ... xip 
 i1 
 ... ... ... ... ... 
x ... xnf ... xnp 
 n1 

 0 
• Dissimilarity matrix  d(2,1) 0 
 
– (one mode)  d(3,1 ) d ( 3,2) 0 
 
 : : : 
d ( n,1) d ( n,2) ... ... 0
Tipe data dalam clustering

• Interval-scaled variables
• Binary variables  ada atau tidak
• Nominal, ordinal, and ratio variables
• Campuran
Interval Variable

• Standardize data
– Hitung mean absolute deviation:
s f = 1n (| x1 f − m f | + | x2 f − m f | +...+ | xnf − m f |)

m f = 1n (x1 f + x2 f + ... + xnf )


dimana
.

– Hitung standardized measurement (z-score)


xif − m f
zif = sf
Interval Variable (lanj)
• similarity atau dissimilarity antar dua objek: jarak kedua
objek
• Yang populer: Minkowski distance:

d (i, j) = q (| x − x |q + | x − x |q +...+ | x − x |q )
i1 j1 i2 j2 ip jp
q : integer positif

• If q = 1, d is Manhattan distance

d (i, j) =| x − x | + | x − x | +...+ | x − x |
i1 j1 i2 j 2 ip jp
Interval Variable (lanj)
• Jika q = 2, d adalah Euclidean distance:
d (i, j) = (| x − x |2 + | x − x |2 +...+ | x − x | 2 )
i1 j1 i2 j2 ip jp
– Properties
• d(i,j) ≥ 0
• d(i,i) = 0
• d(i,j) = d(j,i)
• d(i,j) ≤ d(i,k) + d(k,j)

• Cara lain: weighted distance, parametric


Pearson product moment correlation
Variabel Binary
Object j
1 0 sum
• A contingency table  1 a b a +b
Object i
0 c d c+d
sum a + c b + d p

• d (i, j) = b +c
Jarak untuk symmetric binary
a +b +c +d
variables:
• Jarak untuk asymmetric binary d (i, j) = b +c
variables: a +b +c
• Jaccard coefficient (similarity
measure untuk asymmetric sim Jaccard (i, j) = a
binary variables): a +b +c
Contoh
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N

•gender is a symmetric attribute


•the remaining attributes are asymmetric binary
•let the values Y and P be set to 1, and the value N be set to 0
0+1
d ( jack , mary ) = = 0.33
2+ 0+1
1+1
d ( jack , jim ) = = 0.67
1+1+1
1+ 2
d ( jim , mary ) = = 0.75
1+1+ 2
Nominal Variabel
• Dapat memiliki > 2 states: red, yellow, blue, green
• Method 1: Simple matching
– m: jumlah cocok, p: jumlah variabel

d (i, j ) = p − m
• p variables
Method 2: banyak binary
– Buat binary variable sebanyak states
Ordinal
• Dapat discrete atau continuous
• Urutan penting: misalnya rank
• Dapat diperlakukan sebagai interval-scaled
– ganti xif dengan peringkat rif ∈{1,..., M f }

– Petakan ke [0, 1] dengan mengganti objek ke i dan


variabel ke f dengan rif −1
zif =
M f −1
– Hitung seperti interval variabel
Ratio-Scaled Variables
• Ratio-scaled variable: nilai positif dengan
skala nonlinear (exponential scale) seperti
AeBt or Ae-Bt
• Cara:
– Gunakan logarithmic transformation
yif = log(xif)
– Pelakukan sebagai continuous ordinal data
Campuran
• Database dapat mengandung semua tipe:
– symmetric binary, asymmetric binary, nominal, ordinal,
interval and ratio
• Gunakan weighted formula untuk
mengkombinasikan semua variabel:

Σ pf = 1δ ij( f ) dij( f )
d (i, j) =
Σ pf = 1δ ij( f )
Pendekatan Clustering
• Partisi :
– Buat partisi dan evaluasi berdasarkan kriteria tertentu, misalnya
meminimalkan sum of square errors
– Metode: k-means, k-medoids, CLARANS
• Hirarkis:
– Buat struktur hierarchical menggunakan kriteria tertentu
– Metode: Diana, Agnes, BIRCH, ROCK, CAMELEON
• Density-based :
– Berdasarkan connectivity dan density functions
– Metode: DBSACN, OPTICS, DenClue
• Yang lain: Grid-based approach, model-based, frequent pattern-based, user-
guided or constraint-based:
Jarak antar cluster
• Single link: jarak terpendek antar elemen di dua cluster dis(Ki, Kj) =
min(tip , tjq )

• Complete link: jarak terjauh antar elemen di dua cluster, i.e.,


dis(Ki, Kj) = max(tip , tjq )

• Average: rata2 jarak i.e., dis(Ki, Kj) = avg(tip , tjq )


• Centroid: jarak antara centroids, i.e., dis(Ki, Kj) = dis(Ci, Cj)
• Medoid: jarak antarta medoids, i.e., dis(Ki, Kj) = dis(Mi, Mj)
– Medoid: elemen yang dipilih dan dianggap merupakan titik tengah cluster
Metode Partisi: K-means
1. Partisi objek ke k nonempty subset
2. Hitung centroid (centroid adalah titik tengah
cluster)
3. Masukkan setiap objek ke cluster dengan
centroid terdekat
4. Kembali ke langkah 2, sampai tidak ada posisi
yang berubah
Contoh K-Means:

10
10
10 9
9
9 8
8
8 7

6 7
7
5 6
6
4 5
5 3
4
4
Assign
2
Update 3
3 1

2 each 0 the 2

cluster
0 1 2 3 4 5 6 7 8 9 10
1
1
objects 0
0
0 1 2 3 4 5 6 7 8 9 10 to means 0 1 2 3 4 5 6 7 8 9 10

most
similar reassign reassign
center 10 10

K=2
9 9

8 8

7 7

Arbitrarily choose 6 6

K object as initial
5 5

4 4

cluster center 3

2
Update 3

1 the 1

cluster
0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

means
K-Medoids
• Kelemahan utama centroid  jika ada
outlier posisi centroid akan terpengaruhi.
• Centroid diganti Modoids  salah satu
data dipilih sebagai titik tengah
Contoh K-Metoid (PAM)
10 10
10
9 9
9
8 8
8
7 7

7
Arbitrar Assign
6 6

6 5 5

5
y 4 each 4

4 choose 3
remaini 3

2 2
3
k object 1
ng 1
2
as 0
0 1 2 3 4 5 6 7 8 9 10
object 0
0 1 2 3 4 5 6 7 8 9 10

initial to
1

0
0 1 2 3 4 5 6 7 8 9 10
medoid nearest
s medoid
K=2 s Randomly select a
Total Cost = 26 nonmedoid
object,Oramdom
10 10

Do loop 9

8 Compute
9

8
Swapping 7 total cost 7

Until no O and 6
of 6

Oramdom
change
5 5

4
swapping 4

If quality is 3

2
3

improved. 1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Anda mungkin juga menyukai