Analisis Klaster
S1 Teknik Informatika
Fakultas Teknologi Informasi
Universitas Kristen Maranatha
Agenda
Klastering
Klastering mempartisi
Klastering hirarki
01/11/2014
Klastering
Klaster:
Analisis klaster
Klastering
01/11/2014
01/11/2014
Matriks Data
Menyatakan n object,
misal orang, dengan p
variable (= pengukuran
atau atribut) mis. umur,
tinggi, berat, gender,
ras, dll.
x11
...
x
i1
...
x
n1
... x1p
... ...
... xip
... ...
... xnp
... x1f
... ...
...
xif
...
...
... xnf
Matriks Ketidaksamaan
Menyimpan sekumpulan
kedekatan yang tersedia
untuk seluruh pasangan n
object.
Direpresentasikan dalam
bentuk tabel nxn, dimana
d(i,j) adalah perbedaan atau
ketidaksamaan antara
obyek i dan j. Semakin
dekat d(i,j) dengan 0,
berarti obyek i dan j
semakin dekat.
d(2,1)
d(3,1) d(3,2)
d(n,1) d(n,2)
...
...
01/11/2014
Variabel biner
Variabel nominal
Variabel ordinal
01/11/2014
1.
2.
xif mf
Zif =
sf
11
Jarak Euclidean
Jarak Manhattan
Jarak Minkowski
12
01/11/2014
Jarak Euclidean
d(i,j) =
i = (xi1,xi2,,xip)
j= (xj1,xj2,,xjp)
13
i = (xi1,xi2,,xip)
j= (xj1,xj2,,xjp)
14
01/11/2014
Jarak Minkowski
q : integer positif.
Menyatakan jarak Manhattan jika q = 1
Menyatakan jarak Euclidean jika q = 2
15
01/11/2014
Variabel Biner
Variabel biner jika diperlakukan seperti intervalscale variable hasil klaster salah.
17
Variabel Biner
Menghitung
ketidaksamaan:
object j
Matrik ketidaksamaan
untuk variabel biner
yang berbobot sama.
object i
jml
q+r
s+t
jml
q+s
r+t
p
18
01/11/2014
Variabel Biner
19
Variabel Biner
r+s
d(i,j) = -----------q+r+s
20
10
01/11/2014
Variabel Biner
name
gender
fever
cough
test-1
test-2
test-3
test-4
Jack
Mary
Jim
Object-id : name
Atribut simetris: gender
Atribut asimetris: atribut lainnya
Y dan P 1, N 0
Jarak antar obyek dihitung berdasar variabel asimetris.
21
Variabel Biner
0+1
d(jack,mary) = ------------ = 0.33
2+0+1
1+1
d(jack,jim) = ------------ = 0.67
1+1+1
1+2
d(jim,mary) = ------------ = 0.75
1+1+2
22
11
01/11/2014
Variabel Nominal
23
Variabel Nominal
24
12
01/11/2014
Variabel Ordinal
25
Variabel Ordinal
26
13
01/11/2014
Variabel Ordinal
Misalkan f adalah variabel dari sehimpunan variabel
ordinal yang menjelaskan obyek n.
1.
2.
Variabel Ordinal
rif 1
Zif =
Mf -1
3.
28
14
01/11/2014
29
Menghitung ketidaksamaan:
30
15
01/11/2014
31
f =1
(f)
ij
f =1
(f)
ij
(f)
ij
(f)
ij = 0 jika
ij( f=) 1.
32
16
01/11/2014
ij
(f)
ij
if
max x
h
hf
jf
min h x hf
untuk variable f.
f)
=ij( 1.
r
Hitung ranking rif dan z = M ,1 dan zif diperlakukan sebagai
interval-scaled
if
if
33
Klastering Partisional
Klastering Hirarkikal
17
01/11/2014
Partitional Clustering
Original Points
A Partitional Clustering
Hierarchical Clustering
p1
p3
p4
p2
p1 p2
Traditional Hierarchical
Clustering
p3 p4
Traditional Dendrogram
p1
p3
p4
p2
p1 p2
Non-traditional Hierarchical
Clustering
p3 p4
Non-traditional Dendrogram
18
01/11/2014
Metode Mempartisi
Metode mempartisi:
K-means
Tiap cluster dinyatakan berdasar nilai mean obyek di dalam
klaster.
2.
K-medoids
Tiap klaster dinyatakan berdasar satu obyek yang lokasinya
berdekatan dengan inti klaster.
37
2.
3.
4.
38
19
01/11/2014
10
10
9
8
7
6
5
4
Tempat
kan
setiap
obyek
ke
pusat
yang
paling
mirip
3
2
1
0
0
10
K=2
Secara acak memilih
obyek K sebagai
pusat klaster awal
3
2
1
0
0
10
Perbarui
mean
dari
klaster
Penempatan Ulang
3
2
1
0
0
10
Penempatan Ulang
10
10
7
6
6
5
Perbarui
mean
klaster
4
3
2
1
4
3
2
1
10
10
39
Klastering Hirarkikal
6
0.2
4
3
4
2
5
0.15
2
0.1
1
0.05
20
01/11/2014
Metode Hirarkikal
Metode Hirarkikal
41
Klastering Hirarkikal
Step 1
ab
abcde
cde
de
e
Step 4
agglomerative
(AGNES)
Step 3
divisive
(DIANA)
42
21
01/11/2014
43
Algoritma dasar
1.
2.
3.
4.
5.
6.
22
01/11/2014
Situasi Awal
p3
p4 p5
...
p1
p2
p3
p4
p5
.
Proximity Matrix
.
.
Situassi Intermediate
C3
C4
C3
C4
C5
C1
C2
Proximity Matrix
C5
23
01/11/2014
Situasi Intermediate
Kita ingin menggabungkan dua klaster terdekat (C2 and C5) dan
memperbarui matriks kedekatan.
C1 C2 C3
C4 C5
C1
C2
C3
C3
C4
C4
C5
Proximity Matrix
C1
C2
C5
48
24