Anda di halaman 1dari 43

26/11/2019

Dr. Fajar Astuti Hermawati, S.Kom., M.Kom

*
*Yaitu menemukan kumpulan obyek sedemikian hingga
obyek-obyek dalam satu kelompok sama (atau punya
hubungan) dengan yang lain dan berbeda (atau tidak
berhubungan) dengan obyek-obyek dalam kelompok lain

Jarak antar
Jarak dalam cluster
cluster dimaksimalkan
diminimalkan

Fajar Astuti Hermawati - Untag Surabaya 1


26/11/2019

*
*Understanding Discovered Clusters
Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN,
Industry Group

* Kelompok dokumen-dokumen 1
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Technology1-DOWN
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN,
yang saling berhubungan Sun-DOWN
Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN,
untuk proses browsing, 2 ADV-Micro-Device-DOWN,Andrew-Corp-DOWN,
Computer-Assoc-DOWN,Circuit-City-DOWN,
Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN,
Technology2-DOWN
pengelompokan gen dan Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN
Fannie-Mae-DOWN,Fed-Home-Loan-DOWN,
protein yang mempunyai 3 MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN

fungsi sama atau Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,

pengelompokan stok dengan 4 Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP,


Schlumberger-UP
Oil-UP

harga yang fluktuatif

*Summarization
* Menurunkan ukuran dari
dataset yang besar
Clustering precipitation
in Australia

*
* Supervised classification
* Mempunyai informasi label kelas

* Simple segmentation
* Membagi siswa ke dalam kelompok berdasarkan urutan
nama

* Results of a query
* Pengelompokan sebagai hasil dari spesifikasi eksternal

* Graph partitioning
* Beberapa hubungan relevansi dan sinergi tetapi areanya
tidak identik

Fajar Astuti Hermawati - Untag Surabaya 2


26/11/2019

Berapa clusters? 6 Clusters

2 Clusters 4 Clusters

*
* clustering adalah suatu himpunan cluster

* Perbedaan penting antara himpunan cluster hirarki


(hierarchical) dan partisi (partitional)

* Partitional Clustering
* Pembagian obyek data ke dalam subhimpunan (cluster) yang
tidak overlap sedemikian hingga tiap obyek data berada
dalam tepat satu subhimpunan

* Hierarchical clustering
* Sebuah himpunan cluster bersarang yang diatur sebagai suatu
pohon hirarki

Fajar Astuti Hermawati - Untag Surabaya 3


26/11/2019

Titik awal Partitional Clustering

*
p1
p3 p4
p2
p1 p2 p3 p4
Traditional Hierarchical Clustering Traditional Dendrogram

p1
p3 p4
p2
p1 p2 p3 p4
Non-traditional Hierarchical Clustering Non-traditional Dendrogram

Fajar Astuti Hermawati - Untag Surabaya 4


26/11/2019

*
* Exclusive vs non-exclusive
* Dalam non-exclusive clusterings, titik-titik mungkin termasuk dalam
banyak cluster
* Dapat menampilkan banyak kelas atau titik-titik ‘pembatas’
* Fuzzy vs non-fuzzy
* Dalam fuzzy clustering, sebuah titik termasuk dalam setiap cluster
dengan suatu nilai bobot antara 0 dan 1
* Jumlah dari bobot-bobot tersebut sama dengan 1
* Clustering probabilitas mempunyai karakteristik yang sama
* Partial vs complete
* Dlm beberapa kasus, kita hanya ingin mengelompokkan beberapa
data
* Heterogeneous vs homogeneous
* Pengelompokan dari ukuran, bentuk dan kepadatan yang berbeda
secara luas

*
* Well-separated clusters

* Center-based clusters

* Contiguous clusters

* Density-based clusters

*Property or Conceptual

*Described by an Objective Function

Fajar Astuti Hermawati - Untag Surabaya 5


26/11/2019

*
* Well-Separated Clusters:
* Sebuah cluster merupakan himpunan titik sedemikian hingga
tidak ada titik dalam sebuah cluster yang mendekati (atau
lebih mirip) ke setiap titik lain dalam cluster yang tidak
ditempati titik tersebut

3 well-separated clusters Back

*
* Center-based
* sebuah cluster adalah himpunan dari obyek-obyek
sedemikian hingga sebuah obyek dalam sebuah cluster
mendekati (lebih mirip) dengan ‘pusat’ dari sebuah cluster
dibandingkan dengan pusat cluster lain
* Pusat dari sebuah cluster dapat berupa centroid, yaitu rata-
rata dari semua titik dalam cluster tersebut, atau medoid,
merupakan representasi titik dari sebuah cluster

4 center-based clusters
Back

Fajar Astuti Hermawati - Untag Surabaya 6


26/11/2019

*
* Contiguous Cluster (Nearest neighbor atau Transitive)
* Sebuah cluster merupakan himpunan titik sedemikian hingga
sebuah titik dalam cluster mendekati (atau lebih serupa)
dengan satu atau lebih titik lain dalam cluster tersebut
dibandingkan dengan titik yang tidak berada pada cluster
tersebut

8 contiguous clusters Back

*
* Density-based
* Sebuah cluster merupakan suatu daerah titik yang padat,
yang dipisahkan oleh daerah kepadatan rendah (low-density),
dari daerah kepadatan tinggi (high density) yang lain.
* Digunakan ketika cluster-cluster tidak beraturan atau terjalin
dan ketika terdapat noise dan outlier.

6 density-based clusters
Back

Fajar Astuti Hermawati - Untag Surabaya 7


26/11/2019

*
* Shared Property atau Conceptual Clusters
* Menemukan cluster-cluster yang membagi beberapa sifat
umumnya atau menyatakan konsep tertentu.
.

2 Overlapping Circles Back

*
* Cluster yang didefinisikan oleh suatu fungsi obyektif
* Menemukan cluster yang meminimalkan atau memaksimalkan suatu
fungsi obyektif.
* Menghitung semua kemungkinan cara untuk membagi titik-titk ke
dalam cluster dan mengevaluasi ‘kebaikan’ dari tiap himpunan
cluster yang potensial dengan menggunakan fungsi obyektif yang
diberikan (NP Hard)
* Dapat mempunyai tujuan global atau lokal
* Algoritma clustering Hierarchical mempunyai local objectives
* Algoritma Partitional mempunyai global objectives
* Variasi dari pendekatan fungsi obyektif global adalah menyusun
data menjadi sebuah model yang terukur (parameterized).
* Parameter-parameter untuk model tersebut ditentukan dari data.
* Model Campuran (Mixture model) mengasumsikan bahwa data
merupakan suatu campuran bilangan yang terdistribusi secara statistik.

Fajar Astuti Hermawati - Untag Surabaya 8


26/11/2019

*Pemetaan permasalahan clustering menjadi suatu


domain yang berbeda dan menyelesaikan permasalahan
yang terhubung dalam domain tersebut
* Matriks kedekatan (Proximity matrix) mendefinisikan suatu
graph terboboti, dimana simpul-simpulnya merupakan titik yang
diguguskan, dan sisi-sisi yang terboboti menyatakan kedekatan
dari titik-titik tersebut

* Clustering ekivalen dengan memecah graph ke dalam komponen-


komponen yang terhubung (connected components), satu untuk
tiap cluster.

* Berkeinginan untuk meminimalkan bobot rusuk antara cluster-


cluster dan memaksimalkan bobot rusuk dalam cluster

*
*Similaritas (Kemiripan)
* Ukuran numerik dari seberapa mirip dua buah obyek.
* Mempunyai nilai yang lebih tinggi jika obyek-obyek tersebut
sama.
* Mempunyai range nilai [0,1]
*Dissimilaritas (Ketidakmiripan)
* Ukuran numerik dari seberapa berbeda dua buah obyek
* Bernilai lebih rendah jika obyek-obyek tersebut mirip
* Minimum dissimilaritas adalah 0
* Batas atasnya bervariasi
*Kedekatan (Proximity) mengacu kepada suatu
similaritas atau dissimilaritas.

Fajar Astuti Hermawati - Untag Surabaya 9


26/11/2019

*
* Jarak (Distances), seperti Euclidean distance,
memepunyai sejumlah sifat yaitu

1. d(p, q)  0 for all p and q and d(p, q) = 0 only if


p = q. (Positive definiteness)
2. d(p, q) = d(q, p) for all p and q. (Symmetry)
3. d(p, r)  d(p, q) + d(q, r) for all points p, q, and r.
(Triangle Inequality)
dimana d(p, q) adalah jarak (dissimilarity) antara
titik-titik (data objects), p dan q.

* Jarak yang memenuhi sifat-sifat ini disebut sebagai


metric

*
* Similaritas, mempunyai beberapa sifat :

1. s(p, q) = 1 (or maximum similarity) only if p = q.

2. s(p, q) = s(q, p) for all p and q. (Symmetry)

dimana s(p, q) merupakan similaritas antara titik-


titik (obyek data), p dan q.

Fajar Astuti Hermawati - Untag Surabaya 10


26/11/2019

*
* Euclidean Distance

n
dist   ( pk  qk )2
k 1
dimana n adalah jumlah dimensi (attribute) dan pk dan qk
adalah, atribut (komponen) ke-k, atau obyek data p dan q.

* Diperlukan standarisasi jika skalanya berbeda.

p1
point x y
2
p1 0 2
p3 p4
1
p2 2 0
p2 p3 3 1
0 p4 5 1
0 1 2 3 4 5 6

p1 p2 p3 p4
p1 0 2.828 3.162 5.099
p2 2.828 0 1.414 3.162
p3 3.162 1.414 0 2
p4 5.099 3.162 2 0

Proximity Matrix dengan


eulidean distance

Fajar Astuti Hermawati - Untag Surabaya 11


26/11/2019

*
* Minkowski Distance merupakan generalisasi dari
Euclidean Distance
1
n
dist  (  | pk  qk |r ) r
k 1
dimana r adl parameter, n adl jumlah dimensi (attribut) dan
pk dan qk merupakan atribut (komponen) ke-k atau obyek
data p dan q.

*
* r = 1. City block (Manhattan, taxicab, L1 norm) distance.
* Contohnya adalah Hamming distance, yang menghitung jumlah bit yang
berbeda dari dua vektor biner.

* r = 2. Euclidean distance

* r  . “supremum” (Lmax norm, L norm) distance.


* Ini adalah beda maksimum dari beberapa komponen dari vektor.

* Semua ukuran ini berlaku untuk semua jumlah dimensi


(n).

Fajar Astuti Hermawati - Untag Surabaya 12


26/11/2019

*
L1 p1 p2 p3 p4
p1 0 4 4 6
p2 4 0 2 4
p3 4 2 0 2
p4 6 4 2 0
point x y
p1 0 2 L2 p1 p2 p3 p4
p2 2 0 p1 0 2.828 3.162 5.099
p3 3 1 p2 2.828 0 1.414 3.162
p4 5 1 p3 3.162 1.414 0 2
p4 5.099 3.162 2 0

L p1 p2 p3 p4
p1 0 2 3 5
p2 2 0 1 3
p3 3 1 0 2
p4 5 3 2 0

Proximity Matrix

*
* Misalkan obyek-obyek , p dan q, hanya mempunyai
atribut biner
* Menghitung similaritas menggunakan kuantitas
berikut
M01 = jumlah atribut dimana p adalah 0 dan q adalah 1
M10 = jumlah atribut dimana p adalah 1 dan q adalah 0
M00 = jumlah atribut dimana p adalah 0 dan q adalah 0
M11 = jumlah atribut dimana p adalah 1 dan q adalah 1

* Simple Matching dan Jaccard Coefficients


SMC = number of matches / number of attributes
= (M11 + M00) / (M01 + M10 + M11 + M00)

J = number of 11 matches / number of not-both-zero attributes values


= (M11) / (M01 + M10 + M11)

Fajar Astuti Hermawati - Untag Surabaya 13


26/11/2019

*
p= 1000000000
q= 0000001001

M01 = 2
M10 = 1
M00 = 7
M11 = 0

SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7

J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0

*
* Jika d1 dan d2 adalah dua vektor dokumen, maka
cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2|| ,
dimana  merupakan vector dot product dan || d || adalah panjang
vektor d.

* Contoh :
d1 = 3 2 0 5 0 0 0 2 0 0
d2 = 1 0 0 0 0 0 0 1 0 2

d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 =
6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245

cos( d1, d2 ) = .3150

Fajar Astuti Hermawati - Untag Surabaya 14


26/11/2019

*
* Variasi dari Jaccard untuk atribut kontinyu atau atribut yang
dapat dihitung (count attributes)

T(d1,d2) = 5 / (42+6-5)

Fajar Astuti Hermawati - Untag Surabaya 15


26/11/2019

*
* K-means dan variansinya

* Hierarchical clustering

Fajar Astuti Hermawati - Untag Surabaya 16


26/11/2019

*
* Pendekatan partitional clustering
* Tiap cluster dihubungkan dengan sebuah centroid (titik
pusat)
* Tiap titik ditempatkan ke dalam cluster dengan centroid
terdekat
* Jumlah cluster, K, harus ditentukan
* Algoritma dasarnya sangat sederhana, yaitu :
1. Pilih K titik sebagai centroid-centroid awal
2. Ulangi:
3. Bentuk K cluster dengan menempatkan semua titik yang
terdekat
4. Ulangi perhitungan centroid dari tiap cluster
5. Sampai centroid tidak berubah

*
* Mula-mula centroid dipilih secara acak (random)
* Cluster-cluster dihasilkan satu persatu
* Centroid secara khusus merupakan nilai rata-rata (mean)
dari titik-titik dalam cluster tersebut
* ‘Kedekatan’ diukur dengan Euclidean distance, cosine
similarity, correlation, dll.
* K-means akan berhenti jika memenuhi kondisi convergen.
* Kompleksitas dari algoritma ini adalah O( n * K * I * d )
* n = jumlah titik, K = jumlah cluster,
I = jumlah iterasi, d = jumlah atribut

Fajar Astuti Hermawati - Untag Surabaya 17


26/11/2019

*
*Misalkan data X = {2,3,4,10,11,12,20,25,30} akan
dibagi dalam dua cluster (k=2), dipilih dua initial
centroid yaitu 1=2 dan 2=4 dan menggunakan
ukuran city-block distance
* Hitung distance setiap xX dengan city-block
X 2 3 4 10 11 12 20 25 30

(x,1) 0 1 2 8 9 10 18 23 28

(x,2) 2 1 0 6 7 8 16 21 26

Min((x,1), (x,2) C1 C1 C2 C2 C2 C2 C2 C2 C2

Fajar Astuti Hermawati - Untag Surabaya 18


26/11/2019

*
*Sebuah himpunan dua dimensi :
x={(6,3),(12,4),(18,10),(24,11),(30,12),(42,20), (48,25)},
bangun dua buah cluster dengan menempatkan tiap titik
ke centroid terdekat (dengan menggunakan ukuran city
block distance) dengan centroid mula2 : 1 =(18,2),
2=(45,10)
X (6,3) (12,4) (18,10) (24,11) (30,12) (42,20) (48,25)

(x,1) =|6-18|+|3-2| 8 8 15 22 42 53
=13
(x,2) 46 39 27 22 17 13 18

Min((x,1), (x,2) C1 C1 C1 C1 C2 C2 C2

* Jadi
* C1={(6,3),(12,4),(18,10),(24,11)}
* C2={(30,12),(42,20), (48,25)}
* Centroid baru :
* X1 = (6+12+18+24)/4 = 15; x2 = (3+4+10+11)/4=7; 1’ =(15,7)
* X1 = (30+42+48)/3 =40 ; x2 = (12+20+25)/3=19; 2’ =(40,19)

Fajar Astuti Hermawati - Untag Surabaya 19


26/11/2019

*
3

2.5

2
Original Points
1.5

y
1

0.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x

3 3

2.5 2.5

2 2

1.5 1.5
y

y
1 1

0.5 0.5

0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x x

Optimal Clustering Sub-optimal Clustering

*
Iteration 6
1
2
3
4
5
3

2.5

1.5
y

0.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x

Fajar Astuti Hermawati - Untag Surabaya 20


26/11/2019

*
Iteration 1 Iteration 2 Iteration 3
3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5


y

y
1 1 1

0.5 0.5 0.5

0 0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

Iteration 4 Iteration 5 Iteration 6


3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5


y

y
1 1 1

0.5 0.5 0.5

0 0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

*
*Ukuran paling banyak digunakan adalah Sum of
Squared Error (SSE)
* Untuk setiap titik, error merupakan jarak ke cluster
terdekat
* Untuk mendapatkan KSSE, kuadratkan errors dan
jumlahkan. SSE 
  dist 2 (mi , x) i 1 xCi
* x adl data point dlm cluster Ci dan mi adl centroid dari
cluster Ci
* mi berhubungan dengan pusat (mean) dari cluster tersebut
* Jika diberikan dua cluster, kita dapat memilih salah satu
dengan error terkecil
* Salah satu langkah mudah untuk menurunkan SSE adalah
dengan meningkatkan K (jumlah cluster)
* clustering yang baik dengan K lebih kecil mempunyai SSE
lebih kecil dibandingkan dengan poor clustering dengan K
lebih tinggi

Fajar Astuti Hermawati - Untag Surabaya 21


26/11/2019

*
* Cluster yang diperoleh :
* C1 = {2,3}
* C2 = {4,10,11,12,20,25,30}
* Dan centroid baru 1=2.5 dan 2=16
* Maka SSE = ((2-2.5)2+(3-2.5)2) +((4-16)2 +(10-16)2+(11-
16)2+(12-16)2+(20-16)2+ (25-16)2+(30-16)2) =

*
Iteration 5
1
2
3
4
3

2.5

1.5
y

0.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x

Fajar Astuti Hermawati - Untag Surabaya 22


26/11/2019

*
Iteration 1 Iteration 2
3 3

2.5 2.5

2 2

1.5 1.5
y

y
1 1

0.5 0.5

0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x x

Iteration 3 Iteration 4 Iteration 5


3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5


y

y
1 1 1

0.5 0.5 0.5

0 0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

* K-means bermasalah ketika cluster-cluster berbeda


* Ukuran
* Kepadatan
* Berbentuk tidak bulat

* K-means bermasalah ketika data mengandung outliers.

Fajar Astuti Hermawati - Untag Surabaya 23


26/11/2019

Original Points K-means (3 Clusters)

Original Points K-means (3 Clusters)

Fajar Astuti Hermawati - Untag Surabaya 24


26/11/2019

Original Points K-means (2 Clusters)

Original Points K-means Clusters

Salah satu solusinya adalah dengan memperbanyak


jumlah cluster.

Fajar Astuti Hermawati - Untag Surabaya 25


26/11/2019

Original Points K-means Clusters

Original Points K-means Clusters back

Fajar Astuti Hermawati - Untag Surabaya 26


26/11/2019

NBI
460702766
TEST1
0
TEST2
40
TEST3
0
TEST4
0
*
460903039 0 0 0 0
460903045 40 0 0 60
461003096 100 100 100 100
461003097 65 90 50 90
461003112 100 85 40 100
461003116 50 70 40 100
461003123 90 100 100 100
461003128 0 30 0 90
461003131 50 45 35 0
461003141 50 70 35 100
461003145 65 80 0 90
461003147 0 0 35 100
461003148 50 70 55 100
461003149 40 0 0 85
461003151 50 40 0 90

a) Dari data nilai mahasiswa diatas, lakukan proses k-


means clustering untuk menggolongkan mahasiswa
menjadi tiga cluster yaitu C1=cluster hebat, C2=cluster
pandai, C3=cluster semangat, dengan centroid mula-
mula (80,80,80,80), (60,60,60,60) dan (30,30,30,30)

*
* Menghasilkan sebuah himpunan dari cluster bersarang sebagai
suatu pohon hirarki
* Dapat divisualisasikan sebagai sebuah dendrogram
* Pohon berfungsi sebagai diagram yang mencatat urutan dari
penggabungan atau pemisahan

6 5
0.2
4
0.15
3 4
2
5
0.1 2

0.05 1
3 1

0
1 3 2 5 4 6

Fajar Astuti Hermawati - Untag Surabaya 27


26/11/2019

*
*Dua tipe utama hierarchical clustering
* Agglomerative:
* mulai dengan titik-titik sebagai individual clusters
* pada tiap langkah, gabungkan pasangan cluster terdekat
sampai hanya terdapat satu cluster (atau k clusters) yang
tersisa

* Divisive:
* mulai dengan satu, semua inclusive cluster
* pada tiap langkah, pisahkan sebuah cluster sampai tiap
cluster terdiri dari sebuah titik (atau ada k clusters)

*Traditional hierarchical algorithms menggunakan


sebuah matriks similaritas atau matriks jarak
* Menggabungkan atau memisahkan satu cluster dalam tiap
langkahnya

*
* Merupakan teknik hierarchical clustering yang lebih
terkenal
* Algoritma dasarnya adalah sebagai berikut :

Fajar Astuti Hermawati - Untag Surabaya 28


26/11/2019

*
* Mulai dengan cluster dari titik-titik individual dan sebuah
matriks kedekatan (proximity matrix)
p1 p2 p3 p4 p5 ...
p1

p2
p3

p4
p5
.
.
. Proximity Matrix

*
* Setelah beberapa langkah penggabungan, diperoleh beberapa
cluster C1 C2 C3 C4 C5
C1

C2
C3
C3
C4
C4
C5

Proximity Matrix
C1

C2 C5

Fajar Astuti Hermawati - Untag Surabaya 29


26/11/2019

*
* Menggabungkan dua cluster terdekat (C2 dan C5) dan
mengupdate proximity matrix. C1 C2 C3 C4 C5
C1

C2
C3
C3
C4
C4
C5

Proximity Matrix
C1

C2 C5

*
* Bagaimana mengupdate proximity matrix?
C2
U
C1 C5 C3 C4

C1 ?

C2 U C5 ? ? ? ?
C3
C3 ?
C4
C4 ?

Proximity Matrix
C1

C2 U C5

Fajar Astuti Hermawati - Untag Surabaya 30


26/11/2019

*
* Operasi kunci dari algortima ini adalah menghitung kedekatan
dari dua cluster.
* Beberapa ukuran kedekatan :
* Single link

* Complete link

* Average link

* Mean distance

*
p1 p2 p3 p4 p5 ...
p1
Similarity?
p2

p3

p4

p5
 Single Link (MIN)
.
 Complete Link (MAX)
.
 Average Link (Group Average) .
Proximity Matrix
 Mean Distance Between Centroids
 Metode lain dengan menggunakan
sebuah fungsi obyektif
– Ward’s Method

Fajar Astuti Hermawati - Untag Surabaya 31


26/11/2019

*
p1 p2 p3 p4 p5 ...
p1

p2

p3

p4

p5
 Single Link (MIN)
.
 Complete Link (MAX)
.
 Average Link (Group Average) .
Proximity Matrix
 Mean Distance Between Centroids
 Metode lain dengan menggunakan
sebuah fungsi obyektif
– Ward’s Method

*
p1 p2 p3 p4 p5 ...
p1

p2

p3

p4

p5
 Single Link (MIN)
.
 Complete Link (MAX)
.
 Average Link (Group Average) .
Proximity Matrix
 Mean Distance Between Centroids
 Metode lain dengan menggunakan
sebuah fungsi obyektif
– Ward’s Method

Fajar Astuti Hermawati - Untag Surabaya 32


26/11/2019

*
p1 p2 p3 p4 p5 ...
p1

p2

p3

p4

p5
 Single Link (MIN)
.
 Complete Link (MAX)
.
 Average Link (Group Average) .
Proximity Matrix
 Mean Distance Between Centroids
 Metode lain dengan menggunakan
sebuah fungsi obyektif
– Ward’s Method

*
p1 p2 p3 p4 p5 ...
p1

  p2

p3

p4

p5
 Single Link (MIN)
.
 Complete Link (MAX)
.
 Average Link (Group Average) .
Proximity Matrix
 Mean Distance Between Centroids
 Metode lain dengan menggunakan
sebuah fungsi obyektif
– Ward’s Method

Fajar Astuti Hermawati - Untag Surabaya 33


26/11/2019

*
* Similaritas dari dua cluster didasarkan pada dua titik paling
dekat dari dua cluster yang berbeda
* Ditentukan oleh satu pasang titik, dihubungkan oleh satu link
dalam proximity graph.

I1 I2 I3 I4 I5
I1 1.00 0.90 0.10 0.65 0.20
I2 0.90 1.00 0.70 0.60 0.50
I3 0.10 0.70 1.00 0.40 0.30
I4 0.65 0.60 0.40 1.00 0.80
I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

*
5
1
3
5 0.2

2 1 0.15

2 3 6 0.1

0.05
4
4 0
3 6 2 5 4 1

Nested Clusters Dendrogram

Fajar Astuti Hermawati - Untag Surabaya 34


26/11/2019

*
* Lakukan angglomerative clustering jika diketahui proximity
matriks adalah sebagai berikut dengan menggunakan ukuran
kedekatan single link

I1 I2 I3 I4 I5
I1 1.00 0.90 0.10 0.65 0.20
I2 0.90 1.00 0.70 0.60 0.50
I3 0.10 0.70 1.00 0.40 0.30
I4 0.65 0.60 0.40 1.00 0.80
I1 I2 I3 I4 I5
I5 0.20 0.50 0.30 0.80 1.00

*
* Penggabungan :
* Cluster I1 dan I2 paling dekat (mempunyai similaritas paling
besar), sehingga cluster I1 dan I2 digabung menjadi cluster I12,
sehingga dendogram mjd:

Fajar Astuti Hermawati - Untag Surabaya 35


26/11/2019

*
* Update proximity matrix dengan ukuran kedekatan single link
(min)
* (I12,I3)=min((I1,I3),(I2,I3))=min(0.1, 0.7) = 0.7
* (I12,I4)=min((I1,I4),(I2,I4))=min(0.65,0.6) = 0.65
* (I12,I5)=min((I1,I5),(I2,I5))=min(0.2, 0.5) = 0.5

I1,2 I3 I4 I5

I1,2 1 0.7 0.65 0.5

I3 0.7 1 0.4 0.3

I4 0.65 0.4 1 0.8

I5 0.5 0.5 0.8 1

*
*Ulangi langkah 1 dan 2 sampai semua titik tergabung
menjadi satu

I1,2 I3 I4,5 (I12,I45)=min((I1,I4),(I1,I5),(I2,I4),(I2,I5)

I1,2 1 0.7 0.65 =min(0.65,0.2, 0.6,0.5) = 0.65

I3 0.7 1 0.4 (I3,I45) = min((I3,I4), (I3,I5))= min(0.4,0.3) = 0.4

I4,5 0.65 0.4 1

Fajar Astuti Hermawati - Untag Surabaya 36


26/11/2019

* Hasil akhir dendogram:

 Untuk mendapatkan cluster dari dendogram dilakukan


proses pemangkasan pohon. Misalkan kita ingin
mendapatkan dua cluster dari dendogram diatas, maka
C1 = {I1, I2,I3} dan C2 = {I4,I5}

*
*Misalkan terdapat dataset X 2 dimensi sebagai berikut :
* Object 1: (1, 2) C1
* Object 2: (2.5, 4.5) C2
* Object 3: (2, 2) C3
* Object 4: (4, 1.5) C4
* Object 5: (4, 2.5) C5
*Dengan menggunakan eulidean distance diperoleh jarak
antar titik dinyatakan dalam proximity matriks sbb :
0 2.9155 1.0000 3.0414 3.0414
2.9155 0 2.5495 3.3541 2.5000
1.0000 2.5495 0 2.0616 2.0616
3.0414 3.3541 2.0616 0 1.0000
3.0414 2.5000 2.0616 1.0000 0

Fajar Astuti Hermawati - Untag Surabaya 37


26/11/2019

*
* Maka hasil pengukuran kedekatan dengan menggunakan single
link diperoleh:
C6={C1,C3 }, (C1,C3)=1
C7={C4,C5}, (C4,C5)=1
C2
* Mengukur kedekatan antar cluster yang dihasilkan :
(C6,C7)=min((C1,C4), (C1,C5), (C3,C4), (C3,C5))
=min(3.04, 3.04, 2.06, 2.06)
=2.06

Original Points Two Clusters

• dapat menangani bentuk yang tidak elips

Fajar Astuti Hermawati - Untag Surabaya 38


26/11/2019

Original Points Two Clusters

• Sensitif terhadap noise atau outliers

* Similaritas dari dua cluster didasarkan pada dua titik paling


sedikit kemiripan (paling berbeda) dalam cluster yang berbeda
* Ditentukan oleh semua pasang titik dalam dua cluster

I1 I2 I3 I4 I5
I1 1.00 0.90 0.10 0.65 0.20
I2 0.90 1.00 0.70 0.60 0.50
I3 0.10 0.70 1.00 0.40 0.30
I4 0.65 0.60 0.40 1.00 0.80
I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Fajar Astuti Hermawati - Untag Surabaya 39


26/11/2019

*
4 1
2 5 0.4

0.35
5 0.3
2
0.25

3 6 0.2

3 0.15
1 0.1

0.05
4
0
3 6 4 1 2 5

Nested Clusters Dendrogram

Original Points Two Clusters

• sedikit terpengaruh oleh noise dan outliers

Fajar Astuti Hermawati - Untag Surabaya 40


26/11/2019

Original Points Two Clusters

•Cenderung memecah cluster yang besar


•Condong ke arah cluster berbentuk bulat

*
* Kedekatan dari dua cluster merupakan rata-rata dari pasangan
kedekatan antar titik dalam dua cluster.
 proximity(p , p )
piClusteri
i j

p jClusterj
proximity(Clusteri , Clusterj ) 
|Clusteri ||Clusterj |

I1 I2 I3 I4 I5
I1 1.00 0.90 0.10 0.65 0.20
I2 0.90 1.00 0.70 0.60 0.50
I3 0.10 0.70 1.00 0.40 0.30
I4 0.65 0.60 0.40 1.00 0.80
I5 0.20 0.50 0.30 0.80 1.00 1 2 3 4 5

Fajar Astuti Hermawati - Untag Surabaya 41


26/11/2019

*
5 4 1
0.25
2
5 0.2
2
0.15

3 6 0.1

1 0.05

4 0
3 3 6 4 1 2 5

Nested Clusters Dendrogram

*
* Berkompromi dengan Single dan
Complete Link

* Kelebihan
* Sedikit dipengaruhi noise dan outliers

* Kekurangan
* Cenderung ke bentuk cluster bulat

Fajar Astuti Hermawati - Untag Surabaya 42


26/11/2019

*
Id team coach play ball score game win lost time season
D1 3 0 5 0 2 6 0 2 0 2
D2 0 7 0 2 1 0 0 3 0 0
D3 0 1 0 0 1 2 2 0 3 0
D4 2 0 3 0 2 6 0 1 0 1
D5 0 1 0 0 2 4 4 0 5 1

a) Buat proximity matrix dari data dokumen diatas dengan


ukuran similaritas cosinus
b) Lakukan proses single link anglomerative clustering
dengan menggunakan matriks yang dibentuk pada soal
(a)

Fajar Astuti Hermawati - Untag Surabaya 43