Anda di halaman 1dari 15

Pengenalan Pola

Ch 5. Hierarchical Clustering
Hierarchical Clustering
 Merupakan
proses pengelompokan data ke dalam cluster
yang membentuk hirarki.

2
Konsep Dasar
Pada hierarchical clustering terdapat dua pendekatan:

pendekatan pertama adalah setiap data dianggap sebagai cluster


yang kemudian setiap pasang cluster akan digabung membentuk
cluster baru sesuai dengan ukuran jarak (ketidak miripan) sampai
membentuk cluster akhir. (Agglomerative)

Pendekatan kedua adalah setiap data akan dimasukkan ke dalam


satu cluster besar yang kemudian akan dipecah menjadi dua cluster
baru terus menerus sampai jumlah cluster yang di-inginkan
tercapai. (Divisive).

Hirarki yang terbentuk dari proses hierarchical clustering


disebut dengan dendogram.
Dendogram
Merupakan diagram yang berbentuk Tree
yang memperlihatkan hiearchi dari data
yang biasanya menggambarkan proses
dari hierarchical clustering.
Jenis Metode
Algoritma Hierarchical Clustering terdiri
dari :

Agglomerative : Single Linkage


Clustering, Average Lingkage Clustering,
Complete Linkage Clustering.

Divisive
: Divisive Analysis Clustering
(DIANA).
5
Single Linkage Clustering
Algoritma :

1. Anggap setiap data individu adalah cluster.


2. Hitunglah pasangan cluster yang memiliki jarak terdekat, dari
minimum jarak tiap anggota cluster dari pasangan cluster
tersebut.
3. Gabungkan cluster yang memiliki jarak terdekat menjadi sebuah
cluster baru.
4. Ulangi Langkah dua sampai jumlah cluster akhir yang di-
inginkan tercapai.

Single linkage clustering akan mencari pasangan cluster dengan


jarak terdekat pada setiap iterasi (perulangan). Pasangan cluster yang
terdekat akan digabung menjadi sebuah cluster baru.
Single Linkage Clustering
Contoh sederhana :
Asumsikan kita ingin membentuk hanya dua cluster dari
data berikut :
Label Berat Tinggi
A 65 171
B 89 163
C 72 169
D 55 173

Setiap data akan dianggap sebagai cluster sendiri sehingga


kita peroleh cluster awal adalah cluster A, cluster B, cluster
C dan cluster D, C = {A,B,C,D}
Single Linkage Clustering
Berikutnya mencari pasangan cluster dengan jarak terdekat :
 

Dst..

LABEL A B C D

A 0 25.29822 7.28011 10.19804


B 25.29822 0 18.02776 35.44009
C 7.28011 18.02776 0 17.46425
D 10.19804 35.44009 17.46425 0

Jika dilihat pada table jarak, maka kita peroleh jarak pasangan terkecil adalah A
dan C dengan jarak sebesar 7.28011. sehingga A dan C akan digabungkan ke
cluster baru dengan nama cluster AC, sehingga cluster sementara C = {AC, B,
D}.
Single Linkage Clustering
Clustering selanjutnya dilanjutkan dengan mencari Kembali pasangan cluster yang
  
terdekat.

 𝑡𝑖𝑑𝑎𝑘 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑙𝑎𝑔𝑖 𝑘𝑎𝑟𝑒𝑛𝑎 𝑠𝑢𝑑𝑎ℎ 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑠𝑒𝑏𝑒𝑙𝑢𝑚𝑛𝑦𝑎


LABEL AC B D
AC 0 18.02776 10.19804
B 18.02776 0 35.44009
D 10.19804 35.44009 0

Daritable jarak diatas diperoleh jarak terdekat adalah antara cluster AC dan cluster
D yaitu sebesar 10.19804 sehingga cluster AC dan cluster D akan digabungkan
menjadi cluster ACD, sehingga cluster sementara yang diperoleh, C = {ACD, B}
Single Linkage Clustering
Dikeranakan jumlah cluster saat ini yang tersisa adalah dua
cluster sesuai dengan yang di-inginkan, maka proses
berhenti dengan cluster yang terbentuk yaitu :

C1 = {A, C, D}
C2 = {B}

‘
Complete Linkage Clustering
Complete

  Linkage Clustering memiliki tahapan yang
sama dengan Single Linkage Clustering, hanya saja
dibandingkan dengan menggunakan jarak minimal,
Complete Linkage Clustering menggunakan jarak
maksimal dari jarak antar anggota cluster.

Single Linkage :

Complete Linkage :
Average Linkage Clustering
Average

  Linkage Clustering memiliki tahapan yang
sama dengan Single Linkage Clustering, hanya saja
dibandingkan dengan menggunakan jarak minimal,
Average Linkage Clustering menggunakan jarak
rata-rata (mean) dari jarak antar anggota cluster.

Single Linkage :

Average Linkage :
Divisive Analysis Clustering
Divisive Analysis Clustering merupakan clustering
yang kebalikan dari agglomerative clustering dimana
proses clustering dimulai dari satu cluster besar
menjadi beberapa cluster (top-down).

‘
Algoritma Divisive
1. Anggap semua data berada dalam sebuah cluster awal.
2. Hitung jarak antar anggota yang terdapat pada cluster.
3. Hitung rata – rata jarak antar anggota.
4. Anggota dengan jarak rata-rata terbesar akan menjadi pembatas
(splinter group).
5. Anggota sisanya kemudian akan menghitung rata – rata jarak dengan
anggota lainnya. (Average Dissimiliarity to Remain Object).

6. Setiap objek menghitung selisih antara Average Dissimiliarity to


Remain Object dengan jaraknya terhadap splinter group.

7. Jika hasil selisih bernilai positif, maka objek tersebut akan bergabung
dengan splinter group untuk membentuk cluster baru.
8. Ulangi Langkah 2 untuk pemecahan cluster pada iterasi berikutnya.
Latihan
Lakukan clustering pada data berikut menggunakan
Complete dan Average Linkage Clustering.

Label Berat Tinggi


A 65 171
B 89 163
C 72 169
D 55 173

Kemudian bandingkan apakah hasil clustering yang


dihasilkan sama atau berbeda dengan clustering
single linkage clustering.

Anda mungkin juga menyukai