Ch5. Hierarchical Clustering

Pengenalan Pola
Ch 5. Hierarchical Clustering
Hierarchical Clustering
 Merupakan
proses pengelompokan data ke dalam cluster
yang membentuk hirarki.
2
Konsep Dasar
Pada hierarchical clustering terdapat dua pendekatan:
pendekatan pertama adalah setiap data dianggap sebagai cluster

yang kemudian setiap pasang cluster akan digabung membentuk
cluster baru sesuai dengan ukuran jarak (ketidak miripan) sampai
membentuk cluster akhir. (Agglomerative)
Pendekatan kedua adalah setiap data akan dimasukkan ke dalam

satu cluster besar yang kemudian akan dipecah menjadi dua cluster
baru terus menerus sampai jumlah cluster yang di-inginkan
tercapai. (Divisive).
Hirarki yang terbentuk dari proses hierarchical clustering

disebut dengan dendogram.
Dendogram
Merupakan diagram yang berbentuk Tree
yang memperlihatkan hiearchi dari data
yang biasanya menggambarkan proses
dari hierarchical clustering.
Jenis Metode
Algoritma Hierarchical Clustering terdiri
dari :
Agglomerative : Single Linkage

Clustering, Average Lingkage Clustering,
Complete Linkage Clustering.
Divisive
: Divisive Analysis Clustering
(DIANA).
5
Single Linkage Clustering
Algoritma :
1. Anggap setiap data individu adalah cluster.

2. Hitunglah pasangan cluster yang memiliki jarak terdekat, dari
minimum jarak tiap anggota cluster dari pasangan cluster
tersebut.
3. Gabungkan cluster yang memiliki jarak terdekat menjadi sebuah
cluster baru.
4. Ulangi Langkah dua sampai jumlah cluster akhir yang di-
inginkan tercapai.
Single linkage clustering akan mencari pasangan cluster dengan

jarak terdekat pada setiap iterasi (perulangan). Pasangan cluster yang
terdekat akan digabung menjadi sebuah cluster baru.
Contoh sederhana :
Asumsikan kita ingin membentuk hanya dua cluster dari
data berikut :
Label Berat Tinggi
A 65 171
B 89 163
C 72 169
D 55 173
Setiap data akan dianggap sebagai cluster sendiri sehingga

kita peroleh cluster awal adalah cluster A, cluster B, cluster
C dan cluster D, C = {A,B,C,D}
Berikutnya mencari pasangan cluster dengan jarak terdekat :

Dst..
LABEL A B C D
A 0 25.29822 7.28011 10.19804

B 25.29822 0 18.02776 35.44009
C 7.28011 18.02776 0 17.46425
D 10.19804 35.44009 17.46425 0
Jika dilihat pada table jarak, maka kita peroleh jarak pasangan terkecil adalah A
dan C dengan jarak sebesar 7.28011. sehingga A dan C akan digabungkan ke
cluster baru dengan nama cluster AC, sehingga cluster sementara C = {AC, B,
D}.
Clustering selanjutnya dilanjutkan dengan mencari Kembali pasangan cluster yang

terdekat.
 𝑡𝑖𝑑𝑎𝑘 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑙𝑎𝑔𝑖 𝑘𝑎𝑟𝑒𝑛𝑎 𝑠𝑢𝑑𝑎ℎ 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑠𝑒𝑏𝑒𝑙𝑢𝑚𝑛𝑦𝑎

LABEL AC B D
AC 0 18.02776 10.19804
B 18.02776 0 35.44009
D 10.19804 35.44009 0
Daritable jarak diatas diperoleh jarak terdekat adalah antara cluster AC dan cluster
D yaitu sebesar 10.19804 sehingga cluster AC dan cluster D akan digabungkan
menjadi cluster ACD, sehingga cluster sementara yang diperoleh, C = {ACD, B}
Dikeranakan jumlah cluster saat ini yang tersisa adalah dua
cluster sesuai dengan yang di-inginkan, maka proses
berhenti dengan cluster yang terbentuk yaitu :
C1 = {A, C, D}
C2 = {B}
‘
Complete Linkage Clustering
Complete

Linkage Clustering memiliki tahapan yang
sama dengan Single Linkage Clustering, hanya saja
dibandingkan dengan menggunakan jarak minimal,
Complete Linkage Clustering menggunakan jarak
maksimal dari jarak antar anggota cluster.
Single Linkage :
Complete Linkage :
Average Linkage Clustering
Average

Linkage Clustering memiliki tahapan yang
sama dengan Single Linkage Clustering, hanya saja
dibandingkan dengan menggunakan jarak minimal,
Average Linkage Clustering menggunakan jarak
rata-rata (mean) dari jarak antar anggota cluster.
Single Linkage :
Average Linkage :
Divisive Analysis Clustering
Divisive Analysis Clustering merupakan clustering
yang kebalikan dari agglomerative clustering dimana
proses clustering dimulai dari satu cluster besar
menjadi beberapa cluster (top-down).
‘
Algoritma Divisive
1. Anggap semua data berada dalam sebuah cluster awal.
2. Hitung jarak antar anggota yang terdapat pada cluster.
3. Hitung rata – rata jarak antar anggota.
4. Anggota dengan jarak rata-rata terbesar akan menjadi pembatas
(splinter group).
5. Anggota sisanya kemudian akan menghitung rata – rata jarak dengan
anggota lainnya. (Average Dissimiliarity to Remain Object).
6. Setiap objek menghitung selisih antara Average Dissimiliarity to

Remain Object dengan jaraknya terhadap splinter group.
7. Jika hasil selisih bernilai positif, maka objek tersebut akan bergabung
dengan splinter group untuk membentuk cluster baru.
8. Ulangi Langkah 2 untuk pemecahan cluster pada iterasi berikutnya.
Latihan
Lakukan clustering pada data berikut menggunakan
Complete dan Average Linkage Clustering.
Label Berat Tinggi

A 65 171
B 89 163
C 72 169
D 55 173
Kemudian bandingkan apakah hasil clustering yang

dihasilkan sama atau berbeda dengan clustering
single linkage clustering.

Ch5. Hierarchical Clustering

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ch5. Hierarchical Clustering

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengenalan Pola

pendekatan pertama adalah setiap data dianggap sebagai cluster

Pendekatan kedua adalah setiap data akan dimasukkan ke dalam

Hirarki yang terbentuk dari proses hierarchical clustering

Agglomerative : Single Linkage

1. Anggap setiap data individu adalah cluster.

Single linkage clustering akan mencari pasangan cluster dengan

Setiap data akan dianggap sebagai cluster sendiri sehingga

A 0 25.29822 7.28011 10.19804

 𝑡𝑖𝑑𝑎𝑘 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑙𝑎𝑔𝑖 𝑘𝑎𝑟𝑒𝑛𝑎 𝑠𝑢𝑑𝑎ℎ 𝑑𝑖ℎ𝑖𝑡𝑢𝑛𝑔 𝑠𝑒𝑏𝑒𝑙𝑢𝑚𝑛𝑦𝑎

6. Setiap objek menghitung selisih antara Average Dissimiliarity to

Label Berat Tinggi

Kemudian bandingkan apakah hasil clustering yang

Anda mungkin juga menyukai