Anda di halaman 1dari 26

Agglomerative Clustering

Pembelajaran Mesin

Dr. rer. nat. Akmal Junaidi, M.Sc

Jurusan Ilmu Komputer


FMIPA – Universitas Lampung
Clustering: Last Lesson

• Pengelompokan ….
• Unsupervised …
• Distance …
• Centroid …
• Jumlah Kelompok ...
Pendekatan Hierarchical
• Hierarchical Clustering, disebut juga
Connectivity-based Clustering: metode
analisis clustering dengan proses
pembentukan cluster dilakukan secara
bertingkat atau berjenjang.
• Strategi:
– Agglomerative/bottom-up approach
– Divisive/top-down approach
Strategi Divisive
• Pendekatan top-down
yang mengelompokkan
observasi dimulai
dengan memasukkan
semua observasi
sebagai satu cluster
(cluster tunggal).
• Pemisahan dilakukan
secara rekursif dari
keseluruhan observasi
hingga single observasi
membentuk satu cluster.
Strategi Agglomerative
• Pendekatan bottom-up
yang mengelompokkan
observasi dimulai
dengan menganggap
setiap observasi sebagai
singleton cluster.
• Penggabungan cluster
dilakukan secara
rekursif hingga
membentuk satu cluster
yang terdiri dari
keseluruhan hasil
observasi.
Hierarchical Agglomerative
Clustering (HAC)
1.Ide: memastikan data observasi terdekat berakhir
sebagai satu cluster.
2.Tahap awal: koleksi observasi (n) dengan n cluster
terpisah:
a)Setiap cluster mengandung satu observasi: ci={xi}.
3.Ulangi hingga tersisa satu cluster:
a)Tentukan pasangan cluster terdekat: min (ci,cj).
b)Gabung cluster ci, cj menjadi cluster ci+j.
c)Keluarkan ci dan cj dari koleksi observasi.
Hierarchical Agglomerative
Clustering (HAC)
• Buat dendogram: hierarchical tree of clusters
• Teknik penggabungan dengan metrik jarak
– Single linkage
– Complete linkage
– Average linkage
• Kerja algoritma lambat dengan kompleksitas
O(n2d+n3) membentuk dan menelusuri
matriks jarak.
Penggabungan Cluster (linkage)
• Penggabungan dilakukan antar dua cluster.
• Single: penggabungan dua cluster sesuai jarak
terdekat antar anggota-anggota kedua cluster.
• Complete: penggabungan dua cluster
menggunakan jarak terjauh antar anggota-
anggota kedua cluster.
• Average: penggabungan dua cluster
menggunakan jarak rata-rata pasangan antar
anggota-anggota kedua cluster.
Pengukuran Data Buah
Id Buah Diameter Berat
1 7.0 165
2 7.1 170
3 6.5 180
4 6.6 195
5 6.8 200

(Sumber data: perkuliahan K-means oleh Dr. rer. nat. Akmal Junaidi, M.Sc., Senin, 26
Oktober 2020)
Cluster dengan Agglomerative
• Data observasi buah terdiri dari 5
data.
• Gunakan Single Linkage untuk
membentuk cluster dan gambarkan
Dendogram.
• Prinsip kerja kedua linkage lainnya
dapat dilakukan dengan serupa.
Jarak antar cluster
Id 1 2 3 4 5
1 0
2 5.0010 0
3 15.0083 10.0180 0
4 30.0027 25.0050 15.0003 0
5 35.0006 30.0015 20.0022 5.0040 0

Jarak cluster terdekat adalah cluster 1 dan cluster 2,


sehingga keduanya digabungkan.
Konstruksi Dendogram

1 2 3 4 5

∙ Update distance table setelah cluster 1 dan 2


digabung.
∙ Jumlah cluster berkurang menjadi 4.
∙ Perhitungan ulang jarak antar cluster.
Cluster Distance
• Jarak cluster 1 & 2 dengan cluster 3.
– min dist [(1&2,3)] = min [dist (1,3),(2,3)]
– Min [15.0083 , 10.0180] = 10.0180
• Jarak cluster 1 & 2 dengan cluster 4.
– min dist [(1&2,4)] = min [dist (1,4),(2,4)]
– Min [30.0027 , 25.0050] = 25.0050
• Jarak cluster 1 & 2 dengan cluster 5.
– min dist [(1&2,5)] = min [dist (1,5),(2,5)]
– Min [35.0006 , 30.0015] = 30.0015
Jarak antar cluster
Id 1&2 3 4 5
1&2 0
3 10.0180 0
4 25.0050 15.0003 0
5 30.0015 20.0022 5.0040 0

Jarak cluster terdekat adalah cluster 4 dan cluster 5,


sehingga keduanya digabungkan menjadi satu cluster
Konstruksi Dendogram

1 2 3 4 5

∙ Update distance table setelah cluster 4 dan 5


digabung.
∙ Jumlah cluster berkurang menjadi 3.
∙ Perhitungan ulang jarak antar cluster.
Cluster Distance
• Jarak cluster 1 & 2 dengan cluster 4 & 5.
– min dist [(1&2,4&5)] = min [dist (1&2,4)(1&2,5)]
– Min [25.0050 , 30.0015] = 25.0050
• Jarak cluster 4 & 5 dengan cluster 3.
– min dist [(4&5,3)] = min [dist (4,3),(5,3)]
– Min [15.0003 , 20.0022] = 15.0003
Jarak antar cluster
Id 1&2 3 4&5

1&2 0

3 10.0180 0

4&5 25.0050 15.0003 0

Jarak cluster terdekat adalah cluster 1 & 2 dan cluster 3,


sehingga keduanya digabungkan menjadi satu cluster
Konstruksi Dendogram

1 2 3 4 5

∙ Update distance table setelah cluster 1,2 dan 3


digabung.
∙ Jumlah cluster berkurang menjadi 2.
∙ Perhitungan ulang jarak antar cluster.
Iterasi Terakhir
• Proses serupa dilakukan untuk iterasi
terakhir.
• Cluster akhir terdiri dari semua data
observasi.
• Pengelompokan dapat dilakukan dengan
memotong dendogram dengan threshold
tertentu.
Pemotongan Dendogram
Dua Cluster:
1 & 2 & 3; 4 & 5

Tiga Cluster:
1 & 2; 3; 4 & 5
Empat Cluster:
1 & 2; 3; 4, 5
1 2 3 4 5

Id 1, 2 dan 3 adalah buah Apel


Id 4 dan 5 adalah buah Alpukat
Analisis: Kekuatan Single Link

Data Awal Dua Cluster

Dapat menangani bentuk-bentuk yang tidak global


Analisis: Kelemahan Single Link

Data Awal Dua Cluster

Sensitif terhadap noise dan outlier


Analisis: Kekuatan Complete Link

Data Awal Dua Cluster

Kurang sensitif terhadap noise dan outlier


Distance Terbaik?
• Setiap pendekatan memiliki kelebihan dan
kekurangan.
• Single link:
○ Dapat menelusuri cluster yang bentuknya tidak
reguler
○ Sensitif terhadap noise dan outlier
• Complete link, average link,dan jarak centroid:
○ Tahan terhadap noise
○ Cenderung memecah cluster yang besar
Kelemahan Complete Link, Average
Link, dan Distance Concept

Data Awal Tiga Cluster

Metode ini cenderung memecah cluster


TERIMA KASIH

Anda mungkin juga menyukai