Pembelajaran Mesin
• Pengelompokan ….
• Unsupervised …
• Distance …
• Centroid …
• Jumlah Kelompok ...
Pendekatan Hierarchical
• Hierarchical Clustering, disebut juga
Connectivity-based Clustering: metode
analisis clustering dengan proses
pembentukan cluster dilakukan secara
bertingkat atau berjenjang.
• Strategi:
– Agglomerative/bottom-up approach
– Divisive/top-down approach
Strategi Divisive
• Pendekatan top-down
yang mengelompokkan
observasi dimulai
dengan memasukkan
semua observasi
sebagai satu cluster
(cluster tunggal).
• Pemisahan dilakukan
secara rekursif dari
keseluruhan observasi
hingga single observasi
membentuk satu cluster.
Strategi Agglomerative
• Pendekatan bottom-up
yang mengelompokkan
observasi dimulai
dengan menganggap
setiap observasi sebagai
singleton cluster.
• Penggabungan cluster
dilakukan secara
rekursif hingga
membentuk satu cluster
yang terdiri dari
keseluruhan hasil
observasi.
Hierarchical Agglomerative
Clustering (HAC)
1.Ide: memastikan data observasi terdekat berakhir
sebagai satu cluster.
2.Tahap awal: koleksi observasi (n) dengan n cluster
terpisah:
a)Setiap cluster mengandung satu observasi: ci={xi}.
3.Ulangi hingga tersisa satu cluster:
a)Tentukan pasangan cluster terdekat: min (ci,cj).
b)Gabung cluster ci, cj menjadi cluster ci+j.
c)Keluarkan ci dan cj dari koleksi observasi.
Hierarchical Agglomerative
Clustering (HAC)
• Buat dendogram: hierarchical tree of clusters
• Teknik penggabungan dengan metrik jarak
– Single linkage
– Complete linkage
– Average linkage
• Kerja algoritma lambat dengan kompleksitas
O(n2d+n3) membentuk dan menelusuri
matriks jarak.
Penggabungan Cluster (linkage)
• Penggabungan dilakukan antar dua cluster.
• Single: penggabungan dua cluster sesuai jarak
terdekat antar anggota-anggota kedua cluster.
• Complete: penggabungan dua cluster
menggunakan jarak terjauh antar anggota-
anggota kedua cluster.
• Average: penggabungan dua cluster
menggunakan jarak rata-rata pasangan antar
anggota-anggota kedua cluster.
Pengukuran Data Buah
Id Buah Diameter Berat
1 7.0 165
2 7.1 170
3 6.5 180
4 6.6 195
5 6.8 200
(Sumber data: perkuliahan K-means oleh Dr. rer. nat. Akmal Junaidi, M.Sc., Senin, 26
Oktober 2020)
Cluster dengan Agglomerative
• Data observasi buah terdiri dari 5
data.
• Gunakan Single Linkage untuk
membentuk cluster dan gambarkan
Dendogram.
• Prinsip kerja kedua linkage lainnya
dapat dilakukan dengan serupa.
Jarak antar cluster
Id 1 2 3 4 5
1 0
2 5.0010 0
3 15.0083 10.0180 0
4 30.0027 25.0050 15.0003 0
5 35.0006 30.0015 20.0022 5.0040 0
1 2 3 4 5
1 2 3 4 5
1&2 0
3 10.0180 0
1 2 3 4 5
Tiga Cluster:
1 & 2; 3; 4 & 5
Empat Cluster:
1 & 2; 3; 4, 5
1 2 3 4 5