Anda di halaman 1dari 7

FITRA HARI F

20210801286

HIERARCHICAL CLUSTERING

Hierarchical Clustering, pengelompokan data dilakukan dengan membuat suatu


bagan hirarki (dendrogram) dengan tujuan menunjukkan kemiripan antar data.
Setiap data yang mirip akan memiliki hubungan hirarki yang dekat dan menbentuk
cluster data. Bagan hirarki akan terus terbentuk hingga seluruh data terhubung
dalam bagan hirarki tersebut. Cluster dapat dihasilkan dengan memotong bagan
hirarki pada level tertentu. Beberapa metode dalam hierarchical clustering
yaitu single linkage, complete linkage, average linkage, dan ward’s minimum
variance.

{width=“80%”}
Pada kesempatan kali ini kita akan mendalami terkait Hierarchical Clustering serta
aplikasinya untuk pengolahan data.
HIERARCHICAL CLUSTERING

APPROACH

Secara umum, hierarchical clustering dibagi menjadi dua jenis


yaitu agglomerative dan divisive3. Kedua metode ini dibedakan berdasarkan
pendekatan dalam melakukan pengelompokkan data hingga membentuk
dendrogram, menggunakan bottom-up atau top-down manner.
1. Agglomerative Clustering
Agglomerative clustering biasa disebut juga sebagai agglomerative nesting
(AGNES) dimana cara kerja dalam melakukan pengelompokan data
menggunakan bottom-up manner. Prosesnya dimulai dengan menganggap setiap
data sebagai satu cluster kecil (leaf) yang hanya memiliki satu anggota saja, lalu
pada tahap selanjutnya dua cluster yang memiliki kemiripan akan dikelompokkan
menjadi satu cluster yang lebih besar (nodes). Proses ini akan dilakukan terus
menerus hingga semua data menjadi satu cluster besar (root).
1. Divisive hierarchical clustering
Divisive hierarchical clustering biasa disebut juga sebagai divisive analysis (DIANA)
di mana cara kerja dalam melakukan pengelompokan data menggunakan top-down
manner. Prosesnya dimulai dengan menganggap satu set data sebagai satu cluster
besar (root), lalu dalam setiap iterasinya setiap data yang memiliki karakteristik yang
berbeda akan dipecah menjadi dua cluster yang lebih kecil (nodes) dan proses akan
terus berjalan hingga setiap data menjadi satu cluster kecil (leaf) yang hanya
memiliki satu anggota saja.
Berikut adalah ilustrasi mengenai bagaimana agglomerative dan divisive clustering
bekerja.

{width=“8
0%”}
Selain memahami pendekatan dalam pembuatan dendrogram, mari memahami
bagaimana setiap cluster dapat dibuat dan digabungkan.
(DIS)SIMILARITY MEASURE

Tujuan dari clustering secara umum, baik hierarchical maupun partitional clustering
adalah untuk membuat cluster yang memiliki karakteristik yang sama dalam satu
anggota cluster dan memiliki karakteristik yang berbeda antar clusternya. Konsep
inilah yang mengharuskan proses pembuatan cluster memperhatikan
jarak / (dis)similarity / ukuran ketidakmiripan antar data.
Terdapat beragam metode penghitungan (dis)similarity. Pemilihan metode
(dis)similarity akan menentukan bagaimana kemiripan antar data dihitung. Itulah
mengapa pemilihan metode (dis)similarity menjadi salah satu hal penting dalam
pembuatan hierarchical clustering.
Metode penghitungan (dis)similarity yang sering digunakan adalah euclidean
distance dan manhattan distance, namun bisa saja menggunakan pengukuran jarak
yang lain, bergantung pada data yang sedang kita analisis. Berikut ini formula dalam
perhitungan (dis)similarity dari kedua metode tersebut:
1. Euclidean distance
dxy=
⎷n∑i=1(xi−yi)2dxy=∑i=1n(xi−yi)2
1. Manhattan distance
dxy=n∑i=1|(xi−yi)|dxy=∑i=1n|(xi−yi)|
Ada beberapa pengukuran (dis)similarity yang lain yang bisa digunakan yaitu
menggunakan correlation-based distance. Correlation-based distance biasa
digunakan ketika kita ingin mengetahui bentuk (dis)similarity pada suatu data yang
bergerak “naik” atau “turun” secara bersamaan. Pengukuran (dis)similarity ini sering
digunakan untuk melakukan analisis ekspresi gen atau dalam dunia marketing,
ketika kita ingin melakukan customer segmentation berdasarkan kesamaan barang
yang dibeli oleh pelanggan tanpa memperhatikan banyak barang yang mereka beli.
Euclidean distance dan manhattan distance cenderung memiliki konsep yang
berkebalikan dengan correlation-based distance, data yang akan dikelompokkan
bersama merupakan data yang memiliki karakteristik nilai yang sama, entah sama
besarnya atau sama kecilnya. Pengukuran ini biasa digunakan pada
kasus customer segmentation yang memperhatikan banyaknya pembelian dari
pelanggan, segmentasi daerah yang memiliki kasus COVID tinggi/rendah, dan lain
sebagainya4.
Pada R, kita dapat menggunakan fungsi dist() untuk menghitung (dis)similarity antar
data. Secara default, fungsi dist() akan menghitung euclidean distance antar data.
Selanjutnya, nilai (dis)similarity antar data ini akan dibentuk menjadi distance
matrix. Kemudian, distance matrix tersebut akan diolah untuk penyusunan
dendrogram.
LINKAGE METHOD

Dalam hierarchical clustering, selain menghitung (dis)similarity antar data, diperlukan


juga cara untuk menghitung (dis)similarity antar cluster sehingga dapat terbentuk
dendrogram dari cluster-cluster yang dekat. Proses penggabungan cluster-cluster
kecil menjadi satu dendrogram utuh dilakukan melalui beberapa
pendekatan Linkage Method. Berikut ini linkage method yang sering digunakan
pada agglomerative approach:
1. Complete Linkage / Maximum Linkage
2. Single Linkage / Minimum Linkage
3. Average Linkage
4. Centroid Linkage
5. Ward’s minimum Variance
COMPLETE/MAXIMUM LINKAGE

Pengukuran (dis)similarity atau jarak antar cluster dilakukan dengan mengukur


terlebih dahulu jarak antar tiap observasi dari cluster yang berbeda (pairwise
distances). Jarak paling tinggi (maximum distance) akan menjadi ukuran
(dis)similarity antar cluster. Kemudian, dendrogram akan terbentuk dari cluster-
cluster yang memiliki (dis)similarity paling kecil. Hal ini membuat dendrogram yang
terbentuk menjadi lebih terpisah antar clusternya (terbentuk cluster yang “compact”).
Berikut formula jarak antar cluster menggunakan complete linkage:
d12=maxijd(Xi,Yj)d12=maxijd(Xi,Yj)
di mana:

 X1,X2,...,XkX1,X2,...,Xk : observasi pada cluster 1


 Y1,Y2,...,YkY1,Y2,...,Yk : observasi pada cluster 2
 d(X,Y)d(X,Y) : jarak antara data pada cluster 1 dengan data pada cluster 2
SINGLE/MINIMUM LINKAGE

Pengukuran (dis)similarity atau jarak antar cluster dilakukan dengan mengukur


terlebih dahulu jarak antar tiap observasi dari cluster yang berbeda pairwise
distances. Jarak paling kecil (minimum distance) akan menjadi ukuran (dis)similarity
antar cluster. Dendrogram akan terbentuk dari cluster-cluster yang memiliki
(dis)similarity paling kecil. Hal ini membuat dendrogram yang terbentuk menjadi lebih
“loose” atau berdekatan antar clusternya.
Berikut formula jarak antar cluster menggunakan single linkage:
d12=minijd(Xi,Yj)d12=minijd(Xi,Yj)
AVERAGE LINKAGE

Pengukuran (dis)similarity atau jarak antar cluster dilakukan dengan mengukur


terlebih dahulu jarak antar tiap observasi dari cluster yang berbeda pairwise
distances. Kemudian, dihitung rata-rata jarak dari pairwise distance tersebut dan
nilai tersebut akan menjadi ukuran (dis)similarity antar cluster. Dendrogram akan
terbentuk dari cluster-cluster yang memiliki (dis)similarity paling kecil. Umumnya
metode ini akan menghasilkan cluster yang tidak terlalu “loose” maupun “compact”.
Berikut formula jarak antar cluster menggunakan average linkage:
d12=1klk∑i=1l∑j=1d(Xi,Yj)d12=1kl∑i=1k∑j=1ld(Xi,Yj)
CENTROID LINKAGE

Perhitungan (dis)similarity atau jarak antar cluster dilakukan dengan mengukur jarak
antar centroid pada dua cluster. Perhitungan centroid disini menggunakan rata-rata
pada suatu variabel x. Dendrogram yang terbentuk akan berdasarkan cluster
dengan jarak antar centroid paling kecil.
Berikut formula jarak antar cluster menggunakan centroid linkage:
d12=d(¯X,¯Y)d12=d(X¯,Y¯)
WARD’S MINIMUM VARIANCE

Pada metode ini, di tiap iterasinya akan dibentuk cluster-cluster yang kemudian
dihitung nilai within sum of square tiap cluster (WSS). WSS dapat diartikan sebagai
jumlah dari jarak tiap observasi ke nilai tengah cluster. Cluster-cluster yang
menghasilkan within sum of square terkecil akan diambil kemudian digabungkan
hingga membentuk satu dendrogram utuh.
Berikut adalah ilustrasi untuk kelima jenis linkage di atas5:
{width=“80%”}
Linkage method akan menentukan rupa dari dendrogram yang terbentuk. Telah
dilakukan diskusi terkait beragam linkage method dan pemilihannya disini
INTERPRETASI DENDROGRAM

Setelah menghasilkan dendrogram dari hierarchical clustering, sudah sepatutnya


kita perlu mampu membaca dendrogram tersebut. Sebagai contoh, berikut adalah
gambar kedekatan beberapa instrumen musik yang digambarkan dengan
dendrogram:
{width=“80%”}
Dendrogram sejatinya merupakan struktur yang menggambarkan kemiripan antar
data. Tiap data pada awalnya diletakan di suatu level dasar dimana tiap data berdiri
sendiri sebagai satu cluster tunggal. Pada contoh di atas, tiap instrumen musik
merupakan satu cluster tunggal di bagian dasar dendrogram.
Kemudian, data-data terdekat akan digabungkan menjadi satu cluster dan
dihubungkan dengan suatu garis. Contohnya cluster instrumen “piccolo” & “flute” dan
cluster instrumen “basoon” & “clarinet”. Garis tersebut dimulai dari titik data dan
bersatu di titik tertentu.
Panjang garis antar data (dihitung tegak lurus dari titik data hingga titik kedua
garis bersatu) mewakilkan nilai (dis)similarity antar data. Disini kita bisa
menyimpulkan bahwa “piccolo” dengan “flute” memiliki kedekatan yang lebih tinggi
dibandingkan “basoon” dengan “clarinet”. Kita juga bisa mengetahui bahwa “flute”
memiliki kedekatan yang lebih tinggi dengan “clarinet” dibandingkan dengan
“trumpet”. Hal ini karena “flute” dan “clarinet” memiliki panjang garis antar data yang
lebih pendek dibandingkan antara “flute” dan “trumpet”.
Pada partitional clustering yang mungkin lebih umum kita kenal (contohnya k-
means), pengguna perlu menentukan jumlah k cluster yang ingin dibentuk. Namun,
pada hierarchical clustering hal tersebut tidak diwajibkan. Hal ini berangkat dari
tujuan awal hierarchical clustering yang fokus pada mengetahui kedekatan antar
data (bukan mengetahui partisi antar data).
Meskipun begitu, kita tetap dapat membuat cluster-cluster data dengan
memotong dendrogram pada nilai (dis)similarity tertentu. Pada contoh
dendrogram di atas, kita membuat partisi berupa cluster “strings”, “woodwind”,
“brass”, dan “percussion”.
Layaknya menentukan kedekatan antar data, kita juga dapat menetukan kedekatan
antar cluster dengan memperhitungkan panjang garis antar data. Dari dendrogram di
atas, kita dapat menarik insight bahwa cluster “woodwind” lebih dekat dengan cluster
“strings” dibandingkan dengan cluster “brass” dan “percussion”.
Bila disimpulkan, semakin panjang garis antar data maka semakin berbeda
antar data/cluster tersebut, dan semakin pendek garis antar data maka
semakin mirip antar data/cluster tersebut. Dari pemahaman ini, kita juga bisa
menentukan manakah data yang berdekatan/berjauhan dengan data yang sedang
kita analisis.
Hal lain yang dapat diperhatikan dalam analisis cluster adalah adanya kemungkinan
untuk memperoleh cluster yang hanya terdiri dari satu atau sedikit sekali anggota.
Ketika hal tersebut terjadi, kita perlu melakukan pengecekan kembali pada data
yang kita miliki. Hal ini bisa disebabkan karena adanya data yang cukup berbeda
dengan yang lainnya atau biasa disebut outlier / anomali.

Anda mungkin juga menyukai