20210801286
HIERARCHICAL CLUSTERING
{width=“80%”}
Pada kesempatan kali ini kita akan mendalami terkait Hierarchical Clustering serta
aplikasinya untuk pengolahan data.
HIERARCHICAL CLUSTERING
APPROACH
{width=“8
0%”}
Selain memahami pendekatan dalam pembuatan dendrogram, mari memahami
bagaimana setiap cluster dapat dibuat dan digabungkan.
(DIS)SIMILARITY MEASURE
Tujuan dari clustering secara umum, baik hierarchical maupun partitional clustering
adalah untuk membuat cluster yang memiliki karakteristik yang sama dalam satu
anggota cluster dan memiliki karakteristik yang berbeda antar clusternya. Konsep
inilah yang mengharuskan proses pembuatan cluster memperhatikan
jarak / (dis)similarity / ukuran ketidakmiripan antar data.
Terdapat beragam metode penghitungan (dis)similarity. Pemilihan metode
(dis)similarity akan menentukan bagaimana kemiripan antar data dihitung. Itulah
mengapa pemilihan metode (dis)similarity menjadi salah satu hal penting dalam
pembuatan hierarchical clustering.
Metode penghitungan (dis)similarity yang sering digunakan adalah euclidean
distance dan manhattan distance, namun bisa saja menggunakan pengukuran jarak
yang lain, bergantung pada data yang sedang kita analisis. Berikut ini formula dalam
perhitungan (dis)similarity dari kedua metode tersebut:
1. Euclidean distance
dxy=
⎷n∑i=1(xi−yi)2dxy=∑i=1n(xi−yi)2
1. Manhattan distance
dxy=n∑i=1|(xi−yi)|dxy=∑i=1n|(xi−yi)|
Ada beberapa pengukuran (dis)similarity yang lain yang bisa digunakan yaitu
menggunakan correlation-based distance. Correlation-based distance biasa
digunakan ketika kita ingin mengetahui bentuk (dis)similarity pada suatu data yang
bergerak “naik” atau “turun” secara bersamaan. Pengukuran (dis)similarity ini sering
digunakan untuk melakukan analisis ekspresi gen atau dalam dunia marketing,
ketika kita ingin melakukan customer segmentation berdasarkan kesamaan barang
yang dibeli oleh pelanggan tanpa memperhatikan banyak barang yang mereka beli.
Euclidean distance dan manhattan distance cenderung memiliki konsep yang
berkebalikan dengan correlation-based distance, data yang akan dikelompokkan
bersama merupakan data yang memiliki karakteristik nilai yang sama, entah sama
besarnya atau sama kecilnya. Pengukuran ini biasa digunakan pada
kasus customer segmentation yang memperhatikan banyaknya pembelian dari
pelanggan, segmentasi daerah yang memiliki kasus COVID tinggi/rendah, dan lain
sebagainya4.
Pada R, kita dapat menggunakan fungsi dist() untuk menghitung (dis)similarity antar
data. Secara default, fungsi dist() akan menghitung euclidean distance antar data.
Selanjutnya, nilai (dis)similarity antar data ini akan dibentuk menjadi distance
matrix. Kemudian, distance matrix tersebut akan diolah untuk penyusunan
dendrogram.
LINKAGE METHOD
Perhitungan (dis)similarity atau jarak antar cluster dilakukan dengan mengukur jarak
antar centroid pada dua cluster. Perhitungan centroid disini menggunakan rata-rata
pada suatu variabel x. Dendrogram yang terbentuk akan berdasarkan cluster
dengan jarak antar centroid paling kecil.
Berikut formula jarak antar cluster menggunakan centroid linkage:
d12=d(¯X,¯Y)d12=d(X¯,Y¯)
WARD’S MINIMUM VARIANCE
Pada metode ini, di tiap iterasinya akan dibentuk cluster-cluster yang kemudian
dihitung nilai within sum of square tiap cluster (WSS). WSS dapat diartikan sebagai
jumlah dari jarak tiap observasi ke nilai tengah cluster. Cluster-cluster yang
menghasilkan within sum of square terkecil akan diambil kemudian digabungkan
hingga membentuk satu dendrogram utuh.
Berikut adalah ilustrasi untuk kelima jenis linkage di atas5:
{width=“80%”}
Linkage method akan menentukan rupa dari dendrogram yang terbentuk. Telah
dilakukan diskusi terkait beragam linkage method dan pemilihannya disini
INTERPRETASI DENDROGRAM