Anda di halaman 1dari 13

HDBSCAN dengan R

Pakage dbscan mencakup implementasi secara cepat dari Hierarchical DBSCAN (HDBSCAN)
dan algoritma terkaitnya untuk platform R. Sketsa ini memperkenalkan cara berinteraksi dengan
fitur-fitur ini.
Pada kali ini digunakan dataset “moons” yang terdirii dari dua variabel yaitu X dan Y. Dataset
“moons” berisi 100 titik 2-d, setengahnya terdapat dalam dua “moons” atau "gumpalan" (masing-
masing 25 titik gumpalan), dan setengah lainnya dalam bentuk bulan sabit yang menghadap
asimetris. Ketiga bentuk tersebut semuanya dapat dipisahkan secara linier.
Untuk menjalankan algoritme HDBSCAN, cukup menggunakan kumpulan data dan nilai
parameter (tunggal) 'minPts' ke fungsi hdbscan.

Hasil 'flat' disimpan di anggota 'cluster'. Titik noise senilai 0, jadi bertambah 1.

Hasilnya cocok dengan gagasan intuitif tentang seperti apa kluster 'similar' ketika bermanifestasi
dalam bentuk yang berubah-ubah.
Hieararchical DBSCAN

Objek HDBSCAN yang dihasilkan berisi representasi hierarkis dari setiap kemungkinan
pengelompokan DBSCAN*. Representasi hierarkis ini disimpan secara kompak dalam anggota
'hc' yang sudah dikenal dari objek HDBSCAN yang dihasilkan, dalam format yang sama dengan
objek pengelompokan hierarki tradisional yang dibentuk menggunakan metode 'hclust' dari pakage
stats.

Perhatikan bahwa meskipun objek tersedia untuk digunakan dengan salah satu metode yang
bekerja dengan objek 'hclust', metode jarak yang digunakan HDBSCAN (mutual reachability
distance) bukanlah metode yang tersedia untuk fungsi hclust. Hirarki ini, dilambangkan dengan
"HDBSCAN*hierarchy", dapat divisualisasikan menggunakan metode plot bawaan dari pakage
stats.
DBSCAN* vs cutting the HDBSCAN Tree

Seperti namanya, hal yang menarik tentang HDBSCAN*hierarchy adalah bahwa setiap 'cut' global
setara dengan menjalankan DBSCAN* (DBSCAN tanpa border points) pada tree’s cutting
threshold eps (dengan asumsi pengaturan parameter minPts yang sama digunakan). Tapi bisakah
ini diverifikasi secara manual? Menggunakan fungsi yang dimodifikasi untuk membedakan noise
menggunakan jarak core sebesar 0 (karena metode stats cuttree tidak menetapkan singletons
dengan 0), hasilnya dapat ditunjukkan identik.
Simplified Tree

The HDBSCAN* hierarchy is useful, but for larger datasets it can become overly cumbersome
since every data point is represented as a leaf somewhere in the hierarchy. The hdbscan object
comes with a powerful visualization tool that plots the ‘simplified’ hierarchy(see [2] for more
details), which shows cluster-wide changes over an infinite number of eps thresholds. It is the
default visualization dispatched by the ‘plot’ method
Hirarki HDBSCAN* berguna, tetapi untuk kumpulan data yang lebih besar dapat menjadi terlalu
rumit karena setiap titik data direpresentasikan sebagai leaf di suatu tempat dalam hierarki. Objek
hdbscan dilengkapi dengan alat visualisasi yang kuat yang memplot hierarki yang ‘simplified’,
yang menunjukkan perubahan di seluruh cluster pada jumlah eps thresholds yang tak terbatas. Ini
adalah visualisasi default dengan metode 'plot'

Pada plot dapat merubah warna


Serta merubah skala lebar untuk masing-masing perangkat dengan tepat

Bahkan dapat menguraikan cluster yang paling 'stabil' yang dilaporkan dalam flat solution.

.
Cluster Stability Scores

Note the stability scores correspond to the labels on the condensed tree, but the cluster assignments
in the cluster member element do not correspond to the labels in the condensed tree. Also, note
that these scores represent the stability scores before the traversal up the tree that updates the scores
based on the children.
Perhatikan skor stabilitas sesuai dengan label pada condensed tree, tetapi cluster assignments di
elemen anggota cluster tidak sesuai dengan label di condensed tree. Juga, perhatikan bahwa skor
ini mewakili skor stabilitas sebelum melintasi tree yang memperbarui skor berdasarkan children.

'Probabilitas' keanggotaan poin individu berada dalam elemen anggota probabilitas.

Ini dapat digunakan untuk menunjukkan 'derajat keanggotaan klaster' dengan, misalnya, memplot
titik dengan transparansi yang sesuai dengan derajat keanggotaannya.

.
Global-Local Outlier Score from Hierarchies

Publikasi jurnal terbaru di HDBSCAN hadir dengan ukuran outlier baru yang menghitung skor
outlier dari setiap titik dalam data berdasarkan properti hierarki lokal dan global, yang
didefinisikan sebagai Skor Outlier Global-Lokal dari Hierarchies (GLOSH). Contoh dari hal ini
ditunjukkan di bawah ini, di mana tidak seperti probabilitas keanggotaan, opacity dari titik
mewakili jumlah "outlierness" yang diwakili oleh titik tersebut. Secara tradisional, outlier
umumnya dianggap sebagai pengamatan yang menyimpang dari nilai yang diharapkan dari
distribusi yang mendasarinya, di mana ukuran penyimpangan yang dianggap signifikan ditentukan
oleh beberapa nilai ambang statistik.
Catatan: Karena perbedaan yang dibuat bahwa titik-titik noise, titik-titik yang tidak ditetapkan ke
cluster mana pun, harus dipertimbangkan dalam definisi outlier, skor outlier yang dihitung bukan
hanya skor yang berbanding terbalik dengan probabilitas keanggotaan.

.
A Larger Clustering Example

A larger example dataset may be more beneficial in explicitly revealing the usefulness of
HDSBCAN. Consider the ‘DS3’ dataset originally published as part of a benchmark test dataset
for the Chameleon clustering algorithm [5]. It’s clear that the shapes in this dataset can be
distinguished sufficiently well by a human, however, it is well known that many clustering
algorithms fail to capture the intuitive structure.
Kumpulan data yang sangat besar mungkin lebih tepat menggunakan HDSBCAN secara eksplisit.
Dataset 'DS3' yang awalnya diterbitkan sebagai bagian dari dataset uji benchmark untuk algoritma
pengelompokan Chameleon. Jelas bahwa bentuk dalam kumpulan data ini dapat dibedakan dengan
cukup baik oleh manusia, namun, diketahui bahwa banyak algoritma pengelompokan gagal
menangkap struktur intuitif.
Dataset ‘DS3’ berisi 8000 titik 2-d, dengan 6 bentuk yang tampak "natural", semuanya memiliki
bentuk seperti sinusoid yang berpotongan dengan setiap cluster.
Menggunakan parameter tunggal dengan minPts sebesar 25, HDBSCAN membentuk 6 cluster

Menandai noise dengan tepat dan menyoroti poin berdasarkan 'probabilitas keanggotaan' seperti
sebelumnya, visualisasi struktur cluster dapat dengan mudah dibuat.

Simplified tree dapat sangat berguna untuk kumpulan data yang besar.
Performance

Dengan DBSCAN, kinerja tergantung pada pengaturan parameter, terutama pada radius di mana
titik dianggap sebagai kandidat untuk pengelompokan ('eps'), dan umumnya kurang pada
parameter 'minPts'. Secara intuitif, nilai eps yang lebih besar meningkatkan waktu komputasi.
.

Reference

1. Martin Ester, Hans-Peter Kriegel, Joerg Sander, Xiaowei Xu (1996). A Density-Based


Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Institute for
Computer Science, University of Munich. Proceedings of 2nd International Conference on
Knowledge Discovery and Data Mining (KDD-96).
2. Campello, Ricardo JGB, Davoud Moulavi, Arthur Zimek, and Jörg Sander. “A framework
for semi-supervised and unsupervised optimal extraction of clusters from hierarchies.” Data
Mining and Knowledge Discovery 27, no. 3 (2013): 344-371.
3. Campello, Ricardo JGB, Davoud Moulavi, and Joerg Sander. “Density-based clustering
based on hierarchical density estimates.” In Pacific-Asia Conference on Knowledge
Discovery and Data Mining, pp. 160-172. Springer Berlin Heidelberg, 2013.
4. Campello, Ricardo JGB, Davoud Moulavi, Arthur Zimek, and Jörg Sander. “Hierarchical
density estimates for data clustering, visualization, and outlier detection.” ACM Transactions
on Knowledge Discovery from Data (TKDD) 10, no. 1 (2015): 5.
5. Karypis, George, Eui-Hong Han, and Vipin Kumar. “Chameleon: Hierarchical clustering
using dynamic modeling.” Computer 32, no. 8 (1999): 68-75.
6. Hahsler M, Piekenbrock M, Doran D (2019). “dbscan: Fast Density-Based Clustering with
R.” Journal of Statistical Software, 91(1), 1-30. doi: 10.18637/jss.v091.i01
7. https://cran.r-project.org/web/packages/dbscan/vignettes/hdbscan.html

Anda mungkin juga menyukai