Anda di halaman 1dari 17

Clustering

Unsupervised Learning
Clustering
clustering adalah sebuah proses untuk mengelompokan data ke dalam
beberapa cluster atau kelompok sehingga data dalam
satu cluster memiliki tingkat kemiripan yang maksimum dan data
antar cluster memiliki kemiripan yang minimum.
Konsep Jarak
K-Means
Ide dasar pada K-Means adalah
dengan mengelompokkan data
sejumlah k-klaster, dimana k
merupakan bilangan bulat positif
lebih dari 1. Dengan
memanfaatkan konsep jarak, data
akan dikelompokkan berdasarkan
jarak terdekat dengan centroid.
Langkah-Langkah K-Means
• Pilih jumlah cluster yang akan dibentuk.
• Pilih nilai centroid (pusat cluster). Centroid yang didefinisikan
sebanyak cluster yang diinginkan.
• Hitung jarak dari setiap centroid ke semua data /data point.
• Kelompokkan setiap data /data point ke centroid terdekat.
• Hitung rata-rata dari setiap cluster yang terbentuk untuk menjadi nilai
centroid yang baru.
• Ulangi langkah ke-3 hingga mencapai konvergensi dimana nilai
centroid sudah tidak berubah lagi.
Alternatif Lain
Dalam mengihitung nilai centroid baru, dapat mengganti metode mean
(rata-rata) dengan metode median ataupun modus (mode). Sehingga
dikenal metode clustering lainnya yang bernama K – Median dan K –
Mode.
DBSCAN
Density-based spatial clustering of
applications with noise (DBSCAN)
merupakan algoritma clustering yang
mengelompokkan titik-titik yang saling
berdekatan dengan suatu jarak yang
ditentukan dan minimum jumlah titik
yang terkumpul.
Dua parameter penting pada DBSCAN
yaitu:
Eps, parameter yang menentukan
jarak/radius/cakupan/jangkauan antar
data.
MinPoints, parameter yang digunakan
untuk menentukan jumlah minimal titik
pada suatu klaster.
Hierarchical Clustering

Hierarchical Clustering adalah


konsep pengelompokkan yang
menggunakan struktur untuk
menentukan urutan dari atas
sampai bawah. Ada dua jenis
metode untuk Hierarchical
Clustering ini, yaitu Divisive dan
Agglomerative
Hierarchical Clustering : Divisive Method
• Metode Divisive
Dalam metode Divisive atau top-
down ini, dataset yang awalnya
adalah satu kesatuan cluster akan
dipartisi menjadi dua cluster yang
paling tidak mirip. Kemudian,
lanjutkan secara rekursif pada
setiap cluster sampai ada satu
cluster untuk setiap
pengamatan/observasi.
Hiearachical Clustering : Agglomerative Method
• Metode Agglomerative
Dalam metode Agglomerative
atau bottom-up setiap
pengamatan dinyatakan sebagai
cluster pada state paling bawah.
Kemudian, hitung kesamaan
(misalnya, jarak) antara masing-
masing klaster dan gabungkan
dua klaster yang paling mirip.
Terakhir, ulangi langkah 2 dan 3
hingga hanya tersisa satu
klaster.
Hiearachical Clustering : Agglomerative Method

Untuk mementukan jarak antar dua buah cluster, ada


beberapa metode yang dapat digunakan. Berikut
penjelasannya.
Single Linkage

Dalam metode ini, jarak dua


buah klaster didefinisikan
dengan jarak terpendek dari
dua buah titik dari masing-
masing klaster.
Complete Linkage

Dalam metode ini, jarak dua


buah klaster didefinisikan
dengan jarak terpanjang dari
dua buah titik dari masing-
masing klaster.
Average Linkage

Dalam metode ini, jarak dua buah


klaster didefinisikan dengan
menghitung rata-rata jarak dari
setiap titik pada klaster satu ke
semua titik pada klaster lainnya.
Ward Linkage

Dalam metode ini, jarak dua buah


klaster didefinisikan dengan
minimum variansi dari klaster
yang akan digabungkan.
Silhouette Score
Silhouette score digunakan dalam
mengukur hasil cluster yang
terbentuk. Nilai silhouette score
berada pada rentang -1 sampai 1.
Semakin tinggi nilai maka semakin
baik klaster yang terbentuk.
𝑏−𝑎
𝑆𝑖𝑙ℎ𝑜𝑢𝑒𝑡𝑡𝑒 𝑆𝑐𝑜𝑟𝑒 =
max 𝑎, 𝑏
THANK YOU
Terima Kasih

Anda mungkin juga menyukai