Unsupervised Learning
Clustering
clustering adalah sebuah proses untuk mengelompokan data ke dalam
beberapa cluster atau kelompok sehingga data dalam
satu cluster memiliki tingkat kemiripan yang maksimum dan data
antar cluster memiliki kemiripan yang minimum.
Konsep Jarak
K-Means
Ide dasar pada K-Means adalah
dengan mengelompokkan data
sejumlah k-klaster, dimana k
merupakan bilangan bulat positif
lebih dari 1. Dengan
memanfaatkan konsep jarak, data
akan dikelompokkan berdasarkan
jarak terdekat dengan centroid.
Langkah-Langkah K-Means
• Pilih jumlah cluster yang akan dibentuk.
• Pilih nilai centroid (pusat cluster). Centroid yang didefinisikan
sebanyak cluster yang diinginkan.
• Hitung jarak dari setiap centroid ke semua data /data point.
• Kelompokkan setiap data /data point ke centroid terdekat.
• Hitung rata-rata dari setiap cluster yang terbentuk untuk menjadi nilai
centroid yang baru.
• Ulangi langkah ke-3 hingga mencapai konvergensi dimana nilai
centroid sudah tidak berubah lagi.
Alternatif Lain
Dalam mengihitung nilai centroid baru, dapat mengganti metode mean
(rata-rata) dengan metode median ataupun modus (mode). Sehingga
dikenal metode clustering lainnya yang bernama K – Median dan K –
Mode.
DBSCAN
Density-based spatial clustering of
applications with noise (DBSCAN)
merupakan algoritma clustering yang
mengelompokkan titik-titik yang saling
berdekatan dengan suatu jarak yang
ditentukan dan minimum jumlah titik
yang terkumpul.
Dua parameter penting pada DBSCAN
yaitu:
Eps, parameter yang menentukan
jarak/radius/cakupan/jangkauan antar
data.
MinPoints, parameter yang digunakan
untuk menentukan jumlah minimal titik
pada suatu klaster.
Hierarchical Clustering