Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu
metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik
yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke
‘wilayah’ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua
pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan
hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based
clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-
cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical
clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang
berjauhan.
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini
adalah metode k-means. K-means merupakan salah satu metode data clustering non hirarki yang
berusaha mempartisi data ke dalam cluster / kelompok sehingga data yang memiliki karakteristik
sama dikelompokkan dalam satu cluster yang sama dan data yang memiliki karakteristik berbeda
dikelompokkan dalam cluster yang lain. Adapun tujuan dari data clustering adalah untuk
meminimalisasi objective function yang diset dalam proses clustering, yang pada umumnya
berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalkan variasi antar
cluster. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur
sebagai berikut:
Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah
di bawah threshold
Fuzzy C-Means (FCM) adalah suatu teknik pengelompokan data yang keberadaan tiap-tiap
data dalam suatu kelompok ditentukan oleh nilai atau derajat keanggotaan tertentu dan teknik ini
pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981. Fuzzy C-Means menerapkan
pengelompokan fuzzy, dimana setiap data dapat menjadi anggota dari beberapa cluster dengan
derajat keanggotaan yang berbeda-beda pada setiap cluster. Fuzzy C-Means merupakan
algoritma iteratif, yang menerapkan iterasi pada proses clustering data. Tujuan dari Fuzzy C-
Means adalah untuk mendapatkan pusat cluster yang nantinya akan digunakan untuk mengetahui
data yang masuk ke dalam sebuah cluster.
Dalam teori fuzzy, keanggotaan sebuah data tidak diberikan nilai secara tegas dengan nilai
1(menjadi anggota) dan nilai 0 (tidak menjadi anggota), melaikan dengan suatu nilai derajat
keanggotaannya yang jangkauan nilainya 0 sampai 1. Nilai keanggotaan suatu data dalam sebuah
himpunan menjadi 0 ketika sama sekali tidak menjadi anggota dan menjadi 1 ketika menjadi
anggota secara penuh dalam suatu himpunan.Umumnya nilai keanggotaannya antara 0 sampai 1.
semakin tinggi nilai keanggotaanya semakin tinggi derajat keanggotaanya dan semakin kecil
maka semakin rendah derajat keanggotaanya. Kaitannya dengan K-means sebenarnya FCM
merupakan versi fuzzy dan k-meansdengan beberapa modifikasi yang membedakan dengen K-
Means.
Konsep dari Fuzzy C-Means pertama kali adalah menentukan pusat cluster, yang akan
menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih
belum akurat. Tiap-tiap titik data memiliki derajat keanggotaan untuk tiap-tiap cluster. Dengan
cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik data secara berulang, maka
akan dapat dilihat bahwa pusat cluster akan bergerak menuju lokasi yang tepat. Perulangan ini
didasarkan pada minimasi fungsi obyektif yang menggambarkan jarak dari titik data yang
diberikan kepusat cluster yang terbobot oleh derajat keanggotaan titik data tersebut. Output dari
Fuzzy C-Means merupakan deretan usat cluster dan beberapa derajat keanggotaan untuk tiap-tiap
titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system.
Kelebihan dari metode fuzzy C-means adalah sederhana, mudah diimplementasikan, memiliki
kemampuan untuk mengelompokkan data yang besar, dan Running timenya linear O( linear
O(NCT).
Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip
dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap
cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center,
penggunaan distribusi statistik ini mengijinkan kita untuk:
Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses
pemodelan karakteristik dari masing-masing cluster
Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk
data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial,
normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson,
von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan
data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk
memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki
yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering
diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering.
Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster,
dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya
yaitu dari satu cluster menjadi N cluster.