CLUSTERING

Modul Ajar
Pertemuan 5
Clustering
Disusun oleh :
Rahayu Mayang Sari, S.Kom., M.Kom
Fakultas Sains dan Teknologi

Program Studi Sistem Komputer
Universitas Pembangunan Panca Budi
Clustering
Clustering adalah salah satu teknik Data Mining untuk menemukan kumpulan objek
hingga objek-objek dalam satu kelompok yang sama (punya hubungan) dengan yang lain dan
berbeda (tidak berhubungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisa
cluster adalah meminimalkan jarak di dalam cluster dan memaksimalkan jarak antar cluster.
Menurut struktur, clustering terbagi menjadi dua :
1. Pengelompokan berbasis hierarki
Dalam pengelompokan berbasis hierarki (hierarchical clustering), satu data tunggal bias
dianggap sebuah cluster, dua atau lebih cluster kecil dapat bergabung menjadi sebuah cluster
besar, begitu seterusnya sehingga semua data dapat bergabung menjadi sebuah cluster.
2. Pengelompokan berbasis partisi
Dalam pengelompokan berbasis partisi membagi set data ke dalam sejumlah cluster yang
tidak bertumpang tindih antara satu cluster dengan cluster yang lain, artinya setiap data hanya
menjadi anggota satu cluster saja. Seperti metode K-Means, DBSCAN, Self Organizing Map
(SOM).
Clustering data dapat dibedakan menjadi dua tujuan :
1. Understanding, untuk kelompok dokumen-dokumen yang saling berhubungan untuk
proses browsing, pengelompokkan gen dan protein yang mempunyai fungsi yang sama.
2. Summarization , untuk menurunkan ukuran dari dataset yang besar.
Menurut keanggotaan dalam cluster, clustering dapat dibagi menjadi dua, yaitu :
1. Eklusif, sebuah data bias dipastikan hanya menjadi anggota satu cluster dan tidak
menjadi anggota cluster lain.
2. Tumpang tindih, metode clustering yang membolehkan sebuah data menjadi anggota di
lebih dari satu cluster.
Menurut kategori kekompakkan, clustering terbagi menjadi dua, yaitu komplet dan
parsial. Jika semua data bias bergabung menjadi satu, maka bisa dikatakan semua data kompak
menjadi satu cluster, tetapi jika ada satu atau dua data yang tidak bergabung dalam cluster
mayoritas maka data tersebut dikatakan data yang mempunyai perilaku menyimpang. Data yang
menyimpang ini dikenal dengan sebutan outlier, noise, bahkan uninterested background.
K-Means
Algoritma K-Means merupakan algoritma pengelompokan iterative yang melakukan
partisi set data ke dalam sejumlah K cluster yang telah ditetapkan di awal. Algoritma K-Means
sederhana untuk diimplementasikan dan dijalankan, relatif cepat, mudah beradaptasi, umum
penggunaannya dalam praktek. Secara historis, K-Means menjadi salah satu algoritma yang
paling penting dalam bidang Data Mining.
Secara historis, bentuk esensial K-Means ditemukan oleh sejumlah peneliti dari lintas
disiplin ilmu. Yang paling berpengaruh adalah Lloyd (1982), Forgey (1965), Friedman dan
Rubin (1967), dan McQueen (1967). Algoritma K-Means berkembang hingga menjadi konteks
yang lebih besar sebagai algoritma hill-climbing, seperti yang disampaikan oleh Gray dan
Nuhoff (1998).
Parameter yang harus dimasukkan ketika menggunakan algoritma K-Means adalah nilai
K. Nilai K yang digunakan biasanya didasarkan pada informasi yang diketahui sebelumnya
tentang sebenarnya seberapa banyak cluster data yang muncul dalam X, berapa banyak cluster
yang dibutuhkan untuk penerapannya, atau jenis cluster dicari dengan mengeksplorasi atau
melakukan percobaan dengan beberapa nilai K. Berapa nilai K yang dipilih tidak perlu
memahami bagaimana K-Means mempartisi set data X.
Dasar algoritma K-Means adalah sebagai berikut (Eko Prasetyo, 2014) :
1. Inisialisasi : tentukan nilai K sebagai jumlah cluster yang diinginkan dan metrik
ketidakmiripan (jarak) yang diinginkan. Jika perlu, tetapkan ambang batas perubahan
fungsi objektif dan ambang batas perubahan posisi centroid.
2. Pilih K data dari set data X sebagai centroid.
3. Alokasikan semua data ke centroid terdekat dengan jarak metrik jarak yang sudah
ditetapkan .
𝐷 = √(𝑚1 𝑥 − 𝑐1 𝑥 )2 + (𝑚1 𝑦 − 𝑐1 𝑦)2
4. Hitung kembali centoid C berdasarkan data yang mengikuti cluster masing-masing.
1
𝐶𝑘 = ( ) ∑ 𝑑𝑖
𝐶𝑘
5. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu :
a. Perubahan fungsi objektif sudah di bawah ambang batas yang diinginkan.
b. Tidak ada data yang berpindah cluster.
c. Perubahan posisi centroid sudah di bawah ambang batas yang ditetapkan.

Algoritma K-Means mengelompkkan set data X dalam langkah iteratif. Berikut dua
langkah utamanya :
1. Penentuan kembali ID cluster dari semua titik dalam X.
2. Memperbarui representasi cluster (centroid) berdasarkan titik data dalam setiap cluster.
Algoritma K-Means mencapai kondisi konvergen ketika pengalokasian kembali titik data
tidak lagi berubah. Proses dari iterasi ke iterasi hingga dicapai kondisi konvergen juga dapat
diamati dari nilai fungsi objektif yang didapatkan. Pada kondisi yang semakin konvergen dapat
diamati bahwa nilai fungsi objektif akan semakin menurun.
Pemilihan K titik data sebagai centroid awal juga mempengaruhi hasil clustering. Sifat
ini menjadi karakteristik alami K-Means yang dapat mengakibatkan hasil cluster yang didapat
pada percobaan berbeda mendapatkan hasil berbeda. Kondisi seperti ini dikenal dengan solusi
yang local optima, yang artinya algoritma K-Means sangat sensitif terhadap lokasi awal centroid.
Dengan kata lain, inisialisasi set representasi cluster C yang berbeda dapat mengakibatkan hasil
cluster yang berbeda, bahkan pada set data X yang sama. Penyelesaian masalah local optima
dapat diselasaikan dengan menjalankan algoritma beberapa kali dengan inisial centroid yang
berbeda kemudian memilih hasil yang terbaik.
Pemilihan nilai K yang optimal juga menjadi hal yang sulit dilakukan. Jika ada informasi
mengenai set data, seperti jumlah partisi yang secara alami menggambarkan set data, maka
informasi tersebut dapat digunakan untuk memilih nilai K yang optimal. Jika tidak, maka harus
menggunakan beberapa kriteria lain untuk memilih K. Misalnya biaya solusi optimal terhadap
peningkatan K menurun sampai menjadi nol ketika jumlah cluster sama dengan jumlah titik data
berbeda. Hal tersebut menjadi lebih sulit jika menggunakan fungsi objektif untuk secara
langsung membandingkan solusi dengan jumlah cluster berbeda dan mencari nilai K yang
optimal.
Oleh karena itu jika K yang dibutuhkan tidak diketahui, salah satu cara yang digunakan
adalah menjalankan K-Means dengan nilai K berbeda dan kemudian menggunakan beberapa
kriteria yang lain yang cocok untuk memilih satu hasil yang terbaik. Misalnya X-Means
menambahkan istilah kompleksitas (yang meningkat terhadap K) pada fungsi objektif yang asli
dan kemudian mengidentifikasi K yang meminimalkan biaya penyesuaian. Alternatif yang lain
adalah secara progresif meningkatkan jumlah cluster dengan gabungan kriteria pemberhentian
yang cocok. Bicesting K-Means melakukan hal tersebut dengan meletakkan semua data dalam
cluster tunggal dan kemudian secara rekursif memecah cluster paling padat menjadi dua cluster
menggunakan 2-Means.

CLUSTERING

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CLUSTERING

Diunggah oleh

Hak Cipta:

Format Tersedia

Modul Ajar

Fakultas Sains dan Teknologi

Menurut struktur, clustering terbagi menjadi dua :

1. Pengelompokan berbasis hierarki

2. Pengelompokan berbasis partisi

Clustering data dapat dibedakan menjadi dua tujuan :

1. Understanding, untuk kelompok dokumen-dokumen yang saling berhubungan untuk

2. Summarization , untuk menurunkan ukuran dari dataset yang besar.

menjadi anggota cluster lain.

lebih dari satu cluster.

Algoritma K-Means merupakan algoritma pengelompokan iterative yang melakukan

paling penting dalam bidang Data Mining.

memahami bagaimana K-Means mempartisi set data X.

Dasar algoritma K-Means adalah sebagai berikut (Eko Prasetyo, 2014) :

fungsi objektif dan ambang batas perubahan posisi centroid.

2. Pilih K data dari set data X sebagai centroid.

𝐷 = √(𝑚1 𝑥 − 𝑐1 𝑥 )2 + (𝑚1 𝑦 − 𝑐1 𝑦)2

4. Hitung kembali centoid C berdasarkan data yang mengikuti cluster masing-masing.

a. Perubahan fungsi objektif sudah di bawah ambang batas yang diinginkan.

b. Tidak ada data yang berpindah cluster.

c. Perubahan posisi centroid sudah di bawah ambang batas yang ditetapkan.

1. Penentuan kembali ID cluster dari semua titik dalam X.

diamati bahwa nilai fungsi objektif akan semakin menurun.

berbeda kemudian memilih hasil yang terbaik.

Anda mungkin juga menyukai