Anda di halaman 1dari 3

Nama : M.

Aris Munandar
NIM : 221810396
Kelas : 3SD2
Kode : 3TCO5

CLUSTERING

A. Konsep Dasar
Permasalahan dalam Clustering : Diberikan satu set titik, dengan pengertian
jarak antar titik, kelompokkan titik-titik tersebut menjadi beberapa kelompok,
sehingga
a. Anggota cluster dekat / mirip satu sama lain
b. Anggota cluster yang berbeda tidak sama

Clustering merupakan metode yang cukup sulit karena banyak


pengaplikasiannya tidak hanya melibatkan 2, tetapi 10 atau 10.000 dimensi,
jika hanya 2 dimensi mungkin akan terlihat mudah, namun tidak untuk 10 atau
10.000 dimensi. Ruang berdimensi tinggi terlihat berbeda: Hampir semua
pasang titik berada pada jarak yang kira-kira sama.

B. Analisis Cluster
Analisis cluster (clustering, segmentasi data,…) merupakan kegiatan untuk
menemukan persamaan antar data sesuai dengan karakteristik yang terdapat
pada data tersebut dan mengelompokkan objek data yang serupa ke dalam
cluster. Tipe aplikasi : Sebagai alat yang berdiri sendiri untuk mendapatkan
pengetahuan tentang distribusi data, Sebagai langkah preprocessing untuk
algoritma lain. Kegunaan analisis cluster :
1. Mereduksi data (Peringkasan, Kompresi)
2. Pembuatan dan pengujian hipotesis
3. Prediksi berdasarkan kelompok (mengelompokkan & menemukan
karakteristik / pola untuk setiap kelompok)
4. Menemukan K-nearest Neighbors (Melokalkan penelusuran ke satu
atau sejumlah kecil cluster)
5. Mendeteksi outlier

C. Algoritma Partisi: Konsep Dasar


Metode partisi: Mempartisi database D dari n objek menjadi sekumpulan k
cluster, sehingga jumlah kuadrat jarak diminimalkan (di mana c i adalah
centroid atau medoid cluster Ci)

Diberikan k, temukan partisi dari k cluster yang mengoptimalkan kriteria partisi


yang dipilih
Global Optima l: menghitung semua partisi secara lengkap
Heuristic Methods : algoritma k-means dan k-medoids
k-means (MacQueen’67, Lloyd’57 / ’82): Setiap cluster diwakili oleh pusat
cluster
k-medoids atau PAM (Partition around medoids) (Kaufman & Rousseeuw’87):
Setiap cluster diwakili oleh salah satu objek dalam cluster

D. Tahapan Algoritma K-Means


1. Pilih jumlah klaster k yang diinginkan
2. Inisialisasi k pusat klaster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua
objek ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-
Means adalah Euclidean distance (d) x = x1, x2, . . . , xn, dan y = y1, y2, . .
. , yn merupakan banyaknya n atribut(kolom) antara 2 record
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang.
Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam
klaster tertentu
5. Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika
pusat klaster sudah tidak berubah lagi, maka proses pengklasteran
selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak
berubah lagi (stabil) atau tidak ada penurunan yang signifikan dari nilai
SSE (Sum of Squared Errors)

E. Kelebihan Metode K-Means


1. Efisien: O(n), dengan n adalah jumlah data
2. Implementasi sederhana
3. Menjamin konvergensi
4. Mudah disesuaikan dengan data baru

F. Kekurangan Metode K-Means


1. Tidak bagus untuk cluster dengan kepadatan dan ukuran yang berbeda
2. Pilih k secara manual
3. Peka terhadap data yang menganggu dan outliers
4. Bergantung pada nilai awal
5. Tidak cocok untuk menemukan cluster dengan bentuk non-cembung
6. Penskalaan dengan jumlah dimensi

G. Metode Hierarchical
Menggunakan matriks jarak sebagai kriteria pengelompokan. Metode ini tidak
membutuhkan jumlah cluster k sebagai input, tetapi membutuhkan kondisi
terminasi
1. AGNES (Agglomerative Nesting)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990).
Diimplementasikan dalam paket statistik, misalnya, Splus. Menggunakan
metode single-link dan matriks ketidaksamaan. Gabungkan node yang
memiliki sedikit perbedaan. Lanjutkan dengan gaya non-descending.
Akhirnya semua node termasuk dalam cluster yang sama.
2. DIANA (Divisive Analysis)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990). Diterapkan
dalam paket analisis statistik, misalnya, Splus. Urutan kebalikan dari
AGNES. Akhirnya setiap node membentuk clusternya sendiri.

Anda mungkin juga menyukai