DMKM Aris

Nama : M.
Aris Munandar
NIM : 221810396
Kelas : 3SD2
Kode : 3TCO5
CLUSTERING
A. Konsep Dasar
Permasalahan dalam Clustering : Diberikan satu set titik, dengan pengertian
jarak antar titik, kelompokkan titik-titik tersebut menjadi beberapa kelompok,
sehingga
a. Anggota cluster dekat / mirip satu sama lain
b. Anggota cluster yang berbeda tidak sama
Clustering merupakan metode yang cukup sulit karena banyak

pengaplikasiannya tidak hanya melibatkan 2, tetapi 10 atau 10.000 dimensi,
jika hanya 2 dimensi mungkin akan terlihat mudah, namun tidak untuk 10 atau
10.000 dimensi. Ruang berdimensi tinggi terlihat berbeda: Hampir semua
pasang titik berada pada jarak yang kira-kira sama.
B. Analisis Cluster
Analisis cluster (clustering, segmentasi data,…) merupakan kegiatan untuk
menemukan persamaan antar data sesuai dengan karakteristik yang terdapat
pada data tersebut dan mengelompokkan objek data yang serupa ke dalam
cluster. Tipe aplikasi : Sebagai alat yang berdiri sendiri untuk mendapatkan
pengetahuan tentang distribusi data, Sebagai langkah preprocessing untuk
algoritma lain. Kegunaan analisis cluster :
1. Mereduksi data (Peringkasan, Kompresi)
2. Pembuatan dan pengujian hipotesis
3. Prediksi berdasarkan kelompok (mengelompokkan & menemukan
karakteristik / pola untuk setiap kelompok)
4. Menemukan K-nearest Neighbors (Melokalkan penelusuran ke satu
atau sejumlah kecil cluster)
5. Mendeteksi outlier
C. Algoritma Partisi: Konsep Dasar

Metode partisi: Mempartisi database D dari n objek menjadi sekumpulan k
cluster, sehingga jumlah kuadrat jarak diminimalkan (di mana c i adalah
centroid atau medoid cluster Ci)
Diberikan k, temukan partisi dari k cluster yang mengoptimalkan kriteria partisi

yang dipilih
Global Optima l: menghitung semua partisi secara lengkap
Heuristic Methods : algoritma k-means dan k-medoids
k-means (MacQueen’67, Lloyd’57 / ’82): Setiap cluster diwakili oleh pusat
cluster
k-medoids atau PAM (Partition around medoids) (Kaufman & Rousseeuw’87):
Setiap cluster diwakili oleh salah satu objek dalam cluster
D. Tahapan Algoritma K-Means

1. Pilih jumlah klaster k yang diinginkan
2. Inisialisasi k pusat klaster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua
objek ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-
Means adalah Euclidean distance (d) x = x1, x2, . . . , xn, dan y = y1, y2, . .
. , yn merupakan banyaknya n atribut(kolom) antara 2 record
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang.
Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam
klaster tertentu
5. Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika
pusat klaster sudah tidak berubah lagi, maka proses pengklasteran
selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak
berubah lagi (stabil) atau tidak ada penurunan yang signifikan dari nilai
SSE (Sum of Squared Errors)
E. Kelebihan Metode K-Means

1. Efisien: O(n), dengan n adalah jumlah data
2. Implementasi sederhana
3. Menjamin konvergensi
4. Mudah disesuaikan dengan data baru
F. Kekurangan Metode K-Means

1. Tidak bagus untuk cluster dengan kepadatan dan ukuran yang berbeda
2. Pilih k secara manual
3. Peka terhadap data yang menganggu dan outliers
4. Bergantung pada nilai awal
5. Tidak cocok untuk menemukan cluster dengan bentuk non-cembung
6. Penskalaan dengan jumlah dimensi
G. Metode Hierarchical
Menggunakan matriks jarak sebagai kriteria pengelompokan. Metode ini tidak
membutuhkan jumlah cluster k sebagai input, tetapi membutuhkan kondisi
terminasi
1. AGNES (Agglomerative Nesting)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990).
Diimplementasikan dalam paket statistik, misalnya, Splus. Menggunakan
metode single-link dan matriks ketidaksamaan. Gabungkan node yang
memiliki sedikit perbedaan. Lanjutkan dengan gaya non-descending.
Akhirnya semua node termasuk dalam cluster yang sama.
2. DIANA (Divisive Analysis)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990). Diterapkan
dalam paket analisis statistik, misalnya, Splus. Urutan kebalikan dari
AGNES. Akhirnya setiap node membentuk clusternya sendiri.

DMKM Aris

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

DMKM Aris

Diunggah oleh

Hak Cipta:

Format Tersedia

Nama : M.

Clustering merupakan metode yang cukup sulit karena banyak

C. Algoritma Partisi: Konsep Dasar

Diberikan k, temukan partisi dari k cluster yang mengoptimalkan kriteria partisi

D. Tahapan Algoritma K-Means

E. Kelebihan Metode K-Means

F. Kekurangan Metode K-Means

Anda mungkin juga menyukai