Aris Munandar
NIM : 221810396
Kelas : 3SD2
Kode : 3TCO5
CLUSTERING
A. Konsep Dasar
Permasalahan dalam Clustering : Diberikan satu set titik, dengan pengertian
jarak antar titik, kelompokkan titik-titik tersebut menjadi beberapa kelompok,
sehingga
a. Anggota cluster dekat / mirip satu sama lain
b. Anggota cluster yang berbeda tidak sama
B. Analisis Cluster
Analisis cluster (clustering, segmentasi data,…) merupakan kegiatan untuk
menemukan persamaan antar data sesuai dengan karakteristik yang terdapat
pada data tersebut dan mengelompokkan objek data yang serupa ke dalam
cluster. Tipe aplikasi : Sebagai alat yang berdiri sendiri untuk mendapatkan
pengetahuan tentang distribusi data, Sebagai langkah preprocessing untuk
algoritma lain. Kegunaan analisis cluster :
1. Mereduksi data (Peringkasan, Kompresi)
2. Pembuatan dan pengujian hipotesis
3. Prediksi berdasarkan kelompok (mengelompokkan & menemukan
karakteristik / pola untuk setiap kelompok)
4. Menemukan K-nearest Neighbors (Melokalkan penelusuran ke satu
atau sejumlah kecil cluster)
5. Mendeteksi outlier
G. Metode Hierarchical
Menggunakan matriks jarak sebagai kriteria pengelompokan. Metode ini tidak
membutuhkan jumlah cluster k sebagai input, tetapi membutuhkan kondisi
terminasi
1. AGNES (Agglomerative Nesting)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990).
Diimplementasikan dalam paket statistik, misalnya, Splus. Menggunakan
metode single-link dan matriks ketidaksamaan. Gabungkan node yang
memiliki sedikit perbedaan. Lanjutkan dengan gaya non-descending.
Akhirnya semua node termasuk dalam cluster yang sama.
2. DIANA (Divisive Analysis)
Diperkenalkan dalam Kaufmann dan Rousseeuw (1990). Diterapkan
dalam paket analisis statistik, misalnya, Splus. Urutan kebalikan dari
AGNES. Akhirnya setiap node membentuk clusternya sendiri.