Pertemuan 10

CLUSTERING
ALGORITMA • Partitioning clustering

CLUSTERING
• Hierarchical clustering
• Density-based clustering
• Grid-based clustering
• Model-Based clustering
• Tipe clustering ini adalah tipe yang paling sederhana,
fungsinya untuk membagi data menjadi beberapa
cluster. Untuk mendapatkan tujuannya, algoritma yang
PARTITIONING termasuk portioning clustering selalu mengawali
CLUSTERING dengan menginisialisasi kelompok awal dan kemudian
disusun ulang agar medapatkan cluster akhir
• Contoh: K-means, K-medoids, CLARANS(Clustering
Large Applications based on RANdomized Search)
HIERARCHICAL CLUSTERING
• Tipe ini mengelompokkan objek menjadi pohon cluster, algoitma pada tipe ini dibagi
menjadi dua kategori, divisive (top to bottom) dan agglomerative (bottom to top). Jenis
pertama menempatkan semua data ke dalam satu cluster, kemudian membagi secara
hierarkis hingga membentuk cluster akhir. Tipe kedua menempatkan setiap objek databse
dalam satu cluster, dan menggabungkannya setelah itu secara rekursif hingga cluster
terakhir terbentuk
• Contoh: BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies),
CURE(Clustering Using Representatives), Chameleon
DENSITY-BASED CLUSTERING
• Dalam tipe ini, objek diklasifikasi berdasarkan wilayah kepadatannya, Algoritma berbasis
kepadatan memiliki kemampuan untuk menemukan kelas bentuk arbitrer dan
menghilangkan objek pencilan
• Contoh: DBSCAN, OPTICS, DENCLUE
GRID-BASED CLUSTERING
• Dalam jenis pengelompokan ini, data dibagi menjadi kisi objek. Jenis ini menerapkan
algoritma pada grid, daripada menerapkannya secara langsung pada database
• Contoh: STING, CLIQUE, OptiGrid
MODEL-BASED CLUSTERING
• Jenis ini didasarkan pada hipotesis bahwa data dihasilkan oleh distibusi probabilitas.
Metode ini bertujuan untuk menemukan asumsi model untuk masing-masing cluster,
kemudian menemukan yang paling sesuai untuk model tersebut.
• Contoh: EM, COMWEB, SOMs
KMEANS
• K-means(D,k)
• Pilih sejumlah k objek secara acak dari himpunan data D sebagai centroid awal
• repeat
• for setiap objek dalam D
• Masukkan setiap objek yang bukan centroid ke klister yang paling dekat di antara k kluster yang ada
• end
• Perbarui setiap centroid dengan menghitung rata-rata dari semua objek yang berada di dalam kluster
tersebut
• Until tidak ada perubahan centroid
K-MEDOIDS
• K-medoids(D,k)
• Pilih sejumlah k objek secara acak dari himpunan data D sebagai representative
dimana
awal
E adalah jumlah
• repeat kesalahan absolut untuk
• for setiap objek dalam D yang bukan objek representatif semua objek p dalam
himpunan data
• Masukkan objek ke dalam klister yang memiliki objek representative terdekat
adalah objek
diantara k objek representative yang ada
representative dari
• End klister
• Pilih secara acak sebuah objek representative
• Hitung biaya total S dari penggantian objek representative ke
• If then ganti dengan untuk membentuk himpunan k objek representative yang baru
• Until tidak ada perubahan objek representative
DBSCAN (DENSITY-BASED CLUSTERING BASED
ON CONNECTED REGIONS WITH HIGH DENSITY)
• HimpunanKlaster = DBSCAN
• Tandai semua objek sebagai unvisited
• Repeat
• Pilih secara acak sebuah objek p dari semua objek yang berlabel unvisited
• If dalam radius objek p memiliki minimal MinObj objek then
• Buat sebuah klister baru C
• Tambahkan p ke dalam C
• Masukkan semua objek yang menjadi tetangga p ke dalam N
• For setiap objek p’ di N do
• If p’ berlabel unvisited then
• Tandai p’ sebagai visited
• If dalam radius objek p’ memiliki minimal MinObj objek then tambahkan semua objek dalam radius tersebut ke dalam N
• If p’ bukan anggota dari klister manapun then tambahkan p’ ke dalam C
• End
• Keluarkan C sebagai sebuah klister output
• End tandai p sebagai derau
• Until tidak ada objek yang berlabel unvisited
No Color Size Act Age
1Yellow small stretch adult
2Yellow small stretch adult
3Yellow small stretch child
4Yellow small stretch child
5Yellow large Dip adult
6Yellow large Dip adult
7Yellow large Dip child
8Yellow large Dip child
9Purple small stretch adult
10Purple small Dip Child
Buat kelompok data menggunakan DBSCAN!

JAWAB
No Color Size Act Age
1 1 0 1 1
2 1 0 1 1
3 1 0 1 0
4 1 0 1 0
5 1 1 0 1
6 1 1 0 1
7 1 1 0 0
8 1 1 0 0
9 0 0 1 1
10 0 0 0 0
TAHAPAN PERTAMA DBSCAN
• Memilih secara acak sebuah data, kemudian cari objek lain dalam radius , missal terpilih data ke-1
Data ke-i Jarak terhadap data ke-1
Perhitungan jarak masih menggunakan jarak euclied:
1
2 0 Dari sini dapat kita lihat bahwa ada 5 data yang ada didalam
3 radius yaitu data ke-:1,2,3,4,9 Sehingga ini layak jadi C1.
1
Akan diperiksa terhadap data ke-2 apakah masih ada yang
4 1 ada di radius dari data ke-2.
5 1.414214
6 1.414214
7 1.732051
8 1.732051
9 1
10 1.732051
JARAK TERHADAP DATA KE-2
Data ke- Jarak ke data ke-2

Dari sini dapat kita lihat bahwa ada 4 data yang ada
2 didalam radius yaitu data ke-: 2, 3, 4, 9, Jadi C1
3 belum bertambah anggota.
1
Lanjutkan pemeriksaan terhadap data ke-3, data ke-4
4 1 dan data ke-9
5 1.414214
6 1.414214
7 1.732051
8 1.732051
9 1
10 1.732051
ANGGOTA C1
Data cluster
ke- Lanjut ke data ke-5 lakukan yang sama diperoleh
1 C1
2 C1
3 C1
4 C1
5 C2
6 C2
7 C2
8 C2
9 C1
10 derau

Pertemuan 10

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 10

Diunggah oleh

Hak Cipta:

Format Tersedia

CLUSTERING

ALGORITMA • Partitioning clustering

Buat kelompok data menggunakan DBSCAN!

Data ke- Jarak ke data ke-2

Anda mungkin juga menyukai