com
4
GARIS BESAR
5. Evaluasi Pengelompokan
6. Ringkasan
Model Pengelompokan
penghasilan
Himpunan data
1. Clusterdianggap sebagai grup yang berisi objek data yang mirip satu sama lain
2. Pengelompokanadalah teknik pengorganisasian sekelompok data ke dalam kelas dan cluster di mana objek-objek
Kekelompokan
yang berada di dalam sebuah cluster akan memiliki kemiripan yang tinggi dan objek-objek dari dua cluster akan
memiliki ketidakmiripan satu sama lain.
3. Sasaran utama dari clustering adalah membagi seluruh data menjadi beberapa cluster.
4. Kesamaan antara dua benda diukur denganfungsi kesamaan, yang
umumnya diwakili oleh metrik jarak
Contoh Clustering: Transaksi Pizza Hut
3. Penggunaan Lahan: Identifikasi area penggunaan lahan serupa dalam database pengamatan bumi
4. Pemasaran: Bantu pemasar menemukan kelompok yang berbeda dalam basis pelanggan mereka, dan kemudian gunakan
pengetahuan ini untuk mengembangkan program pemasaran yang ditargetkan
5. Perencanaan Kota: Mengidentifikasi kelompok rumah menurut tipe rumah, nilai, dan
letak geografisnya
6. Studi Gempa: Episentrum gempa yang diamati harus berkerumun di sepanjang
patahan benua
7. Iklim: memahami iklim bumi, menemukan pola atmosfer dan lautan
8. Ekonomi: riset pasar
Apa yang bukan Analisis Cluster?
• Hasil kueri
• Pengelompokan adalah hasil dari spesifikasi eksternal
• Partisi grafik
• Beberapa relevansi dan sinergi timbal balik, tetapi area tidak identik
Jenis Pengelompokan
1. Partitional Clustering (K-means dan variannya)
• Membagi objek data menjadi subset (cluster) yang tidak tumpang tindih sehingga setiap objek data berada tepat di
satu subset
2. Pengelompokan hierarkis (Berbasis konektivitas)
• Satu set cluster bersarang yang diatur sebagai pohon hierarkis, biasanya digambarkan oleh pohon biner atau
dendrogram
3. Pengelompokan berdasarkan kepadatan
• Mengacu pada metode pembelajaran tanpa pengawasan yang mengidentifikasi kelompok/cluster yang berbeda
dalam data, bekerja dengan mendeteksi area di mana titik terkonsentrasi dan di mana mereka dipisahkan oleh
area yang kosong atau jarang. Titik-titik yang bukan bagian dari cluster diberi label sebagai noise.
K-Means clustering digunakan untuk membagi atau 1. Centroid awal sering dipilih secara acak.
mendistribusikan n observasi menjadikcluster di mana setiap • Cluster yang dihasilkan bervariasi dari satu run ke run
pengamatan termasuk dalam cluster dengan centroid terdekat lainnya.
2. Centroid adalah (biasanya) rata-rata dari titik-titik dalam
cluster.
3. 'Kedekatan' diukur denganJarak Euclidean,
kesamaan kosinus, korelasi, dll.
4. K-means akan bertemu untuk ukuran kesamaan
umum yang disebutkan di atas.
5. Sebagian besar konvergensi terjadi pada beberapa iterasi
pertama.
6. Kompleksitas adalahO( n * K * I * d )
n = jumlah titik, K =
jumlah cluster, I =
jumlah iterasi, d =
jumlah atribut
Pengelompokan K-means yang optimal Memilih Centroid Awal
ow Metode
e Jumlah Cluster yang Optimal
- y)/ maks(x,y)
di mana,kamuadalah rata-rata jarak antar cluster.xadalah mean dari jarak cluster terdekat.
Siku vs Siluet
https://www.youtube.com/watch?v=AtxQ0rvdQIA&t=401s
https://www.youtube.com/watch?v=qs8nfzUsW5U
Keterbatasan K-means
Keuntungan
1. Jika variabelnya besar, maka K-Means sering kali lebih cepat secara komputasi daripada pengelompokan hierarkis, jika kita
mempertahankan k kecil.
2. K-Means menghasilkan klaster yang lebih rapat daripada klaster hierarkis, terutama jika klaster berbentuk globular.
Kekurangan
1. Sulit untuk memprediksi K-Value.
2. Dengan cluster global, itu tidak bekerja dengan baik.
3. Partisi awal yang berbeda dapat menghasilkan cluster akhir yang berbeda.
4. Ini tidak bekerja dengan baik dengan cluster (dalam data asli) dengan ukuran yang berbeda dan kepadatan yang berbeda
Pengelompokan Hirarkis
• Menghasilkan satu set cluster bersarang yang diatur sebagai pohon hierarkis
• Dapat divisualisasikan sebagai dendrogram
• Diagram seperti pohon yang mencatat urutan penggabungan atau pemisahan
Kekuatan Pengelompokan Hirarki
• Tidak harus mengasumsikan jumlah tertentu dari cluster (k)
• Jumlah cluster yang diinginkan dapat diperoleh dengan 'memotong' dendrogram pada level
yang tepat
Memotong Dendogram
Tipe Pengelompokan Hirarkis
1. Aglomeratif(bawah ke atas, kecil ke besar, penggabungan):
• Mulailah dengan poin sebagai kelompok individu
• Pada setiap langkah, gabungkan pasangan cluster terdekat hingga hanya tersisa satu cluster (atau k cluster)
C2 C5
Langkah Penggabungan
• Kami ingin menggabungkan dua cluster terdekat (C2 dan C5) dan memperbarui matriks kedekatan.
C1C2 C3 C4 C5
C1
C2
C3
C3
C4 C4
C5
Matriks Kedekatan
C1
C2 C5
Setelah Langkah Penggabungan
C3 C3 ?
C4 C4 ?
Matriks Kedekatan
C1
C2 U C5
Bagaimana Mendefinisikan Kesamaan Antar Cluster
Kesamaan?
MIN MAKSIMAL
• MIN
• MAKSIMAL
• Rata-Rata Grup
Rata-Rata Grup Jarak Antara Centroid
• Jarak Antara Centroid
Pengelompokan Hirarkis: Perbandingan
5
1 4 1
3
2 5
5 5
2 1 2
MIN MAKSIMAL
2 3 6 3 6
3
1
4 4
4
5
1 5 4 1
2 2
5 5
2 Metode Lingkungan
2
3 6 Rata-Rata Grup 3 6
3
4 1 1
4 4
3
Selengkapnya Tentang Pengelompokan Hirarki
penggabungan/pemisahan)
bagus untuk kumpulan data besar bagus untuk kumpulan data kecil
Partisi Berbasis Kepadatan
Algoritma DBSCAN
Poin Asli
• Untuk membandingkan algoritme pengelompokan : Membandingkan hasil analisis klaster dengan hasil yang diketahui secara
eksternal, misalnya dengan label kelas yang diberikan secara eksternal
• Untuk membandingkan beberapa cluster : Mengevaluasi seberapa baik hasil analisis cluster sesuai dengan data
tanpareferensi ke informasi eksternal (hanya menggunakan data)
• Informasi Pengurangan
kami memiliki opsi untuk mengevaluasi seluruh pengelompokan atau hanya kelompok individu.