Anda di halaman 1dari 30

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

DATA BESAR & ANALISIS DATA


MODEL PENGELOMPOKAN
Konsep & Algoritma Dasar
Minggu 3 – EBI3B4 Big Data & Data Analytics

4
GARIS BESAR

1. Analisis Cluster: Konsep Dasar


2. Metode Partisi
3. Metode Hirarki
4. Metode Kepadatan

5. Evaluasi Pengelompokan

6. Ringkasan
Model Pengelompokan
penghasilan

• Teknik pembelajaran tanpa pengawasan


melayani proses yang berbeda dari
pembelajaran yang diawasi
• Pembelajaran tanpa pengawasan dirancang
untuk mengidentifikasi pola yang melekat
dalam struktur data.

Pembelajaran Tanpa Pengawasan menarik


referensi dari kumpulan data tanpa
kemampuan. Ini paling baik digunakan jika
Anda ingin menemukan pola tetapi tidak tahu
persis apa yang Anda cari.

foto dari: Boozalen.com


ering

1. Secara umum, dalam klasifikasi Anda memiliki sekumpulan kelas

(label) yang telah ditentukan sebelumnya dan ingin

mengetahui kelas mana yang dimiliki oleh objek baru.

2. Clustering mencoba mengelompokkan sekumpulan objek

dan menemukan apakah ada


adalahbeberapahubungan antar objek. Tidak ada kelas (label)

yang telah ditentukan sebelumnya.

3. Dalam konteks pembelajaran mesin, klasifikasi adalah


pembelajaran yang diawasi dan pengelompokan
adalahpembelajaran tanpa pengawasan .
Apa itu Analisis Cluster
Menemukan kelompok objek sedemikian rupa sehingga objek dalam suatu kelompok akan serupa (atau terkait) satu sama
lain dan berbeda (atau tidak terkait) dengan objek dalam kelompok lain

Himpunan data

1. Clusterdianggap sebagai grup yang berisi objek data yang mirip satu sama lain

2. Pengelompokanadalah teknik pengorganisasian sekelompok data ke dalam kelas dan cluster di mana objek-objek
Kekelompokan
yang berada di dalam sebuah cluster akan memiliki kemiripan yang tinggi dan objek-objek dari dua cluster akan
memiliki ketidakmiripan satu sama lain.
3. Sasaran utama dari clustering adalah membagi seluruh data menjadi beberapa cluster.
4. Kesamaan antara dua benda diukur denganfungsi kesamaan, yang
umumnya diwakili oleh metrik jarak
Contoh Clustering: Transaksi Pizza Hut

• Merah:kelompok pekerja (jam makan siang)


• Hijau:sekelompok mahasiswa (setelah jam
- jam malam)
• Biru:kelompok keluarga (kebanyakan hari)
Pengelompokan: Contoh Aplikasi
1. Biologi: taksonomi makhluk hidup: kingdom, filum, kelas, ordo, famili, genus dan
spesies
2. Pengambilan Informasi: pengelompokan dokumen

3. Penggunaan Lahan: Identifikasi area penggunaan lahan serupa dalam database pengamatan bumi

4. Pemasaran: Bantu pemasar menemukan kelompok yang berbeda dalam basis pelanggan mereka, dan kemudian gunakan
pengetahuan ini untuk mengembangkan program pemasaran yang ditargetkan

5. Perencanaan Kota: Mengidentifikasi kelompok rumah menurut tipe rumah, nilai, dan
letak geografisnya
6. Studi Gempa: Episentrum gempa yang diamati harus berkerumun di sepanjang
patahan benua
7. Iklim: memahami iklim bumi, menemukan pola atmosfer dan lautan
8. Ekonomi: riset pasar
Apa yang bukan Analisis Cluster?

• Klasifikasi yang diawasi


• Memiliki informasi label kelas
• Segmentasi sederhana
• Membagi siswa ke dalam kelompok pendaftaran yang berbeda menurut abjad, dengan nama belakang

• Hasil kueri
• Pengelompokan adalah hasil dari spesifikasi eksternal
• Partisi grafik
• Beberapa relevansi dan sinergi timbal balik, tetapi area tidak identik
Jenis Pengelompokan
1. Partitional Clustering (K-means dan variannya)
• Membagi objek data menjadi subset (cluster) yang tidak tumpang tindih sehingga setiap objek data berada tepat di
satu subset
2. Pengelompokan hierarkis (Berbasis konektivitas)
• Satu set cluster bersarang yang diatur sebagai pohon hierarkis, biasanya digambarkan oleh pohon biner atau
dendrogram
3. Pengelompokan berdasarkan kepadatan

• Mengacu pada metode pembelajaran tanpa pengawasan yang mengidentifikasi kelompok/cluster yang berbeda
dalam data, bekerja dengan mendeteksi area di mana titik terkonsentrasi dan di mana mereka dipisahkan oleh
area yang kosong atau jarang. Titik-titik yang bukan bagian dari cluster diberi label sebagai noise.

Partisi Hirarki Berbasis Kepadatan


Pengelompokan Partisi
Algoritma K-Means

K-Means clustering digunakan untuk membagi atau 1. Centroid awal sering dipilih secara acak.
mendistribusikan n observasi menjadikcluster di mana setiap • Cluster yang dihasilkan bervariasi dari satu run ke run
pengamatan termasuk dalam cluster dengan centroid terdekat lainnya.
2. Centroid adalah (biasanya) rata-rata dari titik-titik dalam
cluster.
3. 'Kedekatan' diukur denganJarak Euclidean,
kesamaan kosinus, korelasi, dll.
4. K-means akan bertemu untuk ukuran kesamaan
umum yang disebutkan di atas.
5. Sebagian besar konvergensi terjadi pada beberapa iterasi
pertama.
6. Kompleksitas adalahO( n * K * I * d )
n = jumlah titik, K =
jumlah cluster, I =
jumlah iterasi, d =
jumlah atribut
Pengelompokan K-means yang optimal Memilih Centroid Awal
ow Metode
e Jumlah Cluster yang Optimal

1. Varians (dalam cluster jumlah kesalahan


kuadrat/SSE) diplot terhadap jumlah
cluster.
2. Beberapa cluster pertama akan memperkenalkan
banyak varians dan informasi, tetapi pada beberapa
titik, perolehan informasi akan menjadi rendah,
sehingga memberikan struktur sudut pada grafik.

3. Jumlah cluster yang optimal ditemukan


dari titik siku; oleh karena itu, ini dikenal
sebagai "kriteria siku".
Metode siku: 4 solusi cluster disarankan
Metode Siluet pengguna

yakinseberapa mirip suatu benda dengannya


ed ke cluster lain (pemisahan). ke +1,
di mana nilai tinggi menunjukkan d ke
clusternya sendiri dan ter buruk.

ue, maka konfigurasi clustering memiliki nilai


rendah atau negatif, maka rata-rata cluster
terlalu banyak atau terlalu sedikit.

- y)/ maks(x,y)

di mana,kamuadalah rata-rata jarak antar cluster.xadalah mean dari jarak cluster terdekat.

Siku vs Siluet
https://www.youtube.com/watch?v=AtxQ0rvdQIA&t=401s
https://www.youtube.com/watch?v=qs8nfzUsW5U
Keterbatasan K-means
Keuntungan
1. Jika variabelnya besar, maka K-Means sering kali lebih cepat secara komputasi daripada pengelompokan hierarkis, jika kita
mempertahankan k kecil.

2. K-Means menghasilkan klaster yang lebih rapat daripada klaster hierarkis, terutama jika klaster berbentuk globular.

Kekurangan
1. Sulit untuk memprediksi K-Value.
2. Dengan cluster global, itu tidak bekerja dengan baik.
3. Partisi awal yang berbeda dapat menghasilkan cluster akhir yang berbeda.
4. Ini tidak bekerja dengan baik dengan cluster (dalam data asli) dengan ukuran yang berbeda dan kepadatan yang berbeda
Pengelompokan Hirarkis
• Menghasilkan satu set cluster bersarang yang diatur sebagai pohon hierarkis
• Dapat divisualisasikan sebagai dendrogram
• Diagram seperti pohon yang mencatat urutan penggabungan atau pemisahan
Kekuatan Pengelompokan Hirarki
• Tidak harus mengasumsikan jumlah tertentu dari cluster (k)
• Jumlah cluster yang diinginkan dapat diperoleh dengan 'memotong' dendrogram pada level
yang tepat

• Mereka mungkin sesuai dengan taksonomi yang berarti


• Contoh dalam ilmu biologi (misalnya, kerajaan hewan, rekonstruksi filogeni, ...)

Memotong Dendogram
Tipe Pengelompokan Hirarkis
1. Aglomeratif(bawah ke atas, kecil ke besar, penggabungan):
• Mulailah dengan poin sebagai kelompok individu
• Pada setiap langkah, gabungkan pasangan cluster terdekat hingga hanya tersisa satu cluster (atau k cluster)

2. Perpecahan(atas ke bawah, besar ke kecil, membelah):


• Mulailah dengan satu kluster lengkap
• Pada setiap langkah, pisahkan satu cluster hingga setiap cluster berisi satu titik (atau ada k cluster)
Langkah Awal (Algoritma)
• Mulailah dengan kelompok titik individu dan matriks kedekatan
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
. Matriks Kedekatan
Langkah Penggabungan

• Setelah beberapa langkah penggabungan, kami memiliki beberapa cluster


C1 C2 C3 C4 C5
C1
C2
C3
C3
C4
C4
C5
Matriks Kedekatan
C1

C2 C5
Langkah Penggabungan

• Kami ingin menggabungkan dua cluster terdekat (C2 dan C5) dan memperbarui matriks kedekatan.

C1C2 C3 C4 C5
C1
C2
C3
C3
C4 C4
C5
Matriks Kedekatan
C1

C2 C5
Setelah Langkah Penggabungan

• Pertanyaannya adalah "Bagaimana kita memperbarui matriks kedekatan?"


C1 C2 U C5 C3 C4
C1 ?
C2 U C5? ? ? ?

C3 C3 ?
C4 C4 ?

Matriks Kedekatan

C1

C2 U C5
Bagaimana Mendefinisikan Kesamaan Antar Cluster

Kesamaan?

MIN MAKSIMAL

• MIN
• MAKSIMAL

• Rata-Rata Grup
Rata-Rata Grup Jarak Antara Centroid
• Jarak Antara Centroid
Pengelompokan Hirarkis: Perbandingan
5
1 4 1
3
2 5
5 5
2 1 2
MIN MAKSIMAL
2 3 6 3 6
3
1
4 4
4

5
1 5 4 1
2 2
5 5
2 Metode Lingkungan
2
3 6 Rata-Rata Grup 3 6
3
4 1 1
4 4
3
Selengkapnya Tentang Pengelompokan Hirarki

Persyaratan Ruang dan Waktu Masalah dan Keterbatasan


• PADA2) ruang karena menggunakan • Setelah keputusan dibuat untuk menggabungkan dua cluster, itu tidak dapat
matriks kedekatan. N jumlah data dibatalkan
• Tidak ada fungsi tujuan yang diminimalkan secara langsung (Contoh: Tidak ada SSE untuk
• PADA3) waktu dalam banyak kasus
diminimalkan)
• Ada N langkah dan pada setiap
• Skema yang berbeda memiliki masalah dengan satu atau lebih hal berikut:
langkah ukurannya, N2, matriks
• Sensitivitas terhadap kebisingan dan outlier
kedekatan harus diperbarui dan
dicari
• Kesulitan menangani kelompok ukuran dan bentuk cembung yang berbeda
• Memecah kelompok besar
• Kompleksitas dapat direduksi menjadi
O(N2log(N) ) waktu untuk beberapa
Partisi VS Hierarchical Clustering
pendekatan
Partisi (K-Means) Hirarki
membutuhkan jumlah cluster yang akan tidak perlu jumlah cluster yang akan
ditentukan ditentukan
biasanya lebih efisien run-time bijaksana bisa lambat (harus membuat beberapa keputusan

penggabungan/pemisahan)

bagus untuk kumpulan data besar bagus untuk kumpulan data kecil
Partisi Berbasis Kepadatan
Algoritma DBSCAN

Titik Inti, Perbatasan, dan Kebisingan

• DBSCAN adalah algoritma berbasis kepadatan.


• Kepadatan = jumlah titik dalam radius
tertentu (Eps)

• Sebuah titik adalah titik inti jika memiliki lebih


dari jumlah tertentu poin (MinPts) dalam Ep
• Ini adalah titik-titik yang berada di bagian dalam cluster

• Titik perbatasan memiliki lebih sedikit dari MinPts


dalam Eps, tetapi berada di sekitar titik inti

• Titik kebisingan adalah setiap titik yang bukan merupakan


titik inti atau titik batas.
Ketika DBSCAN Bekerja Dengan Baik Ketika DBSCAN TIDAK Bekerja Dengan Baik

Poin Asli

Poin Asli Poin Asli

(MinPts=4, Eps=9,75). (MinPts=4, Eps=9,92)

Jenis titik:inti,berbatasandankebisingan Cluster


• Tahan terhadap Kebisingan
• Kepadatan yang bervariasi
Eps = 10, MinPts = 4
• Dapat menangani kelompok dengan
• Data berdimensi tinggi
berbagai bentuk dan ukuran
Validitas Cluster

• “Cluster ada di mata yang melihatnya”!


• Lalu mengapa kita ingin mengevaluasi mereka?
• Untuk menghindari menemukan pola dalam kebisingan : Menentukankecenderungan pengelompokandari satu set
data, yaitu, membedakan apakah struktur non-acak benar-benar ada dalam data.

• Untuk membandingkan algoritme pengelompokan : Membandingkan hasil analisis klaster dengan hasil yang diketahui secara
eksternal, misalnya dengan label kelas yang diberikan secara eksternal

• Untuk membandingkan beberapa cluster : Mengevaluasi seberapa baik hasil analisis cluster sesuai dengan data
tanpareferensi ke informasi eksternal (hanya menggunakan data)

• Informasi Pengurangan

kami memiliki opsi untuk mengevaluasi seluruh pengelompokan atau hanya kelompok individu.

Anda mungkin juga menyukai