Anda di halaman 1dari 22

GTA – DATA SCIENCE FUNDAMENTAL

Tema Pelatihan
CLUSTERING DAN EVALUASI
Peran Utama Data Mining
1. Estimasi

2. Forecasting

3. Klasifikasi

4. Clustering

5. Asosiasi

DTS 2021 #Jadijagoandigital


Learning Objective

Peserta mampu:
A. Membangun model Clustering
B. Mengevaluasi model Clustering

DTS 2021 #Jadijagoandigital


Forecasting (Prediksi/Peramalan)

Clustering

DTS 2021 #Jadijagoandigital


Clustering

● Sekelompok entitas yang memiliki kesamaan dan memiliki perbedaan dengan


entitas dari kelompok lain.

● Algoritma Clustering bekerja dengan mengelompokkan obyek-obyek data


(pola, entitas, kejadian, unit, hasil observasi) ke dalam sejumlah cluster
tertentu (Xu and Wunsch,2009).

● Dengan kata lain algoritma Clustering melakukan pemisahan/ pemecahan/


segmentasi data ke dalam sejumlah kelompok (cluster) menurut karakteristik
tertentu
Clustering

● Termasuk dalam unsupervised learning (tidak memiliki label pada data)

● Algoritma Clustering:
K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM),
etc
K-Means
K-Means
● Dalam machine-learning dan statistic K-Means merupakan metode analisis
kelompok yang mengarah pada pembagian N obyek pengamatan ke dalam K
kelompok (cluster), dimana setiap obyek dimiliki oleh sebuah kelompok
dengan mean (rata-rata)

● Metode ini mencoba untuk menemukan pusat dari kelompok (centroid) dalam
data sebanyak iterasi perbaikan yang dilakukan.

● Metode ini berusaha membagi data kedalam kelompok sehingga data yang
berkarakteristik sama dimasukkan ke dalam satu kelompok sementara data
yang berkarakteristik berbeda dimasukkan dalam kelompok yang lain.
K-Means
Aturan K-Means

● Jumlah Cluster (k) perlu diinputkan

● Hanya memiliki atribut bertipe nominal


Tahapan K-Means

1. Tentukan k sebagai jumlah cluster yang ingin dibentuk.


2. Bangkitkan k centroid(titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid yang baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroid yang sama.
6. Kembali ke langkah-3 jika posisi centrroid baru dengan centroid yang lama
tidak sama
Forecasting (Prediksi/Peramalan)

Clustering

DTS 2021 #Jadijagoandigital


Evaluasi Clustering (Davies–Bouldin index)
● Cara melakukan evaluasi pada clustering adalah dengan menggunakan
metode Davies–Bouldin index

● Davies-bouldin index merupakan salah satu metode evaluasi internal yang


mengukur evaluasi cluster pada suatu metode pengelompokan yang
didasarkan pada nilai kohesi dan separasi

● Kohesi didefinisikan sebagai jumlah dari kedekatan data terhadap centroid


dari cluster yang diikuti.

● Separasi didasarkan pada jarak antar centroid dari clusternya


Studi
Kasus
Studi Kasus – Bunga Iris

perhatikan petunjuk yang diberikan:


1. Buka data Iris yang terdapat pada sample → Data → Iris
2. Analisa setiap atribut pada data
3. Analisa apakah perlu dilakukan pre-processing
4. Analisa model dengan menggunakan K-Means
5. Hitung performa/ evaluasi model
Pre Processing Data

● Tidak ada missing value


● Tidak ada outlier
K-means

● Pada contoh kasus ini algoritma yang kita gunakan adalah k-means dengan
(k = 5)
Model yang Dibentuk

● Klik Run, pilih visualisasion (Scatter/ Bubble) maka pola akan


muncul.
Performa Model (Davies–Bouldin index)

● Tambahkan Cluster Distance performance


Hasil Performa Model (Davies–Bouldin index)

● Jika di klik Run, maka hasilnya akan seperti ini Davies Bouldin bersifat
absolute (+/- tidak ada perbedaan) (ukuran nilai: 0 s.d 1)
Tugas

1. Algoritma mana yang terbaik untuk menentukan clustering Iris, jelaskan!


2. Tentukan nilai Davies Bouldin pada clustering (menggunakan K-Means)
dengan data set iris, dengan ketentuan sbb:
- jika data k=2, k=3, k=4, k=5
- tentukan mana nilai k terbaik (memiliki nilai Davis Bouldin mendekati 0)

Tulis jawaban Anda dalam satu file PDF berisi model algoritma baru dan
rekomendasi tindak lanjut. Simpan file dengan format TugasClustering_Nama
Lengkap.PDF
#Jadijagoandigital
Terima Kasih

Anda mungkin juga menyukai