Kursus
Deep Learning Institute NVIDIA, Deep Learning & Data Science Workflow
AWS Academy, Machine Learning Foundation
Cisco Networking Academy, Python
Riwayat Pekerjaan
2008 – 2014 Sertifikasi Guru Rayon 113 UNS, Divisi Data
2014 – 2022 Freelancer
2022 – 2022 Thematic Academy Kominfo, Instruktur AI Chatbot
2022 – 2022 LSP Teknologi Digital, Asesor Kompetensi
Contact Pengajar
Ponsel : 08985252426
Email : dwixhartanto@gmail.com Sertifikasi
● Asociate Data Scientist, BNSP ● Graph Database Profesional, Neo4j
DTS 2022 ● Azure AI Fundamental, Microsoft ● Asesor Kompetensi, BNSP 2
1. Pendahuluan
● Pengertian Clustering
2. Distance Metriks
3. K-means
● Konsep dasar
4. PCA
● Konsep dasar
5. Hands On
● Penerapan clustering menggunakan Orange
● Eksplorasi model Clustering
Source : Difference Between Classification and Clustering (with Comparison Chart) - Tech Differences
DTS 2022 4
Source : boozallen.com
DTS 2022 5
DTS 2022 6
1. Pendahuluan
Clustering:
• metode untuk membagi data ke dalam
kelompok-kelompok atau cluster
sehingga data yang memiliki kemiripan
yang tinggi akan berada dalam
kelompok yang sama.
Contoh:
• Kelompok topik di dalam berita
DTS 2022 7
1. Pendahuluan
Clustering :
• Unsupervised learning
DTS 2022 8
2. Distance Metric
Metode yang digunakan untuk mengukur kesamaan dan kedekatan antara dua titik data.
Pengukuran jarak memegang peran yang sangat penting , dalam menentukan kemiripan atau
keteraturan di antara data dan item.
Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik
DTS 2022 9
2. Distance Metric
Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik
DTS 2022 10
2. Distance Metric
C. Cosine Similarity
Keterangan :
A = Vektor A, yang akan dibandingkan kemiripannya
B = Vektor B, yang akan dibandingkan kemiripannya
A • B = dot product antara vektor A dan vektor B
|A| = panjang vektor A
|B| = panjang vektor B
|A||B| = cross product antara |A| dan |B|
DTS 2022 11
https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa
DTS 2022 12
3. k-means
DTS 2022 13
3. k-means
DTS 2022 14
3. k-means
• Keunggulan k-means:
• Sederhana
• Mudah di implementasi.
• Kelemahan k-means:
• Salah satunya adalah sulitnya menentukan jumlah cluster.
• Menggunakan metode uji coba (try and error).
DTS 2022 15
3. k-means
• Metode penentuan nilai k
pada cluster k-means dengan
metode elbow.
• Jumlah k kluster yang
digunakan adalah k pada nilai
WCSS tidak berubah lagi
dengan signifikan.
DTS 2022 16
4. PCA
• Metode yang dipergunakan untuk mengurangi dimensi (jumlah variabel)
dari suatu dataset dengan tetap mempertahankan variabilitas sebanyak
mungkin.
DTS 2022 17
4. Kenapa PCA diperlukan?
• Proses Clustering seringkali melibatkan dataset yang memiliki
jumlah variabel yang banyak.
• Jumlah variabel yang sangat banyak akan menyebabkan proses
clustering menjadi sangat lama, sehingga diperlukan cara
supaya proses clusteringnya menjadi lebih ringan.
• Salah satu metodenya adalah Principal Component Analysis
(PCA).
DTS 2022 18
4. Evaluasi
• Metode untuk mengevaluasi clustering umumnya didasarkan
pada kedekatan data dalam satu cluster dan keterpisahan data
antar cluster. Beberapa contoh metode evaluasi untuk
clustering antara lain:
a) Silhouette Coefficient
b) Davies Bouldin Index (BDI)
DTS 2022 19
5. Hands on
• Pada hands on kali ini, kita akan mengolah data performa siswa.
• Tahapan yang dilakukan adalah:
DTS 2022 20
5. Hands on
5.1. Pembatasan masalah
DTS 2022 21
5. Hands on
5.1. Pembatasan
masalah
(Meta data)
DTS 2022 22
5. Hands on
5.1. Pembatasan masalah
(fitur/atribut dan class/label)
DTS 2022 23
5. Hands on
5.2. Akuisisi data:
DTS 2022 24
5. Hands on
DTS 2022 25
5. Hands on Main menu canvas
DTS 2022 26
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
DTS 2022 27
5. Hands on
5.3. Akuisisi data
5.3.1. Load data 2
DTS 2022 28
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
DTS 2022 29
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
DTS 2022 30
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
DTS 2022 31
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
DTS 2022 32
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
DTS 2022 33
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
DTS 2022 34
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions
DTS 2022 35
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions
DTS 2022 36
5. Hands on
5.4. Eksplorasi data
DTS 2022 37
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
DTS 2022 38
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi
Dapat ditampilkan
dalam bentuk data
table untuk
mengetahui data
tergabung di dalam
cluster yang mana.
DTS 2022 41
4. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Setting
DTS 2022 42
5. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Visualisasi
DTS 2022 43
4. Hands on
4.5. Eksplorasi model Clustering
Petunjuk:
Berdasarkan model yang sudah dipelajari, silahkan melakukan eksplorasi dengan:
● berbagai setting parameter pada metode clustering.
● dampaknya evaluasi/visualisasi (silhouette plot dan scatter plot).
Note:
⮚ Aktifitas kelas: 20menit
⮚ Trainer akan membantu melalui tanya jawab.
DTS 2022 44
Terima Kasih