Modul 7
Mengevaluasi hasil belajar siswa
dengan Machine Learning: Clustering
Pekerjaan
Dwi Hartanto ● Freelancer ● Asesor Kompetensi
Latar belakang Pendidikan Pengajar
S1: Pendidikan Matematika, Universitas Sebelas Maret
Kursus
Deep Learning Institute NVIDIA, Deep Learning & Data Science Workflow
AWS Academy, Machine Learning Foundation
Cisco Networking Academy, Python
Riwayat Pekerjaan
2008 – 2014 Sertifikasi Guru Rayon 113 UNS, Divisi Data
2014 – 2022 Freelancer
2022 – 2022 Thematic Academy Kominfo, Instruktur AI Chatbot
2022 – 2022 LSP Teknologi Digital, Asesor Kompetensi
Contact Pengajar
Ponsel : 08985252426
Email : dwixhartanto@gmail.com Sertifikasi
● Asociate Data Scientist, BNSP ● Graph Database Profesional, Neo4j
DTS 2022 ● Azure AI Fundamental, Microsoft ● Asesor Kompetensi, BNSP 2
1. Pendahuluan
● Pengertian Clustering
2. Distance Metriks
3. K-means
● Konsep dasar
4. PCA
● Konsep dasar
5. Hands On
● Penerapan clustering menggunakan Orange
● Eksplorasi model Clustering
Source : Difference Between Classification and Clustering (with Comparison Chart) - Tech Differences
DTS 2022 4
Source : boozallen.com
DTS 2022 5
DTS 2022 6
1. Pendahuluan
Clustering:
• metode untuk membagi data ke dalam
kelompok-kelompok atau cluster
sehingga data yang memiliki kemiripan
yang tinggi akan berada dalam
kelompok yang sama.
Contoh:
• Kelompok topik di dalam berita
DTS 2022 7
1. Pendahuluan
Clustering :
• Unsupervised learning
DTS 2022 8
2. Distance Metric
Metode yang digunakan untuk mengukur kesamaan dan kedekatan antara dua titik data.
Pengukuran jarak memegang peran yang sangat penting , dalam menentukan kemiripan atau
keteraturan di antara data dan item.
Berikut beberapa metode pengukuran jarak yang sering digunakan :
a. Euclidean
Mengukur dua buah objek berdasarkan jarak lurus atau garis lurus dalam Euclidean space
Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik
DTS 2022 9
2. Distance Metric
b. Manhattan / City Blok
Menghitung perbedaan absolut (mutlak) antara koordinat sepasang objek
Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik
DTS 2022 10
2. Distance Metric
C. Cosine Similarity
Metriks yang digunakan untuk menentukan seberapa mirip 2 data.
Secara matematis, ia mengukur sudut cos antara dua vektor yang diproyeksikan dalam ruang multi-
dimensi.
Keterangan :
A = Vektor A, yang akan dibandingkan kemiripannya
B = Vektor B, yang akan dibandingkan kemiripannya
A • B = dot product antara vektor A dan vektor B
|A| = panjang vektor A
|B| = panjang vektor B
|A||B| = cross product antara |A| dan |B|
DTS 2022 11
https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa
DTS 2022 12
3. k-means
• Metode k-means clustering membagi dataset ke dalam k
cluster.
• Proses mengelompokkan pada K-means clustering didasarkan
pada jarak data ke titik pusat cluster.
• Suatu data akan masuk ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut.
DTS 2022 13
3. k-means
• Tahapan dalam k-means clustering adalah sebagai
berikut:
a) Pilih titik sejumlah k secara acak untuk dipergunakan sebagai pusat
cluster.
b) Setiap data dikelompokkan ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut
c) Menghitung ulang titik pusat cluster yang terbentuk berdasarkan
rata-rata data yang masuk ke dalam cluster
d) Mengulangi langkah b sampai tidak ada lagi data yang berpindah
cluster
DTS 2022 14
3. k-means
• Keunggulan k-means:
• Sederhana
• Mudah di implementasi.
• Kelemahan k-means:
• Salah satunya adalah sulitnya menentukan jumlah cluster.
• Menggunakan metode uji coba (try and error).
DTS 2022 15
3. k-means
• Metode penentuan nilai k
pada cluster k-means dengan
metode elbow.
• Jumlah k kluster yang
digunakan adalah k pada nilai
WCSS tidak berubah lagi
dengan signifikan.
DTS 2022 16
4. PCA
• Metode yang dipergunakan untuk mengurangi dimensi (jumlah variabel)
dari suatu dataset dengan tetap mempertahankan variabilitas sebanyak
mungkin.
• Tujuan dari PCA adalah mengidentifikasi variabel-variabel penting yang
merepresentasikan dataset.
DTS 2022 17
4. Kenapa PCA diperlukan?
• Proses Clustering seringkali melibatkan dataset yang memiliki
jumlah variabel yang banyak.
• Jumlah variabel yang sangat banyak akan menyebabkan proses
clustering menjadi sangat lama, sehingga diperlukan cara
supaya proses clusteringnya menjadi lebih ringan.
• Salah satu metodenya adalah Principal Component Analysis
(PCA).
DTS 2022 18
4. Evaluasi
• Metode untuk mengevaluasi clustering umumnya didasarkan
pada kedekatan data dalam satu cluster dan keterpisahan data
antar cluster. Beberapa contoh metode evaluasi untuk
clustering antara lain:
a) Silhouette Coefficient
b) Davies Bouldin Index (BDI)
DTS 2022 19
5. Hands on
• Pada hands on kali ini, kita akan mengolah data performa siswa.
• Tahapan yang dilakukan adalah:
Pembatasan Eksplorasi Pembuatan Evaluasi
Akuisisi data
masalah data Model Model
DTS 2022 20
5. Hands on
5.1. Pembatasan masalah
• Permasalahan yang diangkat terkait dengan prediksi prestasi siswa
menengah atas di Portugal.
• Di Portugal, siswa menempuh sekolah menengah atas selama 3 tahun
• Sistem pendidikan di Portugal menggunakan penilaian dengan skala 20,
dimana 0 adalah nilai terendah dan 20 adalah nilai tertinggi
• Dalam 1 tahun ajaran, penilaian dilakukan 3 kali, dan penilaian terakhir
menentukan grade terakhirnya (final grade)
• Prediksi prestasi siswa dilakukan untuk mata pelajaran Matematika
DTS 2022 21
5. Hands on
5.1. Pembatasan
masalah
(Meta data)
DTS 2022 22
5. Hands on
5.1. Pembatasan masalah
(fitur/atribut dan class/label)
⮚ Terlihat dari fitur/atribut yang ada, telah
dikelompokan berdasarkan profilnya yakni
pribadi, keluarga, fasilitas, kegiatan di luar
sekolah.
⮚ Dengan class yang dijadikan target adalah
nilai matematika pada kelas 3
DTS 2022 23
5. Hands on
5.2. Akuisisi data:
• Data set bisa diunduh melalui link berikut :
https://archive.ics.uci.edu/ml/datasets/student+performance
• Data yang dipergunakan dikumpulkan pada tahun ajaran 2005 dan 2006, dari 2
sekolah menengah pertama di Portugal
• Dataset tersebut disusun berdasarkan laporan sekolah, paper sheet (lembar
kerja), kuisioner dan informasi-informasi pelengkap
• Dataset yang terbentuk terdiri memiliki 33 atribut dan 395 instance
• Penjelasan lebih detail terkait datanya bisa diakses melalui
http://www3.dsi.uminho.pt/pcortez/student.pdf
DTS 2022 24
5. Hands on
5.3. Akuisisi data
• Buka aplikasi Orange
• Pilih new
DTS 2022 25
5. Hands on Main menu canvas
5.3. Akuisisi data
• 5.3.1. Load data
Akan muncul main window
Orange yang terdiri dari
● Main menu
Widget
● Widget menu menu
● Canvas
● Workflow
Work
flow
DTS 2022 26
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
● klik widget csv file import
yang ada di widget menu
● simbol widget csv akan
muncul di canvas
DTS 2022 27
5. Hands on
5.3. Akuisisi data
5.3.1. Load data 2
● Double klik simbol widget csv 1
yang ada di canvas untuk
memilih data setyang akan
dipergunakan(yang telah
diunduh dan disimpan di
komputer)
● pilih file yang telah didownload
di komputer
DTS 2022 28
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
● Pilih file yang telah di
download di komputer
● Klik open
DTS 2022 29
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
● Pastikan cell delimiternya
semicolon
● Klik OK
DTS 2022 30
5. Hands on
5.3. Akuisisi data
5.3.1. Load data
● Nama file sudah muncul di
windows
● Jumlah feature sudah sesuai
DTS 2022 31
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
● Untuk melihat data, tambahkan
widget table ke kanvas
DTS 2022 32
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
Hubungkan widget csv dengan
widget table dengan mengklik di
widget csv lalu tarik ke widget
table
DTS 2022 33
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table
Klik widget table di canvas untuk
melihat data, info terkait dengan
data bisa dilihat di bagian kiri
DTS 2022 34
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions
● Untuk lebih memahami data, kita
bisa melakukan visualisasi data
● Klik di menu widget visualisasi
● Pilih visualisasi yang diperlukan
misal distribusi
● Hubungkan data table dengan
visualisasi yang telah dipilih
DTS 2022 35
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions
● Klik widget distribusi di
kanvas untuk mengetahui
distribusi tiap attribute data
● Pilih atribut yang ingin dilihat
distribusinya
DTS 2022 36
5. Hands on
5.4. Eksplorasi data
• Double Klik Select
Columns Widget.
• Pilih Kolom yang
diinginkan sebagai
feature didalam
melakukan clustering.
DTS 2022 37
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
• Pilih widget k-means.
• Double Klik untuk
menampilkan window k-
means.
• Pilih range number cluster
(fixed from 2 to 8).
• Ambil nilai k untuk nilai
silhouette score tertinggi.
DTS 2022 38
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi
• Untuk melakukan evaluasi,
pilih visualize dalam bentuk
silhouette plot.
• Sambungkan model k-means
ke plot.
• Double klik plot widget dan
pilih distance yang
digunakan.
DTS 2022 39
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi
• Pilih widget Scatter Plot
untuk menampilkan hasil
cluster.
• Double Klik Widget Scatter
Plot untuk melihat hasil
cluster.
• Cluster Dapat ditampilkan
berdasarkan fitur yang
telah dipilih.
DTS 2022 40
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi
Dapat ditampilkan
dalam bentuk data
table untuk
mengetahui data
tergabung di dalam
cluster yang mana.
DTS 2022 41
4. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Setting
• Pilih widget PCA di dalam
menu unsupervised.
• Pilih widget PCA, dan
double click untuk
menampilkan window.
• Pilih pembagian cluster di
menjadi 8 components.
DTS 2022 42
5. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Visualisasi
• Klik Scatter Plot.
• Hubungkan Widget PCA
ke Scatter Plot.
• Double Klik Scatter Plot
untuk melihat cluster
yang dihasilkan.
DTS 2022 43
4. Hands on
4.5. Eksplorasi model Clustering
Petunjuk:
Berdasarkan model yang sudah dipelajari, silahkan melakukan eksplorasi dengan:
● berbagai setting parameter pada metode clustering.
● dampaknya evaluasi/visualisasi (silhouette plot dan scatter plot).
Note:
⮚ Aktifitas kelas: 20menit
⮚ Trainer akan membantu melalui tanya jawab.
DTS 2022 44
Terima Kasih