Anda di halaman 1dari 45

Modul 7

Mengevaluasi hasil belajar siswa


dengan Machine Learning: Clustering
Pekerjaan
Dwi Hartanto ● Freelancer ● Asesor Kompetensi

Latar belakang Pendidikan Pengajar


S1: Pendidikan Matematika, Universitas Sebelas Maret

Kursus
Deep Learning Institute NVIDIA, Deep Learning & Data Science Workflow
AWS Academy, Machine Learning Foundation
Cisco Networking Academy, Python

Riwayat Pekerjaan
2008 – 2014 Sertifikasi Guru Rayon 113 UNS, Divisi Data
2014 – 2022 Freelancer
2022 – 2022 Thematic Academy Kominfo, Instruktur AI Chatbot
2022 – 2022 LSP Teknologi Digital, Asesor Kompetensi
Contact Pengajar
Ponsel : 08985252426
Email : dwixhartanto@gmail.com Sertifikasi
● Asociate Data Scientist, BNSP ● Graph Database Profesional, Neo4j
DTS 2022 ● Azure AI Fundamental, Microsoft ● Asesor Kompetensi, BNSP 2
1. Pendahuluan
● Pengertian Clustering
2. Distance Metriks
3. K-means
● Konsep dasar
4. PCA
● Konsep dasar
5. Hands On
● Penerapan clustering menggunakan Orange
● Eksplorasi model Clustering
Source : Difference Between Classification and Clustering (with Comparison Chart) - Tech Differences

DTS 2022 4
Source : boozallen.com

DTS 2022 5
DTS 2022 6
1. Pendahuluan
Clustering:
• metode untuk membagi data ke dalam
kelompok-kelompok atau cluster
sehingga data yang memiliki kemiripan
yang tinggi akan berada dalam
kelompok yang sama.

Contoh:
• Kelompok topik di dalam berita

DTS 2022 7
1. Pendahuluan
Clustering :
• Unsupervised learning

DTS 2022 8
2. Distance Metric
Metode yang digunakan untuk mengukur kesamaan dan kedekatan antara dua titik data.
Pengukuran jarak memegang peran yang sangat penting , dalam menentukan kemiripan atau
keteraturan di antara data dan item.

Berikut beberapa metode pengukuran jarak yang sering digunakan :


a. Euclidean
Mengukur dua buah objek berdasarkan jarak lurus atau garis lurus dalam Euclidean space

Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik

DTS 2022 9
2. Distance Metric

b. Manhattan / City Blok

Menghitung perbedaan absolut (mutlak) antara koordinat sepasang objek

Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik

DTS 2022 10
2. Distance Metric

C. Cosine Similarity

Metriks yang digunakan untuk menentukan seberapa mirip 2 data.


Secara matematis, ia mengukur sudut cos antara dua vektor yang diproyeksikan dalam ruang multi-
dimensi.

Keterangan :
A = Vektor A, yang akan dibandingkan kemiripannya
B = Vektor B, yang akan dibandingkan kemiripannya
A • B = dot product antara vektor A dan vektor B
|A| = panjang vektor A
|B| = panjang vektor B
|A||B| = cross product antara |A| dan |B|

DTS 2022 11
https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa
DTS 2022 12
3. k-means

• Metode k-means clustering membagi dataset ke dalam k


cluster.
• Proses mengelompokkan pada K-means clustering didasarkan
pada jarak data ke titik pusat cluster.
• Suatu data akan masuk ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut.

DTS 2022 13
3. k-means

• Tahapan dalam k-means clustering adalah sebagai


berikut:
a) Pilih titik sejumlah k secara acak untuk dipergunakan sebagai pusat
cluster.
b) Setiap data dikelompokkan ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut
c) Menghitung ulang titik pusat cluster yang terbentuk berdasarkan
rata-rata data yang masuk ke dalam cluster
d) Mengulangi langkah b sampai tidak ada lagi data yang berpindah
cluster

DTS 2022 14
3. k-means

• Keunggulan k-means:
• Sederhana
• Mudah di implementasi.

• Kelemahan k-means:
• Salah satunya adalah sulitnya menentukan jumlah cluster.
• Menggunakan metode uji coba (try and error).

DTS 2022 15
3. k-means
• Metode penentuan nilai k
pada cluster k-means dengan
metode elbow.
• Jumlah k kluster yang
digunakan adalah k pada nilai
WCSS tidak berubah lagi
dengan signifikan.

DTS 2022 16
4. PCA
• Metode yang dipergunakan untuk mengurangi dimensi (jumlah variabel)
dari suatu dataset dengan tetap mempertahankan variabilitas sebanyak
mungkin.

• Tujuan dari PCA adalah mengidentifikasi variabel-variabel penting yang


merepresentasikan dataset.

DTS 2022 17
4. Kenapa PCA diperlukan?
• Proses Clustering seringkali melibatkan dataset yang memiliki
jumlah variabel yang banyak.
• Jumlah variabel yang sangat banyak akan menyebabkan proses
clustering menjadi sangat lama, sehingga diperlukan cara
supaya proses clusteringnya menjadi lebih ringan.
• Salah satu metodenya adalah Principal Component Analysis
(PCA).

DTS 2022 18
4. Evaluasi
• Metode untuk mengevaluasi clustering umumnya didasarkan
pada kedekatan data dalam satu cluster dan keterpisahan data
antar cluster. Beberapa contoh metode evaluasi untuk
clustering antara lain:
a) Silhouette Coefficient
b) Davies Bouldin Index (BDI)

DTS 2022 19
5. Hands on
• Pada hands on kali ini, kita akan mengolah data performa siswa.
• Tahapan yang dilakukan adalah:

Pembatasan Eksplorasi Pembuatan Evaluasi


Akuisisi data
masalah data Model Model

DTS 2022 20
5. Hands on
5.1. Pembatasan masalah

• Permasalahan yang diangkat terkait dengan prediksi prestasi siswa


menengah atas di Portugal.
• Di Portugal, siswa menempuh sekolah menengah atas selama 3 tahun
• Sistem pendidikan di Portugal menggunakan penilaian dengan skala 20,
dimana 0 adalah nilai terendah dan 20 adalah nilai tertinggi
• Dalam 1 tahun ajaran, penilaian dilakukan 3 kali, dan penilaian terakhir
menentukan grade terakhirnya (final grade)
• Prediksi prestasi siswa dilakukan untuk mata pelajaran Matematika

DTS 2022 21
5. Hands on
5.1. Pembatasan
masalah
(Meta data)

DTS 2022 22
5. Hands on
5.1. Pembatasan masalah
(fitur/atribut dan class/label)

⮚ Terlihat dari fitur/atribut yang ada, telah


dikelompokan berdasarkan profilnya yakni
pribadi, keluarga, fasilitas, kegiatan di luar
sekolah.
⮚ Dengan class yang dijadikan target adalah
nilai matematika pada kelas 3

DTS 2022 23
5. Hands on
5.2. Akuisisi data:

• Data set bisa diunduh melalui link berikut :


https://archive.ics.uci.edu/ml/datasets/student+performance
• Data yang dipergunakan dikumpulkan pada tahun ajaran 2005 dan 2006, dari 2
sekolah menengah pertama di Portugal
• Dataset tersebut disusun berdasarkan laporan sekolah, paper sheet (lembar
kerja), kuisioner dan informasi-informasi pelengkap
• Dataset yang terbentuk terdiri memiliki 33 atribut dan 395 instance
• Penjelasan lebih detail terkait datanya bisa diakses melalui
http://www3.dsi.uminho.pt/pcortez/student.pdf

DTS 2022 24
5. Hands on

5.3. Akuisisi data

• Buka aplikasi Orange


• Pilih new

DTS 2022 25
5. Hands on Main menu canvas

5.3. Akuisisi data


• 5.3.1. Load data

Akan muncul main window


Orange yang terdiri dari
● Main menu
Widget
● Widget menu menu
● Canvas
● Workflow
Work
flow

DTS 2022 26
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● klik widget csv file import


yang ada di widget menu
● simbol widget csv akan
muncul di canvas

DTS 2022 27
5. Hands on
5.3. Akuisisi data
5.3.1. Load data 2

● Double klik simbol widget csv 1


yang ada di canvas untuk
memilih data setyang akan
dipergunakan(yang telah
diunduh dan disimpan di
komputer)
● pilih file yang telah didownload
di komputer

DTS 2022 28
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Pilih file yang telah di


download di komputer
● Klik open

DTS 2022 29
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Pastikan cell delimiternya


semicolon
● Klik OK

DTS 2022 30
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Nama file sudah muncul di


windows
● Jumlah feature sudah sesuai

DTS 2022 31
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

● Untuk melihat data, tambahkan


widget table ke kanvas

DTS 2022 32
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

Hubungkan widget csv dengan


widget table dengan mengklik di
widget csv lalu tarik ke widget
table

DTS 2022 33
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

Klik widget table di canvas untuk


melihat data, info terkait dengan
data bisa dilihat di bagian kiri

DTS 2022 34
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions

● Untuk lebih memahami data, kita


bisa melakukan visualisasi data
● Klik di menu widget visualisasi
● Pilih visualisasi yang diperlukan
misal distribusi
● Hubungkan data table dengan
visualisasi yang telah dipilih

DTS 2022 35
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions

● Klik widget distribusi di


kanvas untuk mengetahui
distribusi tiap attribute data
● Pilih atribut yang ingin dilihat
distribusinya

DTS 2022 36
5. Hands on
5.4. Eksplorasi data

• Double Klik Select


Columns Widget.
• Pilih Kolom yang
diinginkan sebagai
feature didalam
melakukan clustering.

DTS 2022 37
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means

• Pilih widget k-means.


• Double Klik untuk
menampilkan window k-
means.
• Pilih range number cluster
(fixed from 2 to 8).
• Ambil nilai k untuk nilai
silhouette score tertinggi.

DTS 2022 38
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

• Untuk melakukan evaluasi,


pilih visualize dalam bentuk
silhouette plot.
• Sambungkan model k-means
ke plot.
• Double klik plot widget dan
pilih distance yang
digunakan.
DTS 2022 39
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

• Pilih widget Scatter Plot


untuk menampilkan hasil
cluster.
• Double Klik Widget Scatter
Plot untuk melihat hasil
cluster.
• Cluster Dapat ditampilkan
berdasarkan fitur yang
telah dipilih.
DTS 2022 40
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

Dapat ditampilkan
dalam bentuk data
table untuk
mengetahui data
tergabung di dalam
cluster yang mana.

DTS 2022 41
4. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Setting

• Pilih widget PCA di dalam


menu unsupervised.
• Pilih widget PCA, dan
double click untuk
menampilkan window.
• Pilih pembagian cluster di
menjadi 8 components.

DTS 2022 42
5. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Visualisasi

• Klik Scatter Plot.


• Hubungkan Widget PCA
ke Scatter Plot.
• Double Klik Scatter Plot
untuk melihat cluster
yang dihasilkan.

DTS 2022 43
4. Hands on
4.5. Eksplorasi model Clustering

Petunjuk:
Berdasarkan model yang sudah dipelajari, silahkan melakukan eksplorasi dengan:
● berbagai setting parameter pada metode clustering.
● dampaknya evaluasi/visualisasi (silhouette plot dan scatter plot).

Note:
⮚ Aktifitas kelas: 20menit
⮚ Trainer akan membantu melalui tanya jawab.

DTS 2022 44
Terima Kasih

Anda mungkin juga menyukai