0% menganggap dokumen ini bermanfaat (0 suara)

564 tayangan45 halaman

Modul 7 - PPT - ClusteringV2

Modul ini membahas tentang evaluasi hasil belajar siswa dengan metode clustering. Terdapat penjelasan mengenai konsep dasar clustering dan beberapa algoritma clustering seperti k-means dan PCA. Modul ini juga menampilkan contoh penerapan clustering pada data hasil belajar siswa menggunakan aplikasi Orange.

Diunggah oleh

Rizki Angga

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

564 tayangan45 halaman

Modul 7 - PPT - ClusteringV2

Diunggah oleh

Rizki Angga

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Modul 7

Mengevaluasi hasil belajar siswa

dengan Machine Learning: Clustering
Pekerjaan
Dwi Hartanto ● Freelancer ● Asesor Kompetensi

Latar belakang Pendidikan Pengajar

S1: Pendidikan Matematika, Universitas Sebelas Maret

Kursus
Deep Learning Institute NVIDIA, Deep Learning & Data Science Workflow
AWS Academy, Machine Learning Foundation
Cisco Networking Academy, Python

Riwayat Pekerjaan
2008 – 2014 Sertifikasi Guru Rayon 113 UNS, Divisi Data
2014 – 2022 Freelancer
2022 – 2022 Thematic Academy Kominfo, Instruktur AI Chatbot
2022 – 2022 LSP Teknologi Digital, Asesor Kompetensi
Contact Pengajar
Ponsel : 08985252426
Email : dwixhartanto@gmail.com Sertifikasi
● Asociate Data Scientist, BNSP ● Graph Database Profesional, Neo4j
DTS 2022 ● Azure AI Fundamental, Microsoft ● Asesor Kompetensi, BNSP 2
1. Pendahuluan
● Pengertian Clustering
2. Distance Metriks
3. K-means
● Konsep dasar
4. PCA
● Konsep dasar
5. Hands On
● Penerapan clustering menggunakan Orange
● Eksplorasi model Clustering
Source : Difference Between Classification and Clustering (with Comparison Chart) - Tech Differences

DTS 2022 4
Source : boozallen.com

DTS 2022 5
DTS 2022 6
1. Pendahuluan
Clustering:
• metode untuk membagi data ke dalam
kelompok-kelompok atau cluster
sehingga data yang memiliki kemiripan
yang tinggi akan berada dalam
kelompok yang sama.

Contoh:
• Kelompok topik di dalam berita

DTS 2022 7
1. Pendahuluan
Clustering :
• Unsupervised learning

DTS 2022 8
2. Distance Metric
Metode yang digunakan untuk mengukur kesamaan dan kedekatan antara dua titik data.
Pengukuran jarak memegang peran yang sangat penting , dalam menentukan kemiripan atau
keteraturan di antara data dan item.

Berikut beberapa metode pengukuran jarak yang sering digunakan :

a. Euclidean
Mengukur dua buah objek berdasarkan jarak lurus atau garis lurus dalam Euclidean space

Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik

DTS 2022 9
2. Distance Metric

b. Manhattan / City Blok

Menghitung perbedaan absolut (mutlak) antara koordinat sepasang objek

Dimana x dan y adalah dua objek data yang memiliki n atribut bernilai numerik

DTS 2022 10
2. Distance Metric

C. Cosine Similarity

Metriks yang digunakan untuk menentukan seberapa mirip 2 data.

Secara matematis, ia mengukur sudut cos antara dua vektor yang diproyeksikan dalam ruang multi-
dimensi.

Keterangan :
A = Vektor A, yang akan dibandingkan kemiripannya
B = Vektor B, yang akan dibandingkan kemiripannya
A • B = dot product antara vektor A dan vektor B
|A| = panjang vektor A
|B| = panjang vektor B
|A||B| = cross product antara |A| dan |B|

DTS 2022 11
https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa
DTS 2022 12
3. k-means

• Metode k-means clustering membagi dataset ke dalam k

cluster.
• Proses mengelompokkan pada K-means clustering didasarkan
pada jarak data ke titik pusat cluster.
• Suatu data akan masuk ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut.

DTS 2022 13
3. k-means

• Tahapan dalam k-means clustering adalah sebagai

berikut:
a) Pilih titik sejumlah k secara acak untuk dipergunakan sebagai pusat
cluster.
b) Setiap data dikelompokkan ke dalam cluster yang titik pusatnya
paling dekat dengan data tersebut
c) Menghitung ulang titik pusat cluster yang terbentuk berdasarkan
rata-rata data yang masuk ke dalam cluster
d) Mengulangi langkah b sampai tidak ada lagi data yang berpindah
cluster

DTS 2022 14
3. k-means

• Keunggulan k-means:
• Sederhana
• Mudah di implementasi.

• Kelemahan k-means:
• Salah satunya adalah sulitnya menentukan jumlah cluster.
• Menggunakan metode uji coba (try and error).

DTS 2022 15
3. k-means
• Metode penentuan nilai k
pada cluster k-means dengan
metode elbow.
• Jumlah k kluster yang
digunakan adalah k pada nilai
WCSS tidak berubah lagi
dengan signifikan.

DTS 2022 16
4. PCA
• Metode yang dipergunakan untuk mengurangi dimensi (jumlah variabel)
dari suatu dataset dengan tetap mempertahankan variabilitas sebanyak
mungkin.

• Tujuan dari PCA adalah mengidentifikasi variabel-variabel penting yang

merepresentasikan dataset.

DTS 2022 17
4. Kenapa PCA diperlukan?
• Proses Clustering seringkali melibatkan dataset yang memiliki
jumlah variabel yang banyak.
• Jumlah variabel yang sangat banyak akan menyebabkan proses
clustering menjadi sangat lama, sehingga diperlukan cara
supaya proses clusteringnya menjadi lebih ringan.
• Salah satu metodenya adalah Principal Component Analysis
(PCA).

DTS 2022 18
4. Evaluasi
• Metode untuk mengevaluasi clustering umumnya didasarkan
pada kedekatan data dalam satu cluster dan keterpisahan data
antar cluster. Beberapa contoh metode evaluasi untuk
clustering antara lain:
a) Silhouette Coefficient
b) Davies Bouldin Index (BDI)

DTS 2022 19
5. Hands on
• Pada hands on kali ini, kita akan mengolah data performa siswa.
• Tahapan yang dilakukan adalah:

Pembatasan Eksplorasi Pembuatan Evaluasi

Akuisisi data
masalah data Model Model

DTS 2022 20
5. Hands on
5.1. Pembatasan masalah

• Permasalahan yang diangkat terkait dengan prediksi prestasi siswa

menengah atas di Portugal.
• Di Portugal, siswa menempuh sekolah menengah atas selama 3 tahun
• Sistem pendidikan di Portugal menggunakan penilaian dengan skala 20,
dimana 0 adalah nilai terendah dan 20 adalah nilai tertinggi
• Dalam 1 tahun ajaran, penilaian dilakukan 3 kali, dan penilaian terakhir
menentukan grade terakhirnya (final grade)
• Prediksi prestasi siswa dilakukan untuk mata pelajaran Matematika

DTS 2022 21
5. Hands on
5.1. Pembatasan
masalah
(Meta data)

DTS 2022 22
5. Hands on
5.1. Pembatasan masalah
(fitur/atribut dan class/label)

⮚ Terlihat dari fitur/atribut yang ada, telah

dikelompokan berdasarkan profilnya yakni
pribadi, keluarga, fasilitas, kegiatan di luar
sekolah.
⮚ Dengan class yang dijadikan target adalah
nilai matematika pada kelas 3

DTS 2022 23
5. Hands on
5.2. Akuisisi data:

• Data set bisa diunduh melalui link berikut :

https://archive.ics.uci.edu/ml/datasets/student+performance
• Data yang dipergunakan dikumpulkan pada tahun ajaran 2005 dan 2006, dari 2
sekolah menengah pertama di Portugal
• Dataset tersebut disusun berdasarkan laporan sekolah, paper sheet (lembar
kerja), kuisioner dan informasi-informasi pelengkap
• Dataset yang terbentuk terdiri memiliki 33 atribut dan 395 instance
• Penjelasan lebih detail terkait datanya bisa diakses melalui
http://www3.dsi.uminho.pt/pcortez/student.pdf

DTS 2022 24
5. Hands on

5.3. Akuisisi data

• Buka aplikasi Orange

• Pilih new

DTS 2022 25
5. Hands on Main menu canvas

5.3. Akuisisi data

• 5.3.1. Load data

Akan muncul main window

Orange yang terdiri dari
● Main menu
Widget
● Widget menu menu
● Canvas
● Workflow
Work
flow

DTS 2022 26
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● klik widget csv file import

yang ada di widget menu
● simbol widget csv akan
muncul di canvas

DTS 2022 27
5. Hands on
5.3. Akuisisi data
5.3.1. Load data 2

● Double klik simbol widget csv 1

yang ada di canvas untuk
memilih data setyang akan
dipergunakan(yang telah
diunduh dan disimpan di
komputer)
● pilih file yang telah didownload
di komputer

DTS 2022 28
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Pilih file yang telah di

download di komputer
● Klik open

DTS 2022 29
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Pastikan cell delimiternya

semicolon
● Klik OK

DTS 2022 30
5. Hands on
5.3. Akuisisi data
5.3.1. Load data

● Nama file sudah muncul di

windows
● Jumlah feature sudah sesuai

DTS 2022 31
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

● Untuk melihat data, tambahkan

widget table ke kanvas

DTS 2022 32
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

Hubungkan widget csv dengan

widget table dengan mengklik di
widget csv lalu tarik ke widget
table

DTS 2022 33
5. Hands on
5.3. Eksplorasi data
5.3.1. Data table

Klik widget table di canvas untuk

melihat data, info terkait dengan
data bisa dilihat di bagian kiri

DTS 2022 34
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions

● Untuk lebih memahami data, kita

bisa melakukan visualisasi data
● Klik di menu widget visualisasi
● Pilih visualisasi yang diperlukan
misal distribusi
● Hubungkan data table dengan
visualisasi yang telah dipilih

DTS 2022 35
5. Hands on
5.3. Eksplorasi data
5.3.2. Distributions

● Klik widget distribusi di

kanvas untuk mengetahui
distribusi tiap attribute data
● Pilih atribut yang ingin dilihat
distribusinya

DTS 2022 36
5. Hands on
5.4. Eksplorasi data

• Double Klik Select

Columns Widget.
• Pilih Kolom yang
diinginkan sebagai
feature didalam
melakukan clustering.

DTS 2022 37
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means

• Pilih widget k-means.

• Double Klik untuk
menampilkan window k-
means.
• Pilih range number cluster
(fixed from 2 to 8).
• Ambil nilai k untuk nilai
silhouette score tertinggi.

DTS 2022 38
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

• Untuk melakukan evaluasi,

pilih visualize dalam bentuk
silhouette plot.
• Sambungkan model k-means
ke plot.
• Double klik plot widget dan
pilih distance yang
digunakan.
DTS 2022 39
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

• Pilih widget Scatter Plot

untuk menampilkan hasil
cluster.
• Double Klik Widget Scatter
Plot untuk melihat hasil
cluster.
• Cluster Dapat ditampilkan
berdasarkan fitur yang
telah dipilih.
DTS 2022 40
5. Hands on (k-means)
5.5. Pemodelan
5.5.1. K-means
5.5.1.1. Visualisasi

Dapat ditampilkan
dalam bentuk data
table untuk
mengetahui data
tergabung di dalam
cluster yang mana.

DTS 2022 41
4. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Setting

• Pilih widget PCA di dalam

menu unsupervised.
• Pilih widget PCA, dan
double click untuk
menampilkan window.
• Pilih pembagian cluster di
menjadi 8 components.

DTS 2022 42
5. Hands on (PCA)
5.5. Pemodelan
5.5.2. PCA
5.5.2.1. Visualisasi

• Klik Scatter Plot.

• Hubungkan Widget PCA
ke Scatter Plot.
• Double Klik Scatter Plot
untuk melihat cluster
yang dihasilkan.

DTS 2022 43
4. Hands on
4.5. Eksplorasi model Clustering

Petunjuk:
Berdasarkan model yang sudah dipelajari, silahkan melakukan eksplorasi dengan:
● berbagai setting parameter pada metode clustering.
● dampaknya evaluasi/visualisasi (silhouette plot dan scatter plot).

Note:
⮚ Aktifitas kelas: 20menit
⮚ Trainer akan membantu melalui tanya jawab.

DTS 2022 44
Terima Kasih

Anda mungkin juga menyukai

Modul 13 Clustering
Belum ada peringkat
Modul 13 Clustering
64 halaman
K Mean Clustering
Belum ada peringkat
K Mean Clustering
6 halaman
Clustering Dan Evaluasi
Belum ada peringkat
Clustering Dan Evaluasi
22 halaman
6 - SD211105 - RPS Pengantar Sains Data-OBE-PjBL
Belum ada peringkat
6 - SD211105 - RPS Pengantar Sains Data-OBE-PjBL
29 halaman
PPT-Data Mining-Pertemuan 12 (K-Means) Z
Belum ada peringkat
PPT-Data Mining-Pertemuan 12 (K-Means) Z
30 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Backpropagation
Belum ada peringkat
Backpropagation
3 halaman
Skripsi
Belum ada peringkat
Skripsi
14 halaman
PPT-Masliana Damanik - 0701171021
Belum ada peringkat
PPT-Masliana Damanik - 0701171021
23 halaman
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
Belum ada peringkat
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
19 halaman
Panduan WEKA untuk Pemula
Belum ada peringkat
Panduan WEKA untuk Pemula
18 halaman
Pertemuan - 2b Prinsip-Prinsip Utama Pada Visualisasi Data
Belum ada peringkat
Pertemuan - 2b Prinsip-Prinsip Utama Pada Visualisasi Data
18 halaman
03 Data Understanding
100% (1)
03 Data Understanding
31 halaman
Analisis Divisive Clustering DIANA
100% (1)
Analisis Divisive Clustering DIANA
16 halaman
Tugas 2 Data Mining Decisioin Tree
Belum ada peringkat
Tugas 2 Data Mining Decisioin Tree
32 halaman
Pertemuan Ke-3 Dan Ke-4 Data Mining
Belum ada peringkat
Pertemuan Ke-3 Dan Ke-4 Data Mining
19 halaman
Random Forest
Belum ada peringkat
Random Forest
6 halaman
Slide 12 Klasterisasi Hierarchical Clustering
Belum ada peringkat
Slide 12 Klasterisasi Hierarchical Clustering
27 halaman
Klasifikasi K-Nearest Neighbor dalam Data Mining
Belum ada peringkat
Klasifikasi K-Nearest Neighbor dalam Data Mining
31 halaman
Soal Latihan DFS BFS 1
Belum ada peringkat
Soal Latihan DFS BFS 1
1 halaman
Belajar Clustering dan K-Means
Belum ada peringkat
Belajar Clustering dan K-Means
22 halaman
Panduan Praktikum Data Mining Menggunakan Python 2020
100% (1)
Panduan Praktikum Data Mining Menggunakan Python 2020
63 halaman
Algoritma K-Medoids: Pengelompokan Data
0% (1)
Algoritma K-Medoids: Pengelompokan Data
11 halaman
Data Mining 044368236pdf
Belum ada peringkat
Data Mining 044368236pdf
3 halaman
Pertemuan 3: Array Dimensi Banyak
Belum ada peringkat
Pertemuan 3: Array Dimensi Banyak
17 halaman
Metaheuristik untuk TSP dan VRP dengan MATLAB
Belum ada peringkat
Metaheuristik untuk TSP dan VRP dengan MATLAB
31 halaman
Analisis Cluster Kelompok 3
Belum ada peringkat
Analisis Cluster Kelompok 3
44 halaman
Analisis Runtun Waktu dengan Minitab
Belum ada peringkat
Analisis Runtun Waktu dengan Minitab
23 halaman
Latihan Soal Kelompok
Belum ada peringkat
Latihan Soal Kelompok
8 halaman
Logo Universitas Narotama dalam Data Mining
Belum ada peringkat
Logo Universitas Narotama dalam Data Mining
14 halaman
Bab 2 Pre Processing
Belum ada peringkat
Bab 2 Pre Processing
44 halaman
Ujian Tengah Semester Data Mining dan Web
Belum ada peringkat
Ujian Tengah Semester Data Mining dan Web
3 halaman
PPT-Data Mining-Pertemuan 3
Belum ada peringkat
PPT-Data Mining-Pertemuan 3
27 halaman
Kel3 SRS
Belum ada peringkat
Kel3 SRS
17 halaman
Rule Base (Decision Tree) (PPTX)
Belum ada peringkat
Rule Base (Decision Tree) (PPTX)
25 halaman
Program MATLAB Neuron Hebb untuk AND
Belum ada peringkat
Program MATLAB Neuron Hebb untuk AND
9 halaman
Classification and Regression Tree
Belum ada peringkat
Classification and Regression Tree
4 halaman
Decision Tree and Random Forest
Belum ada peringkat
Decision Tree and Random Forest
17 halaman
Data Mining Algoritma Cart
100% (1)
Data Mining Algoritma Cart
14 halaman
Model Perceptron untuk Klasifikasi Pola
Belum ada peringkat
Model Perceptron untuk Klasifikasi Pola
25 halaman
Arti Aktivasi Neuron dalam Saraf
Belum ada peringkat
Arti Aktivasi Neuron dalam Saraf
62 halaman
Data Mining - 5 - Teknik Data Mining
Belum ada peringkat
Data Mining - 5 - Teknik Data Mining
47 halaman
Soal SPK-UTS-UAS Konsep Data Mining Ganjil-2021-2022
Belum ada peringkat
Soal SPK-UTS-UAS Konsep Data Mining Ganjil-2021-2022
1 halaman
Diskusi 4 MSIM4403
Belum ada peringkat
Diskusi 4 MSIM4403
2 halaman
Metode Minimum Spanning Tree
Belum ada peringkat
Metode Minimum Spanning Tree
13 halaman
Bayesian Decision Theory
100% (1)
Bayesian Decision Theory
30 halaman
Visualisasi Data dengan Grafik Teks
Belum ada peringkat
Visualisasi Data dengan Grafik Teks
3 halaman
Data Mining - 3 Eksplorasi Data
100% (2)
Data Mining - 3 Eksplorasi Data
33 halaman
Algoritma C4.5 untuk Klasifikasi
Belum ada peringkat
Algoritma C4.5 untuk Klasifikasi
41 halaman
Slide Presentasi Arima
Belum ada peringkat
Slide Presentasi Arima
23 halaman
Klasifikasi Data dengan Python: Praktikum
Belum ada peringkat
Klasifikasi Data dengan Python: Praktikum
16 halaman
PPT Bahan Ajar TA DTS 2021 (Model ANN) - 14 Juli 2021 - FZR
Belum ada peringkat
PPT Bahan Ajar TA DTS 2021 (Model ANN) - 14 Juli 2021 - FZR
68 halaman
Soal-Soal Data Mining
Belum ada peringkat
Soal-Soal Data Mining
4 halaman
Evaluasi Jarak & Silhouette K-Means
Belum ada peringkat
Evaluasi Jarak & Silhouette K-Means
96 halaman
Latihan Normalisasi Data
Belum ada peringkat
Latihan Normalisasi Data
32 halaman
Klasifikasi dan Analisis Data dengan C4.5
Belum ada peringkat
Klasifikasi dan Analisis Data dengan C4.5
13 halaman
"Pelatihan Clustering DTS 2021"
Belum ada peringkat
"Pelatihan Clustering DTS 2021"
87 halaman
Ujian Praktek Annisa Muthmainnah
Belum ada peringkat
Ujian Praktek Annisa Muthmainnah
16 halaman
Metode Clustering: K-Means & DBSCAN
Belum ada peringkat
Metode Clustering: K-Means & DBSCAN
44 halaman
PPT Merekonstruksi Data
Belum ada peringkat
PPT Merekonstruksi Data
68 halaman
Modul Ajar Keamanan Jaringan
Belum ada peringkat
Modul Ajar Keamanan Jaringan
55 halaman
KJ 7 - Program Semester Ganjil
Belum ada peringkat
KJ 7 - Program Semester Ganjil
1 halaman
Teknologi Subscriber Internet Telepon
Belum ada peringkat
Teknologi Subscriber Internet Telepon
9 halaman
Mooc PPPK
Belum ada peringkat
Mooc PPPK
10 halaman
Latsar Mooc PPPK 1
Belum ada peringkat
Latsar Mooc PPPK 1
12 halaman
Evaluasi MOOC PPPK: Soal dan Etika PNS
Belum ada peringkat
Evaluasi MOOC PPPK: Soal dan Etika PNS
12 halaman