Anda di halaman 1dari 18

K(8)-NN

UNTUK KLASIFIKASI
DAN PREDIKSI
PERINGKAT
SEKOLAH
TEGUH PRASETYO | FIRDA AULIA | ASSYIFA LALA
EKSPLORASI DATA PEMODELAN EVALUASI MODEL
EKSPLORASI DATA
[Firda Aulia Maghfiroh]
PEUBAH DEPENDEN:

Peringkat [A, B, C, TT (Tidak Terakreditasi)]

PEUBAH INDEPENDEN:

Standar Isi Standar Kompetensi

Standar Proses Standar Pengelolaan

Standar Pendidik Standar Biaya

Standar Sarana dan Prasarana Standar Nilai


PROPORSI MASING-MASING KATEGORI
A Rata-rata seluruh peubah
14.2% penjelas pada kategori A: 92,73
TT
24.9% dengan range rata-rata 90,63-96,88
Rata-rata seluruh peubah
penjelas pada kategori TT: 50,63
dengan range rata-rata 0-85,25

B
Rata-rata seluruh peubah 30.4%
penjelas pada kategori C: 75,05
dengan range rata-rata 70,5-81 Rata-rata seluruh peubah
penjelas pada kategori B: 85,70
C
30.4% dengan range rata-rata 80,63-94,63
MISSING
VALUE

Tidak terdapat missing value


atau data hilang pada seluruh
peubah independen
BOX-PLOT
Terlihat sebaran tiap peubah
penjelas dikategorikan
berdasarkan peubah respon,
bahwa semakin tinggi akreditasi
maka peubah penjelas cenderung
memiliki nilai yang semakin besar.
Kategori Tidak Terakreditasi
memiliki range paling panjang
dibanding kategori lainnya.
KORELASI
ANTAR PEUBAH
Terdapat korelasi yang cukup tinggi
antara peubah penjelas dalam data. Hal
ini mengindikasikan bahwa semakin
tinggi salah satu standar yang
didapatkan maka standar lain pada
peubah penjelas juga cenderung
semakin tinggi.

Meskipun demikian belum ada bukti antar


peubah penjelas saling mempengaruhi (hanya
memiliki korelasi tinggi saja)
PEMODELAN
Assyifa Lala Pratiwi Hamid
MEMBAGI DATA MENJADI
70 % DATA LATIH DAN 30 %DATA UJI
INGKAT A NGKAT B
PER PERI
DATA UJI
DATA UJI DATA UJI
30.4% 30.6% 30.5%

DATA LATIH DATA LATIH


DATA LATIH 69.4% 69.5%
69.6%

PER PERIN
ING GK
DATA LATIH: 240 DATA KA AT
DATA UJI: 105 DATA DATA UJI
T T

T
30.5% DATA UJI

C
30.2%

Pembagian data latih dan data uji


menggunakan mekanisme stratifikasi untuk
DATA LATIH
memastikan proporsi yang seimbang antar 69.5% DATA LATIH
69.8%

kelas kategori peubah respon


PEMODELAN K-NN
Dengan menggunakan k=8, berikut cuplikan 10 hasil teratas pada data latih

PRED CLASS ACTUAL CLASS PRED CLASS ACTUAL CLASS

A A A A

A A A A

A A A A

A A A A

A A A A
EVALUASI MODEL
[Assyifa Lala & Teguh Prasetyo]
CONFUSSION
MATRIX
Dengan menggunakan confussion
matrix, dapat dilihat tabel dua arah
perbandingan antara nilai aktual
(sumbu X) dengan nilai prediksi
(sumbu Y).

Semakin banyak amatan pada diagonal


utama confussion matrix, maka model
klasifikasi menghasilkan prediksi yang
semakin baik. Diketahui hanya terdapat 5
amatan yang salah prediksi dari total 240
amatan pada data latih. Hal tersebut
mengindikasikan model klasifikasi K-NN (k=8)
memiliki kinerja sangat baik.
STATISTIK METRIKS
EVALUASI
Berdasarkan nilai evaluation metrics
di samping, diketahui nilai Precision,
Recall, F-score, dan Kappa sangat
tinggi di atas 90%. Hal ini
mengindikasikan kinerja model
klasifikasi K-NN (k=8) sangat baik.
ROC Sedangkan dari plot ROC, dapat dilihat dari empat kategori
[Receiving peubah respon semuanya menghasilkan plot yang hampir
berimpit dengan sisi kiri atas kurva, dengan nilai AUC
Operating mendekati 100%. Hal ini mengindikasikan kinerja model
klasifikasi K-NN (k=8) sangat baik.
Characteristic]
VISUALISASI POHON BINARY KNN

Apabila model klasifikasi K-NN


diinterpretasikan dalam bentuk
binary tree akan nampak seperti di
samping. Faktor utama dalam
pengklasifikasian SMA adalah:
Jika nilai standar sarpras (di
bawah 61 maka TT;
Jika nilai standar pengelolaan (di
bawah 82) maka:
Jika nilai standar pengelolaan
di bawah 68 maka TT;
Jika nilai standar pengelolaan
di atas 69 maka C;
dst.
KESIMPULAN
Terdapat korelasi yang cukup tinggi antar peubah penjelas
Tidak terdapat indikasi imbalanced dataset pada jumlah amatan antar
kelas peubah respon
Model klasifikasi K-NN (k=8) mampu menghasilkan kinerja yang sangat
baik ditinjau dari:
1. Confussion Matrix yang memiliki hanya 5 amatan salah prediksi;
2. Nilai Precision, Recall, F-score, dan Kappa yang di atas 90%; dan
3. Kurva ROC yang menghasilkan plot yang hampir berimpit dengan sisi kiri
atas kurva, dengan nilai AUC mendekati 100%.
Jika model klasifikasi K-NN dengan kinerja tinggi diinterpretasikan
dengan binary tree, maka kita dapat menerka ketentuan dalam
pengkategorian SMA di Provinsi Jawa Barat
THANK
YOU

Anda mungkin juga menyukai