12.5A.01-Makalah UAS Pembelajaran Mesin

MODEL ALGORITMA K-NEAREST NEIGHBOR (K-NN) UNTUK PREDIKSI
KELULUSAN MAHASISWA
(Diajukan Untuk Memenuhi Nilai Tugas Akhir Mata Kuliah Pembelajaran Mesin)
12180294 Rafly Pratama, 12180414 Tegar Setiyo Hutomo,
12180152 Alvin Maezantara Yudha, 12180218 Syahril
Program Studi Teknik Informatika Fakultas Ilmu Komputer, STMIK Nusamandiri Jakarta 2020
Jl. Kramat Raya No.18, Kwitang, Kec. Senen,Kota Jakarta Pusat, Daerah Khusus Ibukota Jakarta
10450.
Abstrak
Dalam sistem pendidikan mahasiswa adalah aset penting bagi sebuah institusi pendidikan dan untuk itu perlu
diperhatikan tingkat kelulusan mahasiswa tepat pada waktunya. Prosentase naik turunnya kemampuan mahasiswa
untuk menyelesaikan studi tepat waktu merupakan salah satu elemen penilaian akreditasi universitas. Untuk itu
perlu adalah pemantauan dan evaluasi terhadap kelulusan mahasiswa dengan menggunakan klasifikasi data mining.
Dengan mengolah data mahasiswa akan memperoleh hal penting untuk keperluan perguruaan tinggi terutama untuk
prediksi kelulusan mahasiswa. Dalam penelitian ini dalam memprediksi kelulusan mahasiswa dengan menggunakan
algoritma klasifikasi data mining K-Nearest Neighbor dengan mengklaster data k=1, k=2, k=3, k=4, dan k=5. Hasil
yang diperoleh dengan cluster data k=5 accuracy adalah 85,15% dan nilai AUC adalah 0.888 adalah akurasi paling
tinggi.
Kata kunci: mahasiswa, K-Nearest Neighbor
PENDAHULUAN adanya pemantauan maupun evaluasi

Latar Belakang terhadapat kecenderungan mahasiswa lulus
Lembaga pendidikan tertinggi adalah tepat waktu atau tidak.
perguruan tinggi yang merupakan Pemantauan atau evaluasi terhadap
penyelenggara pendidikan akademik bagi kinerja akan menghasilkan informasi yang
mahasiswa. Mahasiswa sering disebut bermanfaat untuk membantu mahasiswa,
kelompok masyarakat yang memiliki ciri dosen, administrator, dan pembuat kebijakan
intelektualitas yang lebih luas dibandingkan (Ogor, 2007). Dengan demikian jelas bahwa
dengan kelompok seusia mereka yang bukan memprediksi kelulusan mahasiswa adalah
mahasiswa ataupun kelompok usia lain yang hal yang penting bagi penyelenggara
dibawah mereka. Dengan intelektualitasnya pendidikan untuk menentukan strategi bagi
mahasiswa akan mampu menghadapi dan institusinya.
mencari permasalahan secara sistematis Suatu perguruan tinggi menyimpan
yang nantinya diterapkan dalam kehidupan data akademik, administrasi, biodata
sehari-hari agar bisa bersaing dalam dunia mahasiswa dan lain-lain. Data tersebut akan
kerja (Azwar, 2004). sangat bermakna jika digali dengan tepat
Perguruan tinggi dituntut untuk sehingga dapat diketahui pola atau
menyelenggarakan pendidikan yang pengetahuan untuk mengambil keputusan
berkualitas bagi mahasiswa sehingga (Ogor, 2007). Dengan menerapkan data
menghasilkan sumber daya manusia yang mining dapat memecahkan masalah dengan
berilmu, cakap, kreatif dan bersaing. Dalam menganalisis data yang dimiliki perguruan
sistem pendidikan mahasiswa adalah aset tinggi.
penting bagi sebuah institusi pendidikan dan Dalam mengolah data mahasiswa
untuk itu perlu diperhatikan tingkat untuk prediksi telah diselesaikan telah oleh
kelulusan mahasiswa tepat pada waktunya. Karamouiz dan Vrettos dengan
Prosentase naik turunnya kemampuan menggunakan metode neural network
mahasiswa untuk menyelesaikan studi tepat (Vrettos, 2009), Qudri dan Kalyankar
waktu merupakan salah satu elemen dengan metode decision tree (Kalyankar,
penilaian akreditasi universitas (Buku VI 2010), Suhartini dan Ernastuti dengan
Matriks Penilaian Instrumen Akreditasi metode C4.5 dan naïve bayes, (Ernastuti,
Program Studi Badan Akreditasi Nasional 2010), Hastuti dengan komparasi metode
Perguruan Tinggi, 2008). Untuk itu perlu Logistic Regression, Decision Tree, Naïve
Bayes, Neural Network (Hastuti, 2012) dan
Tahyudin, Utami dan Amborowati dengan adalah NN (Neural Network). Dari hasil data
mengkomparasi algoritma decision tree, training yang dilakukan diperoleh kategori
naïve bayes, ANN, Support Vector Machine yang lulus adalah 86.04% dan training data
(SVM) dan Logistic Regression (LR) untuk kategori yang tidak sukses adalah
(Tahyudin, 2013). Tetapi belum ada yang 68.21%, dan error yang diperoleh untuk
menggunakan metode klasifikasi data kedua kategori tersebut adalah 0.18%
mining lainnya seperti K-Nearest (Vrettos, 2009).
Neighbour, ID3, CHAID dan Learning Penelitian yang dilakukan oleh Qudri
Discriminant Analysis (LDA). dan Kalanyar pada tahun 2010 dengan judul
Untuk itu dalam penelitian ini akan Drop Out Feature of Student Data for
dilakukan prediksi kelulusan mahasiswa Academic Performance Using Decision Tree
dengan metode K-Nearest Neighbour techniques. Masalah dalam penelitiaanya
adalah prestasi akademik siswa sangat
Rumusan masalah
penting bagi lembaga pendidikan karena
Seberapa besar tingkat akurasi
program-program strategis dapat
algoritma K-Nearest Neighbor dalam
direncanakan untuk meningkatkan atau
memprediksi ketepatan kelulusan
mempertahankan prestasi siswa selama
mahasiswa
periode mereka studi di lembaga. Metode
yang digunakan adalah Decision Tree, yakni
Tujuan dan Manfaat
algoritma J4.8. Hasil penelitian ini adalah
Tujuan penelitian ini adalah
sebuah pohon keputusan yang dapat
mengetahui tingkat akurasi algoritma K-
dijadikan rule bagi prediksi siswa yang
Nearest Neighbour dalam memprediksi
putus sekolah (Kalyankar, 2010).
ketepatan kelulusan mahasiswa.
Penelitian yang dilakukan oleh
Manfaat yang diharapkan dari
Suhartina dan Ernastuti pada tahun 2010
penelitian ini adalah sebagai berikut:
dengan judul dengan judul Graduation
1. Memberikan kontribusi keilmuan pada Prediction of Gunadarma University
penelitian bidang klasifikasi data Students Using Algorithm and Naive Bayes
mining khususnya untuk prediksi C4.5 Algorithm. Permasalahannya adalah
kelulusan mahasiswa. banyaknya mahasiswa yang tidak lulus tepat
2. Membantu administrasi perguruan waktu. Untuk mengetahui tingkat kelulusan
tinggi untuk memberikan peringatan mahasiswa dalam satu tahun ajaran dapat
dini dan pembimbingan awal bagi dilakukan suatu prediksi berdasarkan data-
mahasiswa yang kemungkinan tidak data mahasiswa pada tahun ajaran pertama.
lulus tepat waktu. Algoritma yang digunakan adalah C45 dan
3. Membantu perguruan tinggi dalam naïve bayes. Hasil dari penelitian ini adalah
membuat kebijakan untuk bisa akurasi untuk metode naïve bayes adalah
meningkatkan kelulusan mahasiswa 80,85% dengan presentasi kesalahan 19,05%
Akurasi ketepatan hasil prediksi C4.5
85.7%, dan presentasi kesalahannya adalah
TINJAUAN PUSTAKA 14,3% (Ernastuti, 2010).
Penelitian yang dilakukan oleh Hastuti
Penelitian terkait pada tahun 2012 dengan judul analisis
Penelitian yang dilakukan oleh komparasi algoritma klasifikasi data mining
Karamouiz dan Vretoz pada tahun 2009 untuk prediksi mahasiswa non aktif.
dengan judul Sentivity Analysis of Neural Permasalahannya adalah mahasiswa non
Network for Identifying the Factors for aktif adalah mahasiswa yang berhenti studi
Collage Students Success. Masalah yang dan tidak melakukan registrasi administratif.
yang dikaji adalah tingkat kelulusan Mahasiswa yang memiliki status non aktif
dianggap sebagai indikator efektivitas suatu memiliki kecenderungan untuk drop out.
lembaga institusi, Metode yang digunakan
Metode yang digunakan adalah Logistic 95,29%, Naïve Bayes 93,47%, dan Neural
Regression, Decision Tree, Naïve Bayes, Network 94,59%.
Neural Network. Hasilnya adalah akurasi Selanjutnya penelitian yang dilakukan
Logistic Regression 81,64%, Decision Tree oleh Tahyudin, Utami dan Amborowati pada
tahun 2013 dengan judul Comparing sehari-hari agar bisa bersaing dalam dunia
Clasification Algorithm Of Data Mining to kerja (Azwar, 2004)
Predict the Graduation Students on Time. Kelulusan mahasiwa adalah hal yang
Permasalahannya adalah persentase penting diperhatikan, karena persentase
mahasiswa yang lulus tepat waktu adalah jumlah kelulusan mempengaruhi penilaian
salah satu unsur yang mempengaruhi pemerintah serta mempengaruhi status
akreditas program studi. Metode yang akreditasi program studi (Vrettos, 2009).
digunakan adalah mengkomparasi algoritma Faktor-faktor yang dapat mempengaruhi
decision tree, naïve bayes, ANN, Support kelulusan mahasiswa antara lain adalah nilai
Vector Machine (SVM) dan Logistic akhir SMA, Indeks Prestasi Semester (IPS),
Regression (LR). Hasilnya adalah akurasi gaji orang tua dan pekerjaan orang tua
algoritma decision tree 80,01%, naïve bayes (Ernastuti, 2010). Indeks prestasi sering
75,16%, ANN 100%, SVM 100%, dan LR digunakan sebagai indikator penilaian
100%. (Tahyudin, 2013) akademik, banyak perguruan tinggi memberi
Selain algoritma klasifikasi data standar minimum yang sulit di peroleh
mining diatas, ada algoritma klasifikasi yang mahasiswa (Oyelade, 2010). Adapun
lainnya untuk melakukan suatu prediksi variabel yang dapat digunakan dalam
seperti K-Nearest Neighbour, ID3, CHAID prediksi kelulusan mahasiswa seperti umur,
dan Learning Discriminant Analysis (LDA) status pernikahan, jumlah saudara
(Gorunescu, 2011). (Yingkuachat, 2007).
Jadi dalam penelitian ini akan Pada penenlitian ini parameter yang
dilakukan analisis prediksi menggunakan digunakan adalah usia, jenis kelamin, indeks
metode klasifikasi data mining K-Nearest prestasi semester satu sampai dengan indeks
Neighbour (KNN) untuk mengetahui prestasi semester empat.
seberapa besar tingkat akurasinya dalam
prediksi ketepatan kelulusan mahasiswa. Data Mining
Data mining adalah serangkaian
Landasan teori
proses mendapatkan pengetahuan atau pola
Dalam penelitian ini menggunakan
dari kumpulan data (Ian H. Witten, 2011).
tinjauan pustaka didasarkan pada beberapa
Data mining akan memecahkan masalah
buku, jurnal dan paper yang mendukung
dengan menganalisis data yang telah ada
teoritis dari penelitian ini. Diantaranya:
dalam basis data. Data mining, sering juga
disebut knowledge discovery in database
Kelulusan Mahasiswa
(KDD) adalah kegiatan yang meliputi
Mahasiswa sering disebut kelompok
pengumpulan, pemakaian data historis untuk
masyarakat yang memiliki ciri
menemukan pola keteraturan, pola
intelektualitas yang lebih luas dibandingkan
hubungan dalam set data berukuran besar
dengan kelompok seusia mereka yang bukan
(Santoso, 2007). Hasil keluaran dari data
mahasiswa ataupun kelompok usia lain yang
mining ini dapat dijadikan untuk
dibawah mereka. Dengan intelektualitasnya
memperbaiki pengambilan keputusan di
mahasiswa akan mampu menghadapi dan
masa depan.
mencari permasalahan secara sistematis
Dalam penelitian ini akan
yang nantinya diterapkan dalam kehidupan
memanfaatkan data mining untuk
mengklasifikasi data mahasiswa sehingga
hasil kelauarannya akan dimanfaatkan untuk
keperluan prediksi kelulusan mahasiswa.
Metode Klasifikasi Data Mining

Klasifikasi adalah proses penemuan
model (atau fungsi) yang menggambarkan
dan membedakan kelas data atau konsep Klasifikasi data terdiri dari 2 langkah
yang bertujuan agar bisa digunakan untuk proses. Pertama adalah learning (fase training),
memprediksi kelas dari objek yang label dimana algoritma klasifikasi dibuat untuk
kelasnya tidak diketahui (Kamber, 2006). menganalisa data training lalu direpresentasikan
dalam bentuk rule klasifikasi. Proses kedua Algoritma K-Nearest Neighbor (KNN)
adalah klasifikasi, dimana data tes
digunakan untuk memperkirakan akurasi Algoritma K-Nearest Neighbor
dari rule klasifikasi (Kamber, 2006). merupakan metode klasifikasi yang
Proses klasifikasi didasarkan pada mengelompokan data baru berdasarkan jarak
empat komponen (Gorunescu, 2011): data baru itu kebeberapa data/tetangga
a. Kelas . Variabel dependen yang (neighbord) terdekat (Santoso, 2007).
berupa kategorikal yang Teknik K-Nearest Neighbor dengan
merepresentasikan melakukan langkah-langkah yaitu (Santoso,
„label‟ yang terdapat pada objek. 2007), mulai input: Data training, label data
Contohnya: resiko penyakit jantung, traning, k, data testing
resiko kredit, customer loyalty, jenis a. Untuk semua data testing, hitung
gempa. jaraknya ke setiap data training
b. Predictor . Variabel independen yang b. Tentukan k data training yang jaraknya
direpresentasikan oleh karakteristik paling dekat dengan data
(atribut) data. Contohnya: merokok, c. Testing
minum alkohol, tekanan darah, d. Periksa label dari k data ini
tabungan, aset, gaji. e. Tentukan label yang frekuensinya paling
c. Training dataset. Satu set data yang banyak
berisi nilai dari kedua komponen di atas f. Masukan data testing ke kelas dengan
yang digunakan untuk menentukan frekuensi paling banyak
kelas yang cocok berdasarkan g. Berhenti
predictor. Label untuk semua data testing didapat.
d. Testing dataset. Berisi data baru yang Untuk menghitung jarak antara dua
akan diklasifikasikan oleh model yang titik x dan y bisa digunakan jarak Euclidean
telah dibuat dan akurasi klasifikasi sebagai berikut:
dievaluasi
Berikut ini adalah algoritma klasifikasi
data mining yang paling popular yaitu
adalah (Gorunescu, 2011): Yang mana X1, l = 1, 2, adalah atribut
a. Decision/classification trees kategori, dan n1j, n1 mewakili
b. Bayesian classifiers/Naive frekuensi yang sesuai.
Bayes classifiers Kerangka pemikiran
c. Neural networks Sesuai dengan permaslahan diatas,
d. Statistical analysis maka kerangka pemikiran yang dilakukan
e. Rough sets adalah:
f. k-nearest neighbor classifier
g. Rule-based methods
h. Memory based reasoning
i. Support vector machines.
Gambar 2.1 Kerangka Pemikiran

METODE PENELITIAN Dalam penelitian ini, data yang
digunakan adalah data kelulusan mahasiswa
Desain Penelitian pada salah satu universitas di Indonesia.
Data kelulusan mahasiswa tersebut akan Pengumpulan data
diolah menggunakan metode data mining
sehingga hasilnya dapat digunakan sebagai Dalam pengumpulan data terdapat
rules dalam memprediksi kelulusan sumber data, sumber data yang dihimpun
mahasiswa. Dalam penelitian ini akan langsung oleh peneliti disebut dengan
dilakukan beberapa langkah-langkah atau sumber primer, sedangkan apabila melalui
tahapan penelitian seperti yang digambarkan tangan kedua disebut sumber sekunder
pada gambar 3.1. (Riduwan, 2008). Data yang diperolah
adalah data sekunder karena diperoleh dari
database mahasiswa yang dimiliki oleh
Universitas diberada di Indonesia dari
penelitian sebelumnya. Data yang diperoleh
dalam penelitian ini adalah data kualitatif
dan kuantitatif. Data yang dikumpulkan
adalah data mahasiswa Universitas dengan
program studi strata satu (S1) untuk tahun
kelulusan periode 2011. Data terkumpul
sebanyak 1.633 data, dengan atribut nim,
Gambar 3.1 Tahapan Penelitian nama, umur, fakultas, IP semester 1, IP
semester 2, IP semester 3 sampai dengan IP
Semester 8.
Tabel 3.1 Data Mahasiswa
jenis
NIP NAMA FAKULTAS umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS
kelamin
achmad
ILMU LAKI-
71160 firdaus 22 3,89 3,3 3,3 3,25 3,36 3,18 4 3,67 TEPAT
PENDIDIKAN LAKI
hendranata
rian dwi ILMU LAKI-

71144 22 3,78 3,26 3,39 3,45 3,42 3,67 4 3,67 TEPAT
kusuma PENDIDIKAN LAKI
DERI
ILMU PEREMP
76187 KURNIA 22 3,78 3,57 3,65 3,73 3,79 3,67 4 3,67 TEPAT
PENDIDIKAN UAN
ARAFAH
MOHAMM
ILMU LAKI-
75016 AD AMIR 24 3,45 3,38 3,48 3,09 3,33 3,27 4 3 TEPAT
PENDIDIKAN LAKI
PURNOMO
ANNISA
ILMU PEREMP
76188 KARTIKAS 22 3,67 3,35 3,74 3,36 3,63 3,33 4 3,67 TEPAT
PENDIDIKAN UAN
ARI
....dsb
Pengolahan awal data dan data yang tidak lengkap (missing value).
Jumlah data awal yang diperoleh dari Missing data terlihat
pengumpulan data yaitu sebanyak 1.633 2. Data integration and Transformation, untuk
data, namun tidak semua data dapat meningkatkan akurasi dan efisiensi
digunakan dan tidak semua atribut algoritma. Data yang digunakan dalam
digunakan karena harus melalui beberapa penulisan ini bernilai kategorikal. Data
tahap pengolahan awal data (preparation ditransformasikan ke dalam software
data). Untuk mendapatkan data yang RapidMiner.
berkualitas, beberapa teknik yang dilakukan 3. Data size reduction and dicrtization, untuk
adalah sebagai berikut (Vercellis, 2009) memperoleh data set dengan jumlah atribut
1. Data validation, untuk mengidentifikasi dan record yang lebih sedikit tetapi bersifat
dan menghapus data yang ganjil informatif. Dalam penelitian ini atribut yang
(outlier/noise), data yang tidak konsisten, tidak relevan seperti nim, nama, jurusan,
indeks prestasi semester lima, enam, 671 siswa sedangkan kasus yang
tujuh dan delapan dihapuskan. “terlambat” berjumlah 911 siswa. Dan
atribut yang dipakai dalam eksperimen
Metode dan Evaluasi yaitu; fakultas, jenis kelamin, umur, IPK sari
Dalam penelitian ini akan dilakukan semester 1 sampai 4.
eksperimen dengan menggunakan metode Model gambar dibawah ini adalah
klasifikasi data mining K-Nearest Neighbor hasil dari eksekusi data diatas yaitu:
terhadap data mahasiswa yang terkait
dengan kelulusan mahasiswa. Data akan
diolah dengan menggunakan algoritma K-
Nearest Neighbor dan menghasilkan model,
maka terhadap model yang dihasilkan
tersebut dilakukan pengujian Gambar 4.1 Model KNN Clasification dengan k=1
menggunakankan k-fold cross validation,
kemudian dilakukan evaluasi dan validasi Dengan mengklaster k=1 dari data
hasil dengan confusion matrix dan kurva 1582 mahasiswa, 8 dimensi terdiri dari 2
ROC. kelas yaitu “TEPAT” dan “TERLAMBAT”.
Pengujian Model
EKSPERIMEN DAN EVALUASI Pengujian model dalam penelitian ini
Eksperimen menggunakan Cross Validation adalah
Setelah melakukan pengolahan data teknik validasi dengan membagi data secara
awal, data menjadi 1582 siswa dengan acak kedalam k bagian dan masing-masing
jumlah kasus yang “tepat” waktu berjumlah bagian akan dilakukan proses klasifikasi
(Han & Kamber, 2006). Dengan
menggunakan cross validation akan
dilakukan percobaan sebanyak k. Data yang
digunakan dalam percobaan ini adalah data
training untuk mencari nilai error rate
secara keseluruhan. Secara umum pengujian
nilai k dilakukan sebanyak 10 kali untuk
memperkirakan akurasi estimasi. Dalam
penelitian ini nilai k yang digunakan
berjumlah 10 atau 10-fold Cross Validation.
Gambar 4.2 Ilustrasi 10 Fold Cross Validation

Algoritma K-Nearest Neighbor
Evaluasi dan Validasi

Confusion matrix
Confusion matrix memberikan
keputusan yang diperoleh dalam traning dan
testing (Bramer, 2006). confusion matrix klasifikasi berdasarkan objek dengan benar atau
memberikan penilaian performance salah (Gorunescu, 2011).
Tabel 4.1 Tingkat akurasi Algoritma K-

Nearest Neighbor Dalam penelitian ini, setelah di
evaluasi dengan ROC curve, menghasilkan
Jumlah True Positive (TP) adalah 671
nilai AUC (Area Under Curve) sebesar
record diklasifikasikan sebagai TEPAT
0,888 dengan klatering data k=5.
terpilih dan False Negative (FN) sebanyak
145 record diklasifikasikan sebagai TEPAT
terpilih tetapi TERLAMBAT terpilih.
Berikutnya 766 record untuk True Negative
(TN) diklasifikasikan sebagai
TERLAMBAT terpilih, dan 136 record
False Positive (FP) diklasifikasin sebagai
TERLAMBAT terpilih ternyata TEPAT.
Berdasarkan Gambar 4.2 tersebut
menunjukan bahwa, tingkat akurasi dengan Gambar 4.3 Grafik ROC Curve Algoritma
menggunakan algoritma C4.5 adalah sebesar K- Nearest Neighbor
85,15% dengan kondisi k=5.
Dibawah ini adalah perbandingan Tabel 4.3 Perbandingan jumlah cluster
tingkat akurasi dengan kondisi k yang dan akurasi dengan ROC Curve
berbeda-beda:
Tabel 4.2 Perbandingan jumlah cluster Cluster Akurasi
dan akurasi K1 0,500
K2 0,826
Cluster Akurasi K3 0,853
K1 82,25% K4 0,874
K2 79,45% K5 0,888
K3 83,95% Tingkat akurasi dapat di diagnosa
K4 82,62% sebagai berikut (Gorunescu, 2011):
K5 85,15%
Dari perbandingan diatas, tingkat Akurasi 0.90 – 1.00 = Excellent
akurasi dapat dipengaruhi oleh jumlah classification Akurasi 0.80 – 0.90 = Good
kalstering data. classification Akurasi 0.70 – 0.80 = Fair
classification Akurasi 0.60 – 0.70 = Poor
Evaluasi ROC curve classification Akurasi 0.50 – 0.60 = Failure
Sesuai dengan grafik dan tabel diatas,
Untuk dapat melihat akurasi secara tingkat akurasi dengan ROC Curve
manual dilakukan perbandingan klasifikasi menunjukan akurasi yang tergolong Good
menggunakan curva ROC hasil ekspresi dari Classification yaitu nilai AUC (Area Under
confusion matrix. Kurva ROC (Receiver Curve) sebesar 0,888 dengan klastering data
Operating Characteristic) adalah cara lain K=5.
untuk mengevaluasi akurasi dari klasifikasi
secara visual (Vercellis, 2009). KESIMPULAN DAN SARAN
Dalam penelitian ini dilakukan
pengujian model dengan menggunakan
algoritma K-Nearest Neighbor (K-NN)
dengan menggunakan data kelulusan
mahasiswa yang tepat dan terlambat. Model
yang dihasilkan diuji untuk mendapatkan
nilai accuracy dan AUC dari algoritma
klasifikasi data mining sehingga didapat
pengujian data mahasiswa dengan klatering
data k=1 dengan menggunakan K-Nearest
Neighbor (K-NN) didapat nilai accuracy cluster data k=3 accuracy adalah 83,95% dan
adalah 82,25% dan nilai AUC adalah 0.500, nilai AUC adalah 0.853, dengan cluster data k=4
dengan cluster data k=2 accuracy adalah accuracy adalah 82,62% dan nilai AUC adalah
79,45% dan nilai AUC adalah 0.826, dengan 0.874, dengan cluster data k=5 accuracy adalah
85,15% dan nilai AUC adalah 0.888. Han, & Kamber. (2006). Data
Maka dengan demikian dapat Mining Concepts and
disimpulkan tingkat akurasi pengujian technique. San Francisco:
model kelulusan mahasiswa dengan Diane Cerra.
menggunakan algoritma K-Nearest Hastuti, K. (2012, Juni). ANALISIS
Neighbor (K-NN) dipengaruhi oleh jumlah KOMPARASI ALGORITMA
klastering data. Akurasi dan nilai AUC KLASIFIKASI DATA MINING V.
paling tinggi adalah dengan mengklaster Seminar Nasional Teknologi
data k=5 Informasi & Komunikasi
Dari hasil pengujian yang telah Terapan(979 - 26 - 0255 - 0), 241-
dilakukan dan hasil kesimpulan yang 249.
diberikan maka ada saran atau usul yang di Ian H. Witten, f. E. (2011). Data Mining:
berikan antara lain: Practical Machine Learning
1. Untuk penelitian selanjutnya dapat Tools and Techniques (3 ed.). (A.
menggunakan algoritma lain seperti S. Burlington, Ed.) United States
ID3, CHAID dan Learning of America: Morgan Kaufmann.
Discriminant Analysis (LDA) atau Kalyankar, Q. &. (2010). Drop Out Feature
dengan mengkomparasinya sehingga of Student Data forAcademic
diketahui akurasi yang tertinggi. Performance Using Decision Tree
2. Hasil penelitian ini diharapkan bisa techniques. Global Journal of
digunakan untuk keperluan perguruan Computer Science and Technology,
tinggi khususnya prediksi kelulusan 2-4.
mahasiswa. Kamber, H. &. (2006). Data Mining
Concept and Tehniques. San
Fransisco: Morgan Kauffman.
Ogor. (2007). Student Academic
DAFTAR PUSTAKA
Performance Monitoring and
Buku VI Matriks Penilaian Instrumen
Evaluation Using Data
Akreditasi Program Studi
Mining Techniques.
Badan Akreditasi Nasional
Oyelade, O. &. (2010). Application of
Perguruan Tinggi. (2008).
kmeans Clustering algorithm for
Azwar. (2004). Penyusunan Skala Psikologi.
predicting of Students
Yogyakarta: Pustaka Pelajar.
AcademicPerformace.
Bramer, M. (2006). Principles of Data
International Journal of Computer
Mining. London: Springer-Verlag.
Science and Information Security,
Ernastuti, S. &. (2010). Graduation
292-295.
Prediction of Gunadarma University
Riduwan. (2008). Metode dan Teknik
Students Using Algorithm and Naive
Menyusun Tesis. Bandung: Alfabeta.
Bayes C4.5 Algoritmh.
Santoso, B. (2007). Data Mining Teknik
Gorunescu, F. (2011). Data Mining
Pemanfaatan Data untuk
Concepts Models and
Keperluan Bisnis (1 ed.).
Techniques. Craiova: Springer.
Yogyakarta: Graha Ilmu.
Tahyudin, I. (2013, December). Comparing
Clasification Algorithm Of Data
Mining to Predict the Graduation
Students on Time. Information
Systems International Conference
(ISICO).
Vercellis. (2009). Business Intelligence:
Data Mining and Optimization for
Decision Making Decision
Making.
John Willey & Sons Inc: Southern Vrettos, K. &. (2009). Sentivity Analysis of
Gate. Neural Network for Identifying the
Factors for Collage Students Yingkuachat, P. K. (2007). An Application
Success. World Congress on Probabilitic Model to the Prediction
Computer Science and Information of Student Graduation Using
Engineering. (978-0-7695-3507-4). Bayesian Belief Network. ECTI
Transaction on Computer and
Technology, 63-71.

12.5A.01-Makalah UAS Pembelajaran Mesin

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

12.5A.01-Makalah UAS Pembelajaran Mesin

Diunggah oleh

Hak Cipta:

Format Tersedia

MODEL ALGORITMA K-NEAREST NEIGHBOR (K-NN) UNTUK PREDIKSI

Kata kunci: mahasiswa, K-Nearest Neighbor

PENDAHULUAN adanya pemantauan maupun evaluasi

Metode Klasifikasi Data Mining

Gambar 2.1 Kerangka Pemikiran

Tabel 3.1 Data Mahasiswa

rian dwi ILMU LAKI-

Gambar 4.2 Ilustrasi 10 Fold Cross Validation

Evaluasi dan Validasi

Tabel 4.1 Tingkat akurasi Algoritma K-

Anda mungkin juga menyukai