Anda di halaman 1dari 9

MODEL ALGORITMA K-NEAREST NEIGHBOR (K-NN) UNTUK PREDIKSI

KELULUSAN MAHASISWA
Abdul Rohman
Dosen Jurusan Elektronika Fakultas Teknik Universitas Pandanaran Semarang

Abstrak
Dalam sistem pendidikan mahasiswa adalah aset penting bagi sebuah institusi pendidikan dan untuk itu perlu
diperhatikan tingkat kelulusan mahasiswa tepat pada waktunya. Prosentase naik turunnya kemampuan mahasiswa
untuk menyelesaikan studi tepat waktu merupakan salah satu elemen penilaian akreditasi universitas. Untuk itu
perlu adalah pemantauan dan evaluasi terhadap kelulusan mahasiswa dengan menggunakan klasifikasi data mining.
Dengan mengolah data mahasiswa akan memperoleh hal penting untuk keperluan perguruaan tinggi terutama untuk
prediksi kelulusan mahasiswa. Dalam penelitian ini dalam memprediksi kelulusan mahasiswa dengan menggunakan
algoritma klasifikasi data mining K-Nearest Neighbor dengan mengklaster data k=1, k=2, k=3, k=4, dan k=5. Hasil
yang diperoleh dengan cluster data k=5 accuracy adalah 85,15% dan nilai AUC adalah 0.888 adalah akurasi paling
tinggi.

Kata kunci: mahasiswa, K-Nearest Neighbor

PENDAHULUAN adanya pemantauan maupun evaluasi


terhadapat kecenderungan mahasiswa lulus
Latar Belakang tepat waktu atau tidak.
Lembaga pendidikan tertinggi adalah Pemantauan atau evaluasi terhadap
perguruan tinggi yang merupakan kinerja akan menghasilkan informasi yang
penyelenggara pendidikan akademik bagi bermanfaat untuk membantu mahasiswa,
mahasiswa. Mahasiswa sering disebut dosen, administrator, dan pembuat kebijakan
kelompok masyarakat yang memiliki ciri (Ogor, 2007). Dengan demikian jelas bahwa
intelektualitas yang lebih luas dibandingkan memprediksi kelulusan mahasiswa adalah
dengan kelompok seusia mereka yang bukan hal yang penting bagi penyelenggara
mahasiswa ataupun kelompok usia lain yang pendidikan untuk menentukan strategi bagi
dibawah mereka. Dengan intelektualitasnya institusinya.
mahasiswa akan mampu menghadapi dan Suatu perguruan tinggi menyimpan
mencari permasalahan secara sistematis data akademik, administrasi, biodata
yang nantinya diterapkan dalam kehidupan mahasiswa dan lain-lain. Data tersebut akan
sehari-hari agar bisa bersaing dalam dunia sangat bermakna jika digali dengan tepat
kerja (Azwar, 2004). sehingga dapat diketahui pola atau
Perguruan tinggi dituntut untuk pengetahuan untuk mengambil keputusan
menyelenggarakan pendidikan yang (Ogor, 2007). Dengan menerapkan data
berkualitas bagi mahasiswa sehingga mining dapat memecahkan masalah dengan
menghasilkan sumber daya manusia yang menganalisis data yang dimiliki perguruan
berilmu, cakap, kreatif dan bersaing. Dalam tinggi.
sistem pendidikan mahasiswa adalah aset Dalam mengolah data mahasiswa
penting bagi sebuah institusi pendidikan dan untuk prediksi telah diselesaikan telah oleh
untuk itu perlu diperhatikan tingkat Karamouiz dan Vrettos dengan
kelulusan mahasiswa tepat pada waktunya. menggunakan metode neural network
Prosentase naik turunnya kemampuan (Vrettos, 2009), Qudri dan Kalyankar
mahasiswa untuk menyelesaikan studi tepat dengan metode decision tree (Kalyankar,
waktu merupakan salah satu elemen 2010), Suhartini dan Ernastuti dengan
penilaian akreditasi universitas (Buku VI metode C4.5 dan naïve bayes, (Ernastuti,
Matriks Penilaian Instrumen Akreditasi 2010), Hastuti dengan komparasi metode
Program Studi Badan Akreditasi Nasional Logistic Regression, Decision Tree, Naïve
Perguruan Tinggi, 2008). Untuk itu perlu Bayes, Neural Network (Hastuti, 2012) dan
Tahyudin, Utami dan Amborowati dengan adalah NN (Neural Network). Dari hasil data
mengkomparasi algoritma decision tree, training yang dilakukan diperoleh kategori
naïve bayes, ANN, Support Vector Machine yang lulus adalah 86.04% dan training data
(SVM) dan Logistic Regression (LR) untuk kategori yang tidak sukses adalah
(Tahyudin, 2013). Tetapi belum ada yang 68.21%, dan error yang diperoleh untuk
menggunakan metode klasifikasi data kedua kategori tersebut adalah 0.18%
mining lainnya seperti K-Nearest (Vrettos, 2009).
Neighbour, ID3, CHAID dan Learning Penelitian yang dilakukan oleh Qudri
Discriminant Analysis (LDA). dan Kalanyar pada tahun 2010 dengan judul
Untuk itu dalam penelitian ini akan Drop Out Feature of Student Data for
dilakukan prediksi kelulusan mahasiswa Academic Performance Using Decision Tree
dengan metode K-Nearest Neighbour techniques. Masalah dalam penelitiaanya
adalah prestasi akademik siswa sangat
Rumusan masalah penting bagi lembaga pendidikan karena
Seberapa besar tingkat akurasi program-program strategis dapat
algoritma K-Nearest Neighbor dalam direncanakan untuk meningkatkan atau
memprediksi ketepatan kelulusan mempertahankan prestasi siswa selama
mahasiswa periode mereka studi di lembaga. Metode
yang digunakan adalah Decision Tree, yakni
Tujuan dan Manfaat algoritma J4.8. Hasil penelitian ini adalah
Tujuan penelitian ini adalah sebuah pohon keputusan yang dapat
mengetahui tingkat akurasi algoritma K- dijadikan rule bagi prediksi siswa yang
Nearest Neighbour dalam memprediksi putus sekolah (Kalyankar, 2010).
ketepatan kelulusan mahasiswa. Penelitian yang dilakukan oleh
Manfaat yang diharapkan dari Suhartina dan Ernastuti pada tahun 2010
penelitian ini adalah sebagai berikut: dengan judul dengan judul Graduation
Prediction of Gunadarma University
1. Memberikan kontribusi keilmuan pada
Students Using Algorithm and Naive Bayes
penelitian bidang klasifikasi data
C4.5 Algorithm. Permasalahannya adalah
mining khususnya untuk prediksi
banyaknya mahasiswa yang tidak lulus tepat
kelulusan mahasiswa.
waktu. Untuk mengetahui tingkat kelulusan
2. Membantu administrasi perguruan
mahasiswa dalam satu tahun ajaran dapat
tinggi untuk memberikan peringatan
dilakukan suatu prediksi berdasarkan data-
dini dan pembimbingan awal bagi
data mahasiswa pada tahun ajaran pertama.
mahasiswa yang kemungkinan tidak
Algoritma yang digunakan adalah C45 dan
lulus tepat waktu.
naïve bayes. Hasil dari penelitian ini adalah
3. Membantu perguruan tinggi dalam
akurasi untuk metode naïve bayes adalah
membuat kebijakan untuk bisa
80,85% dengan presentasi kesalahan 19,05%
meningkatkan kelulusan mahasiswa
Akurasi ketepatan hasil prediksi C4.5
85.7%, dan presentasi kesalahannya adalah
14,3% (Ernastuti, 2010).
TINJAUAN PUSTAKA
Penelitian yang dilakukan oleh Hastuti
Penelitian terkait
pada tahun 2012 dengan judul analisis
Penelitian yang dilakukan oleh
komparasi algoritma klasifikasi data mining
Karamouiz dan Vretoz pada tahun 2009
untuk prediksi mahasiswa non aktif.
dengan judul Sentivity Analysis of Neural
Permasalahannya adalah mahasiswa non
Network for Identifying the Factors for
aktif adalah mahasiswa yang berhenti studi
Collage Students Success. Masalah yang
dan tidak melakukan registrasi administratif.
yang dikaji adalah tingkat kelulusan
Mahasiswa yang memiliki status non aktif
dianggap sebagai indikator efektivitas suatu
memiliki kecenderungan untuk drop out.
lembaga institusi, Metode yang digunakan
Metode yang digunakan adalah Logistic sehari-hari agar bisa bersaing dalam dunia
Regression, Decision Tree, Naïve Bayes, kerja (Azwar, 2004)
Neural Network. Hasilnya adalah akurasi Kelulusan mahasiwa adalah hal yang
Logistic Regression 81,64%, Decision Tree penting diperhatikan, karena persentase
95,29%, Naïve Bayes 93,47%, dan Neural jumlah kelulusan mempengaruhi penilaian
Network 94,59%. pemerintah serta mempengaruhi status
Selanjutnya penelitian yang dilakukan akreditasi program studi (Vrettos, 2009).
oleh Tahyudin, Utami dan Amborowati pada Faktor-faktor yang dapat mempengaruhi
tahun 2013 dengan judul Comparing kelulusan mahasiswa antara lain adalah nilai
Clasification Algorithm Of Data Mining to akhir SMA, Indeks Prestasi Semester (IPS),
Predict the Graduation Students on Time. gaji orang tua dan pekerjaan orang tua
Permasalahannya adalah persentase (Ernastuti, 2010). Indeks prestasi sering
mahasiswa yang lulus tepat waktu adalah digunakan sebagai indikator penilaian
salah satu unsur yang mempengaruhi akademik, banyak perguruan tinggi memberi
akreditas program studi. Metode yang standar minimum yang sulit di peroleh
digunakan adalah mengkomparasi algoritma mahasiswa (Oyelade, 2010). Adapun
decision tree, naïve bayes, ANN, Support variabel yang dapat digunakan dalam
Vector Machine (SVM) dan Logistic prediksi kelulusan mahasiswa seperti umur,
Regression (LR). Hasilnya adalah akurasi status pernikahan, jumlah saudara
algoritma decision tree 80,01%, naïve bayes (Yingkuachat, 2007).
75,16%, ANN 100%, SVM 100%, dan LR Pada penenlitian ini parameter yang
100%. (Tahyudin, 2013) digunakan adalah usia, jenis kelamin, indeks
Selain algoritma klasifikasi data prestasi semester satu sampai dengan indeks
mining diatas, ada algoritma klasifikasi yang prestasi semester empat.
lainnya untuk melakukan suatu prediksi
seperti K-Nearest Neighbour, ID3, CHAID Data Mining
dan Learning Discriminant Analysis (LDA) Data mining adalah serangkaian
(Gorunescu, 2011). proses mendapatkan pengetahuan atau pola
Jadi dalam penelitian ini akan dari kumpulan data (Ian H. Witten, 2011).
dilakukan analisis prediksi menggunakan Data mining akan memecahkan masalah
metode klasifikasi data mining K-Nearest dengan menganalisis data yang telah ada
Neighbour (KNN) untuk mengetahui dalam basis data. Data mining, sering juga
seberapa besar tingkat akurasinya dalam disebut knowledge discovery in database
prediksi ketepatan kelulusan mahasiswa. (KDD) adalah kegiatan yang meliputi
pengumpulan, pemakaian data historis untuk
Landasan teori menemukan pola keteraturan, pola
Dalam penelitian ini menggunakan hubungan dalam set data berukuran besar
tinjauan pustaka didasarkan pada beberapa (Santoso, 2007). Hasil keluaran dari data
buku, jurnal dan paper yang mendukung mining ini dapat dijadikan untuk
teoritis dari penelitian ini. Diantaranya: memperbaiki pengambilan keputusan di
masa depan.
Kelulusan Mahasiswa Dalam penelitian ini akan
Mahasiswa sering disebut kelompok memanfaatkan data mining untuk
masyarakat yang memiliki ciri mengklasifikasi data mahasiswa sehingga
intelektualitas yang lebih luas dibandingkan hasil kelauarannya akan dimanfaatkan untuk
dengan kelompok seusia mereka yang bukan keperluan prediksi kelulusan mahasiswa.
mahasiswa ataupun kelompok usia lain yang
dibawah mereka. Dengan intelektualitasnya Metode Klasifikasi Data Mining
mahasiswa akan mampu menghadapi dan Klasifikasi adalah proses penemuan
mencari permasalahan secara sistematis model (atau fungsi) yang menggambarkan
yang nantinya diterapkan dalam kehidupan
dan membedakan kelas data atau konsep Algoritma K-Nearest Neighbor (KNN)
yang bertujuan agar bisa digunakan untuk Algoritma K-Nearest Neighbor
memprediksi kelas dari objek yang label merupakan metode klasifikasi yang
kelasnya tidak diketahui (Kamber, 2006). mengelompokan data baru berdasarkan jarak
Klasifikasi data terdiri dari 2 langkah data baru itu kebeberapa data/tetangga
proses. Pertama adalah learning (fase (neighbord) terdekat (Santoso, 2007).
training), dimana algoritma klasifikasi Teknik K-Nearest Neighbor dengan
dibuat untuk menganalisa data training lalu melakukan langkah-langkah yaitu (Santoso,
direpresentasikan dalam bentuk rule 2007), mulai input: Data training, label data
klasifikasi. Proses kedua adalah klasifikasi, traning, k, data testing
dimana data tes digunakan untuk a. Untuk semua data testing, hitung
memperkirakan akurasi dari rule klasifikasi jaraknya ke setiap data training
(Kamber, 2006). b. Tentukan k data training yang jaraknya
Proses klasifikasi didasarkan pada paling dekat dengan data
empat komponen (Gorunescu, 2011): c. Testing
a. Kelas . Variabel dependen yang berupa d. Periksa label dari k data ini
kategorikal yang merepresentasikan e. Tentukan label yang frekuensinya paling
„label‟ yang terdapat pada objek. banyak
Contohnya: resiko penyakit jantung, f. Masukan data testing ke kelas dengan
resiko kredit, customer loyalty, jenis frekuensi paling banyak
gempa. g. Berhenti
b. Predictor . Variabel independen yang Label untuk semua data testing didapat.
direpresentasikan oleh karakteristik Untuk menghitung jarak antara dua
(atribut) data. Contohnya: merokok, titik x dan y bisa digunakan jarak Euclidean
minum alkohol, tekanan darah, sebagai berikut:
tabungan, aset, gaji.
c. Training dataset. Satu set data yang
berisi nilai dari kedua komponen di atas
yang digunakan untuk menentukan Yang mana X1, l = 1, 2, adalah atribut
kelas yang cocok berdasarkan predictor. kategori, dan n1j, n1 mewakili
d. Testing dataset. Berisi data baru yang frekuensi yang sesuai.
akan diklasifikasikan oleh model yang Kerangka pemikiran
telah dibuat dan akurasi klasifikasi Sesuai dengan permaslahan diatas,
dievaluasi maka kerangka pemikiran yang dilakukan
Berikut ini adalah algoritma klasifikasi adalah:
data mining yang paling popular yaitu
adalah (Gorunescu, 2011):
a. Decision/classification trees
b. Bayesian classifiers/Naive Bayes
classifiers
c. Neural networks
d. Statistical analysis
e. Rough sets
f. k-nearest neighbor classifier
g. Rule-based methods
h. Memory based reasoning
i. Support vector machines.

Gambar 2.1 Kerangka Pemikiran


METODE PENELITIAN Pengumpulan data

Desain Penelitian Dalam pengumpulan data terdapat


Dalam penelitian ini, data yang sumber data, sumber data yang dihimpun
digunakan adalah data kelulusan mahasiswa langsung oleh peneliti disebut dengan
pada salah satu universitas di Indonesia. sumber primer, sedangkan apabila melalui
Data kelulusan mahasiswa tersebut akan tangan kedua disebut sumber sekunder
diolah menggunakan metode data mining (Riduwan, 2008). Data yang diperolah
sehingga hasilnya dapat digunakan sebagai adalah data sekunder karena diperoleh dari
rules dalam memprediksi kelulusan database mahasiswa yang dimiliki oleh
mahasiswa. Dalam penelitian ini akan Universitas diberada di Indonesia dari
dilakukan beberapa langkah-langkah atau penelitian sebelumnya. Data yang diperoleh
tahapan penelitian seperti yang digambarkan dalam penelitian ini adalah data kualitatif
pada gambar 3.1. dan kuantitatif. Data yang dikumpulkan
adalah data mahasiswa Universitas dengan
program studi strata satu (S1) untuk tahun
kelulusan periode 2011. Data terkumpul
sebanyak 1.633 data, dengan atribut nim,
nama, umur, fakultas, IP semester 1, IP
semester 2, IP semester 3 sampai dengan IP
Semester 8.

Gambar 3.1 Tahapan Penelitian

Tabel 3.1 Data Mahasiswa

jenis
NIP NAMA FALKULTAS umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS
kelamin
achmad
ILMU LAKI-
71160 firdaus 22 3,89 3,3 3,3 3,25 3,36 3,18 4 3,67 TEPAT
PENDIDIKAN LAKI
hendranata

rian dwi ILMU LAKI-


71144 22 3,78 3,26 3,39 3,45 3,42 3,67 4 3,67 TEPAT
kusuma PENDIDIKAN LAKI

DERI
ILMU PEREMP
76187 KURNIA 22 3,78 3,57 3,65 3,73 3,79 3,67 4 3,67 TEPAT
PENDIDIKAN UAN
ARAFAH

MOHAMM
ILMU LAKI-
75016 AD AMIR 24 3,45 3,38 3,48 3,09 3,33 3,27 4 3 TEPAT
PENDIDIKAN LAKI
PURNOMO

ANNISA
ILMU PEREMP
76188 KARTIKAS 22 3,67 3,35 3,74 3,36 3,63 3,33 4 3,67 TEPAT
PENDIDIKAN UAN
ARI

....dsb
Pengolahan awal data 671 siswa sedangkan kasus yang
Jumlah data awal yang diperoleh dari “terlambat” berjumlah 911 siswa. Dan
pengumpulan data yaitu sebanyak 1.633 atribut yang dipakai dalam eksperimen
data, namun tidak semua data dapat yaitu; fakultas, jenis kelamin, umur, IPK sari
digunakan dan tidak semua atribut semester 1 sampai 4.
digunakan karena harus melalui beberapa Model gambar dibawah ini adalah
tahap pengolahan awal data (preparation hasil dari eksekusi data diatas yaitu:
data). Untuk mendapatkan data yang
berkualitas, beberapa teknik yang dilakukan
adalah sebagai berikut (Vercellis, 2009)
1. Data validation, untuk mengidentifikasi
dan menghapus data yang ganjil
Gambar 4.1 Model KNN Clasification dengan k=1
(outlier/noise), data yang tidak konsisten,
dan data yang tidak lengkap (missing
Dengan mengklaster k=1 dari data
value). Missing data terlihat
1582 mahasiswa, 8 dimensi terdiri dari 2
2. Data integration and Transformation,
kelas yaitu “TEPAT” dan “TERLAMBAT”.
untuk meningkatkan akurasi dan efisiensi
algoritma. Data yang digunakan dalam Pengujian Model
penulisan ini bernilai kategorikal. Data Pengujian model dalam penelitian ini
ditransformasikan ke dalam software menggunakan Cross Validation adalah
RapidMiner. teknik validasi dengan membagi data secara
3. Data size reduction and dicrtization, acak kedalam k bagian dan masing-masing
untuk memperoleh data set dengan bagian akan dilakukan proses klasifikasi
jumlah atribut dan record yang lebih (Han & Kamber, 2006). Dengan
sedikit tetapi bersifat informatif. Dalam menggunakan cross validation akan
penelitian ini atribut yang tidak relevan dilakukan percobaan sebanyak k. Data yang
seperti nim, nama, jurusan, indeks digunakan dalam percobaan ini adalah data
prestasi semester lima, enam, tujuh dan training untuk mencari nilai error rate
delapan dihapuskan. secara keseluruhan. Secara umum pengujian
nilai k dilakukan sebanyak 10 kali untuk
Metode dan Evaluasi memperkirakan akurasi estimasi. Dalam
Dalam penelitian ini akan dilakukan penelitian ini nilai k yang digunakan
eksperimen dengan menggunakan metode berjumlah 10 atau 10-fold Cross Validation.
klasifikasi data mining K-Nearest Neighbor
terhadap data mahasiswa yang terkait
dengan kelulusan mahasiswa. Data akan
diolah dengan menggunakan algoritma K-
Nearest Neighbor dan menghasilkan model,
maka terhadap model yang dihasilkan
tersebut dilakukan pengujian
menggunakankan k-fold cross validation,
kemudian dilakukan evaluasi dan validasi
hasil dengan confusion matrix dan kurva
ROC. Gambar 4.2 Ilustrasi 10 Fold Cross Validation
Algoritma K-Nearest Neighbor
EKSPERIMEN DAN EVALUASI
Evaluasi dan Validasi
Eksperimen
Setelah melakukan pengolahan data Confusion matrix
awal, data menjadi 1582 siswa dengan Confusion matrix memberikan
jumlah kasus yang “tepat” waktu berjumlah keputusan yang diperoleh dalam traning dan
testing (Bramer, 2006). confusion matrix Dalam penelitian ini, setelah di
memberikan penilaian performance evaluasi dengan ROC curve, menghasilkan
klasifikasi berdasarkan objek dengan benar nilai AUC (Area Under Curve) sebesar
atau salah (Gorunescu, 2011). 0,888 dengan klatering data k=5.

Tabel 4.1 Tingkat akurasi Algoritma K-


Nearest Neighbor
Jumlah True Positive (TP) adalah 671
record diklasifikasikan sebagai TEPAT
terpilih dan False Negative (FN) sebanyak Gambar 4.3 Grafik ROC Curve Algoritma K-
145 record diklasifikasikan sebagai TEPAT Nearest Neighbor
terpilih tetapi TERLAMBAT terpilih.
Berikutnya 766 record untuk True Negative Tabel 4.3 Perbandingan jumlah cluster
(TN) diklasifikasikan sebagai dan akurasi dengan ROC Curve
TERLAMBAT terpilih, dan 136 record Cluster Akurasi
False Positive (FP) diklasifikasin sebagai K1 0,500
TERLAMBAT terpilih ternyata TEPAT.
K2 0,826
Berdasarkan Gambar 4.2 tersebut
K3 0,853
menunjukan bahwa, tingkat akurasi dengan
K4 0,874
menggunakan algoritma C4.5 adalah sebesar
K5 0,888
85,15% dengan kondisi k=5.
Dibawah ini adalah perbandingan Tingkat akurasi dapat di diagnosa
tingkat akurasi dengan kondisi k yang sebagai berikut (Gorunescu, 2011):
berbeda-beda: Akurasi 0.90 – 1.00 = Excellent classification
Tabel 4.2 Perbandingan jumlah cluster Akurasi 0.80 – 0.90 = Good classification
dan akurasi Akurasi 0.70 – 0.80 = Fair classification
Akurasi 0.60 – 0.70 = Poor classification
Cluster Akurasi Akurasi 0.50 – 0.60 = Failure
K1 82,25% Sesuai dengan grafik dan tabel diatas,
K2 79,45% tingkat akurasi dengan ROC Curve
K3 83,95% menunjukan akurasi yang tergolong Good
K4 82,62% Classification yaitu nilai AUC (Area Under
K5 85,15% Curve) sebesar 0,888 dengan klastering data
Dari perbandingan diatas, tingkat K=5.
akurasi dapat dipengaruhi oleh jumlah
kalstering data. KESIMPULAN DAN SARAN
Dalam penelitian ini dilakukan
Evaluasi ROC curve pengujian model dengan menggunakan
Untuk dapat melihat akurasi secara algoritma K-Nearest Neighbor (K-NN)
manual dilakukan perbandingan klasifikasi dengan menggunakan data kelulusan
menggunakan curva ROC hasil ekspresi dari mahasiswa yang tepat dan terlambat. Model
confusion matrix. Kurva ROC (Receiver yang dihasilkan diuji untuk mendapatkan
Operating Characteristic) adalah cara lain nilai accuracy dan AUC dari algoritma
untuk mengevaluasi akurasi dari klasifikasi klasifikasi data mining sehingga didapat
secara visual (Vercellis, 2009). pengujian data mahasiswa dengan klatering
data k=1 dengan menggunakan K-Nearest
Neighbor (K-NN) didapat nilai accuracy Han, & Kamber. (2006). Data Mining
adalah 82,25% dan nilai AUC adalah 0.500, Concepts and technique. San
dengan cluster data k=2 accuracy adalah Francisco: Diane Cerra.
79,45% dan nilai AUC adalah 0.826, dengan Hastuti, K. (2012, Juni). ANALISIS
cluster data k=3 accuracy adalah 83,95% KOMPARASI ALGORITMA
dan nilai AUC adalah 0.853, dengan cluster KLASIFIKASI DATA MINING V.
data k=4 accuracy adalah 82,62% dan nilai Seminar Nasional Teknologi
AUC adalah 0.874, dengan cluster data k=5 Informasi & Komunikasi
accuracy adalah 85,15% dan nilai AUC Terapan(979 - 26 - 0255 - 0), 241-
adalah 0.888. 249.
Maka dengan demikian dapat Ian H. Witten, f. E. (2011). Data Mining:
disimpulkan tingkat akurasi pengujian Practical Machine Learning Tools
model kelulusan mahasiswa dengan and Techniques (3 ed.). (A. S.
menggunakan algoritma K-Nearest Burlington, Ed.) United States of
Neighbor (K-NN) dipengaruhi oleh jumlah America: Morgan Kaufmann.
klastering data. Akurasi dan nilai AUC Kalyankar, Q. &. (2010). Drop Out Feature
paling tinggi adalah dengan mengklaster of Student Data forAcademic
data k=5 Performance Using Decision Tree
Dari hasil pengujian yang telah techniques. Global Journal of
dilakukan dan hasil kesimpulan yang Computer Science and Technology,
diberikan maka ada saran atau usul yang di 2-4.
berikan antara lain: Kamber, H. &. (2006). Data Mining
1. Untuk penelitian selanjutnya dapat Concept and Tehniques. San
menggunakan algoritma lain seperti Fransisco: Morgan Kauffman.
ID3, CHAID dan Learning Ogor. (2007). Student Academic
Discriminant Analysis (LDA) atau Performance Monitoring and
dengan mengkomparasinya sehingga Evaluation Using Data Mining
diketahui akurasi yang tertinggi. Techniques.
2. Hasil penelitian ini diharapkan bisa Oyelade, O. &. (2010). Application of
digunakan untuk keperluan perguruan kmeans Clustering algorithm for
tinggi khususnya prediksi kelulusan predicting of Students
mahasiswa. AcademicPerformace. International
Journal of Computer Science and
Information Security, 292-295.
Riduwan. (2008). Metode dan Teknik
DAFTAR PUSTAKA Menyusun Tesis. Bandung: Alfabeta.
Buku VI Matriks Penilaian Instrumen Santoso, B. (2007). Data Mining Teknik
Akreditasi Program Studi Badan Pemanfaatan Data untuk Keperluan
Akreditasi Nasional Perguruan Bisnis (1 ed.). Yogyakarta: Graha
Tinggi. (2008). Ilmu.
Azwar. (2004). Penyusunan Skala Psikologi. Tahyudin, I. (2013, December). Comparing
Yogyakarta: Pustaka Pelajar. Clasification Algorithm Of Data
Bramer, M. (2006). Principles of Data Mining to Predict the Graduation
Mining. London: Springer-Verlag. Students on Time. Information
Ernastuti, S. &. (2010). Graduation Systems International Conference
Prediction of Gunadarma University (ISICO).
Students Using Algorithm and Naive Vercellis. (2009). Business Intelligence:
Bayes C4.5 Algoritmh. Data Mining and Optimization for
Gorunescu, F. (2011). Data Mining Decision Making Decision Making.
Concepts Models and Techniques.
Craiova: Springer.
John Willey & Sons Inc: Southern Yingkuachat, P. K. (2007). An Application
Gate. Probabilitic Model to the Prediction
Vrettos, K. &. (2009). Sentivity Analysis of of Student Graduation Using
Neural Network for Identifying the Bayesian Belief Network. ECTI
Factors for Collage Students Transaction on Computer and
Success. World Congress on Technology, 63-71.
Computer Science and Information
Engineering. (978-0-7695-3507-4).

Anda mungkin juga menyukai