KELULUSAN MAHASISWA
Abdul Rohman
Dosen Jurusan Elektronika Fakultas Teknik Universitas Pandanaran Semarang
Abstrak
Dalam sistem pendidikan mahasiswa adalah aset penting bagi sebuah institusi pendidikan dan untuk itu perlu
diperhatikan tingkat kelulusan mahasiswa tepat pada waktunya. Prosentase naik turunnya kemampuan mahasiswa
untuk menyelesaikan studi tepat waktu merupakan salah satu elemen penilaian akreditasi universitas. Untuk itu
perlu adalah pemantauan dan evaluasi terhadap kelulusan mahasiswa dengan menggunakan klasifikasi data mining.
Dengan mengolah data mahasiswa akan memperoleh hal penting untuk keperluan perguruaan tinggi terutama untuk
prediksi kelulusan mahasiswa. Dalam penelitian ini dalam memprediksi kelulusan mahasiswa dengan menggunakan
algoritma klasifikasi data mining K-Nearest Neighbor dengan mengklaster data k=1, k=2, k=3, k=4, dan k=5. Hasil
yang diperoleh dengan cluster data k=5 accuracy adalah 85,15% dan nilai AUC adalah 0.888 adalah akurasi paling
tinggi.
jenis
NIP NAMA FALKULTAS umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS
kelamin
achmad
ILMU LAKI-
71160 firdaus 22 3,89 3,3 3,3 3,25 3,36 3,18 4 3,67 TEPAT
PENDIDIKAN LAKI
hendranata
DERI
ILMU PEREMP
76187 KURNIA 22 3,78 3,57 3,65 3,73 3,79 3,67 4 3,67 TEPAT
PENDIDIKAN UAN
ARAFAH
MOHAMM
ILMU LAKI-
75016 AD AMIR 24 3,45 3,38 3,48 3,09 3,33 3,27 4 3 TEPAT
PENDIDIKAN LAKI
PURNOMO
ANNISA
ILMU PEREMP
76188 KARTIKAS 22 3,67 3,35 3,74 3,36 3,63 3,33 4 3,67 TEPAT
PENDIDIKAN UAN
ARI
....dsb
Pengolahan awal data 671 siswa sedangkan kasus yang
Jumlah data awal yang diperoleh dari “terlambat” berjumlah 911 siswa. Dan
pengumpulan data yaitu sebanyak 1.633 atribut yang dipakai dalam eksperimen
data, namun tidak semua data dapat yaitu; fakultas, jenis kelamin, umur, IPK sari
digunakan dan tidak semua atribut semester 1 sampai 4.
digunakan karena harus melalui beberapa Model gambar dibawah ini adalah
tahap pengolahan awal data (preparation hasil dari eksekusi data diatas yaitu:
data). Untuk mendapatkan data yang
berkualitas, beberapa teknik yang dilakukan
adalah sebagai berikut (Vercellis, 2009)
1. Data validation, untuk mengidentifikasi
dan menghapus data yang ganjil
Gambar 4.1 Model KNN Clasification dengan k=1
(outlier/noise), data yang tidak konsisten,
dan data yang tidak lengkap (missing
Dengan mengklaster k=1 dari data
value). Missing data terlihat
1582 mahasiswa, 8 dimensi terdiri dari 2
2. Data integration and Transformation,
kelas yaitu “TEPAT” dan “TERLAMBAT”.
untuk meningkatkan akurasi dan efisiensi
algoritma. Data yang digunakan dalam Pengujian Model
penulisan ini bernilai kategorikal. Data Pengujian model dalam penelitian ini
ditransformasikan ke dalam software menggunakan Cross Validation adalah
RapidMiner. teknik validasi dengan membagi data secara
3. Data size reduction and dicrtization, acak kedalam k bagian dan masing-masing
untuk memperoleh data set dengan bagian akan dilakukan proses klasifikasi
jumlah atribut dan record yang lebih (Han & Kamber, 2006). Dengan
sedikit tetapi bersifat informatif. Dalam menggunakan cross validation akan
penelitian ini atribut yang tidak relevan dilakukan percobaan sebanyak k. Data yang
seperti nim, nama, jurusan, indeks digunakan dalam percobaan ini adalah data
prestasi semester lima, enam, tujuh dan training untuk mencari nilai error rate
delapan dihapuskan. secara keseluruhan. Secara umum pengujian
nilai k dilakukan sebanyak 10 kali untuk
Metode dan Evaluasi memperkirakan akurasi estimasi. Dalam
Dalam penelitian ini akan dilakukan penelitian ini nilai k yang digunakan
eksperimen dengan menggunakan metode berjumlah 10 atau 10-fold Cross Validation.
klasifikasi data mining K-Nearest Neighbor
terhadap data mahasiswa yang terkait
dengan kelulusan mahasiswa. Data akan
diolah dengan menggunakan algoritma K-
Nearest Neighbor dan menghasilkan model,
maka terhadap model yang dihasilkan
tersebut dilakukan pengujian
menggunakankan k-fold cross validation,
kemudian dilakukan evaluasi dan validasi
hasil dengan confusion matrix dan kurva
ROC. Gambar 4.2 Ilustrasi 10 Fold Cross Validation
Algoritma K-Nearest Neighbor
EKSPERIMEN DAN EVALUASI
Evaluasi dan Validasi
Eksperimen
Setelah melakukan pengolahan data Confusion matrix
awal, data menjadi 1582 siswa dengan Confusion matrix memberikan
jumlah kasus yang “tepat” waktu berjumlah keputusan yang diperoleh dalam traning dan
testing (Bramer, 2006). confusion matrix Dalam penelitian ini, setelah di
memberikan penilaian performance evaluasi dengan ROC curve, menghasilkan
klasifikasi berdasarkan objek dengan benar nilai AUC (Area Under Curve) sebesar
atau salah (Gorunescu, 2011). 0,888 dengan klatering data k=5.