KELULUSAN MAHASISWA
(Diajukan Untuk Memenuhi Nilai Tugas Akhir Mata Kuliah Pembelajaran Mesin)
12180294 Rafly Pratama, 12180414 Tegar Setiyo Hutomo,
12180152 Alvin Maezantara Yudha, 12180218 Syahril
Program Studi Teknik Informatika Fakultas Ilmu Komputer, STMIK Nusamandiri Jakarta 2020
Jl. Kramat Raya No.18, Kwitang, Kec. Senen,Kota Jakarta Pusat, Daerah Khusus Ibukota Jakarta
10450.
Abstrak
Dalam sistem pendidikan mahasiswa adalah aset penting bagi sebuah institusi pendidikan dan untuk itu perlu
diperhatikan tingkat kelulusan mahasiswa tepat pada waktunya. Prosentase naik turunnya kemampuan mahasiswa
untuk menyelesaikan studi tepat waktu merupakan salah satu elemen penilaian akreditasi universitas. Untuk itu
perlu adalah pemantauan dan evaluasi terhadap kelulusan mahasiswa dengan menggunakan klasifikasi data mining.
Dengan mengolah data mahasiswa akan memperoleh hal penting untuk keperluan perguruaan tinggi terutama untuk
prediksi kelulusan mahasiswa. Dalam penelitian ini dalam memprediksi kelulusan mahasiswa dengan menggunakan
algoritma klasifikasi data mining K-Nearest Neighbor dengan mengklaster data k=1, k=2, k=3, k=4, dan k=5. Hasil
yang diperoleh dengan cluster data k=5 accuracy adalah 85,15% dan nilai AUC adalah 0.888 adalah akurasi paling
tinggi.
jenis
NIP NAMA FAKULTAS umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS
kelamin
achmad
ILMU LAKI-
71160 firdaus 22 3,89 3,3 3,3 3,25 3,36 3,18 4 3,67 TEPAT
PENDIDIKAN LAKI
hendranata
DERI
ILMU PEREMP
76187 KURNIA 22 3,78 3,57 3,65 3,73 3,79 3,67 4 3,67 TEPAT
PENDIDIKAN UAN
ARAFAH
MOHAMM
ILMU LAKI-
75016 AD AMIR 24 3,45 3,38 3,48 3,09 3,33 3,27 4 3 TEPAT
PENDIDIKAN LAKI
PURNOMO
ANNISA
ILMU PEREMP
76188 KARTIKAS 22 3,67 3,35 3,74 3,36 3,63 3,33 4 3,67 TEPAT
PENDIDIKAN UAN
ARI
....dsb
Pengolahan awal data dan data yang tidak lengkap (missing value).
Jumlah data awal yang diperoleh dari Missing data terlihat
pengumpulan data yaitu sebanyak 1.633 2. Data integration and Transformation, untuk
data, namun tidak semua data dapat meningkatkan akurasi dan efisiensi
digunakan dan tidak semua atribut algoritma. Data yang digunakan dalam
digunakan karena harus melalui beberapa penulisan ini bernilai kategorikal. Data
tahap pengolahan awal data (preparation ditransformasikan ke dalam software
data). Untuk mendapatkan data yang RapidMiner.
berkualitas, beberapa teknik yang dilakukan 3. Data size reduction and dicrtization, untuk
adalah sebagai berikut (Vercellis, 2009) memperoleh data set dengan jumlah atribut
1. Data validation, untuk mengidentifikasi dan record yang lebih sedikit tetapi bersifat
dan menghapus data yang ganjil informatif. Dalam penelitian ini atribut yang
(outlier/noise), data yang tidak konsisten, tidak relevan seperti nim, nama, jurusan,
indeks prestasi semester lima, enam, 671 siswa sedangkan kasus yang
tujuh dan delapan dihapuskan. “terlambat” berjumlah 911 siswa. Dan
atribut yang dipakai dalam eksperimen
Metode dan Evaluasi yaitu; fakultas, jenis kelamin, umur, IPK sari
Dalam penelitian ini akan dilakukan semester 1 sampai 4.
eksperimen dengan menggunakan metode Model gambar dibawah ini adalah
klasifikasi data mining K-Nearest Neighbor hasil dari eksekusi data diatas yaitu:
terhadap data mahasiswa yang terkait
dengan kelulusan mahasiswa. Data akan
diolah dengan menggunakan algoritma K-
Nearest Neighbor dan menghasilkan model,
maka terhadap model yang dihasilkan
tersebut dilakukan pengujian Gambar 4.1 Model KNN Clasification dengan k=1
menggunakankan k-fold cross validation,
kemudian dilakukan evaluasi dan validasi Dengan mengklaster k=1 dari data
hasil dengan confusion matrix dan kurva 1582 mahasiswa, 8 dimensi terdiri dari 2
ROC. kelas yaitu “TEPAT” dan “TERLAMBAT”.
Pengujian Model
EKSPERIMEN DAN EVALUASI Pengujian model dalam penelitian ini
Eksperimen menggunakan Cross Validation adalah
Setelah melakukan pengolahan data teknik validasi dengan membagi data secara
awal, data menjadi 1582 siswa dengan acak kedalam k bagian dan masing-masing
jumlah kasus yang “tepat” waktu berjumlah bagian akan dilakukan proses klasifikasi
(Han & Kamber, 2006). Dengan
menggunakan cross validation akan
dilakukan percobaan sebanyak k. Data yang
digunakan dalam percobaan ini adalah data
training untuk mencari nilai error rate
secara keseluruhan. Secara umum pengujian
nilai k dilakukan sebanyak 10 kali untuk
memperkirakan akurasi estimasi. Dalam
penelitian ini nilai k yang digunakan
berjumlah 10 atau 10-fold Cross Validation.