Anda di halaman 1dari 8

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 3, No. 6, Juni 2019, hlm. 6230-6237 http://j-ptiik.ub.ac.id

Aplikasi Data Mining untuk Memprediksi Mahasiswa Berpotensi Drop Out


menggunakan Algoritme K-Nearest Neighbor (K-NN)
Mardiani Putri Agustini1, Ahmad Afif Supianto2, Welly Purnomo3

Program Studi Sistem Informasi, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1mardianipa@gmail.com, 2afif.supianto@ub.ac.id, 3wepe@ub.ac.id

Abstrak
Drop out atau putus studi merupakan permasalahan yang berkaitan dengan keberhasilan studi
mahasiswa. Hal tersebut juga dialami pada program studi Sistem Informasi Universitas Brawijaya. Hasil
wawancara yang telah dilakukan dengan Ketua Program Studi Sistem Informasi bahwa telah terjadi
pemberhentian studi atau drop out setiap tahunnya. Adanya mahasiswa yang drop out dapat
menyebabkan turunnya kualitas dan mutu perguruan tinggi. Oleh karena itu, sebagai penanganan
terhadap masalah tersebut diperlukan sistem yang mampu membantu pengambilan keputusan untuk
memprediksi mahasiswa yang berpotensi drop out. Sistem ini diharapkan dapat membantu pihak
program studi Sistem Informasi Universitas Brawijaya dalam mengambil keputusan dan menjadi bahan
evaluasi dini serta memberikan penanganan lebih awal terhadap mahasiswa yang berpotensi drop out.
Salah satu teknik untuk prediksi adalah menggunakan data mining. Klasifikasi menggunakan algoritme
K-Nearest Neighbor (K-NN) merupakan salah satu metode data mining yang dapat digunakan untuk
memprediksi potensi drop out mahasiswa. Hasil pemrosesan dengan bantuan tool Weka didapatkan nilai
kedekatan terbaik menggunakan algoritme K-NN adalah k=5. Hasil evaluasi algoritme yang didapatkan
menggunakan confusion matrix adalah tingkat akurasi sebesar 99.2337%. Hasil nilai AUC dari kurva
ROC menunjukkan nilai sebesar 0.8918. Hasil pengujian usability yang dihasilkan menggunakan SUS
adalah 67.5.
Kata kunci: prediksi, data mining, klasifikasi, k-nearest neighbor, system usability scale
Abstract
Drop out is a problem related to the success of student learning. This problem has also happened in
Information System study program at Brawijaya University. The results of interviews were conducted
with the Head of the Information System Study Program that there was a drop out every year. The
existence of students who drop out can cause a decrease in the quality of higher education. Therefore,
as handling of these problems needs a system that capable to help make decisions to predict on students
who have the potential to drop out so prevention can be done. This system is expected to be able to help
the Brawijaya Information System Study Program in making decisions, become the material for early
evaluation and provide early treatment for students who have the potential to drop out. One technique
for predicting is to use data mining. Classification using K-Nearest Neighbor (K-NN) algorithm is one
of data mining method that can be used to predict student drop out potential. The results of processing
with the help of Weka tool found the best proximity value using the K-NN algorithm is k=5. The results
of evaluating algorithms obtained using confusion matrix have an accuracy rate of 99.2337%. The AUC
value result of ROC curve shows a value of 0.8918. The level of usability testing generated by utilizing
SUS is 67.
Keywords: prediction, data mining, classification, k-nearest neighbor, system usability scale

studinya. Mahasiswa menjadi salah satu aspek


1. PENDAHULUAN penting dalam evaluasi keberhasilan
Tolak ukur kualitas program studi pada penyelenggaraan program studi di perguruan
perguruan tinggi salah satunya dapat dilihat dari tinggi. Umumnya mahasiswa mempunyai
keberhasilan mahasiswa dalam menjalankan kualitas tersendiri yang sangat beragam satu

Fakultas Ilmu Komputer


Universitas Brawijaya 6230
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6231

sama lain. Kualitas ini sangat berpengaruh untuk melakukan penelusuran terhadap data-
terhadap studi mahasiswa. Mahasiswa dengan data mahasiswa guna menemukan dan
kualitas tertentu dapat rentan terkena drop out. menghasilkan pola drop out dari mahasiswa.
Hasil wawancara yang telah dilakukan dengan Algoritme K-Nearest Neighbor dipilih karena K-
Ketua Program Studi Sistem Informasi, dimana NN marupakan salah satu algoritme klasifikasi
terdapat permasalahan yang dialami berkaitan dengan rumus sederhana dan mampu
dengan keberhasilan studi mahasiswa, yaitu memberikan hasil yang cukup baik dalam
terjadi pemberhentian studi atau drop out setiap beberapa kasus.
tahunnya. Masalah ini dapat memberikan Hasil prediksi ini akan diimplementasikan
dampak yang merugikan bagi mahasiswa dan pada dashboard sistem guna memberi
pihak program studi, yang mana dapat kemudahan dalam menampilkan informasi.
menyebabkan turunnya kualitas dan mutu Hasil ini diharapkan dapat membantu
program studi. Selain itu, salah satu aspek mendukung pihak program studi Sistem
penilaian BAN-PT dalam menentukan akreditasi Informasi menjadi bahan membantu
program studi S1 yaitu dari persentase pengambilan keputusan dan bahan evaluasi dini
mahasiswa yang drop out. serta memberikan tindak penanganan lebih awal
Oleh karena itu, sebagai penanganan kepada mahasiswa yang diprediksi berpotensi
terhadap masalah tersebut diperlukan terancam drop out.
identifikasi sejak dini untuk mengetahui
mahasiswa mana saja yang memiliki potensi 2. LANDASAN PUSTAKA
terancam drop out sehingga dapat dilakukan
pencegahan. Salah satu solusi yang dapat 2.1. Data Mining
membantu permasalahan ini yaitu dengan Data mining merupakan salah satu bidang
membuat sistem yang dapat digunakan dalam keilmuan yang menyatukan teknik dari
melakukan suatu prediksi terhadap mahasiswa pembelajaran mesin, pengenalan pola, statistik,
yang berpotensi terancam drop out. Dalam database, dan visualisasi untuk penanganan
memudahkan melakukan prediksi ini dapat permasalahan pengambilan informasi dari
menggunakan pendekatan data mining. Metode database yang besar (Larose, 2005).
data mining yang dapat digunakan untuk Data mining dibagi menjadi beberapa
melakukan prediksi drop out salah satunya yaitu kelompok berdasarkan tugas yang dapat
dengan memanfaatkan metode klasifikasi. dilakukan (Larose, 2005), yaitu:
Penelitian dengan topik prediksi 1. Deskripsi, untuk menggambarkan pola
pengunduran diri menggunakan algoritme data serta kecenderungan yang ada di dalam
mining pernah dilakukan sebelumnya oleh data
Ndaumanu (2014). Dalam penelitian yang 2. Klasifikasi, terdapat target variabel
dilakukan tersebut digunakan algoritme K- kategori
Nearest Neighbor. Berdasarkan hasil uji coba 3. Estimasi, hampir sama dengan
yang dilakukan didapat akurasi prediksi sebesar klasifikasi kecuali variabel target
79%. Penelitian lain yang pernah dilakukan oleh estimasi lebih ke arah numerik daripada
Yukslturk (2014) yang melakukan klasifikasi ke arah kategori
mahasiswa drop out menggunakan empat 4. Prediksi, hampir sama dengan
pendekatan data mining. Hasil akurasi penelitian klasifikasi dan estimasi, kecuali di
ini dari metode K-Nearest Neighbor, Decision dalam prediksi nilai dari hasil akan ada
Tree, Neural Network, dan Naive Bayes masing- di masa mendatang
masing adalah 87%, 79.9%, 76.8%, dan 73.9%. 5. Pengklasteran, pengelompokan record,
Penelitian yang dilakukan (Bayer, 2012) pengamatan atau memperhatikan dan
menggunakan data perilaku social dan pengujian membentuk kelas objek-objek yang
tingkat akurasi dengan 10-folds cross- memiliki kemiripan
validation. Hasil dengan tingkat akurasi tertinggi 6. Asosiasi, bertugas menentukan atribut
diperoleh pada semester 7 menggunakan metode yang muncul dalam satu waktu
K-NN dan PART yaitu lebih dari 90%.
Oleh karena itu, dalam penelitian yang akan 2.2. Algoritme K-Nearest Neighbor
dilakukan ini akan dilakukan prediksi dengan
menggunakan pendekatan data mining K-Nearest neighbor (K-NN) merupakan
menggunakan algoritme K-Nearest Neighbor metode berdasarkan analogi penatihan, dimana

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6232

data pelatihan disimpan sehingga klasifikasi Universitas Brawijaya.


yang baru dapat diperoleh dengan
2. Studi literatur
membandingkan dengan data yang memiliki
kemiripan dalam data pelatihan. Prinsip kerja K- Tahap studi literatur dilakukan untuk
NN adalah mencari jarak terdekat antara data mencari teori yang relevan serta kajian
yang akan dievaluasi dengan k tetangga pustaka terdapat penelitian sebelumnya
(neighbor) terdekatnya dalam data pelatihan untuk mendukung penyelesaian
(Larose, 2005). penelitian.
Dalam K-NN penentuan nilai k sangat 3. Analisis kebutuhan
berpengaruh dalam proses klasifikasi (Larose,
2005). Nilai k pada K-NN berarti jumlah Tahap ini dilakukan untuk mencari
tetangga terdekat yang dilibatkan dalam fungsi yang diperlukan atau dibutuhkan
penentuan prediksi label kelas pada data uji. pada sistem yang akan dibuat.
Tahapan dalam menggunakan algoritme K-NN 4. Pengumpulan data dan pengolahan data
sebagai berikut (Kustiyahningsih, 2010):
1. Tentukan parameter k Tahap pengumpulan data dalam
2. Hitung jarak antara data yang akan penelitian ini dilakukan menggunakan
dievaluasi dengan semua data pelatihan. metode dokumentasi dengan mengambil
Parameter jarak yang umum digunakan data dari objek penelitian. Data yang
adalah jarak Euclidean distance dengan berhasil dikumpulkan adalah data
persamaan mahasiswa program studi Sistem
𝑑(𝑥1 , 𝑥2 ) = √∑𝑛𝑖=1(𝑥1𝑖 − 𝑥2𝑖 )2 (1) Informasi tahun angkatan 2011-2016
3. Urutkan jarak yang terbentuk dari yang sebanyak 1347 records. Proses yang
terdekat dilakukan pada tahap pengolahan data
4. Tentukan jarak terdekat sampai urutan k dimulai dari seleksi data yaitu pemilihan
5. Pasangkan kelas yang bersesuaian atribut yang didasarkan dari hasil
6. Cari jumlah kelas dari tetangga yang wawancara yang dilakukan kepada
berdekatan dan tetapkan kelas tersebut Kaprodi SI. Kemudian dilakukan
sebagai kelas data yang dievaluasi pembersihan data untuk menghilangkan
missing value sehingga didapatkan data
3. METODOLOGI yang bersih yang akan digunakan untuk
proses klasifikasi. Data bersih dari
Metodologi pada penelitian ini dapat proses cleaning yang siap digunakan
dilihat pada Gambar 1. dalam klasifikasi sebanyak 522 records
data. Selanjutnya dilakukan proses
transformasi data yaitu mengubah data
menjadi bentuk kategorikal yang
didasarkan dari hasil wawancara dengan
Kaprodi SI.
5. Perancangan sistem
Tahap perancangan yang dilakukan
yaitu perancangan sesuai dengan
kebutuhan sistem yang telah
didefinisikan.
6. Implementasi
Sistem nantinya dibangun berdasarkan
hasil perancangan sistem yang telah
Gambar 1. Metodologi Penelitian dilakukan sebelumnya. Pada tahapan ini
sistem akan akan diimplementasikan
1. Identifikasi masalah
dengan memanfaatkan dan
Melakukan identifikasi permasalahan menggunakan framework laravel yang
terkait objek penelitian yaitu pada dikombinasikan tools Weka untuk
program studi Sistem Informasi memproses mining.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6233

7. Pengujian 4.2. Pemodelan Proses Bisnis


Pada tahap pengujian yang dilakukan Pemodelan proses bisnis ini terdapat
yaitu pengujian dari sisi sistem dengan aktivitas yang melibatkan adanya sistem
menggunakan black-box testing dan informasi prediksi drop out mahasiswa. Jika
usability testing. Pengujian usability Kaprodi SI ingin melakukan prediksi, maka
dilakukan menggunakan kuesioner SUS Kaprodi SI harus mengunggah file data prediksi
yang diisi oleh responden. Kemudian dalam sistem dan sistem akan melakukan
evaluasi dan validasi algoritme juga prediksi terhadap data tersebut berdasarkan
dilakukan menggunakan confusion model yang ada pada sistem. Proses bisnis ini
matrix dan juga kurva ROC. ditunjukkan oleh Gambar 3.
Pemodelan proses bisnis selanjutnya adalah
8. Kesimpulan dan saran
untuk melakukan pembuatan model baru pada
Tahap terakhir dalam penelitian ini sistem untuk melakukan klasifikasi. Proses
dilakukan penarikan kesimpulan dimulai dari Kaprodi SI mengunggah file data
berdasarkan rumusan masalah yang ada training ke sistem. Selanjutnya sistem akan
dan dilakukan pemberian saran untuk menyimpan data dalam database dan
penelitian mendatang. menghasilkan model baru. Proses bisnis ini
ditunjukkan oleh Gambar 4.
4. HASIL DAN PEMBAHASAN
4.3. Pengumpulan Data
4.1. Analisis Kebutuhan
Pengumpulan data dalam penelitian ini
Analisis kebutuhan bertujuan untuk dilakukan melalui teknik dokumentasi dengan
menjelaskan kebutuhan sistem yang harus mengambil data yang diperoleh dari database
dipenuhi saat pengguna melakukan interaksi Fakultas Ilmu Komputer Universitas Brawijaya.
dengan sistem. Proses analisis kebutuhan Data yang diperoleh sebanyak 1347 records data
dilakukan terhadap calon pengguna dari sistem mahasiswa program studi Sistem Informasi dari
yang akan dibangun yaitu Ketua Program Studi angkatan tahun 2011 sampai dengan 2016.
Sistem Informasi (Kaprodi SI). Hasil analisis Atribut yang terdapat dalam setiap data berisi
kebutuhan dalam bentuk use case dapat dilihat data akademik dan demografi, diantaranya
pada Gambar 2. sebagai berikut.

Tabel 1. Atribut dari Tahap Pengumpulan Data


Data Atribut
Data ID Mhs, Jalur Masuk, IP Beban
Akademik semester 1 sampai dengan
semester 5, SKS Beban semester 1
sampai dengan semester 5, IPK
Beban semester 1 sampai dengan
semester 5, SKSK Beban semester 1
sampai dengan semester 5, IP Lulus
semester 1 sampai dengan
semester 5, SKS Lulus semester 1
sampai dengan semester 5, IPK
Lulus semester 1 sampai dengan
semester 5, SKSK Lulus semester 1
sampai dengan semester 5, IPK
Lulus, Predikat, Yudisium, Asal
Gambar 2. Diagram use case Sekolah, Status Mahasiswa
Data Jenis Kelamin, Kota Asal, Pekerjaan
Berdasarkan hasil analisis kebutuhan,
Demografi Ayah, Pekerjaan Ibu, Pendidikan
terdapat 6 kebutuhan fungsional, yaitu login,
Ayah, Pendidikan Ibu, Pendapatan
melihat informasi drop out, membuat model,
Ayah, Pendapatan Ibu
membuat prediksi, melihat histori model, dan
logout.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6234

Gambar 3. Pemodelan Proses Bisnis Melakukan Prediksi

Gambar 4. Pemodelan Proses Bisnis Pembuatan Model


4.4. Perancangan Sistem untuk menyimpan data-data mahasiswa yang
dipakai sebagai training dan testing yang akan
Pada penelitian ini perancangan terbagi
dimasukkan ke sistem. Perancangan antarmuka
menjadi perancangan database dan perancangan
dilakukan agar dapat membuat sistem yang
antarmuka. Pada perancangan database berisi
menyediakan tampilan agar mudah untuk
gambaran dari database yang akan digunakan
dimengerti oleh pengguna dengan harapan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6235

pengguna nantinya dapat mudah memahami


sistem yang dibuat.

4.5. Implementasi Sistem


Pada implementasi ini sistem dibangun
berdasarkan perancangan sistem yang telah
dilakukan. Implementasi dilakukan dalam
bentuk website menggunakan framework
Gambar 7. Visualisasi Halaman Hasil Prediksi
Laravel serta menggunakan Weka CLI untuk
melakukan pemrosesan algoritme. Hasil dari
implementasi menunjukkan tampilan empat fitur
utama pada sistem. Fitur pertama ialah tampilan
dari halaman dashboard yang memuat informasi
drop out mahasiswa setiap angkatan. Tampilan
dari halaman dashboard tersebut dapat dilihat
dalam Gambar 5 dan Gambar 6.

Gambar 8. Visualisasi Halaman Hasil Prediksi


(lanjutan)

4.6. Evaluasi dan Validasi Algoritme


Evaluasi dan validasi algoritme yang
diimplementasikan dilakukan menggunakan
confusion matrix dan kurva ROC. Evaluasi
Gambar 5. Visualisasi Halaman Informasi Drop Out confusion matrix dengan tool Weka dilakukan
menggunakan tipe test 10-folds cross-validation
dan nilai kedekatan k=5 menghasilkan akurasi
sebesar 99.2337%. Sedangkan hasil nilai AUC
dari kurva ROC didapatkan nilai 0.8918
sehingga masuk dalam kategori klasifikasi
“Good classification” karena berada pada nilai
AUC 0.80 – 0.90.

4.7. Pengujian Black-box


Gambar 6. Visualisasi Halaman Informasi Drop Out
(lanjutan) Pengujian black-box dilakukan pada fungsi
Fitur kedua yaitu implementasi halaman sistem berdasarkan kebutuhan fungsional sistem
untuk generate model. Halaman ini terdiri dari yang telah didefinisikan (Agarwal, 2010).
form untuk mengunggah file training dan hasil Pengujian black-box hanya melihatkan observasi
generate model yang menampilkan akurasi dari output untuk nilai input tertentu serta tidak
model yang dibuat. Fitur ketiga berisi melakukan upaya untuk melakukan analisa
implementasi halaman untuk membuat prediksi terhadap kode program. Hasil pengujian black-
dari data mahasiswa. Halaman ini terdiri dari box terhadap empat fitur utama serta fitur
form untuk mengunggah file yang akan authentikasi menunjukkan status valid. Seluruh
diprediksi. Selanjutnya, hasil prediksi kebutuhan fitur yang telah didefinisikan dapat
ditampilkan ke dalam bentuk tabel yang diproses serta ditampilkan ke sistem sesuai
menampilkan mahasiswa yang berpotensi output yang diinginkan atau diharapkan.
terancam drop out. Tampilan halaman hasil
prediksi dapat dilihat dalam Gambar 7 dan 4.8. Pengujian Usability
Gambar 8. Fitur keempat adalah halaman untuk Metode untuk melakukan pengujian
melihat histori model yang pernah dibuat dalam usability yaitu menggunakan kuesioner System
sistem serta tingkat akurasinya. Usability Scale (SUS) yang terdiri dari 10
pertanyaan dengan nilai skala satu sampai
dengan lima. Tujuan dari kuesioner SUS adalah

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6236

untuk memberi gambaran persepsi pengguna perbandingan terkait performansi akurasi


terhadap tingkat usability suatu sistem. antar algoritme untuk memprediksi potensi
Responden dalam pengisian kuesioner SUS drop out mahasiswa pada program studi
adalah Kaprodi SI. Sistem Informasi Universitas Brawijaya.
Hasil yang diperoleh dari nilai skor SUS 2. Melakukan pengembangan terhadap sistem
yang diberikan Kaprodi SI terhadap sistem yang yang telah dibangun dari sisi pengguna lain
telah dibuat adalah 67.5. Sehingga dari skor misalnya mahasiswa untuk melakukan
tersebut menunjukkan sistem yang dibuat bisa prediksi atau akademik untuk melakukan
diterima Kaprodi SI dengan kategori sistem pembaruan informasi drop out.
Good dan grade scale D serta tingkat Pengembangan sistem dengan lebih
acceptability masuk ke dalam kategori High. memperhatikan aspek pada user interface,
user
5. KESIMPULAN DAN SARAN
6. DAFTAR PUSTAKA
5.1. Kesimpulan
Agarwal, B. B., et al., 2010. Software
Kesimpulan yang diperoleh berdasarkan Engineering and Testing: An
hasil penelitian yang telah dilakukan sebagai Introduction. Jones and Bartlett
berikut: Publishers.
1. Dari penelitian ini berhasil dibuat sistem BAN-PT., 2008. Naskah Akreditasi Program
untuk membantu Kaprodi SI dalam
Studi Sarjana. Jakarta.
melakukan prediksi terhadap mahasiswa
yang berpotensi drop out. Dalam sistem Bayer, J., et al., 2012. Predicting Drop-out from
yang dibangun memiliki enam fitur, Social Behavior of Students. Proceeding
diantaranya login, melihat informasi drop of the 5th International Conference on
out, melakukan generate model, membuat Educational Data Mining. 103-109.
prediksi, melihat histori model, dan logout. Gorunescu, F., 2011. Data Mining Concept,
Pengujian usability pada sistem dilakukan Models and Techniques Volume 12.
terhadap responden Kaprodi SI dengan Romania: Springer.
menggunakan kuesioner System Usability
Scale (SUS) menghasilkan skor sebesar Larose, D. T., 2005. Discovering Knowledge in
67.5. Berdasarkan skor tersebut, dapat Data: An Introduction to Data Mining.
disimpulkan bahwa sistem yang telah dibuat New Jersey: John Wiley & Sons, Inc.
dapat diterima dengan baik oleh Kaprodi SI Kustiyahningsih, Y., & Syafa’ah, N., 2010.
dalam memprediksi potensi drop out Sistem Pendukung Keputusan untuk
mahasiswa serta termasuk pada kategori Menentukan Jurusan pada Siswa SMA
adjective ratings Good dengan grade scale Menggunakan Metode KNN dan Smart.
D dengan tingkat penerimaan sistem atau Madura, Indonesia. 19-28.
acceptability ranges masuk dalam kategori
High. Ndaumanu, R. I., et al., 2014. Analisis Prediksi
2. Hasil evaluasi dan validasi algoritme K-NN Tingkat Pengunduran Diri Mahasiswa
untuk prediksi potensi drop out mahasiswa dengan Metode K-Nearest Neighbor.
menggunakan confusion matrix sebesar JATISI, 1-1 September, Yogyakarta,
99.2337%. Sedangkan evaluasi kurva ROC Indonesia. 1-15.
didapatkan nilai AUC sebesar 0.8918 yang Tan, P., et al., 2006. Introduction to Data
berarti klasifikasi dikategorikan dalam Mining. New York: Pearson Addison-
“Good classification” karena berada pada Wesley.
nilai AUC 0.80 – 0.90.
Yukselturk, E., et al., 2014. Predicting Dropout
5.2. Saran Student: An Application of Data Mining
Methods in an Online Education
Saran yang dapat diberikan untuk penelitian Program. European Journal of Open,
selanjutnya adalah: Distance and E-Learning. 17-1, Turkey.
1. Melakukan prediksi menggunakan 118-133.
algoritme lain selain K-Nearest Neighbor,
sehingga nanti dapat melakukan Anonymous, 2017. Pedoman Akademik

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 6237

Fakultas Ilmu Komputer Universitas


Brawijaya. Malang.

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai