Anda di halaman 1dari 8

Technologia”Vol 13, No.

3, Juli 2022 207

PREDIKSI KELULUSAN MAHASISWA DENGAN


METODE NAIVE BAYES

Nurul Khasanah1)*, Agus Salim2), Nurul Afni3), Rachman Komarudin4), Yana Iqbal Maulana5)
1)
Teknik Informatika, Fakultas Teknologi Informasi, Universitas Nusa Mandiri
2,3)
Sistem Informasi, Fakultas Teknologi Informasi, Universitas Bina Sarana Informatika
4)
Sistem Informasi, Fakultas Teknologi Informasi, Universitas Nusa Mandiri
5)
Teknik Informatika, Fakultas Teknologi Informasi, Universitas Bina Sarana Informatika
Email: nurul.nuk@nusamandiri.ac.id, agus.salim@bsi.ac.id, nurul.nrf@bsi.ac.id, rachman.rck@bsi.ac.id,
yana.yim@bsi.ac.id

Abstrak

Perguruan tinggi memiliki kewajiban untuk menghasilkan lulusan yang kompeten. Hal tersebut dapat
dinilai dari tingkat kelulusan mahasiswanya. Selain itu, lulus tepat waktu merupakan impian para
mahasiswa. Mahasiswa tidak perlu membayar biaya kuliah lagi dan bisa bekerja lebih cepat. Tetapi
kondisi di lapangan, mahasiswa belum tentu dapat menuntaskan masa studi tepat waktu. Banyak
faktor yang menjadi pengaruh kelulusan mahasiswa terlambat, seperti status perkawinan mahasiswa,
status mahasiswa (bekerja/tidak bekerja), tingkat pemahaman mahasiswa terhadap materi kuliah
yang dapat dilihat dari IPK mahasiswa. Dari pemasalahan yang ada, perlu adanya sistem untuk
memprediksi tingkat kelulusan mahasiswa berdasarkan variabel-variabel yang ada. Dengan sistem
yang dibuat diharapkan perguruan tinggi bisa membuat kebijakan sehingga mahasiswa dapat lulus
tepat waktu. Penelitian ini menggunakan 379 data, dengan metode Naive bayes, dengan rincian data
training 303 data dan data testing 76 data. Atribut yang digunakan nama, status mahasiswa, status
perkawinan, IPS, IPK, dan status kelulusan. Dengan tahapan identifikasi masalah, pengumpulan data,
data cleaning, data transformation (dibagi menjadi data training dan data tesing), klasifikasi dengan
KNN, validasi, evaluasi dan hasil. Hasil penelitian yang diperoleh yaitu akurasi = 88,16%, precision
= 93,62% dan recall = 88%, termasuk dalam kategori good classification.

Keywords: Kelulusan, Naive Bayes, KNN

I. PENDAHULUAN beberapa perguruan tinggi belum memiliki sistem


Perguruan tinggi memiliki kewajiban untuk untuk memprediksi keterlambatan kelulusan
menghasilkan lulusan yang kompeten. Hal tersebut mahasiswa, sehingga perguruan tinggi tidak dapat
dapat dinilai dari tingkat kelulusan mahasiswanya. melakukan pencegahan akan hal tersebut.
Selain itu, lulus tepat waktu juga menjadi impian Beberapa peneliti sudah membuat sebuah
para mahasiswa. Mahasiswa tidak perlu membayar sistem untuk memprediksi tingkat kelulusan
biaya kuliah lagi dan bisa bekerja lebih cepat. mahasiswa. Dalam penelitian (Pratama,
Tetapi kondisi di lapangan, mahasiswa belum Wihandika and Ratnawati, 2018) yang berjudul
tentu dapat menuntaskan masa studi tepat pada “Implementasi Algoritme Support Vector Machine
waktunya. Banyak faktor yang menjadi pengaruh (SVM) untuk Prediksi Ketepatan Waktu Kelulusan
kelulusan mahasiswa terlambat, seperti status Mahasiswa” menghasilkan akurasi sebesar 80,55%
perkawinan mahasiswa, status mahasiswa dengan menggunakan data training sebesar 170
(bekerja/tidak bekerja), tingkat pemahaman data. Sedangkan untuk penelitian (Putri and
mahasiswa terhadap materi kuliah yang dapat Waspada, 2018) yang berjudul “Penerapan
dilihat dari IPK mahasiswa. Selain itu, tingkat Algoritma C4.5 pada Aplikasi Prediksi Kelulusan
kelulusan juga berpengaruh pada akreditasi suatu Mahasiswa Prodi Informatika” menghasilkan
perguruan tinggi sehingga perguran tinggi akurasi sebesar 62.44%. variabel yang digunakan
berusaha untuk membantu mahasiswa agar lulus antara lain: jenis kelamin, asal daerah, IPK, dan
tepat waktu. TOEFL. Hasil akurasi yang diperoleh dari
Tingkat kelulusan mahasiswa bisa penelitian sebelumnya masih kecil dan belum
diprediksi menggunakan suatu sistem. Namun, termasuk dalam kategori baik.
Technologia”Vol 13, No. 3, Juli 2022 208

Dari pemasalahan yang ada, perlu adanya


sistem untuk memprediksi tingkat kelulusan 2. Data mining
mahasiswa berdasarkan variabel-variabel yang Data mining (Sikumbang, 2018) merupakan
ada. Selain itu, diperlukan algoritma yang cocok proses iterative dan interaktif untuk menemukan
sehingga bisa menghasilkan nilai akurasi yang pola atau model baru yang sempurna, bermanfaat
baik. Dengan sistem yang dibuat diharapkan dan dapat dimengerti dalam suatu database yang
perguruan tinggi bisa membuat kebijakan sehingga sangat besar (massive database). Data mining
mahasiswa dapat lulus tepat pada waktunya. berisi pencarian trend atau pola yang diinginkan
dalam database besar untuk membantu pengambil
II. STUDI PUSTAKA keputusan diwaktu yang akan datang, pola-pola ini
1. Dataset dikenali perangkat tertentu yang dapat
Data training merupakan sekumpulan data memberikan suatu analisa data yang berguna dan
yang memiliki atribut label/kelas yang digunakan berwawasan yang kemudian dapat dipelajari
oleh mesin untuk mengenal karaktersitik dengan lebih teliti, yang mungkin saja
kumpulan data sehingga menghasilkan sebuah menggunakan perangkat pendukung keputusan
pola/model data. Sementara data testing adalah yang lain.
sekumpulan data yang juga memiliki label/kelas Tahap-tahap data mining ada 6 yaitu :
yang digunakan untuk menguji ketepatan a. Pembersihan data (data cleaning)
pola/model dalam mengklasifikasikan data testing. Pembersihan data merupakan proses
Pada saat melakukan proses testing model, atribut menghilangkan noise dan data yang tidak
label dari data testing disembunyikan selama relevan. Pada umumnya data yang diperoleh,
proses klasifikasi berlangsung dan akan digunakan baik dari database memiliki isian-isian yang
untuk membandingkan hasil klasifikasi sebagai tidak sempurna seperti data yang hilang, data
tolak ukur seberapa besar ketepatan/akurasi model yang tidak valid atau juga hanya sekedar salah
tersebut melakukan klasifikasi (Musu, Ibrahim and ketik. Data- data yang tidak relevan itu juga
Heriadi, 2021). lebih baik dibuang. Pembersihan data juga
Dalam praktek penemuan pola dari akan mempengaruhi performasi dari teknik
kumpulan data, seluruh data yang akan dianalisis data mining karena data yang ditangani akan
dikumpulkan menjadi bentuk dataset yang terdiri berkurang jumlah dan kompleksitasnya.
dari atribut atribut yang mengandung informasi b. Integrasi data (data integration)
penting terhadap pola yang hendak di temukan Integrasi data merupakan penggabungan
(Fernández et al., 2013). Dataset tersebut data dari berbagai database ke dalam satu
kemudian dibagi menjadi dataset untuk training database baru. Integrasi data perlu dilakukan
dan dataset untuk testing. Hal-hal yang secara cermat karena kesalahan pada integrasi
mempengaruhi tingkat akurasi pola klasifikasi data bisa menghasilkan hasil yang
yang dihasilkan selain karakteristik dari data yang menyimpang dan bahkan menyesatkan
dimiliki, komposisi atau presentasi pembagian pengambilan aksi nantinya. Sebagai contoh
jumlah data untuk training dan testing juga bila integrasi data berdasarkan jenis produk
merupakan suatu hal penting yang harus menjadi ternyata menggabungkan produk dari kategori
pertimbangan, secara kusus ketika menggunakan yang berbeda maka akan didapatkan korelasi
algoritma-algoritma supervised learning. antar produk yang sebenarnya tidak ada.
Ketidaktepatan dalam penentuan komposisi c. Seleksi Data (Data Selection)
jumlah dataset training dan testing akan Data yang ada pada database sering kali
mempengaruhi akurasi terhadap pola klasifikasi tidak semuanya dipakai, oleh karena itu hanya
yang di temukan. data yang sesuai untuk dianalisis yang akan
Populasi adalah jumlah keseluruhan dari diambil dari database. Sebagai contoh, sebuah
sampel yang digunakan dalam penelitian. kasus yang meneliti factor kecenderungan
Sedangkan sample adalah bagian dari populasi orang membeli dalam kasus market basket
yang didapatkan dengan menggunakan metode analysis, tidak
tertentu yang kemudian dianggap menjadi wakil perlu mengambil nama pelanggan, cukup
dari populasi tersebut yang menjadi fokus dalam dengan id pelanggan saja.
metode penelitian sosial atau penelitian statistika. d. Transformasi data (Data Transformation)
Technologia”Vol 13, No. 3, Juli 2022 209

Data diubah atau digabung ke dalam logika dan 10.000 baris data. Rapidminer yang
format yang sesuai untuk diproses. Sebagai tersedia berada di bawah lisensi AGPL
contoh beberapa metode standar seperti (Elfaladonna and Rahmadani, 2019).
analisis asosiasi dan clustering hanya bisa
menerima input data kategorikal. Karenanya
data berupa angka numerik yang berlanjut
perlu dibagi-bagi menjadi beberapa interval. 4. K-NN
Proses ini sering disebut transformasi data. Konsep dasar dari K-NN adalah mencari
e. Proses mining jarak terdekat antara data yang akan dievaluasi
Merupakan suatu proses utama saat dengan k tetangga terdekatnya. Nilai dari jarak
metode diterapkan untuk menemukan antara data uji dengan data latih diurutkan dari
pengetahuan berharga dan tersembunyi dari nilai terendah. Proses pengurutan tersebut
data. dilakukan untuk memilih jarak minimum sebanyak
f. Evaluasi pola (pattern evaluation) K buah (Nasution, Khotimah and Chamidah,
Untuk mengidentifikasi pola-pola menarik 2019).
kedalam knowledge based yang ditemukan. Perhitungan K-Nearest Neighbor akan
Dalam tahap ini hasilnya berupa pola-pola diterjemahkan kepada sistem dengan dibuat
yang khas maupun model prediksi dievaluasi modelbase agar mampu mepresentasikan
untuk menilai apakah hipotesa yang ada permasalahan ke dalam format kuantitatif sebagai
memang tercapai. dasar pengambilan keputusan (Novita, Harsani and
Qur’ania, 2018). Perancangan modelbase
3. Klasifikasi bertujuan agar data yang diinputkan oleh user
Klasifikasi merupakan suatu metode dapat diolah dan menghasilkan hasil keputusan
pengelompokan data yang akan mempelajari data yang baik. Alur perhitungan K-Nearest Neighbor
latih dengan menggunakan algoritme ditunjukkan pada Gambar berikut
pengklasifikasian (Pratama, Wihandika and
Ratnawati, 2018). Beberapa algoritma yang
digunakan untuk klasifikasi, antara lain k-Nearest
Neighbor, DecisionTree, Algorithms, Naive Bayes
dan Support Vector Machine. Proses klasifikasi
didasarkan pada empat komponent (Arie Yandi
Saputra, 2018) : Gambar 1. Alur Perhitungan K-Nearest Neighbor
a. Kelas Variabel dependen berupa kategori Sumber gambar : (Novita, Harsani and Qur’ania,
yang mempresentasikan “label” yang terdapat 2018)
pada objek.
b. Predictor Variabel independen yang Berikut menunjukkan rumus mencari nilai jarak
direpresentasikan oleh karakteristik data. euclidian.
c. Training dataset Satu set data yang
mempunya nilai dari kedua komponen (1)
yang digunakan untuk menentukan kelas Keterangan :
yang cocok berdasarkan predictor. xi = Data Uji
d. Testing dataset Berupa data baru yang yi = Data Latih
diklasifikasian oleh model data yang telah i = Variabel Data
di buat dan akurasi klasifikasi di evaluasi. d = Jarak
Tools yang digunakan dalam proses klasifikasi
adalah RapidMiner 9.10.001. Rapidminer Dalam metode K-NN, pendekatan
merupakan platform perangkat lunak ilmu data sederhana dalam menentukan nilai k bisa
yang dikembangkan oleh perusahaan yang dilakukan dengan cara berikut dimana n
bernama sama dengan pihak yang mmenyediakan
merupakan banyaknya data yang dihitung. Nilai k
lingkungan terintegrasi untuk persiapan data,
yang tinggi akan mengurangi noise pada
penambangan teks, dan analisis prediktif.
klasifikasi. Perancangan database dilakukan
Rapidminer dilengkapi dengan satu prosesor
untuk menentukan isi dan pengaturan data yang
Technologia”Vol 13, No. 3, Juli 2022 210

dibutuhkan untuk mendukung berbagai


rancangan sistem. Tahap akhir perancangan
adalah merancang interface dengan tujuan TP
memberikan gambaran bagaimana user dan Presicion = TP + FP (3)
sistem berinteraksi atau dapat berkomunikasi Catatan : lihat keterangan di tabel 1.
dengan baik.

5. Evaluasi d. Recall
Proses evaluasi hasil penelitian Recall menunjukkan keberhasilan model
menggunakan beberapa hyperparameter, antara dalam menemukan kembali sebuah informasi
lain: (M. Raihan Rafiiful Allaam, 2021).
a. Confusion Matrix
Confusion matrix adalah tabel yang TP
menyatakan klasifikasi jumlah data uji yang benar Recall =
dan jumlah data uji yang salah (Normawati and TP + FN
Prayogi, 2021). Contoh tabel confusion matrix
Catatan : lihat keterangan di tabel 1.
adalah sebagai berikut:
e. Kurva ROC
Tabel 1. Tabel confusion matrix
Hasil perhitungan divisualisasikan dengan
Kelas Prediksi
kurva ROC (Receiver Operating Characteristic)
1 0 atau AUC (Area Under Curve). ROC memiliki
Kelas 1 TP FN tingkat nilai diagnosa yaitu (Wahyono and
sebenarnya 0 FP TN Nugroho, 2018):
Sumber tabel : (Normawati and Prayogi, 2021) a) Akurasi bernilai 0.90 – 1.00 = excellent
classification
Keterangan (Normawati and Prayogi, 2021) b) Akurasi bernilai 0.80 – 0.90 =good
TP (True Positive) = jumlah dokumen dari classification
kelas 1 yang benar diklasifikasikan sebagai c) Akurasi bernilai 0.70 – 0.80 = fair
kelas 1 classification
TN (True Negative) = jumlah dokumen dari d) Akurasi bernilai 0.60 – 0.70 = poor
kelas 0 yang benar diklasifikasikan sebagai classification
kelas 0 e) Akurasi bernilai 0.50 – 0.60 = failure
FP (False Positive) = jumlah dokumen dari
kelas 0 yang salah diklasifikasikan sebagai III. METODE PENELITIAN
kelas 1 Metode penelitian yang digunakan dalam
FN (False Negative) = jumlah dokumen dari penelitian ini yaitu:
kelas 1 yang salah diklasifikasikan sebagai 1. Teknik Pengumpulan Data
kelas 0. Teknik pengumpulan data yang digunakan
dalam penelitian ini, antara lain:
b. Akurasi a. Observasi, yaitu pengataman langsung
Akurasi yaitu menunjukkan tingkat akurasi terhadap objek penelitian untuk
model dalam mengklasifikasikan data dengan memperoleh data penelitian.
benar (M. Raihan Rafiiful Allaam, 2021). b. Studi Literatur, yaitu kegiatan untuk
memperoleh kajian pustaka, pengetahuan,
TP+TN teori dan melibatkan penelitian terdahulu
Accuracy = TP+TN+FP+FN (2) untuk menunjang hasil penelitian.

Catatan : lihat keterangan di tabel 1. 2. Tahapan penelitian


Dalam penelitian ini, tahapan penelitian
c. Precision yang digunakan yaitu (Marlina and Bakri, 2021)
Precision yaitu menunjukkan akurasi antara
data yang diminta dengan hasil prediksi model
(M. Raihan Rafiiful Allaam, 2021).
Technologia”Vol 13, No. 3, Juli 2022 211

lain: nama, status mahasiswa, status


perkawinan, IPS, IPK, dan status kelulusan.
d. Transformasi data
Untuk mengubah data menjadi bentuk
yang sesuai untuk di mining. Dalam data asli,
ada beberapa atribut yang perlu dirubah untuk
bisa diolah dalam perhitungan data mining,
antara lain: status mahasiswa dan status
perkawinan. Perubahan yang dilakukan yaitu
status mahasiswa: bekerja (0) dan mahasiswa
(1), sedangkan untuk status perkawinan: belum
menikah (1) dan menikah (0). Dalam proses
transfoirmasi data, data dibagi menjadi 2 yaitu
data training dan data testing.
e. Perhitungan manual
Pada tahap ini, dilakukan perhitungan
manual dengan menggunakan rumus algoritma
Naive bayes. Tools yang digunakan dalam
proses ini adalah Microsoft Excel.
f. Evaluasi
Aplikasi yang digunakan dalam perhitungan
data mining untuk penelitian ini adalah
Gambar 2. Tahapan Penelitian Rapidminer 9.10. Proses evaluasi dilakukan
Sumber gambar : Hasil penelitian dengan membandingkan perhitungan dengan
a. Idenfitikasi masalah aplikasi dan perhitungan manual. Pada tahap
Dalam proses identifikasi masalah ini akan dilakukan perhitungan akurasi,
dilakukan riset langsung di lapangan. Proses precision dan recall menggunakan confusion
yang dilalui, antara lain: identifikasi matrix.
permasalahan yang ada, variabel-variabel yang
berpengaruh terhadap masalah yang terjadi, IV. HASIL DAN PEMBAHASAN
solusi yang akan dilakukan dan rencana sistem 1. Pembersihan Data
yang akan dibuat untuk mengatasi masalah Berikut kami tampilkan data asli yang
tersebut. digunakan dalam penelitian ini
b. Pengumpulan data Tabel 2. Tabel sample data penelitian
Jenis data yang digunakan dalam penelitian JENIS STATUS
STATUS
STATUS
NAMA KELUL
ini adalah data kualitatif dan kuantitatif. Data KELAMIN MAHASISWA
USAN
PERKAWINAN

yang digunakan dalam penelitian ini adalah ANIK


PEREMPU TERLA BELUM
WIDAYAN BEKERJA
data mahasiswa dengan jumlah 379 mahasiswa AN MBAT MENIKAH
TI
untuk diklasifikasi tingkat kelulusan tiap
mahasiswa. Atribut yang digunakan dalam UMUR IPS 1 IPS 2 IPS 3 IPS 4 IPS 5 IPS 6 IPS 7 IPS 8 IPK
penelitian ini, antara lain: nama, jenis kelamin, 28 2.76 2.8 3.2 3.17 2.98 3 3.03 0 3.07
status mahasiswa, umur, status perkawinan,
Sumber tabel : data penelitian
IPS, IPK, dan status kelulusan.
c. Pembersihan data
Untuk membuang data yang tidak Dalam proses ini dilakukan pembersihan data dan
konsisten dan noise. Dalam proses ini, atribut yang tidak berpengaruh dalam perhitungan
beberapa data yang noise atau kosong dan sehingga data yang dihasilkan sebagai berikut:
atribut yang tidak berpengaruh dalam Tabel 3. Tabel sample data penelitian setelah
perhitungan akan dihapus. Untuk atribut yang dilakukan pembersihan data dan atribut
STATUS
dihapus, antara lain: umur dan jenis kelamin. NAMA STATUS MAHASISWA
KELULUSAN
Sehingga atribut yang masih dipakai, antara ANIK WIDAYANTI BEKERJA TERLAMBAT
Technologia”Vol 13, No. 3, Juli 2022 212

IPS IPS 4. Menghitung probabilitas bersyarat untuk


IPS 1 IPS 2 IPS 3 IPS 4 IPS 5 IPS 7 IPK
6 8
setiap kelas P(X3|C), status nikah (3) = 1
2.76 2.8 3.2 3.17 2.98 3 3.03 0 3.07
(belum menikah); kelas = tepat, terlambat
Sumber tabel : data penelitian a. P (X3= 2, C1= tepat) = (status nikah
“1”|jumlah kelas tepat) = 98%
2. Transformasi Data b. P (X3= 2, C1= terlambat) = (status nikah
Proses transformasi data dilakukan agar “1”|jumlah kelas terlambat) = 97%
data dapat diproses ke dalam aplikasi data mining. 5. Menghitung probabilitas bersyarat untuk
Hasil dari proses transformasi data, sebagai setiap kelas P(X4|C), IPK (4) = 3 (2,5-3,4);
berikut: kelas = tepat, terlambat
Tabel 4. Hasil proses transformasi data a. P (X4= 3, C1= tepat) = (penghasilan
NAMA STATUS MAHASISWA
STATUS
KELULUSAN
“2”|jumlah kelas tepat) = 78%
ANIK WIDAYANTI 0 TERLAMBAT
b. P (X4= 3, C1= terlambat) = (penghasilan
“2”|jumlah kelas terlambat) = 42%
IPS IPS IPS IPS
IPS 1 IPS 4 IPS 5 IPS 7 IPK 6. Mengalikan probabilitas untuk setiap kelas
2 3 6 8
2.76 2.8 3.2 3.17 2.98 3 3.03 0 3.07 a. P(X|Kategori=”Tepat”)
Sumber tabel : data penelitian P(Kategori=” Tepat”)
= P(status mahasiswa = 0 | X1= Tepat) *
(status nikah = 1 | X1= Tepat) * (IPK = 3 |
Analisa menggunakan algoritma Naïve Beyes
X1= Tepat) = 7%
dimaksudkan untuk memperoleh hasil terbaik
b. P(X|Kategori=”Terlambat”)
dalam mengklasifikasikan penduduk Desa
P(Kategori=” Terlambat”)
Plumbon dalam pemberian bantuan Rutilahu
= P(status mahasiswa = 0 | X1=
(Rumah Tidak Layak Huni). Data yang digunakan
Terlambat) * (status nikah = 1 | X1=
dalam perhitungan ini sebanyak 379 data.
Terlambat) * (IPK = 3 | X1= Terlambat) =
Data training (80%) = 80% * 379 = 303 data
3%
Data testing (20%) = 20% * 379 = 76 data
Data training akan dihitung manual dengan sampel
7. Membandingkan hasil probabilitas Tepat
perhitungan yang diambil secara acak sejumlah
dan terlambat
379 mahasiswa.
Berdasarkan perhitungan akhir di atas,
1. Data masukkan
terlihat bahwa nilai probabilitas pada class P
Untuk data masukkan yang digunakan,
(P|Tepat) lebih tinggi dari class P
penulis menggunakan 1 sampel data pada
(P|Terlambat), sehingga dapat disimpulkan
Tabel 1.1.
bahwa penduduk atas nama ANIK
2. Menghitung probabilitas prior untuk label
WIDAYANTI diprediksi bisa lulus dengan
atau class
tepat waktu
P (C1) = jumlah tepat/jumlah semua data
= 249/478 * 100% = 66% 3. Evaluasi Hasil
P (C2) = jumlah terlambat/jumlah semua data Berikut adalah perhitungan evaluasi hasil
= 130/478 * 100% = 34% dengan RapidMiner 9.10.001
a. Confusion Matrix
3. Menghitung probabilitas bersyarat untuk Berikut adalah confusion matrix yang
setiap kelas P(X2|C), status mahasiswa (2) = dihasilkan
0 (bekerja); kelas = tepat, terlambat
a. P (X2= 0, C1= tepat) = (status mahasiswa
“0”|jumlah kelas tepat) = 13%
b. P (X2= 0, C2= terlambat) = (status
mahasiswa “0”|jumlah kelas terlambat)
= 77%
Technologia”Vol 13, No. 3, Juli 2022 213

V. SIMPULAN
Penelitian prediksi tingkat kelulusan
mahasiswa menggunakan 379 data, dengan
rincian data training 303 data dan data testing
76 data. Atribut yang digunakan, antara lain:
nama, status mahasiswa, status perkawinan,
IPS, IPK, dan status kelulusan. Tahapan yang
Gambar 3. Confusion Matrix Hasil Penelitian dilakukan dalam penelitian, antara lain:
Sumber gambar : Hasil penelitian identifikasi masalah, pengumpulan data, data
cleaning, data transformation (dibagi menjadi
Jumlah True Positive (TP) adalah 44 record data training dan data tesing), klasifikasi
diklasifikasikan sebagai mahasiswa TEPAT dengan KNN, validasi, evaluasi dan hasil.
lulus dan False Negative (FN) sebanyak 6 Hasil penelitian yang diperoleh yaitu akurasi
record diklasifiksikan sebagai mahasiswa = 88,16%, precision = 93,62% dan recall =
TEPAT tetapi TERLAMBAT lulus. 88%. Hasil klasifikasi termasuk dalam
Berikutnya 23 record untuk True Negative kategori good classification.
(TN) diklasifikasikan sebagai mahasiswa
TERLAMBAT, dan 3 record False Positive
(FP) diklasifikasikan sebagai mahasiswa DAFTAR PUSTAKA
TERLAMBAT tetapi TEPAT lulus.
Arie Yandi Saputra, Y. P. (2018) ‘Penerapan
b. Accuracy Teknik Klasifikasi Untuk Prediksi Kelulusan
TP+TN Mahasiswa Menggunakan Algoritma K-Nearest
Accuracy = TP+TN+FP+FN Neighbour’, 17(4), pp. 395–403.

Accuracy = 44+23 Elfaladonna, F. and Rahmadani, A. (2019)


‘Analisa Metode Classification-Decission Tree
44+23+3+6 Dan Algoritma C.45 Untuk Memprediksi Penyakit
Diabetes Dengan Menggunakan Aplikasi Rapid
Accuracy = 88,16% Miner’, SINTECH (Science and Information
Technology) Journal, 2(1), pp. 10–17. doi:
10.31598/sintechjournal.v2i1.293.
c. Presicion
Presicion TP
= Fernández, A. et al. (2013) ‘Analysing the
TP + FP classification of imbalanced data-sets with
Presicion 44 multiple classes: Binarization techniques and ad-
=
44 + 3 hoc approaches’, Knowledge-Based Systems, 42,
Presicion pp. 97–110. doi: 10.1016/j.knosys.2013.01.018.
= 93,62%

M. Raihan Rafiiful Allaam, A. T. W. (2021)


‘KLASIFIKASI GENUS TANAMAN
d. Recall ANGGREK MENGGUNAKAN METODE
TP CONVOLUTIONAL NEURAL NETWORK (
Recall
= CNN )’, in e-Proceeding of Engineering, pp.
TP + FN
3147–3179.
44
Recall
= Marlina, D. and Bakri, M. (2021) ‘Penerapan Data
44 + 6 Mining Untuk Memprediksi Transaksi Nasabah
Recall Dengan Algoritma C4.5’, Jurnal Teknologi dan
= 88%
Sistem Informasi (JTSI), 2(1), pp. 23–28.
Technologia”Vol 13, No. 3, Juli 2022 214

Musu, W., Ibrahim, A. and Heriadi (2021) Pratama, A., Wihandika, R. C. and Ratnawati, D.
‘Pengaruh Komposisi Data Training dan Testing E. (2018) ‘Implementasi algoritme support vector
terhadap Akurasi Algoritma C4 . 5’, Prosiding machine (SVM) untuk prediksi ketepatan waktu
Seminar Ilmiah Sistem Informasi Dan Teknologi kelulusan mahasiswa’, Jurnal Pengembangan
Informasi, X(1), pp. 186–195. Teknologi Informasi dan Ilmu Komputer, 2(April),
pp. 1704–1708.
Nasution, D. A., Khotimah, H. H. and Chamidah,
N. (2019) ‘Perbandingan Normalisasi Data untuk Putri, R. P. S. and Waspada, I. (2018) ‘Penerapan
Klasifikasi Wine Menggunakan Algoritma K-NN’, Algoritma C4.5 pada Aplikasi Prediksi Kelulusan
Computer Engineering, Science and System Mahasiswa Prodi Informatika’, Khazanah
Journal, 4(1), p. 78. doi: Informatika: Jurnal Ilmu Komputer dan
10.24114/cess.v4i1.11458. Informatika, 4(1), p. 1. doi:
10.23917/khif.v4i1.5975.
Normawati, D. and Prayogi, S. A. (2021)
‘Implementasi Naïve Bayes Classifier Dan Sikumbang, E. D. (2018) ‘Penerapan Data Mining
Confusion Matrix Pada Analisis Sentimen Penjualan Sepatu Menggunakan Metode
Berbasis Teks Pada Twitter’, Jurnal Sains Algoritma Apriori’, Jurnal Teknik Komputer
Komputer & Informatika (J-Sakti), 5(2), pp. 697– AMIK BSI (JTK), Vol 4, No.(September), pp. 1–4.
711.
Wahyono, W. and Nugroho, A. (2018) ‘Penerapan
Novita, S., Harsani, P. and Qur’ania, A. (2018) Algoritma C4.5 Untuk Prediksi Tingkat
‘Penerapan K-Nearest Neighbor (KNN) untuk Kompetensi Karyawan Pt Multistrada Arah
Klasifikasi Anggrek Berdasarkan Karakter Sarana’, Joutica, 3(1), p. 145. doi:
Morfologi Daun dan Bunga’, Komputasi, 15(1), 10.30736/jti.v3i1.201.
pp. 118–125.

Anda mungkin juga menyukai