Anda di halaman 1dari 12

Volume 10 No.

1
Januari 2018
ISSN : 2085 – 1669
e-ISSN : 2460 – 0288
Website : jurnal.umj.ac.id/index.php/jurtek
Email : jurnalteknologi@umj.ac.id

U N I V E R S I T A S M U H A M M A D I Y A H J A K A R T A

METODE DATA MINING UNTUK SELEKSI CALON MAHASISWA


PADA PENERIMAAN MAHASISWA BARU DI UNIVERSITAS
PAMULANG
Aries Saifudin1
1
Jurusan Teknik Informatika, Fakultas Teknik, Universitas Pamulang, Tangerang
Jl. Puspiptek No.23, Buaran, Serpong, Kota Tangerang Selatan, Banten 15310
Email: aries.saifudin@gmail.com

Diterima: 20 April 2017 Direvisi: 9 Juni 2017 Disetujui: 21 Juli 2017

ABSTRAK

Universitas Pamulang berusaha memberikan pendidikan tinggi dengan biaya yang terjangkau oleh kalangan
bawah. Tetapi mahasiswanya banyak yang keluar di tiap semester, sehingga menyebabkan rasio jumlah
mahasiswa baru dengan jumlah yang lulus tidak seimbang. Selain itu banyak mahasiswa yang tidak lulus tepat
waktu, hal ini mengakibatkan rasio dosen dan mahasiswa tidak seimbang. Kedua hal ini akan mengurangi
penilaian pada saat akreditasi. Penyebab keluarnya mahasiswa tanpa menyelesaikan pendidikannya, atau tidak
dapat menyelesaikan pendidikannya tepat waktu belum dapat dideteksi dengan sistem seleksi saat ini. Pada
penelitian ini diusulkan penggunaan teknik data mining untuk memprediksi ketepatan waktu lulus calon
mahasiswa. Teknik data mining dan machine learning dapat digunakan untuk memprediksi berdasarkan data-
data masa lalu. Metode data mining yang digunakan untuk memprediksi adalah klasifikasi, yaitu Naïve Bayes
(NB), k-Nearest Neighbor (k-NN), Random Forest (RF), Decision Stump (DS), Decision Tree (DT), Rule
Induction (RI), Linear Regression (LR), Linear Discriminant Analysis (LDA), Neural Network (NN), dan
Support Vector Machine (SVM). Berdasarkan hasil implementasi dan pengukuran algoritma/model yang
diusulkan diperoleh algoritma/model terbaik, yaitu Support Vector Machine (SVM) dengan akurasi 65.00%.
Tetapi akurasi ini masih jauh dari nilai excellent (sangat baik).

Kata kunci: Data Mining, Klasifikasi, Penerimaan Mahasiswa

ABSTRACT

Pamulang University strives to provide higher education at an affordable cost by the lower classes. But many
students are dropout in each semester, thus causing the ratio of the number of new students by the number of
graduating unbalanced. In addition, many students who do not graduate on time, this resulted in the ratio of
lecturers and students are not balanced. Both of these will reduce the assessment at the time of accreditation.
The cause of the release of the student without completing their education, or unable to complete their education
on time can not be detected with the current selection system. In this study, proposed to use data mining
techniques to predict the timeliness graduate students. Data mining techniques and machine learning can be
used to predict based on past data. The data mining method used to predict is the classification, namely Naïve
Bayes (NB), k-Nearest Neighbor (k-NN), Random Forest (RF), Decision Stump (DS), Decision Tree (DT), Rule
Induction (RI) , Linear Regression (LR), Linear Discriminant Analysis (LDA), Neural Network (NN), and
Support Vector Machine (SVM). Based on the results of the implementation and measurement algorithms/models
proposed obtained the best algorithm/model, namely Support Vector Machine (SVM) with an accuracy of
65.00%. But this accuracy is still far from excellent value.

Keywords: Data Mining, Classification, Student Enrollment

DOI: https://dx.doi.org/10.24853/jurtek.10.1.25-36
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

PENDAHULUAN menyelesaikan pendidikannya tepat waktu


Pendidikan tinggi di Indonesia telah belum dapat dideteksi dengan sistem seleksi
mengalami peningkatan dari waktu ke waktu, saat ini. Padahal mendeteksi mahasiswa yang
saat ini sudah mencapai 3098 perguruan tinggi berisiko tidak menyelesaikan pendidikan pada
baik negeri maupun swasta (Wahyudin, 2015). tahap awal sangat penting (Nurhayati, Kusrini,
Peningkatan juga terjadi pada jumlah pendaftar & Luthfi, 2015), karena dapat digunakan untuk
di perguruan tinggi (Yasmiati, Wahyudi, & mengambil tindakan untuk mencegah
Susilo, 2017). Peningkatan ini harus diimbangi terjadinya dropout yang merupakan tantangan
dengan strategi seleksi penerimaan mahasiswa terbesar bagi lembaga pendidikan (Pal, 2012).
yang baik agar mendapatkan calon mahasiswa Fenomena dropout tidak hanya di Universitas
yang berkualitas, karena daya tampung dan Pamulang, tetapi juga terjadi pada semua
tingkat kelulusan merupakan bagian penting tingkat pendidikan di negara manapun,
dalam pengambilan keputusan (Bisri & termasuk yang memiliki sosial ekonomi maju
Wahono, 2015). Mahasiswa yang berkualitas (Siri, 2015).
bukan hanya yang memiliki kemampuan Penggunaan data mining untuk
intelektual tinggi, tetapi juga harus dapat menganalisa data mahasiswa dapat
menyelesaikan pendidikannya dengan baik. menghasilkan penemuan-penemuan baru yang
Universitas Pamulang memiliki jumlah tidak dapat diamati dengan pendekatan statistik
mahasiswa yang sangat banyak, tiap semester tradisional (Sherrill, Eberle, & Talbert, 2011,
menerima mahasiswa baru dengan jumlah p. 56). Oleh karena itu diperlukan sistem
yang sangat banyak. Hal ini terjadi karena seleksi penerimaan mahasiswa baru yang dapat
Universitas Pamulang berusaha memberikan memprediksi terjadinya masalah tersebut,
pendidikan tinggi dengan biaya yang sehingga dapat dikurangi.
terjangkau oleh kalangan bawah. Tetapi Teknik data mining dan machine
mahasiswanya banyak yang keluar di tiap learning dapat digunakan untuk memprediksi
semester, sehingga menyebabkan rasio jumlah berdasarkan data-data masa lalu. Data mining
mahasiswa baru dengan jumlah yang lulus adalah proses untuk menemukan pola yang
tidak seimbang. Selain itu banyak mahasiswa berguna dan kecenderungan di dalam
yang tidak lulus tepat waktu, hal ini kumpulan data yang besar (Larose & Larose,
mengakibatkan rasio dosen dan mahasiswa 2015, p. 4). Dari sumber lain, data mining
tidak seimbang. Kedua hal ini akan adalah ilmu yang mempelajari tentang
mengurangi penilaian pada saat akreditasi. pengumpulan, pembersihan, pengolahan,
Mahasiswa memiliki tingkat motivasi analisis, dan memperoleh wawasan yang
yang berbeda, sikap yang berbeda dalam berguna dari data (Aggarwal, 2015, p. 1).
belajar, dan respon yang berbeda terhadap Salah satu metode yang dapat digunakan untuk
instruksi praktis khusus (Manhães, Cruz, & memprediksi adalah klasifikasi. Tugas dari
Zimbrão, 2014, p. 2). Banyaknya mahasiswa klasifikasi adalah memprediksi keluaran
yang keluar sebelum menyelesaikan variabel/class yang bernilai kategorikal atau
pendidikannya, dan yang tidak dapat polinomial (Kotu & Deshpande, 2015, p. 9).
menyelesaikan pendidikan tepat waktu Metode ini digunakan untuk memprediksi
mungkin disebabkan kemampuan yang calon mahasiswa ke dalam kelompok lulus
dimiliki mahasiswa, atau motivasinya. tepat waktu atau tidak tepat waktu berdasarkan
Kemampuan di sini termasuk kemampuan data-data ketika mendaftarkan diri.
inteligensi dan finansialnya. Masalah ekonomi Banyak metode data mining yang dapat
merupakan alasan utama tidak diselesaikannya diterapkan untuk klasifikasi. Algoritma
pendidikan, selain menikah dini, masalah klasifikasi yang populer adalah Decision
keamanan, dan masalah sosial lainnya (Latif, Trees, Neural Networks, k-Nearest
Choudhary, & Hammayun, 2015). Karena Neighbours, Naive Bayes, dan algoritma
Universitas Pamulang menerapkan biaya Genetik (Yukselturk, Ozekes, & Türel, 2014,
pendidikan yang murah, maka banyak calon p. 119).
mahasiswa yang ingin mencoba-coba kuliah di Maka pada penelitian ini akan
perguruan tinggi. diterapkan beberapa algoritma klasifikasi
Penyebab keluarnya mahasiswa tanpa untuk mencari metode terbaik dalam
menyelesaikan pendidikannya, atau tidak dapat mengkalsifikasikan data calon mahasiswa di

26
Aries Saifudin: Metode Data Mining untuk Seleksi Calon Mahasiswa pada Penerimaan Mahasiswa Baru di Universitas Pamulang

Jurnal Teknologi 10 (1) pp 25-36 © 2018

Universitas Pamulang. Diharapkan didapat aturan decision tree induction untuk


metode klasifikasi terbaik yang dapat memprediksi apakah mahasiswa akan lulus
digunakan untuk memprediksi ketepatan waktu atau tidak berdasarkan data historis. Hasil
lulus calon mahasiswa. menunjukkan bahwa algoritma ID3 adalah
pengklasifikasi terbaik dengan akurasi 98%.
Penelitian Terkait Hasil penelitian ini juga dapat mengidentifikasi
Penelitian terkait kinerja mahasiswa mahasiswa mana yang membutuhkan perhatian
telah banyak dilakukan dan dipublikasikan. khusus untuk mengurangi jumlah drop-out.
Kinerja mahasiswa yang diteliti menyangkut Pada penelitian yang dilakukan oleh Al-
prediksi ketepatan waktu lulus, prediksi Barrak dan Al-Razgan (Al-Barrak & Al-
dropout, dan lain-lain. Sebelum melakukan Razgan, 2015) dinyatakan bahwa kinerja
penelitian, perlu dilakukan kajian terhadap dalam program akademik merupakan salah
penelitian sebelumnya, agar dapat mengetahui satu faktor yang paling penting yang
metode, data, maupun model yang sudah mempengaruhi kualitas pendidikan yang lebih
pernah digunakan. Kajian penelitian tinggi tersedia untuk siswa. Pada karya ilmiah
sebelumnya ditujukan untuk mengetahui state ini, digunakan teknik data mining, khususnya
of the art tentang penelitian prediksi dropout, klasifikasi, untuk menganalisis nilai
dan prediksi ketepatan waktu lulus mahasiswa dalam tugas evaluatif yang berbeda
menggunakan data mining. untuk mata kuliah data terstruktur. Untuk
Pada penelitian yang dilakukan oleh Pal tujuan ini, dibandingkan tiga pengklasifikasi
(Pal, 2012, pp. 35-39) dinyatakan bahwa salah yang berbeda menggunakan data real dari King
satu tantangan terbesar yang dihadapi lembaga Saud University untuk memprediksi kinerja
pendidikan adalah mengurangi jumlah peserta mahasiswa. Di sini diterapkan teknik
didik yang putus studi. Jumlah peserta didik klasifikasi untuk kedua atribut numerik dan
yang putus studi menjadi indikasi kinerja dikategorikan. Hasil kami menunjukkan bahwa
akademik dan manajemen pendaftaran. Hal ini model berdasarkan algoritma Naïve Bayes
menyebabkan lembaga lebih berfokus pada memberikan prediksi yang paling akurat.
kekuatan siswa daripada kualitas pendidikan. Selain itu didapatkan model dengan akurasi
Pada penelitian ini diterapkan aplikasi data 91% untuk memprediksi kegagalan mahasiswa
mining untuk menghasilkan model prediktif dalam mata kuliah.
untuk pengelolaan mahasiswa putus studi, Pada penelitian yang dilakukan oleh
sehingga dapat diketahui mana mahasiswa Abu-Oda dan El-Halees (Abu-Oda & El-
yang perlu mendapatkan dukungan lebih. Hasil Halees, 2015, pp. 15-27) dinyatakan bahwa
penelitian menunjukkan bahwa algoritma salah satu tantangan terbesar yang dihadapi
mesin pembelajaran mampu membangun pendidikan tinggi saat ini adalah memprediksi
model prediksi secara efektif dari data siswa jalur akademik siswa. Banyak sistem
putus sekolah yang ada. pendidikan tinggi tidak mampu mendeteksi
Pada penelitian yang dilakukan oleh Rai, populasi siswa yang cenderung putus karena
Saini, dan Jain (Rai, Saini, & Jain, 2014, pp. kurangnya metode intelijen untuk
142-149) dinyatakan bahwa prediksi awal menggunakan informasi, dan bimbingan dari
mahasiswa putus sekolah adalah tugas yang sistem universitas. Untuk mengklasifikasikan
menantang dalam pendidikan tinggi. Analisis dan memprediksi siswa putus sekolah,
data adalah salah satu cara untuk menurunkan diusulkan dua pengklasifikasi berbeda, yaitu
tingkat siswa putus sekolah dan meningkatkan Decision Tree (DT), dan Naive Bayes (NB),
angka partisipasi mahasiswa di universitas. Ini dan dilatih menggunakan dataset yang telah
adalah kenyataan bahwa mahasiswa putus kumpulkan. Kemudian diuji menggunakan 10-
sekolah cukup sering pada tahun pertama. fold cross validation. Hasilnya menunjukkan
Dropout di universitas disebabkan oleh bahwa akurasi dari DT mencapai 98,14%,
akademik, keluarga dan alasan pribadi, sedangkan NB mencapai 96,86%.
lingkungan kampus dan infrastruktur
universitas dan bervariasi tergantung pada METODE PENELITIAN
sistem pendidikan yang diterapkan oleh Penelitian ini menggunakan pendekatan
universitas. Pada penelitian ini diusulkan kuantitatif. Penelitian kuantitatif bertujuan
model klasifikasi menggunakan algoritma dan untuk mencapai pemahaman tentang

27
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

bagaimana sesuatu dikonstruksi, bagaimana Penjelasan tahapan pada Gambar 1


dibangun, atau bagaimana cara kerjanya sebagai berikut ini:
(Berndtsson, Hansson, Olsson, & Lundell, a. Pengumpulan data
2008, p. 13). Penelitian kuantitatif umumnya Pengumpulan data bukan hanya sekedar
didorong oleh hipotesis, yang dirumuskan dan mengambil data yang ada, tetapi harus
diuji secara ketat, dengan tujuan menunjukkan mampu mendeskripsikan data yang ada,
bahwa hipotesisnya salah. Oleh karena itu, dan memiliki kontribusi terhadap
salah satu upayanya adalah untuk menyalahkan pengetahuan. Data tersebut harus dapat
hipotesis, dan jika hipotesis tahan uji, maka memberikan penjelasan, hubungan,
akan dianggap benar setelah terbukti perbandingan, prediksi, generalisasi, dan
sebaliknya. Aspek kuantitatif adalah untuk teori (Dawson, 2009, p. 18).
menekankan bahwa pengukuran merupakan Berdasarkan sumbernya, data dibedakan
dasarnya karena memberikan hubungan antara menjadi dua, yaitu:
observasi dan formalisasi model, teori, dan  Data primer, yaitu data yang
hipotesis. Hasil dari penelitian kuantitatif dikumpulkan langsung dari sumber
adalah mengembangkan model, teori, dan data. Pengumpulan data ini
hipotesis yang berkaitan dengan fenomena memerlukan waktu, dan biaya yang
alam. lebih banyak dari data sekunder.
Metode yang digunakan pada penelitian Contoh sumber data primer adalah
ini adalah eksperimen. Penelitian eksperimen kuisioner, observasi, wawancara, dan
mencakup investigasi hubungan sebab-akibat eksperimen yang dilakukan langsung
menggunakan pengujian yang dikontrol sendiri oleh peneliti.
(Dawson, 2009, p. 26). Cukup sering  Data sekunder, yaitu data yang
penelitian semieksperimental mendapatkan diperoleh dari peneliti/pihak lain,
kendala pada tidak cukupnya akses terhadap walaupun data tersebut sebelumnya
sampel, masalah etika dan sebagainya. digunakan dengan tujuan yang
Eksperimen biasanya dilakukan dalam berbeda. Data sekunder dapat
pengembangan, evaluasi dan pemecahan diperoleh relatif lebih cepat, dan
masalah proyek. dengan biaya rendah. Contoh sumber
Penelitian ini bertujuan untuk data sekunder adalah kantor statistik
mendapatkan model prediksi ketepatan waktu baik pemerintah maupun swasta,
lulus calon mahasiswa. Karena penelitian yang perpustakaan, toko buku, maupun
diakui/diterima harus mengikuti aturan yang internet.
diakui (Dawson, 2009, p. 20), maka pada
penelitian ini dilakukan dengan mengikuti Pada penelitian ini digunakan data
tahapan seperti Gambar 3.1. primer. Data dikumpulkan dari berkas-
berkas mahasiswa yang telah lulus yang
diperoleh dari tata usaha program studi
Teknik Informatika Universitas
Pamulang.
b. Pengolahan awal data
Data yang sudah dikumpulkan diolah
untuk mengurangi data yang tidak
relevan, atau data dengan atribut yang
hilang. Pengolahan juga berupa konversi
nilai-nilai redundan (berlebihan), atau
nilai yang terlalu beragam ke dalam
kelompok yang lebih kecil untuk
mempermudah pembentukan model.
c. Model/metode yang diusulkan
Gambar 1. Tahapan Penelitian Untuk menggambarkan alur
model/metode yang diusulkan dan
menjelaskan cara kerja model/metode
yang diusulkan. Model/metode ini

28
Aries Saifudin: Metode Data Mining untuk Seleksi Calon Mahasiswa pada Penerimaan Mahasiswa Baru di Universitas Pamulang

Jurnal Teknologi 10 (1) pp 25-36 © 2018

digambarkan secara skematik dan Spesifikasi Dataset yang Digunakan


disertai dengan formula penghitungan. Penelitian ini dilaksanakan dengan cara
Model/metode yang diusulkan akan menganalisa model yang diusulkan dengan
dibentuk dari data yang sudah diolah, menerapkan pada dataset ketepatan waktu
dan hasil pengolahan model akan diukur kelulusan mahasiswa. Spesifikasi dan atribut
dengan model yang ada saat ini. dataset hasil dari tranformasi dataset ketepatan
d. Eksperimen dan pengujian model waktu kelulusan mahasiswa ditunjukkan pada
Menjabarkan bagaimana eksperimen Tabel 2.
yang dilakukan hingga terbentuknya
model, serta menjelaskan cara menguji Tabel 2. Spesifikasi dan Atribut Dataset yang
model yang terbentuk. Digunakan
e. Evaluasi dan validasi hasil No Nama Keterangan Jumlah
Evaluasi dilakukan dengan mengamati Attribut
hasil prediksi menggunakan algoritma 1 JenisKelamin Jenis L=144, P=27
data mining. Validasi digunakan untuk Kelamin,
memastikan bahwa hasilnya akan sama yaitu Laki-
laki, dan
ketika dilakukan secara independen.
Perempuan
Pengukuran kinerja dilakukan dengan 2 Jurusan Jurusan ips=42;
membandingkan nilai ketepatan prediksi ketika di listrik=4;
dari masing-masing algoritma sehingga sekolah, tkj=3; ipa=44;
dapat diketahui algoritma yang lebih misalnya otomotif=19;
akurat. IPA, IPS, multimedia=1
Pengumpulan Data Otomotif, 1; admin=9;
Data yang digunakan adalah data Listrik, dll penjualan=8;
primer, yaitu data yang didapatkan langsung akuntansi=6;
dari objek penelitian dengan melalui hasil mesin=6;
elektro=3;
pengamatan lapangan dan wawancara. Data-
industri=5;
data yang dikumpulkan adalah data-data rpl=3;
alumni dan mahasiswa yang masa studinya sekretaris=1;
lebih dari 4 tahun (8 semester) dari Program perhotelan=2;
Studi Teknik Informatika Universitas pertanian=2;
Pamulang. Data dikumpulkan dari berkas- pariwisata=1;
berkas mahasiswa yang telah lulus yang bahasa=1;
diperoleh dari tata usaha program studi Teknik agama
Informatika Universitas Pamulang. Spesifikasi islam=1
dataset kelulusan mahasiswa yang telah SelisihWaktu Selisih Range=0-12
dikumpulkan ditunjukkan pada Tabel 1. tahun lulus Rata-
dengan rata=1,737
tahun SD=2,248
Tabel 1. Spesifikasi Dataset Kelulusan pendaftaran
Mahasiswa 3 Matematika Nilai Range=2,0-
No Nama Attribut Keterangan Matematika 9,75
1 JenisKelamin Jenis Kelamin, yaitu Laki- pada ujian Rata-
laki, dan Perempuan nasional rata=7,526
2 Jurusan Jurusan ketika di sekolah, SD=1,27
misalnya IPA, IPS, 4 Inggris Nilai Range=3,8-10
Otomotif, Listrik, dll Bahasa Rata-
3 Matematika Nilai Matematika pada Inggris pada rata=7,344
ujian nasional ujian SD=1,27
4 Inggris Nilai Bahasa Inggris pada nasional
ujian nasional 5 Indonesia Nilai Range=4,0-
5 Indonesia Nilai Bahasa Indonesia Bahasa 9,8
pada ujian nasional Indonesia Rata-
6 Status Status ketepatan waktu pada ujian rata=7,075
kelulusan, yaitu Tepat nasional SD=0,991
waktu, dan Tidak tepat 6 Status Status Tepat waktu =

29
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

ketepatan 64
waktu Tidak Tepat = Dataset yang telah dikumpulkan
kelulusan, 107 (StudentDataset) pertama akan dipecah (split)
yaitu Tepat menjadi data latih (training data) dan data uji
waktu, dan
(testing data) menggunakan algoritma 10-fold
Tidak tepat
cross validation. Data latih digunakan untuk
melatih algoritma klasifikasi, kemudian data
Perancangan Penelitian
uji digunakan untuk menguji algoritma/model
Pada penelitian ini diusulkan model
yang telah dilatih. Pada proses pengujian
prediksi ketepatan waktu lulusan mahasiswa
digunakan confusion matrix untuk
menggunakan beberapa teknik data mining,
menghasilkan ukuran kinerja algoritma/model
yaitu 10 algoritma klasifikasi. Keseluruhan
yang diusulkan. Setelah semua
akurasi pada pengujian dataset umumnya
algoritma/model diuji, kinerjanya
digunakan untuk mengevaluasi kinerja
dibandingkan untuk mengetahui model mana
pengklasifikasi (Zhang & Wang, 2011).
yang terbaik.
Cross validaton adalah metode statistik
untuk mengevaluasi dan membandingkan
Teknik Analisis
algoritma pembelajaran (learning algorithms)
Sistem intelijen dan model matematis
dengan membagi data menjadi dua segmen,
untuk pengambilan keputusan dapat mencapai
satu segmen digunakan untuk belajar atau data
hasil yang akurat dan efektif hanya jika data
latih, dan yang lain digunakan untuk
yang digunakan dapat diandalkan (Vercellis,
memvalidasi model (Refaeilzadeh, Tang, &
2009, p. 94). Teknik untuk menganalisa
Liu, 2009, p. 532). Dalam cross validation
algoritma/model yang terbaik dilakukan
kumpulan pelatihan dan validasi harus
dengan membandingkan kinerjanya.
crossover berturut-turut sehingga setiap data
Pengukuran kinerja model dilakukan dengan
memiliki kesempatan tervalidasi.
dilakukan menggunakan confusion matrix.
K-fold cross validation adalah teknik
Confusion matrix diperoleh dari proses validasi
umum untuk memperkirakan kinerja
menggunakan 10-fold cross validation,
pengklasifikasi. K-fold cross validation
sehingga model yang terbentuk dapat langsung
dilakukan dengan menggunakan kembali
diuji dengan melakukan 10 kali pengujian.
dataset yang sama, sehingga menghasilkan k
perpecahan dari kumpulan data menjadi non-
HASIL DAN PEMBAHASAN
overlapping dengan proporsi pelatihan (k-1)/k
Pada penelitian ini dilakukan
dan 1/k untuk pengujian (Korb & Nicholson,
eksperimen dengan menggunakan komputer
2011, p. 213).
untuk melakukan proses penghitungan
Untuk menguji model yang diusulkan
terhadap model yang diusulkan. Spesifikasi
digunakan teknik validasi 10-fold cross
perangkat keras dan sistem operasi yang
validation. Kerangka kerja penelitian ini
digunakan pada penelitian ini adalah
ditunjukkan pada Gambar 2.
menggunakan sebuah laptop DELL Inspiron
1440 dengan prosesor Pentium® Dual-Core
CPU T4500 @ 2.30 GHz, memori (RAM) 4,00
GB, dan menggunakan sistem operasi
Windows 10 Pro 32-bit. Sedangkan perangkat
lunak yang digunakan untuk menerapkan
model yang diusulkan digunakan RapidMiner
Studio 6.0.001 starter edition.

Hasil Pengukuran
Model disimulasikan menggunakan
software RapidMiner Studio 6.0.001 starter
edition dan dataset mahasiswa yang telah
dikumpulkan. Pengukuran kinerja model yang
Gambar 2. Kerangka Kerja Penelitian diusulkan ditunjukkan pada subbab
selanjutnya.

30
Aries Saifudin: Metode Data Mining untuk Seleksi Calon Mahasiswa pada Penerimaan Mahasiswa Baru di Universitas Pamulang

Jurnal Teknologi 10 (1) pp 25-36 © 2018

Naïve Bayes (NB)


Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Kemudian
keluarannya dihubungkan ke Validation (X-
Validation) dengan 10-fold cross validation. Gambar 6. Susunan Validasi k-Nearest
Susunan operator ditunjukkan pada Gambar 3. Neighbor

Untuk melatih dan menguji model di


bagian training diisi operator k-Nearest
Neighbor, pada testing diisi operator Apply
Model dan Performance. Susunan operator
training dan testing ditunjukkan pada Gambar
7.

Gambar 3. Susunan Validasi Naïve Bayes

Untuk melatih dan menguji model di


bagian training diisi operator Naïve Bayes,
pada testing diisi operator Apply Model dan Gambar 7. Susunan Operator k-Nearest
Performance. Susunan operator training dan Neighbor
testing ditunjukkan pada Gambar 4.
Kemudian model dieksekusi sehingga
didapat hasil kinerja model seperti pada
Gambar 8 didapat akurasinya 57,25%.

Gambar 4. Susunan Operator Naïve Bayes

Kemudian model dieksekusi sehingga Gambar 8. Hasil Pengukuran k-Nearest


didapat hasil kinerja model seperti pada Neighbor
Gambar 5 didapat akurasinya 60,85%.
Random Forest (RF)
Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Kemudian
keluarannya dihubungkan ke Validation (X-
Gambar 5. Hasil Pengukuran Naïve Bayes Validation) dengan 10-fold cross validation.
Susunan operator ditunjukkan pada Gambar 9.
k-Nearest Neighbor (k-NN)
Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Kemudian
keluarannya dihubungkan ke Validation (X-
Validation) dengan 10-fold cross validation.
Susunan operator ditunjukkan pada Gambar 6. Gambar 9. Susunan Validasi Random Forest

Untuk melatih dan menguji model di


bagian training diisi operator Random Forest,
pada testing diisi operator Apply Model dan

31
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

Performance. Susunan operator training dan


testing ditunjukkan pada Gambar 10.

Gambar 14. Hasil Pengukuran Decision


Stump

Gambar 10. Susunan Operator Random Forest Decision Tree (DT)


Dataset yang disimpan dalam format
Kemudian model dieksekusi sehingga CSV (Comma Separated Value) dibuka
didapat hasil kinerja model seperti pada menggunakan operator Read CSV. Kemudian
Gambar 11. didapat akurasinya 62,65%. keluarannya dihubungkan ke Validation (X-
Validation) dengan 10-fold cross validation.
Susunan operator ditunjukkan pada Gambar
15.

Gambar 11. Hasil Pengukuran Random Forest

Decision Stump (DS)


Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka Gambar 15. Susunan Validasi Decision Tree
menggunakan operator Read CSV. Kemudian
keluarannya dihubungkan ke Validation (X- Untuk melatih dan menguji model di
Validation) dengan 10-fold cross validation. bagian training diisi operator Decision Tree,
Susunan operator ditunjukkan pada Gambar pada testing diisi operator Apply Model dan
12. Performance. Susunan operator training dan
testing ditunjukkan pada Gambar 16.

Gambar 12. Susunan Validasi Decision


Stump Gambar 16. Susunan Operator Decision Tree

Untuk melatih dan menguji model di Kemudian model dieksekusi sehingga


bagian training diisi operator Decision Stump, didapat hasil kinerja model seperti pada
pada testing diisi operator Apply Model dan Gambar 17 didapat akurasinya 62,65%.
Performance. Susunan operator training dan
testing ditunjukkan pada Gambar 13.

Gambar 17. Hasil Pengukuran Decision Tree

Rule Induction (RI)


Gambar 13. Susunan Operator Decision Dataset yang disimpan dalam format
Stump CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Kemudian
Kemudian model dieksekusi sehingga keluarannya dihubungkan ke Validation (X-
didapat hasil kinerja model seperti pada Validation) dengan 10-fold cross validation.
Gambar 14 didapat akurasinya 62,65%. Susunan operator ditunjukkan pada Gambar
18.

32
Aries Saifudin: Metode Data Mining untuk Seleksi Calon Mahasiswa pada Penerimaan Mahasiswa Baru di Universitas Pamulang

Jurnal Teknologi 10 (1) pp 25-36 © 2018

training dan testing ditunjukkan pada Gambar


22.

Gambar 18. Susunan Validasi Rule Induction

Untuk melatih dan menguji model di


bagian training diisi operator Rule Induction, Gambar 22. Susunan Operator Linear
pada testing diisi operator Apply Model dan Regression
Performance. Susunan operator training dan
testing ditunjukkan pada Gambar 19. Kemudian model dieksekusi sehingga
didapat hasil kinerja model seperti pada
Gambar 23 didapat akurasinya 57,91%.

Gambar 19. Susunan Operator Rule Induction


Gambar 23. Hasil Pengukuran Linear
Kemudian model dieksekusi sehingga Regression
didapat hasil kinerja model seperti pada
Gambar 20 didapat akurasinya 62,03%. Linear Discriminant Analysis (LDA)
Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Karena
Linear Regression tidak mendukung masukan
nominal, maka dikonversi menggunakan
Gambar 20. Hasil Pengukuran Rule Induction
Nominal to Numeric. Kemudian keluarannya
dihubungkan ke Validation (X-Validation)
dengan 10-fold cross validation. Susunan
Linear Regression (LR)
operator ditunjukkan pada Gambar 24.
Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Karena
Linear Regression tidak mendukung masukan
nominal, maka dikonversi menggunakan
Nominal to Numeric. Kemudian keluarannya
dihubungkan ke Validation (X-Validation)
dengan 10-fold cross validation. Susunan Gambar 24. Susunan Validasi Linear
operator ditunjukkan pada Gambar 21. Discriminant Analysis

Untuk melatih dan menguji model di


bagian training diisi operator Linear
Discriminant Analysis, pada testing diisi
operator Apply Model dan Performance.
Susunan operator training dan testing
ditunjukkan pada Gambar 25.
Gambar 21. Susunan Validasi Linear
Regression

Untuk melatih dan menguji model di


bagian training diisi operator Linear
Regression, pada testing diisi operator Apply Gambar 25. Susunan Operator Linear
Model dan Performance. Susunan operator Discriminant Analysis

33
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

Kemudian model dieksekusi sehingga Support Vector Machine (SVM)


didapat hasil kinerja model seperti pada Dataset yang disimpan dalam format
Gambar 26 didapat akurasinya 31,44%. CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Karena
Linear Regression tidak mendukung masukan
nominal, maka dikonversi menggunakan
Nominal to Numeric. Kemudian keluarannya
dihubungkan ke Validation (X-Validation)
Gambar 26. Hasil Pengukuran Linear dengan 10-fold cross validation. Susunan
Discriminant Analysis operator ditunjukkan pada Gambar 30.

Neural Network (NN)


Dataset yang disimpan dalam format
CSV (Comma Separated Value) dibuka
menggunakan operator Read CSV. Karena
Linear Regression tidak mendukung masukan
nominal, maka dikonversi menggunakan
Nominal to Numeric. Kemudian keluarannya Gambar 30. Susunan Validasi Support Vector
dihubungkan ke Validation (X-Validation) Machine
dengan 10-fold cross validation. Susunan
operator ditunjukkan pada Gambar 27. Untuk melatih dan menguji model di
bagian training diisi operator Support Vector
Machine, pada testing diisi operator Apply
Model dan Performance. Susunan operator
training dan testing ditunjukkan pada Gambar
31.
Gambar 27. Susunan Validasi Neural
Network

Untuk melatih dan menguji model di


bagian training diisi operator Neural Network,
pada testing diisi operator Apply Model dan
Performance. Susunan operator training dan
testing ditunjukkan pada Gambar 28.
Gambar 31. Susunan Operator Support Vector
Machine

Kemudian model dieksekusi sehingga


didapat hasil kinerja model seperti pada
Gambar 28. Susunan Operator Neural Gambar 32 didapat akurasinya 65,00%.
Network

Kemudian model dieksekusi sehingga


didapat hasil kinerja model seperti pada
Gambar 29 didapat akurasinya 55,56%.
Gambar 32. Hasil Pengukuran Support Vector
Machine

Pembahasan
Dari pengujian algoritma/model yang
Gambar 29. Hasil Pengukuran Neural diusulkan diperoleh ukuran akurasi seperti
Network ditunjukkan pada Tabel 3.

34
Aries Saifudin: Metode Data Mining untuk Seleksi Calon Mahasiswa pada Penerimaan Mahasiswa Baru di Universitas Pamulang

Jurnal Teknologi 10 (1) pp 25-36 © 2018

Tabel 3. Hasil Pengukuran Akurasi Journal of Data Mining & Knowledge


Algoritma/Model Management Process (IJDKP), 5(1), 15-27.
No Algoritma/model Akurasi doi:10.5121/ijdkp.2015.5102
Aggarwal, C. C. (2015). Data Mining: The
1 Naïve Bayes (NB) 60,85%
Textbook. Switzerland: Springer
2 k-Nearest Neighbor (k-NN) 57,25% International Publishing.
3 Random Forest (RF) 62,65% Al-Barrak, M. A., & Al-Razgan, M. S. (2015).
4 Decision Stump (DS) 62,65% Predicting Students’ Performance Through
5 Decision Tree (DT) 62,65% Classification: A Case Study. Journal of
6 Rule Induction (RI) 62,03% Theoretical and Applied Information
7 Linear Regression (LR) 57,91% Technology, 167-175.
Berndtsson, M., Hansson, J., Olsson, B., & Lundell,
8 Linear Discriminant 31,44%
B. (2008). Thesis Projects: A Guide for
Analysis (LDA) Students in Computer Science and
9 Neural Network (NN) 55,56% Information Systems (2nd ed.). London:
10 Support Vector Machine 65,00% Springer-Verlag.
(SVM) Bisri, A., & Wahono, R. S. (2015). Penerapan
Adaboost untuk Penyelesaian
Hasil pengukuran yang didapat Ketidakseimbangan Kelas pada Penentuan
divisualisasikan dalam grafik batang 3D Kelulusan Mahasiswa dengan Metode
seperti pada Gambar 33. Decision Tree. Journal of Intelligent
Systems, 1(1), 27-32.
Dawson, C. W. (2009). Projects in Computing and
Information Systems A Student’s Guide (2nd
ed.). Great Britain: Pearson Education.
Korb, K. B., & Nicholson, A. E. (2011). Bayesian
Artificial Intelligence (2nd ed.). Florida:
CRC Press.
Kotu, V., & Deshpande, B. (2015). Predictive
Analytics and Data Mining. Concepts and
Practice with RapidMiner. Massachusetts:
Elsevier Inc.
Larose, D. T., & Larose, C. D. (2015). Data Mining
and Predictive Analytics (2nd ed.). New
Jersey: John Wiley & Sons, Inc.
Latif, A., Choudhary, A. I., & Hammayun, A. A.
(2015). Economic Effects of Student
Gambar 33. Visualisasi Akurasi Dropouts: A Comparative Study. Journal of
Algoritma/Model Global Economics, 3(2), 1-4.
doi:10.4172/2375-4389.1000137
Dari hasil pengukuran diperoleh model Manhães, L. M., Cruz, S. M., & Zimbrão, G.
terbaik yaitu Support Vector Machine (SVM) (2014). Evaluating Performance and
dengan akurasi 65.00%. Tetapi akurasi ini Dropouts of Undergraduates using
masih jauh dari nilai excellent (sangat baik). Educational Data Mining. Data Mining for
Educational Assessment and Feedback
(ASSESS 2014) (pp. 1-7). New York:
KESIMPULAN
Aspiring Minds.
Berdasarkan hasil implementasi dan
Nurhayati, S., Kusrini, & Luthfi, E. T. (2015).
pengukuran algoritma/model yang diusulkan Prediksi Mahasiswa Drop Out menggunakan
diperoleh algoritma/model terbaik, yaitu Metode Support Vector Machine. Jurnal
Support Vector Machine (SVM) dengan Ilmiah SISFOTENIKA, 5(1), 82-93.
Pal, S. (2012). Mining Educational Data Using
akurasi 65.00%. Tetapi akurasi ini masih jauh Classification to Decrease Dropout Rate of
dari nilai excellent (sangat baik). Students. International journal of
multidisciplinary sciences and engineering,
DAFTAR PUSTAKA 3(5), 35-39.
Abu-Oda, G. S., & El-Halees, A. M. (2015). Data Rai, S., Saini, P., & Jain, A. K. (2014). Model for
Mining in Higher Education: University Prediction of Dropout Student Using ID3
Student Dropout Case Study. International Decision Tree Algorithm. International

35
Jurnal Teknologi Volume 10 No. 1 Januari 2018 ISSN : 2085 – 1669
Website : jurnal.umj.ac.id/index.php/jurtek e-ISSN : 2460 – 0288

Journal of Advanced Research in Computer Akademi di Semarang. Holistic Journal of


Science & Technology (IJARCST 2014), Management Research, 3(2), 77-92.
2(1), 142-149. Yasmiati, Wahyudi, & Susilo, A. (2017).
Refaeilzadeh, P., Tang, L., & Liu, H. (2009). Cross- Pengembangan Aplikasi Data Mining
Validation. In L. Liu, & M. T. Özsu, dengan Algoritma C4.5 dan Apriori di
Encyclopedia of Database Systems (pp. 532- Fakultas Teknologi Informatika Universitas
538). Arizona: Springer US. Respati Indonesia. Jurnal Teknologi, 9(1),
Sherrill, B., Eberle, W., & Talbert, D. (2011). 31-41.
Analysis of Student Data for Retention Yukselturk, E., Ozekes, S., & Türel, Y. K. (2014).
Using Data Mining Techniques. 7th Annual Predicting Dropout Student: An Application
National Symposium on Student Retention of Data Mining Methods in an Online
(pp. 65-66). Charleston: C-IDEA. Education Program. European Journal of
Siri, A. (2015). Predicting Students’ Dropout at Open, Distance and e-Learning, 17(1), 118-
University Using Artificial Neural 133. doi:10.2478/eurodl-2014-0008
Networks. Italian Journal of Sociology of Zhang, H., & Wang, Z. (2011). A Normal
Education, 7(2), 225-247. Distribution-Based Over-Sampling
doi:10.14658/pupj-ijse-2015-2-9 Approach to Imbalanced Data Classification.
Vercellis, C. (2009). Business Intelligence- Data Advanced Data Mining and Applications -
Mining and Optimization for Decision 7th International Conference (pp. 83-96).
Making. West Sussex: John Wiley & Sons. Beijing: Springer.
Wahyudin, N. (2015). Analisis Faktor-Faktor yang
Mempengaruhi Keunggulan Bersaing untuk
Meningkatkan Kinerja Perguruan Tinggi
Swasta (PTS) pada Sekolah Tinggi dan

36

Anda mungkin juga menyukai