Anda di halaman 1dari 12

Naïve Bayes dan Filtering Feature Selection Information Gain

untuk Prediksi Ketepatan Kelulusan Mahasiswa

Ade Ricky Rozzaqi


Program Studi Informatika, Fakultas Teknik, Universitas PGRI Semarang
Gedung Utama Lantai 3, Kampus 1 Jl. Sidodadi Timur 24, Semarang
Email: nikil.arorr988@gmail.com

ABSTRACT - Student graduation rates is very important for the prestige of the
university, student graduation rates also affect the value of accreditation a college itself,
because it's by research on graduation prediction becomes very interesting to study, in this
study, researchers tried to compare the two algorithms namely Naïve Bayes classification
algorithm and algorithm feature Selection Information gain to obtain the highest accuracy
results and outcomes AUC values were high.
Inthis research, the processing stage by using two methods : the method that only uses
Naïve Bayesalgorithm, and amethodto compare the two algorithms namely Naïve Bayes
algorithm and algorithm Feature Selection Information Gain.
The results showed that the highest accuracy is obtained with a method that combines
Naïve Bayes algorithm and algorithm Feature Selection Information Gain to obtain the valueof
up to 89,79 % forthe use of 3 attributes, and in creased AUC increased by 3 attributes.

Keyword: Prediction graduation, naïve Bayes, Feature Selection Information Gain.

ABSTRAK - Tingkat kelulusan mahasiswa merupakan hal sangat penting untuk prestise
suatu perguruan tinggi, tingkat kelulusan mahasiswa juga berpengaruh terhadap nilai akreditasi
suatu perguruan tinggi itu sendiri, oleh karna itu penelitian tentang prediksi kelulusan menjadi
hal yang sangat menarik untuk diteliti, dalam penelitian ini peneliti mencoba
mengkomparasikan 2 algoritma yaitu algoritma klasifikasi Naïve Bayes dan algoritma Fitur
Selection Information Gain untuk memperoleh hasil akurasi nilai tertinggi dan hasil AUC yang
tinggi.
Dalam penelitian ini dilakukan tahap pengolahan dengan menggunakan dua metode yaitu:
metode yang hanya menggunakan algoritma Naïve Bayes,dan metode yang mengkomparasikan
dua algoritma yaitu algoritma Naïve Bayes dan algoritma Fitur Selection Information Gain.
Hasil penelitian menunjukan bahwa nilai akurasi tertinggi diperoleh dengan metode yang
menggabungkan antara algoritma Naïve Bayes dan algoritma Fitur Selection Information Gain
dengan memperoleh nilai hingga 89,79 % untuk penggunaan 3 atribut, dan peningkatan AUC
meningkat dengan 3 atribut.

Kata Kunci: Prediksi kelulusan, naïve bayes, Fitur Selection Information Gain.

30
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

PENDAHULUAN tinggi dll, adapun fasilitas yang di


Latar Belakang Masalah magsudkan disini adalah fasilitas yang
Pendidikan adalah suatu aktivitas kaitannya dengan fasilitas penunjang
sosial yang memungkinkan masyarakat tetap kegiatan belajar, fasilitas penunjang
ada dan berkembang[1]. Jenjang pendidikan kemudahan dalam mengexpresikan kegiatan
perguruan tinggi menjadi salah satu mahasiswa. Hal ini dianggap penting
persyaratan dasar dalam mencari pekerjaan, kepentingan untuk persaingan menarik minat
dimana perguruan tinggi akan calon mahasiswa baru, apalagi kaitanya
mempersiapkan calon-calon sarjana yang dengan persentasi kelulusan mahasiswa.
berkualitas dan mempunyai keterampilan Sebuah perguruan tinggi berada dalam
dibidangnya. Tentunya dalam pencapaian lingkungan kompetitif yang sangat tinggi dan
gelar kesarjanaan tersebut membutuhkan bertujuang untuk menghasilkan keuntungan
waktu normal selama 4 tahun. Akan tetapi yang lebih kompetitif melalui persaingan
dalam praktiknya banyak mahasiswa tidak kompetisi bisnis lainnya.Dimana semua
selalu dapat menuntaskan studinya selama perguruan tinggi harus meningkatkan
waktu normal yang telah ditentukan. Banyak kualitas layanan mereka untukmendapatkan
faktor yang menyebabkan ketidaktepatan pengakuan pelayanan yang baik dimata
waktu kelulusan mahasiswa tersebut, faktor- masayarakat khususnya calon mahasiswa
faktor tersebut dapat bersumber dari faktor baru.Dimana mereka menganggap
internal dan faktor eksternal mahasiswa dan dosen sebagai asset utama
Masa proses mahasiswa merupakan mereka dan mereka ingin terus meningkatkan
masa proses yang penting kaitanya dalam indikator-indikator kunci mereka dengan
proses pengembangan intelektual personal menggunakan asset secara efektif dan
untuk menghadapi tantangan dunia luar, efisien[4]. Dalam Sistem pendidikan
mahasiswa juga merupakan komponen mahasiswa adalah asset penting bagi sebuah
penting dalam sebuah Negara mengingat institusi pendidikan untuk itu perlu
mahasiswa sebagai unsur intelektual dalam diperhatikan tingkat kelulusan mahasiswa
suatu Negara. tepat pada waktunya.
Adapun pengertian mahasiswa dalam Untuk meningkatkan tingkat kelulusan
hal ini yaitu Mahasiswa dalam peraturan untuk berbagai alasan dikemukakan oleh
pemerintah RI No.30 tahun 1990 adalah pengurus/pejabat sekolah,dari mulai misi
“peserta didik yang terdaftar dan belajar di masing-masing sekolah untuk mendidik
perguruan tinggi tertentu”[2]. Perguruan siswa (yaitu menghasilkan lulusan) yang
tinggi merupakan satuan pendidikan yang menjadi anggota produktif masyarakat dan
menjadi terminal terakhir bagi seseorang berkontribusi terhadap kesejahteraan
yang berpeluang belajar setinggi-tingginya ekonomi bangsa. bahkan, masing-masing
melalui jalur pendidikan sekolah[3]. Untuk sekolah tahu bahwa jumlah siswa yang putus
tujuan memikat peminat perguruan tinggi diterjemahkan sebagai hilangnya pendapatan
tersebut, perguruan tinggi sanggat dituntut bagi lembaga[5]. Penilaian publik terhadap
kualitasnya berdasarkan SDM maupun kredibilitas sekolah atau institusi pendidikan
Fasilitasnya. Adapun SDM yang sangat erat kaitannya dengan ketepatan
dimaksudkan disini adalah tenaga kelulusan siswanya, sehingga berbagai upaya
pendidik,kebijakan kebijakan yang dilakukan sebuah sekolahan/kampus untuk
diluarkanoleh pejabat structural Perguruan mendapatkan hasil yang maksimal kaitanya

31
dengan ketepatan kelukusan siswa. yaitu “sukses” yakni mahasiswa yang lulus
Ketepatan kelulusan siswa juga sangat tepat waktu dan “gagal” bagi mahasiswa
berpengaruh pada perbandingan rasio yang lulus terlambat.
siswa/mahasiswa dengan guru/dosen. Dalam hal pengelolahan data siswa
Kelulusan tepat waktu menjadi hal atau mahasiswa untuk mempediksi, telah
yang sangat penting dan hal ini menjadi isu diselesaikan dengan metode yang berbeda-
kebijakan yang diprioritaskan, bahkan beda yaitu menggunakan metode neural
menurut Qurdi“Tingkat kelulusan dianggap network[5], decision tree[4], naïve bayes[7],
sebagai salah satu efektivitas kelembagaan” dan masih bayak lagi.
[6]. Tingkat penurunan kelulusan mahasiswa
yang signifikan dan terus berkembang TujuanPenelitian
merupakan sebuah masalah yang ada pada Tujuan Penelitian ini adalah
perguruan tinggi.Maka dari itu pemantauan mengetahui Bagaimana tingkat akurasi dan
atau evaluasi terhadap kecenderungan efiensi penelitian yang hanya menggunakan
mahasiswa lulus tepat waktu atau tidak metode dengan algoritma Naïve Bayes dan
menjadi sangat sangat vital dan hal ini penelitian yang menggunakan metode naive
menjadi tugas semua bagi semua pegawai bayes denganFeature Selection Information
suatu perguruan tinggi, sehingga Gain
pemaksimalan kinerja harus dilakukan. Salah
satu pemaksimalan kinerja yang harus LANDASAN TEORI
dilakukan adalah pemantauan kinerja yang Kelulusan Mahasiswa
melibatkan penilaian yang melayani peran Mahasiswa merupakan masyarakat
penting dalam menyediakan informasi yang kalangan elite dimana mahasiswa
diarahkan untuk membantu siswa atau mempunyai ciri intektualitas yang lebih
mahasiswa, guru atau dosen, administrator, komplek dibandingkan kelompok seusia
dan pembuat kebijakan mengambil mereka yang bukan mahasiswa, ataupun
keputusan [6]. kelompok usia dibawah dan diatas mereka.
Dari uraian di atas, sangat jelas bahwa “Ciri intelektualitas tersebut adalah
melakukan prediksi kelulusan merupakan hal kemampuan mahasiswa menghadapi,
yang penting bagi institusi dan berpotensi memahami dan mencari cara pemecahan
besar bagi institusi untuk menentukan masalah secara lebih sistematis” [8]. Dalam
kebijaksaan strategis bagi institusinya. Oleh setiap fakultas ataupun jurusan pada suatu
karena itu mengidentifikasi mahasiswa universitas sangat jarang sekali bahkan tidak
mejadi jalan keluar untuk mengatasi pernah terjadi dimana jumlah mahasiwa yang
permasalahan ini, Setelah mengidentifikasi masuk dan terdaftar sama dengan jumlah
mahasiswa yang berpotensi beresiko dimana nantinya mahasiswa harus lulus
ketepatan waktu kelulusannya, maka intitusi (ketepatan waktu lama studi).
bisamenggunakan mekanisme pendukung Ketepatan masa studi mahasiwa adalah
seperti orientasi, menasihati, monitoring, dan hal yang sangat penting untuk diperhatikan,
lain-lain untuk meningkatkan kekurangan hal ini dikeranakan penurunan jumlah
kekurangan dari hasil indentifikasi yang kelulusan akan menghilangkan jumlah
dilakukan untuk bias meningkatkan pendapatan institusi dan mempengaruhi
ketepatan waktu lama studi. Tugas prediksi penilaian pemerintah serta memperngaruhi
dapat dianggap sebagai menjadi dua kelas status akreditasi institusi [5]. Menurut

32
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

Suhartinah & Ernastuti ada Beberapa faktor Algoritma naïve bayes


yang dapat mempengaruhi kelulusan Klasifikasi Bayesian merupakan teknik
mahasiswa antara lain adalah nilai akhir prediksi berbasis probabilistic sederhana
SMA, Indeks Prestasi Semester (IPS), gaji yang berdasar pada teorema Bayes (aturan
orang tua dan pekerjaan orang tua[7]. bayes) dengan asumsi independensi (tidak
Suatu perguruan tinggi biasanya ketergantungan). Yang kuat (naïf) dengan
menggunakan indeks prestasi sebagai kata lain naïve bayes merupkan model yang
penilaian akademik, banyak universitas menggunakan “model feature independen”
memberi standar minimum yang sulit di Dalam naïve bayes, hal yang
peroleh mahasiswa[10]. Banyak variabel dimagsudkan dari independensi yang kuat
yang dapat digunakan dalam prediksi pada feature adalah bahwa sebuah fitur
kelulusan mahasiswa seperti umur, status sebuah data tidak berkaitan dengan ada atau
pernikahan, jumlah saudara.[11] Pada tidaknya fitur lain dalam data yang sama,
penenlitian ini parameter yang digunakan contoh pada kasus klasifikasi pada hewan
adalah jenis kelamin, Program Studi, SKS dengan atribut, daun telinga, melahirkan,
semester 1 (satu) sampai SKS semester satu berat dan menyusui. Dalam kenyataannya
6 (Enam), jenis kelamin, IP (Indeks hewan yang berdaun telinga dan menyusui
Prestasi)semester satu sampai IP (Indeks biasanya berkembang biak dengan beraanak
Prestasi)semester 6 (Enam). seperti monyet, babi, kambing , kuda dll,
sebaliknya hewan yang tdk berdaun telinga
Data mining dan tidak menyusui biasanya berkembang
Menurut Witten Data Mining dapat biak dengan bertelur seperti ular, burung,
difenisikan sebagai “proses penemuan pola kadal dll. Disini ada ketergantungan pada
dalam data”. Dan bila menurut Daryl Atribut menyusui , berdaun telinga biasanya
Pregibons dalam [12] “Data mining adalah melahirkan sebaliknya juga sama. Dalam
perpaduan dari ilmu statistik, kecerdasan bayes, hal tersebut tidak dipandang sehingga
buatan, dan penelitian bidang database”. masing-masing fitur seperti tidak mempunyai
Nama data mining berawal dari kemiripan hubungan.
antara pencarian informasi yang bernilai dari
database yang besar dengan menambang Feature SelectionInformation Gain
sebuah gunung untuk sesuatu yang Pada bagian ini algoritma yang dipakai
bernilai[13]. Diman keduanya memerlukan dalam seleksi fitur dibahas secara singkat.
filtering melalui sejumlah besar atribut, atau Seleksi fitur, kita bias deskripsikan dengan
melakukan penyelidiki dengan cerdas untuk cara formal sebagai berikut: suatu masalah
mencari keberadaan sesuatu yang bernilai. dengan banyak fitur fi ∈ n dengan
Istilah lain dari data menurut Han[14] yaitu F={f1,f2,..,fk}, bila fitur bernilai riil (R) bisa
“knowledge mining from databases, dinyatakan sebagai satu himpunan contoh
knowledge extraction, data/pattern analysis, subset V={v1,v2,..vn} dengan n < k
data archeology, dan data dredging”. Banyak merupakan subset kelas C dengan klasifier
yang menggunakan data mining sebagai 𝐾: 𝑅 𝑘 → 𝐶didefinisikan sebagai:
istilah popular dari KDD. ∀ vi ∈ Vi, j∈ (1,..,k), vi,j ∈ fj…………… (1)
Information gain adalah ukuran
simetris, yaitu jumlah informasi yang
diperoleh Y setelah mengamatai X adalah

33
sama dengan jumlah informasi yang Tabel 3 10-fold cross validation
diperoleh X setelah mengamati Y. Simetrical
adalah properti yang diinginkan untuk
mengukur feature - feature yang saling
berkorelasi. Rumus untuk menghitung
koefisien symetrical uncertainty
Symetrical uncertainty
gain
2x[H y +H X
]… ………… ……… (2)
Information gain (IG) mengukur
jumlah informasi dalam bit tentang prediksi
kelas, jika satu-satunya informasi yang
tersedia adalah adanya feature dan distribusi
kelasnya. Konkretnya, mengukur
Kurva ROC
pengurangan diharapkan dalam entropi
Untuk dapat melihat akurasi secara
(ketidakpastian yang berhubungan dengan
manual dilakukan perbandingan klasifikasi
feature yang acak)[29] mengingat Sx untuk
menggunakan kurva ROC hasil eksperesi
set sampel uji SXi = xv |/|SX | adalah contoh
dari confusion matrix. Kurva ROC
fungsi dari Sx dimana ith yang mempunyaio
menghasilkan dua garis dengan bentuk true
nilai variabel
positives sebagai garis vertical dan false
v: IG SX,Xi = positives sebagai garis horizontal. Kurva
H SX − ROC adalah grafik antara sensitifitas (true
|S X 1 =v |
|S X | positives rate) pada sumbu Y dengan 1-
v=values (X i
H SXi =v with entropy..3)..........
spesifisitas pada sumbu X (false positives
....3 rate), kurva ROC ini seakan-akan
menggambarkan tawar menawar antara
Pengujian 10-Fold Cross Validation sumbu Y atau sensitifitas dengan sumbu X
Cross validation adalah metode atau spesifisitas. Nilai dari kurva ROC ini
pengamatan dalam kumpulan data yang akan diharapkan mempunyai nilai akurat dalam uji
digunakan untuk pengujian dan pelatihan, kuantitas dalam sebuah pengujian antara
tetapi tidak pada waktu yang sama. Sebagai kasus.
contoh, cross validation 5% berarti bahwa, AUC memiliki nilai antara 0,0 dan 1,0
untuk setiap model, 5% dari kumpulan data dengan tingkat keakuratan klasifikasi sebagai
akan disisihkan untuk pengujian dan 95% berikut:
sisanya akan digunakan untuk membangun 0,90 – 1,00 = sangat baik
model [16]. Secara umum pengujian nilai k 0,80 – 0,90 = baik
dilakukan sebanyak 10 kali untuk 0,70 – 0,80 = sama
memperkirakan akurasi estimasi.Dalam 0,60 – 0,70 = rendah
penelitian ini nilai k yang digunakan 0,50 – 0,60 = gagal
berjumlah 10 atau 10-fold Cross Validation.
HASIL DAN PEMBAHASAN
Hasil
Tujuan dari penelitian ini adalah
menerapkan Algoritma Naïve Bayes dengan

34
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

Algoritma Fitur Selection Information Gain perhitungan manual, akan teteapi dalam
untuk prediksi kelulusan mahasiswa, yang perhitungan manual ini tidak bisa di jadikan
nantinya akan diteliti antara metode pertama acuan dalam penelitian ini hal ini
(algoritma naïve bayes) dengan metode ke dikarenakan hasil yang akan didapatkan akan
dua (Information Gain dan Naïve Bayes) berhubungan dengan jumlah total data yang
untuk prediksi kelulusan sehingga nanti akan akan dihitung.
membandingkan dua metode ini untuk Langkah pertama yang dilakukan
memperoleh akurasi dan AUC yang adalah menghitung Probabilitas pada tabel
tertinggi. data hitung manual, adapun pengertian
Maka diharapkan dengan probabilitas adalah suatu nilai untuk
menggunakan algoritma fitur selection mengukur tingkat kemungkinan terjadinya
Information Gain dan algoritma Naïve bayes suatu kejadian yang tidak pasti. (Johannes
diharapkan akan bisa meningkatkan hasil Supranto,2005), berikut adalah perhitungan
akurasi dan Area Under Curve (AUC) yang dilakukan secara manual untuk
menghitung probabilitas prior Untuk
Pembahasan menghitung probabilitas suatu kejadian
Perhitungan Data Mining Algoritma Naïve adalah dengan cara mencari banyaknya
Bayes anggota kejadian, dibandingkan dengan
Berikut Penggunaan metode Naïve banyaknya anggota ruang
Bayes menggunakan data yang telah diacak
yang memang disiapkan untuk dilakukan

Tabel 4 data training dan data testing di pilih secara acak (data hitung manual)

Menghitung jumlah kelas dari tahun lulus berdasarkan klasifikasi yang terbentuk (prior
probability) :
1. C1 (Keterangan kelulusan = “Tepat”) = jumlah “Tepat” pada kolom Keterangan Tahun
Lulus = 17/20 = 0,85

35
2. C2 (Keterangan kelulusan = “Terlambat”) = jumlah “terlambat” pada kolom Keterangan
Tahun Lulus = 3/20 = 0,15

Menghitung jumlah kasus yang sama pada setiap atribut dari keterangan (yes / no ) berdasarkan
data hitung.
Misal kolom jurusan :
1. C1 (PPKN = “Tepat”) = jumlah “Tepat” pada kolom Keterangan Tahun Lulus = 18/18 = 1
2. C2 (PPKN = “Terlambat”) = jumlah “terlambat” pada kolom Keterangan Tahun Lulus =
0/20 = 0

(Hitung Probabilitas dari Seluruh Atribut progdi, SKS semester 1 samapai 6, IPK semester 1
sampai semester 6 ).
Tabel 5 Probailitas keseluruhan data hitung

Langkah selanjutnya adalah kalikan semua hasil variabel


Untuk semua atribut berketerangan = “Tepat”
 P (X | Class Tahun Lulus = “yes”)

36
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

= 1 X 0,5 X 0,85 X 0,875 X 1 X 0 X 0,895 X 0 X 0 X 1 X 0,714X 1 X 0,7 X 0,818 X 1 X 0,667


X 0,667 X 0,875 X 0,889 X 0,846 X 0,833 X 1 X 0,833 X 1 X 0,833 X 0,944 X 0,5 X 0,833X
0,9 X 0,75 X 0,929 X 0 X 0,8
=0
 Untuk semua atribut berketerangan = “Terlambat”
P ( X | Class Tahun Lulus = “no”)
= 0 X 0,5 X 0,15 X 0,125 X 0 X 1 X 0,105 X 1 X 1 X 0 X 0,286 X 0 X 0,3 X 0,182 X 0 X
0,333X 0,333X 0,125 X 0,111X 0,154 X 0,167 X 0 X 0,167 X 0 X 0,167 X 0,111 X 0,5 X
0,167 X 0,1 X 0,25 X 0,071 X 1 X 0,2
=0
 Perkalian prior probability dengan semua atribut Keterangan kelulusan = “Tepat”
P (Ci) | Keterangan kelulusan = “Tepat”) x P(X| Keterangan kelulusan = “Tepat”)
= 0,85 x 0
=0
 Perkalian prior probability dengan semua atribut Class Tahun Lulus =”Terlambat”
P (Ci) | Keterangan kelulusan = “Terlambat”) x P(X| Keterangan kelulusan = “Terlambat”)
= 0,15 x 0
=0
 Bandingkan hasil kelas
P (Ci) | Keterangan kelulusan = “Tepat”) P(X| Keterangan kelulusan = “Tepat”) = P (Ci) |
Keterangan kelulusan = “Terlambat”) P(X| Keterangan kelulusan = “Terlambat”)
Kesimpulan :
(Perhitungan antara perkalian Keterangan kelulusan “Tepat” dengan Keterangan kelulusan
“Terlambat” menunjukkan bahwa nilai Keterangan kelulusan = “Terlambat” sama besar
dibandingkan Keterangan kelulusan “Tepat”).

Implementasi dengan RapidMiner akan dipake, adapun perhitungan formula


Jumlah data yang sangat banyak dari algoritma information gain
menuntut peneliti untuk menggunakan tools 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑠 = 𝑛𝑖=𝑛 −𝑝𝑖. 𝑙𝑜𝑔2 . 𝑝𝑖 ……..(4)
pembantu yang nantinya akan mempermudah jika diterapkan pada data yang telah di
peneliti dalam menghitung seluruh data. Oleh ambil secara acak sesuai perbandingan
karna itu penulis menggunggunakan tools presentasi dari attribute jurusan yang terdapat
RapidMiner. bada hitungan manual seperti pada lampiran.
Berikut adalah hasil pengolahan data Sebelum sebelum menghitung
dengan menggunakan naïve bayes pada algoritma Information Gain terlebeh dahulu
Rapid Miner : peneliti harus mengetahui nilai entropy
Tabel 6 Hasil akurasi dan AUC dari RapidMiner masing-masing, adapun formula entropy itu
dengan Naïve Bayes Naïve bayes sendiri yaitu :
𝑛
𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑠 = −𝑝𝑖. 𝑙𝑜𝑔2 . 𝑝𝑖
𝑖=𝑛
𝑛
𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑠 = −𝑝𝑖. 𝑙𝑜𝑔2 . 𝑝𝑖
𝑖=𝑛
78 78
𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑠 = − 𝑙𝑜𝑔2 X
Information Gain 98 98
Informasi gain adalah suatu algoritma 20 20
+ (− 𝑙𝑜𝑔2 X )
fitur seleksi dimana algoritma ini nantinya 98 98
yang akan menentukan jumlah atribut yang 𝑡𝑟𝑜𝑝𝑦 𝑠 = 0,730017

37
Setelah hasil entropy keluar maka 6
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 0.730017 − { X 0,918296
barulah memasukan nilai entropy dan data 98
4
acak tersebut kedalam rumus formula + X0,811278
98
information gain, yaitu: 13
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 𝑠 + X0,391244
98
𝑛 |𝑆𝑖| 15
− ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) + X0,353359
𝑖=𝑛 |𝑠| 98
5
+ X0,721928
98
8
+ X0,543564
98
14
+ X0,371232
98
4
+ X0,811278
98
17
+ X0,522559
98
12
+ X0,811278 }
98
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 0,730017 −0,552661
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 0,177355

Tabel 7 Nilai entropy dan gain untuk menentukan simpul akar

38
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

Dari hasil perhitungan entropy dan Untuk pengujian data keseluruhan


gain yang didapat pada Tabel 4.1, terlihat peneliti menggunakan tool RapidMiner hal
bahwa atribut SKS Semester 1 yang ini dilakukan untuk mempermudah penelitian
mempunyai nilai gain tertinggi yaitu dikarenakan jumlah data set yang terbilang
0,730017. Oleh karena itu maka SKS cukup besar yaitu 1920 data mahasiswa.
Semester 1 merupakan simpul akar pada Hasil dari pengolahan RapidMiner
pohon keputusan. diperoleh hasil sebagai berikut

Tabel 6 Perbandingan nilai akurasi dan AUC dua metode

true true class


“ METODE acurasi AUC
tepat terlambat prediction

pred.tepat 1349 104 92.84% 0.864 (positive


NAÏVE
1 83% prediksi terlambat 221 246 52.68% class:
BAYES
class recall 85.92% 70.29% Terlambat)
pred.tepat 1527 166 90.19% 0.846 (positive
K=2 89% prediksi terlambat 43 184 81.06% class:
INFORMATION GAIN DAN NAÏVE BAYES

class recall 97.26% 52.57% Terlambat)


pred.tepat 1516 142 91.44% 0.875 (positive
K=3 89.79% prediksi terlambat 54 208 79.39% class:
class recall 96.56% 59.43% Terlambat)
pred.tepat 1449 134 91.54% 0.868 (positive
K=4 86.72% prediksi terlambat 121 216 64.09% class:
class recall 92.29% 61.71% Terlambat)
pred.tepat 1408 125 91.85% 0.865 (positive
K=5 85.05% prediksi terlambat 162 225 58.14% class:
class recall 89.68% 64.29% Terlambat)
pred.tepat 1387 108 92.78% 0.874 (positive
K=6 85% prediksi terlambat 183 242 56.94% class:
class recall 88.34% 69.14% Terlambat)
pred.tepat 1383 105 92.94% 0.874 (positive
K=7 84.79%
prediksi terlambat 187 245 56.71% class:

39
class recall 88.09% 70.00% Terlambat)
pred.tepat 1375 104 92.97% 0.865 (positive
K=8 84% prediksi terlambat 195 246 55.78% class:
class recall 87.58% 70.29% Terlambat)
pred.tepat 1364 101 93.11% 0.866 (positive
K=9 84.01% prediksi terlambat 206 249 54.73% class:
class recall 86.88% 71.14% Terlambat)
pred.tepat 1355 102 93.00% 0.865 (positive
K=10 83.49% prediksi terlambat 215 248 53.56% class:
class recall 86.31% 70.86% Terlambat)
pred.tepat 1355 103 92.94% 0.865 (positive
K=11 83.44% prediksi terlambat 215 247 53.46% class:
class recall 86.31% 70.57% Terlambat)
pred.tepat 1349 104 92.84% 0.864 (positive
K=12 83.07% prediksi terlambat 221 246 52.68% class:
class recall 85.92% 70.29% Terlambat)
pred.tepat 1349 104 92.84% 0.864 (positive
K=13 83.07% prediksi terlambat 221 246 52.68% class:
class recall 85.92% 70.29% Terlambat)

Dari hasil tabel diatas dari mulai tabel Dari hasil penelitian ini dapat di
hasil pengolahan yang haya menggunakan simpulkan bahwa algoritma naïve bayes dan
algoritma Naïve Bayaes dan Naive Bayes metode filtering feature selection information
yang menggunakan Fitur Selection gain berpengaruh pada akurasi dan AUC
Information Gain. Maka bisa dilihat untuk prediksi kelulusan mahasiswa.
perolehan akurasi yang tertinggi dan AUC
yang tertinggi, seperti pada tabel berikut Saran
Dari hasil penelitian yang telah
PENUTUP dilakukan maka muncul gagasan-gagasan
Kesimpulan yang dirangkum dalam usulan dan saran
Setelah dilakukan penelitian ini yaitu untuk penelitian yang berhubungan dengan
membandingkan penggunaan yang hanya prediksi kelulusan, antara lain:
menggunakan algoritma Naïve Bayes dengan 1. Dalam Penelitian prediksi hendaknya
penggunaan algoritma information gain dan pemilihan data dilihat nilai homogennya
Naïve bayes untuk prediksi kelulusan maka terlebih dahulu, karna dalam penelitian ini
diperoleh hasil akurasi tertinggi dengan pengambilan data traning terlalu complex,
menggunakan metode algoritma information hal ini nantinya akan sangat
gain dan naïve bayes sesuai pada tabel 9 mempengaruhi akurasi
yaitu perbandingan nilai akurasi dan AUC, 2. Dalam melakukan penelitian yang
dengan nilai akuras tertinggi 89,79 % dengan berkaitan dengan prediksi haruslah
menggunakan K=3, dan AUC tertinggi di memilah algoritma yang sesuai dengan
peroleh hasil 0,875 dengan K=3 jenis data (algoritmayang menyesuaikan
data).

40
Naïve Bayes dan Filtering Feature Selection Information Gain ... Ade Ricky Rozzaqi

DAFTAR PUSTAKA [10] Oyelade, A. J., Oladipupo, O. O., &


[1] Brameld, T. 1999. Dasar Konsep Obagbuwa, I. C. (2010). Application of
Pendidikan Moral. ALFABETA: kmeans Clustering algorithm for
Jakarta. predicting of Students Academic
[2] Peraturan pemerintah republik Performace. International Journal of
Indonesia no 66 tahun 2010 tentang Computer Science and Information
perubahan atas peraturan pemerintah Security , 292-295.
no 17 tahun 2010 tentang pengolahan [11] Yingkuachat, J., Praneetpolgrang, P.,
dan penyelenggara pendidikan. & Kijsirikul, B. (2007). An
[3] Nawawi, H., & M, M. (1994). Application Probabilitic Model to the
Kebijaksanaan Pendidikan di Prediction of Student Graduation
Indonesia di tinjau dari Sudut Hukum. Using Bayesian Belief Network. ECTI
Yogyakarta: Gajah Mada University Transaction on Computer and
Press. Technology, 63-71
[4] Qudri, M. N., & Kalyankar, N. V. [12] Gorunescu, Florin (2011). Data
(2010). Drop Out Feature of Student Mining: Concepts, Models, and
Data for Academic Performance Using Techniques. Verlag Berlin Heidelberg:
Decision Tree techniques. Global Springer
Journal of Computer Science and [13] Sumathi, & S., Sivanandam, S.N.
Technology , 2-4. (2006). Introduction to Data Mining
[5] Karamouzis, T. S., & Vrettos, A. and its Applications. Berlin Heidelberg
(2009). Sentivity Analysis of Neural New York: Springer
Network for Identifying the Factors for [14] Han, J.,&Kamber, M. (2006).Data
Collage Students Success. World Mining Concept and Tehniques.San
Congress on Computer Science and Fransisco: Morgan Kauffman.
Information Engineering , 978-0-7695- [15] Carlo Vercellis, Business Intelligence :
3507-4. Data Mining and Optimization for
[6] Ogor, E. N. (2007). Student Academic Decision Making. Milano, Italy: A
Performance Monitoring and John Wiley and Sons, Ltd.,
Evaluation Using Data Mining Publikation
Techniques. Fourth Congress of [16] Myatt, A Practical Guide To
Electronics, Robotics and Automotive Exploratory Data Analysis And Data
Mechanics . Mining. New Jersey: John Wiley &
[7] Suhartinah, S. M., & Ernastuti. (2010). Sons, 2007
Graduation Prediction of Gunadarma [17] Vercellis C, Business Intelligent: Data
University Students Using Algorithm Mining and Optimization for Decision
and Naive Bayes C4.5 Algoritmh Making. John Wiley & Sons, 2009
[8] Azwar, S. (2004). Penyusunan Skala
Psikologi. Yogyakarta: Pustaka
Pelajar.
[9] Siregar, A. R. (2006). Motivasi Belajar
Mahasiswa ditinjau dari Pola Asuh.
Medan: Usu Repository.

41

Anda mungkin juga menyukai