Anda di halaman 1dari 18

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN

MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS

MENGGUNAKAN METODE NAIVE BAYES

Makalah

Program Studi Teknik Informatika

Fakultas Komunikasi Dan Informatika

Diajukan Oleh :

Ahmad Fikri Mauriza


Yusuf Sulistyo Nugroho, S.T., M.Eng.

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS KOMUNIKASI DAN INFORMATIKA

UNIVERSITAS MUHAMMADIYAH SURAKARTA

JANUARI 2014
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
MAHASISWA FAKULTAS KOMUNIKASI DAN INFORMATIKA UMS
MENGGUNAKAN METODE NAIVE BAYES

Ahmad Fikri Mauriza, Yusuf Sulistyo Nugroho


Teknik Informatika, Fakultas Komunikasi dan Informatika,
Universitas Muhammadiyah Surakarta
Email : Ahmadfikrimauriza@gmail.com

ABSTRACT

Faculty of Communication and Informatics in UMS has 2358 students


and 388 graduated students. By the great numbers of new student each year,
therefore, automatically it will create a huge number of data and the data stored
in the database. Will increase significantly In order to make the big data to be a
very useful information, the writer used data mining technique to predict the
students length of study. It is to measure whether they can graduate less than or
equal to 4 years or more based on the atributte used. Naive bayes method is used
to analyze in the knowing of pattern and to predict the students graduation. The
data needed is data from the graduated students as data training while the data
from the active students is for testing data. Based on the result of prediction from
342 tested data sample, there are only 86 students who will graduate on time or
only 25,15 % and the students who will be postponed in graduation is 256
students or it reaches 74,85 % from the whole data sample.

Keywords : Data Mining, Naive Bayes, Prediction

ABSTRAK
Fakultas komunikasi dan informatika universitas muhammadiyah
surakarta memiliki jumlah 2358 mahasiswa dan memiliki lulusan 388 mahasiswa.
Dengan bertambah pesatnya jumlah mahasiswa baru setiap tahunnya maka
secara otomatis akan terciptanya data-data yang sangat banyak dan akan
bertambah melimpahnya data yang tersimpan dalam database. Agar data yang
awalnya sangat minim inoformasi tersebut dapat diubah menjadi suatu informasi
yang sangat bermanfaat dengan menggunakan teknik data mining. Salah satunya
dapat untuk memprediksi lama studi mahasiswa apakah dapat lulus kurang dari
sama dengan 4 tahun atau lebih dari 4 tahun berdasarkan atribut-atribut yang
digunakan. Metode naive bayes digunakan untuk menganalisis data dalam
pengenalan pola dan memprediksi kelulusan mahasiswa. Data yang dibutuhkan
adalah data-data mahasiswa yang sudah lulus sebagai data training sedangkan
data-data mahasiswa yang masih menempuh studi kuliah sebagai data uji.
Berdasarkan hasil prediksi dari jumlah 342 data sampel yang diuji hanya 86
mahasiswa yang akan lulus tepat waktu atau hanya sekitar 25,15 %, sedangkan
mahasiswa yang akan lulus terlambat berjumlah 256 mahasiswa mencapai
74,85% dari jumlah data sampel.

Kata Kunci : Data Mining, Naive Bayes, Prediksi

PENDAHULUAN informasi-informasi berharga tersebut


Universitas Muhammadiyah diperlukan adanya teknik data
Surakarta merupakan salah satu mining. Data mining adalah teknik
universitas yang ada di Indonesia untuk menemukan dan
yang terdiri beberapa fakultas. mendeskripsikan pola-pola yang ada
Fakulkas Komunikasi dan dalam data sebagai sebuah alat untuk
Informatika merupakan salah satunya membantu menjelaskan data tersebut
yang berada di Universitas dan membuat prakiraan dari data itu
Muhammadiyah Surakarta. Sampai (Witten & Eibe Frank, 2005).
bulan Oktober 2013 kini fakultas ini Dalam buku panduan
sudah memiliki 2358 mahasiswa akademik Fakultas Komunikasi dan
dengan jumlah lulusan 388 Informatika Universitas
mahasiswa. Jumlah tersebut sudah Muhammadiyah Surakarta tahun 2012
tidak kecil lagi bagi fakultas yang pada BAB 2 disebutkan bahwa
sudah berusia 7 tahun ini, Fakultas “beban mahasiswa program
tentu memiliki segudang data pendidikan strata satu (S-1) beban
mengenai mahasiswanya meliputi: studi harus ditempuh minimal 144
data induk mahasiswa dan data satuan kredit semester (SKS) dan
kelulusan mahasiswa. maksimal 148 satuan kredit semester
Bertumpuknya data-data ini (SKS), dengan batas waktu kurang
tentu belum digunakan secara optimal dari 8 semester dan waktu paling
padahal tumpukan-tumpukan data lama 14 semester”.
tersebut dapat dijadikan suatu Tujuan dari penelitian ini yaitu
informasi yang sangat berharga. memprediksi masa studi mahasiswa
Untuk membantu dalam menemukan di Fakultas Komunikasi dan
Informatika Universitas dari 8 semester dan waktu paling
Muhammadiyah Surakarta lama 14 semester. Mahasiswa
menggunakan metode Naive Bayes. dinyatakan lulus apabila ketentuan
diatas dilaksanakan dan tidak ada
LANDASAN TEORI tanggungan administrasi di biro
1. Prediksi adminitrasi akademik (BAA)
Prediksi adalah memperkirakan (Anonim, 2012).
sesuatu yang akan terjadi pada masa 3. Naive Bayes
yang mendatang. Prediksi didapatkan Naive Bayes merupakan
melalui metode ilmiah maupun hanya teknik prediksi berbasis probabilistik
subjektif belaka. Prediksi juga dapat sederhana yang berdasar pada
digunakan dalam pengklasifikasian, penerapan Teorema Bayes (atau
tidak hanya untuk memprediksi time aturan Bayes) dengan asumsi
series, karena sifatnya yang bisa independensi (ketidaktergantungan)
menghasilkan class berdasarkan yang kuat. (Prasetyo, 2012)
berbagai atribut yang kita sediakan
(Susanto, 2012). METODOLOGI PENELITIAN
2. Kelulusan Mahasiswa a. Penentuan Atribut
Kelulusan mahasiswa tanda Dalam memprediksi kelulusan
berakhirnya mahasiswa dalam mahasiswa maka diperlukan data-data
menyelesai pendidikan pada jenjang seluruh mahasiswa baik yang sudah
sarjana. Kelulusan juga merupakan lulus maupun yang belum lulus.
hasil akhir pencapaian yang Semua data-data diperoleh dari Biro
membanggakan dalam menempuh Administrasi Akademik (BAA) dan
suatu pendidikan pada jenjang Laboratorium Fakultas Komunikasi
tertentu. Beban mahasiswa program dan Informatika. Data yang
pendidikan strata satu (S-1) beban digunakan sebagai data training yaitu
studi harus ditempuh minimal 144 mahasiswa yang sudah lulus dari
satuan kredit semester (SKS) dan angkatan 2007 sampai angkatan 2009,
maksimal 148 satuan kredit semester sedangkan data yang digunakan
(SKS), dengan batas waktu kurang sebagai data uji yaitu mahasiswa yang
masih aktif mengikuti perkuliahan
diambil sampel secara acak. Atribut-
atribut yang akan digunakan yaitu:
(1)
Tabel 1 Daftar Atribut
Atribut Isi dalam Atribut- Bahwa :

Atribut n = jumlah sampel

Jurusan asal IPA, IPS dan Lain N = jumlah populasi

sekolah e = nilai toleransi


c. Diubah dalam format Arff
Gender Pria dan Wanita
Data-data yang telah diolah
Daerah asal Surakarta dan Luar
dalam microsoft excel kemudian
mahasiswa Surakarta
diubah ke dalam format Arff
Asal sekolah Surakarta dan Luar
(Attribute Relation File Format )
Surakarta
supaya dapat diolah dalam aplikasi
Rata SKS SKS ≤ 18 dan SKS
weka.
(satuan kredit > 18
d. Penggunaan Metode
semester)
Metode yang digunakan dalam
Rata MK MK ≤ 7 dan MK >
penelitian ini yaitu naive bayes untuk
(Mata kuliah) 7
memprediksi masa studi mahasiswa
Asisten Lab Ya dan Tidak
Fakultas Komunikasi dan
Lama studi Tepat (lulus ≤ 4
Informatika. Pemilihan metode ini
tahun) dan
dikarenakan relatif mudah digunakan
Terlambat (lulus >
karena tidak ada perkalian matrik atau
4 tahun)
optimasi numerik, lebih efisien
b. Penentuan sampel
apabila digunakan untuk memprediksi
Untuk menentukan jumlah
dalam jumlah yang sangat besar, dan
sampel yang akan digunakan dalam
memiliki tingkat keakurasian yang
menggambar dari jumlah populasi
relatif tinggi dalam hasil prediksi.
menggunakan bantuan metode slovin
Metode naive bayes juga sering
dengan nilai maksimal e = 5 %
disebut dengan algoritma HMAP
(Umar, 2004).
(Hypothesis Maximum Apriori
Probability) yang merupakan
penyederhanaan dari metode bayes.
Metode ini menyatakan hipotesa dari
penghitungan menggunakan n = 2358 / 1 + 2358 x (0,05)2
probabilitas berdasarkan kondisi prior n = 2358 / 1 + 2358 x 0,0025
(Prasetyo, 2012). n = 2358 / 1 + 5,895
n = 2358 / 6,895
n = 341,9869 mahasiswa
Jadi dibulatkan menjadi 342
(2) mahasiswa yang digunakan bahan
sampling untuk data uji.

HASIL DAN PEMBAHASAN


b. Pengubahan format
a. Pengambilan sampel Pengubahan format dari format
Apabila diketahui mahasiswa .xls dibuah menjadi .arff diperlukan
Fakultas Komunikasi dan Informatika aplikasi pembantu yaitu Excel2Arff
Universitas Muhammadiyah Conventer. Agar dapat dibuka dan
Surakarta memiliki jumlah 2358 diolah dalam aplikasi weka. Gambar
mahasiswa dan memiliki toleransi pemrosesan konverter dapat dilihat
ketidaktelitian 5%. Maka jumlah pada Gambar.1.
sampel yang diambil yaitu:
Gambar 1. Proses konverter

c. Perhitungan Naive Bayes X5 = Rata-rata SKS


Sebagai contoh di ambilkan X6 = Rata-rata mata kuliah
satu data uji yang memiliki ciri X7 = Asisten
sebagai berikut: IPS, Pria, memiliki Fakta menunjukkan :
alamat luar surakarta, asal sekolah P( Y =TEPAT)= 73/341= 0,214076
luar surakarta, SKS<=18, MK ≤ 7,
P(Y=TERLAMBAT)=268/341=
tidak anggota asisten. Apakah
0,785924
mahasiswa tersebut akan lulus tepat
waktu atau terlambat? Fakta :
Penghitungan data test berdasarkan P (X1=IPS |Y=TEPAT)= 22/73
data training: =0,30137
Asumsi : P (X1=IPS |Y=TERLAMBAT)=
Y = Lama studi 127/268 =0,473881
X1 = Jurusan SMA/SMK
P (X2=PRIA |Y=TEPAT)= 46/73
X2 = Gender
=0,630137
X3 = Daerah / Alamat
P (X2=PRIA |Y=TERLAMBAT)=
X4 = Asal sekolah
165/268 =0,615672
P (X3=LUAR |Y=TEPAT)= 14/73 P(X1=IPS, X2=PRIA,
=0,191781 X3=LUAR, X4=LUAR,
P (X3=LUAR |Y=TERLAMBAT)= X5=SKS ≤ 18, X6=MK ≤ 7,
78/268 =0,291045 X7=TIDAK | Y
=TERLAMBAT)
P (X4=LUAR |Y=TEPAT)= 14/73
= 127/268* 165/268* 78/268*
=0,191781
70/268* 166/268* 141/268*
P (X4=LUAR |Y=TERLAMBAT)=
248/268* 268/341
70/268 =0,261194
= 0,005256
P (X5=SKS≤18 |Y=TEPAT)= 4/73  KEPUTUSAN LAMA STUDI =
=0,054795 TERLAMBAT.
P (X5=SKS≤18|Y=TERLAMBAT)=
166/268 =0,619403 d. Pengolahan dalam Weka
Data training yang sudah diubah
P (X6=MK≤7 |Y=TEPAT)= 0/73 =0
dalam format .arff kemudian akan
P (X6=MK≤7 |Y=TERLAMBAT)=
diolah menggunakan aplikasi weka
141/268 =0,526119
guna mengetahui pengklasifikasian
P (X7=TIDAK |Y=TEPAT)= 54/73 mahasiswa yang lulus dengan tepat
=0,739726 waktu atau terlambat. Dataset yang
P (X7=TIDAK |Y=TERLAMBAT)= akan menjadi data trining yaitu 341
248/268 =0,925373 record dan 8 atribut. Setelah diproses
HMAP dari keadaan ini dapat weka akan menampilkan grafik yang
dihitung dengan : menunjukan hasil pengklasifikasian
P(X1=IPS, X2=PRIA, X3=LUAR, sesuai atribut masing-masing dan
X4=LUAR, X5=SKS ≤ 18, pengaruh atribut lainnya.
X6=MK ≤ 7, X7=TIDAK | Y
=TEPAT)
= 22/73 *46/73 *14/73 *14/73
*4/73 *0/73 *54/72 *73/341
= 0
Gambar 2. Visualize jurusan dan gender.

Gambar 2 memiliki dua classifier naive bayes dengan hasil


sumbu yaitu sumbu X dan sumbu Y, luaran status lama studi. Dari data
sumbu X yaitu jurusan sedangkan tersebut akan membentuk pola
sumbu Y yaitu gender. Pada titik sehingga pola-pola yang sudah
merah menunjukkan mahasiswa yang terbentuk dapat digunakan untuk
lulus dengan tepat waktu sedangkan memprediksi lama studi untuk
titik yang berwarna biru menunjukkan mahasiswa yang belum lulus.
mahasiswa yang telah lulus terlambat.
Pada Gambar 2 dapat dilihat bahwa
mahasiswa yang lulus tepat waktu
lebih banyak berasal dari jurusan IPA
dan berjenis kelamin Pria.
Data training tersebut akan
diproses menggunakan metode
Gambar 3. Evaluasi naive bayes

Data yang digunakan dalam training Tahap berikutnya yaitu


berjumlah 341 record didapatkan memprediksi data uji menggunakan
hasil seperti Gambar 3, sehingga data training yang sudah ada. Pada
dapat dilihat hasil presentase Test option pilih Supplied test set
akurasinya yaitu : kemudian klik set untuk memasukan
data uji kemudian diproses dan
disimpan dalam format Arff.
Sehingga hasil prediksi yang telah
dilakukan oleh weka dapat diketahui
Persentase Akurasi melalui ArffViewer.
=(233+42) / (233+35+31+42) * 100%
= 80,6452 %
Gambar 4. Hasil Prediksi Data Uji

e. Membandingkan dengan
Hasil pengklasifikasian
metode lain
mahasiswa yang lulus tepat waktu
Untuk mengetahui tingkat
yaitu lulus kurang sama dengan 4
keakurasian metode naive bayes
tahun didominasi berasal dari jurusan
dengan metode lain perlu adanya
asal IPA, Jenis kelamin antara pria
perbandingan antar metode satu
lebih baik daripada wanita. Untuk
dengan lainnya. Penulis ingin
daerah asal mahasiswa dan sekolah
mengetahui lebih tinggi mana tingkat
asal SMA/SMK didominasi oleh
keakurasianya antara metode naive
Karesidenan Surakarta, dengan
bayes, dengan metode decicion tree (
jumlah rata-rata pengambilan SKS
J48) dan metode OneR dengan data
lebih 18 SKS setiap semesternya dan
yang digunakan sama.
rata-rata pengambilan jumlah mata
kuliah lebih dari 7 mata kuliah.
Asisten laboratorium ternyata tidak
terlalu banyak berpengaruh terhadap
ketepatan waktu mahasiswa lulus
yaitu kurang atau sama dengan 4
tahun.
Tabel 2 Perbandingan dari naive Naive Bayes dari ketiga algoritma
bayes, J48 dan OneR
tersebut.
Naive J48 OneR
bayes
KESIMPULAN
Akurasi 80.645 85,63 78.59
Dari jumlah sampel 342
2% 05 % 24 %
mahasiswa yang digunakan data uji
Waktu 0,01 s 0,05 s 0,01 s
menggunakan metode naive bayes
proses
ternyata didapatkan hasil bahwa
Data 275 292 268
mahasiswa yang akan lulus tepat
benar data data data
waktu hanya berjumlah 86 mahasiswa
Data 66 data 49 73
atau hanya sekitar 25,15 % dari
kurang data data
jumlah sampel sedangkan mahasiswa
sesuai
yang akan lulus terlambat berjumlah
Dari perbandingan pada tabel
256 mahasiswa mencapai 74,85%.
2 dapat disimpulkan bahwa metode
J48 lebih baik dari pada metode naive
SARAN
bayes dan OneR dalam permasalahan
1. Bagi peneliti-peneliti selanjutnya
ini. Sedangkan naive bayes lebih
yang akan melakukan penelitian
bagus dari pada OneR karena
hampir serupa dengan penelitian
memiliki keakurasian hasil prediksi
ini.
lebih baik. Metode J48 lebih unggul
a) Mencoba menggunakan
dalam penelitian ini karena data yang
aplikasi selain Weka dalam
digunakan jumlahnya kurang banyak
analisa data mining.
sehingga metode J48 lebih cepat dan
b) Mencoba lebih banyak record
mudah dalam pengklasifikasian.
dan attribute dalam
Metode J48 (decision tree)
pemrosesan data mining.
merupakan memang algoritma yang
c) Diperlukan tingkat ketelitian
digunakan untuk penglempokan class.
yang tinggi dan pembersihan
Namun untuk waktu pemrosesan
data yang sempurna supaya
(running time) yang paling cepat yaitu
tidak terjadinya noise.
d) Data perlu menyesuaikan membantu fakultas dalam
dengan kurikulum yang meningkatkan nilai
terbaru. akreditasi.
e) Dibuatkan grafik jumlah b) Berdasarkan kesimpulan
lulusan setiap tahunnya agar mahasiswa yang dapat lulus
mengetahui ada kenaikan tepat waktu yang paling
ataukah penurunan. menonjol yaitu dipengaruhi
2. Bagi Fakultas Komunikasi dan oleh pengambilan jumlah
Informatika Universitas rata-rata SKS lebih dari 18
Muhammadiyah Surakarta SKS dan lebih dari 7 mata
berdasarkan hasil penelitian. kuliah setiap semesternya,
a) Melihat hasil kesimpulan mahasiswa yang paling
pada penelitian ini sungguh banyak mengambil jumlah
memprihatinkan karena dari SKS dan Mata kuliah yaitu
jumlah sampel yang berasal dari jurusan IPA
diprediksi hanya sekitar berjenis kelamin Pria
25,15 % saja yang akan lulus berasalkan dari daerah
tepat waktu sedangkan Karesidenan Surakarta. Jika
mahasiswa yang akan lulus fakultas ingin memiliki
terlambat mencapai 74,85%. mahasiswanya dapat lulus
Sehingga pihak fakultas tepat waktu, maka
perlu adanya strategi atau mahasiswa baru yang akan
solusi dalam peningkatan masuk lebih diutamakan
prestasi mahasiswanya berasal dari Jurusan IPA,
sehingga mahasiswa dapat Pria , asal daerah dan
lulus tepat waktu dan sekolah berasal dari
tentunya dengan hasil yang Karesidenan Surakarta.
memuaskan. Sehingga dapat
DAFTAR PUSTAKA

Anonim.2012 .Panduan akademik fakultas komunikasi dan informatika UMS


2012/2013. Surakarta : Universitas Muhammadiyah Surakarta.

Handayanto, Rahmadya Trias. 2010. Naive bayes. From website


<http://rahmadya.com>. Diakses pada tanggal 30 oktober 2013.

Huda, Nuqson Masykur. 2010. Aplikasi Data Mining Untuk Menampilkan


Informasi Tingkat Kelulusan Mahasiswa, Skripsi. Semarang: Fakultas
MIPA Universitas Diponegoro.

Prasetyo, Eko. 2012. Data Mining konsep dan aplikasi menggunakan matlab.
Yogyakarta: Andi.

Sundika, Putu. Comparisson Of One-R, Decision Tree & Naive Bayes. From
website http://www.slideshare.net/putusundika/oner-bayes-
decisiontree. Diakses pada tanggal 19 Desember 2013.

Umar, Husein. 2004. Metode Penelitian Untuk Skripsi Dan Tesis Bisnis.
Cetakan ke-6. Jakarta: PT Raja Grafindo Persada.

Witten, I. H and Frank, E. 2005. Data Mining : Practical Machine Learning


Tools and Techniques Second Edition. San Francisco: Elsevier.
BIODATA PENULIS

Nama : Ahmad Fikri Mauriza


Tempat / Tanggal Lahir : Jepara, 30 Maret 1992
Jenis Kelamin : Pria
Agama : Islam
Jurusan : Teknik Informatika
Peguruan Tinggi : Universitas Muhammadiyah Surakarta
Alamat : Jl. A. Yani Tromol Pos I Pabelan, Kartasura
Telp./ Fax : (0271)717417, 719483 / (0271) 714448
Alamat Rumah : Blingoh RT 12/ III Donorojo, Jepara
No. HP : +6285641788799
Alamat e-mail : Ahmadfikrimauriza@gmail.com

Anda mungkin juga menyukai