Anda di halaman 1dari 9

TUGAS UAS DATA MINING

PERBANDINGAN ACCURACY FEATURE SELECTION DAN NON FEATURE SELECTION


MENGGUNAKAN ALGORITMA NAVE BAYES DAN DECISION TREE (C4.5) UNTUK LAMA
MASA STUDI MAHASISWA

NAMA

: SITI ANDINI UTIARAHMAN

N.P.M

: P31.2013.01539

KLS/ANGKATAN

: GORONTALO / G24

MATA KULIAH

: DATA MINING

PROGRAM PASCASARJANA
MAGISTER TEKNIK INFORMATIKA
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2014

PERBANDINGAN ACCURACY DAN IMPLEMENTASI FEATURE SELECTION DAN NON


FEATURE SELECTION UNTUK LAMA MASA STUDI MAHASISWA DENGAN
MENGGUNAKAN ALGORITMA NAVE BAYES DAN DECISION TREE (C4.5)

Siti Andini Utiarahman P31.2013.01539


Tugas UAS Review Paper Data Mining
Universitas Dian Nuswantoro Semarang
andiniutiarahman@gmail.com

Abstrak
Data akademik di suatu Perguruan Tinggi bertambah terus setiap tahunnya sejalan dengan bertambahnya jumlah
mahasiswa. Data yang banyak tersebut menyimpan informasi yang banyak pula. Untuk mengetahui tingkat kelulusan
siswa dalam satu tahun ajaran dapat dibuat prediksi berdasarkan data siswa pada tingkat atau tahun ajaran pertama.
Teknologi data mining merupakan salah satu alat bantu untuk penambangan data pada basis data berukuran besar
dan telah banyak digunakan pada banyak domain. Data mining juga disebut pengetahuan penemuan dalam
Knowledge Discovery in Database (KDD) yaitu meliputi pengumpulan, menggunkaan data historis untuk
menemukan keteraturan pola atau hubungan dalam set data yang besar. Naif Bayes Classifiers (NBC) adalah
probabilitas classifiers sederhana menerapkan teorema bayes dengan asumsi independen yang cukup tinggi.
keuntungan menggunakan NBC adalah metode ini hanya membutuhkan jumlah data training yang kecil untuk
memperkirakan parameter yang diperlukan dalam proses klasifikasi. Metode pohon keputusan (Decision Tree)
mengubah fakta bahwa pohon keputusan yang sangat besar yang mewakili aturan. C4.5 adalah algoritma yang secara
luas dikenal dan digunkan untuk klasifikasi data yang memiliki atribut numerik dan katagorikal. Hasil dari proses
klasifikasi dalam bentuk aturan dapat digunkaan untuk memprediksi nilai diskrit jenis atribut dari catatan baru.
Dari review yang dilakukan telah disimpulkan bahwa algoritma C4.5 mempunyai tingkat akurasi prediksi yang lebih
tinggi dibandingkan dengan tingkat akurasi dari penggunaan algoritma Naif Bayes Classifiers (NBC).
Kata Kunci: Nave Bayes, Decision Tree (C4.5)
1. PENDAHULUAN
Presentasi mahasiswa yang lulus tepat waktu pada perguruan tinggi merupakan salah satu faktor penentu kualitas
perguruan tinggi. kualitas perguruan tinggi, khususnya program studi di Indonesia di ukur berdasarkan akreditasi
yang dilaksanakan oleh Badan Akreditasi Nasional Perguruan Tinggi. (BAN PT, 2011) Kualitas di ukur berdasarkan
standar akreditasi. Standar akreditasi adalah tolok ukur yang harus dipenuhi oleh institusi perguruan tinggi. suatu

standar akreditasi terdiri atas beberapa parameter (elemen penilaian) yang dapat digunakan sebagai dasar untuk
mengukur dan menetapkan mutu dan kelayakan perguruan tinggi untuk menyelenggarakan program-programnya [1].
Standar akreditasi perguruan tinggi mencakup komitmen perguruan tinggi terhadap kapasitas institusi dan efektifitas
yang terdiri atas 15 standar di antaranya standar kemahasiswaan dan standar kelulusan. Khusus mengenai evaluasi
standar kemahasiswaan dan standar lulusan, komponen yang dinilai adalah sistem rekrutmen mahasiswa baru dan
lulusan (rata-rata masa studi dan IPK).
Namun kendala yang sering terjadi pada setiap kampus adalah banyaknya mahasiswa yang tidak lulus sesuai dengan
waktu studi yang telah ditentukan. Untuk mengetahui tingkat kelulusan mahasiswa dalam satu tahun ajaran dapat
dilakukan suatu prediksi berdasarkan data-data mahasiswa pada tingkat atau tahun ajaran pertama. Beberapa faktor
yang mempengaruhi prediksi kelulusan mahasiswa yang sesuai dengan waktu studi diantaranya : IPK semester 1 dan
semester 2, gaji orang tua, pekerjaan orang tua dan lainya.
Kebutuhan akan informasi-informasi saat ini semakin meningkat bersama dengan perkembangan teknologi yang
juga semakin pesat. Semakin banyak informasi yang dibutuhkan juga semakin banyak dan jumlahnya yang semakin
besar pula. Kebutuhan akan jumlah data yang besar dapat kita temukan dalam dunia pendidikan. Hal ini disebabkan
setiap tahun ajaran terjadi peningkatan data. Terutama data-data mahasiwa yang terus bertambah dari tahun ketahun.
Jumlah data yang terus meningkat inilah yang memerlukan beberapa metode untuk mengolah dan mengambil
kesimpulam dan informasi dari data tersebut. Beberapa metode yang digunakan untuk mengolah data yang sifatnya
besar untuk menemukan pola yang terdapat didalamnya.
Pada penelitian yang dilakukan oleh Yusuf Sulistyo Nugroho dan Setyawan [2], yaitu mengklasifikasi masa studi
mahasiswa fakultas komunikasi dan informatika Universitas Muhammadiyah Surakarta menggunakan algoritma
C4.5. dari total 2358 data yang digunakan adalah sebanyak 341 data mahasiswa yang sudah lulus. Atribut yang
digunakan terdiri dari jurusan sekolah, jenis kelamin, asal sekolah, rata-rata jumlah SKS persemester dan peran
menjadi asisten. Hasil penelitian ini menunjukan bahwa variabel yang peling tinggi pengaruhnya terhadap masa
studi adalah sata-rata SKS persemester. Dengan demikian, intreprestasi hasil penelitian mengidentifikasi bahwa
variabel yang perlu digunakan sebagai pertimbangan bagi fakultas untuk memperoleh tingkat masa studi yang efektif
adalah rata-rata SKS yang diambil oleh mahasiswa.
Pada peneliti lain yaitu Jonh Fredrik Ulysses [3], melakukan penelitian tentang data mining classification untuk
memprediksi lama masa studi berdasarkan jalur penerimaan dengan metode Naive Bayes. Berdasarkan pengujian
dengan menggunakan metode Naive Bayes untuk memprediksi lama studi berdasarkan jalur penerimaan dengan
menggunakan contoh 57 dataset alumni mahasiswa diambil kesimpulan bahwa hasil mahasiswa yang masuk melalui
jalur khusus memiliki kecenderungan untuk lulus lebih cepat dibandingkan mahasiswa melalui SPMB.

2. DATA SET YANG DIGUNAKAN


Kami mengambil dataset dari data UCI Meachine Learning : http://archive.ics.uci.edu/ml/datasets.html, terdiri dari
kumpulan data yang berisi total 5820 skor akan tetapi kami hanya mengambil 500 data evaluasi yang diberikan oleh
mahasiswa dari Universitas Gazi di Ankara (Turki).

Ada total 20 pertanyaan spesifik kursus dan tambahan 5 atribut dengan variabel variabel sebagai berikut :
identifier Instruktur;: InStr Nilai-nilai yang diambil dari {1,2,3}
kelas: Kode Course (descriptor); Nilai-nilai yang diambil dari {} 1-13
ulangi: Frekuensi siswa yang mengambil kursus ini; Nilai-nilai yang diambil dari {0,1,2,3, ...}
kehadiran: Kode tingkat kehadiran; nilai dari {0, 1, 2, 3, 4}
kesulitan: Tingkat kesulitan dari program seperti yang dirasakan oleh siswa; Nilai-nilai yang diambil dari {1,2,3,4,5}
Q1: Saya sangat menikmati kelas dan bersemangat untuk berpartisipasi aktif selama kuliah.
Q2: harapan awal saya tentang kursus bertemu di akhir periode atau tahun.
Q3: Kursus ini relevan dan bermanfaat bagi pengembangan profesional saya.
Q4: Kursus membantu saya melihat kehidupan dan dunia dengan perspektif baru.
Q5: Pengetahuan Instruktur adalah relevan dan up to date.
Q6: Instruktur datang siap untuk kelas.
Q7: Instruktur mengajar sesuai dengan rencana pelajaran diumumkan.
Q8: Instruktur berkomitmen untuk kursus dan dimengerti.
Q9: Instruktur tiba pada waktunya untuk kelas.
Q10: Instruktur memiliki pengiriman / pidato halus dan mudah diikuti.

Q11: Instruktur membuat penggunaan efektif jam kelas.


Q12: Instruktur menjelaskan kursus dan bersemangat untuk membantu kepada siswa.
Q13: Instruktur menunjukkan pendekatan positif terhadap siswa.
Q14: Instruktur itu terbuka dan menghormati pandangan siswa tentang kursus.
Q15: Instruktur mendorong partisipasi dalam kursus.
Q16: Instruktur memberi relevan pekerjaan rumah / proyek, dan membantu / siswa dipandu.
Q17: Instruktur menanggapi pertanyaan tentang kursus dalam dan di luar kursus.
Q18: Sistem Instruktur evaluasi (ujian tengah semester dan akhir pertanyaan, proyek, tugas, dll) efektif mengukur
tujuan program.
Q19: Instruktur memberikan solusi untuk ujian dan membahasnya dengan siswa.
Q20: Instruktur memperlakukan semua siswa dengan cara yang tepat dan obyektif.
Q1-Q20 semua Likert-jenis, yang berarti bahwa nilai-nilai yang diambil dari {1,2,3,4,5}

3. METODE PENELITIAN
Pada paper yang digunakan menggunakan metode penelitian eksperimen dan terapan metode, yang terdiri dari:
1. Pengambilan data
Pengambilan dataset yang akan di olah yaitu diambil dari UCI Meachine Learning
2. Pengolahan data
Data diolah menggunakan Tools Rapid Miner
3. Model yang diusulkan
Pada model yang diusulkan ini yaitu sama dengan paper yang kami review yaitu menggunakan algoritma
Naive Bayes Classifiers (NBC) dan algoritma Decision Tree (C4.5).
4. Pengujian model dan perbandingan model
Pada proses pengujian ini kami menggunakan 500 dataset mahasiswa dari Universitas Gazi di Ankara
(Turki). Dan kami akan membandingkan akurasi hasil algoritma Naive Bayes dan Algoritma C4.5
menggunakan tools Rapid Miner.
5. Evaluasi dan validasi model.

4. HASIL EKSPERIMEN DAN PEMBAHASAN


Eksperimen kami lakukan dengan mengklasifikasi dataset yang ada kemudian diolah menggunakan tools yang
ada pada Rapid Miner dengan 2 Algoritma :

1. Hasil Menggunakan Algoritma Nave Bayes


Adapun proses pengujian menggunakan Naive Bayes Non Feature Selection dapat diketahui nilai accuracy pada
Peformance Vector (Peformasce) accuracy: accuracy: 84.57% seperti pada gambar dibawah ini :

Dari hasil pengujian menggunakan Non Feature Selection dapat diketahui nilai accuracy pada Peformance
Vector (Peformasce) accuracy: accuracy: 83.57% +/- 5.04% (mikro: 83.57%). prediksi Naive Bayes adalah

2. Algoritma Decision Tree/C.45


Adapun proses pengujian menggunakan Decision Tree (C4.5) didapat akurasi ketepatan hasil prediksi
adalah accuracy: 86.58% +/- 5.72% (mikro: 86.57%)

Dari hasil pengujian menggunakan Non Feature Selection dapat diketahui nilai accuracy pada
PeformanceVector (Peformasce) accuracy: accuracy: 84.16% +/- 4.79% (mikro: 84.17%)

Hasil yang didapatkan dari percobaan diatas menggunakan kedua algortima tersebut dan mencoba
menambahkan feature selection, terdapat perbedaan dari menggunakan feature selection dan tidak
menambahkan feature selection ternyata hasil accuracy yang paling besar adalah tidak menggunakan
feature selection dengan accuracy yang paling tinggi yaitu algoritma Decision Tree, hasilnya dapat dilihat
tabel di bawah ini :
Feature Selection

Non Feature Selection

Naive Bayes

84.57%

83.57%

Decision Tree (C4.5)

86.57%

84.17%

5. KESIMPULAN
Dari hasil review dengan eksperimen yang kami lakukan dengan menggunakan dataset yang berbeda maka dapat
diambil kesimpulan bahwa proses pengklasifikasian nilai sangat penting karena mengelompokan nilai-nilai yang
akan di uji. Dengan menggunakan algoritma C4.5 kesalahan yang dihasilkan dalam proses prediksi lebih sedikit
karena C4.5 melakukan klasifikasi record-record ke dalam kelas tujuan yang ada. Algoritma Decision Tree memiliki
kompleksitas yang lebih besar. Karena pada algoritma C4.5 setiap nilai dalam suatu atribut ditelusuri dan diproses
untuk mendapatkan entropi masing-masing nilai yang akan digunakan untuk mencari ukuran purity masing-masing
atribut yang dinyatakan dengan information gain. Proses penelusuran ini akan membentuk pola berupa pohon
keputusan. Algoritma Naive Bayes bila diimplementasikan menggunakan data yang digunakan dalam proses training

akan menghasilkan nilai kesalahan yang lebih besar karena pada Naive Bayes nilai suatu atribut adalah independen
terhadap nilai lainnya. Disini terlihat algoritma C4.5 memiliki akurasi lebih tinggi dari algoritma Naive Bayes.

REFERENSI

[1] BAN PT - Badan Akreditasi Nasional Perguruan Tinggi, 2011, Akreditasi Institusi Perguruan Tinggi Buku II. 2007.

[2] Jonh Fredrik, Data Mining Classification Untuk Prediksi Lama Masa Studi Mahasiswa Berdasarkan Jalurv Penerimaan
Dengan Metode Naive Bayes in an Internet Service Provider.

[3] Yusuf Sulityo Nugroho. Setyawan, Klasifikasi Masa Studi Mahasiswa Fakultas Komunikasi dan Informatika
Universitas Muhammadiyah Surakarta Menggunakan Algoritma C4.5, KomuniTi, Vol VI. No. 1 Maret 2014