Anda di halaman 1dari 8

Jurnal String Vol. 3 No.

1 Agustus 2018 p-ISSN: 2527 - 9661


e-ISSN: 2549 - 2837

IMPLEMENTASI KOMPARASI ALGORITMA KLASIFIKASI


MENENTUKAN KELULUSAN MATA KULIAH ALGORITMA
UNIVERSITAS BUDI LUHUR

Nahot Frastian
Program Studi Informatika, Universitas Indraprasta PGRI
nahotfrastian@gmail.com

Abstrak
Implementasi komparasi algoritma memberikan inovasi dan motivasi mahasiswa setiap semester
perkuliahan. Mahasiswa Universitas Budi Luhur yang mengikuti semua kegiatan proses belajar di
kelas atau tatap muka setiap mata kuliah akan lebih punya peluang lulus dibanding dengan mahasiswa
yang jarang hadir, beberapa penilaian dosen terhadap Kelulusan mata kuliah antara lain masalah
kehadiran, tugas, ujian tengah semester dan ujian akhir semester. penelitian membuat algoritma yang
sesuai untuk menentukan lulusan mata kuliah pada mahasiswa, peneliti ini akan menggunakan data
mining teknik klasifikasi dengan 3 metode Algoritma klasifikasi antara lain Algoritma C4.5 (decision
tree), Naïve Bayes, dan Random Forest dengan label result tidak lulus dan lulus. Hasil penelitian
menguji dan melakukan dengan digunakan dataset yang sama pada ke 3 algoritma melalui
perbandingan mendapat nilai AUC dan Confusion Matrix, memperoleh nilai Area Under Curve (AUC)
sebesar 2.000 dari model Naïve Bayes, sedangkan nilai Accuracy atau Confusion Matrix yang terbesar
terdapat pada algoritma C4.5 (decision tree) dengan nilai sebesar 98.88%. Dengan demikian, mata
kuliah algoritma memberikan penilaian pada algoritma C4.5 (decision tree). Implementasi komparasi
algoritma klasifikasi menetukan kelulusan mata kuliah algoritma di Universitas Budi Luhur.
Kata Kunci : Implementasi, komparasi algoritma, data mining klasifikasi, Algoritma C4.5

Abstract
The implementation of algorithm comparison provides innovation and motivation to students every
semester of lecture. Budi Luhur University students attending all learning activities or face-to-face
meetings in the classroom for each subject will have more chance to pass compared with those who
rarely present. Some lecturer's evaluation to give a pass in subject include attendance, assignment,
midterm examination and final examination. In this research, when creating an appropriate algorithm
to determine the pass in subject of the students, this researcher will use data mining classification
technique with 3 methods of Classification algorithm, namely Algorithm C4.5 (decision tree), Naïve
Bayes and Random Forest with result labels of fail and pass. The results of the research tested by
using the same dataset on the 3 algorithms through comparison get the value of AUC and Confusion
Matrix, obtain the value of Area Under Curve (AUC) of 2,000 from the Naïve Bayes model, while the
greatest Accuracy or Confusion Matrix values is in the C4.5 algorithm (decision tree) with a value of
98.88%. Thus, the algorithm subject gives an assessment of the C4.5 algorithm (decision tree). The
implementation of classification algorithm comparison determines a pass in algorithm subject at Budi
Luhur University.
Keywords : Implementation, algorithm comparation, data mining classification, Algorithm C4.5

1. PENDAHULUAN masalah lulus kuliah tidak terlepas dari


Implementasi komparasi algoritma tahapan kelulusan seluruh mata kuliah
klasifikasi lulus kuliah tepat waktu bagi yang diambil setiap semesternya. Faktor
mahasiswa yang sedang mengenyam utama penyebab lulus dan tidaknya mata
pendidikan tinggi merupakan sebuah target kuliah adalah melalui penilaian dosen mata
yang harus dicapai. Hal ini tergantung pada kuliah terhadap mahasiswanya, bagi
individu mahasiswa itu sendiri. Berbicara mahasiswa yang mengikuti semua kegiatan

1 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

proses belajar di kelas atau tatap muka Klasifikasi adalah salah satu peran utama
setiap mata kuliah akan lebih punya dalam data mining. Klasifikasi adalah tipe
peluang lulus dibanding dengan mahasiswa analisis data yang dapat membantu orang
yang jarang hadir, karena lulus dan menentukan kelas label dari sampel yang
tidaknya mata kuliah ditentukan oleh ingin di klasifikasi [2].
beberapa kriteria penilaian antara lain nilai Dalam klasifikasi kita dapat menentukan
kehadiran dan nilai tugas, nilai ujian orang atau objek kedalam suatu kategori
tengah semester dan nilai ujian akhir tertentu, contoh untuk masalah klasifikasi
semester. Setiap mahasiswa lulus atau adalah menentukan apakah mahasiswa
tidak lulus mata kuliah, dibutuhkan “lulus” atau “tidak lulus” terhadap mata
penerapan teknologi yang serba sistematis kuliah tertentu. Informasi tentang
dan diharapkan lebih baik dari pola mahasiswa sebelumnya digunakan sebagai
sebelumnya. Dalam memperoleh algoritma bahan untuk melatih algoritma dalam
klasifikasi yang terbaik, maka dibutuhkan mendapatkan rule atau aturan.
beberapa penerapan metode algoritma.
Dalam makalah ini metode algoritma Salah satu tujuan klasifikasi adalah untuk
klasifikasi yang akan digunakan menjadi meningkatkan kehandalan hasil yang
Algoritma C4.5 (decision tree), naïve diperoleh dari data [5].
bayes, dan Random Forest. Begitu banyak C4.5 adalah algoritma yang memiliki input
teknologi dan metode algoritma untuk berupa training samples berupa data yang
menjadi pengolah data (data mining), akan digunakan untuk membangun sebuah
namun pada kenyataannya masih banyak tree yang telah diuji kebenaran dan
dosen yang belum menerapkan teknologi samples yang merupakan field - field data
dan metode algoritma, sementara data yang dapat mengunakan sebagai parameter
tersebut dan menjadikan metode ini dilakukan klasifikasi data.
penting dan bermanfaat.
Algoritma dasar dari C4.5 adalah sebagai
Pada penelitian ini, fokus utama data berikut:
mining yang akan dibahas adalah a) Pohon yang dihasilkan berupa
klasifikasi, dimana algoritma menjadi pohon terbalik
untuk klasifikasi dataset adalah Algoritma b) Pada tahap awal, semua contoh
C4.5 (decision tree), Naïve Bayes, dan training adalah akar
Random Forest. Sementara data training c) Atribut adalah kategori
menjadi data penilaian mahasiswa terhadap d) Contoh di partisi secara berulang
mata kuliah Algoritma pada universitas berdasarkan atribut yang dipilih
Budi Luhur, berikut kriteria penilaian e) Atribut tes dipilih dari data
kelulusan mata kuliah antara lain nilai heuristic atau pengukuran statistik
kehadiran dan tugas, ujian tengah semester f) Tahapan algoritma C4.5 adalah
dan nilai ujian akhir semester. Data sebagai berikut:
penilaian ini terdiri dari 87 record dengan 1. Siapkan data training
tujuan akhir adalah keputusan lulus atau 2. Pilih atribut sebagai akar
tidak terhadap mata kuliah tersebut.
Data mining adalah istilah yang diciptakan Untuk memilih atribut akar, didasarkan
untuk menggambarkan proses pergeseran pada nilai Gain tertinggi dari atribut-atribut
melalui database besar untuk mencari pola yang ada. Untuk mendapatkan nilai Gain,
yang menarik dan sebelumnya tidak harus ditentukan terlebih dahulu nilai
diketahui [1]. Entropy.

2 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

Rumus Entropy : a) Fleksibilitas untuk berbagai tugas data


n
Entropy( S )    pi * log 2 pi
mining, seperti klasifikasi, regresi,
i 1
clustering dan seleksi fitur.
b) Cukup jelas dan mudah diikuti (ketika
S = Himpunan Kasus dipadatkan).
n = Jumlah Partisi S c) Fleksibilitas dalam menangani
pi = Proporsi dari Si terhadap S berbagai input data: nominal, numerik
dan tekstual.
Rumus Gain : d) Adaptasi di dataset pengolahan yang
n
| Si |
Gain( S , A)  Entropy( S )   * Entropy( Si ) mungkin memiliki kesalahan atau
i 1 | S | nilai-nilai yang hilang.
S = Himpunan Kasus e) Kinerja prediktif tinggi untuk upaya
A = Atribut komputasi yang relatif kecil
n = Jumlah Partisi Atribut f) Tersedia dalam berbagai paket data
|Si| = Jumlah Kasus pada partisi ke-i mining melalui berbagai platform
|S| = Jumlah Kasus dalam S g) Berguna untuk dataset besar (dalam
kerangka ensemble).
Decission Tree atau Pohon Keputusan Naïve Bayes merupakan metode yang tidak
adalah struktur sederhana yang dapat memiliki aturan, naïve bayes llmu
digunakan sebagai pengklasifikasi. komputer yang dikenal dengan teori
Referensi penting dalam pengerjaan probabilitas untuk mencari peluang
aslinya adalah Classification and terbesar dari kemungkinan klasifikasi,
Regression Tree oleh [1]. dengan cara melihat frekuensi tiap
Pada pohon keputusan, masing-masing klasifikasi pada data training. naïve bayes
node internal (non-leaf) merepresentasikan merupakan metode klasifikasi populer dan
sebuah variabel atribut (atribut prediksi masuk dalam sepuluh algoritma terbaik
atau fitur) dan masing-masing cabang dalam data mining, algoritma ini juga
merepresentasikan satu keadaan dari dikenal dengan nama Idiot’s Bayes, Simple
variabel ini. Masing-masing dari tiga daun Bayes dan Independence Bayes [1].
(leaf) menspesifikasikan nilai yang Klasifikasi Bayes di dasarkan pada
diharapkan dari kelas variabel (variabel teorema bayes, diambil dari nama seorang
yang akan di prediksi). Aspek penting dari ahli matematika yang juga menteri
prosedur untuk membuat pohon keputusan Prebysterian Inggris, Thomas Bayes (1702-
adalah pemisahan kriteria (split criterion) 1761). Yaitu:
termasuk kriteria untuk membuat cabang
dan kriteria terakhir (stop criterion),
kriteria yang digunakan untuk P(x|y) = P(y|x) P(x)
menghentikan pencabangan. P(y)

Pohon keputusan dibuat menggunakan Keterangan:


himpunan dari data yang digunakan Y : Data dengan kelas yang belum
sebagai data pembelajaran (training diketahui
dataset). Himpunan yang berbeda yang X : Hipotesis data y merupakan suatu
disebut test dataset dilakukan menguguji kelas spesifik
untuk mengecek model. P(x|y) : Probabilitas hipotesis x
berdasarkan kondisi y (posteriori
Pohon keputusan menawarkan banyak
probability)
keuntungan, antara lain :

3 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

P(x) : Probabilitas hipotesis x (prior Validasi adalah proses mengevaluasi


probability) akurasi prediksi dari sebuah model,
P(y|x) : Probabilitas y berdasarkan validasi mengacu untuk mendapatkan
kondisi pada hipotesis x prediksi dengan digunakan model ada
p(y) : Probabilitas dari y kemudian membandingkan hasil yang
diperoleh dengan hasil yang diketahui [3].
Random Forest adalah pengklasifikasi
yang terdiri dari kumpulan pengklasifikasi Mengevaluasi akurasi dari model
pohon terstruktur {h(x,Θk), k=1, ...} klasifikasi sangat penting, akurasi dari
dimana {Θk} adalah vektor acak sebuah model mengindikasikan
terdistribusi yang identik independen dan kemampuan model tersebut untuk
masing-masing pohon melemparkan unit memprediksi class target [6].
suara untuk kelas paling populer di input x, Untuk mengevaluasi model digunakan
[5]. metode confusion matrix, dan kurva ROC
Random forest merupakan pengembangan (Receiver Operating Characteristic).
dari Algoritma C4.5 (decision tree) dengan Confusion matrix memberikan rincian
menggunakan beberapa decision tree, klasifikasi, kelas yang diprediksi akan
dimana setiap decision tree telah dilakukan ditampilkan di bagian atas matrix dan kelas
training menggunakan sampel individu yang diobservasi ditampilkan di bagian kiri
dan setiap atribut dipecah pada tree yang [3]. Evaluasi model confussion matrix
dipilih antara atribut subset yang bersifat menggunakan tabel seperti matrix dibawah
acak. ini:
Dan dalam mengembangkan, sejalan
dengan bertambahnya dataset, maka tree Tabel 1. Matrik Klasifikasi untuk Model
pun ikut berkembang. Penempatan tree 2 Class
Predicted Class
yang saling berjauhan membuat apabila Classification
Class = Yes Class = No
terdapat tree disekitar tree x berarti pohon
Class (True Positive) (False Negative)
tersebut merupakan perkembangan tree x Observed Yes TP FN
[4]. Class Class (False Positive) (True Negative)
No FP TN
Rapid Miner merupakan perangkat lunak Sumber: [3]
yang dibuat oleh Dr. Markus Hofmann dari
Institute of Technology Blanchardstown Akurasi dapat dihitung dengan
dan Raif Klinkenberg dari rapid-i.com menggunakan rumus berikut:
dengan tampilan GUI (Graphical User
Interface) sehingga memudahkan Accurasy =
pengguna dalam menggunakan perangkat
lunak ini. Perangkat lunak ini bersifat open TP : Jumlah kasus positif yang
source dan dibuat gunakan bahasa java diklasifikasikan sebagai positif
dibawah lisensi GNU Public License dan FP : Jumlah kasus negatif yang
Rapid Miner dapat dijalankan disistem diklasifikasikan sebagai positif
operasi manapun. Menjadi digunakan TN : Jumlah kasus negatif yang
Rapid Miner, tidak dibutuhkan diklasifikasikan sebagai negatif
kemampuan koding khusus, karena semua FN : Jumlah kasus positif yang
fasilitas disediakan. Rapid Miner diklasidikasikan sebagai negatif
dikhususkan untuk penggunaan data
mining. Kurva ROC banyak digunakan untuk
menilai hasil prediksi, kurva ROC adalah

4 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

teknik untuk memvisualisasikan, mengatur, adalah eksperimen komparatif, ini


dan memilih pengklasifikasian berdasarkan dilandasi oleh kerangka pemikiran
kinerja mereka [3]. pemecahan masalah seperti pada gambar 1.
Kurva ROC adalah tool dua dimensi yang
digunakan untuk menilai kinerja klasifikasi Permasalahan : Belum diketahui algoritma yang
yang menggunakan dua class keputusan, tepat untuk menentukan Kelulusan mata kuliah
masing-masing objek dipetakan ke salah
satu elemen dari himpunan pasangan, Komparasi : Algoritma C4.5 (decision tree),
Naïve Bayes, dan Random Forest
positif atau negatif. Pada kurva ROC, TP
rate diplot pada sumbu Y dan FP rate
diplot pada sumbu X. Tools : Rapid Miner 7.1

Untuk klasifikasi data mining, nilai AUC Evaluasi dan Validasi


dapat dibagi menjadi beberapa kelompok
[3]. Hasil : dapat diketahui algoritma yang akurat
yang dapat menentukan Kelulusan mata kuliah

a. 0.90-1.00 = Excellent Classification Gambar 1. Kerangka Pemikiran


b. 0.80-0.90 = Good Classification Pemecahan Masalah
c. 0.70-0.80 = Fair Classification
d. 0.60-0.70 = Poor Classification Langkah- Langkah Penelitian
e. 0.50-0.60 = Failur Penelitian ini dilakukan dengan
menjalankan beberapa langkah proses
The Area Under Curve (AUC) dihitung penelitian yaitu:
untuk mengukur perbedaan performasi a. Pengumpulan data
metode yang digunakan. AUC dihitung b. Pengolahan awal data
menggunakan rumus: c. Pengukuran penelitian
d. Analisa komparasi hasil

Dimana
3. HASIL DAN PEMBAHASAN
A. Pengumpulan Data
Mengumpulkan data membahas hasil
peneliti bersumber dari Absensi mata
kuliah Algoritma dimana penulis sebagai
X= Output Positif
Dosen pengajar. Data merupakan hasil
Y = Output Negatif
pemeriksaan terhadap 87 mahasiswa. Pada
data ini terdiri dari 12 atribut.
2. METODE PENELITIAN
Metode penelitian menjelaskan jenis
penelitian yang digunakan dalam
penelitian ini adalah model penelitian
eksperimen. Penelitian ini bertujuan untuk
melakukan perbandingan dan evaluasi
pada algoritma klasifikasi data mining.
Penelitian eksperimen ini menekankan
pada teori-teori yang sudah ada. Pada
penelitian ini, jenis penelitian yang diambil

5 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

Tabel 2. Atribut Dataset


No Atribut Tipe
1. NPM Integer
2. Nama Polynominal
3. Jenis_Kelamin Binominal
4. Jenjang Polynominal
5. Prog_Studi Polynominal
6. Mata_Kuliah Polynominal
7. Kehadiran Integer
8. Tugas Integer Gambar 4. Nilai Akurasi algoritma C4.5
9. UTS Integer
10. UAS Integer Tabel 3. Akurasi dari Semua Algoritma
11. Nilai Real
12. Status Binominal
Klasifikasi
Confusion Matrix
(%)
B. Pengolahan Data Awal Decision Tree (C4.5) 98.89
Dalam pengujian ini menggunakan rapid Naïve Bayes 96.67
miner dengan operator 10-fold cross- Random Forest 95.56
validation untuk mendapatkan hasil
accuracy dan AUC pada setiap algoritma Selanjutnya Grafik ROC (Receiver
yang diuji menggunakan dataset Operating Characteristic) dari algoritma
mahasiswa. C4.5 adalah sebgai berikut Gambar 5 .

Gambar 5. Grafik ROC (Receiver


Gambar 3. Desain Model Komparasi
Operating Characteristic)
Algoritma Klasifikasi Decision Tree,
Naïve Bayes, dan Random Forest
Berdasarkan hasil evaluasi pada table 3,
dapat dilihat bahwa algoritma yang paling
baik digunakan untuk dataset ditentukan
C. Pengukuran Penelitian
lulusan mata kuliah algoritma adalah
Sedangkan Confution Matrix guna
Decision Tree (C4.5). selanjutnya
mengukur tingkat akurasinya, yang
dilakukan pengujian perbandingan antara
menghasilkan nilai tertinggi dari algoritma
masing-masing variabel yang didapat
C4.5 (Decision Tree), yaitu sebesar 98.89
dengan menggunakan pengujian t-test.
%, gambar 4 berikut:
Gambar 6.

6 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

Gambar 6. T-Test

Hasil dari T-Test yang telah dilakukan, Gambar 9. Rule pohon Keputusan
tersaji dalam gambar 7 dibawah ini :
Berdasarkan hasil evaluasi pada rule pohon
keputusan, dapat dilihat bahwa algoritma
yang paling baik digunakan untuk data
ditentukan lulusan mata kuliah Algoritma
di Universitas Budi Luhur. selanjutnya
dilakukan pengujian perbandingan antara
masing-masing variabel yang didapat
dengan menggunakan pengujian. Gambar
10.

Gambar 7. Hasil T-Test

D. Model
Melalui dataset yang disajikan pada table 1
diatas, maka dapat di buat sebuah model
pohon keputusan dengan menggunakan
Rapid Miner 6.5, berikut adalah pohon
keputusan yang dihasilkan dari algoritma
decision tree dapat dilihat pada gambar 8 :

Gambar 10. Penilaian mata kuliah


Algoritma Universitas Budi Luhur

4. SIMPULAN
Bahwasanya hasil pengujian dan analisis
menjadi tujuan untuk mengetahui antara
Gambar 8. Pohon Keputusan model algoritma C4.5, Naive Bayes dan
Random Forest yang memiliki akurasi
Dari hasil klasifikasi dengan menggunakan paling tinggi untuk ditentukan lulusan mata
Algoritma C4.5, maka didapat rule sebagai kuliah algoritma. Hasil perbandingan
berikut Gambar 9 : antara C4.5, Naive Bayes dan Random

7 Nahot Frastian, Implementasi Komparasi Algoritma ...


Jurnal String Vol. 3 No.1 Agustus 2018 p-ISSN: 2527 - 9661
e-ISSN: 2549 - 2837

Forest diukur tingkat akurasinya [2] Fawcett, T. (2006). An introduction to


menggunakan pengujian Confusion Matrix ROC analysis. Pattern Recognition
dan Kurva ROC. Berdasarkan hasil Letters, 27(8), 861–874.
pengukuraan tingkat akurasi kedua [3] Gorunescu, F. (2011). Data Mining:
algoritma tersebut, diketahui bahwa nilai Concepts, Models and Techniques.
akurasi C4.5 (decision tree) adalah 98.89% Berlin: Springer.
dan nilai AUC adalah 0.500, selanjutnya [4] Jang, J. S., Sun, C. T., dan Mizutani, E.
nilai akurasi Naive Bayes 97.67% dan nilai (1997). Neuro-Fuzzy and Soft
AUC adalah 2.000, sedangkan nilai Computing : A Computational
akurasi Random Forest adalah 96.56% Approach to Learning and Machine
serta nilai UAC adalah 2.000. Dapat Intelligence. New Jersey: Prentice
disimpulkan bahwa dengan menggunakan Hall.
model C4.5 (decision tree) lebih tinggi [5] Khan, I. A., dan Choi, J. T. (2014). An
tingkat akurasinya, menjadi meningkat Application of Educational Data
akurasi sebesar 2.22%. Mining (EDM) Technique for
Scholarship Prediction. International
DAFTAR PUSTAKA Journal of Software Engineering and
[1] Bramer, M.(2007). Principles of Data Its Applications, 8(12), 31-42.
Mining London: Springer Clark. L.A., [6] Vercellis, C. (2009). Business
Kochanska, G., & Ready, R. (2000). Intelligence. United John Wiley and
Mothers' personality and its interaction Sons.
with child temperament as predictors
of parenting behavior. Journal of
Personality and Social Psychology, 79,
274-285.

8 Nahot Frastian, Implementasi Komparasi Algoritma ...

Anda mungkin juga menyukai