Anda di halaman 1dari 95

KOMPARASI ALGORITMA C4.

5, NAIVE BAYES, DAN


RANDOM FOREST UNTUK KLASIFIKASI DATA
KELULUSAN MAHASISWA

TESIS

IBNU ALFAROBI
14001810

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER


SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2017
KOMPARASI ALGORITMA C4.5, NAIVE BAYES, DAN
RANDOM FOREST UNTUK KLASIFIKASI DATA
KELULUSAN MAHASISWA

TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer (M.Kom)

IBNU ALFAROBI
14001810

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER


SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2017
SURAT PERNYATAAN ORISINALITAS

Yang bertanda tangan di bawah ini :

Nama : Ibnu Alfarobi


NIM : 14001810
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining

Dengan ini menyatakan bahwa tesis yang telah saya buat dengan judul:
“Komparasi Algoritma C4.5, Naive Bayes, dan Random Forest Untuk Klasifikasi
Data Kelulusan Mahasiswa” adalah hasil karya sendiri, dan semua sumber baik
yang kutip maupun yang dirujuk telah saya nyatakan dengan benar dan tesis
belum pernah diterbitkan atau dipublikasikan dimanapun dalam bentuk apapun.

Demikianlah surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila


dikemudian hari ternyata saya memberikan keterangan palsu dan atau ada pihak
lain yang mengklaim bahwa tesis yang telah saya buat adalah hasil karya milik
seseorang atau badan tertentu saya bersedia diproses baik secara pidana maupun
perdata dan kelulusan saya dari Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Managemen Informatika dan Komputer Nusa Mandiri
dicabut/dibatalkan.

Jakarta, 16 Februari 2017


Yang menyatakan,

Ibnu Alfarobi

iii
HALAMAN PENGESAHAN

Tesis ini diajukan oleh :


Nama : Ibnu Alfarobi
NIM : 14001810
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Judul Tesis : “Komparasi Algoritma C4.5, Naive Bayes, dan Random
Forest Untuk Klasifikasi Data Kelulusan Mahasiswa

Telah dipertahankan dihadapan Dewan Penguji dan diterima sebagai bagian


persyaratan yang diperlukan untuk memperoleh gelar Magister Ilmu Komputer
(M. Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi
Managemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa Mandiri).

Jakarta, 16 Februari 2017


Pascasarjana Magister Ilmu Komputer
STMIK Nusa Mandiri
Direktur

Prof. Dr. Ir. Kaman Nainggolan, MS

DEWAN PENGUJI

Penguji I : ....................................

Penguji II : .....................................

Penguji III/ : Ir. Dana Indra Sensuse, MLIS, Ph.D .....................................

iv
Pembimbing
LEMBAR KONSULTASI BIMBINGAN TESIS

Pascasarjana Magister Ilmu Komputer


STMIK Nusa Mandiri

Nama : Ibnu Alfarobi


NIM : 14001810 Foto
Dosen Pembimbing : Ir. Dana Indra Sensuse, MLIS, Ph.D
Judul Tesis : Komparasi Algoritma C4.5, Naive Bayes, 2x3
dan Random Forest Untuk Klasifikasi
Data Kelulusan Mahasiswa

Tanggal Paraf dosen


No Materi
No Bimbingan
Bimbingan Pembimbing

1 08 Januari 2017 Pengajuan Judul dan Pengajuan Bab I

2 15 Januari 2017 Revisi Bab I dan Pengajuan Bab II

3 22 Januari 2017 Revisi Bab II dan Pengajuan Bab III

4 29 Januari 2017 Revisi Bab III dan Pengajuan Bab IV

5 02 Februari 2017 Revisi Bab IV dan Pengajuan Bab V

6 05 Februari 2017 Revisi Bab V

7 08 Februari 2017 Acc Keseluruhan

Bimbingan dimulai pada tanggal : 8 Januari 2017


Bimbingan diakhiri pada tanggal : 8 Februari 2017
Jumlah pertemuan :7

Jakarta, 16 Februari 2017


Dosen Pembimbing

( Ir. Dana Indra Sensuse, MLIS, Ph.D )

v
KATA PENGANTAR

Puji syukur alhamdulillah, penulis panjatkan kehadirat Allah SWT, yang


telah melimpahkan rahmat dan karunia-Nya, sehingga pada akhirnya penulis
dapat menyelesaikan tesis ini dengan tepat pada waktunya. Di mana tesis ini
penulis sajikan dalam bentuk buku yang sederhana. Adapun judul tesis yang
penulis ambil adalah sebagai berikut : “Komparasi Algoritma C4.5, Naive Bayes,
dan Random Forest Untuk Klasifikasi Data Kelulusan Mahasiswa”.
Tujuan penulisan tesis ini dibuat sebagai salah satu syarat untuk
mendapatkan gelar Magister Ilmu Komputer (M.Kom) pada Program
Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Managemen Informatika
dan Komputer Nusa Mandiri (PPs MIK STMIK Nusa Mandiri).
Tesis ini diambil berdasarkan hasil eksperimen mengenai klasifikasi
kelulusan mahasiswa yang dikomparasikan dengan menggunakan algoritma C4.5,
Naive Bayes, dan Random Forest. Penulis juga mencari dan menganalisa berbagai
macam sumber literatur, baik dalam bentuk jurnal ilmiah, buku-buku literatur,
internet, dan lain-lain yang terkait dengan pembahasan pada tesis ini.
Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua
pihak dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini
tepat pada waktunya. Untuk itu, pada kesempatan ini izinkanlah penulis
mengucapkan ucapan terima kasih yang sebesar-besarnya kepada :
1. Allah SWT yang selalu mencurahkan nikmat dan rahmatNya pada saya
sehingga saya dapat menyelesaikan tesis ini tepat pada waktunya.
2. Bapak Dr. Dana Indra Sensuse, selaku pembimbing tesis yang telah
menyediakan waktu, pikiran dan tenaga dalam membimbing penulis dalam
menyelesaikan tesis ini.
3. Orangtua tercinta yang telah memberikan dukungan moral maupun spiritual.
4. Staff / karyawan / dosen di lingkungan Program Pascasarjana Magister Ilmu
Komputer Sekolah Tinggi Managemen Informatika dan Komputer Nusa
Mandiri (PPs STMIK Nusa Mandiri) yang telah memberikan pelajaran yang
berarti bagi penulis selama menempuh studi

vi
5. Seluruh rekan kerja penulis di Bina Sarana Informatika yang telah banyak
memberikan masukan-masukan yang bermanfaat pada penelitian ini,
khususnya Staff bagian Marketing Komunikasi BSI.
6. Rekan-rekan mahasiswa kelas 14.4A.01.

Serta semua pihak yang terlalu banyak untuk disebut satu persatu
sehingga terwujudnya penulisan ini. Penulis menyadari bahwa penulisan tesis ini
masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran yang
bersifat membangun demi kesempurnaan penulisan dimasa yang akan datang.
Akhir kata semoga skripsi ini dapat berguna bagi penulis khususnya dan
bagi para pembaca yang berminat pada umumnya.

Jakarta, 16 Februari 2017

Ibnu Alfarobi
Penulis

vii
SURAT PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya :

Nama : Ibnu Alfarobi


NIM : 14001810
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Jenis Karya : Tesis

Demi pengembangan ilmu pengetahuan, dengan ini menyetujui untuk


memberikan ijin kepada pihak Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK
Nusa Mandiri) Hak Bebas Royalti Non-Eksklusif (Non-exclusive Royalti-Free
Right) atas karya ilmiah kami yang berjudul : “Komparasi Algoritma C4.5, Naive
Bayes, dan Random Forest Untuk Klasifikasi Data Kelulusan Mahasiswa”.

Dengan Hak Bebas Royalti Non-Eksklusif ini pihak STMIK Nusa Mandiri
berhak menyimpan, mengalih-media atau bentuk-kan, mengelolaannya dalam
pangkalan data (database), mendistribusikannya dan menampilkan atau
mempublikasikannya di internet atau media lain untuk kepentingan akademis
tanpa perlu meminta ijin dari kami selama tetap mencantumkan nama kami
sebagai penulis/pencipta karya ilmiah tersebut.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK
Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak
Cipta dalam karya ilmiah saya ini.

Demikian pernyataan ini saya buat dengan sebenarnya.

Jakarta, 16 Februari 2017


Yang menyatakan,

Ibnu Alfarobi

viii
ABSTRAK

Nama : Ibnu Alfarobi


NIM : 14001810
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Judul : “Klasifikasi Algoritma C4.5, Naive Bayes, dan Random
Forest Untuk Klasifikasi Data Kelulusan Mahasiswa”

Mengetahui tingkat kelulusan mahasiswa dalam suatu institusi pendidikan


sangatlah penting. Selain untuk tetap menjaga kredibilitas institusi tersebut,
tingkat kelulusan juga berperan dalam menjaga rasio antara mahasiwa dengan
dosen agar tetap dalam takaran yang tepat. Data kelulusan mahasiswa setiap
tahunnya akan semakin bertambah dan beresiko menimbulkan penumpukkan pada
data sehingga akan mempengaruhi pencarian informasi terhadap data tersebut.
Salah satu disiplin ilmu pengetahuan yang mempelajari metode untuk
mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar adalah
Data Mining. Penelitian ini dilakukan dengan membagi data testing dan data
training dengan perbandingan 10 : 90, 20 : 80, dan 30 : 70. Tujuan dari penelitian
ini adalah untuk mengkomparasikan algoritma C4.5, Naive Bayes, dan Random
Forest dalam penentuan klasifikasi data kelulusan mahasiswa. Hasil penelitian
menunjukkan bahwa secara keseluruhan algoritma klasifikasi C4.5 mempunyai
akurasi paling besar jika dibandingkan dengan algoritma Naive Bayes ataupun
Random Forest dengan tingkat akurasi sebesar 85.34% pada eksperimen pertama
dan 89.06% pada ekperimen ketiga. Sedangkan pengukuran dengan menggunakan
ROC curve, algoritma Naive Bayes menjadi algoritma yang mempunyai tingkat
akurasi teringgi dibandingkan dengan algoritma C4.5 dan Random Forest dengan
nilai AUC sebesar 0.925.

Kata kunci: Klasifikasi, Kelulusan Mahasiswa, C4.5, Naive Bayes, Random


Forest.

ix
ABSTRACT

Nama : Ibnu Alfarobi


NIM : 14001810
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Judul : “Klasifikasi Algoritma C4.5, Naive Bayes, dan Random
Forest Untuk Klasifikasi Data Kelulusan Mahasiswa”

Knowing the graduation rate of students in an educational institution is very


important. Besides to maintaining the credibility of the institution, the graduation
rate was also have a roll to keeping the ratio between students and lecturers in
order to stay in the right amount. Graduation’s data students in every year will be
growing and cause a build up of the student data that affect information retrieval
to the data. One of sciences are studying method to extract knowledge or find a
pattern from a huge data is Data Mining. This research was conducted by
dividing the data be a data testing and data training with ratio of them 10 : 90, 20
:80, and 30 : 70. The purpose of this study was to compare the algorithm C4.5,
Naive Bayes, and Random Forest in determining classification of data student
graduation. The results showed that overall algorithm classification C4.5 has the
greatest accuracy when compared with naive bayes or random forest with the
result of an acurracy 85.34% in the first experiment and 89.06% in the third
experiment. At the same time, measurements using ROC curve, naive bayes has a
highest value with AUC value 0.925.

Keywords : Classification, Graduation students, C4.5, Naive Bayes, Random


Forest.

x
DAFTAR ISI

Halaman

HALAMAN SAMPUL ............................................................................... i

HALAMAN JUDUL................................................................................... ii

HALAMAN PERNYATAAN ORISINALITAS ........................................ iii

HALAMAN PENGESAHAN..................................................................... iv

LEMBAR KONSULTASI .......................................................................... v

KATA PENGANTAR ................................................................................ vi

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA

ILMIAH UNTUK KEPENTINGAN AKADEMIS .................................... viii

ABSTRAK .................................................................................................. ix

ABSTRACT ................................................................................................ x

DAFTAR ISI ............................................................................................... xi

DAFTAR TABEL ....................................................................................... xiii

DAFTAR GAMBAR .................................................................................. xiv

DAFTAR LAMPIRAN ............................................................................... xvi

BAB 1. PENDAHULUAN ........................................................................ 1

1.1. Latar Belakang Penulisan ..................................................... 1

1.2. Identifikasi Masalah ............................................................. 3

1.3. Rumusan Masalah ................................................................ 4

1.4. Tujuan Penelitian ................................................................. 4

1.5. Manfaat Penelitian ............................................................... 4

1.6. Ruang Lingkup Penelitian.................................................... 4

1.7. Sistematika Penulisan .......................................................... 5

BAB 2. LANDASAN TEORI .................................................................... 6

xi
2.1. Tinjauan Pustaka .................................................................. 6

2.2. Tinjauan Studi ...................................................................... 25

2.3 Kerangka Pemikiran.............................................................. 29

BAB 3. METODE PENELITIAN.............................................................. 30

3.1. Desain Penelitian ................................................................. 30

3.2. Pengumpulan Data ............................................................... 32

3.3. Pengolahan Data Awal ......................................................... 34

3.4. Pengujian Model .................................................................. 34

3.5. Evaluasi dan Validasi Hasil ................................................. 35

BAB 4. HASIL PENELITIAN DAN PEMBAHASAN ............................ 38

4.1. Hasil Penelitian .................................................................... 38

4.1.1. Menyiapkan Data Training ...................................... 38

4.1.2. Hasil Eksperimen dan Pengujian Model ................. 40

4.2. Perbandingan Keseluruhan Model ....................................... 57

BAB 5. PENUTUP ................................................................................... 58

5.1. Kesimpulan .......................................................................... 58

5.2. Saran .................................................................................... 58

DAFTAR REFERENSI .............................................................................. 59

DAFTAR RIWAYAT HIDUP .................................................................... 60

xii
DAFTAR TABEL

Halaman

Tabel 2.1 Model Confussion Matrix ......................................................... 23


Tabel 2.2 Rangkuman Penelitian Terkait .................................................. 28
Tabel 3.1 Data Kelulusan Mahasiswa ....................................................... 33
Tabel 3.2 Spesifikasi Hardware dan Software.......................................... 35
Tabel 4.1 Hasil Komparasi Algoritma ...................................................... 57

xiii
DAFTAR GAMBAR

Halaman

Gambar 2.1 Proses CRISP-DM ................................................................ 7


Gambar 2.2 Taksonomi Peranan Data Mining .......................................... 10
Gambar 2.3 Contoh Konsep Pohon Keputusan Sederhana ....................... 12
Gambar 2.4 Ilustrasi 10-Fold Cross Validation ........................................ 21
Gambar 2.5 Grafik ROC ........................................................................... 25
Gambar 2.6 Kerangka Pemikiran .............................................................. 29
Gambar 3.1 Tahapan Penelitian ................................................................ 30
Gambar 3.2 Model yang Diusulkan .......................................................... 36
Gambar 4.1 Contoh Data yang Terdapat Missing Value........................... 38
Gambar 4.2 Penambahan Operator Replace Missing Value ..................... 39
Gambar 4.3 Hasil Penambahan Operator Replace Missing Value ........... 40
Gambar 4.4 Confussion Matrix Algoritma C4.5 (data testing 10% : data
training 90%) ........................................................................ 42
Gambar 4.5 Confussion Matrix Algoritma C4.5 (data testing 20% : data
training 80%) ........................................................................ 43
Gambar 4.6 Confussion Matrix Algoritma C4.5 (data testing 30% : data
training 70%) ........................................................................ 44
Gambar 4.7 Grafik AUC Algoritma C4.5 (data testing 10% : data
Training 90%) ....................................................................... 45
Gambar 4.8 Grafik AUC Algoritma C4.5 (data testing 20% : data
Training 80%) ....................................................................... 45
Gambar 4.9 Grafik AUC Algoritma C4.5 (data testing 30% : data
Training 70%) ....................................................................... 46
Gambar 4.10 Confussion Matrix Algoritma Naive Bayes (data testing 10% :
data training 90%) ................................................................ 47
Gambar 4.11 Confussion Matrix Algoritma Naive Bayes (data testing 20% :
data training 80%) ................................................................ 48
Gambar 4.12 Confussion Matrix Algoritma Naive Bayes (data testing 30% :
data training 70%) ............................................................... 49
Gambar 4.13 Grafik AUC Algoritma Naive Bayes (data testing 10% : data
Training 90%) ...................................................................... 50
Gambar 4.14 Grafik AUC Algoritma Naive Bayes (data testing 20% : data
Training 80%) ...................................................................... 50
Gambar 4.15 Grafik AUC Algoritma Naive Bayes (data testing 30% : data
Training 70%) ...................................................................... 51
Gambar 4.16 Confussion Matrix Algoritma Random Forest (data testing
10% : data training 90%) .................................................... 52
Gambar 4.17 Confussion Matrix Algoritma Random Forest (data testing
20% : data training 80%) .................................................... 53
Gambar 4.18 Confussion Matrix Algoritma Random Forest (data testing
30% : data training 70%) .................................................... 54
Gambar 4.19 Grafik AUC Algoritma Random Forest (data testing 10% :
data Training 90%) .............................................................. 55

xiv
Gambar 4.20 Grafik AUC Algoritma Random Forest (data testing 20% :
data Training 80%) .............................................................. 55
Gambar 4.21 Grafik AUC Algoritma Random Forest (data testing 30% :
data Training 70%) .............................................................. 56
Gambar 4.22 Contoh Model Random Forest yang Terbentuk .................. 56

xv
DAFTAR LAMPIRAN

Lampiran 1. Tabel Dataset Kelulusan Mahasiswa ...................................... 61


Lampiran 2. Operator Replace Missing Value ............................................ 75
Lampiran 3. Penggunaan Algoritma Naive Bayes ...................................... 76
Lampiran 4. Penggunaan Algoritma Random Forest .................................. 77
Lampiran 5. Penggunaan Algoritma C4.5 .................................................. 78

xvi
BAB I
PENDAHULUAN

1.1 Latar Belakang


Mengetahui tingkat kelulusan mahasiswa dalam suatu institusi
pendidikan sangatlah penting. Selain untuk tetap menjaga kredibilitas institusi
tersebut, tingkat kelulusan juga berperan dalam menjaga rasio antara mahasiwa
dengan dosen agar tetap dalam takaran yang tepat. Untuk itu, informasi yang
cepat, tepat, dan akurat tentang klasifikasi tingkat kelulusan mahasiswa akan
sangat dibutuhkan supaya pihak institusi dapat membuat strategi ataupun solusi
yang tepat agar dapat menjaga bahkan meningkatkan trend positif terkait tingkat
kelulusan mahasiswa.
Saat ini sebuah perguruan tinggi atau Universitas dituntut untuk selalu
memiliki keunggulan bersaing dengan memanfaatkan semua sumber daya yang
dimilikinya. Selain sumber daya sarana, prasarana, dan manusia, sistem informasi
adalah salah satu sumber daya yang dapat digunakan untuk meningkatkan
keunggulan bersaing (Kovačić, 2006). Teknologi yang berkembang sampai saat
ini pun membuat sebuah sistem informasi berperan semakin penting dalam
menunjang kegiatan operasional sehari-hari sekaligus menunjang kegiatan
pengambilan keputusan strategis.
Salah satu disiplin ilmu yang mempelajari metode untuk mengekstrak
pengetahuan atau menemukan pola dari suatu data yang besar adalah Data
Mining. Data mining adalah proses melakukan ekstraksi untuk mendapatkan
informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari
suatu data (Witten et al., 2011). Huge of interesting (non-trivial, implicit,
previously unknown and potentially useful) patterns or knowledge from huge
amount of data (Han et al., 2011). Data mining sering dianggap sebagai bagian
dari Knowledge Discovery in Database (KDD) yaitu sebuah proses mencari
pengetahuan yang bermanfaat dari data. Selain itu data mining juga dikenal
dengan nama knowledge extraction, pattern analysis, information harvesting, dan
Business intelligence.

1
2

Ada 5 peranan utama data mining, yaitu: Estimasi, Prediksi, Klasifikasi,


Klastering, dan Asosiasi. Algoritma data mining yang sering digunakan dalam
klasifikasi diantaranya adalah Naive Bayes, K-Nearest Neighbor, C4.5, ID3,
CART, Linear Discriminant Analysis, Logistic Regression, dan lain-lain. Namun,
pada Tesis ini penulis hanya akan menggunakan algoritma C4.5, Naive Bayes,
dan Random Forest untuk mengolah, mengklasifikasikan, serta memining
knowledge dari dataset kelulusan mahasiswa.
Pemilihan penggunaan algoritma C4.5, Naive Bayes, dan Random Forest
pada penelitian ini didasarkan pada beberapa alasan, yaitu: Selain ketiga algoritma
tersebut sama-sama mudah diimplementasikan dan sama-sama dapat memberikan
hasil yang baik dalam kasus klasifikasi, ketiga algoritma tersebut juga mempunyai
beberapa keunggulan masing-masing. C4.5 merupakan algoritma klasifikasi
pohon keputusan yang efisien dalam menangani atribut bertipe diskret dan
numerik (Han et al., 2012). Algoritma Naive Bayes, (Han et al., 2012)
menjelaskan bahwa algoritma ini hanya membutuhkan satu kali scan data training.
Sedangkan algoritma Random Forest, didasarkan pada pernyataan (Breiman,
2001) yang menyebutkan bahwa algoritma random forest dapat mengatasi data
training dalam jumlah sangat besar secara efisien dan merupakan metode yang
efektif dalam mengestimasi missing data.
Dalam data mining, penelitian mengenai klasifikasi kelulusan mahasiswa
sudah pernah dilakukan oleh peneliti lain. Sebagian besar penelitian tersebut
difokuskan pada identifikasi variabel prediktor. Ada banyak penelitian dalam
literatur terdahulu yang menjelaskan faktor-faktor apa saja yang dapat
mensukseskan proses pengklasifikasian kelulusan mahasiswa. Faktor-faktor
tersebut secara umum dibagi menjadi dua, yaitu faktor pra penerimaan mahasiswa
dan pasca penerimaan mahasiswa. Ada peneliti yang menyimpulkan bahwa IPK
pada waktu SMA tidak hanya menjadi sebuah prediktor terbaik penentu kelulusan
di tahun pertama, tetapi juga menjadi prediktor sampai mahasiswa tersebut
mendapatkan gelar (Geisler & Santelices, 2007), prestasi SMA, peringkat SMA
adalah prediktor kelulusan yang lebih baik dari pada nilai tes masuk perguruan
tinggi (Niu & Tienda, 2009), peneliti lain menemukan korelasi antara kualitas
3

SMA dengan keberhasilan siswa di perguruan tinggi mempengaruhi kelulusannya


(Black et al., 2015).
Database yang ada di dunia pada saat ini sangat rentan terhadap noisy
data, data yang hilang atau tidak lengkap, dan data yang tidak konsisten karena
biasanya ukuran dari database tersebut sangat besar serta sumber dari data-data
tersebut biasanya lebih dari satu (heterogen). Untuk itu, menyiapkan data yang
baik, memadai dan representatif merupakan langkah awal yang tidak dapat
diabaikan begitu saja. Kehandalan informasi yang akan di mining dari sebuah
database yang ada bergantung pada kualitas data yang nantinya akan diproses.
Ada beberapa teknik data preprocessing yang dapat digunakan untuk
menghasilkan data yang berkualitas. Data cleaning dapat diterapkan untuk
menghilangkan noise dan data yang tidak konsisten. Data integration dapat
digunakan untuk menggabungkan data-data dari banyak sumber menjadi satu data
yang saling berhubungan dalam satu data store. Data reduction dapat mengurangi
ukuran data. Data transformation untuk meningkatkan akurasi dan efisiensi
algoritma mining yang melibatkan pengukuran jarak (Han, 2012).

1.2 Identifikasi Masalah


Penggunaan algoritma C4.5, Naive Bayes, dan Random Forest sudah
pernah digunakan untuk mengolah dan memining knowledge dari dataset
kelulusan mahasiswa. Ketiga algoritma data mining tersebut pun masing-masing
mempunyai kelebihan dan kekurangan. Namun dari ketiganya belum dapat
dipastikan model mana yang lebih akurat dan cepat dalam melakukan klasifikasi.
Hal ini dikarenakan dataset yang digunakan oleh peneliti sebelumnya tidak sama,
perlakuan yang diberikan kepada data tersebut juga berbeda. Semakin kompleks
data, noise pada data, serta data yang tidak konsisten tentunya akan berdampak
pada kinerja algoritma pengklasifikasinya. Untuk mendapatkan model algoritma
yang paling baik, maka penulis membandingkan tiga algoritma di atas dengan
menggunakan dataset yang sama serta perlakuan yang sama pada dataset tersebut.
4

1.3 Rumusan Masalah


Berdasarkan identifikasi masalah di atas, maka pada penelitian ini
berusaha menjawab pertanyaan model mana yang lebih akurat dan cepat antara
algoritma C4.5, Naive Bayes, dan Random Forest dalam klasifikasi kelulusan
mahasiswa.

1.4 Tujuan Penelitian


Tujuan dari penelitian ini adalah untuk membandingkan algoritma yang
paling akurat dalam penentuan klasifikasi kelulusan mahasiswa. Algoritma-
algoritma yang digunakan adalah C4.5, Naive Bayes, dan Random Forest.

1.5 Manfaat Penelitian


Manfaat dari penelitian ini adalah sebagai berikut:
a. Manfaat praktis dari penelitian ini adalah dengan hasil yang akurat,
memberikan kontribusi keilmuan pada penelitian bidang klasifikasi data
mining bahwa model algoritma ini dapat digunakan untuk menentukan
klasifikasi kelulusan mahasiswa.
b. Manfaat teoritis dari penelitian ini diharapkan dapat memberikan
masukkan atas teori pemodelan algoritma C4.5, Naive Bayes, dan
Random Forest khususnya untuk penelitian yang berhubungan dengan
penelitian di bidang klasifikasi.
c. Manfaat kebijakan dari hasil penelitian ini diharapkan dapat digunakan
untuk membantu para stakeholder institusi pendidikan dalam mengambil
keputusan atau strategi yang nantinya akan dipakai untuk meningkatkan
tingkat kelulusan mahasiswanya.

1.6 Ruang Lingkup Penelitian


Data yang akan dianalisis merupakan data mahasiswa dengan parameter
yang diuji antara lain jenis kelamin, usia, status nikah, status mahasiswa, dan
indeks prestasi semester 1 sampai 8. Ruang lingkup penelitian ini terbatas pada
komparasi penggunaan algoritma C4.5, Naive Bayes, dan Random Forest dalam
mengklasifikasikan data kelulusan mahasiswa.
5

1.7 Sistematika Penulisan


Sistematika penulisan tesis ini terdiri dari 5 (lima) bab, dimana setiap bab
terdiri dari beberapa sub bab yaitu:
Bab I Pendahuluan
Bab ini menguraikan tentang latar belakang, masalah penelitian,
identifikasi masalah, batasan masalah, tujuan dan manfaat penelitian,
serta sistematika penulisan.

Bab II Landasan Teori


Pada bab ini berisi teori-teori mengenai mahasiswa, perguruan tinggi,
data mining, algoritma C4.5, Naive Bayes, dan Random Forest, serta
kerangka pemikiran dari penelitian, dan penjelasan mengenai objek
penelitian.

Bab III Metode Penelitian


Pada bab ini berisi mengenai tahapan penelitian yang dilakukan, design
penelitian dengan penggambaran analisa komparasi metode data mining
yakni algoritma C4.5, Naive Bayes, dan Random Forest. Di dalam
tahapan penelitian dibahas mengenai eksperimen-eksperimen yang
dilakukan dalam memperoleh hasil klasifikasi kelulusan mahasiswa.

Bab IV Hasil dan Pembahasan


Pada bab ini berisi mengenai pembahasan, tata cara dan langkah-langkah
algoritma data mining, langkah-langkah perhitungan metode, serta
berisikan hasil akhir penelitian yaitu akurasi masing-masing metode data
mining.

Bab V Penutup
Pada bab ini berisi kesimpulan dari penulisan pada bab-bab sebelumnya
dan saran mengenai penelitian selanjutnya.
BAB II
LANDASAN TEORI

2.1 Tinjauan Pustaka


Tinjauan pustaka dalam penulisan tesis ini dilakukan dengan
menggunakan literature yang berhubungan dengan judul yang dipilih. Untuk lebih
detail, tinjauan pustaka dalam penulisan tesis ini dapat dijelaskan sebagai berikut:

2.1.1 Data Mining


Salah satu disiplin ilmu yang dapat digunakan untuk menemukan pola
atau memining knowledge dari suatu big data yang ada adalah Data Mining. Data
mining adalah teknik untuk menemukan dan mendeskripsikan pola-pola yang ada
dalam data tersebut dan membuat prakiraan dari data itu (Witten & Eibe Frank,
2005). Data mining sering dianggap sebagai bagian dari Knowledge Discovery in
Database (KDD) yaitu sebuah proses mencari pengetahuan yang bermanfaat dari
data atau ekstrasi pola secara otomatis mewakili pengetahuan yang disimpan atau
ditangkap secara tersembunyi di dalam sebuah database besar, gudang data, web,
repositori informasi lainnya, atau data stream (Han et al., 2012).
Pada dasarnya, data mining dapat dilihat sebagai ilmu yang
mengeksplorasi dataset dalam jumlah besar untuk penggalian informasi yang
tersirat, yang sebelumnya tidak diketahui dan berpotensi menghasilkan informasi
yang berguna (Gorunescu, 2011). Data mining adalah suatu proses menemukan
hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam
sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan
teknik pengenalan pola seperti teknik statistik dan matematika (Larose, 2005).
Data mining adalah proses terorganisir untuk mengidentifikasi pola yang valid,
baru, berguna, dan dapat dimengerti dari sebuah dataset yang besar dan kompleks
(Maimon & Rokach, 2010).
Kemajuan dalam bidang data mining didorong oleh beberapa faktor, antara
lain (Larose, 2005):
1. Pertumbuhan yang cepat dalam kumpulan data.

6
7

2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan


memiliki akses ke dalam database yang andal.
3. Adanya peningkatan akses data melalui navigasi web dan intranet
4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi
5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan
teknologi)
6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan
kapasitas media penyimpanan

Data mining adalah sebuah proses, sehingga dalam melakukan prosesnya


harus sesuai dengan prosedur proses CRISP-DM (Cross-Industry Standard
Process for Data Maining) yaitu sebagai keseluruhan proses, preprocesing data,
pembentukan model, model evaluasi, dan akhirnya penyebaran model (Larose,
2005). CRISP-DM menyediakan standar proses data mining sebagai strategi
pemecahan masalah secara umum dari bisnis atau unit penelitian. Dapat dilihat
pada Gambar 2.1 sebagai berikut:

Gambar 2.1 Proses CRISP-DM (Larose, 2005)


8

1. Fase Pemahaman Bisnis (Business / Research Understanding Phase)


a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan
data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil group data yang mungkin
mengandung pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu di laksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis
yang akan dilakukan.
c. Lakukan perubahan pada beberapa variable jika di butuhkan.
d. Siapkan data awal sehingga siap untuk perangkat permodelan.
4. Fase Pemodelan (Modeling Phase)
a. Pilih dan aplikasikan teknik permodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan
pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
9

5. Fase Evaluasi (Evaluation Phase)


a. Mengevaluasi satu atau lebih model yang di gunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektifitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks penyebaran: Penerapan proses data mining secara
paralel pada departemen lain
Terdapat lima peranan utama data maining mengacu pada Larose (2005),
lima peranan tersebut yaitu:
1. Fungsi estimasi (estimation)
Fungi estimasi adalah fungsi untuk memperkirakan suatu hal yang sudah ada
datanya. Fungsi estimasi terdiri dari dua cara yaitu Estimasi Titik dan
Estimasi Selang Kepercayaan
2. Fungsi prediksi (prediction)
Fungsi prediksi adalah memperkirakan hasil dari hal yang belum diketahui,
untuk mendapatkan hal baru yang akan muncul selanjutnya. Cara
memprediksi dalam fungsi ini adalah Regresi Linier
3. Fungsi klasifikasi (classification)
Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan
terdiri dari algoritma Mean Vector, algoritma K-nearset Neighbor, algoritma
ID3, algoritma C4.5, dan algoritma C5.0
10

4. Fungsi pengelompokan (cluster)


Fungsi pengelompokan, data yang dikelompokan disebut objek catatan yang
memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang
berbeda. Algoritma yang digunakan adalah algorirtma Hirarchical Clustering,
algoritma Partitional Clustering, algoritma Single Linkage, algoritma
Complete Linkage, algoritma Average Linkage, algoritma K-Means dan lain-
lain
5. Fungsi asosiasi (association)
Fungsi asosiasi adalah untuk menemukan aturan asosiasi (association rule)
yang mampu mengidentifikasi item-item yang menjadi objek. Algoritma yang
digunakan adalah algoritma Generalized Association Rule, Quantitative
Association Rule, asynchronous Parallel Mining.

Gambar 2.2 Taksonomi Peranan Data Mining


(Gorunescu, 2011)
11

2.1.2 Klasifikasi
Klasifikasi adalah proses menempatkan obyek atau konsep tertentu
kedalam satu set kategori, berdasarkan sifat obyek atau konsep yang bersangkutan
(Gorunescu, 2011). Dalam klasifikasi terdapat dua pekerjaan utama yang
dilakukan: pertama, pembangunan model sebagai prototype untuk disimpan
sebagai memori. Kedua, penggunaan model tersebut untuk melakukan
pengenalan/klasifikasi/prediksi pada suatu objek data lain agar diketahui di kelas
mana objek data tersebut berada.
Proses klasifikasi didasarkan pada komponen (Gorunescu, 2011):
1. Kelas (Class)
Variabel dependen dari model yang merupakan kategori variabel yang
mewakili label-label yang diletakkan pada obyek setelah pengklasifikasian.
Contoh: kelas bintang, kelas gempa bumi
2. Prediktor (Predictor)
Variabel independen dari model yang diwakili oleh karakteristik atau atribut
dari data yang diklasifikasikan berdasarkan klasifikasi yang dibuat. Contoh:
tekanan darah, status perkawinan, musim
3. Dataset Pelatihan (Training Dataset)
Merupakan dataset yang berisi dua komponen nilai yang digunakan untuk
pelatihan mengenali model yang sesuai dengan kelasnya, berdasarkan
prediktor yang ada. Contoh: database penelitian gempa, database badai,
database pelanggan supermarket
4. Database Pengujian (Testing Database)
Merupakan dataset baru yang akan diklasifikasikan oleh model yang
dibangun sehingga dapat dievaluasi hasil akurasi klasifikasi tersebut.

2.1.3 Algoritma C4.5


Salah satu motode klasifikasi yang melibatkan konstruksi pohon
keputusan, koleksi node keputusan, terhubung oleh cabang-cabang,
memperpanjang ke bawah dari simpul akar sampai berakhir di node daun.
Dimulai dari node root, yang oleh konvensi ditempatkan dibagian atas dari
diagram pohon keputusan, atribut diuji pada node keputusan, dengan setiap hasil
12

yang mungkin menghasilkan cabang. Setiap cabang kemudian mengarah ke node


lain baik keputusan atau ke node daun untuk mengakhiri.
Algoritma C4.5 dan pohon keputusan (decision tree) merupakan dua
mode yang tidak terpisahkan, karena untuk membangun sebuah pohon keputusan,
dibutuhkan algoritma C4.5. Decision Tree merupakan algoritma pengklasifikasian
yang sering digunakan dan mempunyai struktur yang sederhana dan mudah untuk
diinterpretasikan (Mantas & Abellan, 2014). Pohon yang terbentuk menyerupai
pohon terbalik, dimana akar (root) berada di bagian paling atas dan daun (leaf)
berada di bagian paling bawah.
Decision tree merupakan model klasifikasi yang berbentuk seperti pohon,
dimana decision tree mudah untuk dimengerti meskipun oleh pengguna yang
belum ahli sekalipun dan lebih efisien dalam menginduksi data (C. Sammut,
2011). Dari akhir tahun 1970 sampai awal 1980-an J.Ross Quinlan, melakukan
pengembangan terhadap algoritma decision tree yakni ID3 (Interative
Dichotomisemiser). Kemudian Quinlan juga menghadirkan algoritma C4.5, yang
menjadi awal dari algoritma supervised learning yang terbaru. Di tahun 1984
sebuah kelompok statistic (L.Breiman, J. Fridman, R. Olshen dan C.Stone)
mempublikasikan Classification and Regresssion Tree (CART), yang
mengambarkan generasi binary decision tree (Han & Kamber, 2007).

Gambar 2.3 Contoh Konsep Pohon Keputusan Sederhana


(Larose, 2005)
13

Tahapan dalam membuat sebuah pohon keputusan dengan algoritma C4.


5 (Larose, 2005) yaitu:
1. Mempersiapkan data training, data training biasanya diambil dari data histori
yang pernah terjadi sebelumnya atau disebut data masa lalu dan sudah
dikelompokkan dalam kelas-kelas tertentu.
2. Menghitung total entropy sebelum atau dicari masing-masing entropy class
H(T) = - ∑ Pj log2 (Pj) (2.1)
Keterangan:
H = Himpunan kasus
T = Atribut
Pj = Proporsi dari Hj terhadap H
3. Hitung nilai Gain dengan information gain dengan rata-rata:
Gain Average = H(T) - Hsaving(T) (2.2)
Keterangan:
H(T) = Total Entropy
Hsaving(T) = Total Gain information untuk masing-masing atribut
4. Ulangi langkah ke 2 dan ke 3 hingga semua tupel terpartisi.
Proses partisi pohon keputusan akan berhenti disaat:
a. Semua tupel dalam node N mendapatkan kelas yang sama
b. Tidak ada atribut di dalam tupel yang dipartisi lagi
c. Tidak ada tupel di dalam cabang yang kosong
Contoh:
Terdapat sebuah dataset seperti berikut:
14

Penghitungan Entropy

Entropy (Total) = ( - 4/14 x log2 (4/14)) + ( - 10/14 x log2 (10/14))

= 0.863

Entropy (Cloudy) = ( - 0/4 x log2 (0/4)) + ( - 4/4 x log2 (4/4))

= 0.000

Entropy (Rainy) = ( - 1/5 x log2 (1/5)) + ( - 4/5 x log2 (4/5)) Outlook

= 0.721

Entropy (Sunny) = ( - 3/5 x log2 (3/5)) + ( - 2/5 x log2 (2/5))

= 0.970

Entropy (Cool) = ( - 0/4 x log2 (0/4)) + ( - 4/4 x log2 (4/4))

= 0.000

Entropy (Hot) = ( - 2/4 x log2 (2/4)) + ( - 2/4 x log2 (2/4)) Temperature

= 1.000

Entropy (Mild) = ( - 2/6 x log2 (2/6)) + ( - 4/6 x log2 (4/6))

= 0.918

Entropy (High) = ( - 4/7) x log2 (4/7) + ( - 3/7 x log2 (3/7))

= 0.985 Humidity

Entropy (Normal) = ( - 0/7 x log2 (0/7) + ( - 7/7 x log2 (7/7))

= 0.000

Entropy (False) = ( - 2/8 x log2 (2/8) + ( - 6/8 x log2 (6/8))

= 0.811 Windy

Entropy (True) = ( - 4/6 x log2 (4/6) + ( - 2/6 x log2 (2/6)) = 0.918


15

Penghitungan Gain

Gain (Total, Outlook) =Entropy(Total-∑ |Outlook| / |Total| x Entropy( Outlook)

=0.863–((4/14x 0.000) + (5/14 x 0.721) + (5/14 x 0.970))

= 0.258

Gain (Total, Temperature) = Entropy (Total) - ∑ |Temp| / |Total| x Entropy(Temp)

=0.863–((4/14x 0.000) + (4/14 x 1.000) + (6/14 x 0.918))

= 0.183

Gain (Total, humidity) =Entropy(Total)-∑ |Humidity| / |Total| xEntropy(Humidity)

= 0.863 – ((7/14 x 0.985) + (7/14 x 0.000))

= 0.370

Gain (Total,Windy) = Entropy (Total) -∑ |Windy| / | Total | x Entropy(Windy)

= 0.863 – ((8/14 x 0.811) + (6/14 x 0.918))

= 0.005

Dari hasil penghitungan di atas, dapat diketahui bahwa atribut dengan


Gain tertinggi adalah Humidity yaitu sebesar 0.370, dengan demikian Humidity
dapat menjadi node akar.

2.1.4 Naive Bayes


Naive Bayes merupakan salah satu metode machine learning yang
menggunakan perhitungan probabilitas. Algoritma ini memanfaatkan metode
probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris bernama
Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan
pengalaman di masa sebelumnya. Algoritma pengklasifikasi Naive Bayes adalah
pengklasifikasi yang berdasarkan probabilitas bersyarat pada teorema Bayes
(Aggarwal, 2015).
16

Naive Bayes merupakan salah satu algoritma klasifikasi yang utama pada
data mining yang banyak digunakan dalam masalah klasifikasi di dunia nyata
karena metode ini memiliki performa klasifikasi yang tinggi. Beberapa kelebihan
dan kekurangan metode Naive Bayes (Han et al., 2012) adalah sebagai berikut:
a. Keuntungan:
- Mudah diimplementasikan
- Memberikan hasil yang baik untuk banyak kasus
- Hanya membutuhkan satu kali scan data training
b. Kelemahan:
- Harus mengansumsi bahwa antar fitur tidak terkait (independent). Namun
realitanya keterkaitan itu ada, sebagai contoh: biodata pasien Rumah
sakit; umur, riwayat keluarga, dan lain-lain.
- Keterkaitan tersebut tidak dapat dimodelkan oleh Naive Bayes

Cara kerja metode pengklasifikasi Naive Bayes dapat diurutkan seperti


langkah-langkah berikut (Han et al., 2012):
1. Diketahui D adalah dataset training yang terdiri dari sekumpulan baris data
dan label kelasnya. Setiap baris memiliki n dimensi vektor atribut, X = (x1,
x2,...xn ), menggambarkan n pengukuran dibuat atas baris dari n atribut,
masing-masing sebagai berikut, A1, A2,...An.
2. Terdapat m kelas, C1, C2,...Cm memberikan sampel X, pengklasifikasi akan
memprediksi bahwa X termasuk kelas yang memiliki probabilitas posteriori,
dikondisikan pada X. Dimana X diperkirakan memiliki kelas Ci jika dan
hanya jika:

P (Ci | X) > P (Cj | X) untuk 1 ≤ j ≤ m, j ≠ i (2.3)

Dengan demikian ditemukan kelas yang maksimal P(Ci | X). Kelas Ci untuk
setiap P(Ci | X) yang dimaksimalkan disebut hipotesisposteriori maksimum.
Persamaan teorema bayes:
P (X | Ci) P (Ci)
P (Ci | X) = (2.4)
P(X)
17

Dengan:
P (Ci | X) = Probabilitas hipotesis kelas Ci berdasarkan kondisi X
P (X | Ci) = Probabilitas data X berdasarkan kondisi pada kelas Ci
P (Ci) = Probabilitas awal kelas Ci
P (X) = Probabilitas awal data X
3. P (X) adalah sama untuk semua kelas, hanya P (X | Ci) P(Ci) yang perlu
dimaksimalkan. Jika kelas apriori probabilitas, P(Ci) tidak diketahui, maka
umumnya diasumsikan seperti ini P (Ci) = P (C2) = ... = P (Cm) maka dari itu
akan memaksimalkan P (X | Ci). Tapi sebaliknya akan memaksimalkan P (X |
Ci) P (Ci). Dapat diperhatikan bahwa kelas probabilitas apriori dapat
diperkirakan dengan P(Ci)= |Ci,D| / |D|, dimana |Ci,D| merupakan jumlah
pelatihan rangkap dari kelas Ci di dalam D.
4. Dataset dengan banyak atribut, akan menjadi perhitungan yang mahal untuk
menghitung P(X | Ci). Dalam rangka untuk mengurangi perhitungan dalam
mengevaluasi P(X | Ci). Pada asumsi naive bahwa kelas independen bersyarat
dibuat. Ini menganggap bahwa nilai-nilai atribut yang independen bersyarat
satu sama lain diberikan pada kelas sampel. Secara matematis berarti bahwa:

P(X | Ci) = ∏nk=1 P(Xk | Ci) (2.5)


= P(x1 | Ci) x P (X2 | Ci) x ... x P (Xn | Ci)

5. Untuk memprediksi label kelas X, P(X | Ci) P(Ci) merupakan evaluasi dari
setiap kelas Ci. Pengklasifikasi memprediksi bahwa label kelas X adalah Ci
jika dan hanya jika

P(X | Ci) P(Ci) > P(X | Cj) untuk 1 ≤ j ≤ m, j ≠ i (2.6)


18

Contoh:
Terdapat sebuah dataset seperti berikut:

Asumsi:
Y = Berolahraga
X1 = Cuaca
X2 = Temperatur
X3 = Kecepatan angin
Fakta:
P (Y = ya) = 4/6
P (Y = tidak) = 2/6
Jika suatu hari:
Cuaca = Cerah
Kecepatan angin = Kencang
Berolahraga = ?
Maka hipotesa yang diambil berdasarkan nilai probabilitas dari kondisi prior yang
diketahui:
P (X1 = Cerah, X3 = Kencang, Y = ya)
= { P (X1 = Cerah | Y = ya) . P (X3 = Kencang | Y = ya)} . P (Y = ya)
= { (1) . (1/4) } . (4/6) = 4/24 = 1/6
P (X1 = Cerah, X3 = Kencang, Y = tidak)
= { P (X1 = Cerah | Y = tidak) . P (X3 = Kencang | Y = tidak)} . P (Y = tidak)
= { (0) . (1/2) } . (2/6) = 0
Jadi, prediksi cuaca = cerah, kecepatan angin = kencang adalah berolahraga = ya.
19

2.1.5 Random Forest


Random Forest merupakan pengembangan dari Decision Tree, dimana
setiap Decision Tree telah dilakukan training menggunakan sampel individu dan
setiap atribut dipecah pada tree yang dipilih antara atribut subset yang bersifat
acak. Dan pada proses klasifikasi, individunya didasarkan pada vote dari suara
terbanyak pada kumpulan populasi tree.
Random forest adalah pengembangan dari metode CART, yaitu dengan
menerapkan metode bootstrap aggregating (bagging) dan random feature
selection (Breiman, 2001). Dalam penelitiannya, Breiman telah menunjukkan
beberapa kelebihan random forest antara lain dapat menghasilkan error yang lebih
rendah, memberikan hasil yang bagus dalam klasifikasi, dapat mengatasi data
training dalam jumlah sangat besar secara efisien, dan metode yang efektif untuk
mengestimasi missing data. Dalam random forest, banyak pohon ditumbuhkan
sehingga terbentuk hutan (forest), kemudian analisis dilakukan pada kumpulan
pohon tersebut.
Random Forest dikembangkan dengan ide bahwa perlu ada penambahan
layer dari proses resampling acak pada Bagging. Selain data sampel yang diambil
secara acak untuk membentuk pohon klasifikasi, variabel prediktor juga diambil
sebagian secara acak dan baru dipilih sebagai pemilah terbaik saat penentuan
pemilah pohon (Liaw, 2002). Pada gugus data yang terdiri dari n amatan dan p
peubah penjelas, Random Forest dilakukan dengan cara (Breiman, 2001):
1. Lakukan penarikan contoh acak berukuran n dengan pemulihan pada gugus
data. Tahapan ini merupakan tahapan bootstrap.
2. Dengan menggunakan contoh bootstrap, pohon / tree dibangun sampai
mencapai ukuran maksimum (tanpa pemangkasan). Pada setiap simpul,
pemilahan-pemilahan dilakukan dengan memilih m peubah penjelas secara
acak, dimana m << p. Pemilah terbaik dipilih dari m peubah penjelas
tersebut. Tahapan ini adalah tahapan random feature selection.
3. Ulangi langkah 1 dan 2 sebanyak k kali, sehingga terbentuk sebuah hutan
yang terdiri atas k pohon.
20

Error klasifikasi diprediksi melalui error OOB (Out of Bag) yang


diperoleh dengan cara (Breiman, 2001; Liaw & Wiener, 2002; Breiman & Cutler,
2003):
1. Lakukan prediksi pada setiap data OOB pada pohon yang bersesuaian. Data
OOB (Out of Bag) adalah data yang tidak termuat dalam contoh bootstrap.
2. Secara rata-rata, setiap amatan gugus data asli akan menjadi data OOB
sebanyak sekitar 36% dari banyaknya pohon. Oleh karena itu, pada langkah
1, masing-masing amatan gugus data asli mengalami prediksi sebanyak
sekitar sepertiga kali dari banyaknya pohon. Jika a adalah sebuah amatan dari
gugus data asli, maka hasil prediksi random forest terhadap a adalah
gabungan dari hasil prediksi setiap kali a menjadi data OOB.
3. Error OOB dihitung dari proporsi misklasifikasi hasil prediksi random forest
dari seluruh amatan gugus data asli.

2.1.6 Kelulusan Mahasiswa


Mahasiswa dapat didefinisikan sebagai individu yang sedang menuntut
ilmu ditingkat perguruan tinggi, baik negeri maupun swasta atau lembaga lain
yang setingkat dengan perguruan tinggi. Mahasiswa dinilai memiliki tingkat
intelektualitas yang tinggi, kecerdasan dalam berpikir dan kerencanaan dalam
bertindak. Berpikir kritis dan bertindak dengan cepat dan tepat merupakan sifat
yang cenderung melekat pada diri setiap mahasiswa (Siswoyo, 2007). Pemantauan
mahasiswa yang masuk, peningkatan kemampuan mahasiswa, prestasi yang
dicapai mahasiswa, rasio kelulusan seharusnya menjadi perhatian yang sangat
serius bagi setiap perguruan tinggi karena merupakan satuan pendidikan yang
menjadi terminal akhir bagi setiap orang yang ingin menuju kejenjang pendidikan
yang lebih tinggi

2.1.7 Pengujian K-Fold Cross Validation


K-Fold Cross Validation adalah teknik validasi dengan membagi data
secara acak kedalam k bagian dan masing-masing bagian akan dilakukan proses
klasifikasi (Han & Kamber, 2006). Cross validation adalah metode statistik yang
digunakan untuk mengevaluasi dan membandingkan algoritma dengan membagi
21

data menjadi dua segmen, Segmen pertama digunakan sebagai data training dan
segmen kedua sebagai data testing dalam validasi model (Witten, Frank, 2011).
Data training adalah data yang akan dipakai dalam melakukan pembelajaran
sedangkan data testing adalah data yang belum pernah dipakai sebagai
pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau
keakurasian hasil pembelajaran (Witten & Frank, 2011).
Dengan menggunakan K-Fold Cross Validation atau disebut juga dengan
10-Fold Cross Validation akan dilakukan percobaan sebanyak k. Hasil dari
berbagai percobaan yang ekstensif dan pembuktian teoritis, menunjukan bahwa
10-Fold Cross Validation adalah pilihan terbaik untuk mendapatkan hasil validasi
yang akurat. Oleh karena itu, secara umum pengujian nilai k dilakukan sebanyak
10 kali. 10-Fold Cross Validation akan mengulang pengujian sebanyak 10 kali
dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Setiap
percobaan akan menggunakan satu data testing dan k-1 bagian akan menjadi data
training, kemudian data testing itu akan ditukar dengan satu buah data training
sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda.

Eksperimen Dataset Akurasi


1 93%

2 91%

3 90%

4 93%

5 93%

6 91%

7 94%

8 93%

9 91%

10 90%
Akurasi Rata - rata 92%
k-subset (data testing)
Gambar 2.4 Ilustrasi 10-Fold Cross Validation
(Paprotny, 2014)
22

2.1.8 Evaluasi dan Validasi Hasil


Secara umum pengukuran model data mining mengacu kepada tiga
kriteria:
a. Akurasi (Accuracy)
- Ukuran dari seberapa baik model mengkorelasikan antara hasil dengan
atribut dalam data yang telah disediakan
- Terdapat berbagai model akurasi, tetapi semua model akurasi bergantung
pada data yang digunakan
b. Kehandalan (Reliability)
- Ukuran dimana model data mining diterapkan pada dataset yang berbeda
- Model data mining dapat diandalkan jika menghasilkan pola umum yang
sama terlepas dari data testing yang disediakan
c. Kegunaan (Usefulness)
- Mencakup berbagai metrik yang mengukur apakah model tersebut
memberikan informasi yang berguna
Keseimbangan diantara ketiganya diperlukan karena belum tentu model
yang akurat adalah handal, dan yang handal atau akurat belum tentu berguna.

2.1.8.1 Confusion Matrix


Confusion Matrix adalah alat (tools) visualisasi yang biasa digunakan
pada supervised learning. Tiap kolom pada matriks adalah contoh kelas prediksi,
sedangkan tiap baris mewakili kejadian di kelas yang sebenarnya (Gorunescu,
2010). Sedangkan (Han et al., 2012) menjelaskan bahwa confusion matrix adalah
tabel yang digunakan untuk menganalisis seberapa baik kualitas pengklasifikasi
dapat mengenali data dari kelas yang berbeda. Confusion matrix merupakan
matrix 2 dimensi yang menggambarkan perbandingan antara hasil prediksi dengan
kenyataan. Tabel 2.1 adalah contoh tabel confusion matrix yang menunjukan
klasifikasi dua kelas.
23

Tabel 2.1 Model Confusion Matrix


(Gorunescu, 2011)

Classification Predicted Class


Class = Yes Class = No

A B
Class = Yes (True Positive – (False Negative –
TP) FN)
C D
Class = No (False Positive – (True Negative –
FP) TN)

Keterangan:
TP = proporsi positif dalam data set yang diklasifikasikan positif
TN = proporsi negative dalam data set yang diklasifikasikan negative
FP = proporsi negatif dalam data set yang diklasifikasikan potitif
FN = proporsi negative dalam data set yang diklasifikasikan negatif

Berikut adalah persamaan model confusion matrix:


a. Nilai Accuracy adalah proporsi jumlah prediksi yang benar. Dapat dihitung
dengan menggunakan persamaan:

TP + TN
Accuracy = (2.7)
TP + TN + FP + FN

b. Sensitivity digunakan untuk membandingkan proporsi TP terhadap tupel yang


positif, yang dihitung dengan menggunakan persamaan:

TP
Sensitivity = (2.8)
TP + FN

c. Specificity digunakan untuk membandingkan proporsi TN terhadap tupel


yang negatif, yang dihitung dengan menggunakan persamaan:
24

TN
Specificity = (2.9)
TN + FP

d. PPV (Positive Predictive Value) adalah proporsi kasus dengan hasil diagnosa
positif, yang dihitung dengan menggunakan persamaan:

TP
PPV = (2.10)
TP + FP

e. NPV (Negative Predictive Value) adalah proporsi kasus dengan hasil


diagnosa negatif, yang dihitung dengan menggunakan persamaan:

TN
PPV = (2.11)
TN + FN

2.1.8.2 Kurva ROC


Kurva ROC (Receiver Operating Characteristic) adalah alat visual yang
berguna untuk membandingkan dua model klasifikasi hasil ekspresi dari
confusion matrix. ROC adalah grafik dua dimensi dengan false positives sebagai
garis horisontal dan true positives sebagai garis vertikal (Vecellis, 2009).
Sedangkan (Attenberg & Ertekin, 2013) menjelaskan bahwa ROC adalah ukuran
numerik untuk membedakan kinerja model, dan menunjukkan seberapa sukses
dan benar peringkat model dengan memisahkan pengamatan positif dan negatif.
Dengan kurva ROC, kita dapat melihat trade off antara tingkat dimana
suatu model dapat mengenali tupel positif secara akurat dan tingkat dimana model
tersebut salah mengenali tupel negatif sebagai tupel positif. Sebuah grafik ROC
adalah plot dua dimensi dengan proporsi positif salah (FP) pada sumbu X dan
proporsi positif benar (TP) pada sumbu Y. Titik (0,1) merupakan klasifikasi yang
sempurna terhadap semua kasus positif dan kasus negatif. nilai positif salah
adalah tidak ada (FP = 0) dan nilai positif benar adalah tinggi (TP = 1). Titik (0,0)
adalah klasifikasi yang memprediksi setiap kasus menjadi negatif {-1}, dan titik
(1,1) adalah klasifikasi yang memprediksi setiap kasus menjadi positif {1}.
25

Grafik ROC menggambarkan trade off antara manfaat (true positive) dan
biaya (false positives). Berikut tampilan dua jenis kurva ROC (discrete dan
continous).

Gambar 2.5 Grafik ROC (discrete dan continous)


(Gorunescu, 2011)

Poin di atas garis diagonal merupakan hasil klasifikasi yang baik,


sedangkan poin di bawah garis diagonal merupakan hasil klasifikasi yang buruk.
Dapat disimpulkan bahwa satu poin pada kurva ROC adalah lebih baik daripada
yang lainnya jika arah garis melintang dari kiri bawah ke kanan atas di dalam
grafik. Untuk tingkat akurasi nilai AUC (Area Under Curve) dalam klasifikasi
data mining dibagi menjadi lima kelompok (Gorunescu, 2011):
a. 0.90 – 1.00 = Excellent Classification
b. 0.80 – 0.90 = Good Classification
c. 0.70 – 0.80 = Fair Classification
d. 0.60 – 0.70 = Poor Classification
e. 0.50 – 0.60 = Failure

2.2 Tinjauan Studi


Literatur yang mebahas tentang klasifikasi kelulusan mahasiswa sudah
pernah dilakukan dengan beberapa metode. Berikut dijabarkan beberapa metode
26

yang pernah digunakan untuk menyelesaikan permasalahan klasifikasi kelulusan


mahasiswa:
1. Penelitian yang dilakukan oleh Yusuf Sulistyo Nugroho (2014) yang berjudul
“Penerapan Algoritma C4.5 Untuk Klasifikasi Predikat Kelulusan Mahasiswa
Fakultas Komunikasi dan Informatika Universitas Muhammadiyah
Surakarta”. Sesuai dengan judul penelitian tersebut obyek penelitian ini
adalah untuk memprediksi dan mengklasifikasikan indeks prestasi kumulatif
mahasiswa FKI UMS. Dalam penelitiannya, peneliti membagi variabel yang
digunakan menjadi dua variabel, yaitu variabel dependen (Y) dan independen
(X) yang selanjutnya menggunakan metode Slovin dalam penentuan jumlah
sampel data. Tahap terakhir, dilakuakan analisa data menggunakan metode
C4.5 berdasarkan entropy dari masing-masing atribut.
2. Penelitian yang dilakukan oleh Mutiara Ayu Banjarsari, H. Irawan Budiman,
dan Andi Farmadi (2015) yang berjudul “Penerapan K-Optimal Pada
Algoritma Knn Untuk Prediksi Kelulusan Tepat Waktu Mahasiswa Program
Studi Ilmu Komputer Fmipa Unlam Berdasarkan IP Sampai Dengan Semester
4”. Pada penelitian ini, peneliti mencoba untuk mengetahui nilai k-optimal
dan tingkat akurasinya pada algoritma kNN untuk prediksi kelulusan
mahasiswa. Penentuan nilai k pada algoritma kNN menjadi hal yang sangat
penting karena akan mempengaruhi kinerja algoritma kNN (Wu, 2009).
Pencarian nilai k-optimal pada algoritma kNN yang dilakukan oleh peneliti
yaitu dengan cara menggunakan metode k-fold cross validation dengan
variabel input indeks prestasi mahasiswa sampai dengan semester 4.
3. Penelitian yang dilakukan oleh David Hartanto Kamagi dan Seng Hansun
(2014) yang berjudul “Implementasi Data Mining dengan Algoritma C4.5
untuk Memprediksi Tingkat Kelulusan Mahasiswa (Studi Kasus: Program
Studi Teknik Informatika Universitas Multimedia Nusantara)”. Pada
penelitian ini, menjelaskan bahwa faktor yang paling berpengaruh dalam
penentuan klasifikasi kinerja akademik mahasiswa adalah IPK, Indeks
Prestasi Semester (IPS) 1 sampai 4, dan jenis kelamin (Ridwan, Suyono, &
Sarosa, 2013). Dalam penelitiannya, penulis menggunakan algoritma C4.5
27

untuk menentukan prediksi kelulusan berdasarkan atribut jenis kelamin, asal


sekolah SMA, dan IPS 1 sampai dengan 6.
4. Penelitian yang dilakukan oleh Diana Laily Fithri dan Eko Darmanto (2014)
yang berjudul “Sistem Pendukung Keputusan Untuk Memprediksi Kelulusan
Mahasiswa Menggunakan Metode Naive Bayes”. Penelitian ini menghasilkan
sistem pendukung keputusan dengan memakai metode algoritma Naive Bayes
yang menggunakan beberapa parameter, yaitu jenis kelamin, alamat, umur,
status pekerjaan mahasiswa, status pernikahan mahasiswa, rata-rata IPK,
jumlah SKS, dan status mahasiswa. Pengolahan data dimulai dari proses data
gathering, data preprocessing, proposed model/method, method text and
experiment, result evaluation and validation. Dalam penelitian ini hasil yang
dicapai memiliki akurasi tepat waktu sebesar 93% dan akurasi terlambat
sebesar 71%.
5. Penelitian yang dilakukan oleh Nidhomuddin, Bambang Widjanarko Otok
(2015) yang berjudul “Random Forest Dan Multivariate Adaptive Regression
Spline (MARS) Binary Response Untuk Klasifikasi Penderita HIV/AIDS Di
Surabaya”. Pada penelitian ini untuk mengukur tingkat keakurasian
klasifikasi status HIV/AIDS di Surabaya peneliti menggunakan metode
MARS, Random Forest, dan Random Forest MARS. Hasil penelitian
menunjukkan bahwa metode Random Forest merupakan metode yang
memberikan tingkat akurasi yang lebih baik dibandingkan dengan dua
metode lainnya yaitu dengan akurasi sebesar 97,80%.

Berdasarkan uraian dari beberapa penelitian terkait mengenai klasifikasi


kelulusan mahasiswa serta metode yang digunakan , dapat dilihat rangkumannya
pada tabel 2.3 berikut.
28

Tabel 2.2 Rangkuman Penelitian Terkait


29

2.3 Kerangka Pemikiran

Dalam menyelesaikan penelitian, penulis membuat sebuah kerangka


pemikiran yang berguna sebagai pedoman penelitian ini sehingga penelitian dapat
dilakukan secara konsisten. Permasalah pada penelitian ini adalah belum
diketahuinya metode yang paling akurat dalam klasifikasi kelulusan mahasiswa
tepat waktu. Atas dasar permasalahan tersebut penulis melakukan pembandingan
terhadap metode klasifikasi algoritma C4.5, Naive Bayes, dan Random Forest
untuk memecahkan masalah penelitian ini. Berikut kerangka pemikiran yang
penulis buat untuk penilitian ini:

Problem
Belum diketahuinya algoritma klasifikasi data mining yang akurat dalam
penentuan kelulusan mahasiswa

Approach
C4.5 Naive Bayes Random Forest

Experiment
Framework Rapidminer

Implementation
Objek Penelitian : Teknik Sampling Design Eksperimen :
:
Komparasi C4.5, Naive Bayes,
Random Forest dengan pembagian
Data Kelulusan Random testing data : training data = 10 :
Mahasiswa Sampling 90, 20 : 80, 30 : 70

Measurement
Confusion Matrix ROC Curve

Result

Algoritma klasifikasi data mining yang paling akurat untuk penentuan


kelulusan mahasiswa

Gambar 2.6 Kerangka Pemikiran


BAB III
METODE PENELITIAN

3.1 Desain Penelitian


Penelitian adalah usaha mencari melalui proses yang metodis untuk
menambahkan pengetahuan itu sendiri dan dengan yang lainnya, oleh penemuan
fakta dan wawasan tidak biasa (Dawson, 2009). Untuk dapat menemukan fakta
atau pengetahuan dari data, dibutuhkan suatu usaha ekstraksi yang disebut dengan
data mining. Ekstraksi dilakukan untuk mendapatkan informasi penting yang
sifatnya implisit dan sebelumnya tidak diketahui dari suatu data (Witten et al.,
2001).
Menurut Dawson dalam Setiyorini et al, terdapat beberapa metode
penelitian yang dapat dipakai untuk mengatasi masalah penelitian yaitu action
research, experiment, case study dan survey (Setiyorini et al., 2014). Dalam
penelitian ini, metode penelitian yang digunakan adalah metode penelitian
eksperimen dengan tahapan seperti pada gambar 3.1.

Pengumpulan Data

Pengolahan Awal Data

Eksperimen

Pengujian Model

Evaluasi dan Validasi Hasil

Gambar 3.1 Tahapan Penelitian

30
31

Berikut penjelasan untuk lima tahapan pada gambar 3.1 di atas:


1. Pengumpulan Data
Proses pengumpulan data menjelaskan tentang bagaimana dan dari mana
sumber data dikumpulkan dan kemudian diolah sehingga dapat digunakan
untuk penelitian (Blaxter, Hughes, and Tight, 2010). Menurut (Kothari, 2004)
berdasarkan sumbernya, data dibedakan menjadi dua, yaitu data primer dan
data sekunder. Data primer adalah data yang dikumpulkan mula-mula untuk
melihat apa yang sebenarnya terjadi. Sedangkan data sekunder adalah data
yang pernah dibuat oleh orang lain baik diterbitkan atau tidak. Data yang
diperoleh untuk penelitian ini adalah data sekunder yang berupa sebuah
dataset yang sudah pernah digunakan oleh peneliti lain pada topik yang
serupa. Terdapat beberapa alasan penggunaan data sekunder (Blaxter,
Hughes, and Tight, 2010):
a. Terdapat kemungkinan data priper yang didapatkan tidak cukup
b. Pengumpulan data primer relatif lebih lama, sulit, dan mahal
c. Data yang telah tersedia lebih masuk akal walaupun datanya dalam
bentuk yang berbeda
d. Data sekunder dapat mengkonfirmasi, modifikasi atau bertentangan
dengan yang ditemukan
e. Data sekunder dapat menjelaskan atau melengkapi data primer yang
dikumpulkan
f. Data sekunder memungkinkan untuk memusatkan perhatian pada analisis
dan interpretasi
g. Data yang dikumpulkan lebih banyak dari data yang pernah digunakan
2. Pengolahan Awal Data
Pada tahap ini dijelaskan tentang pengolahan awal data yang meliputi proses
pembersihan data yang tidak relevan, pengelompokkan data, penentuan
atribut, serta pemecahan data untuk dijadikan data testing dan data training
dengan tujuan untuk mendapatkan transformasi data yang sesuai dengan yang
diinginkan.
32

3. Eksperimen
Setelah tahap pengolahan data awal, selanjutnya dilakukan eksperimen pada
data testing dan data training dengan menggunakan algoritma C4.5, Naive
Bayes, dan Random Forest.
4. Pengujian Model
Untuk pengujian model, dilakukan dengan menggunakan Rapidminer dan
mengulang pengujian pada dataset yang ada beberapa kali sehingga
mendapatkan hasil yang terbaik dan membuktikan bahwa metode yang
digunakan adalah tepat.
5. Evaluasi dan Validasi Hasil
Pada tahap terakhir penelitian, dilakukan evaluasi dan validasi hasil
eksperimen dan pengujian model. Dari hasil evaluasi dapat ditarik
kesimpulan dari penelitian dan eksperimen yang sudah dilakukan.

3.2 Pengumpulan Data


Data yang digunakan pada penelitian ini merupakan data sekunder yang
diperoleh dari situs http://romisatriawahono.net/lecture/dm/dataset/ . Data yang
peneliti ambil merupakan data kelulusan mahasiswa yang mempunyai 379 record
dan terdiri dari 15 atribut yaitu nama, status mahasiswa, umur, status nikah, IPS 1,
IPS 2, IPS 3, IPS 4, IPS 5, IPS 6, IPS 7, IPS 8, IPK, dan status kelulusan. Sebagai
contoh data kelulusan mahasiswa yang belum diolah dapat dilihat pada tabel 3.1
33

Tabel 3.1 Data Kelulusan Mahasiswa


34

3.3 Pengolahan Data Awal


Tahapan selanjutnya adalah pengolahan data awal, setelah data
terkumpul maka diperlukan preprocessing data terlebih dulu. Hal ini bertujuan
untuk membersihkan dataset yang sudah ada dari data-data yang tidak perlu.
Dataset yang digunakan dalam penelitian ini, masih ditemukan mempunyai
missing value yang harus diperlakukan secara khusus. Adapun penanganan
missing value menurut (Han et al., 2012) adalah:
1. Mengabaikan tuple yang berisi missing value
2. Mengganti missing value secara manual
3. Mengganti missing value dengan konstanta global (misal “unknown” atau
“∞”)
4. Mengganti missing value dengan nilai mean atau median dari atribut
5. Mengganti missing value dengan nilai mean atau median dari semua sampel
6. Mengganti missing value dengan nilai kemungkinan terbanyak dari dataset

Pada penelitian ini, perlakuan khusus yang diberikan untuk menangani


missing value adalah dengan memberikan nilai rata-rata dari atribut. Teknik ini
dapat diterapkan untuk atribut yang mempunyai nilai numerik.

3.4 Pengujian Model


Dalam penelitian ini akan dilakukan analisis komparasi menggunakan
tiga metode klasifikasi data mining. Algoritma yang akan digunakan adalah C4.5,
Naive Bayes, dan Random Forest. Setelah diolah dan menghasilkan model,
selanjutnya terhadap model yang sudah dihasilkan tersebut dilakukan pengujian
menggunakan k-fold cross validation dengan perbandingan antara data testing dan
data training 10 : 90, 20 : 80, 30 : 70 dan mengulang pengujian tersebut beberapa
kali. Dalam penelitian ini, proses eksperimen dan pengujian model menggunakan
beberapa spesifikasi hardware dan software sebagai alat bantunya, spesifikasi
hardware dan software tersebut dapat dilihat pada tabel 3.2:
35

Tabel 3.2 Spesifikasi Hardware dan Software

Hardware Software
CPU : Intel Pentium Sistem Operasi : Windows 7
Memory : 1 GB
Data Mining : Rapid Miner 7.2.001
Hardisk : 300 GB

3.5 Evaluasi dan Validasi Hasil


Tahap selanjutnya adalah melakukan evaluasi dan validasi hasil
pengujian model tersebut dengan menggunakan confussion matrix dan kurva
ROC. Confussion matrix adalah alat (tools) visualisasi yang biasa digunakan
untuk menganalisis seberapa baik kualitas pengklasifikasi dapat mengenali data
dari kelas yang berbeda (Han et al., 2012). Sedangkan kurva ROC menurut
(Attenberg & Ertekin, 2013) adalah ukuran numerik untuk membedakan kinerja
model, dan menunjukkan seberapa sukses dan benar peringkat model dengan
memisahkan pengamatan positif dan negatif.
Selanjutnya setiap hasil akurasi dan AUC dari metode C4.5, Naive
Bayes, serta Random Forest dibandingkan sehingga diperoleh model dari metode
klasifikasi kelulusan mahasiswa yang tertinggi. Untuk mengolah dataset yang ada,
akan digunakan metode yang diusulkan seperti yang terlihat pada gambar 3.2
berikut:
36

Dataset

Preprocessing

Replace Missing Value

New
Dataset

10-fold cross validation

Data

Learning Method

C4.5 Naive Bayes Random Forest

Data Testing

Model Evaluation

Accuracy AUC

Accuracy
Comparison

Gambar 3.2 Model yang Diusulkan


37

Dalam model yang diusulkan di atas, dijelaskan bahwa penelitian ini


ditujukan untuk mencari satu algoritma yang terbaik diantara C4.5, Naive Bayes,
dan Random Forest. Akurasi algoritma akan diukur dengan menggunakan
confusion matrix. Sedangkan AUC akan diukur dengan menggunakan ROC
Curve. Hasil pengujian dengan akurasi yang paling tinggi adalah metode yang
akan dilakukan untuk penentuan klasifikasi kelulusan mahasiswa. Berikut
gambaran karakteristik dari masing-masing metode:
1. Algoritma C4.5 merupakan algoritma dalam metode decision tree yang
mengubah data menjadi pohon keputusan dengan menggunakan rumus
perhitungan entropy.
2. Naive Bayes adalah salah satu metode machine learning yang memanfaatkan
perhitungan probabilitas dengan cara memprediksi probabilitas di masa depan
berdasarkan pengalaman di masa sebelumnya.
3. Random Forest merupakan suatu metode hasil dari pengembangan decision
tree, dimana setiap decision tree telah dilakukan training menggunakan
sampel individu dan setiap atribut dipecah pada tree yang dipilih antara
subset yang bersifat acak.
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN

4.1 Hasil Penelitian


Tujuan dari penelitian ini adalah untuk mengetahui algoritma klasifikasi
mana yang paling akurat diantara C4.5, Naive Bayes,dan Random Forest dalam
penentuan klasifikasi kelulusan mahasiswa.

4.1.1 Menyiapkan Data Training


Data training memiliki 15 atribut dengan status kelulusan sebagai label
atau kelas (class) yang menyatakan tepat atau terlambat. Kemudian dilakukan
preprocessing pada dataset tersebut. Pada dataset yang digunakan dalam
penelitian ini, masih ada beberapa data yang ditemukan tidak mempunyai nilai
atau (missing value), sehingga untuk mengatasi sebagian data yang tidak lengkap
tersebut dapat mengadopsi teknik subtitusi, yaitu dengan menggantikan nilai yang
hilang dengan mengubahnya menjadi nilai maximum, minimum, atau rata-rata
dari nilai atributnya.
Berikut cara menangani missing value dengan menggunakan Rapidminer:

Gambar 4.1 Contoh Data yang Terdapat Missing Value

38
39

Dari dataset kelulusan mahasiswa yang digunakan pada penelitian ini,


ada beberapa data yang tidak mempunyai nilai seperti yang terlihat pada gambar
4.1. Data yang tidak memiliki nilai tersebut, akan peneliti olah dengan
menggunakan operator Replace Missing Values pada aplikasi Rapidminer.

Gambar 4.2 Penambahan Operator Replace Missing Value


Pada Dataset

Dari gambar 4.2, dapat kita lihat untuk penanganan nilai dari data yang
hilang digunakan operator Replace Missing Value. Untuk mengisi data yang
hilang dapat dilakukan dengan teknik subtitusi, yaitu dengan mengganti nilainya
menjadi nilai maximum, minimum, rata-rata dari atributnya atau bahkan nilai nol
(0). Pada penelitian ini, untuk menggantikan nilai atribut yang hilang peneliti
mengubahnya menjadi nilai rata-rata dari atribut yang ada. Teknik ini dapat
diterapkan untuk atribut yang bernilai numerik. Pada dataset kelulusan mahasiswa
yang dipakai pada penelitian ini, digunakan nilai rata-rata dari atributnya untuk
mengganti missing value data tersebut. Hasil dari penambahan replace missing
values dapat dilihat pada gambar 4.3.
40

Gambar 4.3 Hasil Penambahan Operator Replace Missing Values

Pada gambar 4.3 di atas, dapat dilihat sudah tidak ada lagi data yang
mengandung missing value sehingga dataset sudah siap untuk dilakukan proses
selanjutnya.

4.1.2 Hasil Eksperimen dan Pengujian Model


Metode klasifikasi bisa dievaluasi berdasarkan kriteria seperti tingkat
akurasi, kecepatan, kehandalan, skalabilitas dan interpretabilitas (Vecellis, 2009).
Pada penelitian ini, eksperimen yang dilakukan bertujuan untuk mengetahui
tingkat akurasi yang terbaik diantara algoritma C4.5, Naive Bayes, dan Random
Forest dengan membandingkan ketiga algoritma tersebut. Setelah diolah dan
menghasilkan model, selanjutnya terhadap model yang sudah dihasilkan tersebut
dilakukan pengujian dengan menggunakan k-fold cross validation dengan
perbandingan antara data testing dan data training nya yaitu sebagai berikut: 10 :
90, 20 : 80, 30 : 70.
41

4.1.2.1 Hasil Eksperimen dan Pengujian Model C4.5


Model confussion matrix akan membentuk matrix yang terdiri dari true
positive atau tupel positif dan true negative atau tupel negatif. Dari sebanyak 379
data kelulusan mahasiswa yang telah diolah menggunakan algoritma C4.5 di
rapidminer dengan perbandingan data testing dan data training 10% : 90%,
terdapat sebanyak 128 data yang di prediksi terlambat dan kenyataannya
terlambat, 163 data diprediksi tepat dan kenyataannya tepat, 32 data diprediksi
terlambat tetapi kenyataannya tepat, 18 data diprediksi tepat namun kenyataannya
terlambat seperti pada gambar 4.4. Untuk perbandingan data testing dan data
training 20% : 80%, terdapat sebanyak 110 data yang di prediksi terlambat dan
kenyataannya terlambat, 148 data diprediksi tepat dan kenyataannya tepat, 29 data
diprediksi terlambat tetapi kenyataannya tepat, 16 data diprediksi tepat namun
kenyataannya terlambat seperti pada gambar 4.5. Sedangkan Untuk perbandingan
data testing dan data training 30% : 70%, terdapat sebanyak 92 data yang di
prediksi terlambat dan kenyataannya terlambat, 144 data diprediksi tepat dan
kenyataannya tepat, 13 data diprediksi terlambat tetapi kenyataannya tepat, 16
data diprediksi tepat namun kenyataannya terlambat seperti pada gambar 4.6.
Pengukuran ROC curve dengan menggunakan Area Under Curve (AUC)
yang didapat dengan menggunakan algoritma C4.5 serta perbandingan data testing
dan data trainingnya adalah 10% : 90% menghasilkan nilai AUC sebesar = 0.856
seperti pada gambar 4.7, perbandingan data testing dan data trainingnya adalah
20% : 80% menghasilkan nilai AUC sebesar = 0.834 seperti pada gambar 4.8, dan
untuk perbandingan data testing dan data trainingnya adalah 30% : 70%
menghasilkan nilai AUC sebesar = 0.869 seperti pada gambar 4.9.
.
42

Gambar 4.4 Confussion Matrix Algoritma C4.5


(data testing 10% : data training 90%)

Nilai Accuracy adalah proporsi jumlah prediksi yang benar. Dapat


dihitung dengan menggunakan persamaan:

TP + TN
Accuracy =
TP + TN + FP + FN
163 + 128
=
163 + 128 + 32 + 18

291
=
341
= 0.85337
= 85.34%
43

Gambar 4.5 Confussion Matrix Algoritma C4.5


(data testing 20% : data training 80%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

148 + 110
=
148 + 110 + 29 + 16

258
=
303
= 0.85148
= 85.15%
44

Gambar 4.6 Confussion Matrix Algoritma C4.5


(data testing 30% : data training 70%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

144 + 92
=
144 + 92 + 13 + 16

236
=
365
= 0.8905

= 89.05%
45

Gambar 4.7 Grafik Area Under Curve (AUC) Algoritma C4.5


(data testing 10% : data training 90%)

Gambar 4.8 Grafik Area Under Curve (AUC) Algoritma C4.5


(data testing 20% : data training 80%)
46

Gambar 4.9 Grafik Area Under Curve (AUC) Algoritma C4.5


(data testing 30% : data training 70%)

4.1.2.2 Hasil Eksperimen dan Pengujian Model Naive Bayes


Nilai akurasi yang diperoleh dengan menggunakan algoritma naive bayes
dengan perbandingan data testing 10% : data trainingnya 90% adalah; accuracy =
85.34% seperti pada gambar 4.10 dan Area Under Curve (AUC) adalah 0.823
seperti pada gambar 4.13. Dari keselurahan 379 dataset yang diolah, sebanyak 117
jumlah data yang diprediksi terlambat dan pada kenyataannya memang terlambat,
174 data diprediksi tepat dan pada kenyataannya memang tepat, 21 data yang
diprediksi terlambat tetapi kenyataannya tepat, dan 29 data diprediksi tepat tetapi
kenyataannya terlambat. Perbandingan data testing 20% : data trainingnya 80%
adalah; accuracy = 83.83% seperti pada gambar 4.11 dan Area Under Curve
(AUC) adalah 0.907 seperti pada gambar 4.14. Dari keselurahan 379 dataset yang
diolah, sebanyak 107 jumlah data yang diprediksi terlambat dan pada
kenyataannya memang terlambat, 147 data diprediksi tepat dan pada
kenyataannya memang tepat, 30 data yang diprediksi terlambat tetapi
47

kenyataannya tepat, dan 19 data diprediksi tepat tetapi kenyataannya terlambat.


Perbandingan data testing 30% : data trainingnya 70% adalah; accuracy = 86.79%
seperti pada gambar 4.12 dan Area Under Curve (AUC) adalah 0.925 seperti pada
gambar 4.15. Dari keselurahan 379 dataset yang diolah, sebanyak 96 jumlah data
yang diprediksi terlambat dan pada kenyataannya memang terlambat, 134 data
diprediksi tepat dan pada kenyataannya memang tepat, 23 data yang diprediksi
terlambat tetapi kenyataannya tepat, dan 12 data diprediksi tepat tetapi
kenyataannya terlambat.

Gambar 4.10 Confussion Matrix Naive Bayes


(data testing 10% : data training 90%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

174 + 117
=
174 + 117 + 21 + 29
48

291
=
341
= 0.85337
= 85.34%

Gambar 4.11 Confussion Matrix Naive Bayes


(data testing 20% : data training 80%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

147 + 107
=
147 + 107 + 30 + 19

254
=
303
= 0.83828
= 83.83%
49

Gambar 4.12 Confussion Matrix Naive Bayes


(data testing 30% : data training 70%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

134 + 96
=
134 + 96 + 23 + 12

230
=
365
= 0.86792
= 86.79%
50

Gambar 4.13 Grafik Area Under Curve Algoritma Naive Bayes


(data testing 10% : data training 90%)

Gambar 4.14 Grafik Area Under Curve Algoritma Naive Bayes


(data testing 20% : data training 80%)
51

Gambar 4.15 Grafik Area Under Curve Algoritma Naive Bayes


(data testing 30% : data training 70%)

4.1.2.3 Hasil Eksperimen dan Pengujian Model Random Forest


Nilai akurasi yang diperoleh dengan menggunakan algoritma random
forest serta perbandingan data testing 10% : data training 90% adalah; accuracy =
73.61% seperti pada gambar 4.16 dan Area Under Curve (AUC) adalah 0.823
seperti pada gambar 4.19. Dari keselurahan 379 dataset yang diolah, sebanyak 72
jumlah data yang diprediksi terlambat dan pada kenyataannya memang terlambat,
179 data diprediksi tepat dan pada kenyataannya memang tepat, 16 data yang
diprediksi terlambat tetapi kenyataannya tepat, dan 74 data diprediksi tepat tetapi
kenyataannya terlambat. Perbandingan data testing 20% : data training 80%
adalah; accuracy = 85.81% seperti pada gambar 4.17 dan Area Under Curve
(AUC) adalah 0.886 seperti pada gambar 4.20. Dari keselurahan 379 dataset yang
diolah, sebanyak 100 jumlah data yang diprediksi terlambat dan pada
kenyataannya memang terlambat, 160 data diprediksi tepat dan pada
kenyataannya memang tepat, 17 data yang diprediksi terlambat tetapi
kenyataannya tepat, dan 26 data diprediksi tepat tetapi kenyataannya terlambat.
52

Perbandingan data testing 30% : data training 70% adalah; accuracy = 76.23%
seperti pada gambar 4.18 dan Area Under Curve (AUC) adalah 0.842 seperti pada
gambar 4.21. Dari keselurahan 379 dataset yang diolah, sebanyak 74 jumlah data
yang diprediksi terlambat dan pada kenyataannya memang terlambat, 128 data
diprediksi tepat dan pada kenyataannya memang tepat, 29 data yang diprediksi
terlambat tetapi kenyataannya tepat, dan 34 data diprediksi tepat tetapi
kenyataannya terlambat. Berikut hasil confussion matrix dengan menggunakan
aplikasi rapidminer:

Gambar 4.16 Confussion Matrix Algoritma Random Forest


(data testing 10% : data training 90%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

72 + 179
=
72 + 179 + 16 + 74

251
=
341
53

= 0.73607 = 73.61%

Gambar 4.17 Confussion Matrix Algoritma Random Forest


(data testing 20% : data training 80%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

160 + 100
=
160 + 100 + 17 + 26

260
=
303
= 0.85808
= 85.81%
54

Gambar 4.18 Confussion Matrix Algoritma Random Forest


(data testing 30% : data training 70%)

Nilai accuracy dari confussion matrix tersebut adalah sebagai berikut:

TP + TN
Accuracy =
TP + TN + FP + FN

128 + 74
=
128 + 74 + 29 + 34

202
=
265
= 0.76226
= 76.23%
55

Gambar 4.19 Area Under Curve Algoritma Random Forest


(data testing 10% : data training 90%)

Gambar 4.20 Area Under Curve Algoritma Random Forest


(data testing 20% : data training 80%)
56

Gambar 4.21 Area Under Curve Algoritma Random Forest


(data testing 30% : data training 70%)

Gambar 4.22 adalah contoh salah satu model random forest yang
terbentuk, dari gambar tersebut dapat dilihat atribut status nikah mempunyai dua
nilai, yaitu “belum menikah” dan “menikah”. Dari hasil pengolahan di
rapidminer, status belum menikah dan lulus terlambat ada 156 mahasiswa, tepat
219, dan status menikah lulus terlambat 5, tepat 0

Gambar 4.22 Contoh Model Random Forest yang Terbentuk


57

4.2 Perbandingan Keseluruhan Model

Tabel 4.1 Hasil Komparasi Algoritma Berdasarkan


Data Testing dan Data Training

Data Data
Algoritma Accuracy AUC
Testing Training
10 90 85.34% 0.846
C4.5 20 80 85.15% 0.834
30 70 89.06% 0.869
10 90 85.34% 0.823
Naive Bayes 20 80 83.83% 0.907
30 70 86.79% 0.925
10 90 73.61% 0.823
Random Forest 20 80 85.81% 0.886
30 70 76.23% 0.842

Dari tabel 4.1, dapat kita lihat hasil komparasi dari ketiga algoritma yang
digunakan dalam penelitian ini (C4.5, Naive Bayes, dan Random Forest)
berdasarkan pembagian data testing : data training sebagai berikut; 10 : 90,
20 : 80, 30 : 70. Pada perbandingan data testing 10% dan data training 90%, nilai
akurasi dari algoritma C4.5 dan Naive Bayes adalah sama, yaitu 85.34%. dan ini
masih lebih besar jika dibandingkan dengan nilai akurasi algoritma Random
Forest yang hanya menghasilkan akurasi sebesar 73.61%. Sedangkan nilai Area
Under Curve (AUC) algoritma C4.5 adalah yang terbaik dibandingkan dengan
nilai AUC kedua algoritma Naive Bayes dan Random Forest. Untuk perbandingan
20% data testing dan 80% data training, nilai akurasi algoritma Random Forest
menjadi yang terbesar. Namun, untuk nilai AUC pada perbandingan 20 : 80 ini
algoritma Naive Bayes yang menjadi algoritma dengan nilai AUC terbesar.
Sedangkan yang terakhir, untuk percobaan perbandingan 30% data testing dan
70% data training, yang mempunyai nilai akurasi tertinggi adalah algoritma C4.5
dengan akurasi sebesar 89.06% dan untuk nilai AUC algoritma Naive Bayes yang
mempunyai nilai terbesar yaitu 0.925. Untuk rata-rata keseluruhan percobaan
dapat dilihat pada tabel 4.2.
58

Tabel 4.1 Rata-rata Hasil Komparasi Algoritma Berdasarkan


Data Testing dan Data Training

Data Data
Algoritma Accuracy AUC
Testing Training
10 90 85.34% 0.846
20 80 85.15% 0.834
C4.5
30 70 89.06% 0.869
Rata - Rata 86.52% 0.850
10 90 85.34% 0.823
20 80 83.83% 0.907
Naive Bayes
30 70 86.79% 0.925
Rata - Rata 85.32 0.885
10 90 73.61% 0.823
20 80 85.81% 0.886
Random Forest
30 70 76.23% 0.842
Rata - Rata 78.55 0.850

Pada tabel 4.2, dapat kita lihat bahwa rata-rata akurasi dari algoritma C4.5 adalah
86.52 %, ini adalah rata-rata akurasi yang paling tinggi jika dibandingkan dengan
Naive Bayes dan Random Forest. Sedangkan untuk nilai rata-rata Area Unde
Curve (AUC), algoritma Naive Bayes mempunyai nilai AUC yang paling tinggi
dengan nilai sebesar 0.885.
BAB V
PENUTUP

5.1 Kesimpulan
Dari hasil komparasi algoritma C4.5, Naive Bayes, dan Random Forest,
dari percobaaan dengan pembagian data testing : data training 10 : 90, 20 : 80, 30
: 70. Jika dibandingkan dengan nilai akurasi algoritma naive bayes dan algoritma
random forest, nilai akurasi dengan menggunakan algoritma klasifikasi C4.5
adalah yang terbesar pada percobaan data testing 10% : data training 90% dan
percobaan data testing 30% : data training 70%. Sedangkan evaluasi
menggunakan ROC curve yaitu berdasarkan nilai AUC, algoritma naive bayes
menjadi yang tertinggi pada percobaan data testing 20% : data training 80% dan
data testing 30% : data training 70% dengan nilai mendekati 1.000 yaitu 0.907
dan 0.925. Dari hasil keseluruhan pengujian model dapat disimpulkan bahwa
kinerja C4.5 dan Naive Bayes hampir sama bagusnya, baik itu dilihat dari tingkat
akurasi maupun AUC nya.

5.2 Saran
Untuk keperluan penelitian lebih lanjut mengenai komparasi metode
klasifikasi data mining, dapat dilakukan pengembangan untuk dapat menghasilkan
model yang lebih baik lagi, diantaranya:
1. Untuk mendapatkan nilai akurasi yang lebih baik lagi, dapat digunakan
operator optimasi seperti Particle Swarm Optimization (PSO), Ant Colony
Optimization (ANT), Genetik Algorithm (GA), Chi Square, dan lain
sebagainya.
2. Eksperimen penelitian dapat menggunakan jumlah data yang lebih banyak
lagi dan menguji coba dengan dataset kelulusan mahasiswa yang lain
sehingga model yang sudah didapat akan lebih teruji lagi.
3. Menggunakan algoritma pengklasifikasi lain yang mungkin diluar supervised
learning agar dapat dilakukan penelitian yang berbeda dari umumnya yang
sudah ada.

59
DAFTAR REFERENSI

Anggarwal, Charu C. (2015). Data Mining: The Textbook. New York: Springer.
Blaxter, L., Hughes, C., & Tight, M. (2010). How to Research (4th ed).
Maidenhead: Open University Press.
Breiman, L. (1996). Bagging Predictors. Machine Learning, 123-140.
C. J. Mantas and J. Abellan, “Credal-C4.5: Decision Tree Based on Imprecise
Probabilities to Classify Noisy Data, “Expert Syst. Appl., vol. 41, no. 10, pp.
4625-4637, Aug. 2014.
Dawson, C. W. (2009). Projects in Computing and Information Systems a
student’s guide. Harlow, UK: Addison-Wesley.
Gorunescu, Florin (2011). Data Mining: Concepts, Models, and Techniques.
Verlag Berlin Heidelberg: Springer.
Han, J., & Kamber, M. (2007). Data Mining Concepts and Technique. Morgan
Kaufmann publisher.
Han, J., & Kamber., & Pei, J. (2012). Data Mining Consepts and Techniques. San
Fransisco: Morgan Kauffman.
Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey
& Sons, Inc.
Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery
Handbook. London: Springer.
Sammut, Claude. (2011). Encyclopedia of Machine Learning. Boston, MA:
Springer.
Setiyorini, T., Pascasarjana, P., Ilmu, M., Tinggi, S., Informatika, M., Komputer,
D. a N., & Mandiri, N. (2014a). Penerapan Metode Bagging Untuk Mengurangi
Data Noise Pada Neural Network Untuk Estimasi Kuat Tekan Beton Penerapan
Metode Bagging Untuk Mengurangi Data Noise Pada Neural Network Untuk,
1(1), 36–41.
Vercellis, C. (2009). Business Intelligence : Data Mining and Optimization for
Decision Making. John Wiley & Sons, Ltd.
W. C.-M. Liaw, Yi-Ching, Leou Maw-Lin, “Fast exact k nearest neighbors
search using anorthogonal search tree,” Pattern Recognit., vol. 43, no. 6, pp.
2351–2358, Feb. 2010.
Witten, I. H., Frank, E., & Hall, M. A. (2011).Data Mining: Practical Machine
Learning and Tools. Burlington: Morgan Kaufmann Publisher.

60
DAFTAR RIWAYAT HIDUP

I. Biodata Mahasiswa

NIM : 14001810
Nama Lengkap : Ibnu Alfarobi
Tempat & Tanggal Lahir : Brebes, 01 Juli 1989
Alamat Lengkap : Prupuk Selatan Rt. 02 / Rw.02 Kec.
Margasari, Kab. Tegal, Jawa Tengah

II. Pendidikan Formal dan Non Formal

1. SDN Prupuk 04, lulus tahun 2001.


2. SMPN 03 Margasari, lulus tahun 2004.
3. SMAN 01 Bumiayu, lulus tahun 2007.
4. Diploma III Akademi Manajemen Informatika dan Komputer Bina
Sarana Informatika Bogor Jurusan Komputerisasi Akuntansi, lulus
tahun 2013.
5. Strata I Sekolah Tinggi Manajemen Informatika dan Komputer Nusa
Mandiri Jakarta Jurusan Sistem Informasi, lulus tahun 2014

III. Riwayat Pengalaman Berorganisasi / Pekerjaan

1. Accounting Officer PT. Dunggio Drilling, tahun 2010-2012.


2. Staff Markom BSI, tahun 2014-Sekarang.

Jakarta, 16 Februari 2017

Foto
3X4

Ibnu Alfarobi

61
Lampiran 1. Tabel Data Kelulusan Mahasiswa

62
63
64
65
66
67
68
69
70
71
72
73
74
75
Lampiran 2. Operator Replace Missing Value

76
Lampiran 3. Penggunaan Algoritma Naive Bayes

77
Lampiran 4. Penggunaan Algoritma Random Forest

78
Lampiran 4. Penggunaan Algoritma C4.5

79

Anda mungkin juga menyukai