TESIS
IBNU ALFAROBI
14001810
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer (M.Kom)
IBNU ALFAROBI
14001810
Dengan ini menyatakan bahwa tesis yang telah saya buat dengan judul:
“Komparasi Algoritma C4.5, Naive Bayes, dan Random Forest Untuk Klasifikasi
Data Kelulusan Mahasiswa” adalah hasil karya sendiri, dan semua sumber baik
yang kutip maupun yang dirujuk telah saya nyatakan dengan benar dan tesis
belum pernah diterbitkan atau dipublikasikan dimanapun dalam bentuk apapun.
Ibnu Alfarobi
iii
HALAMAN PENGESAHAN
DEWAN PENGUJI
Penguji I : ....................................
Penguji II : .....................................
iv
Pembimbing
LEMBAR KONSULTASI BIMBINGAN TESIS
v
KATA PENGANTAR
vi
5. Seluruh rekan kerja penulis di Bina Sarana Informatika yang telah banyak
memberikan masukan-masukan yang bermanfaat pada penelitian ini,
khususnya Staff bagian Marketing Komunikasi BSI.
6. Rekan-rekan mahasiswa kelas 14.4A.01.
Serta semua pihak yang terlalu banyak untuk disebut satu persatu
sehingga terwujudnya penulisan ini. Penulis menyadari bahwa penulisan tesis ini
masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran yang
bersifat membangun demi kesempurnaan penulisan dimasa yang akan datang.
Akhir kata semoga skripsi ini dapat berguna bagi penulis khususnya dan
bagi para pembaca yang berminat pada umumnya.
Ibnu Alfarobi
Penulis
vii
SURAT PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Dengan Hak Bebas Royalti Non-Eksklusif ini pihak STMIK Nusa Mandiri
berhak menyimpan, mengalih-media atau bentuk-kan, mengelolaannya dalam
pangkalan data (database), mendistribusikannya dan menampilkan atau
mempublikasikannya di internet atau media lain untuk kepentingan akademis
tanpa perlu meminta ijin dari kami selama tetap mencantumkan nama kami
sebagai penulis/pencipta karya ilmiah tersebut.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK
Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak
Cipta dalam karya ilmiah saya ini.
Ibnu Alfarobi
viii
ABSTRAK
ix
ABSTRACT
x
DAFTAR ISI
Halaman
HALAMAN JUDUL................................................................................... ii
HALAMAN PENGESAHAN..................................................................... iv
ABSTRAK .................................................................................................. ix
ABSTRACT ................................................................................................ x
xi
2.1. Tinjauan Pustaka .................................................................. 6
xii
DAFTAR TABEL
Halaman
xiii
DAFTAR GAMBAR
Halaman
xiv
Gambar 4.20 Grafik AUC Algoritma Random Forest (data testing 20% :
data Training 80%) .............................................................. 55
Gambar 4.21 Grafik AUC Algoritma Random Forest (data testing 30% :
data Training 70%) .............................................................. 56
Gambar 4.22 Contoh Model Random Forest yang Terbentuk .................. 56
xv
DAFTAR LAMPIRAN
xvi
BAB I
PENDAHULUAN
1
2
Bab V Penutup
Pada bab ini berisi kesimpulan dari penulisan pada bab-bab sebelumnya
dan saran mengenai penelitian selanjutnya.
BAB II
LANDASAN TEORI
6
7
2.1.2 Klasifikasi
Klasifikasi adalah proses menempatkan obyek atau konsep tertentu
kedalam satu set kategori, berdasarkan sifat obyek atau konsep yang bersangkutan
(Gorunescu, 2011). Dalam klasifikasi terdapat dua pekerjaan utama yang
dilakukan: pertama, pembangunan model sebagai prototype untuk disimpan
sebagai memori. Kedua, penggunaan model tersebut untuk melakukan
pengenalan/klasifikasi/prediksi pada suatu objek data lain agar diketahui di kelas
mana objek data tersebut berada.
Proses klasifikasi didasarkan pada komponen (Gorunescu, 2011):
1. Kelas (Class)
Variabel dependen dari model yang merupakan kategori variabel yang
mewakili label-label yang diletakkan pada obyek setelah pengklasifikasian.
Contoh: kelas bintang, kelas gempa bumi
2. Prediktor (Predictor)
Variabel independen dari model yang diwakili oleh karakteristik atau atribut
dari data yang diklasifikasikan berdasarkan klasifikasi yang dibuat. Contoh:
tekanan darah, status perkawinan, musim
3. Dataset Pelatihan (Training Dataset)
Merupakan dataset yang berisi dua komponen nilai yang digunakan untuk
pelatihan mengenali model yang sesuai dengan kelasnya, berdasarkan
prediktor yang ada. Contoh: database penelitian gempa, database badai,
database pelanggan supermarket
4. Database Pengujian (Testing Database)
Merupakan dataset baru yang akan diklasifikasikan oleh model yang
dibangun sehingga dapat dievaluasi hasil akurasi klasifikasi tersebut.
Penghitungan Entropy
= 0.863
= 0.000
= 0.721
= 0.970
= 0.000
= 1.000
= 0.918
= 0.985 Humidity
= 0.000
= 0.811 Windy
Penghitungan Gain
= 0.258
= 0.183
= 0.370
= 0.005
Naive Bayes merupakan salah satu algoritma klasifikasi yang utama pada
data mining yang banyak digunakan dalam masalah klasifikasi di dunia nyata
karena metode ini memiliki performa klasifikasi yang tinggi. Beberapa kelebihan
dan kekurangan metode Naive Bayes (Han et al., 2012) adalah sebagai berikut:
a. Keuntungan:
- Mudah diimplementasikan
- Memberikan hasil yang baik untuk banyak kasus
- Hanya membutuhkan satu kali scan data training
b. Kelemahan:
- Harus mengansumsi bahwa antar fitur tidak terkait (independent). Namun
realitanya keterkaitan itu ada, sebagai contoh: biodata pasien Rumah
sakit; umur, riwayat keluarga, dan lain-lain.
- Keterkaitan tersebut tidak dapat dimodelkan oleh Naive Bayes
Dengan demikian ditemukan kelas yang maksimal P(Ci | X). Kelas Ci untuk
setiap P(Ci | X) yang dimaksimalkan disebut hipotesisposteriori maksimum.
Persamaan teorema bayes:
P (X | Ci) P (Ci)
P (Ci | X) = (2.4)
P(X)
17
Dengan:
P (Ci | X) = Probabilitas hipotesis kelas Ci berdasarkan kondisi X
P (X | Ci) = Probabilitas data X berdasarkan kondisi pada kelas Ci
P (Ci) = Probabilitas awal kelas Ci
P (X) = Probabilitas awal data X
3. P (X) adalah sama untuk semua kelas, hanya P (X | Ci) P(Ci) yang perlu
dimaksimalkan. Jika kelas apriori probabilitas, P(Ci) tidak diketahui, maka
umumnya diasumsikan seperti ini P (Ci) = P (C2) = ... = P (Cm) maka dari itu
akan memaksimalkan P (X | Ci). Tapi sebaliknya akan memaksimalkan P (X |
Ci) P (Ci). Dapat diperhatikan bahwa kelas probabilitas apriori dapat
diperkirakan dengan P(Ci)= |Ci,D| / |D|, dimana |Ci,D| merupakan jumlah
pelatihan rangkap dari kelas Ci di dalam D.
4. Dataset dengan banyak atribut, akan menjadi perhitungan yang mahal untuk
menghitung P(X | Ci). Dalam rangka untuk mengurangi perhitungan dalam
mengevaluasi P(X | Ci). Pada asumsi naive bahwa kelas independen bersyarat
dibuat. Ini menganggap bahwa nilai-nilai atribut yang independen bersyarat
satu sama lain diberikan pada kelas sampel. Secara matematis berarti bahwa:
5. Untuk memprediksi label kelas X, P(X | Ci) P(Ci) merupakan evaluasi dari
setiap kelas Ci. Pengklasifikasi memprediksi bahwa label kelas X adalah Ci
jika dan hanya jika
Contoh:
Terdapat sebuah dataset seperti berikut:
Asumsi:
Y = Berolahraga
X1 = Cuaca
X2 = Temperatur
X3 = Kecepatan angin
Fakta:
P (Y = ya) = 4/6
P (Y = tidak) = 2/6
Jika suatu hari:
Cuaca = Cerah
Kecepatan angin = Kencang
Berolahraga = ?
Maka hipotesa yang diambil berdasarkan nilai probabilitas dari kondisi prior yang
diketahui:
P (X1 = Cerah, X3 = Kencang, Y = ya)
= { P (X1 = Cerah | Y = ya) . P (X3 = Kencang | Y = ya)} . P (Y = ya)
= { (1) . (1/4) } . (4/6) = 4/24 = 1/6
P (X1 = Cerah, X3 = Kencang, Y = tidak)
= { P (X1 = Cerah | Y = tidak) . P (X3 = Kencang | Y = tidak)} . P (Y = tidak)
= { (0) . (1/2) } . (2/6) = 0
Jadi, prediksi cuaca = cerah, kecepatan angin = kencang adalah berolahraga = ya.
19
data menjadi dua segmen, Segmen pertama digunakan sebagai data training dan
segmen kedua sebagai data testing dalam validasi model (Witten, Frank, 2011).
Data training adalah data yang akan dipakai dalam melakukan pembelajaran
sedangkan data testing adalah data yang belum pernah dipakai sebagai
pembelajaran dan akan berfungsi sebagai data pengujian kebenaran atau
keakurasian hasil pembelajaran (Witten & Frank, 2011).
Dengan menggunakan K-Fold Cross Validation atau disebut juga dengan
10-Fold Cross Validation akan dilakukan percobaan sebanyak k. Hasil dari
berbagai percobaan yang ekstensif dan pembuktian teoritis, menunjukan bahwa
10-Fold Cross Validation adalah pilihan terbaik untuk mendapatkan hasil validasi
yang akurat. Oleh karena itu, secara umum pengujian nilai k dilakukan sebanyak
10 kali. 10-Fold Cross Validation akan mengulang pengujian sebanyak 10 kali
dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian. Setiap
percobaan akan menggunakan satu data testing dan k-1 bagian akan menjadi data
training, kemudian data testing itu akan ditukar dengan satu buah data training
sehingga untuk tiap percobaan akan didapatkan data testing yang berbeda-beda.
2 91%
3 90%
4 93%
5 93%
6 91%
7 94%
8 93%
9 91%
10 90%
Akurasi Rata - rata 92%
k-subset (data testing)
Gambar 2.4 Ilustrasi 10-Fold Cross Validation
(Paprotny, 2014)
22
A B
Class = Yes (True Positive – (False Negative –
TP) FN)
C D
Class = No (False Positive – (True Negative –
FP) TN)
Keterangan:
TP = proporsi positif dalam data set yang diklasifikasikan positif
TN = proporsi negative dalam data set yang diklasifikasikan negative
FP = proporsi negatif dalam data set yang diklasifikasikan potitif
FN = proporsi negative dalam data set yang diklasifikasikan negatif
TP + TN
Accuracy = (2.7)
TP + TN + FP + FN
TP
Sensitivity = (2.8)
TP + FN
TN
Specificity = (2.9)
TN + FP
d. PPV (Positive Predictive Value) adalah proporsi kasus dengan hasil diagnosa
positif, yang dihitung dengan menggunakan persamaan:
TP
PPV = (2.10)
TP + FP
TN
PPV = (2.11)
TN + FN
Grafik ROC menggambarkan trade off antara manfaat (true positive) dan
biaya (false positives). Berikut tampilan dua jenis kurva ROC (discrete dan
continous).
Problem
Belum diketahuinya algoritma klasifikasi data mining yang akurat dalam
penentuan kelulusan mahasiswa
Approach
C4.5 Naive Bayes Random Forest
Experiment
Framework Rapidminer
Implementation
Objek Penelitian : Teknik Sampling Design Eksperimen :
:
Komparasi C4.5, Naive Bayes,
Random Forest dengan pembagian
Data Kelulusan Random testing data : training data = 10 :
Mahasiswa Sampling 90, 20 : 80, 30 : 70
Measurement
Confusion Matrix ROC Curve
Result
Pengumpulan Data
Eksperimen
Pengujian Model
30
31
3. Eksperimen
Setelah tahap pengolahan data awal, selanjutnya dilakukan eksperimen pada
data testing dan data training dengan menggunakan algoritma C4.5, Naive
Bayes, dan Random Forest.
4. Pengujian Model
Untuk pengujian model, dilakukan dengan menggunakan Rapidminer dan
mengulang pengujian pada dataset yang ada beberapa kali sehingga
mendapatkan hasil yang terbaik dan membuktikan bahwa metode yang
digunakan adalah tepat.
5. Evaluasi dan Validasi Hasil
Pada tahap terakhir penelitian, dilakukan evaluasi dan validasi hasil
eksperimen dan pengujian model. Dari hasil evaluasi dapat ditarik
kesimpulan dari penelitian dan eksperimen yang sudah dilakukan.
Hardware Software
CPU : Intel Pentium Sistem Operasi : Windows 7
Memory : 1 GB
Data Mining : Rapid Miner 7.2.001
Hardisk : 300 GB
Dataset
Preprocessing
New
Dataset
Data
Learning Method
Data Testing
Model Evaluation
Accuracy AUC
Accuracy
Comparison
38
39
Dari gambar 4.2, dapat kita lihat untuk penanganan nilai dari data yang
hilang digunakan operator Replace Missing Value. Untuk mengisi data yang
hilang dapat dilakukan dengan teknik subtitusi, yaitu dengan mengganti nilainya
menjadi nilai maximum, minimum, rata-rata dari atributnya atau bahkan nilai nol
(0). Pada penelitian ini, untuk menggantikan nilai atribut yang hilang peneliti
mengubahnya menjadi nilai rata-rata dari atribut yang ada. Teknik ini dapat
diterapkan untuk atribut yang bernilai numerik. Pada dataset kelulusan mahasiswa
yang dipakai pada penelitian ini, digunakan nilai rata-rata dari atributnya untuk
mengganti missing value data tersebut. Hasil dari penambahan replace missing
values dapat dilihat pada gambar 4.3.
40
Pada gambar 4.3 di atas, dapat dilihat sudah tidak ada lagi data yang
mengandung missing value sehingga dataset sudah siap untuk dilakukan proses
selanjutnya.
TP + TN
Accuracy =
TP + TN + FP + FN
163 + 128
=
163 + 128 + 32 + 18
291
=
341
= 0.85337
= 85.34%
43
TP + TN
Accuracy =
TP + TN + FP + FN
148 + 110
=
148 + 110 + 29 + 16
258
=
303
= 0.85148
= 85.15%
44
TP + TN
Accuracy =
TP + TN + FP + FN
144 + 92
=
144 + 92 + 13 + 16
236
=
365
= 0.8905
= 89.05%
45
TP + TN
Accuracy =
TP + TN + FP + FN
174 + 117
=
174 + 117 + 21 + 29
48
291
=
341
= 0.85337
= 85.34%
TP + TN
Accuracy =
TP + TN + FP + FN
147 + 107
=
147 + 107 + 30 + 19
254
=
303
= 0.83828
= 83.83%
49
TP + TN
Accuracy =
TP + TN + FP + FN
134 + 96
=
134 + 96 + 23 + 12
230
=
365
= 0.86792
= 86.79%
50
Perbandingan data testing 30% : data training 70% adalah; accuracy = 76.23%
seperti pada gambar 4.18 dan Area Under Curve (AUC) adalah 0.842 seperti pada
gambar 4.21. Dari keselurahan 379 dataset yang diolah, sebanyak 74 jumlah data
yang diprediksi terlambat dan pada kenyataannya memang terlambat, 128 data
diprediksi tepat dan pada kenyataannya memang tepat, 29 data yang diprediksi
terlambat tetapi kenyataannya tepat, dan 34 data diprediksi tepat tetapi
kenyataannya terlambat. Berikut hasil confussion matrix dengan menggunakan
aplikasi rapidminer:
TP + TN
Accuracy =
TP + TN + FP + FN
72 + 179
=
72 + 179 + 16 + 74
251
=
341
53
= 0.73607 = 73.61%
TP + TN
Accuracy =
TP + TN + FP + FN
160 + 100
=
160 + 100 + 17 + 26
260
=
303
= 0.85808
= 85.81%
54
TP + TN
Accuracy =
TP + TN + FP + FN
128 + 74
=
128 + 74 + 29 + 34
202
=
265
= 0.76226
= 76.23%
55
Gambar 4.22 adalah contoh salah satu model random forest yang
terbentuk, dari gambar tersebut dapat dilihat atribut status nikah mempunyai dua
nilai, yaitu “belum menikah” dan “menikah”. Dari hasil pengolahan di
rapidminer, status belum menikah dan lulus terlambat ada 156 mahasiswa, tepat
219, dan status menikah lulus terlambat 5, tepat 0
Data Data
Algoritma Accuracy AUC
Testing Training
10 90 85.34% 0.846
C4.5 20 80 85.15% 0.834
30 70 89.06% 0.869
10 90 85.34% 0.823
Naive Bayes 20 80 83.83% 0.907
30 70 86.79% 0.925
10 90 73.61% 0.823
Random Forest 20 80 85.81% 0.886
30 70 76.23% 0.842
Dari tabel 4.1, dapat kita lihat hasil komparasi dari ketiga algoritma yang
digunakan dalam penelitian ini (C4.5, Naive Bayes, dan Random Forest)
berdasarkan pembagian data testing : data training sebagai berikut; 10 : 90,
20 : 80, 30 : 70. Pada perbandingan data testing 10% dan data training 90%, nilai
akurasi dari algoritma C4.5 dan Naive Bayes adalah sama, yaitu 85.34%. dan ini
masih lebih besar jika dibandingkan dengan nilai akurasi algoritma Random
Forest yang hanya menghasilkan akurasi sebesar 73.61%. Sedangkan nilai Area
Under Curve (AUC) algoritma C4.5 adalah yang terbaik dibandingkan dengan
nilai AUC kedua algoritma Naive Bayes dan Random Forest. Untuk perbandingan
20% data testing dan 80% data training, nilai akurasi algoritma Random Forest
menjadi yang terbesar. Namun, untuk nilai AUC pada perbandingan 20 : 80 ini
algoritma Naive Bayes yang menjadi algoritma dengan nilai AUC terbesar.
Sedangkan yang terakhir, untuk percobaan perbandingan 30% data testing dan
70% data training, yang mempunyai nilai akurasi tertinggi adalah algoritma C4.5
dengan akurasi sebesar 89.06% dan untuk nilai AUC algoritma Naive Bayes yang
mempunyai nilai terbesar yaitu 0.925. Untuk rata-rata keseluruhan percobaan
dapat dilihat pada tabel 4.2.
58
Data Data
Algoritma Accuracy AUC
Testing Training
10 90 85.34% 0.846
20 80 85.15% 0.834
C4.5
30 70 89.06% 0.869
Rata - Rata 86.52% 0.850
10 90 85.34% 0.823
20 80 83.83% 0.907
Naive Bayes
30 70 86.79% 0.925
Rata - Rata 85.32 0.885
10 90 73.61% 0.823
20 80 85.81% 0.886
Random Forest
30 70 76.23% 0.842
Rata - Rata 78.55 0.850
Pada tabel 4.2, dapat kita lihat bahwa rata-rata akurasi dari algoritma C4.5 adalah
86.52 %, ini adalah rata-rata akurasi yang paling tinggi jika dibandingkan dengan
Naive Bayes dan Random Forest. Sedangkan untuk nilai rata-rata Area Unde
Curve (AUC), algoritma Naive Bayes mempunyai nilai AUC yang paling tinggi
dengan nilai sebesar 0.885.
BAB V
PENUTUP
5.1 Kesimpulan
Dari hasil komparasi algoritma C4.5, Naive Bayes, dan Random Forest,
dari percobaaan dengan pembagian data testing : data training 10 : 90, 20 : 80, 30
: 70. Jika dibandingkan dengan nilai akurasi algoritma naive bayes dan algoritma
random forest, nilai akurasi dengan menggunakan algoritma klasifikasi C4.5
adalah yang terbesar pada percobaan data testing 10% : data training 90% dan
percobaan data testing 30% : data training 70%. Sedangkan evaluasi
menggunakan ROC curve yaitu berdasarkan nilai AUC, algoritma naive bayes
menjadi yang tertinggi pada percobaan data testing 20% : data training 80% dan
data testing 30% : data training 70% dengan nilai mendekati 1.000 yaitu 0.907
dan 0.925. Dari hasil keseluruhan pengujian model dapat disimpulkan bahwa
kinerja C4.5 dan Naive Bayes hampir sama bagusnya, baik itu dilihat dari tingkat
akurasi maupun AUC nya.
5.2 Saran
Untuk keperluan penelitian lebih lanjut mengenai komparasi metode
klasifikasi data mining, dapat dilakukan pengembangan untuk dapat menghasilkan
model yang lebih baik lagi, diantaranya:
1. Untuk mendapatkan nilai akurasi yang lebih baik lagi, dapat digunakan
operator optimasi seperti Particle Swarm Optimization (PSO), Ant Colony
Optimization (ANT), Genetik Algorithm (GA), Chi Square, dan lain
sebagainya.
2. Eksperimen penelitian dapat menggunakan jumlah data yang lebih banyak
lagi dan menguji coba dengan dataset kelulusan mahasiswa yang lain
sehingga model yang sudah didapat akan lebih teruji lagi.
3. Menggunakan algoritma pengklasifikasi lain yang mungkin diluar supervised
learning agar dapat dilakukan penelitian yang berbeda dari umumnya yang
sudah ada.
59
DAFTAR REFERENSI
Anggarwal, Charu C. (2015). Data Mining: The Textbook. New York: Springer.
Blaxter, L., Hughes, C., & Tight, M. (2010). How to Research (4th ed).
Maidenhead: Open University Press.
Breiman, L. (1996). Bagging Predictors. Machine Learning, 123-140.
C. J. Mantas and J. Abellan, “Credal-C4.5: Decision Tree Based on Imprecise
Probabilities to Classify Noisy Data, “Expert Syst. Appl., vol. 41, no. 10, pp.
4625-4637, Aug. 2014.
Dawson, C. W. (2009). Projects in Computing and Information Systems a
student’s guide. Harlow, UK: Addison-Wesley.
Gorunescu, Florin (2011). Data Mining: Concepts, Models, and Techniques.
Verlag Berlin Heidelberg: Springer.
Han, J., & Kamber, M. (2007). Data Mining Concepts and Technique. Morgan
Kaufmann publisher.
Han, J., & Kamber., & Pei, J. (2012). Data Mining Consepts and Techniques. San
Fransisco: Morgan Kauffman.
Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey
& Sons, Inc.
Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery
Handbook. London: Springer.
Sammut, Claude. (2011). Encyclopedia of Machine Learning. Boston, MA:
Springer.
Setiyorini, T., Pascasarjana, P., Ilmu, M., Tinggi, S., Informatika, M., Komputer,
D. a N., & Mandiri, N. (2014a). Penerapan Metode Bagging Untuk Mengurangi
Data Noise Pada Neural Network Untuk Estimasi Kuat Tekan Beton Penerapan
Metode Bagging Untuk Mengurangi Data Noise Pada Neural Network Untuk,
1(1), 36–41.
Vercellis, C. (2009). Business Intelligence : Data Mining and Optimization for
Decision Making. John Wiley & Sons, Ltd.
W. C.-M. Liaw, Yi-Ching, Leou Maw-Lin, “Fast exact k nearest neighbors
search using anorthogonal search tree,” Pattern Recognit., vol. 43, no. 6, pp.
2351–2358, Feb. 2010.
Witten, I. H., Frank, E., & Hall, M. A. (2011).Data Mining: Practical Machine
Learning and Tools. Burlington: Morgan Kaufmann Publisher.
60
DAFTAR RIWAYAT HIDUP
I. Biodata Mahasiswa
NIM : 14001810
Nama Lengkap : Ibnu Alfarobi
Tempat & Tanggal Lahir : Brebes, 01 Juli 1989
Alamat Lengkap : Prupuk Selatan Rt. 02 / Rw.02 Kec.
Margasari, Kab. Tegal, Jawa Tengah
Foto
3X4
Ibnu Alfarobi
61
Lampiran 1. Tabel Data Kelulusan Mahasiswa
62
63
64
65
66
67
68
69
70
71
72
73
74
75
Lampiran 2. Operator Replace Missing Value
76
Lampiran 3. Penggunaan Algoritma Naive Bayes
77
Lampiran 4. Penggunaan Algoritma Random Forest
78
Lampiran 4. Penggunaan Algoritma C4.5
79