TINJAUAN PUSTAKA
menemukan model algoritma yang tepat dan lebih baik dalam menghasilkan nilai
prediksi dari sebuah variabel input.Hal ini bisa dilakukan karena metode machine
yang dapat membuat keputusan yang tepat dan cerdas dari kompleksitas pola data.
ini berawal dari data label pada training dataset. Hal pertama pada
berbagai sumber baik itu data yang mudah dipahami atau data dengan
7
8
labeled data dan unlabeled data. Dalam arti, labeled data digunakan
unlabeled data atau dataset yang dihasilkan oleh perpaduan dari hasil
pemahaman user untuk membuat batasan jumlah data yang akan diuji
kumpulan decision node yang dihubungkan oleh cabang-cabang dari decision root
sampai ke leaf node. Algoritma ini digunakan untuk menguji setiap atribut-atribut
9
Root Node
No Yes No
Yes
berdasarkan kondisi yang ditetapkan pada jalur keputusan (Kotu & Deshpande,
2015). Pada metode ini, proses pemisahan data sangat ditentukan oleh kriteria
(0.1)
∑ ( )
Syarat atau ketentuan dalam penerapan decision tree menurut (Larose &
menerapkan algoritma.
Regression.
beragam variasi dimensi data. Metode ini merepresentasikan hasil yang diperoleh
kedalam bentuk rangkaian keputusan yang dapat dipahami oleh pengguna (Han,
Kamber, & Pei, 2012). Umumnya metode Decision Tree yang digunakan pada
pemodelan salah satunya adalah Decision Tree CART. Algoritma CART dapat
untuk proses pemilihan atribut (Gupta, Rawat, Jain, Arora, & Dhami, 2017). Gini
(0.2)
( ) ∑
dimana merupakan nilai probabilitas yang dimiliki oleh tupel D terhadap kelas
| |
dan yang diperoleh dari kalkulasi . Nilai kalkulasi dihitung pada kelas m
dan atribut yang mengurangi nilai impurity (memiliki nilai Gini Index paling
mengklasifikasi objek dengan nilai vote terbanyak dari masing-masing objek yang
2016). Dalam arti, dari keseluruhan training data, metode ini akan menghitung
menemukan 5 data yang paling mendekati kriteria prediksi siswa yang berpotensi
dropout (Kotu & Deshpande, 2015). Metode klasifikasi ini akan mempelajari
Pada dasarnya, penentuan nilai K dari unlabeled test record menjadi kunci
utama yang harus diperhatikan dan diukur menggunakan teknik mengukur jarak (
measure of proximity), kemudian hasilnya dilihat dari nilai vote terbanyak dari
masing-masing tuple data. Teknik yang dapat digunakan untuk mengukur jarak
antara dua point atau tuple salah satunya adalah teknik Euclidean distance.
( ) √( ) ( ) ( ) (0.3)
13
learnng atau disebut lazy learners, seluruh sampel pelatihan disimpan dan
classifier tidak terbentuk sampai semua sampel yang tidak memiliki label
membutuhkan banyak waktu pada tahap proses klasifikasi. Namun di sisi lain,
kelebihan dari teknik pemodelam ini adalah teknik ini sangat mudah
diimplementasikan dan dapat bekerja dengan baik pada sampel data yang
target. Algoritma ini menemukan dasar dari teori statistik dan probabilitas atau
menghitung frekuensi dan kombinasi nilai dataset yang diberikan (Patil &
signifikan antar variabel input dan output. Misalnya, X adalah sekumpulan faktor
atau atribut dan Y adalah target atau labeled class. X merupakan himpunan atribut
( ) ( )
( )
( )
(0.4)
yang diberikan oleh labeled class. Sama halnya dengan P(Y), P(X|Y) dapat
terjadinya atau kemunculan sebuah faktor. Cara kerja Naive Bayes adalah sebagai
berikut :
estimasi parameter yang kompleks. Hal inilah yang merupakan keunggulan Naïve
Bayes jika dibandingkan dengan metode lain, yaitu Naïve Bayes mampu
juga mampu melakukan pengklasifikasian pada sejumlah data yang kecil (Jadhav
& Channe, 2016). Selain itu, metode ini hanya membutuhkan waktu yang singkat
15
untuk tahap training selain itu mampu meningkatkan kinerja klasifikasi dengan
O‟Brien, & Ben-Avie, 2017). Metode ini disebut juga sebagai meta-model dimana
umumnya terjadi pada proses pemodelan. Metode ini terdiri dari beberapa
sebuah model diantaranya bagging, boosting and stacking. Dalam penelitian ini,
metode decision tree digunakan sebagai base learner dan metode stacking
mengoptimalkan hasil akurasi menjadi lebih baik daripada base classifier itu
ini digambarkan oleh perluasan dari pola statistika di bawah ini (2.5):
( ) ∑ ( )
(0.5)
16
pada dimensi ruang yang tinggi yang diturunkan oleh variabel. Notasi ( )
lebih mudah digunakan berdasarkan setiap base learner . Dimana setiap base
adalah neural net, berhubungan dengan weight yang ditentukan oleh neural
learning yang diusulkan oleh Friedman dan populer digunakan dalam pemodelan
Algoritma ini mendukung fleksibilitas dan kustomisasi yang tinggi dengan tiga
elemen yaitu loss function, weak learner, dan additive model. Formula algoritma
( ) ( ) ( ) (0.6)
∑ ( ( ) ( )) (0.7)
17
Dimana adalah model pada tahap ke-m dari metode Gradient Boosting, nilai X
adalah nilai input. Sementara untuk nilai adalah nilai koefisien dan adalah
pemodelan.
mining untuk menjamin atribut yang digunakan lebih akurat, khususnya pada
model pada proses data mining sehingga peluang atribut semakin tinggi dalam
menentukan hasil akurasi pemodelan (Kotu & Deshpande, 2015). Selain itu,
Sivakumari, 2011).
PCA
Numerical
Data
Information
Gain
Filter Type
Categorical
Chi-Square
Feature Data
Selection
Forward
Selection
Wrapper Numerical
Type Data
Backward
Elimination
Dua tipe metode feature selection yang umumnya diterapkan pada pemodelan
pemodelan.
b. Wrapper Type yaitu pemilihan atribut dilakukan saat proses pemodelan sedang
berjalan.
Pada penelitian ini, metode feature selection tipe Filter akan diterapkan untuk
nilai-nilai pada dataset mahasiswa dimana sebagian besar adalah data kategorikal.
19
menguji pengaruh atau keterkaitan antar dua variabel nominal. Uji chi square
dengan menghitung selisih antara jumlah data observasi dengan jumlah data yang
diharapkan pada satu kategori tertentu (Kotu & Deshpande, 2015). (Bolboacă,
Jäntschi, Sestraş, Sestraş, & Pamfil, 2011) Metode ini sudah banyak diterapkan di
( )
∑∑
( )
(0.8)
mewakili kategori atau kelompok tertentu dengan cara mencari jarak terdekat
20
(distance) antara nilai vektor input ke nilai bobotnya. Dari sisi hasil pencapaian,
jika metode ini dibandingkan dengan metode Deep Learning dan Support Vector,
LVQ juga teruji sebagai alternatif yang tepat untuk dengan kompleksitas dan
menunjukkan pengenalan sejumlah atribut dalam jumlah yang kecil yang yang
berpengaruh pada informasi penting dari data input. Tahap selanjutnya, tahap
pada gambar di bawah ini dimana n variabel input dan m merupakan output unit
Nilai W
X1 X1 Y1 Y1
Xi Xi Yj Yj
Xn Xn Ym Ym
importance value dari setiap fitur pada proses klasifikasi dari vector input Xi.
Secara keseluruhan ranking dari setiap feature diperoleh dari nilai rata-rata dari
keseluruhan , dimana .
menggunakan format numerik. Selain data masukan, pada metode LVQ, target
kelas harus ditentukan, dalam hal ini yaitu mahasiswa tidak dropout dan
ditentukan, maka gambaran dari proses feature selection adalah sebagai berikut :
2. Jika nilai bobot akhir (Wm) tidak sesuai dengan target yang diharapkan
sudah diklasifikan sesuai dengan kelas target yang ada pada training
set.
jarak terdekat kemudian selama proses pemodelan, metode dapat menangani dan
keputusan klasifikasi.
22
merupakan salah satu metode yang digunakan untuk menangani klasifikasi data
yang tidak seimbang pada dataset pemodelan (Chawla, Bowyer, & Hall, 2002).
Metode SMOTE diterapkan dengan membuat replika atau data sintetis dari kelas
Contohnya, dari kelas minoritas ditentukan nilai k = 5 maka 5 sampel terdekat (k-
nearest neighbor) dipilih secara acak untuk generate kelas sintesis yang baru.
antaran vektor atribut yang dipilih dengan vektor (nearest neighbor) yang
Metode yang diusulkan oleh Chawla (Chawla, Bowyer, & Hall, 2002) ini
sebagai berikut :
100 persen maka satu kali jumlah data minoritas digunakan untuk
4. Data minoritas dan hasil metode SMOTE serta sampel dari kelas
jumlah data kelas target yang minim agar setara atau seimbang dengan kelas
target yang lebih banyak dengan cara membuat data sintesis berdasarkan k-
(2x2) dengan dua nilai kelas yaitu nilai Y atau nilai N. Pada tabel 2.1 dijelaskan
bahwa nilai sel vertikal (kolom) berisi data hasil observasi sementara nilai sel
c. Jika nilai observasi positif tetapi tidak sesuai dengan nilai ekspektasi,
d. Nilai observasi yang negatif dan dinyatakan tidak sesuai dengan nilai
dari jumlah nilai yang relevan dari keseluruhan data. Sebagai contoh,
untuk menentukan drop out, ekspektasi nilai positif (Y) adalah IPK
( )
(0.9)
b. Mengukur besar kecilnya peluang nilai ekspektasi negatif yang terjadi
disebut specificity test. Jika angka specificity test sebesar 85% pada
( ) (0.10)
(0.11)
( )
(2.12) :
( ) (0.12)
( )
menemukan pola pada sejumlah data pendidikan dimana umumnya sangat sulit
Decision Trees, Neural Networks, Naive Bayes, K-Nearest Neighbor (Katare &
Tabel 2.2.
Neural Network, dan Decision Tree. Melalui hasil riset sebelumnya, Decision
Dengan menggunakan 4 tipe test uji untuk penilaian variabel input yaitu
Chi-square test, One R-test, Info Gain test and Gain Ratio test menggunakan
nama atribut, Merit (ukuran kebaikan), dev Merit (deviasi, yaitu mengukur deviasi
kebaikan), peringkat (posisi rata-rata diduduki oleh atribut), peringkat, dan dev
memberikan hasil yang sangat berbeda yaitu algoritma Naive Bayes lebih baik
dari metode Decision Tree dan Neural Network dalam mengukur hasil prediksi.
data mining yang tepat untuk memprediksi kinerja mahasiswa berdasarkan faktor-
RandomForest
RBFNetwork danSMO.
Hasil yang diperoleh menunjukan hasil prediksi yang bervariasi antara 65-75%.
Menurut Osmanbegović, atribut waktu belajar, tahun pendidikan, usia siswa dan
keberhasilan mahasiswa.
Husain, & Rashid, 2015) melakukan riset metode terbaik untuk prediksi
adalah Naïve Bayes sebesar 76%. Perbedaan hasil akurasi prediksi ditentukan
atribut atau variabel hybrid yang digunakan sebagai input model Neural Network
Metode kedua dengan akurasi prediksi yang lebih tinggi adalah metode
tingkat akurasi prediksi kinerja mahasiswa adalah CGPA. Model Decision Tree
dapat menangani data numerik dan kategoris, serta metode yang tepat dalam
psikometrik (65%).
kombinasi dari tiga atribut, yaitu penilaian internal, CGPA dan kegiatan ekstra
prediksi yang terendah adalah Naïve Bayes sebesar 76%. Namun, dengan
beasiswa, dan atribut interaksi jaringan sosial menunjukkan bahwa Naïve Bayes
30
memiliki tingkat akurasi yang tinggi dibandingkan dengan Neural Network dan
Decision Tree.
drop out pada institusi pendidikan. Di dunia pendidikan, kasus drop out
ditemukan tidak hanya pada pendidikan konvensional tetapi juga online learning.
KNN, Decision Tree dan Naive Bayes. Setelah melakukan pengujian, untuk
memperoleh hasil yang optimal maka Genetic Algorithm (GA) digunakan sebagai
metode feature selection. Dari ketiga metode tersebut, K-Nearest Neighbor (87%)
memberikan hasil akurasi yang lebih tinggi dibandingkan dengan Decision Tree
ini adalah memberikan hasil prediksi indikator drop out yang tepat dari
yang terindikasi berpeluang drop out. Pada penelitian ini, Tan menggunakan 3.59
juta data mahasiswa aktif pada program edukasi online untuk menguji dua
dua variabel atribut tersebut efektif digunakan sebagai faktor kunci dalam
memprediksi drop out dengan nilai akurasi metode tertinggi adalah Decision Tree
(71.91%).
bereksperimen pada 419 sekolah untuk menemukan faktor yang menjadi indikator
kasus drop out. Pada penelitiannya, 60 data pelajar yang drop out dari 670 pelajar,
variabel dimana setiap tahapan diuji menggunakan jumlah dan variabel yang
dan akurasi 99.8%) lebih baik dari JRip (87.5% GM dan tingkat akurasi 96%).
JCLAL (Java Class Library Active Learning), metode data mining diantaranya
dan Sequential Minimal Optimization (SMO) diaplikasikan pada 344 data set yang
atribut. Tingkat akurasi metode ini diperoleh dari hasil uji dataset yang dibagi
mahasiswa drop out yang akurat diketahui di pertengahan tahun akademik dilihat
Dari beragam hasil riset studi, tantangan pemodelan prediksi saat ini
adalah tingkat efisiensi dan akurasi teknik model yang bergantung pada
kurangnya variasi variable yang dipelajari oleh base classifier. Salah satu literatur
studi terkait (Iam-On & Boongoen, 2017) mengaplikasikan Decision Tree, Naïve
Bayes, KNN, dan Artificial Neural Network untuk membuat pemodelan prediksi
digunakan untuk mentransformasi original data menjadi pola data yang baru
(Adejo, 2018) juga membahas pada penelitiannya tentang ensemble method yang
performansi mahasiswa.
drop out, ditemukan bahwa metode machine learning teruji baik dalam
Metode terbaik
adalah ANN (98.85%)
Decision Tree
(95.76%)
(Márquez-Vera, et Modified Nilai akhir rata-rata, Confussion Matrix,
al., 2016) Interpretable Tingkat pendapatan Accuracy Rate, True
Classification Rule orangtua, Kebiasaan belajar, Positive Rate, True
Mining (ICRM) Tingkat pendidikan Negative Rate, GM
orangtua, Kehadiran siswa,
Disabilitas, Metode Metode terbaik
pembelajaran, Tingkat adalah metode
kesulitan mata pelajaran, modified ICRM
Tipe kepribadian siswa, dengan akurasi
34
Dari hasil studi literatur tersebut, metode terbaik yang ditemukan adalah
Neural Network dan Decision Tree memiliki akurasi yang paling tinggi. Dalam
hal ini, kedua metode tersebut sebagai metode terbaik dalam melakukan prediksi
menentukan variabel indikator mahasiswa drop out dengan nilai precision rate
yang sangat baik juga (Tan & Shao, 2015). Pada review penelitiannya, Shahiri
bergantung pada kualitas atribut. Di sisi lain, hasil akurasi tidak bisa maksimal
35
jika data dan atribut yang digunakan relative sedikit. Kelemahan metode dalam
Pada beberapa kondisi, akurasi tidak tepat jika jumlah data dan atribut yang
digunakan relatif kecil. Pada penelitian ini, metode yang akan dibandingkan
Matrix.
36