Bab 2 1901769323

BAB 2
TINJAUAN PUSTAKA
2.1 Machine Learning

Machine learning merupakan salah satu pendekatan yang digunakan pada
data mining. Pendekatan machine learning dapat menangani masalah dengan
menemukan model algoritma yang tepat dan lebih baik dalam menghasilkan nilai
prediksi dari sebuah variabel input.Hal ini bisa dilakukan karena metode machine
learning menginterpretasikan bagaimana komputer dapat belajar, bekerja atau
memperbaiki performansi berdasarkan data. Metode ini disebut sebagai metode
yang dapat membuat keputusan yang tepat dan cerdas dari kompleksitas pola data.
Machine learning merupakan pendekatan yang cepat berkembang dan beradaptasi
(Han, Kamber, & Pei, 2012).
Pendekatan machine learning memiliki 4 kategori yang umumnya
diaplikasikan pada konsep data mining :
1. Supervised learning sering disebut sebagai metode klasifikasi. Metode
ini berawal dari data label pada training dataset. Hal pertama pada
proses klasifikasi yaitu tahapan mempelajari mapping atau fungsi
( ) dimana dapat memprediksi kelas yang terkait dengan label
dari sebuah input . Metode ini dapat menggunakan dataset dari
berbagai sumber baik itu data yang mudah dipahami atau data dengan
tingkat kerumitan yang tinggi.
2. Unsupervised learning merupakan metode pengelompokan
(clustering). Proses clustering sendiri adalah bertujuan untuk
7
8
mengelompokkan obyek untuk menemukan kelas-kelas data yang
tidak diketahui pada dataset.
3. Semi-supervised learning merupakan teknik machine learningdimana
untuk mempelajari model algoritma menggunakan dua jenis data yaitu
labeled data dan unlabeled data. Dalam arti, labeled data digunakan
untuk mengetahui dan mempelajari model yang digunakan sementara
unlabeled data digunakan sebagai batasan antara masing-masing kelas
pada model. Unlabeled data yang dimaksud dapat dikelompokkan
menjadi kategori positif atau negatif dimana masing-masing berperan
menjadi batasan dalam menentukan keputusan.
4. Active learning, salah satu pendekatan machine learning dimana user
berperan aktif dalam proses pendekatan. Pengguna dapat melakukan
pelabelan pada contoh data dimana kemungkinan data merupakan
unlabeled data atau dataset yang dihasilkan oleh perpaduan dari hasil
pembelajaran program. Tujuan metode ini adalah untuk
mengoptimalkan kualitas model dengan cara memberikan peran atau
pemahaman user untuk membuat batasan jumlah data yang akan diuji
sesuai dengan kebutuhan user.
2.1.1 Decision Tree (ID3)

Decision tree merupakan salah satu algoritma klasifikasi yang menarik
untuk melakukan pengukuran menggunakan struktur pohon yang terdiri dari
kumpulan decision node yang dihubungkan oleh cabang-cabang dari decision root
sampai ke leaf node. Algoritma ini digunakan untuk menguji setiap atribut-atribut
9
yang memungkinkan untuk menghasilkan keputusan-keputusan baru sampai pada
akhirnya menemukan keputusan yang tepat (leaf node) Gambar 2.1.
Root Node
Average Grade = High Average Grade = Low
Decision Node Decision Node

(Grade > 80) (Grade < 80)
No Yes No
Yes
Prediction Value Prediction Value Prediction Value Prediction Value

Decision Decision Decision Decision
Gambar 2.1 Model Decision Tree (Larose & Larose, 2014)
Pengujian data dilakukan di setiap masing-masing decision node untuk
memisahkan dataset menjadi subset berdasarkan homogenitas data. Decision node
yang terakhir merupakan node penentuan nilai prediksi variabel target
berdasarkan kondisi yang ditetapkan pada jalur keputusan (Kotu & Deshpande,
2015). Pada metode ini, proses pemisahan data sangat ditentukan oleh kriteria
kelayakan dimana yang diukur berdasar dua hal berikut :
1. Dataset yang akan dipisahkan harus dipastikan benar-benar mewakili
kelas yang sama. Sebagai contoh, 50% mahasiswa memiliki angka
IPK<3.0 dan 50% dengan angka IPK>3.0.
2. Ukuran kelayakan dataset harus bernilai 100 atau 0 ketika dataset
merepresentasikan sebuah kelas. Contohnya, jika dataset yang
ditentukan adalah mahasiswa dengan nilai IPK>3.0 maka

10
kemungkinannya adalah data tersebut 100% layak digunakan atau
sama sekali tidak bisa digunakan.
Kriteria menentukan model decision tree yang dibentuk yang diukur
menggunakan rumus Entropy (2.1) sebagai berikut :
(0.1)
∑ ( )
Syarat atau ketentuan dalam penerapan decision tree menurut (Larose &
Larose, 2014) dijelaskan dengan singkat sebagai berikut :
1. Mempersiapkan data set training yang menyediakan algoritma dengan
nilai variabel target, misalnya kualitas mahasiswa (baik atau buruk),
persentase kehadiran mahasiswa (0-100%).
2. Dataset harus beragam sehingga memudahkan algoritma untuk
mengklasifikasi dan memprediksi subset.
3. Masing-masing atribut harus bersifat diskrit, artinya nilai-nilai
variabel memiliki batasan yang jelas sehingga memudahkan untuk
menerapkan algoritma.
Beberapa kelebihan metode Decision Tree yang dipertimbangkan oleh beberapa
peneliti dalam menerapkan metode ini sebagai metode pemodelan prediksi
(Rokach, 2016), diantaranya adalah :
1. Metode ini dapat lebih mudah divisualisasikan dan dapat dipahami
secara sederhana dengan persiapan data yang relatif kecil sedangkan
teknik lainnya sering membutuhkan rangkaian tahap pre-processing
seperti normalisasi data, pembuatan dummy variable dan proses
eliminasi missing data.

11
2. Decision Tree dapat menangani data kategorikal dan numerik
sedangkan teknik lainnya hanya khusus menangani satu jenis variabel.
3. Metode ini dapat dikombinaasikan dengan teknik prediksi lainnya
misalnya Decision Tree dengan metode Neural Network atau Logistic
Regression.
Pada dasarnya metode decision trees dapat memecahkan dan menangani
beragam variasi dimensi data. Metode ini merepresentasikan hasil yang diperoleh
kedalam bentuk rangkaian keputusan yang dapat dipahami oleh pengguna (Han,
Kamber, & Pei, 2012). Umumnya metode Decision Tree yang digunakan pada
pemodelan salah satunya adalah Decision Tree CART. Algoritma CART dapat
membangun pemodelan klasifikasi dan regresi dimana Gini Index digunakan
untuk proses pemilihan atribut (Gupta, Rawat, Jain, Arora, & Dhami, 2017). Gini
Index merupakan metode pemilihan atribut dengan mengukur nilai impurity D,
sekumpulan partisi data atau tupel data pelatihan sebagai (2.2) :
(0.2)
( ) ∑
dimana merupakan nilai probabilitas yang dimiliki oleh tupel D terhadap kelas
| |
dan yang diperoleh dari kalkulasi . Nilai kalkulasi dihitung pada kelas m
dan atribut yang mengurangi nilai impurity (memiliki nilai Gini Index paling
rendah) dipilih sebagai atribut pemisah dalam classification tree.
Pada penelitian ini, Decision Tree CART diaplikasikan dengan beberapa
kelebihan sebagai berikut :
1. Metode ini dapat menangani missing value secara otomatis
menggunakan pemisah pengganti.

12
2. Menggunakan kombinasi variabel kontinu/diskrit.
3. Metode ini secara otomatis melakukan proses seleksi variabel.
4. Metode ini dapat membangun interaksi antar variabel.
2.1.2 K-Nearest Neighbor (KNN)

K-Nearest Neighbor (KNN), salah satu metode klasifikasi yang dapat
melatih model tanpa menggunakan parameter (non-parametrik). Metode ini
mengklasifikasi objek dengan nilai vote terbanyak dari masing-masing objek yang
sudah ditentukan sebelumnya (K-Neighbor) (Marbouti, Diefes-Dux, & Madhavan,
2016). Dalam arti, dari keseluruhan training data, metode ini akan menghitung
jarak antara objek yang terdekat, contohnya, nilai K = 5, pemodelan akan
menemukan 5 data yang paling mendekati kriteria prediksi siswa yang berpotensi
dropout (Kotu & Deshpande, 2015). Metode klasifikasi ini akan mempelajari
pola yang terbentuk dan membandingkan hasilnya dengan pemodelan
menggunakan testing data.
Pada dasarnya, penentuan nilai K dari unlabeled test record menjadi kunci
utama yang harus diperhatikan dan diukur menggunakan teknik mengukur jarak (
measure of proximity), kemudian hasilnya dilihat dari nilai vote terbanyak dari
masing-masing tuple data. Teknik yang dapat digunakan untuk mengukur jarak
antara dua point atau tuple salah satunya adalah teknik Euclidean distance.
Misalkan titik X yaitu ( ), kemudian titik Y yaitu
( ) maka rumus pengukuran (2.3) yang digunakan sebagai berikut :
( ) √( ) ( ) ( ) (0.3)
13
Pada proses pemodelan, K-Nearest Neighbor sebagai instance-based
learnng atau disebut lazy learners, seluruh sampel pelatihan disimpan dan
classifier tidak terbentuk sampai semua sampel yang tidak memiliki label
(unlabeled sample) harus diklasifikasikan. Metode ini sangat cepat proses
komputasinya pada saat proses training, namun sebaliknya namun sebaliknya
membutuhkan banyak waktu pada tahap proses klasifikasi. Namun di sisi lain,
kelebihan dari teknik pemodelam ini adalah teknik ini sangat mudah
diimplementasikan dan dapat bekerja dengan baik pada sampel data yang
memiliki banyak kelas label. Selain itu
2.1.3 Naïve Bayes

Algoritma Naive Bayes merupakan pendekatan supervised learning yang
digunakan untuk pengklasifikasian dengan tujuan untuk memprediksi variabel
target. Algoritma ini menemukan dasar dari teori statistik dan probabilitas atau
disebut sebagai metode klasifikasi sederhana berdasarkan nilai probabilitas dari
menghitung frekuensi dan kombinasi nilai dataset yang diberikan (Patil &
Sherekar, 2013). Umumnya, cara kerja teknik klasifikasi adalah dengan
melakukan prediksi labeled class berdasarkan atribut dengan mencari korelasi
signifikan antar variabel input dan output. Misalnya, X adalah sekumpulan faktor
atau atribut dan Y adalah target atau labeled class. X merupakan himpunan atribut
seperti X{X1,X2,X3,…, Xn} dimana Xi adalah single atribut. Probabilitas P(Y)
atau disebut probabilitas yang dihitung dari kumpulan data menunjukkan
kemungkinan-kemungkinan yang muncul pada dataset. Formula dasar yang
digunakan pada teori Bayes adalah sebagai berikut (2.4) :

14
( ) ( )
( )
( )
(0.4)
P(X|Y) disebut sebagai probabilitas kondisional dimana atribut menerima nilai
yang diberikan oleh labeled class. Sama halnya dengan P(Y), P(X|Y) dapat
dihitung dari keseluruhan data. P(X) pada dasarnyamerupakan probabilitas
terjadinya atau kemunculan sebuah faktor. Cara kerja Naive Bayes adalah sebagai
berikut :
1. Training dataset D terkait dengan kelas label dimana setiap tupel
diwakili oleh vektor elemen n-dimensi, X = (X1, X2, X3,...Xn).
2. Misalkan, proses klasifikasi dimulai dari tupel X yang belum
diketahui, maka classifier akan memprediksi bahwa X memiliki kelas
dengan nilai probabilitas yang lebih tinggi berdasarkan pada X.
Artinya, classifier Naive Bayes menentukan tupel X yang belum
diketahui pada kelas jika dan hanya jika ( ) ( | )
Naïve Bayes dapat dikatakan sebagai simple probabilistic classifier yang
memungkinkan untuk membangun pemodelan pada dataset yang besar tanpa
estimasi parameter yang kompleks. Hal inilah yang merupakan keunggulan Naïve
Bayes jika dibandingkan dengan metode lain, yaitu Naïve Bayes mampu
mempelajari fitur probabilitas kondisional secara terpisah sehingga metode ini
juga mampu melakukan pengklasifikasian pada sejumlah data yang kecil (Jadhav
& Channe, 2016). Selain itu, metode ini hanya membutuhkan waktu yang singkat
15
untuk tahap training selain itu mampu meningkatkan kinerja klasifikasi dengan
mengeliminasi fitur yang tidak relevan pada pemodelan.
2.2 Ensemble Classifier Method

Ensemble Classifier Method adalah konsep beragam metode pemodelan
yang digunakan untuk menyelesaikan masalah base learners. Metode ini
mengembangkan dan menggabungkan sekumpulan hipotesa untuk memperbaiki
kelemahan data pelatihan menggunakan pendekatan single-learners (Pang, Judd,
O‟Brien, & Ben-Avie, 2017). Metode ini disebut juga sebagai meta-model dimana
jika kondisi yang diinginkan terpenuhi, kombinasi dari beberapa single-learner
dapat memperoleh pembelajaran baru dan sangat mengurangi kesalahan yang
umumnya terjadi pada proses pemodelan. Metode ini terdiri dari beberapa
pendekatan yang umumnya digunakan dalam klasifikasi untuk membangun
sebuah model diantaranya bagging, boosting and stacking. Dalam penelitian ini,
metode decision tree digunakan sebagai base learner dan metode stacking
(stacked generalization) karena telah terbukti mengurangi kesalahan dan
mengoptimalkan hasil akurasi menjadi lebih baik daripada base classifier itu
sendiri (Adejo, 2018).
Metode ini dikenal dengan Importance Sampling Learning Ensembles
(ISLE) framework yang menunjukkan empat metode ensemble method,
diantaranya Bagging, Random Forest, AdaBoost dan Gradient Boosting. Metode
ini digambarkan oleh perluasan dari pola statistika di bawah ini (2.5):
( ) ∑ ( )
(0.5)
16
dimana * ( )+ dikenal sebagai fungsi dasar (base learners). Misalnya, setiap
bisa menjadi decision tree. Ensemble method merupakan pemodelan linier
pada dimensi ruang yang tinggi yang diturunkan oleh variabel. Notasi ( )
lebih mudah digunakan berdasarkan setiap base learner . Dimana setiap base
learner dideskripsikan oleh sekumpulan parameter vector p. Contohnya, jika
adalah neural net, berhubungan dengan weight yang ditentukan oleh neural
net. Jika adalah decision tree, berhubungan dengan pemisahan keputusan
yang diperoleh menggunakan klasifikasi tree. Secara singkat, metode ensemble
mengkombinasikan beberapa teknik pendekatan machine learning menjadi satu
bentuk pemodelan prediksi yang bertujuan untuk mengurangi varian data
(bagging), bias (boosting) atau meningkatkan kemampuan prediksi (stacking).
Pada penelitian ini, algoritma yang akan digunakan sebagai meta-classifier
pada metode Ensemble Classification adalah algoritma Gradient Boosting
Machine. Gradient Boosting Machine merupakan salah satu metode machine
learning yang diusulkan oleh Friedman dan populer digunakan dalam pemodelan
regresi dan klasifikasi yang secara iteratif mengubah weak-learner menjadi
strong-learner dalam pemodelan prediksi (Sagar, Gupta, & Kaushal, 2016).
Algoritma ini mendukung fleksibilitas dan kustomisasi yang tinggi dengan tiga
elemen yaitu loss function, weak learner, dan additive model. Formula algoritma
sebagai berikut (2.6)(2.7) :
( ) ( ) ( ) (0.6)
∑ ( ( ) ( )) (0.7)
17
Dimana adalah model pada tahap ke-m dari metode Gradient Boosting, nilai X
adalah nilai input. Sementara untuk nilai adalah nilai koefisien dan adalah
decision tree pada tahap ke-m. Gradient Boosting Machine akan
mengkombinasikan masing - masing keunggulan beberapa weak-learner dalam
proses pemodelan prediksi dan menjadi metode strong-learner yang mampu
mengurangi bias dan variansi data pada pemodelan prediksi.
Dari beberapa studi literatur, metode Ensemble Classifier digunakan
karena beberapa kelebihan yang dapat disimpulkan diantaranya :
1. Ensemble Classifier Method membantu untuk meminimalkan faktor
noise, bias atau variansi data.
2. Ensemble Classifier Method dapat menghasilkan keputusan dari
beberapa model yang digunakan untuk meningkatkan performansi
pemodelan.
3. Ensemble Classifier Method mampu menggabungkan beragam model
dengan akurasi prediksi yang lebih baik jika dibandingkan dengan
menggunakan pemodelan tunggal (single classifier).
2.3 Feature Selection

Feature Selection menjadi salah satu tahapan penting pada proses data
mining untuk menjamin atribut yang digunakan lebih akurat, khususnya pada
proses pemodelan prediksi. Tahapan ini merupakan proses memperkecil
kemungkinan setiap atribut yang tidak relevan tanpa menurunkan performansi
model pada proses data mining sehingga peluang atribut semakin tinggi dalam
menentukan hasil akurasi pemodelan (Kotu & Deshpande, 2015). Selain itu,
proses feature selection dapat mengoptimasi performansi metode algoritma dan

18
mengurangi kompleksitas dimensi variabel yang memudahkan dalam
menginterpretasikan hasil dari proses pemodelan (Priyadarsini, Valarmathi, &
Sivakumari, 2011).
PCA
Numerical
Data
Information
Gain
Filter Type
Categorical
Chi-Square
Feature Data
Selection
Forward
Selection
Wrapper Numerical
Type Data
Backward
Elimination
Gambar 2.2 Metode Feature Selection (Kotu & Deshpande, 2015)
Dua tipe metode feature selection yang umumnya diterapkan pada pemodelan
data mining (Gambar 2.2) yaitu :
a. Filter Type yaitu dengan memilah atribut utama sebelum melakukan
pemodelan.
b. Wrapper Type yaitu pemilihan atribut dilakukan saat proses pemodelan sedang
berjalan.
Pada penelitian ini, metode feature selection tipe Filter akan diterapkan untuk
mengetahui seberapa signifikan penggunaan variabel-variabel yang ada pada
dataset mahasiswa. Adapun metode Chi-Square akan digunakan untuk mengolah
nilai-nilai pada dataset mahasiswa dimana sebagian besar adalah data kategorikal.
19
2.3.1 Metode Pearson’s Chi Square

Metode Pearson’s Chi-Square digunakan sebagai metode evaluasi
menguji pengaruh atau keterkaitan antar dua variabel nominal. Uji chi square
bertujuan untuk menguji kemungkinan independensi distribusi data caranya
dengan menghitung selisih antara jumlah data observasi dengan jumlah data yang
diharapkan pada satu kategori tertentu (Kotu & Deshpande, 2015). (Bolboacă,
Jäntschi, Sestraş, Sestraş, & Pamfil, 2011) Metode ini sudah banyak diterapkan di
berbagai bidang penelitian untuk mengukur independensi, homogenitas dan
kompatibilitas (goodness of fit) yaitu kesesuaian frekuensi data ekspektasi dengan
data observasi. Pearson‟s Chi-Square fokus pada pengujian tingkat kesamaan
antara masing-masing kelompok pada data kategoris.
( )
∑∑
( )
(0.8)
Formula Pearson’s Chi Square (2.8) didefinisikan sebagai berikut :
Nilai oij : jumlah data observasi
Nilai eij : jumlah data yang diharapkan
2.3.2 Learning Vector Quantization (LVQ)

Learning Vector Quantization (LVQ) merupakan teknik atau model
klasifikasi yang umum digunakan untuk pemilihan feature/atribut pada dataset
dengan menggunakan informasi kelas untuk meningkatkan kualitas keputusan
algoritma. Metode ini mengklasifikasikan pola dari masing-masing output
mewakili kategori atau kelompok tertentu dengan cara mencari jarak terdekat
20
(distance) antara nilai vektor input ke nilai bobotnya. Dari sisi hasil pencapaian,
jika metode ini dibandingkan dengan metode Deep Learning dan Support Vector,
LVQ juga teruji sebagai alternatif yang tepat untuk dengan kompleksitas dan
biaya komputasi yang rendah (Villmann, Bohnsack, & Kaden, 2017).
Umumnya, tahap pertama metode ini adalah proses pemilihan atribut
menunjukkan pengenalan sejumlah atribut dalam jumlah yang kecil yang yang
berpengaruh pada informasi penting dari data input. Tahap selanjutnya, tahap
klasifikasi dimana masing-masing fitur dialokasikan menjadi kelas-kelas yang
terpisah (Ghosh, Sadhu, Biswas, Sarkar, & Sarkar, 2019).
Dalam arti, metode Learning Vector Quantization (LVQ) ini dapat
didefinisikan sebagai proses pengklasifikasian pola dimana masing-masing input
merepresentasikan sebuah kelas. Pada penelitian ini, prosedur LVQ ditunjukkan
pada gambar di bawah ini dimana n variabel input dan m merupakan output unit
yang masing-masing saling terhubung satu sama lain.
Nilai W
X1 X1 Y1 Y1
Xi Xi Yj Yj
Xn Xn Ym Ym
Gambar 2.3 Metode Learning Vector Quantization
Komponen vector Xi diantaranya (Xi1…, Xin) kemudian komponen
masing-masing nlai weight diantaranya (Wj1,…,Wjm). Nilai jarak diantaran Xi dan

21
wj ditentukan oleh fungsi ( ) menggunakan vektor bobot input
, -∑ . Nilai bobot atau relevansi, mengukur
importance value dari setiap fitur pada proses klasifikasi dari vector input Xi.
Secara keseluruhan ranking dari setiap feature diperoleh dari nilai rata-rata dari
keseluruhan , dimana .
Untuk memperoleh hasil seleksi yang akurat, setiap variabel input
menggunakan format numerik. Selain data masukan, pada metode LVQ, target
kelas harus ditentukan, dalam hal ini yaitu mahasiswa tidak dropout dan
mahasiswa dropout. Berdasarkan variabel masukan dan target kelas yang
ditentukan, maka gambaran dari proses feature selection adalah sebagai berikut :
1. Mencari dan menemukan nilai bobot yang paling mendekati dengan
kelas target yang sudah ditentukan dengan menghitung nilai jarak
minimum antara vector input (Xi) dengan nlai bobot (Wj).
2. Jika nilai bobot akhir (Wm) tidak sesuai dengan target yang diharapkan
maka nilai bobot diperbarui.
3. Memperbarui nilai vektor dan melakukan normalisasi.
4. Kemudian, tahap dilakukan secara berulang sampai semua vector input
sudah diklasifikan sesuai dengan kelas target yang ada pada training
set.
Kelebihan metode ini adalah mampu membuat keputusan berdasarkan
jarak terdekat kemudian selama proses pemodelan, metode dapat menangani dan
memperbarui bobot variabel melalui unsupervised learning untuk menentukan
keputusan klasifikasi.
22
2.4 Metode Synthetic Minority Over-Sampling Technique

(SMOTE)
Metode Synthetic Minority Over-Sampling Technique (SMOTE)
merupakan salah satu metode yang digunakan untuk menangani klasifikasi data
yang tidak seimbang pada dataset pemodelan (Chawla, Bowyer, & Hall, 2002).
Metode SMOTE diterapkan dengan membuat replika atau data sintetis dari kelas
minoritas dengan mengambil masing-masing sampel dari kelas minoritas
berdasarkan nilai k yang saling berdekatan (Deepa & Punithavalli, 2011).
Contohnya, dari kelas minoritas ditentukan nilai k = 5 maka 5 sampel terdekat (k-
nearest neighbor) dipilih secara acak untuk generate kelas sintesis yang baru.
Dalam arti, sampel sintesis di-generate dengan mengkalkulasi nilai perbedaan
antaran vektor atribut yang dipilih dengan vektor (nearest neighbor) yang
berdekatan. Data sinstesis
Metode yang diusulkan oleh Chawla (Chawla, Bowyer, & Hall, 2002) ini
digunakan untuk menangani data tidak seimbang dengan prosedur algoritma
sebagai berikut :
1. Menentukan jumlah atau nilai k yang digunakan sebagai pertimbangan
dalam melakukan generate data yang baru.
2. Menentukan besar nilai oversampling yang dihitung dalam satuan
persentase. Contohnya, nilai oversampling 100 persen maka setiap data
kelas minoritas di-generate sebanyak 1 kumpulan data buatan.
3. Menentukan nilai undersampling dalam satuan persen, jika nilainya
100 persen maka satu kali jumlah data minoritas digunakan untuk
mengambil sampel data buatan.

23
4. Data minoritas dan hasil metode SMOTE serta sampel dari kelas
mayoritas digabung menjadi satu data yang baru. Untuk proses
generate data sintesis prosesnya dengan menghitung perbedaan jarak
vektor utama dan nilai k-neighbour. Kemudian, perbedaan tersebut
dikalikan secara acak dengan angka 0 dan 1. Selanjutnya nilai
perbedaan ditambahkan ke dalam nilai utama dari vektor awal untuk
memperoleh vektor yang baru.
Pada penelitian ini, metode SMOTE diaplikasikan untuk menangani
jumlah data kelas target yang minim agar setara atau seimbang dengan kelas
target yang lebih banyak dengan cara membuat data sintesis berdasarkan k-
tetangga terdekat (k-nearest neighbor).
2.5 Confusion Matrix

(Kotu & Deshpande, 2015) Confusion Matrix merupakan metode evaluasi
yang digunakan untuk mengukur performansi pemodelan berdasarkan tabel matrix
(2x2) dengan dua nilai kelas yaitu nilai Y atau nilai N. Pada tabel 2.1 dijelaskan
bahwa nilai sel vertikal (kolom) berisi data hasil observasi sementara nilai sel
horizontal (baris) berisi data prediksi. Penentuan nilai akurasi dikelompokan
menjadi 4 cara yang berbeda yaitu :
a. Jika nilai observasi positif sesuai dengan nilai ekspektasi yang
ditentukan, maka hasilnya adalah True Positive (TP).
b. Jika nilai observasi negatif namun masih dikategorikan sesuai dengan
nilai ekspekstasi, maka hasilnya adalah False Positive (FP).
c. Jika nilai observasi positif tetapi tidak sesuai dengan nilai ekspektasi,
maka hasilnya adalah False Negative (FN).

24
d. Nilai observasi yang negatif dan dinyatakan tidak sesuai dengan nilai
ekspektasi, maka hasilnya adalah True Negative (TN).
Tabel 2.1 Confusion Matrix

Observation Value
Y N
Expectation Value Y True Positive False Positive
N False Negative True Negative
Umumnya, ada 4 tipe pengukuran evaluasi yang dapat dilakukan
menggunakan metode Confusion Matrix, diantaranya adalah :
a. Mengukur kemampuan model dalam menemukan peluang nilai
observasi yang tepat dengan nilai ekspektasi (nilai positif) disebut
dengan sensitivity test. Konsep pengukuran ini sama dengan
pengukuran recall rate dimana dilakukan untuk menemukan proporsi
dari jumlah nilai yang relevan dari keseluruhan data. Sebagai contoh,
untuk menentukan drop out, ekspektasi nilai positif (Y) adalah IPK
<2.5 sedangkan nilai negatif (N) adalah IPK>2.5. Jika angka
sensitivity test adalah 90% maka mahasiswa dengan IPK<2.5 memiliki
peluang 95% terindikasi drop out. Rumus menghitung sensitivitas
adalah sebagai berikut (2.9) :
( )
(0.9)
b. Mengukur besar kecilnya peluang nilai ekspektasi negatif yang terjadi
disebut specificity test. Jika angka specificity test sebesar 85% pada
mahasiswa dengan IPK>2.5 maka dapat dinyatakan bahwa kelompok
mahasiswa tersebut tidak terindikasi dropout. Rumus yang digunakan
untuk menghitung spesifitas adalah (2.10) :

25
( ) (0.10)
c. Untuk mengetahui proporsi dari nilai observasi yang dinyatakan sangat
relevan dengan nilai ekspektasi dapat dilakukan menggunakan rumus
precision test di bawah ini (2.11):
(0.11)
( )
d. Untuk mengetahui apakah metode yang digunakan dapat
mengeksekusi data nilai observasi dengan memilih nilai yang tepat,
dalam arti kemungkinan data bernilai negatif nihil. Pengukuran ini
dapat dilakukan dengan menghitung nilai akurasi menggunakan rumus
(2.12) :
( ) (0.12)
( )
2.6 Studi Literatur

Educational Data Mining merupakan bidang data mining yang fokus pada
pengembangan, penelitian dan pengaplikasian metode komputasi untuk
menemukan pola pada sejumlah data pendidikan dimana umumnya sangat sulit
dilakukan dikarenakan jumlah data yang digunakan sangat besar (Márquez-Vera,
et al., 2016). Pada dasarnya, menjadi standar yang dipertimbangkan dalam
penentuan keputusan dan sudah teruji di berbagai bidang, salah satunya
pendidikan. Beberapa metode yang digunakan adalah metode klasifikasi seperti
Decision Trees, Neural Networks, Naive Bayes, K-Nearest Neighbor (Katare &
Dubey, 2017). Umumnya, EDM diaplikasikan untuk masalah prediksi yang

26
bertujuan untuk meningkatkan keberhasilan dan kualitas baik dari segi
performansi mahasiswa bahkan proses belajar mengajar di institusi pendidikan.
(Kotu & Deshpande, 2015) mengelompokkan teknik-teknik algoritma yang
umum digunakan untuk melakukan prediksi (predictive algorithm) seperti pada
Tabel 2.2.
Tabel 2.2 Pengelompokkan Algoritma Predictive Data Mining

(Kotu & Deshpande, 2015)
Metode Deskripsi Algoritma
Klasifikasi Memprediksi jika data point Decision trees, neural
bagian dari predefined class networks, Bayesian
berdasarkan analisa dataset. models, induction rules,
k-nearest neigbors.
Regresi Memprediksi target numerik Linear regression,
dari data point berdasarkan logistic regression
analisa dataset
Anomaly Detection Memprediksi jika data point Distance based, density
merupakan nilai outlier yang based, local outlier factor
dibandingkan dengan data (LOF)
point lainnya pada dataset
yang sama
Time Series Memprediksi nilai dari Exponential smoothing,
variabel target untuk autoregressive integrated
memetakan masa depan moving average
berdasarkan nilai historis (ARIMA), regression
Clustering Mengidentifikasi cluster k-means, desity-based
yang memiliki properti yang clustering
sama pada dataset.
Association Analysis Mengidentifikasi hubungan Frequent pattern growth
antar item pada data (FP_Growth), Apriori.
transaksi
(Osmanbegovic & Suljic, Data Mining Approach for Predicting Student
Performance, 2012) Osmanbegović membandingkan teknik data mining yang
berbeda dan tepat untuk pengklasifikasian yaitu teknik Bayesian Classifier,
Neural Network, dan Decision Tree. Melalui hasil riset sebelumnya, Decision
Tree terbukti berhasil menangani masalah khususnya memecahkan masalah

27
prediksi. Oleh karena itu, Osmanbegovic membandingkan akurasi dari hasil
pengukuran menggunakan tiga metode klasifikasi yaitu metode C4.5,Multi Layer
Perceptron dan Naive Bayes.
Dengan menggunakan 4 tipe test uji untuk penilaian variabel input yaitu
Chi-square test, One R-test, Info Gain test and Gain Ratio test menggunakan
nama atribut, Merit (ukuran kebaikan), dev Merit (deviasi, yaitu mengukur deviasi
kebaikan), peringkat (posisi rata-rata diduduki oleh atribut), peringkat, dan dev
(deviasi penyimpangan mengambil posisi atribut). Ketiga algoritma tersebut
memberikan hasil yang sangat berbeda yaitu algoritma Naive Bayes lebih baik
dari metode Decision Tree dan Neural Network dalam mengukur hasil prediksi.
Kelemahannya adalah sulit mengintegrasikan sistem pengumpulan data dengan
data mining tools.
(Osmanbegovic, Mirza, & Hariz, Determining Dominant Factor for
Students Performance Prediction by Using Data Mining Classification
Algorithms, 2014) Osmanbegović melakukan penelitian yang spesifik lagi dengan
mengaplikasikan Educational Data Mining untuk menentukan atribut yang
menjadi faktor-faktor dominan dalam prediksiperformansi mahasiswa dan metode
data mining yang tepat untuk memprediksi kinerja mahasiswa berdasarkan faktor-
faktor tersebut. Enam tahapan yang digunakan sebagai metodologi pendekatan
yaitu Bussiness Understanding, Data Understanding, Data Preparation,
Modelling, Evaluation, dan Deployment. Sampel yang digunakan sebanyak 1210
siswa yang aktif dan menggunakan 19 variabel input pada model.
Untuk evaluasi tingkat akurasi metode klasifikasi tersebut, Osmanbegović
menggunakan metode cross validation. Beberapa metrik yang berbeda digunakan

28
untuk mengevaluasi performansi algoritm termasuk akurasi, error rate,
presisi,recall, dan F-Measure. Eksprimen yang dilakukan adalah :
1. Melakukan seleksi atribut menggunakan metode InfoGain dan GainRatio.
Info Gain mengukur nilai atribut yang akan digunakan. GainRatio
mewakili penilaian yang diperoleh dari setiap atribut tersebut.
2. Melakukan evaluasi kinerja dan potensi dari algoritma klasifikasi yang
berbeda untuk mengeksekusi pengukuran prediksi diantaranya :
a) Rules-based algorithms: JRip, NNge, Bagian dan Ridor
b) Tree-based algorithms: ADTree, J48, pemuda pohon dan
RandomForest
c) Functions-basaed algorithms: Logistic, MultilayerPerceptron,
RBFNetwork danSMO.
d) Bayes-based algorithms: BayesNet dan NaiveBayes
Hasil yang diperoleh menunjukan hasil prediksi yang bervariasi antara 65-75%.
Menurut Osmanbegović, atribut waktu belajar, tahun pendidikan, usia siswa dan
pendidikan orangtua merupakan faktor paling signifikan dalam menentukan
keberhasilan mahasiswa.
Banyak metode classification yang sudah diterapkan bahkan (Shahiri,
Husain, & Rashid, 2015) melakukan riset metode terbaik untuk prediksi
performansi mahasiswa. Melalui risetnya, Shahiri mengidentifikasi metode
Neural Network memiliki keakuratan prediksi tertinggi (98%) dan metode
Decision Tree (91%). Selanjutnya, Support Vector Machine dan K-Nearest
Neighbor yang memperoleh hasil akurasi sebesar83% sementara predikat terakhir

29
adalah Naïve Bayes sebesar 76%. Perbedaan hasil akurasi prediksi ditentukan
oleh faktor-faktor yang menjadi atribut selama proses prediksi.
Neural Network mampu mencapai hasil akurasi sangat tinggi melalui
atribut atau variabel hybrid yang digunakan sebagai input model Neural Network
yaitu internal dan external assessment. Keuntungannya, algoritma ini lebih
adaptif, mudah digunakan untuk memperbarui data historis dan dapat
diaplikasikan meskipun jumlah data terbatas. Namun, algoritma ini termasuk
lemah keakuratannya dalam menentukan prediksi jika faktor-faktor yang
digunakan bersifat kualitatif.
Metode kedua dengan akurasi prediksi yang lebih tinggi adalah metode
Decision Tree (91%). Satu-satunya atribut yang digunakan untuk menentukan
tingkat akurasi prediksi kinerja mahasiswa adalah CGPA. Model Decision Tree
dapat menangani data numerik dan kategoris, serta metode yang tepat dalam
pengukuran dataset yang besar. Namun, akurasi pengukuran prediksi
menggunakan metode ini termasuk rendah jika menggunakan variabel
psikometrik (65%).
Lain halnya dengan metode Support Vector Machine, akurasi kinerja
mencapai sekitar 83% menggunakan variabel faktor psikometrik. Sementara
metode K-Nearest menunjukkan akurasi yang tinggi sebesar 83% dengan
kombinasi dari tiga atribut, yaitu penilaian internal, CGPA dan kegiatan ekstra
kurikuler dalam memprediksi kinerja siswa .Metode yang memiliki akurasi
prediksi yang terendah adalah Naïve Bayes sebesar 76%. Namun, dengan
penggunaan variabel CGPA, demografis siswa, latar belakang pendidikan,
beasiswa, dan atribut interaksi jaringan sosial menunjukkan bahwa Naïve Bayes
30
memiliki tingkat akurasi yang tinggi dibandingkan dengan Neural Network dan
Decision Tree.
Di sisi lain, selain prediksi performansi mahasiswa, teknik Educational
Data Mining mulai digunakan untuk menangani isu kecenderungan mahasiswa
drop out pada institusi pendidikan. Di dunia pendidikan, kasus drop out
ditemukan tidak hanya pada pendidikan konvensional tetapi juga online learning.
Untuk mengklasifikasi mahasiswa drop out program online learning, (Yukselturk,
Ozekes, & Turel, 2014) melakukan pengujian variabel menggunakan metode
KNN, Decision Tree dan Naive Bayes. Setelah melakukan pengujian, untuk
memperoleh hasil yang optimal maka Genetic Algorithm (GA) digunakan sebagai
metode feature selection. Dari ketiga metode tersebut, K-Nearest Neighbor (87%)
memberikan hasil akurasi yang lebih tinggi dibandingkan dengan Decision Tree
(79.7%), Naive Bayes (76.8%) dan Neural Network (73%).
(Tan & Shao, 2015) menerapkan tiga metode machine learning
diantaranya Artificial Neural Network, Decision Tree, dan Bayesian Network
untuk menelusuri faktor-faktor yang ditemukan memiliki potensi besar dalam
penentuan seorang mahasiswa dinyatakan berpeluang drop out. Fokus penelitian
ini adalah memberikan hasil prediksi indikator drop out yang tepat dari
karakteristik pembelajaran universitas. Ini tantangan baru bagi universitas untuk
meningkatkan layanan pembelajaran sehingga dapat mempertahankan mahasiswa
yang terindikasi berpeluang drop out. Pada penelitian ini, Tan menggunakan 3.59
juta data mahasiswa aktif pada program edukasi online untuk menguji dua
variabel atribut yang digunakan sebagai input pengujian yaitu karakteristik
mahasiswa dan performansi akademik. Dari nilai hasil pengukuran F-Measure,

31
dua variabel atribut tersebut efektif digunakan sebagai faktor kunci dalam
memprediksi drop out dengan nilai akurasi metode tertinggi adalah Decision Tree
(71.91%).
Di tingkat SMA, (Márquez-Vera, et al., 2016) mengusulkan metode baru
yaitu modifikasi algoritma Interpretable Classification Rule Mining (ICRM2) dan
bereksperimen pada 419 sekolah untuk menemukan faktor yang menjadi indikator
kasus drop out. Pada penelitiannya, 60 data pelajar yang drop out dari 670 pelajar,
pengujian dilakukan menggunakan metode algoritma ICRM 2 dan metode
klasifikasi yaitu algoritma JRip. Proses pengujian dilakukan 6 tahapan dan 60
variabel dimana setiap tahapan diuji menggunakan jumlah dan variabel yang
berbeda-beda. Hasil yang diperoleh adalah tingkat akurasi ICRM2 (99.1% GM
dan akurasi 99.8%) lebih baik dari JRip (87.5% GM dan tingkat akurasi 96%).
(Kostopoulos, Ragos, Kotsiantis, & Grapsa, 2017) melakukan
eksperimental untuk menguji akurasi prediksi atribut yang berdampat pada
terjadinya drop out menggunakan metode active learning. Dengan menggunakan
JCLAL (Java Class Library Active Learning), metode data mining diantaranya
Bayesian Networks, J48,Logistic Regresion, MLP, Naive Bayes, Random Forest
dan Sequential Minimal Optimization (SMO) diaplikasikan pada 344 data set yang
merupakan data mahasiswa jurusan Computer Science untuk menguji 12 variabel
atribut. Tingkat akurasi metode ini diperoleh dari hasil uji dataset yang dibagi
menggunakan prosedur 10-fold cross validation, dan kemudian hasil akurasi
dievaluasi menggunakan test non-parametrik Friedman Aligned Ranks.
(Kostopoulos, Ragos, Kotsiantis, & Grapsa, 2017) menyimpulkan prediksi

32
mahasiswa drop out yang akurat diketahui di pertengahan tahun akademik dilihat
dari hasil prediksi menggunakan metode RF (85.17%) dan SMO(83.9%),
Dari beragam hasil riset studi, tantangan pemodelan prediksi saat ini
adalah tingkat efisiensi dan akurasi teknik model yang bergantung pada
kurangnya variasi variable yang dipelajari oleh base classifier. Salah satu literatur
studi terkait (Iam-On & Boongoen, 2017) mengaplikasikan Decision Tree, Naïve
Bayes, KNN, dan Artificial Neural Network untuk membuat pemodelan prediksi
mahasiswa dropout. Iam-On mengadaptasi metode ensemble-clustering untuk
memprediksi menggunakan detail demografik mahasiswa, performansi akademik
dan enrollment records. Hasil eksperimen membuktikan ensemble method baik
digunakan untuk mentransformasi original data menjadi pola data yang baru
sehingga meningkatkan akurasi pemodelan prediksi. Di bidang yang sama, Adejo
(Adejo, 2018) juga membahas pada penelitiannya tentang ensemble method yang
berhasil diuji mampu mengurangi error dan meningkatkan akurasi prediksi
performansi mahasiswa.
Dari hasil studi literatur, metode-metode educational data mining dalam
hal penerapannya pada prediksi performansi mahasiswa atau prediksi mahasiswa
drop out, ditemukan bahwa metode machine learning teruji baik dalam
melakukan prediksi yang dirangkum seperti pada Tabel 2.3.
Tabel 2.3 Studi Literatur Penelitian Prediksi Drop Out Mahasiswa

Author Metode Variabel Evaluasi
(Osmanbegovic, E., J48 jenis kelamin, family,jarak Confussion Matrix,
Suljic, 2012) Multi Layer asal sekolah, nilai IP, nilai Chi square test, One
Perceptron USM, beasiswa, waktu R-Test, Info Gain Test
Naive Bayes belajar, bahan belajar, Gain Ratio
penggunaan internet, grade, Metode terbaik
pendapatan adalah Naive Bayes
dengan tingkat
akurasi 76.65%.
33

(Osmanbegovic, JRip, NNge,PART, Jenis kelamin, usia, jenis Accuracy test, Error
Mirza, & Hariz, Ridor, ADTree, J48, sekolah, alamat, status rate, Precision,
Determining LAD Tree, pernikahan orangtua, Recall, F-Measure
Dominant Factor for RandomForest, pendidikan ibu, pekerjaan
Students Logistic, ibu, pendidikan Metode terbaik
Performance MultilayerPerceptron, ayah,pekerjaan ayah, adalah J48 dengan
Prediction by Using RBFNetwork, SMO, jumlah keluarga, alasan tingkat akurasi 74%
Data Mining BayesNet, pemilihan sekolah, jarak
Classification NaiveBayes tempuh ke sekolah, jenis
Algorithms, 2014) kendaraan ke sekolah,
beasiswa, waktu belajar per
minggu, akses internet,
pentingnya grade, tahun
sekolah, rata-rata
pendapatan, orangtua, nilai
performansi
(Shahiri, Husain, & Decision demografik (jenis kelamin, Metode adalah
Rashid, 2015) tree, Artificial Neural usia, latar belakang Neural Network
Networks, Naive keluarga, dan disability), (98%) dan
Bayes, K-Nearest external assessment (nilai Decision Tree (91 %)
Neighbor dan Support test akhir), kegiatan
Vector Machine ektrakurikuler, latar
belakang SMA, interaksi
sosial, faktor psikometrik
(ketertarkan mahasiswa,
study behavior, waktu
belajar, dan keluar)
(Yukselturk, k-Nearest Neighbour variabel demografik (jenis Genetic
Ozekes, & Turel, (k-NN), Decision Tree kelamin, usia, level Algorithm(GA), 10-
2014) (DT), Naive Bayes pendidikan, pengalaman fold cross validation
(NB) dan Neural online, pekerjaan), tingkat
Network (NN) keberhasilan diri pada Metode terbaik
program online learning, adalah KNN (87%)
kesiapan mahasiswa pada
program online learning,
pengetahuan sebelumnya
tentang online learning,
dropout status
(Tan & Shao, 2015) Decision Tree, Karakteristik mahasiswa, Confussion Matrix,
Artificial Neural Performansi akademik Precision Rate,
Network, Recall Rate, Accuracy
Bayesian Network Rate,
F-Measure
Metode terbaik
adalah ANN (98.85%)
Decision Tree
(95.76%)
(Márquez-Vera, et Modified Nilai akhir rata-rata, Confussion Matrix,
al., 2016) Interpretable Tingkat pendapatan Accuracy Rate, True
Classification Rule orangtua, Kebiasaan belajar, Positive Rate, True
Mining (ICRM) Tingkat pendidikan Negative Rate, GM
orangtua, Kehadiran siswa,
Disabilitas, Metode Metode terbaik
pembelajaran, Tingkat adalah metode
kesulitan mata pelajaran, modified ICRM
Tipe kepribadian siswa, dengan akurasi
34

Kualitas infrastruktur 99.8%.
(Kostopoulos, Bayesian Networks, Jenis kelamin, Usia, Status Test non-parametrik
Ragos, Kotsiantis, J48, Logistic pernikahan, Jumlah anak, Friedman Aligned
& Grapsa, 2017) Regresion, MLP, Status pekerjaan, Ranks
Naive Bayes, Random Pemahaman tentang jurusan
Forest dan Sequential yang dipilih, Penerapan Metode terbaik
Minimal Optimization ilmu jurusan di pekerjaan adalah Random
(SMO) Forest (73.25%)
(Adejo, 2018) decision tree, status ekonomi orang tua, performance

artificial neural jam kerja, entry accuracy, precision
network and support qualification, rata-rata jam and recall rate, the F-
vector machine studi, family support, measure,
tingkat kepuasan belajar, classification error
peran teknologi, gaya and the root mean
belajar, status kesehatan, squared error
dukungan universitas, dan (RMSE).
prior course knowledge.
(Iam-On & Decision Tree, Naïve Demografik, performansi classification error
Boongoen, 2017) Bayes, KNN, dan akademik, dan enrollment rates
Artificial Neural record.
Network
Dari hasil studi literatur tersebut, metode terbaik yang ditemukan adalah
Neural Network dan Decision Tree memiliki akurasi yang paling tinggi. Dalam
hal ini, kedua metode tersebut sebagai metode terbaik dalam melakukan prediksi
performansi mahasiswa (Shahiri, Husain, & Rashid, 2015) bahkan dalam
menentukan variabel indikator mahasiswa drop out dengan nilai precision rate
yang sangat baik juga (Tan & Shao, 2015). Pada review penelitiannya, Shahiri
menemukan hasil akurat menggunakan variabel atribut seperti penilaian internal,
penilaian eksternal, GPA, demografik mahasiswa, dan kegiatan ekstrakurikuler.
Sementara, Tan Shao dalam menentukan prediksi drop out menggunakan 26
sampel atribut yang dikelompokkan menjadi dua bagian yaitu karakteristik
individu dan performansi akademik mahasiswa. Namun berdasarkan latar
belakang penelitian, metode pemodelan prediksi masih memiliki kelemahan dan
bergantung pada kualitas atribut. Di sisi lain, hasil akurasi tidak bisa maksimal
35
jika data dan atribut yang digunakan relative sedikit. Kelemahan metode dalam
memprediksi dipengaruhi oleh jumlah atribut yang digunakan pada pemodelan.
Pada beberapa kondisi, akurasi tidak tepat jika jumlah data dan atribut yang
digunakan relatif kecil. Pada penelitian ini, metode yang akan dibandingkan
adalah Decision Tree, K-Nearest Neighbour dan Bayes Network untuk
menemukan korelasi antara atribut demografik dan performansi akademik untuk
melakukan prediksi. Selain itu, ensemble classification method menggunakan
Gradient Boosting Algorithm sebagai meta-classifier juga diterapkan untuk
mengoptimasi hasil akurasi yang akan dievaluasi menggunakan Confussion
Matrix.
36

Bab 2 1901769323

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 2 1901769323

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 2

2.1 Machine Learning

data mining. Pendekatan machine learning dapat menangani masalah dengan

learning menginterpretasikan bagaimana komputer dapat belajar, bekerja atau

memperbaiki performansi berdasarkan data. Metode ini disebut sebagai metode

Machine learning merupakan pendekatan yang cepat berkembang dan beradaptasi

(Han, Kamber, & Pei, 2012).

Pendekatan machine learning memiliki 4 kategori yang umumnya

diaplikasikan pada konsep data mining :

1. Supervised learning sering disebut sebagai metode klasifikasi. Metode

proses klasifikasi yaitu tahapan mempelajari mapping atau fungsi

( ) dimana dapat memprediksi kelas yang terkait dengan label

dari sebuah input . Metode ini dapat menggunakan dataset dari

tingkat kerumitan yang tinggi.

2. Unsupervised learning merupakan metode pengelompokan

(clustering). Proses clustering sendiri adalah bertujuan untuk

mengelompokkan obyek untuk menemukan kelas-kelas data yang

tidak diketahui pada dataset.

3. Semi-supervised learning merupakan teknik machine learningdimana

untuk mempelajari model algoritma menggunakan dua jenis data yaitu

untuk mengetahui dan mempelajari model yang digunakan sementara

unlabeled data digunakan sebagai batasan antara masing-masing kelas

pada model. Unlabeled data yang dimaksud dapat dikelompokkan

menjadi kategori positif atau negatif dimana masing-masing berperan

menjadi batasan dalam menentukan keputusan.

4. Active learning, salah satu pendekatan machine learning dimana user

berperan aktif dalam proses pendekatan. Pengguna dapat melakukan

pelabelan pada contoh data dimana kemungkinan data merupakan

pembelajaran program. Tujuan metode ini adalah untuk

mengoptimalkan kualitas model dengan cara memberikan peran atau

sesuai dengan kebutuhan user.

2.1.1 Decision Tree (ID3)

untuk melakukan pengukuran menggunakan struktur pohon yang terdiri dari

yang memungkinkan untuk menghasilkan keputusan-keputusan baru sampai pada

akhirnya menemukan keputusan yang tepat (leaf node) Gambar 2.1.

Average Grade = High Average Grade = Low

Decision Node Decision Node

Prediction Value Prediction Value Prediction Value Prediction Value

Gambar 2.1 Model Decision Tree (Larose & Larose, 2014)

Pengujian data dilakukan di setiap masing-masing decision node untuk

memisahkan dataset menjadi subset berdasarkan homogenitas data. Decision node

yang terakhir merupakan node penentuan nilai prediksi variabel target

kelayakan dimana yang diukur berdasar dua hal berikut :

1. Dataset yang akan dipisahkan harus dipastikan benar-benar mewakili

kelas yang sama. Sebagai contoh, 50% mahasiswa memiliki angka

IPK<3.0 dan 50% dengan angka IPK>3.0.

2. Ukuran kelayakan dataset harus bernilai 100 atau 0 ketika dataset

merepresentasikan sebuah kelas. Contohnya, jika dataset yang

ditentukan adalah mahasiswa dengan nilai IPK>3.0 maka

kemungkinannya adalah data tersebut 100% layak digunakan atau

sama sekali tidak bisa digunakan.

Kriteria menentukan model decision tree yang dibentuk yang diukur

menggunakan rumus Entropy (2.1) sebagai berikut :

Larose, 2014) dijelaskan dengan singkat sebagai berikut :

1. Mempersiapkan data set training yang menyediakan algoritma dengan

nilai variabel target, misalnya kualitas mahasiswa (baik atau buruk),

persentase kehadiran mahasiswa (0-100%).

2. Dataset harus beragam sehingga memudahkan algoritma untuk

mengklasifikasi dan memprediksi subset.

3. Masing-masing atribut harus bersifat diskrit, artinya nilai-nilai

variabel memiliki batasan yang jelas sehingga memudahkan untuk

Beberapa kelebihan metode Decision Tree yang dipertimbangkan oleh beberapa

peneliti dalam menerapkan metode ini sebagai metode pemodelan prediksi