Anda di halaman 1dari 30

BAB 2

TINJAUAN PUSTAKA

2.1 Machine Learning


Machine learning merupakan salah satu pendekatan yang digunakan pada

data mining. Pendekatan machine learning dapat menangani masalah dengan

menemukan model algoritma yang tepat dan lebih baik dalam menghasilkan nilai

prediksi dari sebuah variabel input.Hal ini bisa dilakukan karena metode machine

learning menginterpretasikan bagaimana komputer dapat belajar, bekerja atau

memperbaiki performansi berdasarkan data. Metode ini disebut sebagai metode

yang dapat membuat keputusan yang tepat dan cerdas dari kompleksitas pola data.

Machine learning merupakan pendekatan yang cepat berkembang dan beradaptasi

(Han, Kamber, & Pei, 2012).

Pendekatan machine learning memiliki 4 kategori yang umumnya

diaplikasikan pada konsep data mining :

1. Supervised learning sering disebut sebagai metode klasifikasi. Metode

ini berawal dari data label pada training dataset. Hal pertama pada

proses klasifikasi yaitu tahapan mempelajari mapping atau fungsi

( ) dimana dapat memprediksi kelas yang terkait dengan label

dari sebuah input . Metode ini dapat menggunakan dataset dari

berbagai sumber baik itu data yang mudah dipahami atau data dengan

tingkat kerumitan yang tinggi.

2. Unsupervised learning merupakan metode pengelompokan

(clustering). Proses clustering sendiri adalah bertujuan untuk

7
8

mengelompokkan obyek untuk menemukan kelas-kelas data yang

tidak diketahui pada dataset.

3. Semi-supervised learning merupakan teknik machine learningdimana

untuk mempelajari model algoritma menggunakan dua jenis data yaitu

labeled data dan unlabeled data. Dalam arti, labeled data digunakan

untuk mengetahui dan mempelajari model yang digunakan sementara

unlabeled data digunakan sebagai batasan antara masing-masing kelas

pada model. Unlabeled data yang dimaksud dapat dikelompokkan

menjadi kategori positif atau negatif dimana masing-masing berperan

menjadi batasan dalam menentukan keputusan.

4. Active learning, salah satu pendekatan machine learning dimana user

berperan aktif dalam proses pendekatan. Pengguna dapat melakukan

pelabelan pada contoh data dimana kemungkinan data merupakan

unlabeled data atau dataset yang dihasilkan oleh perpaduan dari hasil

pembelajaran program. Tujuan metode ini adalah untuk

mengoptimalkan kualitas model dengan cara memberikan peran atau

pemahaman user untuk membuat batasan jumlah data yang akan diuji

sesuai dengan kebutuhan user.

2.1.1 Decision Tree (ID3)


Decision tree merupakan salah satu algoritma klasifikasi yang menarik

untuk melakukan pengukuran menggunakan struktur pohon yang terdiri dari

kumpulan decision node yang dihubungkan oleh cabang-cabang dari decision root

sampai ke leaf node. Algoritma ini digunakan untuk menguji setiap atribut-atribut
9

yang memungkinkan untuk menghasilkan keputusan-keputusan baru sampai pada

akhirnya menemukan keputusan yang tepat (leaf node) Gambar 2.1.

Root Node

Average Grade = High Average Grade = Low

Decision Node Decision Node


(Grade > 80) (Grade < 80)

No Yes No
Yes

Prediction Value Prediction Value Prediction Value Prediction Value


Decision Decision Decision Decision

Gambar 2.1 Model Decision Tree (Larose & Larose, 2014)

Pengujian data dilakukan di setiap masing-masing decision node untuk

memisahkan dataset menjadi subset berdasarkan homogenitas data. Decision node

yang terakhir merupakan node penentuan nilai prediksi variabel target

berdasarkan kondisi yang ditetapkan pada jalur keputusan (Kotu & Deshpande,

2015). Pada metode ini, proses pemisahan data sangat ditentukan oleh kriteria

kelayakan dimana yang diukur berdasar dua hal berikut :

1. Dataset yang akan dipisahkan harus dipastikan benar-benar mewakili

kelas yang sama. Sebagai contoh, 50% mahasiswa memiliki angka

IPK<3.0 dan 50% dengan angka IPK>3.0.

2. Ukuran kelayakan dataset harus bernilai 100 atau 0 ketika dataset

merepresentasikan sebuah kelas. Contohnya, jika dataset yang

ditentukan adalah mahasiswa dengan nilai IPK>3.0 maka


10

kemungkinannya adalah data tersebut 100% layak digunakan atau

sama sekali tidak bisa digunakan.

Kriteria menentukan model decision tree yang dibentuk yang diukur

menggunakan rumus Entropy (2.1) sebagai berikut :

(0.1)
∑ ( )

Syarat atau ketentuan dalam penerapan decision tree menurut (Larose &

Larose, 2014) dijelaskan dengan singkat sebagai berikut :

1. Mempersiapkan data set training yang menyediakan algoritma dengan

nilai variabel target, misalnya kualitas mahasiswa (baik atau buruk),

persentase kehadiran mahasiswa (0-100%).

2. Dataset harus beragam sehingga memudahkan algoritma untuk

mengklasifikasi dan memprediksi subset.

3. Masing-masing atribut harus bersifat diskrit, artinya nilai-nilai

variabel memiliki batasan yang jelas sehingga memudahkan untuk

menerapkan algoritma.

Beberapa kelebihan metode Decision Tree yang dipertimbangkan oleh beberapa

peneliti dalam menerapkan metode ini sebagai metode pemodelan prediksi

(Rokach, 2016), diantaranya adalah :

1. Metode ini dapat lebih mudah divisualisasikan dan dapat dipahami

secara sederhana dengan persiapan data yang relatif kecil sedangkan

teknik lainnya sering membutuhkan rangkaian tahap pre-processing

seperti normalisasi data, pembuatan dummy variable dan proses

eliminasi missing data.


11

2. Decision Tree dapat menangani data kategorikal dan numerik

sedangkan teknik lainnya hanya khusus menangani satu jenis variabel.

3. Metode ini dapat dikombinaasikan dengan teknik prediksi lainnya

misalnya Decision Tree dengan metode Neural Network atau Logistic

Regression.

Pada dasarnya metode decision trees dapat memecahkan dan menangani

beragam variasi dimensi data. Metode ini merepresentasikan hasil yang diperoleh

kedalam bentuk rangkaian keputusan yang dapat dipahami oleh pengguna (Han,

Kamber, & Pei, 2012). Umumnya metode Decision Tree yang digunakan pada

pemodelan salah satunya adalah Decision Tree CART. Algoritma CART dapat

membangun pemodelan klasifikasi dan regresi dimana Gini Index digunakan

untuk proses pemilihan atribut (Gupta, Rawat, Jain, Arora, & Dhami, 2017). Gini

Index merupakan metode pemilihan atribut dengan mengukur nilai impurity D,

sekumpulan partisi data atau tupel data pelatihan sebagai (2.2) :

(0.2)
( ) ∑

dimana merupakan nilai probabilitas yang dimiliki oleh tupel D terhadap kelas

| |
dan yang diperoleh dari kalkulasi . Nilai kalkulasi dihitung pada kelas m

dan atribut yang mengurangi nilai impurity (memiliki nilai Gini Index paling

rendah) dipilih sebagai atribut pemisah dalam classification tree.

Pada penelitian ini, Decision Tree CART diaplikasikan dengan beberapa

kelebihan sebagai berikut :

1. Metode ini dapat menangani missing value secara otomatis

menggunakan pemisah pengganti.


12

2. Menggunakan kombinasi variabel kontinu/diskrit.

3. Metode ini secara otomatis melakukan proses seleksi variabel.

4. Metode ini dapat membangun interaksi antar variabel.

2.1.2 K-Nearest Neighbor (KNN)


K-Nearest Neighbor (KNN), salah satu metode klasifikasi yang dapat

melatih model tanpa menggunakan parameter (non-parametrik). Metode ini

mengklasifikasi objek dengan nilai vote terbanyak dari masing-masing objek yang

sudah ditentukan sebelumnya (K-Neighbor) (Marbouti, Diefes-Dux, & Madhavan,

2016). Dalam arti, dari keseluruhan training data, metode ini akan menghitung

jarak antara objek yang terdekat, contohnya, nilai K = 5, pemodelan akan

menemukan 5 data yang paling mendekati kriteria prediksi siswa yang berpotensi

dropout (Kotu & Deshpande, 2015). Metode klasifikasi ini akan mempelajari

pola yang terbentuk dan membandingkan hasilnya dengan pemodelan

menggunakan testing data.

Pada dasarnya, penentuan nilai K dari unlabeled test record menjadi kunci

utama yang harus diperhatikan dan diukur menggunakan teknik mengukur jarak (

measure of proximity), kemudian hasilnya dilihat dari nilai vote terbanyak dari

masing-masing tuple data. Teknik yang dapat digunakan untuk mengukur jarak

antara dua point atau tuple salah satunya adalah teknik Euclidean distance.

Misalkan titik X yaitu ( ), kemudian titik Y yaitu

( ) maka rumus pengukuran (2.3) yang digunakan sebagai berikut :

( ) √( ) ( ) ( ) (0.3)
13

Pada proses pemodelan, K-Nearest Neighbor sebagai instance-based

learnng atau disebut lazy learners, seluruh sampel pelatihan disimpan dan

classifier tidak terbentuk sampai semua sampel yang tidak memiliki label

(unlabeled sample) harus diklasifikasikan. Metode ini sangat cepat proses

komputasinya pada saat proses training, namun sebaliknya namun sebaliknya

membutuhkan banyak waktu pada tahap proses klasifikasi. Namun di sisi lain,

kelebihan dari teknik pemodelam ini adalah teknik ini sangat mudah

diimplementasikan dan dapat bekerja dengan baik pada sampel data yang

memiliki banyak kelas label. Selain itu

2.1.3 Naïve Bayes


Algoritma Naive Bayes merupakan pendekatan supervised learning yang

digunakan untuk pengklasifikasian dengan tujuan untuk memprediksi variabel

target. Algoritma ini menemukan dasar dari teori statistik dan probabilitas atau

disebut sebagai metode klasifikasi sederhana berdasarkan nilai probabilitas dari

menghitung frekuensi dan kombinasi nilai dataset yang diberikan (Patil &

Sherekar, 2013). Umumnya, cara kerja teknik klasifikasi adalah dengan

melakukan prediksi labeled class berdasarkan atribut dengan mencari korelasi

signifikan antar variabel input dan output. Misalnya, X adalah sekumpulan faktor

atau atribut dan Y adalah target atau labeled class. X merupakan himpunan atribut

seperti X{X1,X2,X3,…, Xn} dimana Xi adalah single atribut. Probabilitas P(Y)

atau disebut probabilitas yang dihitung dari kumpulan data menunjukkan

kemungkinan-kemungkinan yang muncul pada dataset. Formula dasar yang

digunakan pada teori Bayes adalah sebagai berikut (2.4) :


14

( ) ( )
( )
( )
(0.4)

P(X|Y) disebut sebagai probabilitas kondisional dimana atribut menerima nilai

yang diberikan oleh labeled class. Sama halnya dengan P(Y), P(X|Y) dapat

dihitung dari keseluruhan data. P(X) pada dasarnyamerupakan probabilitas

terjadinya atau kemunculan sebuah faktor. Cara kerja Naive Bayes adalah sebagai

berikut :

1. Training dataset D terkait dengan kelas label dimana setiap tupel

diwakili oleh vektor elemen n-dimensi, X = (X1, X2, X3,...Xn).

2. Misalkan, proses klasifikasi dimulai dari tupel X yang belum

diketahui, maka classifier akan memprediksi bahwa X memiliki kelas

dengan nilai probabilitas yang lebih tinggi berdasarkan pada X.

Artinya, classifier Naive Bayes menentukan tupel X yang belum

diketahui pada kelas jika dan hanya jika ( ) ( | )

Naïve Bayes dapat dikatakan sebagai simple probabilistic classifier yang

memungkinkan untuk membangun pemodelan pada dataset yang besar tanpa

estimasi parameter yang kompleks. Hal inilah yang merupakan keunggulan Naïve

Bayes jika dibandingkan dengan metode lain, yaitu Naïve Bayes mampu

mempelajari fitur probabilitas kondisional secara terpisah sehingga metode ini

juga mampu melakukan pengklasifikasian pada sejumlah data yang kecil (Jadhav

& Channe, 2016). Selain itu, metode ini hanya membutuhkan waktu yang singkat
15

untuk tahap training selain itu mampu meningkatkan kinerja klasifikasi dengan

mengeliminasi fitur yang tidak relevan pada pemodelan.

2.2 Ensemble Classifier Method


Ensemble Classifier Method adalah konsep beragam metode pemodelan

yang digunakan untuk menyelesaikan masalah base learners. Metode ini

mengembangkan dan menggabungkan sekumpulan hipotesa untuk memperbaiki

kelemahan data pelatihan menggunakan pendekatan single-learners (Pang, Judd,

O‟Brien, & Ben-Avie, 2017). Metode ini disebut juga sebagai meta-model dimana

jika kondisi yang diinginkan terpenuhi, kombinasi dari beberapa single-learner

dapat memperoleh pembelajaran baru dan sangat mengurangi kesalahan yang

umumnya terjadi pada proses pemodelan. Metode ini terdiri dari beberapa

pendekatan yang umumnya digunakan dalam klasifikasi untuk membangun

sebuah model diantaranya bagging, boosting and stacking. Dalam penelitian ini,

metode decision tree digunakan sebagai base learner dan metode stacking

(stacked generalization) karena telah terbukti mengurangi kesalahan dan

mengoptimalkan hasil akurasi menjadi lebih baik daripada base classifier itu

sendiri (Adejo, 2018).

Metode ini dikenal dengan Importance Sampling Learning Ensembles

(ISLE) framework yang menunjukkan empat metode ensemble method,

diantaranya Bagging, Random Forest, AdaBoost dan Gradient Boosting. Metode

ini digambarkan oleh perluasan dari pola statistika di bawah ini (2.5):

( ) ∑ ( )
(0.5)
16

dimana * ( )+ dikenal sebagai fungsi dasar (base learners). Misalnya, setiap

bisa menjadi decision tree. Ensemble method merupakan pemodelan linier

pada dimensi ruang yang tinggi yang diturunkan oleh variabel. Notasi ( )

lebih mudah digunakan berdasarkan setiap base learner . Dimana setiap base

learner dideskripsikan oleh sekumpulan parameter vector p. Contohnya, jika

adalah neural net, berhubungan dengan weight yang ditentukan oleh neural

net. Jika adalah decision tree, berhubungan dengan pemisahan keputusan

yang diperoleh menggunakan klasifikasi tree. Secara singkat, metode ensemble

mengkombinasikan beberapa teknik pendekatan machine learning menjadi satu

bentuk pemodelan prediksi yang bertujuan untuk mengurangi varian data

(bagging), bias (boosting) atau meningkatkan kemampuan prediksi (stacking).

Pada penelitian ini, algoritma yang akan digunakan sebagai meta-classifier

pada metode Ensemble Classification adalah algoritma Gradient Boosting

Machine. Gradient Boosting Machine merupakan salah satu metode machine

learning yang diusulkan oleh Friedman dan populer digunakan dalam pemodelan

regresi dan klasifikasi yang secara iteratif mengubah weak-learner menjadi

strong-learner dalam pemodelan prediksi (Sagar, Gupta, & Kaushal, 2016).

Algoritma ini mendukung fleksibilitas dan kustomisasi yang tinggi dengan tiga

elemen yaitu loss function, weak learner, dan additive model. Formula algoritma

sebagai berikut (2.6)(2.7) :

( ) ( ) ( ) (0.6)

∑ ( ( ) ( )) (0.7)
17

Dimana adalah model pada tahap ke-m dari metode Gradient Boosting, nilai X

adalah nilai input. Sementara untuk nilai adalah nilai koefisien dan adalah

decision tree pada tahap ke-m. Gradient Boosting Machine akan

mengkombinasikan masing - masing keunggulan beberapa weak-learner dalam

proses pemodelan prediksi dan menjadi metode strong-learner yang mampu

mengurangi bias dan variansi data pada pemodelan prediksi.

Dari beberapa studi literatur, metode Ensemble Classifier digunakan

karena beberapa kelebihan yang dapat disimpulkan diantaranya :

1. Ensemble Classifier Method membantu untuk meminimalkan faktor

noise, bias atau variansi data.

2. Ensemble Classifier Method dapat menghasilkan keputusan dari

beberapa model yang digunakan untuk meningkatkan performansi

pemodelan.

3. Ensemble Classifier Method mampu menggabungkan beragam model

dengan akurasi prediksi yang lebih baik jika dibandingkan dengan

menggunakan pemodelan tunggal (single classifier).

2.3 Feature Selection


Feature Selection menjadi salah satu tahapan penting pada proses data

mining untuk menjamin atribut yang digunakan lebih akurat, khususnya pada

proses pemodelan prediksi. Tahapan ini merupakan proses memperkecil

kemungkinan setiap atribut yang tidak relevan tanpa menurunkan performansi

model pada proses data mining sehingga peluang atribut semakin tinggi dalam

menentukan hasil akurasi pemodelan (Kotu & Deshpande, 2015). Selain itu,

proses feature selection dapat mengoptimasi performansi metode algoritma dan


18

mengurangi kompleksitas dimensi variabel yang memudahkan dalam

menginterpretasikan hasil dari proses pemodelan (Priyadarsini, Valarmathi, &

Sivakumari, 2011).

PCA

Numerical
Data
Information
Gain
Filter Type

Categorical
Chi-Square
Feature Data
Selection
Forward
Selection
Wrapper Numerical
Type Data
Backward
Elimination

Gambar 2.2 Metode Feature Selection (Kotu & Deshpande, 2015)

Dua tipe metode feature selection yang umumnya diterapkan pada pemodelan

data mining (Gambar 2.2) yaitu :

a. Filter Type yaitu dengan memilah atribut utama sebelum melakukan

pemodelan.

b. Wrapper Type yaitu pemilihan atribut dilakukan saat proses pemodelan sedang

berjalan.

Pada penelitian ini, metode feature selection tipe Filter akan diterapkan untuk

mengetahui seberapa signifikan penggunaan variabel-variabel yang ada pada

dataset mahasiswa. Adapun metode Chi-Square akan digunakan untuk mengolah

nilai-nilai pada dataset mahasiswa dimana sebagian besar adalah data kategorikal.
19

2.3.1 Metode Pearson’s Chi Square


Metode Pearson’s Chi-Square digunakan sebagai metode evaluasi

menguji pengaruh atau keterkaitan antar dua variabel nominal. Uji chi square

bertujuan untuk menguji kemungkinan independensi distribusi data caranya

dengan menghitung selisih antara jumlah data observasi dengan jumlah data yang

diharapkan pada satu kategori tertentu (Kotu & Deshpande, 2015). (Bolboacă,

Jäntschi, Sestraş, Sestraş, & Pamfil, 2011) Metode ini sudah banyak diterapkan di

berbagai bidang penelitian untuk mengukur independensi, homogenitas dan

kompatibilitas (goodness of fit) yaitu kesesuaian frekuensi data ekspektasi dengan

data observasi. Pearson‟s Chi-Square fokus pada pengujian tingkat kesamaan

antara masing-masing kelompok pada data kategoris.

( )
∑∑

( )
(0.8)

Formula Pearson’s Chi Square (2.8) didefinisikan sebagai berikut :

Nilai oij : jumlah data observasi

Nilai eij : jumlah data yang diharapkan

2.3.2 Learning Vector Quantization (LVQ)


Learning Vector Quantization (LVQ) merupakan teknik atau model

klasifikasi yang umum digunakan untuk pemilihan feature/atribut pada dataset

dengan menggunakan informasi kelas untuk meningkatkan kualitas keputusan

algoritma. Metode ini mengklasifikasikan pola dari masing-masing output

mewakili kategori atau kelompok tertentu dengan cara mencari jarak terdekat
20

(distance) antara nilai vektor input ke nilai bobotnya. Dari sisi hasil pencapaian,

jika metode ini dibandingkan dengan metode Deep Learning dan Support Vector,

LVQ juga teruji sebagai alternatif yang tepat untuk dengan kompleksitas dan

biaya komputasi yang rendah (Villmann, Bohnsack, & Kaden, 2017).

Umumnya, tahap pertama metode ini adalah proses pemilihan atribut

menunjukkan pengenalan sejumlah atribut dalam jumlah yang kecil yang yang

berpengaruh pada informasi penting dari data input. Tahap selanjutnya, tahap

klasifikasi dimana masing-masing fitur dialokasikan menjadi kelas-kelas yang

terpisah (Ghosh, Sadhu, Biswas, Sarkar, & Sarkar, 2019).

Dalam arti, metode Learning Vector Quantization (LVQ) ini dapat

didefinisikan sebagai proses pengklasifikasian pola dimana masing-masing input

merepresentasikan sebuah kelas. Pada penelitian ini, prosedur LVQ ditunjukkan

pada gambar di bawah ini dimana n variabel input dan m merupakan output unit

yang masing-masing saling terhubung satu sama lain.

Nilai W

X1 X1 Y1 Y1

Xi Xi Yj Yj

Xn Xn Ym Ym

Gambar 2.3 Metode Learning Vector Quantization

Komponen vector Xi diantaranya (Xi1…, Xin) kemudian komponen

masing-masing nlai weight diantaranya (Wj1,…,Wjm). Nilai jarak diantaran Xi dan


21

wj ditentukan oleh fungsi ( ) menggunakan vektor bobot input

, -∑ . Nilai bobot atau relevansi, mengukur

importance value dari setiap fitur pada proses klasifikasi dari vector input Xi.

Secara keseluruhan ranking dari setiap feature diperoleh dari nilai rata-rata dari

keseluruhan , dimana .

Untuk memperoleh hasil seleksi yang akurat, setiap variabel input

menggunakan format numerik. Selain data masukan, pada metode LVQ, target

kelas harus ditentukan, dalam hal ini yaitu mahasiswa tidak dropout dan

mahasiswa dropout. Berdasarkan variabel masukan dan target kelas yang

ditentukan, maka gambaran dari proses feature selection adalah sebagai berikut :

1. Mencari dan menemukan nilai bobot yang paling mendekati dengan

kelas target yang sudah ditentukan dengan menghitung nilai jarak

minimum antara vector input (Xi) dengan nlai bobot (Wj).

2. Jika nilai bobot akhir (Wm) tidak sesuai dengan target yang diharapkan

maka nilai bobot diperbarui.

3. Memperbarui nilai vektor dan melakukan normalisasi.

4. Kemudian, tahap dilakukan secara berulang sampai semua vector input

sudah diklasifikan sesuai dengan kelas target yang ada pada training

set.

Kelebihan metode ini adalah mampu membuat keputusan berdasarkan

jarak terdekat kemudian selama proses pemodelan, metode dapat menangani dan

memperbarui bobot variabel melalui unsupervised learning untuk menentukan

keputusan klasifikasi.
22

2.4 Metode Synthetic Minority Over-Sampling Technique


(SMOTE)
Metode Synthetic Minority Over-Sampling Technique (SMOTE)

merupakan salah satu metode yang digunakan untuk menangani klasifikasi data

yang tidak seimbang pada dataset pemodelan (Chawla, Bowyer, & Hall, 2002).

Metode SMOTE diterapkan dengan membuat replika atau data sintetis dari kelas

minoritas dengan mengambil masing-masing sampel dari kelas minoritas

berdasarkan nilai k yang saling berdekatan (Deepa & Punithavalli, 2011).

Contohnya, dari kelas minoritas ditentukan nilai k = 5 maka 5 sampel terdekat (k-

nearest neighbor) dipilih secara acak untuk generate kelas sintesis yang baru.

Dalam arti, sampel sintesis di-generate dengan mengkalkulasi nilai perbedaan

antaran vektor atribut yang dipilih dengan vektor (nearest neighbor) yang

berdekatan. Data sinstesis

Metode yang diusulkan oleh Chawla (Chawla, Bowyer, & Hall, 2002) ini

digunakan untuk menangani data tidak seimbang dengan prosedur algoritma

sebagai berikut :

1. Menentukan jumlah atau nilai k yang digunakan sebagai pertimbangan

dalam melakukan generate data yang baru.

2. Menentukan besar nilai oversampling yang dihitung dalam satuan

persentase. Contohnya, nilai oversampling 100 persen maka setiap data

kelas minoritas di-generate sebanyak 1 kumpulan data buatan.

3. Menentukan nilai undersampling dalam satuan persen, jika nilainya

100 persen maka satu kali jumlah data minoritas digunakan untuk

mengambil sampel data buatan.


23

4. Data minoritas dan hasil metode SMOTE serta sampel dari kelas

mayoritas digabung menjadi satu data yang baru. Untuk proses

generate data sintesis prosesnya dengan menghitung perbedaan jarak

vektor utama dan nilai k-neighbour. Kemudian, perbedaan tersebut

dikalikan secara acak dengan angka 0 dan 1. Selanjutnya nilai

perbedaan ditambahkan ke dalam nilai utama dari vektor awal untuk

memperoleh vektor yang baru.

Pada penelitian ini, metode SMOTE diaplikasikan untuk menangani

jumlah data kelas target yang minim agar setara atau seimbang dengan kelas

target yang lebih banyak dengan cara membuat data sintesis berdasarkan k-

tetangga terdekat (k-nearest neighbor).

2.5 Confusion Matrix


(Kotu & Deshpande, 2015) Confusion Matrix merupakan metode evaluasi

yang digunakan untuk mengukur performansi pemodelan berdasarkan tabel matrix

(2x2) dengan dua nilai kelas yaitu nilai Y atau nilai N. Pada tabel 2.1 dijelaskan

bahwa nilai sel vertikal (kolom) berisi data hasil observasi sementara nilai sel

horizontal (baris) berisi data prediksi. Penentuan nilai akurasi dikelompokan

menjadi 4 cara yang berbeda yaitu :

a. Jika nilai observasi positif sesuai dengan nilai ekspektasi yang

ditentukan, maka hasilnya adalah True Positive (TP).

b. Jika nilai observasi negatif namun masih dikategorikan sesuai dengan

nilai ekspekstasi, maka hasilnya adalah False Positive (FP).

c. Jika nilai observasi positif tetapi tidak sesuai dengan nilai ekspektasi,

maka hasilnya adalah False Negative (FN).


24

d. Nilai observasi yang negatif dan dinyatakan tidak sesuai dengan nilai

ekspektasi, maka hasilnya adalah True Negative (TN).

Tabel 2.1 Confusion Matrix


Observation Value
Y N
Expectation Value Y True Positive False Positive
N False Negative True Negative

Umumnya, ada 4 tipe pengukuran evaluasi yang dapat dilakukan

menggunakan metode Confusion Matrix, diantaranya adalah :

a. Mengukur kemampuan model dalam menemukan peluang nilai

observasi yang tepat dengan nilai ekspektasi (nilai positif) disebut

dengan sensitivity test. Konsep pengukuran ini sama dengan

pengukuran recall rate dimana dilakukan untuk menemukan proporsi

dari jumlah nilai yang relevan dari keseluruhan data. Sebagai contoh,

untuk menentukan drop out, ekspektasi nilai positif (Y) adalah IPK

<2.5 sedangkan nilai negatif (N) adalah IPK>2.5. Jika angka

sensitivity test adalah 90% maka mahasiswa dengan IPK<2.5 memiliki

peluang 95% terindikasi drop out. Rumus menghitung sensitivitas

adalah sebagai berikut (2.9) :

( )
(0.9)
b. Mengukur besar kecilnya peluang nilai ekspektasi negatif yang terjadi

disebut specificity test. Jika angka specificity test sebesar 85% pada

mahasiswa dengan IPK>2.5 maka dapat dinyatakan bahwa kelompok

mahasiswa tersebut tidak terindikasi dropout. Rumus yang digunakan

untuk menghitung spesifitas adalah (2.10) :


25

( ) (0.10)

c. Untuk mengetahui proporsi dari nilai observasi yang dinyatakan sangat

relevan dengan nilai ekspektasi dapat dilakukan menggunakan rumus

precision test di bawah ini (2.11):

(0.11)
( )

d. Untuk mengetahui apakah metode yang digunakan dapat

mengeksekusi data nilai observasi dengan memilih nilai yang tepat,

dalam arti kemungkinan data bernilai negatif nihil. Pengukuran ini

dapat dilakukan dengan menghitung nilai akurasi menggunakan rumus

(2.12) :

( ) (0.12)
( )

2.6 Studi Literatur


Educational Data Mining merupakan bidang data mining yang fokus pada

pengembangan, penelitian dan pengaplikasian metode komputasi untuk

menemukan pola pada sejumlah data pendidikan dimana umumnya sangat sulit

dilakukan dikarenakan jumlah data yang digunakan sangat besar (Márquez-Vera,

et al., 2016). Pada dasarnya, menjadi standar yang dipertimbangkan dalam

penentuan keputusan dan sudah teruji di berbagai bidang, salah satunya

pendidikan. Beberapa metode yang digunakan adalah metode klasifikasi seperti

Decision Trees, Neural Networks, Naive Bayes, K-Nearest Neighbor (Katare &

Dubey, 2017). Umumnya, EDM diaplikasikan untuk masalah prediksi yang


26

bertujuan untuk meningkatkan keberhasilan dan kualitas baik dari segi

performansi mahasiswa bahkan proses belajar mengajar di institusi pendidikan.

(Kotu & Deshpande, 2015) mengelompokkan teknik-teknik algoritma yang

umum digunakan untuk melakukan prediksi (predictive algorithm) seperti pada

Tabel 2.2.

Tabel 2.2 Pengelompokkan Algoritma Predictive Data Mining


(Kotu & Deshpande, 2015)
Metode Deskripsi Algoritma
Klasifikasi Memprediksi jika data point Decision trees, neural
bagian dari predefined class networks, Bayesian
berdasarkan analisa dataset. models, induction rules,
k-nearest neigbors.
Regresi Memprediksi target numerik Linear regression,
dari data point berdasarkan logistic regression
analisa dataset
Anomaly Detection Memprediksi jika data point Distance based, density
merupakan nilai outlier yang based, local outlier factor
dibandingkan dengan data (LOF)
point lainnya pada dataset
yang sama
Time Series Memprediksi nilai dari Exponential smoothing,
variabel target untuk autoregressive integrated
memetakan masa depan moving average
berdasarkan nilai historis (ARIMA), regression
Clustering Mengidentifikasi cluster k-means, desity-based
yang memiliki properti yang clustering
sama pada dataset.
Association Analysis Mengidentifikasi hubungan Frequent pattern growth
antar item pada data (FP_Growth), Apriori.
transaksi

(Osmanbegovic & Suljic, Data Mining Approach for Predicting Student

Performance, 2012) Osmanbegović membandingkan teknik data mining yang

berbeda dan tepat untuk pengklasifikasian yaitu teknik Bayesian Classifier,

Neural Network, dan Decision Tree. Melalui hasil riset sebelumnya, Decision

Tree terbukti berhasil menangani masalah khususnya memecahkan masalah


27

prediksi. Oleh karena itu, Osmanbegovic membandingkan akurasi dari hasil

pengukuran menggunakan tiga metode klasifikasi yaitu metode C4.5,Multi Layer

Perceptron dan Naive Bayes.

Dengan menggunakan 4 tipe test uji untuk penilaian variabel input yaitu

Chi-square test, One R-test, Info Gain test and Gain Ratio test menggunakan

nama atribut, Merit (ukuran kebaikan), dev Merit (deviasi, yaitu mengukur deviasi

kebaikan), peringkat (posisi rata-rata diduduki oleh atribut), peringkat, dan dev

(deviasi penyimpangan mengambil posisi atribut). Ketiga algoritma tersebut

memberikan hasil yang sangat berbeda yaitu algoritma Naive Bayes lebih baik

dari metode Decision Tree dan Neural Network dalam mengukur hasil prediksi.

Kelemahannya adalah sulit mengintegrasikan sistem pengumpulan data dengan

data mining tools.

(Osmanbegovic, Mirza, & Hariz, Determining Dominant Factor for

Students Performance Prediction by Using Data Mining Classification

Algorithms, 2014) Osmanbegović melakukan penelitian yang spesifik lagi dengan

mengaplikasikan Educational Data Mining untuk menentukan atribut yang

menjadi faktor-faktor dominan dalam prediksiperformansi mahasiswa dan metode

data mining yang tepat untuk memprediksi kinerja mahasiswa berdasarkan faktor-

faktor tersebut. Enam tahapan yang digunakan sebagai metodologi pendekatan

yaitu Bussiness Understanding, Data Understanding, Data Preparation,

Modelling, Evaluation, dan Deployment. Sampel yang digunakan sebanyak 1210

siswa yang aktif dan menggunakan 19 variabel input pada model.

Untuk evaluasi tingkat akurasi metode klasifikasi tersebut, Osmanbegović

menggunakan metode cross validation. Beberapa metrik yang berbeda digunakan


28

untuk mengevaluasi performansi algoritm termasuk akurasi, error rate,

presisi,recall, dan F-Measure. Eksprimen yang dilakukan adalah :

1. Melakukan seleksi atribut menggunakan metode InfoGain dan GainRatio.

Info Gain mengukur nilai atribut yang akan digunakan. GainRatio

mewakili penilaian yang diperoleh dari setiap atribut tersebut.

2. Melakukan evaluasi kinerja dan potensi dari algoritma klasifikasi yang

berbeda untuk mengeksekusi pengukuran prediksi diantaranya :

a) Rules-based algorithms: JRip, NNge, Bagian dan Ridor

b) Tree-based algorithms: ADTree, J48, pemuda pohon dan

RandomForest

c) Functions-basaed algorithms: Logistic, MultilayerPerceptron,

RBFNetwork danSMO.

d) Bayes-based algorithms: BayesNet dan NaiveBayes

Hasil yang diperoleh menunjukan hasil prediksi yang bervariasi antara 65-75%.

Menurut Osmanbegović, atribut waktu belajar, tahun pendidikan, usia siswa dan

pendidikan orangtua merupakan faktor paling signifikan dalam menentukan

keberhasilan mahasiswa.

Banyak metode classification yang sudah diterapkan bahkan (Shahiri,

Husain, & Rashid, 2015) melakukan riset metode terbaik untuk prediksi

performansi mahasiswa. Melalui risetnya, Shahiri mengidentifikasi metode

Neural Network memiliki keakuratan prediksi tertinggi (98%) dan metode

Decision Tree (91%). Selanjutnya, Support Vector Machine dan K-Nearest

Neighbor yang memperoleh hasil akurasi sebesar83% sementara predikat terakhir


29

adalah Naïve Bayes sebesar 76%. Perbedaan hasil akurasi prediksi ditentukan

oleh faktor-faktor yang menjadi atribut selama proses prediksi.

Neural Network mampu mencapai hasil akurasi sangat tinggi melalui

atribut atau variabel hybrid yang digunakan sebagai input model Neural Network

yaitu internal dan external assessment. Keuntungannya, algoritma ini lebih

adaptif, mudah digunakan untuk memperbarui data historis dan dapat

diaplikasikan meskipun jumlah data terbatas. Namun, algoritma ini termasuk

lemah keakuratannya dalam menentukan prediksi jika faktor-faktor yang

digunakan bersifat kualitatif.

Metode kedua dengan akurasi prediksi yang lebih tinggi adalah metode

Decision Tree (91%). Satu-satunya atribut yang digunakan untuk menentukan

tingkat akurasi prediksi kinerja mahasiswa adalah CGPA. Model Decision Tree

dapat menangani data numerik dan kategoris, serta metode yang tepat dalam

pengukuran dataset yang besar. Namun, akurasi pengukuran prediksi

menggunakan metode ini termasuk rendah jika menggunakan variabel

psikometrik (65%).

Lain halnya dengan metode Support Vector Machine, akurasi kinerja

mencapai sekitar 83% menggunakan variabel faktor psikometrik. Sementara

metode K-Nearest menunjukkan akurasi yang tinggi sebesar 83% dengan

kombinasi dari tiga atribut, yaitu penilaian internal, CGPA dan kegiatan ekstra

kurikuler dalam memprediksi kinerja siswa .Metode yang memiliki akurasi

prediksi yang terendah adalah Naïve Bayes sebesar 76%. Namun, dengan

penggunaan variabel CGPA, demografis siswa, latar belakang pendidikan,

beasiswa, dan atribut interaksi jaringan sosial menunjukkan bahwa Naïve Bayes
30

memiliki tingkat akurasi yang tinggi dibandingkan dengan Neural Network dan

Decision Tree.

Di sisi lain, selain prediksi performansi mahasiswa, teknik Educational

Data Mining mulai digunakan untuk menangani isu kecenderungan mahasiswa

drop out pada institusi pendidikan. Di dunia pendidikan, kasus drop out

ditemukan tidak hanya pada pendidikan konvensional tetapi juga online learning.

Untuk mengklasifikasi mahasiswa drop out program online learning, (Yukselturk,

Ozekes, & Turel, 2014) melakukan pengujian variabel menggunakan metode

KNN, Decision Tree dan Naive Bayes. Setelah melakukan pengujian, untuk

memperoleh hasil yang optimal maka Genetic Algorithm (GA) digunakan sebagai

metode feature selection. Dari ketiga metode tersebut, K-Nearest Neighbor (87%)

memberikan hasil akurasi yang lebih tinggi dibandingkan dengan Decision Tree

(79.7%), Naive Bayes (76.8%) dan Neural Network (73%).

(Tan & Shao, 2015) menerapkan tiga metode machine learning

diantaranya Artificial Neural Network, Decision Tree, dan Bayesian Network

untuk menelusuri faktor-faktor yang ditemukan memiliki potensi besar dalam

penentuan seorang mahasiswa dinyatakan berpeluang drop out. Fokus penelitian

ini adalah memberikan hasil prediksi indikator drop out yang tepat dari

karakteristik pembelajaran universitas. Ini tantangan baru bagi universitas untuk

meningkatkan layanan pembelajaran sehingga dapat mempertahankan mahasiswa

yang terindikasi berpeluang drop out. Pada penelitian ini, Tan menggunakan 3.59

juta data mahasiswa aktif pada program edukasi online untuk menguji dua

variabel atribut yang digunakan sebagai input pengujian yaitu karakteristik

mahasiswa dan performansi akademik. Dari nilai hasil pengukuran F-Measure,


31

dua variabel atribut tersebut efektif digunakan sebagai faktor kunci dalam

memprediksi drop out dengan nilai akurasi metode tertinggi adalah Decision Tree

(71.91%).

Di tingkat SMA, (Márquez-Vera, et al., 2016) mengusulkan metode baru

yaitu modifikasi algoritma Interpretable Classification Rule Mining (ICRM2) dan

bereksperimen pada 419 sekolah untuk menemukan faktor yang menjadi indikator

kasus drop out. Pada penelitiannya, 60 data pelajar yang drop out dari 670 pelajar,

pengujian dilakukan menggunakan metode algoritma ICRM 2 dan metode

klasifikasi yaitu algoritma JRip. Proses pengujian dilakukan 6 tahapan dan 60

variabel dimana setiap tahapan diuji menggunakan jumlah dan variabel yang

berbeda-beda. Hasil yang diperoleh adalah tingkat akurasi ICRM2 (99.1% GM

dan akurasi 99.8%) lebih baik dari JRip (87.5% GM dan tingkat akurasi 96%).

(Kostopoulos, Ragos, Kotsiantis, & Grapsa, 2017) melakukan

eksperimental untuk menguji akurasi prediksi atribut yang berdampat pada

terjadinya drop out menggunakan metode active learning. Dengan menggunakan

JCLAL (Java Class Library Active Learning), metode data mining diantaranya

Bayesian Networks, J48,Logistic Regresion, MLP, Naive Bayes, Random Forest

dan Sequential Minimal Optimization (SMO) diaplikasikan pada 344 data set yang

merupakan data mahasiswa jurusan Computer Science untuk menguji 12 variabel

atribut. Tingkat akurasi metode ini diperoleh dari hasil uji dataset yang dibagi

menggunakan prosedur 10-fold cross validation, dan kemudian hasil akurasi

dievaluasi menggunakan test non-parametrik Friedman Aligned Ranks.

(Kostopoulos, Ragos, Kotsiantis, & Grapsa, 2017) menyimpulkan prediksi


32

mahasiswa drop out yang akurat diketahui di pertengahan tahun akademik dilihat

dari hasil prediksi menggunakan metode RF (85.17%) dan SMO(83.9%),

Dari beragam hasil riset studi, tantangan pemodelan prediksi saat ini

adalah tingkat efisiensi dan akurasi teknik model yang bergantung pada

kurangnya variasi variable yang dipelajari oleh base classifier. Salah satu literatur

studi terkait (Iam-On & Boongoen, 2017) mengaplikasikan Decision Tree, Naïve

Bayes, KNN, dan Artificial Neural Network untuk membuat pemodelan prediksi

mahasiswa dropout. Iam-On mengadaptasi metode ensemble-clustering untuk

memprediksi menggunakan detail demografik mahasiswa, performansi akademik

dan enrollment records. Hasil eksperimen membuktikan ensemble method baik

digunakan untuk mentransformasi original data menjadi pola data yang baru

sehingga meningkatkan akurasi pemodelan prediksi. Di bidang yang sama, Adejo

(Adejo, 2018) juga membahas pada penelitiannya tentang ensemble method yang

berhasil diuji mampu mengurangi error dan meningkatkan akurasi prediksi

performansi mahasiswa.

Dari hasil studi literatur, metode-metode educational data mining dalam

hal penerapannya pada prediksi performansi mahasiswa atau prediksi mahasiswa

drop out, ditemukan bahwa metode machine learning teruji baik dalam

melakukan prediksi yang dirangkum seperti pada Tabel 2.3.

Tabel 2.3 Studi Literatur Penelitian Prediksi Drop Out Mahasiswa


Author Metode Variabel Evaluasi
(Osmanbegovic, E., J48 jenis kelamin, family,jarak Confussion Matrix,
Suljic, 2012) Multi Layer asal sekolah, nilai IP, nilai Chi square test, One
Perceptron USM, beasiswa, waktu R-Test, Info Gain Test
Naive Bayes belajar, bahan belajar, Gain Ratio
penggunaan internet, grade, Metode terbaik
pendapatan adalah Naive Bayes
dengan tingkat
akurasi 76.65%.
33

Author Metode Variabel Evaluasi


(Osmanbegovic, JRip, NNge,PART, Jenis kelamin, usia, jenis Accuracy test, Error
Mirza, & Hariz, Ridor, ADTree, J48, sekolah, alamat, status rate, Precision,
Determining LAD Tree, pernikahan orangtua, Recall, F-Measure
Dominant Factor for RandomForest, pendidikan ibu, pekerjaan
Students Logistic, ibu, pendidikan Metode terbaik
Performance MultilayerPerceptron, ayah,pekerjaan ayah, adalah J48 dengan
Prediction by Using RBFNetwork, SMO, jumlah keluarga, alasan tingkat akurasi 74%
Data Mining BayesNet, pemilihan sekolah, jarak
Classification NaiveBayes tempuh ke sekolah, jenis
Algorithms, 2014) kendaraan ke sekolah,
beasiswa, waktu belajar per
minggu, akses internet,
pentingnya grade, tahun
sekolah, rata-rata
pendapatan, orangtua, nilai
performansi
(Shahiri, Husain, & Decision demografik (jenis kelamin, Metode adalah
Rashid, 2015) tree, Artificial Neural usia, latar belakang Neural Network
Networks, Naive keluarga, dan disability), (98%) dan
Bayes, K-Nearest external assessment (nilai Decision Tree (91 %)
Neighbor dan Support test akhir), kegiatan
Vector Machine ektrakurikuler, latar
belakang SMA, interaksi
sosial, faktor psikometrik
(ketertarkan mahasiswa,
study behavior, waktu
belajar, dan keluar)
(Yukselturk, k-Nearest Neighbour variabel demografik (jenis Genetic
Ozekes, & Turel, (k-NN), Decision Tree kelamin, usia, level Algorithm(GA), 10-
2014) (DT), Naive Bayes pendidikan, pengalaman fold cross validation
(NB) dan Neural online, pekerjaan), tingkat
Network (NN) keberhasilan diri pada Metode terbaik
program online learning, adalah KNN (87%)
kesiapan mahasiswa pada
program online learning,
pengetahuan sebelumnya
tentang online learning,
dropout status
(Tan & Shao, 2015) Decision Tree, Karakteristik mahasiswa, Confussion Matrix,
Artificial Neural Performansi akademik Precision Rate,
Network, Recall Rate, Accuracy
Bayesian Network Rate,
F-Measure

Metode terbaik
adalah ANN (98.85%)
Decision Tree
(95.76%)
(Márquez-Vera, et Modified Nilai akhir rata-rata, Confussion Matrix,
al., 2016) Interpretable Tingkat pendapatan Accuracy Rate, True
Classification Rule orangtua, Kebiasaan belajar, Positive Rate, True
Mining (ICRM) Tingkat pendidikan Negative Rate, GM
orangtua, Kehadiran siswa,
Disabilitas, Metode Metode terbaik
pembelajaran, Tingkat adalah metode
kesulitan mata pelajaran, modified ICRM
Tipe kepribadian siswa, dengan akurasi
34

Author Metode Variabel Evaluasi


Kualitas infrastruktur 99.8%.
(Kostopoulos, Bayesian Networks, Jenis kelamin, Usia, Status Test non-parametrik
Ragos, Kotsiantis, J48, Logistic pernikahan, Jumlah anak, Friedman Aligned
& Grapsa, 2017) Regresion, MLP, Status pekerjaan, Ranks
Naive Bayes, Random Pemahaman tentang jurusan
Forest dan Sequential yang dipilih, Penerapan Metode terbaik
Minimal Optimization ilmu jurusan di pekerjaan adalah Random
(SMO) Forest (73.25%)

(Adejo, 2018) decision tree, status ekonomi orang tua, performance


artificial neural jam kerja, entry accuracy, precision
network and support qualification, rata-rata jam and recall rate, the F-
vector machine studi, family support, measure,
tingkat kepuasan belajar, classification error
peran teknologi, gaya and the root mean
belajar, status kesehatan, squared error
dukungan universitas, dan (RMSE).
prior course knowledge.
(Iam-On & Decision Tree, Naïve Demografik, performansi classification error
Boongoen, 2017) Bayes, KNN, dan akademik, dan enrollment rates
Artificial Neural record.
Network

Dari hasil studi literatur tersebut, metode terbaik yang ditemukan adalah

Neural Network dan Decision Tree memiliki akurasi yang paling tinggi. Dalam

hal ini, kedua metode tersebut sebagai metode terbaik dalam melakukan prediksi

performansi mahasiswa (Shahiri, Husain, & Rashid, 2015) bahkan dalam

menentukan variabel indikator mahasiswa drop out dengan nilai precision rate

yang sangat baik juga (Tan & Shao, 2015). Pada review penelitiannya, Shahiri

menemukan hasil akurat menggunakan variabel atribut seperti penilaian internal,

penilaian eksternal, GPA, demografik mahasiswa, dan kegiatan ekstrakurikuler.

Sementara, Tan Shao dalam menentukan prediksi drop out menggunakan 26

sampel atribut yang dikelompokkan menjadi dua bagian yaitu karakteristik

individu dan performansi akademik mahasiswa. Namun berdasarkan latar

belakang penelitian, metode pemodelan prediksi masih memiliki kelemahan dan

bergantung pada kualitas atribut. Di sisi lain, hasil akurasi tidak bisa maksimal
35

jika data dan atribut yang digunakan relative sedikit. Kelemahan metode dalam

memprediksi dipengaruhi oleh jumlah atribut yang digunakan pada pemodelan.

Pada beberapa kondisi, akurasi tidak tepat jika jumlah data dan atribut yang

digunakan relatif kecil. Pada penelitian ini, metode yang akan dibandingkan

adalah Decision Tree, K-Nearest Neighbour dan Bayes Network untuk

menemukan korelasi antara atribut demografik dan performansi akademik untuk

melakukan prediksi. Selain itu, ensemble classification method menggunakan

Gradient Boosting Algorithm sebagai meta-classifier juga diterapkan untuk

mengoptimasi hasil akurasi yang akan dievaluasi menggunakan Confussion

Matrix.
36

Anda mungkin juga menyukai