A. PENDAHULUAN
Data mining adalah Teknik bagaimana menelusuri data yang ada untuk
membangun sebuah model, kemudian mengembangkan model tersebut agar dapat
mengenali pola data yang lain yang tidak berada dalam basis data yang disimpan [4]. Salah
satu teknik data mining adalah Teknik klasifikasi, model klasifikasi cukup populer dan
banyak digunakan diantaranya adalah Decision Tree, dan Neural Network [5].
Dengan demikian dapat disimpulkan bahwa data mining merupakan disimplin ilmu
yang mempelajari metode untuk menemukan pola dari suatu data yang besar. Ada beberapa
peran data mining diantaranya adalah Estimasi, Prediksi, Klasifikasi, Klastering dan
Asosiasi. Peran data mining ini membutuhkan proses untuk mendapatkan hasil pengolahan
data dalam jumlah banyak atau besar. Proses data mining yang dimaksud sebagai berikut:
1. Himpunan data
Tahap pertama ini harus memahami data apa yang akan diolah, baik itu data
cleaning, data integration, data reduction atau data transformation.
2. Metode data mining
Pilih metode data mining apa yang akan digunakan dalam pengolahan data.
Metode yang dimaksud adalah estimasi, prediksi, klasifikasi, klastering dan
asosiasi.
3. Pengetahuan
Merupakan tahap dalam proses pengolahan data dengan menggunakan pola,
rumus maupun rule. Data yang sudah diolah akan menghasilkan sebuah
pengetahuan.
4. Evaluasi
data akan dievaluasi untuk melihat akurasi data yag sudah diolah
1) Decision Tree
Algoritma Decision Tree atau C4.5 merupakan bagian dari kelompok algoritma
decision tree (pohon keputusan) dan merupakan kategori algoritma yang paling
popular. Pohon keputusan dianggapm sebagai salah satu pendekatan yang paling
populer, dalam klasifikasi pohon keputusan terdiri darisebuah node yang membentuk
akar, node akar tidak memiliki inputan.
Node lain yang bukan sebagai akar tetapi memiliki tepat satu inputan disebut
node internal atau test node, sedangkan node lainnya dinamakan daun. Daun mewakili
nilai target yang paling tepat dari salah satu class [8]. Pada dasarnya algoritma Decision
Tree mengubah data menjadi pohon keputusan dengan menerapkan aturan-aturan
(rule) sehingga cocok untuk masalah kalisifikasi dalam data mining.
Ada beberapa tahapan algoritma Decision Tree dalam membangun sebuah
pohon keputusan yaitu
1. Siapkan data training
2. Pilih atribut sebagai akar, akar akan diambil dari atribut yang dipilih. Hitung
nilai entropy dari setiap atribut yang sudah diklasifikasi. Rumus entropi sebagai
berikut:
Keterangan:
S = Himpunan kasus
n = Jumlah partisi S
pi = Proporsi dari Si terhadap S
Setelah mendapatkan nilai entropy, hitung nilai gain untuk mendapatkan class
keputusan. Nilai gain yang paling tinggi mejadi akar pertama, rumusnya gain sebagai
berikut:
Keterangan:
S = Himpunan Kasus
A = Atribut
n = Junlah Partisi Atribut A
|Si| = Jumlah Kasus pada Partisi ke-i
|S = Jumlah Kasus dalam S
2) Naïve Bayes
Tahapan algoritma Naïve Bayes
1) Baca data training
Untuk rumus teorema bayes sebgai berikut :
Keterangan:
X = Data dengan class yang belum diketahui
H = Hipotesis data X yang merupakan suatu class yang lebih spesifik
P(H|X) = Probabilitas hipotesis H berdasarkan kondisi X (posteriori
probability)
P (H) = Probabilitas hipotesis H (prior probability)
P (X|H) = Probalitas X berdasarkan kondisi pada hipotesis H
P (X) = Probalitas X
2) Hitung jumlah class/label
3) Hitung jumlah kasus yang sama dengan class yang sama
4) Kalikan semua nilai hasil sesuai dengan data X yang dicari class-nya
3) K-Nearest Neighbor
K-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma
ini juga merupakan salah satu teknik lazy learning. kNN dilakukan dengan mencari
kelompok objek dalam data training yang paling dekat (mirip) dengan objek pada data baru
atau testing (Wu, 2009) [13]. K-nearest Neighbour merupakan algoritma supervised
learning dimana hasil instance yang baru diklasifikasikan berdasarkan mayoritas dari
kategori K-tetangga terdekat
4) Random Forest
Random forest merupakan pengembangan dari Decision Tree dengan
menggunakan beberapa Decision Tree dimana setiap Decision Tree telah dilakukan
training menggunakan sampel individu dan setiap atribut dipecah pada tree yang dipilih
antara atribut subset yang bersifat acak [11]. Random Forest yang dihasilkan memiliki
banyak tree, dan setiap tree ditanam dengan cara yang sama. Tree dengan variabel x akan
ditanam sejauh mungkin dengan tree variabel y. Penempatan tree yang saling berjauhan
membuat apabila terdapat tree disekitar tree x berarti pohon tersebut merupakan
perkembangan tree x [12].
5) Rapid Minner
Rapid Miner merupakan perangkat lunak yang bersifat terbuka (open source).
Rapid Miner adalah sebuah solusi untuk melakukan analisis terhadap data mining dan
analisis prediksi. Rapid Miner menggunakan bebagai teknik deskriptif dan prediksi dalam
memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling
baik Rapid Miner memiliki kurang lebih 500 operator data mining, termasuk operator
untuk input, output, data processing dan visualisasi [15].
Berdasarkan tabel diatas dapat diketahui bahwa algoritma k-NN memiliki nilai
akurasi tinggi yaitu 99,98%, Decision Tree 99,97%, Naïve Bayes 99,81%, Random Forest
96,85 dan Random Tree 87,56. Sedangkan pada uji ROC curve menunjukkan bahwa Naive
Bayes memiliki nilai AUC terbaik yaitu 1.00 kemudian disusul oleh Random forest 0,996,
Random tree 0,612, Decision Tree 0,550 dan terakhir adalah K-NN 0,500 Berdasarkan
hasil perhitungan AUC dari masing-masing algoritma, dapat diketahui bahwa dalam
penelitian ini algoritma Naïve Bayes dan Random Forest termasuk dalam kategori
klasifikasi paling baik, Random tree katergori klasifikasi rendah sedangkan Decision tree
dan K-NN termasuk dalam kategori klasifikasi gagal.
Pada uji beda t-test nilai alpha yang digunakan adalah 0,05. Lima algoritma yang dilakukan
uji beda t-test significance memiliki interpretasi yang berbeda, yaitu ada yang diterima atau ada
perbedaan significance dan adayang ditolak atau tidak ada perbedaan significance. Jika
probabilitasnya <0,05 maka H0 ditolak dan jika >0,05 maka H0 diterima. Algoritma yang diterima
hanya Decision Three terhadap Naïve Bayes, selain itu ditolak.
KESIMPULAN
Berdasarkan pengujian akurasi dan AUC data set mahasiswa Akademi Bina Sarana Informatika
tahun 2017 dapat disimpulkan bahwa:
1. Mahasiswa lulus tepat waktu lebih besar dibandingkan mahasiswa yang lulus terlambat
2. Pengujian performa dari beberapa algoritma dengan menggunakan validasi dan uji beda
T-Test Algoritma k-NN memiliki nilai akurasi tinggi yaitu 99,98% merupakan nilai
tertinggi dan AUC terbaik diperoleh oleh algoritma Naïve Bayes 1.00. Sedangkan uji beda
t-test significance <0,05 maka H0 ditolak dan jika >0,05 maka H0 diterima.
3. Urutan terbaik adalah Naïve Bayes, Random Forest, RandomTree, DT dan K-Narest
Neighbour