TELAAH PUSTAKA
Meskipun demikian secara khusus data mining hanyalah suatu langkah penting
dalam urutan proses knowledge discovery. Proses knowledge discovery terdiri atas
beberapa iterasi terurut seperti yang dapat dijelaskan sebagai berikut (Kamber, 2006):
1. Data Cleaning : bertujuan menghapus noise dan data yang tidak konsisten.
2. Data Integration : merupakan tahap dengan beberapa sumber data yang
dikombinasikan.
3. Data Selection : tahap pemilihan data yang relevan dari basis data yang akan
digunakan untuk proses analisis.
4. Data Transformation: Data ditransformasi dan dikonsolidasi dalam bentuk
yang sesuai untuk kebutuhan data mining, misalnya dengan cara menyusun
summary atau agregat.
5. Data mining: proses penting dengan penerapan metode intelijen untuk dapat
mengekstrak pola data.
6. Pattern Evaluation: untuk mengidentifikasi pola yang merepresentasikan basis
pengetahuan yang ditemukan.
7. Knowledge Presentation: adalah suatu tahap yang menggunakan teknikteknik
visualisasi dan representasi pengetahuan, digunakan untuk menghasilkan
pengetahuan yang dibutuhkan oleh pengguna.
2. Descriptive
Dalam melakukan data mining, terdapat sebuah panduan yang banyak dipakai
dalam dunia indusri, yaitu Cross-Industry Standard Process for Data Mining (CRSISP-
DM). CRSISP-DM dikembangkan tahun 1996 oleh analis dari beberapa industri seperti
Daimler Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data
mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit
penelitian. Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang
terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif.
Fase berikutnya dalam urutan bergantung pada keluaran fase sebelumnya. Berikut
enam fase CRISP-DM (Larose,2006) :
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
a. Siapkan dari data awal, kumpulkan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan fase berat yang perlu
dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai dengan
analisis yang akan dilakukan.
2.4 Klasifikasi
a. Kelas (Class)
Merepresentasikan label yang merupakan dari variabel kategorikal pada objek
setelah klasifikasinya. Contohnya yaitu adanya kelas diagnose penyakit
amnemia, kelas bencana alam, dll.
b. Prediktor (Predictor)
Merepresentasikan atribut data yang akan diklasifikasikan. Sebagai contoh :
konsumsi narkoba, konsumsi alkohol, tekanan darah, status kekeluargaan,
kecepatan arah mata angin, pergantian musim, dll.
c. Pelatihan dataset (Training dataset)
Berdasarkan prediktor yang tersedia, data yang digunakan terkait dengan nilai-
nilai dari kedua komponen sebelumnya, guna melatih model dalam mengenali
kelas yang sesuai. Contohnya adalah database yang terdapat gambar untuk
monitoring teleskopik dan basis data pada penelitian gempa.
d. Dataset Pengujian (Testing Dataset)
Data yang telah diklasifikasikan oleh model sehingga akurasi klasifikasi dapat
dievaluasi.
Gambar 2.2 Proses Klasifikasi
Model yang sudah dibangun pada saat pelatihan kemudian dapat digunakan
untuk memprediksi label kelas baru yang belum diketahui. Dalam pembangunan model
selama proses pelatihan tersebut diperlukan suatu algoritma untuk membangunnya,
yang disebut algoritma pelatihan (learning algorithm). Ada banyak algoritma pelatihan
yang sudah dikembangkan oleh para peneliti, seperti K-Nearest Neighbor, Artificial
Neural Network, Support Vector Machine dan sebagainya. Setiap algoritma
mempunyai kelebihan dan kekurangan, tetapi semua algoritma berprinsip sama, yaitu
melakukan suatu pelatihan sehingga di akhir pelatihan, model dapat memetakan
(memprediksi) setiap vektor masukan ke label kelas keluaran dengan benar. (Arfiana,
2014).
Algoritma C4.5 adalah algoritma yang termasuk dalam data mining tipe
klasifikasi data dengan menggunakan teknik pohon keputusan sebagai alat untuk
pengambilan keputusan. Pohon keputusan merupakan teknik yang terkenal dan disukai
karena memiliki kelebihan-kelebihan khusus. Kelebihan tersebut seperti contoh dapat
melakukan pengolahan data yang berbentuk numerik (kontinyu) dan diskret, dapat
menjadi solusi jika terdapat nilai atribut yang hilang, aturan-turan yang dihasilkan oleh
pohon keputusan dapat di interpretasikan dan merupakan algoritma tercepat di antara
algoritma-algoritma di data mining yang menggunakan memori utama di komputer.
Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah dibaca,
C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan
berdasarkan nilai tingkat kepercayaan (confidence level). Selain untuk
pengurangan ukuran pohon, pemangkasan juga bertujuan untuk mengurangi
tingkat kesalahan prediksi pada kasus (rekord) baru.
2. Jika semua sampel berada dalam kelas yang sama, maka simpul ini menjadi daun
dan dilabeli menjadi kelas. Jika tidak, gain ratio akan digunakan untuk memilih
atribut split, yaitu atribut yang terbaik dalam memisahkan data sampel menjadi
kelas-kelas individu.
3. Cabang akan dibuat untuk setiap nilai pada atribut dan data sampel akan dipartisi
lagi.
b. Tidak ada atribut lainnya yang dapat digunakan untuk mempartisi sampel
lebih lanjut.
2.5.2 Entropy
Entorpi mengukur ketidakpastian antara variable acak dalam file data. Claude.
E. Shannon telah mengembangkan gagasan tentang entropi dari variable acak. Entropi
dan informasi terkait menyediakan prilaku jangka panjang dari proses acak yag sangat
berguna untuk menganalisis data. Perilaku dalam proses acak juga merupakan factor
kunci mengembangkan pengkodean untuk teori informasi. Untuk mendapatkan nilai
gain ratio dalam pembentukan pohon keputusan, perlu menghitung dulu nilai informasi
dalam satuan bits dar suatu kumpulan objek. Bentuk perhitungan untuk entropi adalah
sebagai berikut :
….. (1)
Dimana,
X : Himpunan Kasus
k : jumlah partisi X
Pi : Proporsi Xj terhadap X
2.6.3 Gain
Dimana gain(a) adalah information gain dari atribut a untuk himpunan sampel X
dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada
pembagian X menjadi n sub himpunan berdasarkan telaahan pada atribut a. Sedangkan
gain(a) didefinisikan sebagai berikut :
Dengan kata lain rumus untuk menghitung nilai gain ratio untuk dipilih sebagai
atribut dari simpul yang ada sebagai berikut ini :
Keterangan
a :Atribut
X :Jumlah kasus
Vapnik memperkenalkan SVM untuk pertama kali pada tahun 1992 sebagai
rangkaian konsep unggulan pada bidang pattern recognition. Metode ini merupakan
metode mesin pembelajaran (learning machine) dengan tujuan menemukan fungsi
pemisah (hyperplane) terbaik yang memisahkan dua buah kelas pada input space
(Nugroho dkk, 2003). Pada dasarnya SVM memiliki prinsip linear, akan tetapi kini
SVM telah berkembang sehingga dapat bekerja pada masalah non-linear.
Cara kerja SVM pada masalah non-linear adalah dengan memasukkan konsep
kernel pada ruang berdimensi tinggi. Pada ruang yang berdimensi ini, nantinya akan
dicari pemisah atau yang sering disebut hyperplane. Hyperplane dapat memaksimalkan
jarak atau margin antara kelas data. Hyperplane terbaik antara kedua kelas dapat
ditemukan dengan mengukur margin dan kemudian mencari titik maksimalnya. Usaha
dalam mencari hyperplane yang terbaik sebagai pemisah kelas-kelas adalah inti dari
proses pada metode SVM (Assaffat, 2015).
Metode SVM dengan hyperplane yang berbentuk garis lurus disebut dengan
linear saparable. Gambar 3.1 merupakan ilustrasi dari hyperplane linear separable data.
a. b.
Gambar 3.1 Garis Linear Pemisah Dua Kelas (Sumber : Nugroho, 2003)
Dapat dilihat ilustrasi pada Gambar 3.1 adalah beberapa pattern yang
merupakan anggota dari dua buah kelas yaitu kelas +1 dan kelas –1. Simbol untuk
pattern pada kelas -1 adalah kotak yang berwarna merah, sedangkan simbol untuk
pattern pada kelas +1 adalah lingkaran dengan warna kuning. Dalam SVM yang telah
disebutkan diatas menemukan garis (hyperplane) yang dapat memisahkan antara kedua
kelompok tersebut. Berbagai macam garis pemisah (discrimination boundaries)
alternative yang ditunjukkan pada gambar 3.1 bagian a. Dalam menemukan hyperplane
yaitu dengan cara mengukur Margin hyperplane tersebut dan kemudian mencari titik
maksimalnya. Jarak antara hyperplane dengan pattern pada masing-masing kelas biasa
disebut dengan margin. Untuk pattern paling dekat disebut dengan support vector. Pada
gambar 3.1 bagaian b garis yang berada di tengah menunjukkan hyperplane yang
terbaik, karena terletak tepat pada tengahtengah antar kelas, sedangkan support vector
adalah titik merah dan kuning yang berada dalam lingkaran hitam. Usaha dalam
mencari lokasi hyperplane ini merupakan proses inti dari SVM.
Dalam dunia nyata (real world problem) pada umumnya masalah data yang
diperoleh jarang yang bersifat linear, banyak yang bersifat non linear. Pada SVM
terdapat sebuah fungsi kernel, yaitu fungsi yang digunakan untuk menyelesaikan
problem non linear. Kernel berfungsi memungkinkan untuk mengimplementasikan
suatu model pada ruang dimensi lebih tinggi (ruang fitur).
b) Kernel Sigmoid
(𝑋⃑ 𝑖 , 𝑋⃑ 𝑗) = tan (σ xi t xj )
2.8 Evaluasi
Evaluasi adalah fase lanjutan terhadap tujuan data mining. Evaluasi dilakukan
secara mendalam dengan tujuan agar hasil pada tahap pemodelan sesuai dengan sasaran
yang ingin dicapai dalam tahap business understanding.
Jika prediksi keluaran bernilai positif sedangkan nilai aslinya adalah negatif
maka disebutdengan false positive (FP) dan jika prediksi keluaran bernilai negatif
sedangkan nilai aslinya adalah positif makadisebut dengan false negative (FN). Tabel
1 menyajikan bentuk confusion matrix seperti yang telah dijelaskan sebelumnya.
Predicated Class
Yes No
2.9 Weka
WEKA merupakan API Java yang menyediakan API untuk pengolahan dalam
data mining yang berbasis open source (GPL) dan berengine JAVA. WEKA
dikembagkan oleh Universitas Waikato di Selandia Baru dan juga merupakan
perangkat lunak gratis yang tersedia dibawah GNU (General Public License). WEKA
menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan
algoritma J48. Teknik yang digunakan WEKA adalah classifier (Witten, Frank & Hall,
2011).
WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data
mining open source yang paling popular. WEKA mempunyai kelebihan seperti
mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam
penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software
WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai oleh
perusahaan untuk meramalkan bisnis dari suatu perusahaan. Ian H. Witten merupakan
latar belakang dibalik kesuksesan WEKA. Beliau merupakan profesor di Universitas
of Waikato, New Zealend, yang menekuni Digital Library, Text Mining, Machine
Learning dan Information Retrieval. Pada Weka ada beberapa metode pemilihan
variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch,
GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Rankerdan,
RankerSearch. (Witten, Frank & Hall, 2011)
Metode atau Teknik yang digunakan Weka adalah Predictive dan Descriptive
karena Weka mendukung teknik-teknik data preprocessing, clustering, classification,
regression, visualization, dan feature Reduction. Semua teknik Weka adalah
didasarkan pada asumsi bahwa data tersedia sebagai flat file tungggal atau hubungan,
dimana setiap titik data digambarkan oleh sejumlah tetap atribut (biasanya, atribut
numeric atau nominal, tetapi beberapa jenis atribut lain juga didukung) (Witten, Frank
& Hall, 2011).
2.10 Penelitian Terdahulu
Temuan-temuan melalui berbagai hasil penelitian sebelumnya merupakan hal
yang dapat dijadikan sebagai acuan pendukung. Dalam hal ini, fokus penelitian
terdahulu yang dijadikan acuan adalah terkait dengan penggunaan metode C4.5 dalam
menganalisi berbagai bidang tertutama dalam pendidikan.
Penelitian mengenai analisis pola kelulusan mahasiswa menggunakan C4.5
dikembangkan berdasarkan jurnal-jurnal dalam penelitian terdahulu yang dapat dilihat
pada tabel berikut:
Jurnal
Pengembangan
Teknologi
Informasi dan Ilmu
Komputer e-ISSN:
2548-964X Vol. 2,
No. 7, Juli 2018,
hlm. 2637-2643
4 Indri Rahmayuni (1) Algoritma C4.5
C4.5 Dan memberikan
Cart akurasi yang lebih
Perbandingan baik dari pada
Performansi algoritma CART
Algoritma C4.5 dalam klasifikasi
Dan Cart Dalam data nilai
Klasifiksi Data mahasiswa.
Nilai Mahasiswa (2) Algoritma C4.5
Prodi Teknik memberikan hasil
Komputer lebih baik karena
Politeknik Negeri data nilai
Padang mahasiswa berupa
data kelompok
yang cocok dengan
Vol. 2 No. 1 April
2014 Jurnal
TEKNOIF ISSN : sifat klasifikasi
2338-2724 algoritma C4.5
(3) Algoritma
CART
memberikan hasil
dibawah C4.5
karena CART lebih
cocok digunakan
untuk data berjenis
numerik.
(4) Kalkulus,
Fisika, Algoritma
dan Pemrograman,
Pengantar
Teknologi
Informasi, dan
Praktek Dasar
Pemrograman
merupakan mata
kuliah yang paling
krusial pada
semester pertama
perkuliahan di
Program Studi
Teknik Komputer
Politeknik Negeri
Padang.
3 Hasil pengujian
ini membuktikan
bahwa Support
Vector Machine
(SVM) memiliki
kemampuan
generalisasi yang
sangat baik untuk
memecahkan
masalah walaupun
dengan sampel
yang terbatas.
8 Sri Widaningsih Dari hasil evaluasi
diperolah hasil
Metode : bahwa algoritma
Perbandingan Klasifikasi naïve bayes yang
Metode Data teknik paling baik untuk
Mining Untuk C4.5, memprediksi
Prediksi Nilai Dan naïve tingkat kelulusan
Waktu Kelulusan bayes, yang diharapkan
Mahasiswa Prodi kNN dan karena memiliki
Teknik Informatika SVM. nilai akurasi
Dengan Algoritma tertinggi dan error
C4.5, Naïve Bayes, terkecil
Knn, Dan Svm dibandingkan
dengan algoritma
lainnya. Lalu
Jurnal Tekno algoritma C4.5
Insentif | ISSN (p): masih lebih akurat
1907-4964 | ISSN
(e): 2655-089X | dari pada algoritma
Vol. 13 | No. 1 | SVM.
Halaman 16-25
9 I. T. Utami Metode dengan
Metode : kesalahan
Klasifikasi klasifikasi terkecil
Support adalah metode
Perbandingan Vector Support Vector
Kinerja Klasifikasi Machine Machine sehingga
Support Vector (SVM) metode tersebut
Machine (Svm) dan dapat digunakan
Dan Regresi regresi untuk
Logistik Biner logistik mengklasifikasikan
Dalam biner ketepatan waktu
Mengklasifikasikan kelulusan
Ketepatan Waktu mahasiswa FMIPA
Kelulusan UNTAD.
Mahasiswa Fmipa
Untad
Jurnal Ilmiah
Matematika dan
Terapan Volume 15
Nomor 2 Desember
2018 (Halaman 256
- 267)
ISSN : 2450 –
766X