Bab 2

2.
TELAAH PUSTAKA
2.1. Data Mining
Secara umum definisi Data Mining (penambangan data) dapat dijelaskan

sebagai teknologi baru dalam pencarian informasi yang sangat bermanfaat. Informasi
yang diperoleh dari proses pencarian yang dilakukan dalam Data Mining harus
memiliki arti yang sangat penting dan bernilai tinggi. Pendekatan yang dilakukan
dalam Data Mining menggunakan discovery-based dengan bantuan algoritma-
algoritma untuk menentukan keterkaitan dari data yang dieksplorasi sehingga
didapatkan pola-pola informasi. Berikut ini beberapa definisi sebagai konsep Data
Mining dari beberapa literatur yang terkait :
1. Data Mining adalah suatu proses pencarian pengetahuan. Data Mining

membantu kita memahami subtansi dari data secara khusus yang awalnya tidak
diketahui seperti pola-pola atau tren yang ada dalam data yang sebelumnya
tidak pernah diketahui (Connolly dan Begg, 2005).
2. Data Mining juga dapat dikatakan sebagai proses ekstraksi data yang valid,
sebelumnya ada informasi yang sangat berharga, lebih menyeluruh namun
belum diketahui. Hal ini diperlukan usaha lebih besar untuk menemukannya
dari suatu database dengan informasi yang diperoleh dapat digunakan untuk
membuat kebijaksanan yang penting (Ponniah, 2001).
3. Data Mining adalah suatu proses penggunaan berbagai variasi dan tool analisis
data untuk menemukan pola-pola dan keterkaitan dalam suatu data, hasilnya
dapat digunakan untuk membuat prediksi yang valid (Two Crows Corporation,
2005).
Data mining yang sering disebut dengan Knowledge Discovery in Database

(KDD) bukanlah sebuah bidang yang sama sekali baru, pada Gambar 2.1, dapat dilihat
hubungan antara data mining dengan bidang ilmu lain. Data mining memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistic, database dan juga information retrieval (Marselina et al, 2010).
Meskipun demikian secara khusus data mining hanyalah suatu langkah penting
dalam urutan proses knowledge discovery. Proses knowledge discovery terdiri atas
beberapa iterasi terurut seperti yang dapat dijelaskan sebagai berikut (Kamber, 2006):
1. Data Cleaning : bertujuan menghapus noise dan data yang tidak konsisten.
2. Data Integration : merupakan tahap dengan beberapa sumber data yang
dikombinasikan.
3. Data Selection : tahap pemilihan data yang relevan dari basis data yang akan
digunakan untuk proses analisis.
4. Data Transformation: Data ditransformasi dan dikonsolidasi dalam bentuk
yang sesuai untuk kebutuhan data mining, misalnya dengan cara menyusun
summary atau agregat.
5. Data mining: proses penting dengan penerapan metode intelijen untuk dapat
mengekstrak pola data.
6. Pattern Evaluation: untuk mengidentifikasi pola yang merepresentasikan basis
pengetahuan yang ditemukan.
7. Knowledge Presentation: adalah suatu tahap yang menggunakan teknikteknik
visualisasi dan representasi pengetahuan, digunakan untuk menghasilkan
pengetahuan yang dibutuhkan oleh pengguna.
2.2 Konsep Data Mining

Secara garis besar, Data Mining dapat dikelompokkan menjadi 2 kategori
utama (Han, Pei, and Yin, 2000) yaitu :
1. Predictive
Predictive merupakan proses untuk menemukan pola dari data dengan

menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang terdapat
dalam predictive mining adalah klasifikasi. Tujuan dari tugas prediktif adalah untuk
memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain.
Atribut yang diprediksi umumnya dikenal sebagai target atau variable tak bebas,
sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai
explanatory atau variable bebas. Contohnya, perusahaan retail dapat menggunakan
data mining untuk memprediksikan penjualan dari produk mereka di masa depan
dengan menggunakan data-data yang telah didapatkan dari beberapa minggu.
2. Descriptive
Descriptive dalam data mining merupakan proses untuk menemukan

karakteristik penting dari data dalam suatu basis data. Tujuan dari tugas deskriptif
adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali)
yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering
merupakan penyelidikan dan seringkali memerlukan teknik post-processing untuk
validasi dan penjelasan hasil.
Secara lebih spesifik, Data Mining berdasarkan fungsionalitasnya adalah

sebagai berikut (Priyadharsini and Thanamani, 2014) :
a. Mining Frequent Patterns, Associations, and Correlation : mencari pola-pola
yang sering muncul dalam data. Pengetahuannya biasanya berupa rule yang
menunjukkan pola-pola tersebut (biasanya disebut Association Rule). Algoritma
yang digunakan misalnya Apriori, FP-Growth dan sebagainya
b. Clasification and Prediction : mencari sebuah model yang mampu melakukan
prediksi pada suatu data baru yang belum pernah ada. Decision tree, Neural
Network, bayesian network, Support Vector Machine, K-Nearst neighbor adalah
contoh alat yang digunakan untuk membentuk model tersebut. Classification
digunakan untuk prediksi categorical data (diskrit), sedangkan untuk numerical
data (numerik) biasanya menggunakan analisis regresi.
c. Cluster Analysis : mengelompokkan data dalam sebuah cluster berdasarkan
kemiripan. Prinsipnya adalah memaksimalkan kemiripan dalam sebuah cluster,
dan meminimalisasi kemiripan antar-cluster. Jadi data yang berada pada sebuah
cluster akan memiliki kemiripan yang tinggi, dan sebaliknya data akan memiliki
nilai kemiripan yang rendah dengan data yang berada pada cluster yang berbeda.
Beberapa algoritma yang digunakan dalam cluter analysis ini misalnya K-Means,
K-Medoids, SOM, CLARANS, ROCK dan sebagainya.
d. Outliner Analysis : mencari data obyek yang sifatnya anomali (berbeda dengan
sifat umum data). Analisis ini berkaitan dengan fraud detection, misalnya deteksi
fraud pada credit card.
e. Evolution Analysis : mencari model atau tren untuk data yang sifatnya terus
berubah. Analisis ini berkaitan dengan data times-series, yang meliputi
clustering, classification, association dan correlation analysis.
2.3 Tahapan Data Mining
Dalam melakukan data mining, terdapat sebuah panduan yang banyak dipakai
dalam dunia indusri, yaitu Cross-Industry Standard Process for Data Mining (CRSISP-
DM). CRSISP-DM dikembangkan tahun 1996 oleh analis dari beberapa industri seperti
Daimler Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data
mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit
penelitian. Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang
terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif.
Fase berikutnya dalam urutan bergantung pada keluaran fase sebelumnya. Berikut
enam fase CRISP-DM (Larose,2006) :
1. Fase Pemahaman Bisnis (Business Understanding Phase)
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup

bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan

data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil group data yang mungkin

mengandung pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a. Siapkan dari data awal, kumpulkan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan fase berat yang perlu
dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai dengan
analisis yang akan dilakukan.
c. Lalukan perubahan pada beberapa variable jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modeling Phase)
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa untuk beberapa teknik mungkin digunakan

pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke pengolahan data untuk

menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)

a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektifitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah ada model yang memenuhi tujuan pada fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks Penyebaran: Penerapan proses data mining secara
paralel pada departemen lain.
Gambar 2.1 Proses Data Mining Menurut CRISP-DM S

umber: CRISP, 2005
2.4 Klasifikasi
Berdasarkan tugas yang dilakukan, data mining dibagi beberapa kelompok,

yaitu : Deskripsi, Estimasi, Prediksi, Klasifikasi, Clustering, dan Asosiasi (Larose,
2005). Klasifikasi adalah salah satu algoritma data mining, menggunakan data dengan
target yang berupa nilai nominal. Klasifikasi didasarkan pada empat komponen
mendasar (Gorunescu), yaitu:
a. Kelas (Class)
Merepresentasikan label yang merupakan dari variabel kategorikal pada objek
setelah klasifikasinya. Contohnya yaitu adanya kelas diagnose penyakit
amnemia, kelas bencana alam, dll.
b. Prediktor (Predictor)
Merepresentasikan atribut data yang akan diklasifikasikan. Sebagai contoh :
konsumsi narkoba, konsumsi alkohol, tekanan darah, status kekeluargaan,
kecepatan arah mata angin, pergantian musim, dll.
c. Pelatihan dataset (Training dataset)
Berdasarkan prediktor yang tersedia, data yang digunakan terkait dengan nilai-
nilai dari kedua komponen sebelumnya, guna melatih model dalam mengenali
kelas yang sesuai. Contohnya adalah database yang terdapat gambar untuk
monitoring teleskopik dan basis data pada penelitian gempa.
d. Dataset Pengujian (Testing Dataset)
Data yang telah diklasifikasikan oleh model sehingga akurasi klasifikasi dapat
dievaluasi.
Gambar 2.2 Proses Klasifikasi
Model yang sudah dibangun pada saat pelatihan kemudian dapat digunakan
untuk memprediksi label kelas baru yang belum diketahui. Dalam pembangunan model
selama proses pelatihan tersebut diperlukan suatu algoritma untuk membangunnya,
yang disebut algoritma pelatihan (learning algorithm). Ada banyak algoritma pelatihan
yang sudah dikembangkan oleh para peneliti, seperti K-Nearest Neighbor, Artificial
Neural Network, Support Vector Machine dan sebagainya. Setiap algoritma
mempunyai kelebihan dan kekurangan, tetapi semua algoritma berprinsip sama, yaitu
melakukan suatu pelatihan sehingga di akhir pelatihan, model dapat memetakan
(memprediksi) setiap vektor masukan ke label kelas keluaran dengan benar. (Arfiana,
2014).
2.5 Algoritma C4.5
Algoritma C4.5 adalah algoritma yang termasuk dalam data mining tipe
klasifikasi data dengan menggunakan teknik pohon keputusan sebagai alat untuk
pengambilan keputusan. Pohon keputusan merupakan teknik yang terkenal dan disukai
karena memiliki kelebihan-kelebihan khusus. Kelebihan tersebut seperti contoh dapat
melakukan pengolahan data yang berbentuk numerik (kontinyu) dan diskret, dapat
menjadi solusi jika terdapat nilai atribut yang hilang, aturan-turan yang dihasilkan oleh
pohon keputusan dapat di interpretasikan dan merupakan algoritma tercepat di antara
algoritma-algoritma di data mining yang menggunakan memori utama di komputer.
Algoritma C4.5 membangun pohon keputusan dari data-data pelatihan yang

telah di buat, yang berupa kasus-kasus atau record dalam basis data. Setiap
atributatribut yang terdapat pada pohon keputusan dapat berisi data-data yang berupa
diskret atau kontinyu (numerik). C4.5 juga dapat menyelesaikan permasalahan yang
permasalahan tersebut tidak memiliki unsur nilai untuk sebuah atau lebih atribut.
Namun, atribut kelas tersebut hanya dapat bertipe diskret dan tidak boleh kosong.
Terdapat tiga prinsip kerja dari algoritma C4.5 yaitu sebagai berikut :
1. Pembuatan Pohon Keputusan
Obyektif dari algoritma pohon keputusan adalah mengkonstruksi struktur data

pohon (dinamakan pohon keputusan) yang dapat digunakan untuk memprediksi
kelas dari sebuah kasus atau record baru yang belum memiliki kelas.Algoritma
ini memilih pemecahan kasus-kasus yang terbaik dengan menghitung dan
membandingkan gain ratio, kemudian pada node-node yang terbentuk di level
berikutnya. Demikian seterusnya sampai terbentuk daun- daun.
2. Pemangkasan Pohon Keputusan dan Evaluasi (Opsional)
Karena pohon yang dikonstruksi dapat berukuran besar dan tidak mudah dibaca,
C4.5 dapat menyederhanakan pohon dengan melakukan pemangkasan
berdasarkan nilai tingkat kepercayaan (confidence level). Selain untuk
pengurangan ukuran pohon, pemangkasan juga bertujuan untuk mengurangi
tingkat kesalahan prediksi pada kasus (rekord) baru.
3. Pembuatan Aturan-Aturan dari Pohon Keputusan (Opsional)
Aturan-aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan

melakukan penelusuran dari akar sampai ke daun. Setiap node dan syarat
pencabangannya akan diberikan di if, sedangkan nilai pada daun akan menjadi
ditulis di then. Setelah semua aturan dibuat, maka aturan akan disederhanakan
(digabung atau diperumum).
2.5.1 Langkah membangun pohon keputusan menggunakan C4.5
Adapun langkah-langkah dalam membangun dan membentuk pohon keputusan

dengan mengunakan data mining algoritma C4.5 adalah (Alexander, 2016):
1. Pohon dimulai dengan sebuah simpul yang mereperesentasikan sampel data
pelatihan yaitu dengan membuat simpul akar.
2. Jika semua sampel berada dalam kelas yang sama, maka simpul ini menjadi daun
dan dilabeli menjadi kelas. Jika tidak, gain ratio akan digunakan untuk memilih
atribut split, yaitu atribut yang terbaik dalam memisahkan data sampel menjadi
kelas-kelas individu.
3. Cabang akan dibuat untuk setiap nilai pada atribut dan data sampel akan dipartisi
lagi.
4. Algoritma ini menggunakan proses rekursif untuk membentuk pohon keputusan

pada setiap data partisi. Jika sebuah atribut sduah digunakan disebuah simpul,
maka atribut ini tidak akan digunakan lagi di simpul anakanaknya.
5. Proses ini berhenti jika dicapai kondisi seperti berikut :
a. Semua sampel pada simpul berada di dalam satu kelas.
b. Tidak ada atribut lainnya yang dapat digunakan untuk mempartisi sampel
lebih lanjut.
2.5.2 Entropy
Entorpi mengukur ketidakpastian antara variable acak dalam file data. Claude.
E. Shannon telah mengembangkan gagasan tentang entropi dari variable acak. Entropi
dan informasi terkait menyediakan prilaku jangka panjang dari proses acak yag sangat
berguna untuk menganalisis data. Perilaku dalam proses acak juga merupakan factor
kunci mengembangkan pengkodean untuk teori informasi. Untuk mendapatkan nilai
gain ratio dalam pembentukan pohon keputusan, perlu menghitung dulu nilai informasi
dalam satuan bits dar suatu kumpulan objek. Bentuk perhitungan untuk entropi adalah
sebagai berikut :
….. (1)
Dimana,
X : Himpunan Kasus
k : jumlah partisi X
Pi : Proporsi Xj terhadap X
2.6.3 Gain
Pada pembentukan pohon keputusan algoritma C4.5, Gain didasarkan pada

penurunan entropi setelah dataset yang kemudian dibagi pada setiap atribut (Dr. Saed
Sayad, 2016), atribut dengan nilai gain ratio tertinggi akan dipilih sebagai atribut split
untuk menjadi simpul. Rumus dari gain ratio adalah sebagai berikut (Triisant, 2015).
Dimana gain(a) adalah information gain dari atribut a untuk himpunan sampel X
dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada
pembagian X menjadi n sub himpunan berdasarkan telaahan pada atribut a. Sedangkan
gain(a) didefinisikan sebagai berikut :
Untuk rumus split info(a) adalah sebagai berikut :

Dimana Xi menyatakan sub himpunan ke-I pada sampel X.
Dengan kata lain rumus untuk menghitung nilai gain ratio untuk dipilih sebagai
atribut dari simpul yang ada sebagai berikut ini :
Keterangan
a :Atribut
k :Jumlah partisi atribut a
X :Jumlah kasus
Xi :Himpunan ke-I pada sampel X
2.7 Algoritma SVM (Support Vector Machine)
Vapnik memperkenalkan SVM untuk pertama kali pada tahun 1992 sebagai
rangkaian konsep unggulan pada bidang pattern recognition. Metode ini merupakan
metode mesin pembelajaran (learning machine) dengan tujuan menemukan fungsi
pemisah (hyperplane) terbaik yang memisahkan dua buah kelas pada input space
(Nugroho dkk, 2003). Pada dasarnya SVM memiliki prinsip linear, akan tetapi kini
SVM telah berkembang sehingga dapat bekerja pada masalah non-linear.
Cara kerja SVM pada masalah non-linear adalah dengan memasukkan konsep
kernel pada ruang berdimensi tinggi. Pada ruang yang berdimensi ini, nantinya akan
dicari pemisah atau yang sering disebut hyperplane. Hyperplane dapat memaksimalkan
jarak atau margin antara kelas data. Hyperplane terbaik antara kedua kelas dapat
ditemukan dengan mengukur margin dan kemudian mencari titik maksimalnya. Usaha
dalam mencari hyperplane yang terbaik sebagai pemisah kelas-kelas adalah inti dari
proses pada metode SVM (Assaffat, 2015).
2.7.1 Linear Separable Data
Metode SVM dengan hyperplane yang berbentuk garis lurus disebut dengan
linear saparable. Gambar 3.1 merupakan ilustrasi dari hyperplane linear separable data.
a. b.
Gambar 3.1 Garis Linear Pemisah Dua Kelas (Sumber : Nugroho, 2003)
Dapat dilihat ilustrasi pada Gambar 3.1 adalah beberapa pattern yang
merupakan anggota dari dua buah kelas yaitu kelas +1 dan kelas –1. Simbol untuk
pattern pada kelas -1 adalah kotak yang berwarna merah, sedangkan simbol untuk
pattern pada kelas +1 adalah lingkaran dengan warna kuning. Dalam SVM yang telah
disebutkan diatas menemukan garis (hyperplane) yang dapat memisahkan antara kedua
kelompok tersebut. Berbagai macam garis pemisah (discrimination boundaries)
alternative yang ditunjukkan pada gambar 3.1 bagian a. Dalam menemukan hyperplane
yaitu dengan cara mengukur Margin hyperplane tersebut dan kemudian mencari titik
maksimalnya. Jarak antara hyperplane dengan pattern pada masing-masing kelas biasa
disebut dengan margin. Untuk pattern paling dekat disebut dengan support vector. Pada
gambar 3.1 bagaian b garis yang berada di tengah menunjukkan hyperplane yang
terbaik, karena terletak tepat pada tengahtengah antar kelas, sedangkan support vector
adalah titik merah dan kuning yang berada dalam lingkaran hitam. Usaha dalam
mencari lokasi hyperplane ini merupakan proses inti dari SVM.
2.7.2 Non-Linear Separable Data
Dalam dunia nyata (real world problem) pada umumnya masalah data yang
diperoleh jarang yang bersifat linear, banyak yang bersifat non linear. Pada SVM
terdapat sebuah fungsi kernel, yaitu fungsi yang digunakan untuk menyelesaikan
problem non linear. Kernel berfungsi memungkinkan untuk mengimplementasikan
suatu model pada ruang dimensi lebih tinggi (ruang fitur).
Gambar 3.2 Hyperplane (Sumber : Nugroho, 2003)
a) Kernel Radian Basis Function (RBF)
(𝑋⃑ 𝑖 , 𝑋⃑ 𝑗) = 𝑒𝑥𝑝 ( ‖X⃗⃗⃑⃗⃗⃑ i – X⃗⃗⃑⃗⃗⃑ j ‖ 2 2σ 2 )
b) Kernel Sigmoid
(𝑋⃑ 𝑖 , 𝑋⃑ 𝑗) = tan (σ xi t xj )
2.8 Evaluasi
Evaluasi adalah fase lanjutan terhadap tujuan data mining. Evaluasi dilakukan
secara mendalam dengan tujuan agar hasil pada tahap pemodelan sesuai dengan sasaran
yang ingin dicapai dalam tahap business understanding.
Hasil evaluasi algoritma dapat ditampilkan dengan menggunakan Confusion

Matrix (Tan, 2005). Confusion Matrix adalah salah satu alat ukur berbentuk matrix 2x2
yang digunakan untuk mendapatkan jumlah ketepatan klasifikasi dataset terhadap kelas
lulus dan tidak lulus pada algoritma yang dipakai tiap kelas yang diprediksi memiliki
empat kemungkinan keluaran yang berbeda, yaitu true positive (TP) dan true negatives
(TN) yang menunjukkan ketepatan klasifikasi.
Jika prediksi keluaran bernilai positif sedangkan nilai aslinya adalah negatif
maka disebutdengan false positive (FP) dan jika prediksi keluaran bernilai negatif
sedangkan nilai aslinya adalah positif makadisebut dengan false negative (FN). Tabel
1 menyajikan bentuk confusion matrix seperti yang telah dijelaskan sebelumnya.
Predicated Class
Yes No
True Positive False Negative

Yes
Actual Class (TP) (FN)
False Positive True Negative

No
(FP) (TN)
Perhitungan akurasi dengan table confusion matrix adalah sebagai berikut :

𝑇𝑃+𝑇𝑁
Akurasi = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
2.9 Weka
WEKA merupakan API Java yang menyediakan API untuk pengolahan dalam
data mining yang berbasis open source (GPL) dan berengine JAVA. WEKA
dikembagkan oleh Universitas Waikato di Selandia Baru dan juga merupakan
perangkat lunak gratis yang tersedia dibawah GNU (General Public License). WEKA
menyediakan penggunaan teknik klasifikasi menggunakan pohon keputusan dengan
algoritma J48. Teknik yang digunakan WEKA adalah classifier (Witten, Frank & Hall,
2011).
Menurut situs resmi WEKA (Waikato Environment for Knowledge Analysis),

“WEKA is a collection of machine learning algorithms for data mining tasks. The
algorithms can either be applied directly to a dataset or called from your own Java
code. Weka contains tools for data pre-processing, classification, regression,
clustering, association rules, and visualization. It is also well-suited for developing
new machine learning schemes.” (Witten, Frank & Hall, 2011)
The Waikato Environment for Knowledge Analysis (Weka) adalah rangkaian

lengkap perpustakaan kelas Java yang mengimplementasikan banyak state-of-the-art
pembelajaran mesin dan algoritma data mining. Weka tersedia secara bebas di World
Wide Web dan menyertai teks baru pada dokumen data mining dan sepenuhnya
menjelaskan semua algoritma yang dikandungnya. Aplikasi yang ditulis menggunakan
library class pada Weka yang dapat dijalankan pada komputer manapun dengan
kemampuan browsing Web, ini memungkinkan pengguna untuk menerapkan teknik
pembelajaran mesin untuk data mereka sendiri terlepas dari platform komputer.
(Witten, Frank & Hall, 2011)
Gambar 2.3 Tampilan Awal GUI WEKA
WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data
mining open source yang paling popular. WEKA mempunyai kelebihan seperti
mempunyai banyak algoritma data mining dan machine learning, kemudahan dalam
penggunaannya, selalu up-to-date dengan algoritma-algoritma yang baru. Software
WEKA tidak hanya digunakan untuk akademik saja namun cukup banyak dipakai oleh
perusahaan untuk meramalkan bisnis dari suatu perusahaan. Ian H. Witten merupakan
latar belakang dibalik kesuksesan WEKA. Beliau merupakan profesor di Universitas
of Waikato, New Zealend, yang menekuni Digital Library, Text Mining, Machine
Learning dan Information Retrieval. Pada Weka ada beberapa metode pemilihan
variable dari suatu dataset, diantaranya BestFirst, ExhautiveSearch, FCBFSearch,
GeneticSearch, GreedyStepwise, RaceSearch, RandomSearch, Rankerdan,
RankerSearch. (Witten, Frank & Hall, 2011)
Metode atau Teknik yang digunakan Weka adalah Predictive dan Descriptive
karena Weka mendukung teknik-teknik data preprocessing, clustering, classification,
regression, visualization, dan feature Reduction. Semua teknik Weka adalah
didasarkan pada asumsi bahwa data tersedia sebagai flat file tungggal atau hubungan,
dimana setiap titik data digambarkan oleh sejumlah tetap atribut (biasanya, atribut
numeric atau nominal, tetapi beberapa jenis atribut lain juga didukung) (Witten, Frank
& Hall, 2011).
2.10 Penelitian Terdahulu
Temuan-temuan melalui berbagai hasil penelitian sebelumnya merupakan hal
yang dapat dijadikan sebagai acuan pendukung. Dalam hal ini, fokus penelitian
terdahulu yang dijadikan acuan adalah terkait dengan penggunaan metode C4.5 dalam
menganalisi berbagai bidang tertutama dalam pendidikan.
Penelitian mengenai analisis pola kelulusan mahasiswa menggunakan C4.5
dikembangkan berdasarkan jurnal-jurnal dalam penelitian terdahulu yang dapat dilihat
pada tabel berikut:
Tabel 2.1 Penelitian Terdahulu
No Penulis dan Judul Metode Hasil Kekurangan Kelebihan

1 Annisak Izzaty Metode : 1. Pemilihan
Jamhur. Klasifikasi variabel Total
Data Naïve Pembelian, Jumlah
Penerapan
Barang dan PO
Mining Untuk Bayes
Pertahun, dapat
Menganalisa
menjadi kriteria
Jumlah Pelanggan
penilaian terhadap
Aktif Dengan
pelanggan aktif dan
Menggunakan
tidak aktif dengan
Algoritma C4.5
menggunakan
Majalah Ilmiah, Algoritma C4.5.
Vol. 23, No. 2, 2. Algoritma C4.5
Oktober 2016, Hal. dapat
12-20 menghasilkan rule
untuk
menggambarkan
proses yang terkait
dengan pelanggan
aktif dan tidak
aktif.
3. Metode pohon
keputusan yang
diproses dengan
WEKA lebih
membantu
perusahaan dalam
hal menganalisaa
jumlah pelanggan
aktif.
2 Priati. Hasil pengujian
Metode : dengan mengukur
Kajian
C4.5, kinerja dari ketiga
Perbandingan
naïve algoritma tersebut
Teknik Klasifikasi
bayes, dan menggunakan
Algoritma C4.5,
CART metode pengujian
Naïve Bayes Dan
Confusion Matrix
Cart Untuk
dan kurva ROC,
Prediksi Kelulusan
diketahui bahwa
Mahasiswa (Studi
algoritma C4.5 dan
Kasus : Stmik
algoritma CART
Rosma Karawang)
memiliki nilai
accuracy yang
Media Informatika sama tinggi yaitu
Vol. 15 No. 2 95,6012% serta
paling rendah
adalah accuracy
algoritma naïve
bayes sebesar
89,5894%. Nilai
AUC untuk
algoritma naïve
bayes
menunjukkan nilai
tertinggi yaitu 0,97
disusul algoritma
C4.5 dengan nilai
AUC 0,923 dan
algoritma CART
dengan nilai AUC
0,922. Melihat nilai
AUC dari ketiga
algoritma tersebut,
maka semua
algoritma termasuk
kelompok
klasifikasi yang
sangat baik, karena
nilai AUC-nya
antara 0,90-1,00.
3 Rizky Hasil pengujian

Haqmanullah Metode : dan analisis
Pambudi, Budi C4.5 menunjukkan
Darma Setiawan, bahwa Algoritma
dan Indriati Decision Tree C4.5
akurat diterapkan
untuk prediksi nilai
Penerapan akhir siswa sekolah
Algoritma C4.5 menengah dengan
Untuk tingkat akurasi
Memprediksi Nilai 60%.
Kelulusan Siswa
Sekolah Menengah
Berdasarkan Faktor
Eksternal
Jurnal
Pengembangan
Teknologi
Informasi dan Ilmu
Komputer e-ISSN:
2548-964X Vol. 2,
No. 7, Juli 2018,
hlm. 2637-2643
4 Indri Rahmayuni (1) Algoritma C4.5
C4.5 Dan memberikan
Cart akurasi yang lebih
Perbandingan baik dari pada
Performansi algoritma CART
Algoritma C4.5 dalam klasifikasi
Dan Cart Dalam data nilai
Klasifiksi Data mahasiswa.
Nilai Mahasiswa (2) Algoritma C4.5
Prodi Teknik memberikan hasil
Komputer lebih baik karena
Politeknik Negeri data nilai
Padang mahasiswa berupa
data kelompok
yang cocok dengan
Vol. 2 No. 1 April
2014 Jurnal
TEKNOIF ISSN : sifat klasifikasi
2338-2724 algoritma C4.5
(3) Algoritma
CART
memberikan hasil
dibawah C4.5
karena CART lebih
cocok digunakan
untuk data berjenis
numerik.
(4) Kalkulus,
Fisika, Algoritma
dan Pemrograman,
Pengantar
Teknologi
Informasi, dan
Praktek Dasar
Pemrograman
merupakan mata
kuliah yang paling
krusial pada
semester pertama
perkuliahan di
Program Studi
Teknik Komputer
Politeknik Negeri
Padang.
5 Risqiati dan . Nilai yang

Bambang Ismanto didapatkan
Metode : didapatkan hasil
Analisis Komparasi
Algoritma Naive Klasifikasi komparasi 2
Bayes Dan C4-5 Naïve algoritma ini,
Waktu Bayes & bahwa algoritma
Untuk
C4.5 yang bagus hasil
Kelulusan
akurasinya adalah
Mahasiswa
algoritma C4-5
IC-Tech Volume sebesar 84.95%
XII No. 1 April selisih 1.59% dari
2017 algoritma Naïve
Bayes.
6 Arif Dari 3 jenis kernel
Pratama,Randy yang digunakan
Cahya Wihandika, yaitu Polynomial
Dian Eka Metode : Degree, Gaussian
Ratnawati Klasifikasi RBF, dan Linier
SVM Pengaruh
penggunaan Kernel
Implementasi pada Algoritme
Algoritme Support Support Vector
Vector Machine Machine (SVM)
(SVM) untuk yang paling baik
Prediksi Ketepatan yaitu
Waktu Kelulusan menggunakan
Mahasiswa kernel Gaussian
RBF karena kernel
dengan ratarata
Jurnal akurasi tertinggi
Pengembangan adalah kernel
Teknologi Gaussian RBF
Informasi dan Ilmu yaitu 80,55%
Komputer e-ISSN:
2548-964X Vol. 2,
No. 4, April 2018,
hlm. 1704-1708
7 Rizqi Agung 1 hasil pengujian
Permana, Sucitra Metode : tertinggi dengan
Sahara Klasifikasi menggunakan
SVM support vector
dengan nilai
Metode Support accuracy sebesar
Vector Machine dengan akurasi
Sebagai Penentu 85.02%, dan nilai
Kelulusan AUC 0.610.
Mahasiswa pada
Pembelajaran 2 Dari 6 atribut
Elektronik yang digunakan
dalam seleksi
atribut yang
Jurnal peneliti gunakan
Khatulistiwa yaitu jenis kelamin,
Informatika, Vol. jumlah latihan,
Vii, No. 1 Juni 2019 jumlah login,
P-Issn: 2339-1928 jumlah akses
& E-Issn: 2579- document ,jumlah
633x forum dan jumlah
pesan diperoleh
bahwa jumlah
latihan sebagai
atribut yang paling
berpengaruh
terhadap hasil
kelulusan
mahasiswa dengan
nilai probabilitas
0.898. Hal ini
membuktikan
bahwa benar terjadi
meningkatan
akurasi ketika
Support Vector
Machine (SVM).
3 Hasil pengujian
ini membuktikan
bahwa Support
Vector Machine
(SVM) memiliki
kemampuan
generalisasi yang
sangat baik untuk
memecahkan
masalah walaupun
dengan sampel
yang terbatas.
8 Sri Widaningsih Dari hasil evaluasi
diperolah hasil
Metode : bahwa algoritma
Perbandingan Klasifikasi naïve bayes yang
Metode Data teknik paling baik untuk
Mining Untuk C4.5, memprediksi
Prediksi Nilai Dan naïve tingkat kelulusan
Waktu Kelulusan bayes, yang diharapkan
Mahasiswa Prodi kNN dan karena memiliki
Teknik Informatika SVM. nilai akurasi
Dengan Algoritma tertinggi dan error
C4.5, Naïve Bayes, terkecil
Knn, Dan Svm dibandingkan
dengan algoritma
lainnya. Lalu
Jurnal Tekno algoritma C4.5
Insentif | ISSN (p): masih lebih akurat
1907-4964 | ISSN
(e): 2655-089X | dari pada algoritma
Vol. 13 | No. 1 | SVM.
Halaman 16-25
9 I. T. Utami Metode dengan
Metode : kesalahan
Klasifikasi klasifikasi terkecil
Support adalah metode
Perbandingan Vector Support Vector
Kinerja Klasifikasi Machine Machine sehingga
Support Vector (SVM) metode tersebut
Machine (Svm) dan dapat digunakan
Dan Regresi regresi untuk
Logistik Biner logistik mengklasifikasikan
Dalam biner ketepatan waktu
Mengklasifikasikan kelulusan
Ketepatan Waktu mahasiswa FMIPA
Kelulusan UNTAD.
Mahasiswa Fmipa
Untad
Jurnal Ilmiah
Matematika dan
Terapan Volume 15
Nomor 2 Desember
2018 (Halaman 256
- 267)
ISSN : 2450 –
766X

Bab 2

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 2

Diunggah oleh

Hak Cipta:

Format Tersedia

2.

2.1. Data Mining

Secara umum definisi Data Mining (penambangan data) dapat dijelaskan

1. Data Mining adalah suatu proses pencarian pengetahuan. Data Mining

Data mining yang sering disebut dengan Knowledge Discovery in Database

2.2 Konsep Data Mining

Predictive merupakan proses untuk menemukan pola dari data dengan

Descriptive dalam data mining merupakan proses untuk menemukan

Secara lebih spesifik, Data Mining berdasarkan fungsionalitasnya adalah

2.3 Tahapan Data Mining

1. Fase Pemahaman Bisnis (Business Understanding Phase)

a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup

b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan

c. Menyiapkan strategi awal untuk mencapai tujuan.

2. Fase Pemahaman Data (Data Understanding Phase)

c. Mengevaluasi kualitas data.

d. Jika diinginkan, pilih sebagian kecil group data yang mungkin

3. Fase Pengolahan Data (Data Preparation Phase)

c. Lalukan perubahan pada beberapa variable jika dibutuhkan.

d. Siapkan data awal sehingga siap untuk perangkat pemodelan.

4. Fase Pemodelan (Modeling Phase)

a. Pilih dan aplikasikan teknik pemodelan yang sesuai.

b. Kalibrasi aturan model untuk mengoptimalkan hasil.

c. Perlu diperhatikan bahwa untuk beberapa teknik mungkin digunakan

d. Jika diperlukan, proses dapat kembali ke pengolahan data untuk

5. Fase Evaluasi (Evaluation Phase)

Gambar 2.1 Proses Data Mining Menurut CRISP-DM S

Berdasarkan tugas yang dilakukan, data mining dibagi beberapa kelompok,

2.5 Algoritma C4.5

Algoritma C4.5 membangun pohon keputusan dari data-data pelatihan yang

1. Pembuatan Pohon Keputusan

Obyektif dari algoritma pohon keputusan adalah mengkonstruksi struktur data

2. Pemangkasan Pohon Keputusan dan Evaluasi (Opsional)

3. Pembuatan Aturan-Aturan dari Pohon Keputusan (Opsional)

Aturan-aturan dalam bentuk if-then diturunkan dari pohon keputusan dengan

2.5.1 Langkah membangun pohon keputusan menggunakan C4.5

Adapun langkah-langkah dalam membangun dan membentuk pohon keputusan

4. Algoritma ini menggunakan proses rekursif untuk membentuk pohon keputusan

5. Proses ini berhenti jika dicapai kondisi seperti berikut :

a. Semua sampel pada simpul berada di dalam satu kelas.

Pada pembentukan pohon keputusan algoritma C4.5, Gain didasarkan pada

Untuk rumus split info(a) adalah sebagai berikut :

k :Jumlah partisi atribut a

Xi :Himpunan ke-I pada sampel X

2.7 Algoritma SVM (Support Vector Machine)

2.7.1 Linear Separable Data

2.7.2 Non-Linear Separable Data

Gambar 3.2 Hyperplane (Sumber : Nugroho, 2003)

a) Kernel Radian Basis Function (RBF)

(𝑋⃑ 𝑖 , 𝑋⃑ 𝑗) = 𝑒𝑥𝑝 ( ‖X⃗⃗⃑⃗⃗⃑ i – X⃗⃗⃑⃗⃗⃑ j ‖ 2 2σ 2 )

Hasil evaluasi algoritma dapat ditampilkan dengan menggunakan Confusion

True Positive False Negative

False Positive True Negative

Perhitungan akurasi dengan table confusion matrix adalah sebagai berikut :

Menurut situs resmi WEKA (Waikato Environment for Knowledge Analysis),

The Waikato Environment for Knowledge Analysis (Weka) adalah rangkaian

Tabel 2.1 Penelitian Terdahulu

No Penulis dan Judul Metode Hasil Kekurangan Kelebihan

3 Rizky Hasil pengujian

5 Risqiati dan . Nilai yang

Anda mungkin juga menyukai