1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
ABSTRAKSI
Data mining merupakan sebuah proses untuk menganalisa sebuah kasus untuk menemukan performa
terbaik dari algoritma yang diuji. Salah satu cara untuk mendapatkan informasi atau pola dari kumpulan
data yang besar adalah dengan menggunakan teknik-teknik dalam data mining. Ada banyak metode
klasifikasi yang di gunakan untuk menghasilkan nilai akurasi yang akurat. Terdapat 5 algoritma klasifikasi
yang digunakan dalam mengklasifikasi dataset blogger yaitu decision tree, Naïve bayes, k-nearest
neighbour, ID3, dan CHAID. Dataset menggunakan data blogger dari UCI Machine Learning Repository.Blog
adalah media yang bergantung pada teknologi informasi dan kemajuan teknologi. Penelitian ini diuji
Dengan menggunakan validasi 10-fold cross validation dan uji t-test. Sehingga hasil tertinggi dari nilai akurasi
yang didapat adalah sebesar 85.00% untuk algoritma KNN. Sedangkan untuk nilai AUC algoritma CHAID
yang memiliki hasil tertinggi yaitu sebesar 0.758. dan dari asil uji t-test yang dilakukan bahwa algoritma
ID3,CHAID dan Naive Bayes merupakan algoritma dengan performa terbaik yang diterapkan pada dataset
blogger. Sedangkan untuk algoritma KNN dan C45 merupakan algoritma dengan performa yang kurang
baik dengan nilai AUC 0,500%.
Kata Kunci: Data Mining, Algoritma, Klasifikasi, Dataset Blogger
ABSTRACT
Data mining is a process to analyze a case to find the best performance of the tested algorithm. One way to get
information or patterns from large data sets is to use the techniques in data mining. There are many methods of
classification that are used to produce accurate accuracy values. There are 5 classification algorithms used in classifying
the blogger dataset of decision tree, Naïve bayes, k-nearest neighbor, ID3, and CHAID. The dataset uses blogger data
from UCI Machine Learning Repository.Blog is a medium that relies on information technology and technological
advancements. This study was tested by using 10-fold validation validation and t-test. So the highest result of the
obtained accuracy value is 85.00% for KNN algorithm. As for the CHAID algorithm AUC value that has the highest
results of 0.758. and from the t-test ac- count that ID3, CHAID and Naive Bayes algorithms are the best performing
algorithms applied to the blogger dataset. As for the algorithm KNN and C45 is an algorithm with a poor performance
with an AUC value of 0.500%.
Keyword: Data Mining, Algorithm, Classification, Blogger Dataset
20
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
keputusan dalam situasi tertentu. hal ini menyebabkan klasifikasi yang lemah.komparasi
menyebabkan penyediaan informasi menjadi sarana algoritma klasifikasi sudah banyak dilakukan oleh
untuk dianalisa dan diringkas menjadi suatu para peneliti dengan hasil yang berbeda-beda.
pengetahuan dari data yang bermanfaat ketika dengan menggunakan data public dari uci
pengambilan suatu keputusan dilakukan. Data repository yang memiliki 6 atribut dan 100 record.
mining merupakan sebuah proses ekstraksi untuk dimana data yang digunakan adalah data blogger,
mendapatkan suatu informasi yang sebelumnya yaitu untuk mengklasifikasi blogger profesional.
tidak diketahui dari sebuah data. data mining dapat Terdapat lima algoritma klasifikasi yaitu C45,
menganalisa kasus lama untuk menemukan pola ID3, Chaid, K-NN dan Naive Bayes. Dari berbagai
dari data dengan menggunakan teknik pengenalan algoritma yang digunakan, penelitian ini bertujuan
pola seperti statistik dan matematika (Witten,2011). untuk mengetahui performa mana yang lebih baik
Salah satu cara untuk mendapatkan informasi diantara lima algoritma tersebut dengan
atau pola dari kumpulan data yang besar adalah menggunakan uji t-test dan tools yang digunakan
dengan menggunakan teknik-teknik dalam data adalah rapid miner sehingga dapat mengetahui
mining. algoritma yang digunakan dalam penelitian performa yang baik dari algoritma-algoritma
ini adalah algoritma klasifikasi. Dalam klasifikasi tersebut.
membutuhkan sebuah data training untuk Penelitian mengenai data mining dengan
menemukan sebuah pola. kemudian dari data membandingkan algoritma klasifikasi sudah banyak
training tersebut akan diketahui performa disetiap dipublikasikan. Dalam penelitian ini, diperlukannya
algoritma klasifikasi. sehingga dapat menentukan referensi-referensi dari penelitian-penelitian yang
performa yang terbaik diantara algoritma yang sebelumnya sehingga dapat mengetahui metode
digunakan. yang digunakan.
Blog merupakan sebuah media sosial yang Penelitian yang pertama yang dijadikan
baru-baru ini berada di ruang cyber adalah salah sebagai referensi atau acuan dalam penelitian ini
satu layanan internet dan web (Zafarani,2008) yaitu penelitian yang dilakukan oleh Soleimanian et
(Wyld,2007) yang menyediakan komponen al Menjelaskan bahwa Blog adalah media baru yang
perangkat lunak gratis bagi pengguna untuk muncul yang bergantung pada teknologi informasi
membiarkan mereka berpartisipasi sebagai anggota dan kemajuan teknologi. Karena media massa di
jaringan dan komunitas virtual (Soleimanian,2012). beberapa negara kurang berkembang dan
sehingga menyebabkan hubungan dinamis dan berkembang berada di layanan pemerintah dan
interaktif yang tidak terbatas, dan opini tentang kebijakan mereka dikembangkan berdasarkan
masalah yang diberikan (Juffinger,2009). penyebab kepentingan pemerintah, jadi blog disediakan untuk
kecenderungan pada blogger dan parameter utama ide dan bertukar pendapat. simulasi dari informasi
pendekatan mereka adalah di antara isu-isu utama yang diperoleh dari 100 pengguna dan blogger di
perencanaan untuk negara-negara yang ditentukan Kohkiloye dan Boyer Ahmad Province dan
berdasarkan teknologi modern. jadi, pentig untuk menggunakan alat bantu Weka 3.6 dan algoritme
memberikan solusi yang tepat untuk menentukan c4.5 dengan menerapkan pohon keputusan dengan
faktor-faktor utama kecenderungan pada blogging lebih dari% 82 presisi untuk mengantisipasi
(Soleimanian,2012). kecenderungan pengguna di masa depan untuk
Algoritma klasifikasi data mining adalah ngeblog dan menggunakan di area strategis
suatu metode pembelajaran untuk memprediksi (Soleimanian,2012).
nilai dari sekelompok attribut dalam Penelitian selanjutnya yaitu penelitian yang
menggambarkan dan membedakan kelas data atau dilakukan oleh Khafizh Hastuti (Khafizh,2012)
konsep yang bertujuan untuk memprediksi kelas penelitian ini menerapkan algoritma klasifikasi
dari objek yang label kelasnya tidak diketahui. untuk evaluasi serta untuk mengetahui algoritma
beberapa algoritma klasifikasi yang sering klasifikasi yang paling akurat dengan menggunakan
digunakan antara lain adalah naïve bayes, decision dataset mahasiswa non aktif.
tree, neural network, k-nn, random forest dan lain Penelitian selanjutnya yaitu penelitian yang
sebagainya. performa algoritma data mining dalam dilakukan oleh M. Adib Alkaromi (Adip,2012)
banyak kasus tergantung pada kualitas dataset, penelitian ini menerapkan algoritma klasifikasi
karena data training berkualitas rendah dapat dalam membandingkan performa dari masing-
21
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
2. TINJAUAN PUSTAKA
2.1. Data Mining
Data mining adalah suatu disiplin ilmu yang
bertujuan untuk menemukan, menggali atau 2. Buat cabang untuk tiap-tiap nilai.
menambahkan pengetahuan dari data atau 3. Bagi kasus dalam cabang.
informasi yang kita miliki. Menurut Gartner Group 4. Ulangi proses untuk setiap cabang sampai semua
menyebutkan bahwa data mining adalah proses kasus pada cabang memiliki kelas yang sama.
menelusuri pengetahuan baru, pola dan tren yang
dipilih dari jumlah data yang besar yang disimpan 2.3. Naive Bayes
dalam repositori atau tempat penyimpanan dengan Naive Bayes merupakan metode yang tidak
menggunakan teknik pengenalan pola serta statistik memiliki aturan, Naive Bayes menggunakan cabang
dan tehnik matematika (Widiastuti,2012). Data matematika yang dikenal dengan teori probabilitas
Mining atau sering juga disebut Knowledge untuk mencari peluang terbesar dari kemungkinan
Discovery in Database (KDD) adalah sebuah bidang klasifikasi, dengan cara melihat frekuensi tiap
ilmu yang banyak membahas tentang pola sebuah klasifikasi pada data training. Klasifikasi Naive
data.Serangkaian proses guna mendapatkan Bayes adalah pengklasifikasian statistik yang dapat
pengetahuan atau pola dari kumpulan data disebut digunakan untuk memprediksi probabilitas
dengan data mining (Witten,2011). Sebuah data keanggotaan suatu class. Klasifikasi bayesian
yang besar bisa saja tidak berguna dan hanya akan memiliki kemampuan klasifikasi serupa dengan
menjadi sampah bila kita tidak dapat decision tree dan neural network menurut Awwalu.
memanfaatkannya. Data mining menjawab masalah Bayes rule digunakan untuk menghitung
ini dengan menganalisa data yang besar tersebut probabilitas suatu class. Algoritma Naive Bayes
kemudian membuat sebuah aturan, pola, ataupun memberikan suatu cara mengkombinasikan peluang
model tertentu untuk mengenali data baru yang terdahulu dengan syarat kemungkinan menjadi
tidak berada dalam baris data yang tersimpan sebuah formula yang dapat digunakan untuk
(Prasetyo,2012). menghitung peluang dari tiap kemungkinan yang
terjadi. Bentuk umum dari teorema bayes seperti
2.2. Pohon Keputusan dibawah ini (Rizal,2014).
Pohon keputusan adalah sebuah struktur
yang dapat digunakan untuk membagi kumpulan
data yang besar menjadi himpunan-himpunan
record yang lebih kecil dengan menrapkan
serangkaian aturan keputusan. Dimana:
Algoritma yang dapat dipakai dalam X : Data dengan class yang belum diketahui
pembentukan pohon keputusan. H : Hipotesis data X merupakan suatu class spesifik.
1.ID3 P(H|X) : Probabilitas hipotesis H berdasar kondisi X
2.CART (posteriori probability)
22
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
P(H) : Probabilitas hipotesis H (prior probability) disebut dengan information gain. Gain mengukur
P(X|H) : Probabilitas X berdasar kondisi pada seberapa baik suatu atribut memisahkan training
hipotesis H example ke dalam kelas target. Atribut dengan
P(X) : Probabilitas dari X informasi tertinggi akan dipilih, dengan tujuan
Naïve bayes adalah penyederhanaan metode untuk mendefenisikan gain. Entropy bisa dikatakan
bayes. Teorema bayes disederhanakan menjadi: sebagai kebutuhan bit untuk menyatakan suatu
kelas. Semakin kecil nilai entropy maka semakin
P(H|X)=P(X|H)P(X) baik digunakan dalam mengekstraksi suatu kelas.
23
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
24
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
TABEL 5
2.4. ROC Curve
PERBANDINGAN PERFORMANCE LIMA ALGORITMA
Kurva ROC dibagi dalam dua dimensi,
Model Accuracy AUC
dimana tingkat TP diplot pada sumbu Y dan tingkat
Decision Tree 68.00% 0.500
FP diplot pada sumbu X. Tetapi untuk
Naive Bayes 71.00% 0.730
merepresentasikan grafis yang menentukan
KNN 85.00% 0.500
klasifikasi mana yang lebih baik, digunakan metode
yang menghitung luas daerah dibawah kurva ROC ID3 82.00% 0.757
yang disebut AUC (Area Under the ROC Curve) CHAID 75.00% 0.758
yang diartikan sebagai probabilitas[14].
AUC mengukur kinerja diskriminatif dengan Kemudian, pengujian t-test akan didapatkan
memperkirakan probabilitas output dari sampel perbandingan, sebagai berikut:
yang dipilih secara acak dari populasi positif atau
negatif, semakin besar AUC, semakin kuat TABEL 6
klasifikasi yang digunakan. Karena AUC adalah UJI STATISTIK T-TEST
bagian dari daerah unit persegi, nilainya akan selalu
antara 0,0 dan 1,0.
TABEL 4
NILAI AUC
Nilai AUC Klasifikasi
0.90 - 1.00 Paling Baik
0.80 - 0.90 Baik
Keterangan :
0.70 - 0.80 Adil atau Sama
B : Decision Tree
0.60 - 0.70 Rendah
C : Naive Bayes
0.50 - 0.60 Gagal
D : KNN
E : ID3
2.6. T-Test
F : Chaid
26
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
Dari pengujian t-test diatas, bahwa hasil Mengklasifikasikan Serangan (Attacks) pada
perbandingan antara algoritma KNN dengan ID3 Sistem Pendeteksi Intrusi,” 2012.
ada perbedaan yang signifikan (H1). Kemudian D. T. Larose, Discovering Knowledge in Data: an
untuk perbandingan algoritma antara C45 dengan Introduction to Data Mining. John Wiley &
Naive Bayes, KNN, ID3 dan CHAID tidak ada Sons, 2005.
perbedaan yang signifikan (H0). Begitu juga dengan E. Prasetyo, Data Mining Konsep dan Aplikasi
Naive Bayes dengan KNN, ID3 dan CHAID tidak menggunakan Matlab.Yogyakarta: Andi
ada perbedaan yang signifikan(H0). Sama seperti Offset, 2012, p. 353.
perbandingan antara KNN dengan CHAID dan ID3 Florin Gorunescu, Data Mining: Concepts, Model
dengan CHAID tidak ada perbedaan yang and Techniques, Prof. Janusz Kacprzyk and
signifikan. Prof. Lakhmi C. Jain, Eds. Berlin,
Dilihat dari hasil pengujian AUC dan T-Test, Gallacgher, CA. 2000. An Iterative Approach to
algoritma yang memiliki performance terbaik Classification Analysis.
adalah Algoritma ID3, CHAID dan NB. Sedangkan I. H. Witten, E. Frank, and M. A. Hall, Data Mining:
algoritma KNN dan C45 merupakan algoritma yang Practical Machine Learning Tools and
memiliki performance yang kurang baik dalam Techniques 3rd Edition. Elsevier, 2011.
penerapan dataset blogger. J. Han and M. Kamber, Data Mining: Concepts and
Techniques Second Edition. Elsevier, 2006.
J. Awwalu, A. Ghazvini, and A. A. Bakar,
5. KESIMPULAN DAN SARAN “Performance Comparison of Data Mining
Penelitian dengan menggunakan dataset Algorithms: A Case Study on Car Evaluation
blogger yang di dapat dari uci machine learning Dataset.”
repository dengan membandingkan 5 algoritma Juffinger,A., Lex, E., 2009, Cross language Blog
klasifikasi yaitu decision tree, naïve bayes, K- Mining and Trend Visualization ,WWW 2009,
Nearest Neighbour, ID3, dan chaid. dengan 2009, Madrid, Spain.1149-1150.
menggunakan validasi 10-fold cross validation dan Khafiizh Hastuti. Analisa Komparasi Algoritma
uji t-test. sehingga hasil tertinggi dari nilai akurasi Klasifikasi Data Mining untuk Prediksi
sebesar sebesar 85.00% yaitu algoritma KNN. Mahasiswa Non Aktif. ISBN 979-26-0255-0,
sedangkan untuk nilai AUC sebesar 0.758 untuk 2012.
algoritma Chaid. dan dari asil uji t-test yang Obbie, "Penerapan Algoritma Klasifikasi Data
dilakukan bahwa algoritma id3, chaid dan Naive Mining ID3 untuk Menentukan Penjurusan
Bayes merupakan algoritma dengan performa Siswa SMAN 6 Semarang
terbaik yang diterapkan pada dataset blogger. Rizal Amegia Saputra, “komparasi algoritma
sedangkan untuk algoritma knn dan C45 klasifikasi data mining untuk memprediksi
merupakan algoritma dengan performa yang penyakit tuberculosis (tb),” semin. nas. inov.
kurang baik dengan nilai AUC sebesar 0,500%. dan tren snit, 2014.
Adapun saran untuk penelitian selanjutnya Soleimanian Gharehchopogh, F., & Reza Khaze, S.
adalah sebagai berikut: (2012). Data Mining Application for Cyber
1. Dapat menggunakan Dataset yang berbeda Space Users Tendency in Blog Writing: A Case
yang dapat di ambil dari UCI Machine Learning Study. International Journal of Computer
Repository Applications, 47(18), 975–888.
2. Dapat menggunakan data preprocessing seperti https://doi.org/10.5120/7291-0509
menambahkan fitur selection. Wyld,D., 2007, The Blogging Revolution:
3. Menggunakan model Agortima yang berbeda Government in the Age of Web 2.0 ,IBM Center
dengan dataset yang sama. for The Business of Government.
Wahono, R. S., Herman, N. S., & Ahmad, S. (2014). A
REEFERENSI comparison framework of classification models
for software defect prediction. Advanced Science
Adip Alkaromi M. Komparasi Algoritma Klasifikasi
Letters, 20(10–12), 1945–1950.
untuk Dataset Iris dengan Repid Miner. 2012.
http://doi.org/10.1166/asl.2014.5640
D. Widiastuti, “Analisa Perbandingan Algoritma
X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, Q. Yang,
SVM, Naive Bayes, dan Decision Tree dalam
27
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X
28