Anda di halaman 1dari 9

JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO.

1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

Analisis Perbandingan Algoritma Klasifikasi Data Mining


Untuk Dataset Blogger Dengan Rapid Miner

Ardiyansyah1, Panny Agustia Rahayuningsih2, Reza Maulana3


Program Studi Komputerisasi Akuntansi, AMIK BSI Pontianak[1]
Jl. Abdurahman Saleh No.18A, Kota Pontianak,Indonesia
e-mail : ardiyansyah.arq@bsi.ac.id

Program Studi Komputerisasi Akuntansi, AMIK BSI Pontianak [2]


Jl. Abdurahman Saleh No.18A, Kota Pontianak,Indonesia
e-mail: panny.par@bsi.ac.id

Program Studi Komputerisasi Akuntansi, AMIK BSI Pontianak [3]


Jl. Abdurahman Saleh No.18A, Kota Pontianak,Indonesia
e-mail: reza.rza@bsi.ac.id

ABSTRAKSI
Data mining merupakan sebuah proses untuk menganalisa sebuah kasus untuk menemukan performa
terbaik dari algoritma yang diuji. Salah satu cara untuk mendapatkan informasi atau pola dari kumpulan
data yang besar adalah dengan menggunakan teknik-teknik dalam data mining. Ada banyak metode
klasifikasi yang di gunakan untuk menghasilkan nilai akurasi yang akurat. Terdapat 5 algoritma klasifikasi
yang digunakan dalam mengklasifikasi dataset blogger yaitu decision tree, Naïve bayes, k-nearest
neighbour, ID3, dan CHAID. Dataset menggunakan data blogger dari UCI Machine Learning Repository.Blog
adalah media yang bergantung pada teknologi informasi dan kemajuan teknologi. Penelitian ini diuji
Dengan menggunakan validasi 10-fold cross validation dan uji t-test. Sehingga hasil tertinggi dari nilai akurasi
yang didapat adalah sebesar 85.00% untuk algoritma KNN. Sedangkan untuk nilai AUC algoritma CHAID
yang memiliki hasil tertinggi yaitu sebesar 0.758. dan dari asil uji t-test yang dilakukan bahwa algoritma
ID3,CHAID dan Naive Bayes merupakan algoritma dengan performa terbaik yang diterapkan pada dataset
blogger. Sedangkan untuk algoritma KNN dan C45 merupakan algoritma dengan performa yang kurang
baik dengan nilai AUC 0,500%.
Kata Kunci: Data Mining, Algoritma, Klasifikasi, Dataset Blogger

ABSTRACT
Data mining is a process to analyze a case to find the best performance of the tested algorithm. One way to get
information or patterns from large data sets is to use the techniques in data mining. There are many methods of
classification that are used to produce accurate accuracy values. There are 5 classification algorithms used in classifying
the blogger dataset of decision tree, Naïve bayes, k-nearest neighbor, ID3, and CHAID. The dataset uses blogger data
from UCI Machine Learning Repository.Blog is a medium that relies on information technology and technological
advancements. This study was tested by using 10-fold validation validation and t-test. So the highest result of the
obtained accuracy value is 85.00% for KNN algorithm. As for the CHAID algorithm AUC value that has the highest
results of 0.758. and from the t-test ac- count that ID3, CHAID and Naive Bayes algorithms are the best performing
algorithms applied to the blogger dataset. As for the algorithm KNN and C45 is an algorithm with a poor performance
with an AUC value of 0.500%.
Keyword: Data Mining, Algorithm, Classification, Blogger Dataset

1. PENDAHULUAN data, maka munculah suatu kebutuhan untuk dapat


Selama beberapa tahun terakhir menghasilkan informasi dari data yang telah ada
perkembangan teknologi informasi menjadi sangat tersebut. setiap informasi yang ada menjadi suatu
maju dalam hal pengumpulan dan penyimpanan hal yang penting untuk menentukan setiap

20
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

keputusan dalam situasi tertentu. hal ini menyebabkan klasifikasi yang lemah.komparasi
menyebabkan penyediaan informasi menjadi sarana algoritma klasifikasi sudah banyak dilakukan oleh
untuk dianalisa dan diringkas menjadi suatu para peneliti dengan hasil yang berbeda-beda.
pengetahuan dari data yang bermanfaat ketika dengan menggunakan data public dari uci
pengambilan suatu keputusan dilakukan. Data repository yang memiliki 6 atribut dan 100 record.
mining merupakan sebuah proses ekstraksi untuk dimana data yang digunakan adalah data blogger,
mendapatkan suatu informasi yang sebelumnya yaitu untuk mengklasifikasi blogger profesional.
tidak diketahui dari sebuah data. data mining dapat Terdapat lima algoritma klasifikasi yaitu C45,
menganalisa kasus lama untuk menemukan pola ID3, Chaid, K-NN dan Naive Bayes. Dari berbagai
dari data dengan menggunakan teknik pengenalan algoritma yang digunakan, penelitian ini bertujuan
pola seperti statistik dan matematika (Witten,2011). untuk mengetahui performa mana yang lebih baik
Salah satu cara untuk mendapatkan informasi diantara lima algoritma tersebut dengan
atau pola dari kumpulan data yang besar adalah menggunakan uji t-test dan tools yang digunakan
dengan menggunakan teknik-teknik dalam data adalah rapid miner sehingga dapat mengetahui
mining. algoritma yang digunakan dalam penelitian performa yang baik dari algoritma-algoritma
ini adalah algoritma klasifikasi. Dalam klasifikasi tersebut.
membutuhkan sebuah data training untuk Penelitian mengenai data mining dengan
menemukan sebuah pola. kemudian dari data membandingkan algoritma klasifikasi sudah banyak
training tersebut akan diketahui performa disetiap dipublikasikan. Dalam penelitian ini, diperlukannya
algoritma klasifikasi. sehingga dapat menentukan referensi-referensi dari penelitian-penelitian yang
performa yang terbaik diantara algoritma yang sebelumnya sehingga dapat mengetahui metode
digunakan. yang digunakan.
Blog merupakan sebuah media sosial yang Penelitian yang pertama yang dijadikan
baru-baru ini berada di ruang cyber adalah salah sebagai referensi atau acuan dalam penelitian ini
satu layanan internet dan web (Zafarani,2008) yaitu penelitian yang dilakukan oleh Soleimanian et
(Wyld,2007) yang menyediakan komponen al Menjelaskan bahwa Blog adalah media baru yang
perangkat lunak gratis bagi pengguna untuk muncul yang bergantung pada teknologi informasi
membiarkan mereka berpartisipasi sebagai anggota dan kemajuan teknologi. Karena media massa di
jaringan dan komunitas virtual (Soleimanian,2012). beberapa negara kurang berkembang dan
sehingga menyebabkan hubungan dinamis dan berkembang berada di layanan pemerintah dan
interaktif yang tidak terbatas, dan opini tentang kebijakan mereka dikembangkan berdasarkan
masalah yang diberikan (Juffinger,2009). penyebab kepentingan pemerintah, jadi blog disediakan untuk
kecenderungan pada blogger dan parameter utama ide dan bertukar pendapat. simulasi dari informasi
pendekatan mereka adalah di antara isu-isu utama yang diperoleh dari 100 pengguna dan blogger di
perencanaan untuk negara-negara yang ditentukan Kohkiloye dan Boyer Ahmad Province dan
berdasarkan teknologi modern. jadi, pentig untuk menggunakan alat bantu Weka 3.6 dan algoritme
memberikan solusi yang tepat untuk menentukan c4.5 dengan menerapkan pohon keputusan dengan
faktor-faktor utama kecenderungan pada blogging lebih dari% 82 presisi untuk mengantisipasi
(Soleimanian,2012). kecenderungan pengguna di masa depan untuk
Algoritma klasifikasi data mining adalah ngeblog dan menggunakan di area strategis
suatu metode pembelajaran untuk memprediksi (Soleimanian,2012).
nilai dari sekelompok attribut dalam Penelitian selanjutnya yaitu penelitian yang
menggambarkan dan membedakan kelas data atau dilakukan oleh Khafizh Hastuti (Khafizh,2012)
konsep yang bertujuan untuk memprediksi kelas penelitian ini menerapkan algoritma klasifikasi
dari objek yang label kelasnya tidak diketahui. untuk evaluasi serta untuk mengetahui algoritma
beberapa algoritma klasifikasi yang sering klasifikasi yang paling akurat dengan menggunakan
digunakan antara lain adalah naïve bayes, decision dataset mahasiswa non aktif.
tree, neural network, k-nn, random forest dan lain Penelitian selanjutnya yaitu penelitian yang
sebagainya. performa algoritma data mining dalam dilakukan oleh M. Adib Alkaromi (Adip,2012)
banyak kasus tergantung pada kualitas dataset, penelitian ini menerapkan algoritma klasifikasi
karena data training berkualitas rendah dapat dalam membandingkan performa dari masing-

21
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

masing algoritma yang digunakan dengan 3.C4.5


menggunakan rapid miner. C4.5 Merupakan pengembangan dari algoritma
Penelitian terakhir yang digunakan sebagai ID3 (Larose,2005) yang dikembangkan oleh Quinlan
referensi panduan dalam penelitian terkait yaitu (Han dan Kamber, 2006). Algoritma C4.5 banyak
penelitian yang dilakukan oleh Wahono, Suryana, digunakan peneliti untuk melakukan tugas
dan Ahmad (Wahono,2014), penelitian dilakukan klasifikasi. Output dari algoritma C4.5 adalah
pada Software Defect Prediction dengan sebuah pohon keputusan atau sering dikenal
menggunakan beberapa jenis algoritma klasifikasi dengan decissin tree. Dalam beberapa penelitian
dalam memprediksi kerusakan perangkat lunak. algoritma C4.5 ini menjadi pilihan terbaik
Tujuan dari penelitian ini adalah menentukan dibandingkan dengan beberapa algoritma klasifikasi
dari ke lima algoritma tersebut, algoritma mana lain (Wu,2007). Tahapan Algoritma C4.5 adalah,
yang menghasilkan nilai akurasi dan AUC yang sebagai berikut:
lebih baik. 1. Pilih atribut sebagai akar.

2. TINJAUAN PUSTAKA
2.1. Data Mining
Data mining adalah suatu disiplin ilmu yang
bertujuan untuk menemukan, menggali atau 2. Buat cabang untuk tiap-tiap nilai.
menambahkan pengetahuan dari data atau 3. Bagi kasus dalam cabang.
informasi yang kita miliki. Menurut Gartner Group 4. Ulangi proses untuk setiap cabang sampai semua
menyebutkan bahwa data mining adalah proses kasus pada cabang memiliki kelas yang sama.
menelusuri pengetahuan baru, pola dan tren yang
dipilih dari jumlah data yang besar yang disimpan 2.3. Naive Bayes
dalam repositori atau tempat penyimpanan dengan Naive Bayes merupakan metode yang tidak
menggunakan teknik pengenalan pola serta statistik memiliki aturan, Naive Bayes menggunakan cabang
dan tehnik matematika (Widiastuti,2012). Data matematika yang dikenal dengan teori probabilitas
Mining atau sering juga disebut Knowledge untuk mencari peluang terbesar dari kemungkinan
Discovery in Database (KDD) adalah sebuah bidang klasifikasi, dengan cara melihat frekuensi tiap
ilmu yang banyak membahas tentang pola sebuah klasifikasi pada data training. Klasifikasi Naive
data.Serangkaian proses guna mendapatkan Bayes adalah pengklasifikasian statistik yang dapat
pengetahuan atau pola dari kumpulan data disebut digunakan untuk memprediksi probabilitas
dengan data mining (Witten,2011). Sebuah data keanggotaan suatu class. Klasifikasi bayesian
yang besar bisa saja tidak berguna dan hanya akan memiliki kemampuan klasifikasi serupa dengan
menjadi sampah bila kita tidak dapat decision tree dan neural network menurut Awwalu.
memanfaatkannya. Data mining menjawab masalah Bayes rule digunakan untuk menghitung
ini dengan menganalisa data yang besar tersebut probabilitas suatu class. Algoritma Naive Bayes
kemudian membuat sebuah aturan, pola, ataupun memberikan suatu cara mengkombinasikan peluang
model tertentu untuk mengenali data baru yang terdahulu dengan syarat kemungkinan menjadi
tidak berada dalam baris data yang tersimpan sebuah formula yang dapat digunakan untuk
(Prasetyo,2012). menghitung peluang dari tiap kemungkinan yang
terjadi. Bentuk umum dari teorema bayes seperti
2.2. Pohon Keputusan dibawah ini (Rizal,2014).
Pohon keputusan adalah sebuah struktur
yang dapat digunakan untuk membagi kumpulan
data yang besar menjadi himpunan-himpunan
record yang lebih kecil dengan menrapkan
serangkaian aturan keputusan. Dimana:
Algoritma yang dapat dipakai dalam X : Data dengan class yang belum diketahui
pembentukan pohon keputusan. H : Hipotesis data X merupakan suatu class spesifik.
1.ID3 P(H|X) : Probabilitas hipotesis H berdasar kondisi X
2.CART (posteriori probability)
22
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

P(H) : Probabilitas hipotesis H (prior probability) disebut dengan information gain. Gain mengukur
P(X|H) : Probabilitas X berdasar kondisi pada seberapa baik suatu atribut memisahkan training
hipotesis H example ke dalam kelas target. Atribut dengan
P(X) : Probabilitas dari X informasi tertinggi akan dipilih, dengan tujuan
Naïve bayes adalah penyederhanaan metode untuk mendefenisikan gain. Entropy bisa dikatakan
bayes. Teorema bayes disederhanakan menjadi: sebagai kebutuhan bit untuk menyatakan suatu
kelas. Semakin kecil nilai entropy maka semakin
P(H|X)=P(X|H)P(X) baik digunakan dalam mengekstraksi suatu kelas.

Bayes rule diterapkan untuk menghitung 2.6. CHAID


posterior dan probabilitas dari data sebelumnya. CHAID adalah singkatan dari Chi-squared
Dalam analisis bayesian, klasifikasi akhir Automatic Interaction Detector. CHAID bekerja
dihasilkan dengan menggabungkan kedua sumber untuk menduga sebuah variabel tunggal, disebut
informasi (prior dan posterior) untuk menghasilkan sebagai variabel dependen yang didasarkan pada
probabilitas menggunakan aturan bayes (Rizal, sejumlah variabel-variabel independen. CHAID
2014). merupakan suatu teknik iteratif yang menguji satu
persatu variabel independen yang digunakan dalam
2.4. K-Nearest Neighbour (K-NN) klasifikasi dan menyusunkan berdasarkan pada
Algoritma K-Nearest Neighbor adalah sebuah tingkat signifikansi statistik chi-square terhadap
metode untuk melakukan klasifikasi terhadap objek variabel dependennya (Gallacgher,2000).
berdasarkan data pembelajaran yang jaraknya
paling dekat dengan objek tersebut. Nearest 3. METODOLOGI
Neighbor adalah pendekatan untuk mencari kasus Penelitian yang dilakukan dengan
dengan menghitung kedekatan antara kasus baru mengusulkan lima algoritma dan sebagai alat bantu
dan kasus lama yaitu berdasarkan pada pencocokan dalam menghitung performa dari setiap
bobot dari sejumlah fitur yang ada menurut Obbie. algoritmanya adalah repid miner. Lima algoritma
Langkah-langkah untuk menghitung metode yang digunakan yaitu C45, Naive Bayes, K-NN, ID3
Algoritma K-Nearest Neighbor: dan CHAID. Perbandingan yang dilakukan untuk
a. Menentukan Parameter K (Jumlah tetangga mengetahui salah satu algoritma yang paling baik
paling dekat). performanya diantara kelima algoritma tersebut
b. Menghitung kuadrat jarak Euclid (queri instance) dengan menggunakan dataset Blogger. Penelitian ini
masing-masing objek terhadap data sampel yang menggunakan sebuah software yaitu rapid miner.
diberikan. Pada penelitian ini dilakukan beberapa langkah atau
c. Kemudian mengurutkan objek-objek tersebut ke tahapan penelitian antara lain: pengumpulan
dalam kelompok yang mempunyai jarak Euclid data,pengolahan data awal,metode yang
terkecil. diusulkan,pengujian metode dan hasil penelitian.
d. Mengumpulkan kategori Y (KlasifikasiNearest
Neighbor). 3.1 Dataset
e. Dengan menggunakan kategori Nearest Dataset blogger merupakan salah satu data
Neighbor yang paling mayoritas maka dapat publik yang ada pada web UCI Machine Learning
diprediksi nilai queri instance yang telah repository.Database bloggers ini dari Kohkiloye dan
dihitung. Boyer Ahmad Province dari Iran. Atribute yang
terdapat pada data Blogger yaitu: Local Political
2.5. ID3 Social Space (LPSS), Local Media Turnover (LMT),
Algoritma ID3 atau iterative Dichotomiser 3 Topic, Caprice, Degree. Sedangkan untuk class yang
(ID3) merupakn sebuah metode yang digunakan terdapat pada dataset blogger yaitu Professional
untuk membangkitkan pohon keputusan. Algoritma Blogger (PB) adalah yes dan no.
pada metode ini menggunakan konsep dari entropy
informasi menurut Obbie. Pemilihan atribut dengan
menggunakan Informastion Gain. Pemilihan atribut
pada ID3 dilakukan dengan properti statistik yang

23
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

Tabel 1 low right impression no no yes


27
Blogger Database of Kohkiloye and Boyer
high right political yes yes yes
Ahmad Province in Iran 28
No Degree Caprice Topic LMT LPSS PB high left impression no no yes
29
high left Impression yes yes yes
1
medium left scientific yes yes no
high left political yes yes yes 30
2
high right political yes yes yes
medium middle Tourism yes yes yes 31
3
low left scientific yes yes no
32
high left political yes yes yes
4 medium right tourism yes yes no
33
medium middle News yes yes yes
5 Low right political yes yes yes
34
medium middle News yes yes yes
6 High left impression yes no yes
35
high left political yes yes yes
7 medium left tourism yes no yes
36
high right political yes no yes
8 medium middle scientific yes no yes
37
high right political yes no no
9 medium middle impression no yes no
38
medium right Tourism yes no yes
10 medium right scientific yes yes no
39
high right Tourism yes yes yes
11 medium left impression no no yes
40
medium left News yes no yes
12 High left political yes yes no
41
high left political yes yes no
13 medium left news no yes yes
42
low right news no yes no
14 High left political yes yes yes
43
high left political yes yes yes
15 medium right news yes yes no
44
medium left impression yes yes yes
16 medium left tourism yes no yes
45
medium left political yes yes yes
17 medium middle news yes yes yes
46
high right political yes yes yes
18 Low middle impression yes no no
47
medium left impression yes yes yes
19 Low right impression yes no no
48
high right tourism yes yes no
20 medium right news yes yes no
49
high left political yes yes yes
21 medium left impression yes yes yes
50
medium left news yes yes yes
22 High left political yes yes yes
51
high right political no yes no
23 High left political yes yes yes
52
low left tourism yes no no
24 medium middle tourism yes yes yes
53
high left news yes yes yes
25 High left political yes yes yes
54
high left political yes yes yes
26 medium middle news yes yes yes
55

24
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

medium middle news yes yes yes


56 high left impression yes no yes
85
High left political yes yes yes
57 medium left tourism yes no yes
86
High right political yes no yes
58 medium middle impression yes no yes
87
High right political yes no no
59 medium middle impression no yes no
88
medium right tourism yes no yes
60 medium right scientific yes yes no
89
medium right tourism yes yes yes
61 medium left impression no no yes
90
medium left news yes no yes high left political yes yes no
62 91
High left impression yes yes no
63 medium left news no yes yes
92
Low right news no yes no
64 high left political yes yes yes
93
High left political yes yes yes
65 medium right news yes yes no
94
medium left impression yes yes yes
66 medium left tourism yes no yes
95
medium left political yes yes yes
67 medium middle impression yes yes yes
96
High right political yes yes yes
68 low middle impression yes no no
97
medium left political yes yes yes
69 low right impression yes no no
98
High right impression yes yes no
70 medium right news yes yes no
99
medium left political yes yes yes
71 medium left impression yes yes yes
100
medium left news yes yes yes
72

medium right political no yes no


73
3.2 Cross Validation
Low left tourism yes no no Kemudian untuk validasi, penelitian ini
74
menggunakan 10-fold cross validation. 10-fold cross-
High left news yes yes yes validation akan mengulang pengujian sebanyak 10
75
kali. Berikut tabel 10-fold Cross Validation:
High left political yes yes yes
76

Low right impression no no yes TABEL 2


77 10-FOLD CROSS VALIDATION
High right political yes yes yes Validation Dataset
78
1
High left impression no no yes 2
79
3
medium left scientific yes yes no
80 4
High right political yes yes yes 5
81
6
Low left scientific yes yes no 7
82
8
medium right tourism yes yes no 9
83
10
84 Low right political yes yes yes
25
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

3.3 Confusion Matrix T-Test adalah metode pengujian hipotesis


Evaluasi model klasifikasi didasarkan pada dengan menggunakan satu individu (objek
pengujian untuk memperkirakan obyek yang benar penelitian) dengan menggunakan dua perlakuan
dan salah [14], urutan pengujian ditabulasikan yang berbeda. Walaupun dengan menggunakan
dalam confusion matrix dimana kelas yang objek yang sama tetapi sampel tetap terbagi menjadi
diprediksi ditampilkan dibagian atas matriks dan dua yaitu data dengan perlakuan pertama dan data
kelas yang diamati disisi kiri. Setiap sel berisi angka dengan perlakuan kedua. Performance dapat
yang menunjukkan berapa banyak kasus yang diketahui dengan cara membandingkan kondisi
sebenarnya dari kelas yang diamati untuk objek penelitian pertama dan kondisi objek pada
diprediksi. penelitian kedua.

TABEL 3 4. HASIL DAN PEMBAHASAN


CONFUSION MATRIX Perbandingan performance masing-masing
CLASSI dari algoritma, sebagai berikut:
FICA Class = True Class = False Berdasarkan tabel diatas, dapat diketahui
TION bahwa algoritma KNN memiliki nilai accuracy
a tertinggi yaitu 85.00%, ID3 82.00%, CHAID 75.00%,
Class = b Naive Bayes 71,00% dan Decision Tree 68.00%.
(true-positive-
True (false-positive-TP) Sedangkan pada uji ROC curve menunjukkan
TP)
bahwa CHAID dan ID3 mencapai nilai AUC yang
c
Class = d terbaik yaitu 0.758 dan 0.757, kemudian Naive Bayes
(true-positive-
False (false-positive-TP) 0.730 dan KNN serta Decision Tree 0.500.
TP)

TABEL 5
2.4. ROC Curve
PERBANDINGAN PERFORMANCE LIMA ALGORITMA
Kurva ROC dibagi dalam dua dimensi,
Model Accuracy AUC
dimana tingkat TP diplot pada sumbu Y dan tingkat
Decision Tree 68.00% 0.500
FP diplot pada sumbu X. Tetapi untuk
Naive Bayes 71.00% 0.730
merepresentasikan grafis yang menentukan
KNN 85.00% 0.500
klasifikasi mana yang lebih baik, digunakan metode
yang menghitung luas daerah dibawah kurva ROC ID3 82.00% 0.757
yang disebut AUC (Area Under the ROC Curve) CHAID 75.00% 0.758
yang diartikan sebagai probabilitas[14].
AUC mengukur kinerja diskriminatif dengan Kemudian, pengujian t-test akan didapatkan
memperkirakan probabilitas output dari sampel perbandingan, sebagai berikut:
yang dipilih secara acak dari populasi positif atau
negatif, semakin besar AUC, semakin kuat TABEL 6
klasifikasi yang digunakan. Karena AUC adalah UJI STATISTIK T-TEST
bagian dari daerah unit persegi, nilainya akan selalu
antara 0,0 dan 1,0.

TABEL 4
NILAI AUC
Nilai AUC Klasifikasi
0.90 - 1.00 Paling Baik
0.80 - 0.90 Baik
Keterangan :
0.70 - 0.80 Adil atau Sama
B : Decision Tree
0.60 - 0.70 Rendah
C : Naive Bayes
0.50 - 0.60 Gagal
D : KNN
E : ID3
2.6. T-Test
F : Chaid
26
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

Dari pengujian t-test diatas, bahwa hasil Mengklasifikasikan Serangan (Attacks) pada
perbandingan antara algoritma KNN dengan ID3 Sistem Pendeteksi Intrusi,” 2012.
ada perbedaan yang signifikan (H1). Kemudian D. T. Larose, Discovering Knowledge in Data: an
untuk perbandingan algoritma antara C45 dengan Introduction to Data Mining. John Wiley &
Naive Bayes, KNN, ID3 dan CHAID tidak ada Sons, 2005.
perbedaan yang signifikan (H0). Begitu juga dengan E. Prasetyo, Data Mining Konsep dan Aplikasi
Naive Bayes dengan KNN, ID3 dan CHAID tidak menggunakan Matlab.Yogyakarta: Andi
ada perbedaan yang signifikan(H0). Sama seperti Offset, 2012, p. 353.
perbandingan antara KNN dengan CHAID dan ID3 Florin Gorunescu, Data Mining: Concepts, Model
dengan CHAID tidak ada perbedaan yang and Techniques, Prof. Janusz Kacprzyk and
signifikan. Prof. Lakhmi C. Jain, Eds. Berlin,
Dilihat dari hasil pengujian AUC dan T-Test, Gallacgher, CA. 2000. An Iterative Approach to
algoritma yang memiliki performance terbaik Classification Analysis.
adalah Algoritma ID3, CHAID dan NB. Sedangkan I. H. Witten, E. Frank, and M. A. Hall, Data Mining:
algoritma KNN dan C45 merupakan algoritma yang Practical Machine Learning Tools and
memiliki performance yang kurang baik dalam Techniques 3rd Edition. Elsevier, 2011.
penerapan dataset blogger. J. Han and M. Kamber, Data Mining: Concepts and
Techniques Second Edition. Elsevier, 2006.
J. Awwalu, A. Ghazvini, and A. A. Bakar,
5. KESIMPULAN DAN SARAN “Performance Comparison of Data Mining
Penelitian dengan menggunakan dataset Algorithms: A Case Study on Car Evaluation
blogger yang di dapat dari uci machine learning Dataset.”
repository dengan membandingkan 5 algoritma Juffinger,A., Lex, E., 2009, Cross language Blog
klasifikasi yaitu decision tree, naïve bayes, K- Mining and Trend Visualization ,WWW 2009,
Nearest Neighbour, ID3, dan chaid. dengan 2009, Madrid, Spain.1149-1150.
menggunakan validasi 10-fold cross validation dan Khafiizh Hastuti. Analisa Komparasi Algoritma
uji t-test. sehingga hasil tertinggi dari nilai akurasi Klasifikasi Data Mining untuk Prediksi
sebesar sebesar 85.00% yaitu algoritma KNN. Mahasiswa Non Aktif. ISBN 979-26-0255-0,
sedangkan untuk nilai AUC sebesar 0.758 untuk 2012.
algoritma Chaid. dan dari asil uji t-test yang Obbie, "Penerapan Algoritma Klasifikasi Data
dilakukan bahwa algoritma id3, chaid dan Naive Mining ID3 untuk Menentukan Penjurusan
Bayes merupakan algoritma dengan performa Siswa SMAN 6 Semarang
terbaik yang diterapkan pada dataset blogger. Rizal Amegia Saputra, “komparasi algoritma
sedangkan untuk algoritma knn dan C45 klasifikasi data mining untuk memprediksi
merupakan algoritma dengan performa yang penyakit tuberculosis (tb),” semin. nas. inov.
kurang baik dengan nilai AUC sebesar 0,500%. dan tren snit, 2014.
Adapun saran untuk penelitian selanjutnya Soleimanian Gharehchopogh, F., & Reza Khaze, S.
adalah sebagai berikut: (2012). Data Mining Application for Cyber
1. Dapat menggunakan Dataset yang berbeda Space Users Tendency in Blog Writing: A Case
yang dapat di ambil dari UCI Machine Learning Study. International Journal of Computer
Repository Applications, 47(18), 975–888.
2. Dapat menggunakan data preprocessing seperti https://doi.org/10.5120/7291-0509
menambahkan fitur selection. Wyld,D., 2007, The Blogging Revolution:
3. Menggunakan model Agortima yang berbeda Government in the Age of Web 2.0 ,IBM Center
dengan dataset yang sama. for The Business of Government.
Wahono, R. S., Herman, N. S., & Ahmad, S. (2014). A
REEFERENSI comparison framework of classification models
for software defect prediction. Advanced Science
Adip Alkaromi M. Komparasi Algoritma Klasifikasi
Letters, 20(10–12), 1945–1950.
untuk Dataset Iris dengan Repid Miner. 2012.
http://doi.org/10.1166/asl.2014.5640
D. Widiastuti, “Analisa Perbandingan Algoritma
X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, Q. Yang,
SVM, Naive Bayes, dan Decision Tree dalam
27
JURNAL KHATULISTIWA INFORMATIKA, VOL. VI, NO. 1 JUNI 2018
p-ISSN: 2339-1928 & e-ISSN: 2579-633X

H. Motoda, G. J. Mclachlan, A. Ng, B. Liu, P. S.


Yu, Z. Z. Michael, S. David, and J. H. Dan, Top
10 algorithms in data mining. 2007, pp. 1–37.
Zafarani,R, Jashki, M.A, Baghi,H.R , Ghorbani,A.,
2008, A Novel Approach for Social Behavior
Analysis of the Blogosphere, springer-Verlag
Berlin Heidelberg, S. Bergler (Ed.): Canadian
AI, 356–367.

28

Anda mungkin juga menyukai