Anda di halaman 1dari 6

PERBANDINGAN KINERJA KLASIFIKASI ALGORITMA

DECISION TREE & NAÏVE BAYES


PADA DATASET “Iris_Flowers” MENGGUNAKAN WEKA

Wahyu Ramadhan
Roni Ubay Yashi
Prodi Teknik Informatika
Jurusan Teknologi Informasi dan Komputer
Politeknik Negeri Lhokseumawe
Buket rata, Lhokseumawe
Telp (+62)85206571041
Email : wahyurama10@gmail.com

Project Data Mining


Matakuliah Data Mining

ABSTRAK
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Kinerja
algoritma data mining menjadi satu pertimbangan dalam pemilihan algoritma untuk memprediksi
dataset. Penelitian ini mengukur kinerja dan membandingkan hasil pengukuran tingkat akurasi algoritma
decision tree dan naïve bayes pada dataset iris_flowers. Hasil pengukuran menunjukkan persentase
akurasi dan eror dari data training dan data tes yang digunakan. Kinerja setiap algoritma diukur
berdasarkan persentase akurasi dan error. Jumlah data sampel yang digunakan ada 150 dataset iris
yang terdiri dari 50 iris-setosa, 50 iris-versicolor, dan 50 iris-virginica. Memiliki 5 attribute data. Alat
bantu yang digunakan adalah WEKA 3.8
Kata Kunci : Decision Tree, Naive Bayes, Iris_Flowers

1. PENDAHULUAN algoritma paling popular dalam teknik


1.1. Latar Belakang klasifikasi. Sedangkan menurut penelitian yang
Perkembangan data mining (DM) yang pesat dilakukan oleh Lili Sun dan Shenoy (2004)
tidak terlepas dari perkembangan teknologi algoritma yang paling tepat dalam memprediksi
informasi yang memungkinkan data dalam dataset iris_flowers adalah algoritma bayesian
jumlah besar terakumulasi. Seiring dengan network yang di fokuskan pada model naïve
semakin dibutuhkannya data mining, muncul bayes[2].
beberapa algoritma untuk memproses data dalam Model ini mudah untuk
jumlah besar. Klasifikasi adalah proses diimplementasikan dan telah terbukti memiliki
pembelajaran secara terbimbing (supervised kinerja yang baik dalam memprediksi suatu data
learning) [1]. Berdasarkan penelitian yang .Perbandingan metode klasifikasi dilakukan
dilakukan oleh Mous (2005), kinerja algoritma untuk menentukan jenis klasifikasi yang paling
decision tree lebih baik jika dibandingkan cocok digunakan dengan data yang memiliki
dengan Multiple Discriminant Analysis (MDA) class atribut dan kategori atribut seperti dataset
(Altman,1968) dalam mengklasifikasi dataset iris_flowers.
iris. Algoritma decision tree juga merupakan

1
1.2. Rumusan Masalah 𝑃(𝐵|𝐴)𝑃(𝐴)
Perumusan masalah pada penulisan paper ini 𝑃(𝐴|𝐵) = … … … … . (2)
𝑃(𝐵)
didasarkan pada bagaimana perbandingan dua
metode klasifikasi terhadap dataset iris_flowers.
Dengan demikian, perumusan masalah yang 3. PEMBAHASAN
akan dibahas dalam paper ini adalah sebagai 3.1. Proses Prepocessing
berikut : Sebelum data diuji menggunakan metode
1. Bagaimana perbandingan hasil klasifikasi tertentu, hal yang pertama dilakukan adalah
Decision Tree dan Naive Bayes terhadap dengan melakukan proses preprocessing data
dataset iris_flowers? dari keseluruhan dataset iris_flowers.
2. Bagaimana tingkat akurasi antara Decision Preprocessing merupakan tahapan awal dalam
Tree dengan Naïve Bayes?
mengolah data input sebelum memasuki proses
1.3. Batasan Masalah tahapan utama [5].
Batasan masalah dalam paper ini adalah
metode klasifikasi yang digunakan hanya dua
saja, yaitu Decision Tree dan Naïve Bayes.

2. LANDASAN TEORI
2.1. Decision Tree
Decision tree adalah algoritma yang paling
banyak digunakan untuk masalah klasifikasi.
Sebuah decision tree terdiri dari beberapa simpul
yaitu tree’s roo, internal nod dan leafs. Konsep
entropi digunakan untuk penentuan pada atribut
mana sebuah pohon akan terbagi (split).
Gambar 3.1 Prepocessing dataset pada weka
Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang Dari preprocessing, bisa didapatkan hasil
digunakan untuk menghitung entropy sampel S dari dataset iris_flowers sebagai berikut:
adalah [3] :
 Relation : iris
Entropy(S) = −p1log2p1–p2log2p2 ……(1)
 Instances : 150 (banyak data)
Pada persamaan 1, p1 adalah proporsi  Attributes : 5
sampel atau grup dan p2 adalah proporsi untuk
dataset berdasarkan attribute. Attribute yang dimiliki oleh dataset
iris_flowers adalah :
2.2. Naïve Bayes
 Sepal length (kelopak bunga)
Naïve Bayes adalah metode Bayesian
 Sepal width (kelopak bunga)
Learning yang paling cepat dan sederhana. Hal
ini berasal dari teorema Bayes dan hipotesis  Petal length (daun bunga)
kebebasan, menghasilkan klasifier statistik  Petal width (daun bunga)
berdasarkan peluang. Ini adalah teknik  Class terdiri dari :
sederhana, dan harus digunakan sebelum - Iris-setosa (jenis bunga iris)
mencoba metode yang lebih kompleks. - Iris-versicolor (jenis bunga iris)
Naïve Bayes dapat dirumuskan sebagai - Iris-virginica (jenis bunga iris)
berikut [4] : Berikut adalah hasil klasifikasi data training
dari dataset :

2
precision 0.1091 0.1091 0.1091
petal length

mean 1.4694 4.2452 5.5516

std. dev 0.1782 0.4712 0.5529

weight 50 50 50

precision 0.1405 0.1405 0.1405


petal width

mean 0.2743 1.3097 2.0343

std. dev 0.1096 0.1915 0.2646

weight 50 50 50

precision 0.1143 0.1143 0.1143


Gambar 3.2 Tampilan klasifikasi data training
Dari table di atas, tampak di setiap attribute
3.2. Proses Klasifikasi (Naïve Bayes) memiliki perbedaan nilai mean, std dev, weight,
dan precision untuk ketiga jenis bunga iris.
Kebenaran klasifikasi yang didapat
berjumlah 144 data dengan jumlah persentase
96%. Sedangkan ketidakbenaran berjumlah 6
data dengan persentase 4%.

Berikut adalah performa (akurasi) dari


algoritma naïve bayes pada dataset iris.

Tabel 3.2 Performa naïve bayes dataset iris


true iris true iris true iris class
Gambar 3.3. Hasil klasifikasi Naive Bayes setosa versicolor virginica percision
terhadap training set Pred. Iris
50 0 0 100%
Setosa
Pred. Iris
Dataset Iris_flowers memiliki 3 class fitur versicolor
0 49 1 96.00 %
bertype nominal, berikut tabel hasil klasifikasi Pred. Iris
0 2 48 98.00%
dari ketiga class bertype nominal yang terdapat virginica
pada dataset iris : Class
100% 98.00% 96.00%
recall
Tabel 3.1 Nilai klasifikasi dengan Naïve bayes
3.3. Proses Klasifikasi (Decision Tree)
Attribute Iris-setosa Iris-versicolor Iris-virginica
Setelah hasil naïve bayes didapat, maka
sepal length dicoba dengan menggunakan algoritma
mean 4.9913 5.9379 6.5795
pembanding yang lain yaitu dengan Decision
std. dev 0.355 0.5042 0.6353 Tree.
weight 50 50 50 Berikut hasil dari pohon Decision Tree yang
precision 0.1059 0.1059 0.1059 di dapat dari dataset iris:
sepal width

mean 3.4015 2.7687 2.9629

std. dev 0.3925 0.3038 0.3088

weight 50 50 50

3
Berikut adalah performa (akurasi) dari
algoritma decision tree pada dataset iris.

Tabel 3.3 Performa decision tree dataset iris


true iris true iris true iris class
setosa versicolor virginica percision
Pred. Iris
50 0 0 100%
Setosa
Pred. Iris
0 49 1 96.00 %
versicolor
Pred. Iris
0 2 48 98.00%
virginica
Class
100% 98.00% 96.00%
recall

Gambar 3.4 Pohon/Tree dari dataset iris


4. ANALISA PEMBAHASAN
Dari pohon diatas, terdapat jumlah
keseluruhan pohon (size of the three) sebanyak Dari hasil yang didapat dari kedua metode
9. Kemudian jumlah simpul daun (number of yang telah mengklasifikasikan dataset
leaves) ada 5 buah. Jika dirincikan maksud dari iris_flowers, bahwasanya tingkat kebenaran
pohon tersebut maka : lebih baik ada pada algoritma Decision Tree
dengan presentase 98% ketimbang metode naïve
bayes dengan presentase 96%.
Untuk peforma yang didapat yang ada pada
table 3.2 dan table 3.3, hasilnya untuk kedua
metode memiliki nilai true dan prediction yang
sama serta nilai class recall dan class precision
juga sama.

5. KESIMPULAN
Kesimpulan untuk perbandingan dua
algoritma ini adalah secara keseluruhan, kinerja
algoritma decision tree lebih baik dibandingkan
dengan algoritma naïve bayes. Kinerja decision
tree masih tetap unggul ketika pengujian
dilakukan pada dataset iris_flowers dengan class
yang berbeda.
Gambar 3.4.Hasil klasifikasi Decision Tree Dari beberapa algoritma klasifikasi terbaik
terhadap training set menurut Wu et al (2007)[6], yaitu C4.5, SVM,
serta Naïve Bayes. Kesemuanya merupakan
Kebenaran klasifikasi yang didapat algoritma dengan best classification karena
berjumlah 147 data dengan jumlah persentase akurasi dari kedua algoritma diatas
98%. Sedangkan ketidakbenaran berjumlah 3 menunjukkan akurasi correct berada diatas 90%.
data dengan persentase 2%.

4
6. DAFTAR PUSTAKA
[1] Abidin, Taufik Fuadi, “Naive Bayesian
Classifier”, Jurusan Informatika Unsyiah,
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah.

[2] Prakash P. Shenoy dan Lili Sun. Using


bayesian networks for bankruptcy prediction :
Some methodological issues. In European
Journal of Operational Research, volume 18,
pages 738– 753, 2007.

[3] Budi Santosa. Data Mining, Teknik


Pemanfaatan Data untuk Keperluan Bisnis.
Graha Ilmu, Yogyakarta, 2007.
[4] A.W, Ebranda, Mardiani, Tinaliah,
“Penerapan Metode Naive Bayes untuk Sistem
Klasifikasi SMS pada Smartphone Android”,
Teknik Informatika STMIK MDP.

[5] D. T. Larose, Discovering Knowledge in


Data: an Introduction to Data Mining. John
Wiley & Sons, 2005.
[6] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh,
Q. Yang, H. Motoda, G. J. Mclachlan, A. Ng, B,
Liu, P. S. Yu, Z.Z. Michael, S. David, and J. H.
Dan, Top 10 algorithms in data mining. 2007,
pp.1-37.
[7] A. Christobel and D. Sivaprakasam, “An
Empirical Comparison of Data Mining
Classification Methods,” vol. 3, no. 2, pp. 24-28,
2011

5
6

Anda mungkin juga menyukai