Jurnal Data Mining Fix
Jurnal Data Mining Fix
Wahyu Ramadhan
Roni Ubay Yashi
Prodi Teknik Informatika
Jurusan Teknologi Informasi dan Komputer
Politeknik Negeri Lhokseumawe
Buket rata, Lhokseumawe
Telp (+62)85206571041
Email : wahyurama10@gmail.com
ABSTRAK
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Kinerja
algoritma data mining menjadi satu pertimbangan dalam pemilihan algoritma untuk memprediksi
dataset. Penelitian ini mengukur kinerja dan membandingkan hasil pengukuran tingkat akurasi algoritma
decision tree dan naïve bayes pada dataset iris_flowers. Hasil pengukuran menunjukkan persentase
akurasi dan eror dari data training dan data tes yang digunakan. Kinerja setiap algoritma diukur
berdasarkan persentase akurasi dan error. Jumlah data sampel yang digunakan ada 150 dataset iris
yang terdiri dari 50 iris-setosa, 50 iris-versicolor, dan 50 iris-virginica. Memiliki 5 attribute data. Alat
bantu yang digunakan adalah WEKA 3.8
Kata Kunci : Decision Tree, Naive Bayes, Iris_Flowers
1
1.2. Rumusan Masalah 𝑃(𝐵|𝐴)𝑃(𝐴)
Perumusan masalah pada penulisan paper ini 𝑃(𝐴|𝐵) = … … … … . (2)
𝑃(𝐵)
didasarkan pada bagaimana perbandingan dua
metode klasifikasi terhadap dataset iris_flowers.
Dengan demikian, perumusan masalah yang 3. PEMBAHASAN
akan dibahas dalam paper ini adalah sebagai 3.1. Proses Prepocessing
berikut : Sebelum data diuji menggunakan metode
1. Bagaimana perbandingan hasil klasifikasi tertentu, hal yang pertama dilakukan adalah
Decision Tree dan Naive Bayes terhadap dengan melakukan proses preprocessing data
dataset iris_flowers? dari keseluruhan dataset iris_flowers.
2. Bagaimana tingkat akurasi antara Decision Preprocessing merupakan tahapan awal dalam
Tree dengan Naïve Bayes?
mengolah data input sebelum memasuki proses
1.3. Batasan Masalah tahapan utama [5].
Batasan masalah dalam paper ini adalah
metode klasifikasi yang digunakan hanya dua
saja, yaitu Decision Tree dan Naïve Bayes.
2. LANDASAN TEORI
2.1. Decision Tree
Decision tree adalah algoritma yang paling
banyak digunakan untuk masalah klasifikasi.
Sebuah decision tree terdiri dari beberapa simpul
yaitu tree’s roo, internal nod dan leafs. Konsep
entropi digunakan untuk penentuan pada atribut
mana sebuah pohon akan terbagi (split).
Gambar 3.1 Prepocessing dataset pada weka
Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang Dari preprocessing, bisa didapatkan hasil
digunakan untuk menghitung entropy sampel S dari dataset iris_flowers sebagai berikut:
adalah [3] :
Relation : iris
Entropy(S) = −p1log2p1–p2log2p2 ……(1)
Instances : 150 (banyak data)
Pada persamaan 1, p1 adalah proporsi Attributes : 5
sampel atau grup dan p2 adalah proporsi untuk
dataset berdasarkan attribute. Attribute yang dimiliki oleh dataset
iris_flowers adalah :
2.2. Naïve Bayes
Sepal length (kelopak bunga)
Naïve Bayes adalah metode Bayesian
Sepal width (kelopak bunga)
Learning yang paling cepat dan sederhana. Hal
ini berasal dari teorema Bayes dan hipotesis Petal length (daun bunga)
kebebasan, menghasilkan klasifier statistik Petal width (daun bunga)
berdasarkan peluang. Ini adalah teknik Class terdiri dari :
sederhana, dan harus digunakan sebelum - Iris-setosa (jenis bunga iris)
mencoba metode yang lebih kompleks. - Iris-versicolor (jenis bunga iris)
Naïve Bayes dapat dirumuskan sebagai - Iris-virginica (jenis bunga iris)
berikut [4] : Berikut adalah hasil klasifikasi data training
dari dataset :
2
precision 0.1091 0.1091 0.1091
petal length
weight 50 50 50
weight 50 50 50
weight 50 50 50
3
Berikut adalah performa (akurasi) dari
algoritma decision tree pada dataset iris.
5. KESIMPULAN
Kesimpulan untuk perbandingan dua
algoritma ini adalah secara keseluruhan, kinerja
algoritma decision tree lebih baik dibandingkan
dengan algoritma naïve bayes. Kinerja decision
tree masih tetap unggul ketika pengujian
dilakukan pada dataset iris_flowers dengan class
yang berbeda.
Gambar 3.4.Hasil klasifikasi Decision Tree Dari beberapa algoritma klasifikasi terbaik
terhadap training set menurut Wu et al (2007)[6], yaitu C4.5, SVM,
serta Naïve Bayes. Kesemuanya merupakan
Kebenaran klasifikasi yang didapat algoritma dengan best classification karena
berjumlah 147 data dengan jumlah persentase akurasi dari kedua algoritma diatas
98%. Sedangkan ketidakbenaran berjumlah 3 menunjukkan akurasi correct berada diatas 90%.
data dengan persentase 2%.
4
6. DAFTAR PUSTAKA
[1] Abidin, Taufik Fuadi, “Naive Bayesian
Classifier”, Jurusan Informatika Unsyiah,
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah.
5
6