Oleh:
Hairani
Latar Belakang 2
Data mining adalah suatu proses untuk menemukan pola informasi yang berharga
dari sekumpulan data yang tersimpan pada data warehouse dengan menggunakan
teknik statistik dan matematika. (Larose, 2005)
Kelemahan metode naive bayes classifier adalah proses klasifikasi metode naive
bayes classifier hanya berdasar pada prior probability dan probability attribute. Salah
satu hal yang berpotensi untuk meningkatkan akurasi dari metode nave bayes
classifier adalah nilai korelasi atribut terhadap kelas.
Untuk mengatasi kelemahan dari metode nave bayes classifier tersebut, muktamar
dkk, mengembangkan metode Correlated-naive bayes classifier atau C-NBC. C-NBC
merupakan sebuah pengembangan dari metode Naive bayes classfier (NBC) dengan
menambahkan parameter korelasi antar atribut terhadap kelas. Dengan
memperhitungkan nilai korelasi dari masing-masing atribut vektor X terhadap kelas Y
sehingga dapat meningkatkan akurasi.
Tujuan Penelitian 3
Diwandari & Membandingkan kinerja dari metode klasifikasi yang J48, NBTree
Setiawan berbeda untuk memilih satu metode dengan hasil
yang paling akurat untuk klasifikasi penyakit
Soybean
Alfisaharin & Membandingkan kinerja dari metode klasifikasi yang Naive Bayes, NBTree, dan Decision Tree
Mantoro berbeda untuk memilih satu metode dengan hasil
yang paling akurat untuk klasifikasi penyakit Liver
Burhan Alfironi M, Meningkatkan tingkat akurasi algoritme Nave Bayes Correlated Naive Bayes Classifier (C-NBC), Naive
dkk Classifier dengan memperhitungkan nilai korelasi Bayes Classifier (NBC
dari masing-masing attribute terhadap kelas.
Tinjauan Pustaka (Lanjutan)
5
Burhan Alfironi M, dkk Membandingkan kehandalan antara algoritme Algoritme Klasifikasi data mining
NBC dan C-NBC yang diukur berdasarkan yaitu NBC dan C-NBC
tingkat akurasinya pada Dataset Iris, Dataset
Balance Scale, Dataset Haberman, dan
Dataset Servo.
Metode NBC dan C-NBC (Lanjutan)
Dengan : dengan :
P(X|Y) : probabilitas hipotesis Y berdasarkan
: R Square setiap atribut dari data X berdasarkan
kondisis Y.
P(X) : probabilitas dari X kondisi hipotesis Y
P(Y) : probabilitas awal hipotesis Y (prior : bilangan laplacian
probabilioty)
: probabilitas setiap atribut dari data
X berdasarkan kondisi hipotesis Y
Metodologi Penelitian
7
Pengukuran
Pengumpulan Pre-Processing Klasifikasi data
Kinerja
dataset - Transformasi Data ke menggunakan algoritme
Berdasarkan
tipe Numeric NBC dan C-NBC
Akurasi
Pengumpulan Dataset 7
2. Haberman 306 3 2
Data Pre-Processing 9
Metode Klasifikasi
Pengukuran Kinerja
Akurasi
Hasil Penelitian 12
Gambar 5. Perbandingan Akurasi Metode C-NBC dan NBC pada Dataset Pima
Indians Diabetes
Kesimpulan 14
Untuk tingkat akurasi algoritme C-NBC memberikan hasil yang terbaik jika
dibandingkan dengan algoritme NBC untuk kedua dataset yang digunakan.
Nilai akurasi yang diperoleh sebesar 67,9% untuk dataset pima indian
diabetes.
Nilai akurasi yang diperoleh sebesar 75,7% untuk dataset haberman.
15
Terima Kasih