Anda di halaman 1dari 12

JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO.

1 JUNI 2015

ANALISA DATA MINING UNTUK PREDIKSI PENYAKIT HEPATITIS DENGAN


MENGGUNAKAN METODE NAIVE BAYES DAN SUPPORT
VECTOR MACHINE

Eka Wulansari Fridayanthie


Program studi Manajemen Informatika AMIK “BSI Jakarta”
Jl. RS Fatmawati No. 24 Pondok Labu, Jakarta Selatan. Indonesia
Email : eka.ewf@bsi.ac.id

ABSTRACT
In the case of hepatitis disease prediction has been solved by a method using Support Vector
Machine (SVM) .Penyakit hepatitis is an inflammatory disease of the liver due to viral infection
that attacks and cause damage to cells and organs function hati.Penyakit forerunner hepatitis is a
disease of the liver cancer. Attributes or variables that have as many as 20 attributes which
consists of 19 attributes preditor and 1 as the output destination attribute used to differentiate the
results of the examination. Invene dataset from the University of California (UCI) Machine
Learning Repository 583 as the data used and replace missing after the data is used only to
evaluate the data 153 SVMyang approach proposed in the study ini.Hasil simulations showed that
by developing this model achieved a reduction in dimensions and identification hati.Salah cancer
of the optimization algorithm is quite popular is Naïve Bayes. In this study, will be used also
classification algorithm Support Vector Machine (SVM) will be used to establish a predictive
classification model of hepatitis.

Keywords : Hepatitis,Naïve Bayes , Support Vector Machine

I. PENDAHULUAN negara pada umumnya untuk prediksi


Diagnosis medis dipandang sebagai penyakit hepatitis.
tugas penting namun rumit yang perlu Hasil penelitian ini dapat digunakan
dijalankan secara tepat dan efisien. sebagai rekomendasi dan masukan bagi
Otomatisasi sistem ini akan sangat ahli kesehatan dalam membuat prediksi
mengutungkan. Namun, sayangnya penyakit hepatitis,Membantu
semua dokter tidak memiliki keahlian administrasi perguruan tinggi untuk
khusus dalam setiap bagian keahlian memberikan peringatan dini dan
dan terlebih lagi ada kekurangan dari pembimbingan awal bagi mahasiswa
nara sumber di tempat tertentu (Ansari, yang kemungkinan tidak lulus tepat
dkk, 2011: 43). Oleh karena itu, sistem waktu.Ruang lingkup penelitian ini
diagnosis otomatis secara medis terbatas pada penggunaan metode
mungkin akan sangat bermanfaat Support Vector Machine dan Naïve
dengan membawa semua hal itu. Sesuai Bayes, dalam memprediksi penyakit
informasi berbasis komputer dan/atau hepatitis dan melakukan perbandingan
sistem pendukung keputusan dapat akurasi kedua metode tersebut.
membantu dalam mencapai pengujian Parameter yang diuji pada data adalah
klinis dengan biaya yang terjangkau. age, sex, steroid, antivirals, fatigue, malaise,
Tujuan penelitian ini adalah melakukan anorexia, liver_big, liver_firm,
analisia dan komparasi metode spleen_palpable, spdiders, ascites, varices,
klasifikasi data mining sehingga bilirubin, alk_phosphate, sgot, albumin,
diperoleh metode yang paling akurat di protime, histology, dan class (atribut hasil
prediksi).

24
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

II. LANDASAN TEORI variabel ke 13 dalam kelas yang sudah


2.1. Pengertian Penyakit Hepatitis ditentukan (Larose, 2005:95). Data
Hepatitis merupakan penyakit mining mampu mengolah data dalam
yang menimbulkan peradangan pada jumlah besar, setiap data terdiri dari
hati (liver), kadang-kadang kelas tertentu bersama dengan variable
menyebabkan kerusakan dan faktor faktor penentu kelas variabel
permanen.Penyakit ini sering tersebut.Dengan data mining, peneliti
disebabkan oleh virus dan zat-zat kimia dapat menentukan suatu kelas dari
tertentu yang masuk ke hati, termasuk variabel data yang dimiliki.
obat-obatan dan alkohol. Virus hepatitis
juga ada beberapa jenis yang menyerang 2.4. Pengujian K-Fold Cross Validation
hati, tepatnya pada sel-sel hati. Cross Validation adalah teknik
Peradangan ini, paling sering validasi dengan membagi data secara
disebabkan oleh virus, walaupun dapat acakkedalam k bagian dan masing-
juga oleh sebab-sebab lain. Berkaitan masing bagian akan dilakukan proses
dengan virus yang menyerang dan klasifikasi(Han & Kamber, 2007).
kondisi penyakit, hepatitis digolongkan Dengan menggunakan cross validation
sebagai berikut : akan dilakukanpercobaan sebanyak k.
1. Hepatitis A (Hepatitis Infeksi) Data yang digunakan dalam percobaan
2. Hepatitis B (Hepatitis Serum) ini adalah datatraining untuk mencari
3. Hepatitis C (Hepatitis Non-A/Non- nilai error rate secara keseluruhan.
B) Secara umum pengujian nilai k
4. Hepatitis D (Hepatitis Delta) dilakukan sebanyak 10 kali untuk
5. Hepatitis E (Hepatitis Enterik) memperkirakan kurasiestimasi. Dalam
6. Hepatitis F penelitian ini nilai k yang digunakan
7. Hepatitis G berjumlah 10 atau 10-foldCross Validation.
8. Hepatitis Kronis
2.5. Algoritma Support Vector Machine
2.2. Data Mining Support Vector Machine (SVM)
Menurut Witten data mining adalah diperkenalkan oleh Vapnik, Boser dan
pemecahan masalah dengan Guyon pada tahun 1992.SVM
menganalisa data yang sudah ada merupakan salah satu teknik yang
sebelumnya, dan didefinisikan sebagai relatif baru dibandingkan dengan teknik
proses dari penemuan pola pada suatu lain, tetapi memiliki performansi yang
data (Witten,dkk,2011, :39) Menurut lebih baik di berbagai bidang aplikasi
Gartner Group data mining adalah seperti bioinformatika, pengenalan
suatu proses menemukan hubungan tulisan tangan, klasifikasi teks,
yang berarti, pola dan kecenderungan klasifikasi diagnosis penyakit dan lain
dengan memeriksa dalam sekumpulan sebagainya (Feng-Chia, 2009). Dalam
besar data yang tersimpan dalam kata lain, hanya sejumlah titik penting
penyimpanan dengan menggunakan untuk klasifikasi tujuan dalam kerangka
teknik statistik dan matematika (Larose, svm dan dengan demikian harus
2005:11). diambil (Huang, Yang, King, & Lyu,
2008).Support Vector Machine (SVM)
2.3. Algoritma Klasifikasi adalah metode learning machine yang
Klasifikasi merupakan salah satu bekerja atas prinsip Structural Risk
tujuan yang banyak dihasilkan dalam Minimization (SRM) dengan tujuan
data mining. Klasifikasi merupakan menemukan hyperplane terbaik yang
proses pengelompokkan sebuah memisahkan dua buah class pada input

26
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

space (Bellotti & Crook, 2007).Hyperplane itu sering sangat baik: Ini mungkin
terbaik adalah hyperplane yang terletak bukan classifier terbaik dalam setiap
ditengah-tengah antara dua set obyek diberikan aplikasi, tetapi biasanya dapat
dari dua class. Hyperplane pemisah diandalkan untuk menjadi kuat dan
terbaik antara kedua class dapat melakukan dengan sangat baik (Wu,
ditemukan dengan mengukur margin 2009).
hyperplane tersebut dan mencari titik
maksimalnya.Margin adalah jarak 2.7. Confusion matrix
antara hyperplane tersebut dengan Confusion matrix memberikan
pattern terdekat dari masing-masing keputusan yang diperoleh dalam traning
class.Pattern yang paling dekat ini dan testing, confusion matrix memberikan
disebut sebagai support vector (Aydin, penilaian performance klasifikasi
Karakose & Akin, 2011). berdasarkan objek dengan benar atau
salah (Gorunescu, 2011).Confusion matrix
2.6. Naive Bayes berisi informasi aktual (actual) dan
Klasifikasi Bayes juga dikenal prediksi (predicted) pada sistem
dengan Naïve Bayes, memiliki klasifikasi.
kemampuan sebanding dengan dengan
pohon keputusan dan Neural Network Tabel 1. Confusion Matrix
(Han & Kamber, 2007). Klasifikasi Bayes Classification Predicted Class
adalah pengklasifikasian statistik yang Observed Class = Class = No
dapat digunakan untuk memprediksi Yes
probabilitas keanggotaan suatu kelas Class
(Kusrini, 2009). Naïve Bayes dapat Class a b
= Yes true (false
menggunakan penduga kernel
positive - negative -
kepadatan, yang meningkatkan kinerja
TP) FN)
jika asumsi normalitas sangat tidak Class c d
benar, tetapi juga dapat menangani = No (false (true
atribut numeric menggunakan positive - negative -
diskritisasi diawasi (Witten & Frank, FP) TN)
2011). Teknik Naïve Bayes (NB) adalah
salah satu bentuk sederhana dari Keterangan:
Bayesian yang jaringan untuk klasifikasi. True Positive (TP) = proporsi positif
Sebuah jaringan Bayes dapat dilihat dalam data set yang diklasifikasikan
sebagai diarahkan sebagai tabel dengan positif.
distribusi probabilitas gabungan lebih
dari satu set diskrit dan variabel True Negative (TN) = proporsi negative
stokastik (Pearl 1988) (Liao, 2007). dalam data set yang diklasifikasikan
Metode ini penting karena beberapa negative.
alasan, termasuk berikut. Hal ini sangat
mudah untuk membangun, tidak perlu False Positive (FP) = proporsi negatif
ada yang rumit Parameter estimasi dalam data set yang diklasifikasikan
skema berulang. Ini berarti dapat segera potitif.
diterapkan untuk besar Data set. Sangat
mudah untuk menafsirkan, sehingga FalseNegative (FN) = proporsi negative
pengguna tidak terampil dalam dalam data set yang diklasifikasikan
teknologi classifier dapat memahami negatif.
mengapa itu adalah membuat klasifikasi
itu membuat. Dan, sangat penting, hal

27
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

Berikut adalah persamaan model positives sebagai garis horisontal dan


confusion matrix (Han & Kamber, 2006): true positives sebagai garis vertikal
(Vecellis, 2009). Dengan kurva ROC, kita
a. Nilai Accuracy adalah proporsi dapat melihat trade off antara tingkat
jumlah prediksi yang benar. Dapat dimana suatu model dapat mengenali
dihitung tuple positif secara akurat dan tingkat
dengan menggunakan persamaan: dimana model tersebut salah mengenali
Accuracy = TP + TN tuple negatif sebagai tuple positif.
TP + TN + FP + FN Sebuah grafik ROC adalah plot dua
dimensi dengan proporsi positif salah
b. Sensitivity digunakan untuk (fp) pada sumbu X dan proporsi positif
membandingkan proporsi TP benar (tp) pada sumbu Y. Titik (0,1)
terhadap tupel yang positif, yang merupakan klasifikasi yang sempurna
dihitung dengan menggunakan terhadap semua kasus positif dan kasus
persamaan: negatif. Nilai positif salah adalah tidak
Sensitivity = TP ada (fp = 0) dan nilai positif benar
TP + FN adalah tinggi (tp = 1). Titik (0,0) adalah
klasifikasi yang memprediksi setiap
c. Specificity digunakan untuk kasus menjadi negatif {-1}, dan titik (1,1)
membandingan proporsi TN adalah klasifikasi yang memprediksi
terhadap tupel yang negatif, yang setiap kasus menjadi positif {1}.
dihitung dengan menggunakan Grafik ROC menggambarkan trade-
persamaan: off antara manfaat (true positive) dan
Specificity = TN biaya (false positives). Berikut tampilan
TN + FP dua jenis kurva ROC (discrete dan
continous).
d. PPV (positive predictive value) adalah
proporsi kasus dengan hasil
diagnosa
positif, yang dihitung dengan
menggunakan persamaan:
PPV = TP
TP + FP

e. NPV (negative predictive value)


adalah proporsi kasus dengan hasil
diagnosa Gambar 1. Grafik ROC (discrete dan
negatif, yang dihitung dengan continous) (Gorunescu, 2011)
menggunakan persamaan:
PPV = TN
TN + FN Poin diatas garis diagonal
merupakan hasil klasifikasi yang baik,
sedangkan point dibawah garis
2.8. Kurva ROC diagonal merupakan hasil klasifikasi
Kurva ROC (Receiver Operating yang buruk. Dapat disimpulkan bahwa,
Characteristic) adalah alat visual yang satu point pada kurva ROC adalah lebih
berguna untuk membandingkan dua baik dari pada yang lainnya jika arah
model klasifikasi. ROC garis melintang dari kiri bawah ke
mengekspresikan confusion matrix. ROC kanan atas didalam grafik.
adalah grafik dua dimensi dengan false

28
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

Untuk tingkat akuransi nilai AUC disebut dengan sumber primer,


dalam klasifikasi data mining dibagi sedangkan apabila melalui tangan
menjadi lima kelompok (Gorunescu, kedua disebut sumber sekunder
2011), yaitu: (Riduwan, 2008). Data pertama yang
1. 0.90 - 1.00 = klasifikasi sangat baik diperolah adalah data sekunder karena
(excellent classification) diperoleh dari UCI (Universitas
2. 0.80 - 0.90 = klasifikasi baik (good California, Invene) Machine Learning
classification) Repository dengan alamat web
3. 0.70 - 0.80 = klasifikasi cukup (fair http://archive.ics.uci.edu/ml/machine-
classification) learning-databases/hepatitis/.
4. 0.60 - 0.70 = klasifikasi buruk (poor Data yang dikumpulkan adalah
classification) data pemeriksaan pasien penyakit
5. 0.50 - 0.60 = klasifikasi salah (failure) hepatitis oleh G. Gong (Carnegie –
Mellon University) di Yugoslavia pada
III. METODE PENELITIAN November 1988. Data terkumpul
Dalam menyelesaikan penelitian, sebanyak 155 data dengan 123 pasien
penulis membuat sebuah kerangka penyakit hepatitis yang hidup dan 32
pemikiran yang berguna sebagai pasien penyakit hepatitis yang mati
pedoman atau acuan penelitian ini dengan atribut age, sex, steroid, antivirals,
sehingga penelitian dapat dilakukan fatigue, malaise, anorexia, liver_big,
secara konsisten. Penelitian ini terdiri liver_firm, spleen_palpable, spiders, ascites,
dari beberapa tahap seperti terlihat pada varices, bilirubin, alk_phosphate, sgot,
gambar 1. Permasalahan pada albumin, protime, histology, dan class
penelitian ini adalah belum (atribut hasil prediksi)
diketahuinya metode yang tepat dengan
akurasi terbaik untuk prediksi penyakit 3.2. Pengolahan Data Awal
hepatitis. Data yang diperoleh untuk
Untuk itu metode yang digunakan penelitian ini sebanyak 155 record pasien
yaitu Naïve Bayes, dan Support Vector pemeriksaan penyakit hepatitis baik
Machine untuk memecahkan masalah yang hidup atau mati dan data kedua
dilakukan pengujuan terhadap kinerja yaitu 538 record pasien pemeriksaan
ketiga metode tersebut. Pengujian penyakit hati baik yang terdeteksi sakit
metode dilakukan dengan cara atau tidak . Tetapi dalam data tersebut
confusion matrix dan kurva ROC. Untuk masih mengandung duplikasi dan
mengembangkan aplikasi berdasarkan anomali atau inkonsisten data maka
metode yang dibuat, digunakan tools dengan ini dilakukan replace missing.
RapidMiner. Berikut Tahapan-tahapan
yang dilakukan pada penelitian ini : 3.3. Model atau Metode yang
Diusulkan
3.1. Pengumpulan Data Dalam penelitian ini akan dilakukan
Teknik pengumpulan data ialah analisis komparasi menggunakan tiga
teknik atau cara-cara yang dapat metode klasifikasi data mining. Metode
digunakan untuk menggunakan data yang diusulkan untuk pengolahan data
(Riduwan, 2008). Dalam pengumpulan mahasiswa adalah pengunaan
data terdapat sumber data, sumber data Algoritma C4.5, Naïve Bayes dan Neural
yang dihimpun langsung oleh peneliti
Network. Data diolah sesuai dengan menggunakan metode Algoritma C4.5,
algoritmanya masing-masing, yakni Naïve Bayes dan Neural Network, setelah
data penyakit hepatitis diolah diolah dan menghasilkan model, maka

29
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

terhadap model yang dihasilkan b. Support Vector Machine yaitu metode


tersebut dilakukan pengujian metode learning machine yang bekerja
menggunakan K-Fold Cross Validation, atas prinsip Structural Risk
kemudian dilakukan evaluasi dan Minimization (SRM) dengan tujuan
validasi hasil dengan confusion matrix menemukan hyperplane terbaik yang
dan kurva ROC. Tahap selanjutnya memisahkan dua buah class pada
adalah membandingkan hasil akurasi input space
dan AUC dari setiap model, sehingga
diperoleh model dari metode klasifikasi IV. PEMBAHASAN
yang mana yang memperoleh nilai 4.1. Pengolahan Data Awal
akurasi dan AUC tertinggi. Data yang diperoleh untuk
Hasil pengujian dengan akurasi penelitian ini sebanyak 155 record pasien
yang paling tinggi adalah metode yang pemeriksaan penyakit hepatitis baik
akan digunakan untuk prediksi yang hidup atau mati dan data kedua
penyakit hepatitis. Berikut gambaran yaitu 538 record pasien pemeriksaan
kateristik dari masing-masing metode: penyakit hati baik yang terdeteksi sakit
a. Naïve Bayes yaitu metode yang atau tidak . Tetapi dalam data tersebut
menghitung probabilitas antara masih mengandung duplikasi dan
kemunculan data yang satu dengan anomali atau inkonsisten data maka
data yang lainnya. dengan ini dilakukan replace missing.

Tabel 2. Missing Data pada Data Training

Parameter-parameter di atas akan memecahkan masalah walaupun


dapat mudah diketahui dengan dengan sampel yang terbatas.
menggunakan tools dari software eksperimen menggunakan metode
framework RapidMiner versi 5.3.005. support vector machine menghasilkan
Pada penelitian ini Support Vector tingkat akurasi sebesar 75.30 % dan
Machine (SVM) digunakan karena mempunyai nilai AUC sebesar 0.780.
diketahui dari hasil penelitian Dari hasil tersebut diketahui bahwa
sebelumnya bahwa Support Vector keberhasilan dari Support Vector Machine
Machine (SVM) memiliki kemampuan (SVM) sangat dipengaruhi oleh
generalisasi yang sangat baik untuk pemilihan atribut yang tepat. Semakin

31
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

banyak atribut dan informasi yang swarm optimization beracuan pada nilai
digunakan akan mengakibatkan weight pada algoritma tersebut. Setelah
banyaknya waktu dan biaya yang ditemukan nilai akurasi yang paling
dikorbankan bahkan akan mengurangi ideal dari parameter tersebut langkah
tingkat akurasi dan kompleksitas yang selanjutnya adalah menentukan nilai
lebih tinggi. weight,sehingga terbentuk struktur
Mengingat pentingnya seleksi algoritma yang ideal untuk pemecahan
atribut dalam Support Vector Machine masalah tersebut.
(SVM) maka diterapkan Particle swarm Berdasarkan Tabel tersebut
optimization (PSO) untuk melakukan menunjukan bahwa, tingkat akurasi
tugas tersebut. Particle swarm dengan menggunakan algoritma SVM
optimization (PSO) diketahui dapat adalah sebesar 68,42%, dan dapat
digunakan sebagai teknik optimasi dihitung untuk mencari nilai accuracy,
untuk mengoptimalkan subset fitur. sensitivity, specificity, ppv, dan npv
Algoritma PSO sederhana dan memiliki hasilnya dan dapat dihitung untuk
kompleksitas yang lebih mencari nilai accuracy, sensitivity,
rendah.sehingga dapat memastikan specificity, ppv, dan npv pada
solusi optimal dengan menyesuaikan persamaan dibawah ini:
pencarian global dan lokal, sehingga Accuracy = TP + TN
kinerja klasifikasi Support Vector Machine = 77 + 29 = 0.6838
(SVM) dapat ditingkatkan. TP + TN + FP + FN 77 + 29 + 8 + 41
Eksperiment dilakukan kembali Sensitivity = TP = 77 = 0.6525
dengan menerapkan Particle swarm TP + FN 77+ 41
optimization (PSO) untuk seleksi atribut Specificity = TN = 29 = 0.7838
dalam Support Vector Machine (SVM) dan TN + FP 29 + 8
dilakukan penyesuaian pada parameter PPV = TP = 77 = 0.9058
C, ε dan population. Dari 20 variabel TP + FP 77+ 8
prediktor dilakukan seleksi atribut NPV = TN = 29 = 0.4142
sehingga menghasikan terpilihnya 15 TN + FN 29 + 41
atribut yang dihasilkan.

Tabel 3. Nilai Accuracy, Sensitivity,


4.2. Evaluasi dan Validasi Hasil
Specificity, ppv dan npv Metode svm
Model yang diusulkan pada
Nilai (%)
penelitian tentang prediksi penyakit
hepatitis adalah dengan menerapkan Accuracy 68.38
support vector machine dan support vector Sensitivity 65.25
machine berbasis Particle swarm Specificity 78.38
optimization. Penerapan algoritma PPV 90.58
support vector machine dengan NPV 41.42
menentukan nilai weight terlebih
dahulu. Setelah didapatkan nilai akurasi 4.3. Hasil Pengujian Metode Support
dan AUC terbesar, nilai weight tersebut Vector Machine
akan dijadikan nilai yang akan 1. Confusion Matrix
digunakan untuk mencari nilai akurasi Tabel 4. menunjukkan hasil dari
dan AUC tertinggi. confusion matrix metode support
Sedangkan penerapan algoritma vector machine
support vector machine berbasis Particle

31
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

Tabel 4. Hasil Confusion Matrix untuk Metode Support Vector Machine


Accuracy :68.42 %
True: NO True:YES Precision
Pred. NO 77 41 71.64%
Pred. YES 8 29 89.81%
Class recall 90.58% 41.43%

2. Kurva ROC Gambar yang merupakan kurva


Hasil perhitungan divisualisasikan ROC untuk algoritma Support Vector
dengan kurva ROC. Perbandingan Machines.
kedua class bisa dilihat pada

Gambar 2. Kurva ROC dengan Metode Support Vector Machines

Kurva ROC pada gambar 2 Hasil pengujian dengan


mengekspresikan confusion matrix dari menggunakan model Support Vector
Gambar Garis horizontal adalah false Machine didapatkan hasil pada table.
positives dan garis vertikal true positives. 1. Confusion Matrix
Menghasilkan nilai AUC (Area Under Tabel diketahui dari 153 data, 33
Curve) sebesar 0.726 dengan nilai diklasifikasikan ya sesuai dengan
akurasi klasifikasi cukup (fair prediksi yang dilakukan dengan metode
classification). SVM berbasis Particle Swarm
Optimization (PSO), lalu 7 data
4.4. Hasil Pengujian Model Support diprediksi ya tetapi ternyata hasilnya
Vector Machine berbasis prediksi tidak, 33 data diprediksi tidak
Algoritma Particle Swarm ternyata hasil prediksinya.
Optimization (PSO)
Tabel 5. Model Confusion Matrix untuk Metode Support Vector Machine Berbasis Naïve
Bayes
Accuracy :83.71 %
True: NO True: YES Precision
Pred. YES 106 8 92.98%
Pred. NO 17 24 56.54%
Class recall 86.18% 75.00%

32
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

Berdasarkan Tabel 5 tersebut Tabel 6. Nilai accuracy, sensitivity,


menunjukan bahwa, tingkat akurasi specificity, ppv, dan npv Metode Support
dengan menggunakan algoritma SVM Vector Machine berbasis Particle Swarm
berbasis Naïve Bayes adalah sebesar Optimization
8.,71%, dan dapat dihitung untuk Nilai (%)
mencari nilai accuracy, sensitivity, Accuracy 83.71
specificity, ppv, dan npv hasilnya dan Sensitivity 67.82
dapat dihitung untuk mencari nilai Specificity 82.50
accuracy, sensitivity, specificity, ppv, dan PPV 91.76
npv pada persamaan dibawah ini: NPV 47.14

Accuracy = TP + TN
= 78 + 33
2. Kurva ROC
= 0.7161
Hasil perhitungan divisualisasikan
TP + TN + FP + FN = 78 + 33 + 7
dengan kurva ROC.Perbandingan
+ 37
kedua metode komparasi bisa
dilihat pada Gambar 3 yang
Sensitivi = TP = 78 = 0.6782
merupakan kurva ROC untuk
ty
algoritma Support Vector Machines
TP + FN 78+ 37 berbasis Naïve Bayes .Kurva ROC
Specificit = TN = 33 = 0.8250 pada gambar 3 mengekspresikan
y confusion matrix dari Tabel 4. Garis
TN + FP 33 + 7 horizontal adalah false positives dan
PPV = TP = 78 = 0.9176 garis vertikal true positives
TP + FP 78+ 7
NPV = TN = 33 = 0.4714
TN + FN 33 + 37

Gambar 3. Kurva ROC dengan Metode Support Vector Machines berbasis Naïve Bayes

Dari Gambar 3 terdapat grafik ROC 3. Atribute weight


dengan nilai AUC (Area Under Curve) Hasil Atribute weight yang didapat
sebesar 0.812 dimana diagnosa hasilnya dari penelitian ini adalah tidak ada
Fair classification atribut yang bernilai 0 (nol) atau yang
tidak berpengaruh,jadi semua atribut
berpengaruh pada pada penelitian ini.

33
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

Tabel 7. Perbandingan Performance untuk model algoritma SVM berbasis


Metode Dataset Naïve Bayes sebesar 71.62 % dengan
SVM Naïve Bayes selisih akurasi 3.24%,
Accuracy 68.42% 83.71% Untuk evaluasi menggunakan ROC
AUC 0,732 0.812 curve sehingga menghasilkan nilai AUC
(Area Under Curve) untuk model
4.5. Analisis Evaluasi dan Validasi algoritma SVM mengasilkan nilai 0.726
Model dengan nilai diagnosa Fair Classification,
Dari hasil pengujian diatas, baik sedangkan untuk algoritma
evaluasi menggunakan counfusion matrix SVMberbasis PSO (Particle Swarm
maupun ROC curve terbukti bahwa hasil Optimization) menghasilkan nilai 0.732
pengujian algoritma SVM berbasis PSO dengan nilai diagnose Fair Classification,
memiliki nilai akurasi yang lebih tinggi dan selisih nilai keduanya sebesar 0.006.
dibandingkan dengan algoritma SVM Dapat dilihat pada Gambar dibawah
Nilai akurasi untuk model algoritma ini.
SVM sebesar 68.38% dan nilai akurasi

Gambar 4. Kurva ROC Support vector machine berbasis Particle Swarm Optimization

Dengan demikian algoritma SVM sehingga didapat pengujian dengan


berbasis PSO dapat memberikan solusi menggunakan support vector machines
untuk permasalahan dalam prediksi didapat nilai accuracy adalah 68.38 %
hasil prediksi penyakit hepatitis. Untuk dan nilai AUC adalah 0.726. Sedangakan
rinciannya dapat dilihat pada Tabel .dan pengujian dengan mengunakan support
Gambar . vector machines berbasis Naïve Bayes
didapatkan nilai accuracy 83.71 %
V. PENUTUP dengan nilai dan nilai AUC adalah
5.1. Kesimpulan 0.812.
Dalam penelitian ini dilakukan
pengujian model dengan menggunakan 5.2. Saran
Support Vector Machines dan Support Agar penelitian ini bisa
Vector Machines berbasis Particle Swarm ditingkatkan, berikut adalah saran-saran
Optimization dengan menggunakan data yang diusulkan:
penyakit hepatitis yang terkena 1. Penelitian ini diharapkan dapat
penyakit atau tidak. digunakan pihak medis sebagai
Model yang dihasilkan diuji untuk bahan pertimbangan memprediksi
mendapatkan nilai accuracy, precision, penyakit hepatitis, sehingga dapat
recall dan AUC dari setiap algoritma

34
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

meningkatkan akurasi dalam Press, Hangzhou And Springer-


prediksi prediksi penyakit hepatitis. Verlag Gmbh.
2. Penelitian ini dapat dikembangkan
dengan metode optimasi lainnya Larose, D. T. (2005).Discovering
seperti Ant Colony Optimization Knowledge in Data an Introduction to
(ACO), Genetic Algorithm (GA), dan Data Mining.New Jersey: John Wiley
lainnya. & Sons, Inc., Hoboken.

Lasut, Desiyanna (2012). Prediksi


DAFTAR PUSTAKA
Loyalitas Pelanggan Pada
Ansari, U., Soni, S., Soni, J., & Sharma,
Perusahaan Penyedia Layanan
D. (2011). Predictive Data Mining
Multimedia Dengan Algoritma C4.5
for Medical Diagnosis: An Overview
Berbasis Particle Swarm Optimization
of Heart Disease Prediction.
Tesis,Program Studi Teknik
International Journal of Computer
Informatika Program Pasca Sarjana
Application , 43-48.
Magister Komputer,STMIK
Eresha,Jakarta
Aydin, I., Karakose, M., & Akin, E.
(2011). A multi-objective artificial
Maimon, O. (2010). Data Mining And
immune algorithm for parameter
Knowledge Discovery Handbook. New
optimization in support vector
York Dordrecht Heidelberg London:
machine.Computer Engineering
Springer.
Department , 120-129.
Masripah, Siti (2011). Algoritma
Badrul, Mohammad (2012). Prediksi klasifikasi c4.5 berbasis particle
Hasil Pemilu Legislatif Dki Jakarta swarm optimization untuk evaluasi
Dengan Metode Neural Network penentuan kelayakan pemberian
Berbasis Particle Swarm Optimization kredit Koperasi syariah Tesis,
Tesis, Magister Ilmu Magister Ilmu Komputer,STMIK
Komputer,STMIK Nusa Mandiri, Nusa Mandiri,Jakarta
Jakarta
Septiani, Dwi Wisti (2013). Analisa Dan
Dong, Y., Xia, Z., Tu, M., & Xing, G. Komparasi Metode Klasifikasi Data
(2007). An Optimization Method For Mining Algoritma C4.5, Naïve
Selecting Parameters In Support Bayes,Dan Neural Network Untuk
Vector Machines. Sixth International Prediksi Penyakit Hepatitis Tesis,
Conference On Machine Learning And Magister Ilmu Komputer,STMIK
Applications , 1. Nusa Mandiri,Jakarta

Handayanna,Frisma (2012). Penerapan Salappa, A., Doumpos, M., &


Particle Swarm Optimization Untuk Zopounidis, C. (2007). Feature
Seleksi Atribut Pada Metode Support SelectionAlgorithms in
Vector Machine Untuk Prediksi Classification Problems: An
Penyakit DiabetesTesis, Magister Experimental Evaluation.
Ilmu Komputer,STMIK Nusa SystemsAnalysis, Optimization and
Mandiri,Jakarta Data Mining in Biomedicine , 199-212.
Huang, K., Yang, H., King, I., & Lyu, M.
(2008).Machine Learning Modeling Park, T. S., Lee, J. H., & Choi, B.
Data Locally And Globally. Berlin (2009).Optimization for Artificial
Heidelberg: Zhejiang University NeuralNetwork with Adaptive

35
JURNAL KHATULISTIWA INFORMATIKA, VOL. 3, NO. 1 JUNI 2015

inertial weight of particle swarm Algorithms for Classification Tasks.


optimization.CognitiveInformatics, Parallel Computing , 30, 767-783.
IEEE International Conference , 481-
485. Witten, I. H., Eibe, F., & Hall, M. A.
(2011).Data Mining: Practical Machine
Rinawati (2012).Penerapan Particle Learning Tools and Techniques 3D
Swarm Optimization Untuk Seleksi Edition. United State.
Atribut Pada Metode Support Vector
Machine Untuk Penentuan Penilaian X. Hu, R. Eberhart, and Y. Shi. Recent
Kredit Tesis, Magister Ilmu advances in particle swarm, , IEEE
Komputer,STMIK Nusa Congress on Evolutionary
Mandiri,Jakarta Computation 2004, Portland,
Oregon, USA
Sousa, T., Silva, A., & Neves, A. (2004).
Particle Swarm Based Data Mining

36

Anda mungkin juga menyukai