Anda di halaman 1dari 6

Analisis perbandingan Klasifikasi penyakit jantung

dengan menggunakan nave bayes


Muhammad Sulkifly Said
Program Studi Magister Teknologi Informasi, Universitas Gadjah Mada
Jl. Grafika No.2 Kampus UGM, Yogyakarta 55281
sulkifly.ti14@mail.ugm.ac.id

Abstrak salah satu fungsi data mining adalah melakukan

penunjang. Attribute nomor 8 sampai 13 berkaitan dengan

klasifikasi berdasarkan inputan attribute-atribute yang ada,

latihan (treatmill) tidak diikutsertakan. Pada penelitian ini

dalam paper ini akan dijelaskan metode pengklasifikasian

attribute pada data penelitian digunakan hanya untuk

guna melakukan identifikasi apakah seseorang terkena

memprediksi penyakit jantung dengan gejala kronis.

penyakit jantung atau tidak, tools yang digunakan dalam

Beberapa attribute diatas memiliki nilai continue. Pada

penelitian adalah WEKA, dalam paper ini akan dilakukan

penelitian ini dilakukan diskretisasi terhadap nilai kontinu

seleksi terhadap beberapa attribute dalam dataset jantung

menjadi nilai diskrit. Data diskrit biasanya memberikan

guna meningkatkan akurasi, kecepatan dan error dan

hasil prediksi yang lebih baik dibandingkan data continue,

kemudian akan dilakukan perbandingan apakah terdapat

beberapa attribute yang didiskretisasikan adalah age,

perbedaan yang signifikan diantara kedua metode yang

trestbps, chol, thalach, oldpeak.

diusulkan
abstrak: nave bayes, weka, klasifikasi

Data mining adalah suatu proses menemukan sebuah


hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan

1. Pendahuluan
Dataset yang digunakan bersumber dari data rekam medis
penyakit jantung Cleveland yang didapatkan secara online
di UCI repository. Dataset memiliki 14 atribut, atribut yang
terakhir merupakan kelas, attribute terdiri dari age, sex, cp,
trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope,
ca, thal, num.
berdasarkan studi literature pada sebuah penelitian
tentang wawancara dokter ahli jantung menjelaskan bahwa
attribute yang digunakan untuk penyakit jantung khususnya
penyankit jantung koroner. Attribute diatas dibagi menjadi 2
bagian yang disesuaikan dengan gejala penyakit jantung
yaitu kronis dan akut. Gejala penyakit kronis memerlukan
hamper semua attribute untuk diagnose gangguan pada
jantung dimana attribute nomor 1,2,5 dan 6 merupakan
attribute bebas (penunjang). Sementara untuk gejala akut,
attribute nomor 3 sampai 7 dan 14 merupakan attribute

dalam

penyimpanan

dengan

menggunakan

teknik

pengenalan pola seperti teknik statistic, matematika,


kecerdasan buatan dan machine learning. Salah satu metode
data mining adalah klasifikasi. Klasifikasi adalah proses
untuk menemukan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data.
Dalam penelitian ini digunakan algoritma nave bayes,
nave

bayes

reasoning.

merupakan

Algoritma

salah

nave

metode

bayes

probabilistic

bertujuan

untuk

melakukan klasifikasi data pada kelas tertentu, kemudian


pola tersebut dapat digunakan untuk memperkirakan
indikasi sebuah penyakit jantung berdasarkan pengalaman
pelatihan dimasa sebelumnya.
II LANDASAN TEORI
2.1 Penyakit Jantung
Penyakit jantung koroner adalah penyakit jantung yang
terjadi karena rusaknya dinding pembuluh darah karena

beberapa factor resiko seperti radikal bebas yang terkandung


dalam rokok dan polusi, kolesterol tinggi, hipertensi,

Tahapan dari proses knowledge discovery (KDD)


adalah:

diabetes, kebiasaan merokok dan sebagainya. Kolesterol

1.

Selection

yang menimbun di dinding bagian dalam pembuluh darah,

2.

Pre-Processing / Cleaning

dapat

mengalami

3.

Transformation

penyempitan dan aliran darahpun menjadi tersumbat.

4.

Data mining

Akibatnya, fungsi jantung terganggu karena harus bekerja

5.

Interpretation / evaluation

mengakibatkan

pembuluh

darah

lebih keras untuk memompa alirah darah. Seiring perjalanan


waktu, arteri-arteri koroner makin sempit dan mengeras.

2.1 Klasifikasi

Inilah yang disebut aterosklerosis.

Klasifikasi pertama kali diterapkan pada bidang


tanahaman yang mengklasifikasikan suatu spesies tanaman

Radikal bebas adalah ion molekul tanpa pasangan yang

tertentu, seperti yang dilakukan oleh carolus von linne (atau

mengikat molekul lain yang mengakibatkan molekul/zat tadi

dikenal dengan nama carolus Linnaeus) yang pertama kali

menjadi rusak dan berubah sifat. Misalnya sel-sel pembuluh

mengklasifikasikan spesies berdasarkan karakteristik fisik.

darah menjadi cepat mati atau pembuluh darah menjadi

Selanjutnya dia dikenal sebagai bapak klasifikasi.

sempit. Sel-sel yang berubah sifat contohnya adalah sel-sel


kanker. Sumber radikal bebas antara lain:

Komponen utama dari proses klasifikasi antara lain


adalah:

Asap rokok

Polusi udara

Polusi kimiawi / lingkungan (semprotan nyamuk,

1.

table dari hasil klasifikasi. Sebagai contoh adalah


kelas loyalitas pelanggan, kelas badai atau gempa
bumi dan lain-lain.

inteksida, cat)

Polusi elektromagnetik (handphone, layar tv, layar

2.

diklasifikasi,

Polusi dari tubuh sendiri (penyakit kronis seperti

terlalu banyak mengkonsumsi makan. Jantung koroner bisa

3.

hakikatnya

adalah

yang tepat. Contohnya adalah grup pasien yang telah

2.1 Data Mining


Data mining adalah penambangan atau penemuan
informasi baru dengan mencari pola aturan tertentu dari
sejumlah data yang sangat besar. Data mining juga disebut
sebagai serangkaian proses untuk menggali nilai tambah
berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data.

di-test terhadap serangan jantung, grup pelanggan di

kelainan

metabolisme.

Set data pelatihan, merupakan sekumpulan data


agar model dapat mengelompokkan ke dalam kelas

kecenderungan dalam keluarga. Namun, penyebab dasar


pada

minum-minum

lengkap yang berisi kelas dan predictor untuk dilatih

mempunyai riwayat penyakit jantung koroner. Artinya ada


koroner

merokok,

sebagainya.

diturunkan dari keluarga, jika salah satu anggota keluarga

jantung

misalnya

beralkohol, tekanan darah, status perkawinan, dan

diabetes)
Obesitas dapat menyebabkan penyakit jantung karena

Predictor, merupakan variable bebas suatu model


berdasarkan dari karakteristik attribute data yang

monitor)

Kelas, merupakan variable tak bebas yang merupakan

suatu supermarket, dan sebagainya.


4.

Set data uji, berisi data-data baru yang akan


dikelompokkan oleh model guna mengetahui akurasi
dari model yang telah dibuat.

2.2 Algoritma Nave Bayes


Algoritma Nave Bayes merupakan salah satu
algoritma yang terdapat pada teknik klasifikasi. Nave bayes
merupakan pengklasifikasian dengan metode probabilitas
dan statistic yang dikemukakan oleh ilmuwan inggris

Thomas bayes, yaitu memprediksi peluang di masa depan

dibagi dengan jumlah data benar yang bernilai positif

berdasarkan pengalaman dimasa sebelumnya sehingga

(true positive) dan data salah yang bernilai negative

dikenal sebagai teorema bayes, yaitu memprediksi peluang

(false negatife)

di masa depan berdasarkan pengalaman diasa sebelumnya

Precision =

sehingga dikenal sebagai teorema bayes. Teorema tersebut


dikombinasikan dengan nave dimana diasumsikan kondisi

3.

TP
TP+ FP

Recall

antar attribute saling bebas. Klasifikasi nave bayes

Sedangkan recall dihitung dengan cara membagi data

diasumsikan bahwa ada atau tidak cirri tertentu dari sebuah

benar yang bernilai positif (true positive) dengan

tidak ada hubungannya dengan cirri dari kelas lainnya.

hasil penjumlahan dari data benar yang bernilai

Persamamaan dari teorema bayes adalah:

positif (true positive) dan data salah bernilai negatif

P(H|X) =

(false negative)

P ( X|H ) . P( H)
P( X )

Recall =

Keterangan:

4.

TP
TP+ FN

F-measure

: Data dengan class yang diketahui

Nilai F-measure didapat dari perhitungan pembagian

: Hipotesis data X merupakan suatu class spesifik

hasil dari perkalian precision dan recall dengan hasil

P(H|X) : Probabilitas hipotesis H berdasar kondisi X

penjumlahan

(posteriori probability)

dikalikan dua.

P(H)

: Probabilitas X berdasarkan kondisi pada sebuah


F Measure = 2 *

hipotesis H
P(X)

precision

dan

recall,

kemudian

Precisionrecall
Precision+recall

: Probabilitas X
III. METODOLOGI

2.3 Confusion Matrix


Confusion matrix adalah tools yang digunakan
untuk

Seleksi attribute merupakan proses mengidentifikasi dan

memperkirakan objek yang benar atau salah. Sebuah matrix

menghilangkan attribute dengan nilai yang tidak relevan

dari prediksi yang akan dibandingkan dengan kelas yang

atau berlebihan. Pada penelitian ini dilakukan seleksi

asli dari inputan atau dengan kata lain berisi nilai actual dan

attribute dengan menggunakan information gain yang

prediksi pada proses klasifikasi

diimplementasikan pada algoritma nave bayes untuk tugas

untuk

melakukan

evaluasi

model

klasifikasi

klasifikasi
Evaluasi dan validasi hasil dapat dihitung
menggunakan rumus akurasi, precision, recall dan f-measure
berdasarkan confusion matrix
1.

dalam

memprediksi

penyakit

jantung.

Information gain bertujuan melakukan pengurutan attribute


berdasarkan peringkat (rank) dimana besar nilai information
gain dari suatu attribute maka semakin signifikan attribute
tersebut untuk tugas prediksi.

Akurasi
Perhitungan akurasi dilakukan dengan cara membagi
jumlah data yang diklasifikasi secara benar dengan
total sample data testing yang diuji.

TP+TN
Akurasi =
TP+TN + FP+ FN
2.

Precision
menghitung nilai precision dengan cara membagi
jumlah data benar yang bernilai positif (true positive)

Metode pengujian yang digunakan dalam penelitian ini


adalah metode holdout dimana data penelitian menjadi dua
bagian, 2/3 dari jumlah data yang dijadikan sebagai data
training dan 1/3 dari jumlah data digunakan sebagai data
testing (Han and Kamber, 2006). Pengujian dilakukan
dengan dua tahap dengan langkah-langkah sebagai berikut:

1.

2.

3.

Pada tahap pertama data training diproses dengan

dilakukan dengan menggunakan table klasifikasi yang

menggunakan

yang

disebut dengan confusion matrix dan kecepatan proses

melibatkan keseluruhan attribute. Dari data training

diukur dari lama waktu yang dibutuhkan dalam proses

yang dilatih terbentuk aturan klasifikasi. Kemudian

training dan testing data. Jumlah data training terdiri dari

data testing diujikan sehingga diperoleh hasil

195 baris data (2/3 dari jumlah baris data penelitian) dan

prediksi dengan nilai akurasi, error dan kecepatan

jumlah testing terdiri dari 101 baris baris data (1/3 dari

proses

jumlah baris data penelitian)

algoritma

nave

bayes

Pada tahap kedua data training terlebih dahulu


diproses dengan menggunakan algoritma informasi

4.1.1

gain. Setiap attribute dihitung informasi gain-nya

pengujian pada tahap pertama menggunakan seluruh

dan diurutkan dari nilai tertinggi sampai terendah.

attribute data rekam medis penyakit jantung dalam pelatihan

Attribute rendah direduksi (dibuang), dan sisanya

data dan tugas klasifikasi dalam memprediksi penyakit

dipilih

jantung. Dari data training yang diproses dengan algoritma

untuk

kemudian

di

training

dengan

hasil pengujian tahap pertama

menggunakan algoritma nave bayes. Kemudian

nave bayes diperoleh hasil pelatihan sebagai berikut:

data testing diujikan sehingga diperoleh hasil

waktu proses pelatihan data dengan melibatkan seluruh

prediksi dengan nilai akurasi, error dan kecepatan

attribute yang ditampilkan pada table diatas adalah 0,38135

proses.

detik.

Hasil prediksi dan kecepatan proses dari tahap

Berdasarkan hasil dari training data dilakukan pengujian

kedua

terhadap data testing dan diperoleh hasil prediksi yang

dianalisis

untuk

melihat

apakah

ada

perubahan nilai akurasi, error dan kecepatan proses

ditampilkan dalam table confusion matrix berikut:

dari tahap yang pertama


Table 4.2 hasil pengujian data testing dataset tahap pertama
IV. HASIL DAN PEMBAHASAN
Pada bab ini dijelaskan hasil pengujian yang dilakukan
dalam melakukan pelatihan dan tugas klasifikasi dalam
memprediksi

penyakit

jantung

dengan

Aktual yang
sebenarnya

Sakit
Tidak sakit

Sakit
38
7

Prediksi
Tidak Sakit
10
46

menggunakan

Dari table diatas diperoleh nilai prediksi yang benar untuk

algoritma nave bayes dan informasi gain sebagai parameter

yang sakit ada 38 orang dan untuk yang tidak sakit 46

seleksi attribute. Pelatihan data dan tugas klasifikasi diuji

orang. Sementara prediksi yang salah teridiri dari 10 orang

dengan menggunakan aplikasi yang penulis bangun dengan

diprediksi tidak sakit (sebenarnya sakit). Nilai akurasi dan

menggunakan tools data mining WEKA. Berdasarkan pada

error dapat diperoleh sebagai berikut:

hasil pengujian pelatihan dan tugas klasifikasi dari data


rekam medis nantinya dapat ditarik kesimpulan, apakah
algoritma nave bayes dengan seleksi attribute dapat
meningkatkan nilai akurasi prediksi penyakit jantung dan
kecepatan proses dibandingkan dengan pelatihan dan tugas
klasifikasi dengan algoritma nave bayes secara umum.

Akurasi tahap pertama =

TP+TN
P+ N

38+ 46
101

10+ 7
101

0,83168 = 83,17%
Error tahap pertama

FP+ FN
P+ N

0,16831 = 16,83%
Waktu proses pengujian dari data testing yang melibatkan

4.1 hasil pengujian

seluruh attribute dari table 4.1 adalah: 0.57582 detik.

hasil pengujian diukur dari seberapa besar nilai akurasi serta


kecepatan dari proses training data. Pengukuran akurasi

4.1.2

Hasil pengujian tahap kedua

Pengujian pada tahap kedua menggunakan beberapa atribut

Dari hasil pengujian di atas dapat dilihat perbandingan

data rekam medis penyakit jantung yang dipilih berdasarkan

akurasi, error dan waktu proses pada tahap pertama dan

nilai informasi gain untuk pelatihan data dan tugas

kedua, hasil akan ditampilkan dalam bentuk tabulasi

klasifikasi dalam memprediksi penyakit jantung. Attribute

Table 4.7 hasil pengujian percobaan tahap pertama dan

diurutkan berdasarkan nilai informasi gain yang paling

kedua

tinggi ke yang paling rendah.

Pengujian I
Pengujian II
Atribute yang direduksi
Fbs
Jumlah attribute
13
12
Akurasi
83,17%
84,16%
Error
16,83%
15,84%
Waktu testing (detik)
0,57582
0,65077
Waktu training (detik)
0,38135
0,35456
Table 4.7 hasil pengujian percobaan tahap pertama dan

Pada tahap ini attribute dengan nilai terkecil (fbs) tidak


diikut sertakan dalam proses training dan testing data.
Kemudian dilihat nilai akurasi yang dihasilkan dari hasil
pengujian tersebut.
Pada percobaan ini untuk hasil data training sama dengan

kedua

table 4.1 namun tanpa atribut fbs. Untuk proses training data
yang melibatkan 12 atribute adalah: 0,35456 detik.
Berasarkan hasil dari training data tanpa menggunakan
attribute fbs dilakukan pengujian terhadap data testing dan
diperoleh hasil prediksi yang ditampilkan dalam table
confusion matrix berikut:
Table 4.4 hasil pengujian data testing dataset tahap kedua

Aktual yang
sebenarnya

sakit
Tidak sakit

Sakit
38
6

Prediksi
Tidak Sakit
10
47

Dari table di atas diperoleh nilai prediksi yang benar untuk


yang sakit ada 38 orang dan untuk yang tidak sakit ada 47
orang. Sementara prediksi yang salah terdiri dari 10 orang

Dari grafik diatas dapat dilihat bahwa hasil pengujian pada

diprediksi tidak sakit (sebenarnya sakit) dan 6 orang

tahap kedua dimana atribut fbs tidak diikutsertakan

diprediksi sakit (sebenarnya tidak sakit). Nilai akurasi dan

memiliki nilai akurasi lebih baik yaitu 84,16% dibandingkan

error dapat diperoleh sebagai berikut:

hasil pengujian tahap pertama yang mengikut sertakan

Akurasi tahap pertama =

TP+TN
P+ N

38+ 47
101

keseluruhan attribute yaitu 83,47%

0,84158 = 84,16%

Dari hasil penelitian didapatkan bahwa, seleksi

Error tahap pertama

FP+ FN
P+ N

10+ 6
101

attribute dapat meningkatkan nilai akurasi dan mengurangi


nilai error dari tugas klasifikasi. Hal ini dapat dilihat pada

0,15481 = 15,84%

tahap kedua dimana attribute dengan nilai gain terendah

Waktu proses pengujian data testing yang melibatkan 12

(fbs) tidak diikutsertakan, menghasilkan nilai akurasi

atribute dari table 4.1 adalah: 0.65077 detik.

84,16%

dan

nilai

error

15,84%.

Sementara

jika

menggunakan semua attribute (pengujian tahap pertama)


V. PEMBAHASAN

akurasi diperoleh 83,17% dan error sebesar 16,83%.


REFERENCES

[1]

Dumitru, D. Prediction of recurrent events in breast cancer using the

[4]

nave Bayesian classification. 2009. Annals of university of Craiova,


mathematics and computer series.
[2]

Gorunescu, F. 2011. Data mining: concepts and techniques, second


edition. Morgan Kauffman publishers.

[3]

Kantardzic, M., 2003. Data mining: concepts, models, methods and


algorithms. The institute of electrical engineering, Inc.

Sansosa, B. 2007. Data mining teknik pemanfaatan data untuk


keperluan bisnis. Yogyakarta. Graham ilmu.

[5]

R. Nicole, Title of paper with only first word capitalized, J. Name


Stand. Abbrev., in press.