Tugas Data Mining

Analisis perbandingan Klasifikasi penyakit jantung
dengan menggunakan nave bayes

Muhammad Sulkifly Said
Program Studi Magister Teknologi Informasi, Universitas Gadjah Mada
Jl. Grafika No.2 Kampus UGM, Yogyakarta 55281
sulkifly.ti14@mail.ugm.ac.id
Abstrak salah satu fungsi data mining adalah melakukan
penunjang. Attribute nomor 8 sampai 13 berkaitan dengan
klasifikasi berdasarkan inputan attribute-atribute yang ada,
latihan (treatmill) tidak diikutsertakan. Pada penelitian ini
dalam paper ini akan dijelaskan metode pengklasifikasian
attribute pada data penelitian digunakan hanya untuk
guna melakukan identifikasi apakah seseorang terkena
memprediksi penyakit jantung dengan gejala kronis.
penyakit jantung atau tidak, tools yang digunakan dalam
Beberapa attribute diatas memiliki nilai continue. Pada
penelitian adalah WEKA, dalam paper ini akan dilakukan
penelitian ini dilakukan diskretisasi terhadap nilai kontinu
seleksi terhadap beberapa attribute dalam dataset jantung
menjadi nilai diskrit. Data diskrit biasanya memberikan
guna meningkatkan akurasi, kecepatan dan error dan
hasil prediksi yang lebih baik dibandingkan data continue,
kemudian akan dilakukan perbandingan apakah terdapat
beberapa attribute yang didiskretisasikan adalah age,
perbedaan yang signifikan diantara kedua metode yang
trestbps, chol, thalach, oldpeak.
diusulkan
abstrak: nave bayes, weka, klasifikasi
Data mining adalah suatu proses menemukan sebuah

hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan
1. Pendahuluan
Dataset yang digunakan bersumber dari data rekam medis
penyakit jantung Cleveland yang didapatkan secara online
di UCI repository. Dataset memiliki 14 atribut, atribut yang
terakhir merupakan kelas, attribute terdiri dari age, sex, cp,
trestbps, chol, fbs, restecg, thalach, exang, oldpeak, slope,
ca, thal, num.
berdasarkan studi literature pada sebuah penelitian
tentang wawancara dokter ahli jantung menjelaskan bahwa
attribute yang digunakan untuk penyakit jantung khususnya
penyankit jantung koroner. Attribute diatas dibagi menjadi 2
bagian yang disesuaikan dengan gejala penyakit jantung
yaitu kronis dan akut. Gejala penyakit kronis memerlukan
hamper semua attribute untuk diagnose gangguan pada
jantung dimana attribute nomor 1,2,5 dan 6 merupakan
attribute bebas (penunjang). Sementara untuk gejala akut,
attribute nomor 3 sampai 7 dan 14 merupakan attribute
dalam
penyimpanan
dengan
menggunakan
teknik
pengenalan pola seperti teknik statistic, matematika,

kecerdasan buatan dan machine learning. Salah satu metode
data mining adalah klasifikasi. Klasifikasi adalah proses
untuk menemukan model atau fungsi yang menjelaskan atau
membedakan konsep atau kelas data.
Dalam penelitian ini digunakan algoritma nave bayes,
nave
bayes
reasoning.
merupakan
Algoritma
salah
nave
metode
bayes
probabilistic
bertujuan
untuk
melakukan klasifikasi data pada kelas tertentu, kemudian

pola tersebut dapat digunakan untuk memperkirakan
indikasi sebuah penyakit jantung berdasarkan pengalaman
pelatihan dimasa sebelumnya.
II LANDASAN TEORI
2.1 Penyakit Jantung
Penyakit jantung koroner adalah penyakit jantung yang
terjadi karena rusaknya dinding pembuluh darah karena
beberapa factor resiko seperti radikal bebas yang terkandung

dalam rokok dan polusi, kolesterol tinggi, hipertensi,
Tahapan dari proses knowledge discovery (KDD)

adalah:
diabetes, kebiasaan merokok dan sebagainya. Kolesterol
1.
Selection
yang menimbun di dinding bagian dalam pembuluh darah,
2.
Pre-Processing / Cleaning
dapat
mengalami
3.
Transformation
penyempitan dan aliran darahpun menjadi tersumbat.
4.
Data mining
Akibatnya, fungsi jantung terganggu karena harus bekerja
5.
Interpretation / evaluation
mengakibatkan
pembuluh
darah
lebih keras untuk memompa alirah darah. Seiring perjalanan

waktu, arteri-arteri koroner makin sempit dan mengeras.
2.1 Klasifikasi
Inilah yang disebut aterosklerosis.
Klasifikasi pertama kali diterapkan pada bidang

tanahaman yang mengklasifikasikan suatu spesies tanaman
Radikal bebas adalah ion molekul tanpa pasangan yang
tertentu, seperti yang dilakukan oleh carolus von linne (atau
mengikat molekul lain yang mengakibatkan molekul/zat tadi
dikenal dengan nama carolus Linnaeus) yang pertama kali
menjadi rusak dan berubah sifat. Misalnya sel-sel pembuluh
mengklasifikasikan spesies berdasarkan karakteristik fisik.
darah menjadi cepat mati atau pembuluh darah menjadi
Selanjutnya dia dikenal sebagai bapak klasifikasi.
sempit. Sel-sel yang berubah sifat contohnya adalah sel-sel

kanker. Sumber radikal bebas antara lain:
Komponen utama dari proses klasifikasi antara lain

adalah:
Asap rokok
Polusi udara
Polusi kimiawi / lingkungan (semprotan nyamuk,
1.
table dari hasil klasifikasi. Sebagai contoh adalah

kelas loyalitas pelanggan, kelas badai atau gempa
bumi dan lain-lain.
inteksida, cat)
Polusi elektromagnetik (handphone, layar tv, layar
2.
diklasifikasi,
Polusi dari tubuh sendiri (penyakit kronis seperti
terlalu banyak mengkonsumsi makan. Jantung koroner bisa
3.
hakikatnya
adalah
yang tepat. Contohnya adalah grup pasien yang telah
2.1 Data Mining

Data mining adalah penambangan atau penemuan
informasi baru dengan mencari pola aturan tertentu dari
sejumlah data yang sangat besar. Data mining juga disebut
sebagai serangkaian proses untuk menggali nilai tambah
berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data.
di-test terhadap serangan jantung, grup pelanggan di
kelainan
metabolisme.
Set data pelatihan, merupakan sekumpulan data

agar model dapat mengelompokkan ke dalam kelas
kecenderungan dalam keluarga. Namun, penyebab dasar

pada
minum-minum
lengkap yang berisi kelas dan predictor untuk dilatih
mempunyai riwayat penyakit jantung koroner. Artinya ada

koroner
merokok,
sebagainya.
diturunkan dari keluarga, jika salah satu anggota keluarga
jantung
misalnya
beralkohol, tekanan darah, status perkawinan, dan
diabetes)
Obesitas dapat menyebabkan penyakit jantung karena
Predictor, merupakan variable bebas suatu model

berdasarkan dari karakteristik attribute data yang
monitor)
Kelas, merupakan variable tak bebas yang merupakan
suatu supermarket, dan sebagainya.

4.
Set data uji, berisi data-data baru yang akan

dikelompokkan oleh model guna mengetahui akurasi
dari model yang telah dibuat.
2.2 Algoritma Nave Bayes

Algoritma Nave Bayes merupakan salah satu
algoritma yang terdapat pada teknik klasifikasi. Nave bayes
merupakan pengklasifikasian dengan metode probabilitas
dan statistic yang dikemukakan oleh ilmuwan inggris
Thomas bayes, yaitu memprediksi peluang di masa depan
dibagi dengan jumlah data benar yang bernilai positif
berdasarkan pengalaman dimasa sebelumnya sehingga
(true positive) dan data salah yang bernilai negative
dikenal sebagai teorema bayes, yaitu memprediksi peluang
(false negatife)
di masa depan berdasarkan pengalaman diasa sebelumnya
Precision =
sehingga dikenal sebagai teorema bayes. Teorema tersebut

dikombinasikan dengan nave dimana diasumsikan kondisi
3.
TP
TP+ FP
Recall
antar attribute saling bebas. Klasifikasi nave bayes
Sedangkan recall dihitung dengan cara membagi data
diasumsikan bahwa ada atau tidak cirri tertentu dari sebuah
benar yang bernilai positif (true positive) dengan
tidak ada hubungannya dengan cirri dari kelas lainnya.
hasil penjumlahan dari data benar yang bernilai
Persamamaan dari teorema bayes adalah:
positif (true positive) dan data salah bernilai negatif
P(H|X) =
(false negative)
P ( X|H ) . P( H)
P( X )
Recall =
Keterangan:
4.
TP
TP+ FN
F-measure
: Data dengan class yang diketahui
Nilai F-measure didapat dari perhitungan pembagian
: Hipotesis data X merupakan suatu class spesifik
hasil dari perkalian precision dan recall dengan hasil
P(H|X) : Probabilitas hipotesis H berdasar kondisi X
penjumlahan
(posteriori probability)
dikalikan dua.
P(H)
: Probabilitas X berdasarkan kondisi pada sebuah

F Measure = 2 *
hipotesis H
P(X)
precision
dan
recall,
kemudian
Precisionrecall
Precision+recall
: Probabilitas X
III. METODOLOGI
2.3 Confusion Matrix

Confusion matrix adalah tools yang digunakan
untuk
Seleksi attribute merupakan proses mengidentifikasi dan
memperkirakan objek yang benar atau salah. Sebuah matrix
menghilangkan attribute dengan nilai yang tidak relevan
dari prediksi yang akan dibandingkan dengan kelas yang
atau berlebihan. Pada penelitian ini dilakukan seleksi
asli dari inputan atau dengan kata lain berisi nilai actual dan
attribute dengan menggunakan information gain yang
prediksi pada proses klasifikasi
diimplementasikan pada algoritma nave bayes untuk tugas
untuk
melakukan
evaluasi
model
klasifikasi
klasifikasi
Evaluasi dan validasi hasil dapat dihitung
menggunakan rumus akurasi, precision, recall dan f-measure
berdasarkan confusion matrix
1.
dalam
memprediksi
penyakit
jantung.
Information gain bertujuan melakukan pengurutan attribute

berdasarkan peringkat (rank) dimana besar nilai information
gain dari suatu attribute maka semakin signifikan attribute
tersebut untuk tugas prediksi.
Akurasi
Perhitungan akurasi dilakukan dengan cara membagi
jumlah data yang diklasifikasi secara benar dengan
total sample data testing yang diuji.
TP+TN
Akurasi =
TP+TN + FP+ FN
2.
Precision
menghitung nilai precision dengan cara membagi
jumlah data benar yang bernilai positif (true positive)
Metode pengujian yang digunakan dalam penelitian ini

adalah metode holdout dimana data penelitian menjadi dua
bagian, 2/3 dari jumlah data yang dijadikan sebagai data
training dan 1/3 dari jumlah data digunakan sebagai data
testing (Han and Kamber, 2006). Pengujian dilakukan
dengan dua tahap dengan langkah-langkah sebagai berikut:
1.
2.
3.
Pada tahap pertama data training diproses dengan
dilakukan dengan menggunakan table klasifikasi yang
menggunakan
yang
disebut dengan confusion matrix dan kecepatan proses
melibatkan keseluruhan attribute. Dari data training
diukur dari lama waktu yang dibutuhkan dalam proses
yang dilatih terbentuk aturan klasifikasi. Kemudian
training dan testing data. Jumlah data training terdiri dari
data testing diujikan sehingga diperoleh hasil
195 baris data (2/3 dari jumlah baris data penelitian) dan
prediksi dengan nilai akurasi, error dan kecepatan
jumlah testing terdiri dari 101 baris baris data (1/3 dari
proses
jumlah baris data penelitian)
algoritma
nave
bayes
Pada tahap kedua data training terlebih dahulu

diproses dengan menggunakan algoritma informasi
4.1.1
gain. Setiap attribute dihitung informasi gain-nya
pengujian pada tahap pertama menggunakan seluruh
dan diurutkan dari nilai tertinggi sampai terendah.
attribute data rekam medis penyakit jantung dalam pelatihan
Attribute rendah direduksi (dibuang), dan sisanya
data dan tugas klasifikasi dalam memprediksi penyakit
dipilih
jantung. Dari data training yang diproses dengan algoritma
untuk
kemudian
di
training
dengan
hasil pengujian tahap pertama
menggunakan algoritma nave bayes. Kemudian
nave bayes diperoleh hasil pelatihan sebagai berikut:
data testing diujikan sehingga diperoleh hasil
waktu proses pelatihan data dengan melibatkan seluruh
prediksi dengan nilai akurasi, error dan kecepatan
attribute yang ditampilkan pada table diatas adalah 0,38135
proses.
detik.
Hasil prediksi dan kecepatan proses dari tahap
Berdasarkan hasil dari training data dilakukan pengujian
kedua
terhadap data testing dan diperoleh hasil prediksi yang
dianalisis
untuk
melihat
apakah
ada
perubahan nilai akurasi, error dan kecepatan proses
ditampilkan dalam table confusion matrix berikut:
dari tahap yang pertama

Table 4.2 hasil pengujian data testing dataset tahap pertama
IV. HASIL DAN PEMBAHASAN
Pada bab ini dijelaskan hasil pengujian yang dilakukan
dalam melakukan pelatihan dan tugas klasifikasi dalam
memprediksi
penyakit
jantung
dengan
Aktual yang
sebenarnya
Sakit
Tidak sakit
Sakit
38
7
Prediksi
Tidak Sakit
10
46
menggunakan
Dari table diatas diperoleh nilai prediksi yang benar untuk
algoritma nave bayes dan informasi gain sebagai parameter
yang sakit ada 38 orang dan untuk yang tidak sakit 46
seleksi attribute. Pelatihan data dan tugas klasifikasi diuji
orang. Sementara prediksi yang salah teridiri dari 10 orang
dengan menggunakan aplikasi yang penulis bangun dengan
diprediksi tidak sakit (sebenarnya sakit). Nilai akurasi dan
menggunakan tools data mining WEKA. Berdasarkan pada
error dapat diperoleh sebagai berikut:
hasil pengujian pelatihan dan tugas klasifikasi dari data

rekam medis nantinya dapat ditarik kesimpulan, apakah
algoritma nave bayes dengan seleksi attribute dapat
meningkatkan nilai akurasi prediksi penyakit jantung dan
kecepatan proses dibandingkan dengan pelatihan dan tugas
klasifikasi dengan algoritma nave bayes secara umum.
Akurasi tahap pertama =
TP+TN
P+ N
38+ 46
101
10+ 7
101
0,83168 = 83,17%
Error tahap pertama
FP+ FN
P+ N
0,16831 = 16,83%
Waktu proses pengujian dari data testing yang melibatkan
4.1 hasil pengujian
seluruh attribute dari table 4.1 adalah: 0.57582 detik.
hasil pengujian diukur dari seberapa besar nilai akurasi serta

kecepatan dari proses training data. Pengukuran akurasi
4.1.2
Hasil pengujian tahap kedua
Pengujian pada tahap kedua menggunakan beberapa atribut
Dari hasil pengujian di atas dapat dilihat perbandingan
data rekam medis penyakit jantung yang dipilih berdasarkan
akurasi, error dan waktu proses pada tahap pertama dan
nilai informasi gain untuk pelatihan data dan tugas
kedua, hasil akan ditampilkan dalam bentuk tabulasi
klasifikasi dalam memprediksi penyakit jantung. Attribute
Table 4.7 hasil pengujian percobaan tahap pertama dan
diurutkan berdasarkan nilai informasi gain yang paling
kedua
tinggi ke yang paling rendah.
Pengujian I
Pengujian II
Atribute yang direduksi
Fbs
Jumlah attribute
13
12
Akurasi
83,17%
84,16%
Error
16,83%
15,84%
Waktu testing (detik)
0,57582
0,65077
Waktu training (detik)
0,38135
0,35456
Table 4.7 hasil pengujian percobaan tahap pertama dan
Pada tahap ini attribute dengan nilai terkecil (fbs) tidak

diikut sertakan dalam proses training dan testing data.
Kemudian dilihat nilai akurasi yang dihasilkan dari hasil
pengujian tersebut.
Pada percobaan ini untuk hasil data training sama dengan
kedua
table 4.1 namun tanpa atribut fbs. Untuk proses training data
yang melibatkan 12 atribute adalah: 0,35456 detik.
Berasarkan hasil dari training data tanpa menggunakan
attribute fbs dilakukan pengujian terhadap data testing dan
diperoleh hasil prediksi yang ditampilkan dalam table
confusion matrix berikut:
Table 4.4 hasil pengujian data testing dataset tahap kedua
Aktual yang
sebenarnya
sakit
Tidak sakit
Sakit
38
6
Prediksi
Tidak Sakit
10
47
Dari table di atas diperoleh nilai prediksi yang benar untuk

yang sakit ada 38 orang dan untuk yang tidak sakit ada 47
orang. Sementara prediksi yang salah terdiri dari 10 orang
Dari grafik diatas dapat dilihat bahwa hasil pengujian pada
diprediksi tidak sakit (sebenarnya sakit) dan 6 orang
tahap kedua dimana atribut fbs tidak diikutsertakan
diprediksi sakit (sebenarnya tidak sakit). Nilai akurasi dan
memiliki nilai akurasi lebih baik yaitu 84,16% dibandingkan
error dapat diperoleh sebagai berikut:
hasil pengujian tahap pertama yang mengikut sertakan
Akurasi tahap pertama =
TP+TN
P+ N
38+ 47
101
keseluruhan attribute yaitu 83,47%
0,84158 = 84,16%
Dari hasil penelitian didapatkan bahwa, seleksi
Error tahap pertama
FP+ FN
P+ N
10+ 6
101
attribute dapat meningkatkan nilai akurasi dan mengurangi

nilai error dari tugas klasifikasi. Hal ini dapat dilihat pada
0,15481 = 15,84%
tahap kedua dimana attribute dengan nilai gain terendah
Waktu proses pengujian data testing yang melibatkan 12
(fbs) tidak diikutsertakan, menghasilkan nilai akurasi
atribute dari table 4.1 adalah: 0.65077 detik.
84,16%
dan
nilai
error
15,84%.
Sementara
jika
menggunakan semua attribute (pengujian tahap pertama)

V. PEMBAHASAN
akurasi diperoleh 83,17% dan error sebesar 16,83%.

REFERENCES
[1]
Dumitru, D. Prediction of recurrent events in breast cancer using the
[4]
nave Bayesian classification. 2009. Annals of university of Craiova,

mathematics and computer series.
[2]
Gorunescu, F. 2011. Data mining: concepts and techniques, second

edition. Morgan Kauffman publishers.
[3]
Kantardzic, M., 2003. Data mining: concepts, models, methods and

algorithms. The institute of electrical engineering, Inc.
Sansosa, B. 2007. Data mining teknik pemanfaatan data untuk

keperluan bisnis. Yogyakarta. Graham ilmu.
[5]
R. Nicole, Title of paper with only first word capitalized, J. Name

Stand. Abbrev., in press.

Tugas Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisis perbandingan Klasifikasi penyakit jantung

dengan menggunakan nave bayes

Abstrak salah satu fungsi data mining adalah melakukan

penunjang. Attribute nomor 8 sampai 13 berkaitan dengan

klasifikasi berdasarkan inputan attribute-atribute yang ada,

latihan (treatmill) tidak diikutsertakan. Pada penelitian ini

dalam paper ini akan dijelaskan metode pengklasifikasian

attribute pada data penelitian digunakan hanya untuk

guna melakukan identifikasi apakah seseorang terkena

memprediksi penyakit jantung dengan gejala kronis.

penyakit jantung atau tidak, tools yang digunakan dalam

Beberapa attribute diatas memiliki nilai continue. Pada

penelitian adalah WEKA, dalam paper ini akan dilakukan

penelitian ini dilakukan diskretisasi terhadap nilai kontinu

seleksi terhadap beberapa attribute dalam dataset jantung

menjadi nilai diskrit. Data diskrit biasanya memberikan

guna meningkatkan akurasi, kecepatan dan error dan

hasil prediksi yang lebih baik dibandingkan data continue,

kemudian akan dilakukan perbandingan apakah terdapat

beberapa attribute yang didiskretisasikan adalah age,

perbedaan yang signifikan diantara kedua metode yang

trestbps, chol, thalach, oldpeak.

Data mining adalah suatu proses menemukan sebuah

pengenalan pola seperti teknik statistic, matematika,

melakukan klasifikasi data pada kelas tertentu, kemudian

beberapa factor resiko seperti radikal bebas yang terkandung

Tahapan dari proses knowledge discovery (KDD)

diabetes, kebiasaan merokok dan sebagainya. Kolesterol

yang menimbun di dinding bagian dalam pembuluh darah,

penyempitan dan aliran darahpun menjadi tersumbat.

Akibatnya, fungsi jantung terganggu karena harus bekerja

lebih keras untuk memompa alirah darah. Seiring perjalanan

Inilah yang disebut aterosklerosis.

Klasifikasi pertama kali diterapkan pada bidang

Radikal bebas adalah ion molekul tanpa pasangan yang

tertentu, seperti yang dilakukan oleh carolus von linne (atau

mengikat molekul lain yang mengakibatkan molekul/zat tadi

dikenal dengan nama carolus Linnaeus) yang pertama kali

menjadi rusak dan berubah sifat. Misalnya sel-sel pembuluh

mengklasifikasikan spesies berdasarkan karakteristik fisik.

darah menjadi cepat mati atau pembuluh darah menjadi

Selanjutnya dia dikenal sebagai bapak klasifikasi.

sempit. Sel-sel yang berubah sifat contohnya adalah sel-sel

Komponen utama dari proses klasifikasi antara lain

Polusi kimiawi / lingkungan (semprotan nyamuk,

table dari hasil klasifikasi. Sebagai contoh adalah

Polusi elektromagnetik (handphone, layar tv, layar

Polusi dari tubuh sendiri (penyakit kronis seperti

terlalu banyak mengkonsumsi makan. Jantung koroner bisa

yang tepat. Contohnya adalah grup pasien yang telah

2.1 Data Mining

di-test terhadap serangan jantung, grup pelanggan di

Set data pelatihan, merupakan sekumpulan data

kecenderungan dalam keluarga. Namun, penyebab dasar

lengkap yang berisi kelas dan predictor untuk dilatih

mempunyai riwayat penyakit jantung koroner. Artinya ada

diturunkan dari keluarga, jika salah satu anggota keluarga

beralkohol, tekanan darah, status perkawinan, dan

Predictor, merupakan variable bebas suatu model

Kelas, merupakan variable tak bebas yang merupakan

suatu supermarket, dan sebagainya.

Set data uji, berisi data-data baru yang akan

2.2 Algoritma Nave Bayes

Thomas bayes, yaitu memprediksi peluang di masa depan