Anda di halaman 1dari 10

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/326571453

Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung


Menggunakan Kombinasi Metode K-Nearest Neighbor dan Naïve Bayes

Article · September 2018

CITATIONS READS

0 2,497

3 authors, including:

Yuita Arum Sari Achmad Arwan


Brawijaya University Brawijaya University
100 PUBLICATIONS   92 CITATIONS    21 PUBLICATIONS   35 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Eye Movement Detection View project

Melanoma Identification View project

All content following this page was uploaded by Yuita Arum Sari on 24 July 2018.

The user has requested enhancement of the downloaded file.


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X
Vol. 2, No. 9, September 2018, hlm. 2546-2554 http://j-ptiik.ub.ac.id

Seleksi Fitur Information Gain untuk Klasifikasi Penyakit Jantung


Menggunakan Kombinasi Metode K-Nearest Neighbor dan Naïve Bayes
Syafitri Hidayatul Annur Aini1, Yuita Arum Sari2, Achmad Arwan3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1syafitrihidayatul@gmail.com, 2yuita@ub.ac.id, 3arwan@ub.ac.id

Abstrak
Penyakit jantung merupakan salah satu penyakit tidak menular yang dapat menyebabkan kematian.
Penyakit ini terjadi karena adanya penyempitan pada pembuluh darah sehingga menyebabkan fungsi
jantung terganggu. Angka kematian akibat penyakit jantung diperkirakan terus meningkat oleh
Kementrian Kesehatan Republik Indonesia pada tahun 2030 hingga mencapai 23,3 juta penduduk. Hal
tersebut perlu diantisipasi karena jumlah dokter penyakit jantung di Indonesia masih sangat minim.
Penelitian ini mengusulkan penerapan seleksi fitur Information Gain dengan kombinasi K-Nearest
Neighbor (KNN) dan Naïve Bayes untuk mengatasi masalah efektifitas dan akurasi dalam klasifikasi
penyakit jantung. Algoritme Information Gain digunakan untuk mengurangi dimensi atribut untuk
mendapatkan atribut-atribut yang relevan. Setelah proses seleksi fitur Information Gain selesai, proses
selanjutnya adalah melakukan klasifikasi menggunakan KNN untuk atribut-atribut numerik dan Naïve
Bayes untuk atribut-atribut kategoris. Hasil penelitian ini menunjukkan nilai akurasi sebesar 92,31%
pada saat pengujian sebaran kelas seimbang menggunakan 6 fitur dengan nilai K=25 dan pada saat
pengujian sebaran kelas tidak seimbang menggunakan 4 fitur dengan nilai K=35. Berdasarkan hasil
tersebut dapat disimpulkan bahwa algoritme seleksi fitur Information Gain dengan kombinasi KNN dan
Naïve Bayes dapat digunakan untuk klasifikasi penyakit jantung.
Kata kunci: penyakit jantung, seleksi fitur, Information Gain, klasifikasi, K-Nearest Neighbor, Naïve Bayes
Abstract
Heart disease is one of the non contagious diseases that can lead to death. This disease occurs because
of the narrowing of blood vessels that cause impairment of heart function. The death rate that caused
by a heart disease is continuing increase and according by the Ministry of Health of the Republic of
Indonesia research, in 2030 it reach 23.3 million peoples. It should be anticipated because the number
of cardiologists in Indonesia is still very minimal. This research proposes framework Information Gain
selection features with combination K-Nearest Neighbor and Naïve Bayes to overcome the problems on
the effectiveness and accuracy in classification heart disease. Information Gain algorithm used for
reduce variable dimention to get relevant variables. After Information Gain selection features process
is completed, the next process is classify numeric atributes with KNN and categorical atributes with
Naïve Bayes. The results of this research indicate an accuracy of 92.31% when the class distribution
testing is balanced using 6 features with value of K=25 and when the class distribution testing is not
balanced using 4 features with value of K=35. Based on these results, can be concluded that features
selection Information Gain with combination KNN and Naïve Bayes algorithm can be used for
classifying heart disease.
Keywords: heart disease, feature selection, Information Gain, classification, K-Nearest Neighbor, Naïve Bayes

2014). Jika pembuluh darah mengalami


1. PENDAHULUAN penyempitan, maka fungsi jantung akan
Jantung merupakan organ penting dalam mengalami gangguan sehingga menyebabkan
tubuh manusia yang memiliki fungsi utama penyakit jantung. Penyakit ini adalah salah satu
untuk memompa darah ke seluruh bagian tubuh penyakit tidak menular yang dapat menyebabkan
melalui pembuluh darah. (Susilawati, et al., kematian. Kematian dini akibat penyakit jantung
sekitar 4% terjadi di Negara berpenghasilan

Fakultas Ilmu Komputer


Universitas Brawijaya 2546
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2547

tinggi dan 42% terjadi di Negara berpenghasilan Information gain. Metode tersebut akan
rendah. Diperkirakan pada tahun 2030, angka melakukan proses komputasi untuk
kematian akibat penyakit jantung akan terus mendapatkan atribut-atribut yang paling
meningkat mencapai 23,3 juta penduduk. berpengaruh terhadap dataset penyakit jantung.
(Kementrian Kesehatan RI, 2014). Faktor resiko Sedangkan untuk metode klasifikasi yang akan
penyakit jantung antara lain, merokok, kolesterol digunakan dalam penelitian ini adalah kombinasi
tinggi, tekanan darah yang tinggi, diabetes, gaya K-Nearest Neighbor (KNN) dengan Naïve
hidup yang salah, pola makan yang tidak sehat Bayes. Pada penelitian sebelumnya metode
dan stres. (Jabbar, Deekshatulu & Chandra, KNN maupun Naïve Bayes telah diusulkan
2013). untuk klasifikasi penyakit jantung. Lestari
Jumlah dokter jantung di Indonesia masih (2014) melakukan penelitian klasifikasi untuk
sangat minim. Pada tahun 2012 terdapat 555 mendeteksi penyakit jantung menggunakan
orang dokter spesialis penyakit jantung dan KNN. Hasil akurasi yang diperoleh dari
pembuluh darah (SpJP), dimana angka tersebut penelitian tersebut, yaitu sebesar 70%. Penelitian
masih belum cukup ideal jika dibandingkan tentang penyakit jantung juga dilakukan oleh
dengan jumlah penduduk di Indonesia yang (Sharmila & Indragandhi, 2017) menggunakan
mencapai 240 juta jiwa. (Noviardi, 2012). metode Naïve Bayes. Hasil akurasi yang
Perkumpulan Dokter Spesialis Kardiovaskular didapatkan, yaitu sebesar 83,7%. Penelitian
Indonesia (PERKI) menargetkan pada tahun selanjutnya dilakukan oleh (Arifin, 2015)
2019 akan ada 1500 dokter jantung tersebar di menggunakan metode Information Gain dan
seluruh Indonesia. (Andy, 2016). Untuk KNN untuk memprediksi customer churn
mengantisipasi keterlambatan penanganan Telekomunikasi. Hasil penelitian tersebut
pasien, maka diperlukan suatu sistem yang dapat menunjukkan bahwa penggunaan seleksi fitur
membantu dokter-dokter yang kurang Information Gain cukup akurat untuk metode
berpengalaman. Pada umumnya pasien klasifikasi KNN dan menghasilkan tingkat
disarankan mengambil sejumlah tes untuk dapat akurasi sebesar 89,8% pada K-11.
diidentifikasi penyakitnya. Dalam beberapa Naïve Bayes merupakan metode klasifikasi
kasus, tidak semua tes berkontribusi terhadap statistik yang mudah diimplementasikan. Tetapi
diagnosis yang efektif dari sebuah penyakit. Jika ada satu permasalahan yang harus diselesaikan
data medis terdiri dari fitur yang tidak relevan oleh Naïve Bayes, yaitu saat atribut-atribut
dan berlebihan, maka dapat menghasilkan bersifat numerik karena algoritme ini harus
klasifikasi yang kurang akurat. (Jabbar, menentukan kondisi probabilitas dari setiap nilai
Deekshatulu & Chandra, 2013). Menurut data yang memungkinkan pada semua atribut. Untuk
pada UCI Machine Learning Repository terdapat memperbaiki masalah tersebut, perlu dilakukan
13 fitur yang digunakan dalam melakukan diskritisasi atribut numerik ke dalam beberapa
diagnosis penyakit jantung, yaitu umur, jenis kelas dengan mengadopsi sebuah teknik
kelamin, jenis nyeri dada, tekanan darah, kadar diskritisasi dari berbagai pilihan yang tersedia.
kolestrol, kadar gula darah, hasil Jadi, teknik yang digunakan dari diskritisasi
electrocardiography, rata-rata detak jantung, berperan penting terhadap akurasi. (Ferdousy,
exercise induced angina, oldpeak, the slope of Islam & Matin, 2013). Sedangkan KNN juga
the peak exercise ST segment, number of major memiliki suatu permasalahan, dimana
vessels (0-3) colored by flourosopy dan thal. permasalahan tersebut berlawanan dengan kasus
Jumlah fitur tersebut sangat banyak sehingga Naïve Bayes. Persoalan yang dialami metode ini
dibutuhkan sebuah sistem klasifikasi penyakit berhubungan dengan atribut yang bersifat
jantung dengan teknik seleksi fitur untuk kategoris. Sebagai algoritme yang melakukan
menghasilkan diagnosis yang lebih efektif dan pemilihan segmen dari data latih berdasarkan
akurat. jarak, skema pengukuran sebuah jarak pada data
Seleksi fitur merupakan teknik untuk kategoris harus diperoleh. (Ferdousy, Islam &
mengurangi dimensi atribut. Pengurangan Matin, 2013).
dimensi tersebut dilakukan untuk mendapatkan Untuk mengatasi permasalahan dari metode
atribut-atribut yang relevan dan tidak berlebihan KNN dan Naïve Bayes, terdapat penelitian yang
sehingga dapat mempercepat proses klasifikasi telah dilakukan sebelumnya terkait dengan
dan dapat meningkatkan akurasi dari algoritme penggabungan metode KNN dan Naïve Bayes,
klasifikasi. (Arifin, 2015). Metode seleksi fitur yaitu penelitian yang dilakukan oleh (Ferdousy,
yang digunakan dalam penelitian ini adalah Islam & Matin, 2013) yang menunjukkan bahwa

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2548

kombinasi antara KNN dan Naïve Bayes atribut tersebut adalah sebagai berikut
memberikan hasil yang lebih baik daripada (Maspiyanti & Gatc, 2015):
menggunakan metode Naïve Bayes saja terutama 1. Age: Umur
dalam hal tingkat akurasi. Sebagai salah satu 2. Sex: Jenis kelamin
contoh data yang digunakan dalam penelitian 3. Chest Pain Type: Jenis nyeri dada. Atribut
tersebut adalah dataset tentang penyakit jantung ini memiliki empat nilai, yaitu typical
menunjukkan tingkat akurasi sebesar 85,92%.. angina, atypical angina, non-anginal pain
Pada penelitian ini kami mengusulkan dan asymptomatic
metode Information Gain dengan kombinasi dua 4. Resting Blood Pressure: Tekanan darah saat
metode klasifikasi, yaitu KNN dan Naïve Bayes pasien beristirahat
untuk mendapatkan hasil akurasi yang lebih 5. Serum Cholestoral: Kadar kolesterol
tinggi pada klasifikasi penyakit jantung. Selain 6. Fasting Blood Sugar: Kadar gula darah.
itu juga penggabungan dari metode KNN dan Atribut ini memiliki dua nilai, yaitu TRUE
Naïve Bayes memiliki kelebihan, yaitu tidak jika lebih dari 120 mg/dl dan FALSE jika
perlunya melakukan diskritisasi lagi terhadap kurang dari sama dengan 120 mg/dl
variabel yang bersifat kontinyu dan disaat yang 7. Resting Electrocardiographic Results:
sama juga tidak perlu lagi melakukan Kondisi electrocardiography pasien saat
pengukuran jarak diantara atribut yang bersifat sedang beristirahat. Terdapat tiga nilai,
kategoris. yaitu 0 untuk kondisi normal, 1 untuk
kondisi ST-T wave abnormality (kondisi
2. METODOLOGI PENELITIAN saat gelombang inversions T dan atau ST
Tahap awal seleksi fitur Information Gain meningkat ataupun menurun lebih dari 0,5
untuk klasifikasi penyakit jantung menggunakan mV) dan 2 untuk kondisi saat ventricular
kombinasi metode KNN dan Naive Bayes adalah kiri mengalami hipertropi
melakukan konversi data rekam medis yang 8. Maximum Heart Rate Achieved: Rata-rata
bersifat numerik menjadi kategoris. Data yang detak jantung
sudah dikonversi akan diproses oleh Information 9. Exercise Induced Angina: Kondisi saat
Gain untuk mendapatkan atribut-atribut yang pasien mengalami nyeri dada jika
memiliki pengaruh yang tinggi terhadap berolahraga
klasifikasi penyakit jantung sehingga dapat 10. Oldpeak: Penurunan ST karena olahraga
dilakukan seleksi fitur atau pengurangan jumlah 11. The Slope of the Peak Exercise ST
atribut yang akan dipakai dalam proses Segment: slope dari puncak ST setelah
klasifikasi. Saat proses klasifikasi, data yang berolahraga. Memiliki tiga nilai antara lain,
digunakan sebagai data latih adalah data rekam upsloping, flat dan downsloping
medis sebelum dikonversi. Proses yang pertama 12. Number of Major Vessels (0-3) Colored by
yaitu menghitung data yang bersifat numerik Flourosopy: Banyaknya pembuluh darah
terlebih dahulu dengan metode KNN yang yang terdeteksi melalui proses pewarnaan
menggunakan konsep perhitungan jarak. Setelah flourosopy
13. Thal: Pemeriksaan thallium. Terdapat tiga
mendapatkan hasil perhitungan KNN berupa
data yang telah diurutkan dari jarak yang terkecil nilai, yaitu normal, fixed defect dan reversal
hingga terbesar sebanyak K, akan dilanjutkan defect
dengan perhitungan data yang bersifat kategoris
2.2. Information Gain
dengan metode Naïve Bayes. Alur penyelesaian
masalah secara umum yang telah dijelaskan Information Gain merupakan metode
dapat dilihat pada Gambar 1. seleksi fitur paling sederhana dengan melakukan
perangkingan atribut dan banyak digunakan
2.1. Data dalam aplikasi kategorisasi teks, analisis data
Data yang digunakan dalam penelitian ini microarray dan analisis data citra. (Chormunge
adalah dataset statlog penyakit jantung yang & Jena, 2016). Information Gain dapat
didapat dari UCI Machine Learning Repository. membantu mengurangi noise yang disebabkan
Dataset statlog penyakit jantung terdiri dari 270 oleh fitur-fitur yang tidak relevan. Information
data dengan 13 atribut dan dua label kelas, yaitu Gain mendeteksi fitur-fitur yang paling banyak
Terkena Penyakit Jantung (TPJ) dan Tidak memiliki informasi berdasarkan kelas tertentu.
Terkena Penyakit Jantung (TTPJ). Atribut- Penentuan atribut terbaik dilakukan dengan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2549

menghitung nilai entropy terlebih dahulu. n-dimensi dan disimpan dalam ruang n-dimensi.
Entropy merupakan ukuran ketidakpastian kelas Ketika sampel data uji (label kelas tidak
dengan menggunakan probabilitas kejadian atau diketahui) diberikan, K-Nearest Neighbor
atribut tertentu. (Shaltout, et al., 2014). Rumus mencari sampel k pelatihan yang paling dekat
untuk menghitung entropy ditunjukkan pada dengan sampel data uji. (Karegowda, et al.,
persamaan (1). Setelah mendapatkan nilai 2012). “Kedekatan” biasanya didefinisikan
entropy, maka perhitungan Information Gain dalam hal jarak metrik. Dalam penelitian ini,
dapat dilakukan dengan menggunakan pengukuran jarak akan dilakukan menggunakan
persamaan (2). (Firmahsyah & Gantini, 2016). euclidean distance. Rumus euclidean distance
𝑐
direpresentasikan pada persamaan (3). (Lestari,
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖 (1) 2014).
𝑖
𝑛
Dengan c adalah jumlah nilai yang ada pada (3)
𝑑(𝑥𝑖 ,𝑥𝑗 ) = √∑(𝑥𝑖𝑟 − 𝑥𝑗𝑟 )2
kelas klasifikasi dan Pi merupakan jumlah 𝑟=1
sampel untuk kelas i.
Keterangan:
|𝑆𝑣 |
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑𝑉𝑎𝑙𝑢𝑒𝑠(𝐴) |𝑆|
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣 ) (2) d(xi,xj) = Jarak euclidean
n = Dimensi data
Dengan A merupakan atribut, v adalah nilai xi = Data uji/testing
yang mungkin untuk atribut A, Values(A) adalah xj = Data latih
himpunan nilai-nilai yang mungkin untuk A, |Sv|
adalah jumlah sampel untuk nilai v, |S| Secara umum langkah-langkah untuk
merupakan jumlah seluruh sampel data dan perhitungan KNN pada penelitian ini, yaitu:
Entropy(Sv) adalah entropy untuk sampel- 1. Menentukan nilai K
sampel yang memiliki nilai v. 2. Menghitung jarak antara data uji dengan
data latih yang bersifat numerik
Start 3. Mengurutkan jarak dari yang terkecil
hingga terbesar
Data rekam 4. Mengambil data sebanyak K terdekat
medis jantung 5. Memilih kelas mayor

2.4. Naïve Bayes


Information Gain
Klasifikasi Bayesian merupakan klasifikasi
statistik yang dapat memprediksi probabilitas
KNN keanggotaan kelas. Klasifikasi Bayesian
didasarkan pada teorema Bayes. Klasifikasi
Naïve Bayes
Bayesian lebih dikenal sebagai klasifikasi Naïve
Bayes. Naïve bayes berasumsi bahwa pengaruh
dari nilai atribut pada kelas yang diberikan
Klasifikasi adalah saling lepas dengan nilai-nilai atribut
Penyakit Jantung lainnya. Hal ini dilakukan untuk
menyederhanakan perhitungan yang terlibat dan
dalam pengertian ini dianggap “naive”. (Han,
End
2012). Teorema Bayes menyediakan cara
Gambar 1 Diagram Alir Usulan Metode
menghitung probabilitas posterior P(c|e) dari
P(c), P(e) dan P(e|c) yang ditunjukkan pada
2.3. K-Nearest Neighbor persamaan (4) dan (5). (Rahangdale, et al.,
2016).
K-Nearest Neighbor disebut juga lazy
learner karena berbasis pembelajaran. K- 𝑃(𝑒|𝑐). 𝑃(𝑐) (4)
Nearest Neighbor menunda proses pemodelan 𝑃(𝑐|𝑒) =
𝑃(𝑒)
data pelatihan sampai dibutuhkan untuk
mengklasifikasikan sampel data uji. Sampel data 𝑃(𝑐|𝑒) = 𝑃(𝑒1 |𝑐) ∗ 𝑃(𝑒2 |𝑐) ∗ … ∗ 𝑃(𝑒𝑛 |𝑐) ∗ 𝑃(𝑐) (5)
latih dijelaskan oleh atribut-atribut numerik pada

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2550

Di mana: 3.1.1. Pengujian Sebaran Kelas Seimbang


P(c|e) = Probabilitas posterior (c merupakan pada Data Latih
kelas dan e merupakan atribut atau
Proses pengujian sebaran kelas seimbang
event)
ini menggunakan data latih dengan label kelas
P(c) = Probabilitas prior dari kelas
TPJ berjumlah 118 dan label kelas TTPJ
P(e|c) = Probabilitas likelihood
berjumlah 118. Sedangkan untuk data uji yang
P(e) = Probabilitas prior dari predictor
digunakan adalah 26 data dengan sebaran kelas
(event)
2 data berlabel TPJ dan 24 data berlabel TTPJ.
Hasil pengujian terhadap sebaran kelas tidak
Pada penelitian ini pehitungan dengan
seimbang pada data latih dapat dilihat pada
Naïve Bayes dilakukan berdasarkan hasil dari
Gambar 2 dan Gambar 3. Gambar 2
pehitungan KNN. Data latih yang digunakan
menunjukkan grafik hasil pengujian saat nilai
merupakan data kategoris yang diambil
K=5 sampai K=45 dan Gambar 3 menunjukkan
berdasarkan pengurutan jarak KNN dan jumlah
grafik hasil pengujian saat nilai K=55 sampai
pemilihan tetangga terdekat dari KNN akan
K=95.
menjadi jumlah data latih dari Naïve Bayes.
Berdasarkan hasil pengujian yang
Secara umum langkah-langkah perhitungan
dilakukan pada sebaran kelas seimbang,
Naïve Bayes pada penelitian ini adalah sebagai
diperoleh hasil akurasi terendah dan tertinggi
berikut:
yang ditunjukkan pada Gambar 2. Nilai akurasi
1. Menghitung prior masing-masing kelas,
terendah sebesar 61,54% diperoleh pada saat
yaitu dengan cara menghitung total masing-
jumlah fitur yang digunakan adalah 11, 12 dan
masing label kelas pada data latih dan
13 dengan nilai K= 5 dan nilai akurasi tertinggi
membaginya dengan total data latih.
sebesar 92,31% diperoleh saat jumlah fitur yang
2. Menghitung likelihood, yaitu menghitung
digunakan adalah 6 dengan nilai K=25.
probabilitas masing-masing atribut
3. Menghitung posterior
3.1.2. Pengujian Sebaran Kelas Tidak
4. Menentukan label kelas dengan melakukan
Seimbang pada Data Latih
perbandingan antar nilai posterior. Label
kelas dengan nilai posterior terbesar akan Proses pengujian sebaran kelas tidak
menjadi label kelas data yang diuji seimbang ini menggunakan data latih dengan
label kelas TPJ berjumlah 110 dan label kelas
3. PENGUJIAN DAN ANALISIS TTPJ berjumlah 126. Sedangkan untuk data uji
yang digunakan adalah 26 data dengan sebaran
3.1. Pengujian kelas 2 data berlabel TPJ dan 24 data berlabel
Pengujian yang dilakukan pada penelitian TTPJ. Hasil pengujian terhadap sebaran kelas
ini adalah pengujian akurasi dengan tidak seimbang pada data latih dapat dilihat pada
menggunakan jumlah fitur 3 sampai dengan 13 Gambar 4 dan Gambar 5. Gambar 4
dan nilai K dengan kelipatan 10 yang dimulai menunjukkan grafik hasil pengujian saat nilai
dari 5 sampai dengan 95. Terdapat dua skenario K=5 sampai K=45 dan Gambar 5 menunjukkan
dalam pengujian, yaitu pengujian dengan grafik hasil pengujian saat nilai K=55 sampai
sebaran kelas seimbang dan pengujian dengan K=95.
sebaran kelas tidak seimbang pada data latih. Berdasarkan hasil pengujian yang
Jumlah data uji yang digunakan dalam penelitian dilakukan pada sebaran kelas tidak seimbang,
ini adalah 26 data yang bersifat tetap, sedangkan diperoleh hasil akurasi terendah dan tertinggi
untuk data latih berjumlah 236. Jumlah data latih yang ditunjukkan pada Gambar 4. Nilai akurasi
tersebut dipilih karena saat melakukan terendah sebesar 57,69% diperoleh pada saat
perhitungan dengan metode Information Gain jumlah fitur yang digunakan adalah 11 dengan
skenario dengan sebaran kelas seimbang dan nilai K= 5 dan nilai akurasi tertinggi sebesar
sebaran kelas tidak seimbang memiliki hasil 92,31% diperoleh saat jumlah fitur yang
urutan atribut yang sama untuk masuk ke proses digunakan adalah 4 dengan nilai K=25.
klasifikasi menggunakan KNN dan Naïve Bayes.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2551

Gambar 2 Grafik Hasil Pengujian Sebaran Kelas Seimbang (K=5 sampai K=45)

Gambar 3 Grafik Hasil Pengujian Sebaran Kelas Seimbang (K=55 sampai K=95)

Gambar 4 Grafik Hasil Pengujian Sebaran Kelas Tidak Seimbang (K=5 sampai K=45)

Gambar 5 Grafik Hasil Pengujian Sebaran Kelas Tidak Seimbang (K=55 sampai K=95)

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2552

3.2. Analisis mengakibatkan kesalahan dalam hasil


klasifikasi. Dalam penelitian ini, saat nilai akhir
Dalam penelitian ini nilai K sangat
pada Naïve Bayes bernilai 0 maka keputusan
berpengaruh dalam menentukan hasil klasifikasi,
hasil klasifikasi diambil dari kelas mayor pada
karena saat prosess KNN selesai, maka nilai K
KNN.
tersebut akan digunakan untuk pembentukan
model pada metode selanjutnya, yaitu Naïve Tabel 3 Perbandingan Akurasi Kelas Seimbang
Bayes. Nilai K akan menentukan jumlah data dengan 13 fitur dan 4 fitur
latih yang akan digunakan Naïve Bayes untuk Sebaran Kelas Seimbang
melakukan perhitungan probabilitas, sehingga Akurasi Tanpa Akurasi
Nilai
dapat menentukan hasil klasifikasi. Menggunakan Menggunakan
K
Information Gain Information Gain (4
(13 fitur) fitur)
Tabel 1 Perbandingan Akurasi Kelas Tidak
5 73,08% 84,62%
Seimbang dengan 13 fitur dan 6 fitur 15 80,77% 88.,46%
Sebaran Kelas Tidak Seimbang 25 84,62% 88,46%
Akurasi Tanpa Akurasi 35 80,77% 92,31%
Nilai
Menggunakan Menggunakan 45 80,77% 84,62%
K
Information Gain Information Gain (6 55 84,62% 88,46%
(13 fitur) fitur) 65 80,77% 88,46%
5 73,08% 88,46% 75 84,62% 84,62%
15 80,77% 84,62% 85 80,77% 84,62%
25 84,62% 88,46% 95 76,92% 84,62%
35 80,77% 88,46%
45 80,77% 88,46%
55 84,62% 84,62% Tabel 4 Perbandingan Akurasi Seimbang dengan 13
65 80,77% 84,62% fitur dan 4 fitur
75 84,62% 84,62% Sebaran Kelas Seimbang
85 80,77% 84,62% Akurasi Tanpa Akurasi
Nilai
95 76,92% 88,46% Menggunakan Menggunakan
K
Information Gain Information Gain (4
(13 fitur) fitur)
Tabel 2 Perbandingan Akurasi Kelas Seimbang
5 61,54% 84,62%
dengan 13 fitur dan 6 fitur 15 80,77% 84,62%
Sebaran Kelas Seimbang 25 80,77% 88,46%
Akurasi Tanpa Akurasi 35 80,77% 88,46%
Nilai
Menggunakan Menggunakan 45 76,92% 84,62%
K
Information Gain Information Gain (6 55 80,77% 84,62%
(13 fitur) fitur) 65 80,77% 88,46%
5 61,54% 84,62% 75 80,77% 84,62%
15 80,77% 84,62% 85 80,77% 84,62%
25 80,77% 92,31% 95 80,77% 84,62%
35 80,77% 88,46%
45 76,92% 84,62%
55 80,77% 84,62% Tabel 1 sampai dengan Tabel 4
65 80,77% 84,62% menunjukkan bahwa penggunaan seleksi fitur
75 80,77% 84,62% Information Gain menghasilkan nilai akurasi
85 80,77% 84,62% yang lebih baik dibandingkan tanpa
95 80,77% 84,62%
menggunakan Information Gain. Saat nilai K=5
akurasi yang dihasilkan sistem tanpa
Berdasarkan pengujian yang telah
menggunakan Information Gain menunjukkan
dilakukan, nilai akurasi terendah yang diperoleh
hasil yang kurang baik pada sebaran kelas
saat pengujian sebaran kelas seimbang dan tidak
seimbang maupun tak seimbang yaitu 61,54%
seimbang berada saat nilai K=5. Hal tersebut
pada sebaran kelas seimbang dan 73,08% pada
terjadi karena saat nilai K=5 maka secara
sebaran kelas tidak seimbang, sedangkan saat
otomatis data latih yang digunakan untuk proses
dilakukan pengurangan fitur dengan Information
Naïve Bayes hanya berjumlah 5 dan data latih
Gain hasil akurasi sistem yang diperoleh cukup
tersebut diambil secara acak berdasarkan hasil
baik yaitu 84,62% bahkan mencapai 88,46% saat
pengurutan KNN. Nilai K=5 terlalu sedikit untuk
fitur yang digunakan berjumlah 6 dengan
dijadikan data latih Naïve Bayes dengan jumlah
sebaran kelas tidak seimbang. Pengurangan fitur
fitur yang cukup banyak, karena saat melakukan
yang dilakukan dengan Information Gain juga
perhitungan peluang kemunculan data, terlalu
menunjukkan nilai akurasi sistem yang cukup
banyak data yang bernilai 0 sehingga

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2553

stabil dengan nilai K yang bervariasi baik 56.


menggunakan 6 fitur maupun 4 fitur. Han, J., 2012. Data Mining Concepts and
Techniques. third ed. Amerika: s.n.
4. KESIMPULAN Jabbar, M. A., Deekshatulu, B. & Chandra, P.,
Kesimpulan dari hasil penelitian tentang 2013. Classification of Heart Disease
klasifikasi penyakit jantung menggunakan using Artificial Neural Network and
seleksi fitur Information Gain dengan kombinasi Feature Subset Selection. Global
KNN dan Naïve Bayes, yaitu nilai akurasi Journal Of Computer Science And
tertinggi yang diperoleh saat menggunakan data Technology Neural & Artificial
latih dengan label kelas seimbang, yaitu sebesar Intelligence, 13(3), pp. 5-14.
92,31% saat menggunakan enam fitur dengan Kementrian Kesehatan RI, 2014. PUSAT DATA
nilai K=25. Enam fitur yang digunakan antara DAN INFORMASI KEMENTRIAN
lain, thal, jenis nyeri dada, flourosopy, rata-rata KESEHATAN RI. In: Situasi Kesehatan
detak jantung, oldpeak dan exercise induced Jantung. Jakarta: Kementrian Kesehatan
angina. Sedangkan nilai akurasi tertinggi yang RI, pp. 1-8.
diperoleh saat menggunakan data latih dengan Lestari, M., 2014. Penerapan Algoritma
label kelas tidak seimbang, yaitu sebesar 92,31% Klasifikasi Nearest Neighbor (K-Nn)
saat menggunakan empat fitur dengan nilai Untuk Mendeteksi Penyakit Jantung.
K=35. Empat fitur yang digunakan antara lain, Faktor Exacta, pp. 366-371.
thal, jenis nyeri dada, flourosopy dan rata-rata Lichman, M., 2013. UCI Machine Learning
detak jantung. Hasil tersebut menunjukkan Repository. [Online] Available at:
bahwa algoritme Information Gain dengan http://archive.ics.uci.edu/ml [Accessed
kombinasi KNN dan Naïve Bayes dapat 09 Januari 2017].
digunakan untuk klasifikasi penyakit jantung. Maspiyanti, F. & Gatc, J., 2015. Diagnosa
Penyakit Jantung Pada Ponsel
Saran yang dapat diberikan untuk penelitian Menggunakan Pohon Keputusan.
selanjutnya adalah sistem dapat dikembangkan Teknologi Terpadu, Volume 1, pp. 13-
dengan menggunakan teknik seleksi fitur lain, 20.
yaitu analisis korelasi dan melakukan weighting Noviardi, A., 2012. JUMLAH DOKTER:
pada kelas untuk mengatasi keadaan saat Indonesia butuh tambahan spesialis
posterior pada Naïve Bayes bernilai sama. jantung. [Online] Available at:
http://industri.bisnis.com/read/2012042
5. DAFTAR PUSTAKA 3/12/73793/jumlah-dokter-indonesia-
Andy, 2016. Indonesia Butuh 1.500 Dokter butuh-tambahan-spesialis-jantung
Jantung pada 2019, Ini Alasannya. [Accessed 05 Maret 2017].
[Online] Available at: Rahangdale, G., Ahirwar, M. M. & Motwani, D.
http://liputan8.com/2016/04/16/indones M., 2016. Application of k-NN and
ia-butuh-1-500-dokter-jantung-pada- Naive Bayes Algorithm in Banking and
2019-ini-alasannya/ [Accessed 05 Maret Insurance Domain. International
2017]. Journal of Computer Science, 13(5), pp.
Arifin, M., 2015. IG-KNN untuk Prediksi 69-75.
Customer Churn Telekomunikasi. Shaltout, N. A., El-Hefnawi, M., Rafea, A. &
Jurnal SIMETRIS, Volume 6, pp. 1-10. Moustafa, A., 2014. Information Gain as
Chormunge, S. & Jena, S., 2016. Efficient a Feature Selection Method for the
Feature Subset Selection Algorithm for Efficient Classification of Influenza
High Dimensional Data. International Based on Viral Hosts. London, U.K,
Journal of Electrical and Computer WCE.
Engineering (IJECE) , Volume 6, pp. Sharmila, S. & Indragandhi, M. P., 2017.
1880-1888. Improved Heart Disease Prediction used
Ferdousy, E. Z., Islam, M. M. & Matin, M. A., Data Mining Techniques. International
2013. Combination of Naive Bayes Journal of Information Technology
Classifier and K-Nearest Neighbor (IJIT), 3(2), pp. 38-40.
(cNK) in the Classification Based Susilawati, Rachman, A., Nurulniza, A. B. &
Predictive Models. Computer and Utomo, C. P., 2014. Diagnosa Penyakit
Information Science, Volume 6, pp. 48- Jantung Menggunakan Teknik

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2554

Automatic Post Pruning Decision Tree.


Jurnal Sistem Informasi, Volume 5, pp.
132-137.

Fakultas Ilmu Komputer, Universitas Brawijaya

View publication stats

Anda mungkin juga menyukai