net/publication/326571453
CITATIONS READS
0 2,497
3 authors, including:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Yuita Arum Sari on 24 July 2018.
Abstrak
Penyakit jantung merupakan salah satu penyakit tidak menular yang dapat menyebabkan kematian.
Penyakit ini terjadi karena adanya penyempitan pada pembuluh darah sehingga menyebabkan fungsi
jantung terganggu. Angka kematian akibat penyakit jantung diperkirakan terus meningkat oleh
Kementrian Kesehatan Republik Indonesia pada tahun 2030 hingga mencapai 23,3 juta penduduk. Hal
tersebut perlu diantisipasi karena jumlah dokter penyakit jantung di Indonesia masih sangat minim.
Penelitian ini mengusulkan penerapan seleksi fitur Information Gain dengan kombinasi K-Nearest
Neighbor (KNN) dan Naïve Bayes untuk mengatasi masalah efektifitas dan akurasi dalam klasifikasi
penyakit jantung. Algoritme Information Gain digunakan untuk mengurangi dimensi atribut untuk
mendapatkan atribut-atribut yang relevan. Setelah proses seleksi fitur Information Gain selesai, proses
selanjutnya adalah melakukan klasifikasi menggunakan KNN untuk atribut-atribut numerik dan Naïve
Bayes untuk atribut-atribut kategoris. Hasil penelitian ini menunjukkan nilai akurasi sebesar 92,31%
pada saat pengujian sebaran kelas seimbang menggunakan 6 fitur dengan nilai K=25 dan pada saat
pengujian sebaran kelas tidak seimbang menggunakan 4 fitur dengan nilai K=35. Berdasarkan hasil
tersebut dapat disimpulkan bahwa algoritme seleksi fitur Information Gain dengan kombinasi KNN dan
Naïve Bayes dapat digunakan untuk klasifikasi penyakit jantung.
Kata kunci: penyakit jantung, seleksi fitur, Information Gain, klasifikasi, K-Nearest Neighbor, Naïve Bayes
Abstract
Heart disease is one of the non contagious diseases that can lead to death. This disease occurs because
of the narrowing of blood vessels that cause impairment of heart function. The death rate that caused
by a heart disease is continuing increase and according by the Ministry of Health of the Republic of
Indonesia research, in 2030 it reach 23.3 million peoples. It should be anticipated because the number
of cardiologists in Indonesia is still very minimal. This research proposes framework Information Gain
selection features with combination K-Nearest Neighbor and Naïve Bayes to overcome the problems on
the effectiveness and accuracy in classification heart disease. Information Gain algorithm used for
reduce variable dimention to get relevant variables. After Information Gain selection features process
is completed, the next process is classify numeric atributes with KNN and categorical atributes with
Naïve Bayes. The results of this research indicate an accuracy of 92.31% when the class distribution
testing is balanced using 6 features with value of K=25 and when the class distribution testing is not
balanced using 4 features with value of K=35. Based on these results, can be concluded that features
selection Information Gain with combination KNN and Naïve Bayes algorithm can be used for
classifying heart disease.
Keywords: heart disease, feature selection, Information Gain, classification, K-Nearest Neighbor, Naïve Bayes
tinggi dan 42% terjadi di Negara berpenghasilan Information gain. Metode tersebut akan
rendah. Diperkirakan pada tahun 2030, angka melakukan proses komputasi untuk
kematian akibat penyakit jantung akan terus mendapatkan atribut-atribut yang paling
meningkat mencapai 23,3 juta penduduk. berpengaruh terhadap dataset penyakit jantung.
(Kementrian Kesehatan RI, 2014). Faktor resiko Sedangkan untuk metode klasifikasi yang akan
penyakit jantung antara lain, merokok, kolesterol digunakan dalam penelitian ini adalah kombinasi
tinggi, tekanan darah yang tinggi, diabetes, gaya K-Nearest Neighbor (KNN) dengan Naïve
hidup yang salah, pola makan yang tidak sehat Bayes. Pada penelitian sebelumnya metode
dan stres. (Jabbar, Deekshatulu & Chandra, KNN maupun Naïve Bayes telah diusulkan
2013). untuk klasifikasi penyakit jantung. Lestari
Jumlah dokter jantung di Indonesia masih (2014) melakukan penelitian klasifikasi untuk
sangat minim. Pada tahun 2012 terdapat 555 mendeteksi penyakit jantung menggunakan
orang dokter spesialis penyakit jantung dan KNN. Hasil akurasi yang diperoleh dari
pembuluh darah (SpJP), dimana angka tersebut penelitian tersebut, yaitu sebesar 70%. Penelitian
masih belum cukup ideal jika dibandingkan tentang penyakit jantung juga dilakukan oleh
dengan jumlah penduduk di Indonesia yang (Sharmila & Indragandhi, 2017) menggunakan
mencapai 240 juta jiwa. (Noviardi, 2012). metode Naïve Bayes. Hasil akurasi yang
Perkumpulan Dokter Spesialis Kardiovaskular didapatkan, yaitu sebesar 83,7%. Penelitian
Indonesia (PERKI) menargetkan pada tahun selanjutnya dilakukan oleh (Arifin, 2015)
2019 akan ada 1500 dokter jantung tersebar di menggunakan metode Information Gain dan
seluruh Indonesia. (Andy, 2016). Untuk KNN untuk memprediksi customer churn
mengantisipasi keterlambatan penanganan Telekomunikasi. Hasil penelitian tersebut
pasien, maka diperlukan suatu sistem yang dapat menunjukkan bahwa penggunaan seleksi fitur
membantu dokter-dokter yang kurang Information Gain cukup akurat untuk metode
berpengalaman. Pada umumnya pasien klasifikasi KNN dan menghasilkan tingkat
disarankan mengambil sejumlah tes untuk dapat akurasi sebesar 89,8% pada K-11.
diidentifikasi penyakitnya. Dalam beberapa Naïve Bayes merupakan metode klasifikasi
kasus, tidak semua tes berkontribusi terhadap statistik yang mudah diimplementasikan. Tetapi
diagnosis yang efektif dari sebuah penyakit. Jika ada satu permasalahan yang harus diselesaikan
data medis terdiri dari fitur yang tidak relevan oleh Naïve Bayes, yaitu saat atribut-atribut
dan berlebihan, maka dapat menghasilkan bersifat numerik karena algoritme ini harus
klasifikasi yang kurang akurat. (Jabbar, menentukan kondisi probabilitas dari setiap nilai
Deekshatulu & Chandra, 2013). Menurut data yang memungkinkan pada semua atribut. Untuk
pada UCI Machine Learning Repository terdapat memperbaiki masalah tersebut, perlu dilakukan
13 fitur yang digunakan dalam melakukan diskritisasi atribut numerik ke dalam beberapa
diagnosis penyakit jantung, yaitu umur, jenis kelas dengan mengadopsi sebuah teknik
kelamin, jenis nyeri dada, tekanan darah, kadar diskritisasi dari berbagai pilihan yang tersedia.
kolestrol, kadar gula darah, hasil Jadi, teknik yang digunakan dari diskritisasi
electrocardiography, rata-rata detak jantung, berperan penting terhadap akurasi. (Ferdousy,
exercise induced angina, oldpeak, the slope of Islam & Matin, 2013). Sedangkan KNN juga
the peak exercise ST segment, number of major memiliki suatu permasalahan, dimana
vessels (0-3) colored by flourosopy dan thal. permasalahan tersebut berlawanan dengan kasus
Jumlah fitur tersebut sangat banyak sehingga Naïve Bayes. Persoalan yang dialami metode ini
dibutuhkan sebuah sistem klasifikasi penyakit berhubungan dengan atribut yang bersifat
jantung dengan teknik seleksi fitur untuk kategoris. Sebagai algoritme yang melakukan
menghasilkan diagnosis yang lebih efektif dan pemilihan segmen dari data latih berdasarkan
akurat. jarak, skema pengukuran sebuah jarak pada data
Seleksi fitur merupakan teknik untuk kategoris harus diperoleh. (Ferdousy, Islam &
mengurangi dimensi atribut. Pengurangan Matin, 2013).
dimensi tersebut dilakukan untuk mendapatkan Untuk mengatasi permasalahan dari metode
atribut-atribut yang relevan dan tidak berlebihan KNN dan Naïve Bayes, terdapat penelitian yang
sehingga dapat mempercepat proses klasifikasi telah dilakukan sebelumnya terkait dengan
dan dapat meningkatkan akurasi dari algoritme penggabungan metode KNN dan Naïve Bayes,
klasifikasi. (Arifin, 2015). Metode seleksi fitur yaitu penelitian yang dilakukan oleh (Ferdousy,
yang digunakan dalam penelitian ini adalah Islam & Matin, 2013) yang menunjukkan bahwa
kombinasi antara KNN dan Naïve Bayes atribut tersebut adalah sebagai berikut
memberikan hasil yang lebih baik daripada (Maspiyanti & Gatc, 2015):
menggunakan metode Naïve Bayes saja terutama 1. Age: Umur
dalam hal tingkat akurasi. Sebagai salah satu 2. Sex: Jenis kelamin
contoh data yang digunakan dalam penelitian 3. Chest Pain Type: Jenis nyeri dada. Atribut
tersebut adalah dataset tentang penyakit jantung ini memiliki empat nilai, yaitu typical
menunjukkan tingkat akurasi sebesar 85,92%.. angina, atypical angina, non-anginal pain
Pada penelitian ini kami mengusulkan dan asymptomatic
metode Information Gain dengan kombinasi dua 4. Resting Blood Pressure: Tekanan darah saat
metode klasifikasi, yaitu KNN dan Naïve Bayes pasien beristirahat
untuk mendapatkan hasil akurasi yang lebih 5. Serum Cholestoral: Kadar kolesterol
tinggi pada klasifikasi penyakit jantung. Selain 6. Fasting Blood Sugar: Kadar gula darah.
itu juga penggabungan dari metode KNN dan Atribut ini memiliki dua nilai, yaitu TRUE
Naïve Bayes memiliki kelebihan, yaitu tidak jika lebih dari 120 mg/dl dan FALSE jika
perlunya melakukan diskritisasi lagi terhadap kurang dari sama dengan 120 mg/dl
variabel yang bersifat kontinyu dan disaat yang 7. Resting Electrocardiographic Results:
sama juga tidak perlu lagi melakukan Kondisi electrocardiography pasien saat
pengukuran jarak diantara atribut yang bersifat sedang beristirahat. Terdapat tiga nilai,
kategoris. yaitu 0 untuk kondisi normal, 1 untuk
kondisi ST-T wave abnormality (kondisi
2. METODOLOGI PENELITIAN saat gelombang inversions T dan atau ST
Tahap awal seleksi fitur Information Gain meningkat ataupun menurun lebih dari 0,5
untuk klasifikasi penyakit jantung menggunakan mV) dan 2 untuk kondisi saat ventricular
kombinasi metode KNN dan Naive Bayes adalah kiri mengalami hipertropi
melakukan konversi data rekam medis yang 8. Maximum Heart Rate Achieved: Rata-rata
bersifat numerik menjadi kategoris. Data yang detak jantung
sudah dikonversi akan diproses oleh Information 9. Exercise Induced Angina: Kondisi saat
Gain untuk mendapatkan atribut-atribut yang pasien mengalami nyeri dada jika
memiliki pengaruh yang tinggi terhadap berolahraga
klasifikasi penyakit jantung sehingga dapat 10. Oldpeak: Penurunan ST karena olahraga
dilakukan seleksi fitur atau pengurangan jumlah 11. The Slope of the Peak Exercise ST
atribut yang akan dipakai dalam proses Segment: slope dari puncak ST setelah
klasifikasi. Saat proses klasifikasi, data yang berolahraga. Memiliki tiga nilai antara lain,
digunakan sebagai data latih adalah data rekam upsloping, flat dan downsloping
medis sebelum dikonversi. Proses yang pertama 12. Number of Major Vessels (0-3) Colored by
yaitu menghitung data yang bersifat numerik Flourosopy: Banyaknya pembuluh darah
terlebih dahulu dengan metode KNN yang yang terdeteksi melalui proses pewarnaan
menggunakan konsep perhitungan jarak. Setelah flourosopy
13. Thal: Pemeriksaan thallium. Terdapat tiga
mendapatkan hasil perhitungan KNN berupa
data yang telah diurutkan dari jarak yang terkecil nilai, yaitu normal, fixed defect dan reversal
hingga terbesar sebanyak K, akan dilanjutkan defect
dengan perhitungan data yang bersifat kategoris
2.2. Information Gain
dengan metode Naïve Bayes. Alur penyelesaian
masalah secara umum yang telah dijelaskan Information Gain merupakan metode
dapat dilihat pada Gambar 1. seleksi fitur paling sederhana dengan melakukan
perangkingan atribut dan banyak digunakan
2.1. Data dalam aplikasi kategorisasi teks, analisis data
Data yang digunakan dalam penelitian ini microarray dan analisis data citra. (Chormunge
adalah dataset statlog penyakit jantung yang & Jena, 2016). Information Gain dapat
didapat dari UCI Machine Learning Repository. membantu mengurangi noise yang disebabkan
Dataset statlog penyakit jantung terdiri dari 270 oleh fitur-fitur yang tidak relevan. Information
data dengan 13 atribut dan dua label kelas, yaitu Gain mendeteksi fitur-fitur yang paling banyak
Terkena Penyakit Jantung (TPJ) dan Tidak memiliki informasi berdasarkan kelas tertentu.
Terkena Penyakit Jantung (TTPJ). Atribut- Penentuan atribut terbaik dilakukan dengan
menghitung nilai entropy terlebih dahulu. n-dimensi dan disimpan dalam ruang n-dimensi.
Entropy merupakan ukuran ketidakpastian kelas Ketika sampel data uji (label kelas tidak
dengan menggunakan probabilitas kejadian atau diketahui) diberikan, K-Nearest Neighbor
atribut tertentu. (Shaltout, et al., 2014). Rumus mencari sampel k pelatihan yang paling dekat
untuk menghitung entropy ditunjukkan pada dengan sampel data uji. (Karegowda, et al.,
persamaan (1). Setelah mendapatkan nilai 2012). “Kedekatan” biasanya didefinisikan
entropy, maka perhitungan Information Gain dalam hal jarak metrik. Dalam penelitian ini,
dapat dilakukan dengan menggunakan pengukuran jarak akan dilakukan menggunakan
persamaan (2). (Firmahsyah & Gantini, 2016). euclidean distance. Rumus euclidean distance
𝑐
direpresentasikan pada persamaan (3). (Lestari,
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑃𝑖 𝑙𝑜𝑔2 𝑃𝑖 (1) 2014).
𝑖
𝑛
Dengan c adalah jumlah nilai yang ada pada (3)
𝑑(𝑥𝑖 ,𝑥𝑗 ) = √∑(𝑥𝑖𝑟 − 𝑥𝑗𝑟 )2
kelas klasifikasi dan Pi merupakan jumlah 𝑟=1
sampel untuk kelas i.
Keterangan:
|𝑆𝑣 |
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑𝑉𝑎𝑙𝑢𝑒𝑠(𝐴) |𝑆|
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣 ) (2) d(xi,xj) = Jarak euclidean
n = Dimensi data
Dengan A merupakan atribut, v adalah nilai xi = Data uji/testing
yang mungkin untuk atribut A, Values(A) adalah xj = Data latih
himpunan nilai-nilai yang mungkin untuk A, |Sv|
adalah jumlah sampel untuk nilai v, |S| Secara umum langkah-langkah untuk
merupakan jumlah seluruh sampel data dan perhitungan KNN pada penelitian ini, yaitu:
Entropy(Sv) adalah entropy untuk sampel- 1. Menentukan nilai K
sampel yang memiliki nilai v. 2. Menghitung jarak antara data uji dengan
data latih yang bersifat numerik
Start 3. Mengurutkan jarak dari yang terkecil
hingga terbesar
Data rekam 4. Mengambil data sebanyak K terdekat
medis jantung 5. Memilih kelas mayor
Gambar 2 Grafik Hasil Pengujian Sebaran Kelas Seimbang (K=5 sampai K=45)
Gambar 3 Grafik Hasil Pengujian Sebaran Kelas Seimbang (K=55 sampai K=95)
Gambar 4 Grafik Hasil Pengujian Sebaran Kelas Tidak Seimbang (K=5 sampai K=45)
Gambar 5 Grafik Hasil Pengujian Sebaran Kelas Tidak Seimbang (K=55 sampai K=95)