Anda di halaman 1dari 7

LITERATURE REVIEW: METODE DATA MINING UNTUK MEMPREDIKSI PENYAKIT JANTUNG

Baihaqi Yogie Prasetyo1

[Jakarta, Indonesia]
Universitas Budi Luhur 1

e-mail: 1 2111601957@Student.budiluhur.ac.id,

ABSTRACT

Heart disease is a major problem in the world of health. In 2015, data from the World Health Organization (WHO)
stated that around 17 million more people in the world died due to heart disease and blood vessel damage. where
death is equivalent to 31% of the total number of deaths worldwide. About 8.7 million people die due to heart
disease. This disease phenomenon usually occurs in developing countries where the average population has a lower
middle income. This paper aims to explain data mining methods from various writings in predicting heart disease
based on the type of chest pain experienced by the patient. The results show that the variables that are often used in
research are age, gender, type of chest pain, blood sugar, cholesterol, and heart rate. While the method with the best
level of accuracy is the neural network.
Keywords: Data Mining, Preprocessing Techniques, Heart Disease, Review

ABSTRAK

Penyakit jantung menjadi masalah utama dalam dunia kesehatan. Pada tahun 2015 data World Health Organization
(WHO) menyatakan bahwa sekitar 17 juta lebih orang di dunia meninggal diakibatkan oleh penyakit jantung dan
kerusakan pembuluh darah. Dimana kematian itu setara dengan 31% dari jumlah kematian yang ada diseluruh dunia.
Adapun sekitar 8,7 juta orang meninggal diakibatkan oleh penyakit jantung. Fenomena penyakit ini biasanya terjadi
di negara berkembang dimana rata-rata penduduknya memiliki penghasilan menengah kebawah. Tulisan ini
bertujuan untuk menjelaskan metode data mining dari berbagai tulisan dalam memprediksi penyakit jantung
berdasarkan tipe nyeri dada yang dialami pasien. Adapun hasilnya menunjukkan bahwa variabel yang sering
digunakan dalam penelitian adalah usia, jenis kelamin, tipe sakit dada, gula darah, kolesterol, dan detak jantung.
Sementara metode dengan tingkat akurasi terbaik adalah Neural Network.
Kata Kunci : Data mining, teknik pra-pemrosesan data, penyakit jantung, review
1. PENDAHULUAN
Penyakit jantung menjadi masalah utama dalam dunia kesehatan. Pada tahun 2015 data World Health Organization
(WHO) menyatakan bahwa sekitar 17 juta lebih orang di dunia meninggal diakibatkan oleh penyakit jantung dan
kerusakan pembuluh darah. Dimana kematian itu setara dengan 31% dari jumlah kematian yang ada diseluruh dunia.
Adapun sekitar 8,7 juta orang meninggal diakibatkan oleh penyakit jantung. Fenomena penyakit ini biasanya terjadi
di negara berkembang dimana rata-rata penduduknya memiliki penghasilan menengah kebawah.
Dalam indrustri kesehatan dan medis keakuratan prediksi sebuah penyakit sangatlah penting dan memerlukan
keputusan yang efektif dalam mengambil suatu analisa dan keakuratan prediksi suatu penyakit yang diderita pasien.
Penyakit jantung (Hananta & Muhammad, 2011) adalah terjadinya terganggunya keseimbangan antara suplai dan
kebutuhan darah yang terjadi akibat penyumbatan pembuluh darah. Kematian akibat penyakit jantung mencapai
959.227 pasien, yakni 41,4 % dari seluruh kematian atau setiap hari 2600 penduduk meninggal akibat penyakit
jantung (Hananta & Muhammad, 2011).
Metode prediksi penyakit jantung banyak diusulkan dengan mengunakan Genetic Algorithm (Anbarasi, Anupriya, &
Iyengar, 2010), native bayes dan decision trees (Palaniappan & Awang, 2008), decision support naïve bayes
(Subbalakshmi, Ramesh, & Chinna Rao, 2011), Multilayer Perceptron (Khemphila & Boonjing, 2011). Faktor gejala
yang terdiagnosa sebagai penyakit jantung antara lain adalah jenis sakit dada (cheasr pain), tekanan darah tinggi
(tresbps), kolesterol (chol), nilai tes EKG (resting electrodiagraphic ”restacg”)), denyut jantung (thalach) dan kadar
gula (fasting blood sugar “FBS”) (Mahmood & Kuppa, 2010). Dan beberapa factor lainnya yang menindentifikasi
bahwa seseorang mempunyai penyakit jantung.
Penyakit jantung meliputi aortic regurgition, cardiogenic shock, congenital heart disease, cardiomyopathy,
peripartum cardiomyopa-thy, tricuspid regurgitation (Hananta & Muhammad, 2011) yang sering menjangkit pada
anak-anak, orang dewasa dan tetap menjadi masalah utama di Negara-negara berkembang. Pada studi ini akan
menggunakan algoritma neural network dengan optimal sehingga hasil prediksi yang didapat lebih akurat. Dan bisa
digunakan untuk prediksi penyakit jantung lebih baik.

2. DATA PREPROCESSING UNTUK PREDIKSI PENYAKIT JANTUNG


Untuk meningkatkan kualitas pola dan informasi yang dicari, perlu dilakukan data preprocessing dilakukan sebelum
menerapkan teknik data mining. Menurut Han dan Kamber (2006) data preprocessing meliputi pembersihan data
(penanganan missing value dan data noise), transformasi data (smoothing, agregasi, generalisasi, normalisasi,
konstruksi atribut), integrasi data, reduksi data (yaitu agregasi kubus data, pemilihan subset atribut, diskritisasi) .
Dengan melakukan data preprocessing, kita dapat menyediakan set pelatihan akhir yang siap digunakan pada teknik
data mining (Kotsiantis, Kanellopouos, dan Pintelas. 2006). Jenis data preprocessing yang digunakan untuk
menyiapkan data prediksi penyakit jantung ditunjukkan pada Tabel 1.
Missing Value
Data mentah cenderung tidak lengkap dan tidak konsisten. Prosedur pembersihan data harus dilakukan untuk
mengisi nilai yang hilang, menangani noise pada data outlier, dan menyelesaikan data yang tidak konsisten. Yang
paling Metode yang populer adalah mengisi nilai yang hilang dengan nilai yang paling mungkin, seperti nilai null
(Asha, Natarajan, dan Murthy. 2011).
Normalisasi
Normalisasi merupakan salah satu cara transformasi data. Sebuah atribut dinormalisasi dengan membuat skala nilai
atribut dalam rentang kecil seperti 0,0 hingga 1,0. Teknik ini biasanya digunakan untuk klasifikasi seperti neural
network atau untuk mengukur jarak seperti klasifikasi dan pengelompokan jarak terdekat. Saat menggunakan
algoritma propagasi balik neural network untuk klasifikasi, normalisasi dapat mempercepat fase belajar. Sementara
dalam metode berbasis jarak, normalisasi membantu menghindari kesan bahwa atribut dengan rentang yang besar
(misalnya pendapatan) lebih penting daripada atribut dengan rentang yang kecil (misalnya atribut biner). Beberapa
metode normalisasi adalah normalisasi min-max, normalisasi z-score, dan normalisasi dengan penskalaan desimal
(Han dan Kamber, 2006)
Feature selection
Menurut Han dan Kamber (2006) seleksi subset fitur adalah proses mengidentifikasi dan mengurangi jumlah atribut
yang informasinya tidak relevan dan berlebihan. Dengan demikian mengurangi dimensi data akan memungkinkan
algoritma untuk berjalan lebih cepat dan lebih efektif. Beberapa metode yang digunakan adalah information gain,
gain ratio, seleksi fitur berbasis korelasi (CSF). Information Gain menghitung informasi yang diperoleh dari atribut
sehubungan dengan kelas yang menggunakan entropi. Metode Gain Ratio adalah bentuk dari normalisasi Informasi
yang didapat. Normalisasi dilakukan dengan membagi perolehan informasi dengan entropi atribut sehubungan
dengan kelas, sehingga mengurangi bias. CSF mencari atribut terbaik yang memiliki korelasi tertinggi dengan
atribut kelas tetapi korelasi terendah antara setiap atribut. Perolehan Informasi metode yang diterapkan untuk
memprediksi penyakit jantung pada pasien.
Diskritisasi
Proses diskritisasi diperlukan dalam algoritma klasifikasi. Diskritisasi adalah membagi nilai kontinu dari suatu
atribut ke dalam interval. Algoritma diskritisasi terdiri dari algoritma terawasi yang mendiskritkan atribut dengan
menggunakan informasi kelas dan algoritma tanpa pengawasan yang mendiskritkan atribut tanpa menggunakan
informasi kelas Diskritisasi ukuran yang sama, termasuk dalam metode langsung tanpa pengawasan adalah yang
paling sederhana. Metode menghitung nilai maksimum dan minimum dari atribut yang didiskritisasi dan mempartisi
suatu range menjadi k interval dengan ukuran yang sama. Metode tanpa pengawasan lainnya adalah frekuensi yang
sama. Menurut Kotsiantis, Kanellopouos, dan Pintelas (2006) metode ini menghitung jumlah nilai yang ada dalam
atribut yang akan didiskritisasi dan membaginya menjadi beberapa interval dengan jumlah instance yang sama.
Metode diskritisasi yang digunakan dalam data numerik adalah binning, analisis histogram, diskritisasi berbasis
entropi, penggabungan c2, analisis cluster, dan diskritisasi dengan partisi intuitif (Han dan Kamber, 2006).

Tabel 1. Data Preprocessing Prediksi Penyakit Jantung


Penulis Datashet yang Jumlah Variabel yang digunakan Preprocessing Tipe Nyeri dada
digunakan Variabe angina abnang notang asympt
l yang
dipakai
Riani, jumlah 14 cleaning dan √ √ √ √
Susianto instance Age, Sex, Trestbps, Chest diskretisasi
dan sebanyak 304 Pain type, Cholesteral,
Rahman Fasting blood sugar,
2019 Resting ecg, Max heart
rate, Exercise induced
angina, Oldpeak, Slope,
Number of vessels colored,
Thal, Healthy
Azhar dan Kaggle 13 Age, Sex, Trestbps, Chest split data dan √ √ √ √
Sari, 2022 dataset, 13 Pain type, Cholesteral, proses One-Hot-
atribut, 2 Fasting blood sugar, Encode
label, dan 303 Resting ecg, Exercise
sampel data induced angina, Oldpeak,
dengan 165 Slope, Number of vessels
yang colored, Thal, Healthy
mengidap
penyakit dan
138 yang tidak
sakit
B. Rifai, k 573 orang 13 Umur, Jenis Kelamin, Jenis Data cleaning, √ √ √ √
2013 yang diperiksa Sakit Dada, Tekanan Data integration
dan sebanyak Darah, Kolestrol, Kadar dan Data
259 pasien Gula, Elektrokardi reduction
terdeteksi ografi ,Tekanan Jantung,
sakit dan 314 Agina Induksi ,oldpeak,
paseien Segmen _st, Flauroso
terdeteksi py ,Denyut Jantung
sehat (Janosi
& Steinbrunn,
2011
Maulana, 500 data 7 Usia, Jenis kelamin, tipe Split Validation √ √
dan diambil dari sakit dada, tekanan darah,
Yahya, kaggle kolesterol, gula darah dan
2019 detak jantung maksimal
Sari dan 303 dataset 14 age, sex, cp, restbp, chol,Tidak dijelaskan √ √ √ √
Alfionita, sekunder yang fbs, restecg, maxhr, exang,
2022 terdiri dari oldpeak, slope, ca, thal dan
165 record target
atribut label
sakit dan 138
record atribut
label sehat
dari Center for
Machine
Learning and
Intelligent
Systems
*) Abnang: Atypical Angina, Notang: Not Angina, Asympt: tidak bergejala

3. VARIABEL YANG DIGUNAKAN UNTUK PREDIKSI PENYAKIT JANTUNG


Berbagai tipe dan jumlah variasi variabel telah digunakan untuk memprediksi penyakit jantung. Berdasarkan tabel 1,
kita dapat melihat mayoritas variabel yang digunakan adalah usia, jenis kelamin, tipe sakit dada, gula darah,
kolesterol, dan detak jantung.

4. TIPE NYERI DADA


Dari tabel 1, diketahui bahwa jenis nyeri dada yang terjadi saat adanya penyakit jantung yang diprediksi biasanya
adalah angina. Tipe nyeri dada ini disebabkan oleh berkurangnya aliran darah menuju jantung. Nyeri pada angina
pectoris ini dideskripsikan dengan rasa seperti tertekan, diperas, serta dada terasa berat dan sesak. Hal ini
menunjukkan bahwa penyakit jantung koroner yang disertai rasa nyeri pada angina pectoris lebih sering terjadi pada
masyarakat.

5. METODE DATA MINING UNTUK PREDIKSI PENYAKIT JANTUNG


Menurut Bakar dan Febriyani (2007) klasifikasi merupakan salah satu tugas data mining yang umum digunakan
untuk menganalisis data medis. Beberapa peneliti membandingkan beberapa metode untuk mempelajari metode
mana yang memperoleh akurasi tertinggi dalam memprediksi penyakit jantung. Studi menunjukkan bahwa teknik
neural network memberikan hasil yang lebih baik dibandingkan dengan metode lainya. Mereka telah memilih
neural network karena metode ini dapat menemukan pola dalam data yang ambigu dan tidak sempurna dan
menyediakan alat untuk data dan pola analisis Berbagai metode penambangan data yang digunakan oleh beberapa
peneliti dalam mendiagnosis tuberkulosis dirangkum pada Tabel 2.
Tabel 2. Ragam Metode Data Mining Prediksi Penyakit Jantung
Metode
Lazy Bayesian
Tree Classifer Neural Network
Penulis Modelling modelling SV
LR Hasil/ Akurasi
K- K- C.45 NEURO M
NB BN RF Part NN RS RNN BP ANFIS MP
NN Means DT FUZZY
Riani,
Susianto
dan √ √ akurasi 86%
Rahman
2019
Logistic Regression
88.52
Azhar K-Nearest Neighbors
78.69
dan Sari, √ √ Random Forest
2022 Classifier 86.89
Tuned K-Nearest
Neighbors 85.25
akurasi 91.45%
dengan nilai presisi
adalah 92.79 %,
B Rifai,
√ √ recall 94.27 %
2013
sedangankan untuk
nilai AUC adalah
0.937
Maulana, tingkat accuracy
dan 70,00 %, Percision

Yahya, 77,9 % dan Recall
2019 82.10 %
NB 85.33% presisi
Sari dan
sebesar 94,84% dan
Alfionita, √ √ √
recall sebesar
2022
88,55%, NN 78,55%
NB: Naive Bayes, BN: Bayesian Network, DT: Decision Tree, RF: Random Forest, NN: Neural Network, RS:
Rough Set, RNN: Rough Neural Network, BP: Back Propagation, ANFIS: Adaptive Neuro Fuzzy Inference
Systems, MP: Multilayer Perceptron

6. KESIMPULAN
Berbagai macam literatur telah dikumpulkan mengenai klasifikasi variabel, teknik data preprocessing, dan metode
yang digunakan untuk memprediksi penyakit jantung. Dari beberapa literatur yang telah di review tersebut, kita
dapat menyimpulkan bahwa variabel yang paling sering digunakan adalah usia, jenis kelamin, tipe sakit dada, gula
darah, kolesterol, dan detak jantung. Sementara metode yang lebih sering digunakan adalah naïve bayes dengan
tingkat akurasi 70%-86%. Tingkat akurasi tertinggi adalah penelitian yang menggunakan neural network yang
mencapai nilai sebesar 90%-95%. Jadi dari penelitian diatas metode paling akurat adalah neural network untuk
memprediksi penyakit jantung berdasarkan tipe nyeri yang dialami pasien.

DAFTAR PUSTAKA
A. A. Bakar and F. Febriyani, “Rough Neural Network Model for Tuberculosis Patient Categorization,” in
Proceedings of the International Conference on Electrical Engineering and Informatics, 2007, no. 1, pp. 765–768.
A. Riani, Y. Susianto, N. Rahman, “mplementasi Data Mining Untuk Memprediksi Penyakit Jantung Mengunakan
Metode Naive Bayes”, Journal of Innovation Information Technology and Application (JINITA), Vol. 1, no. 1, pp
25-34, 2019.
A. N. Sari , S. Alfionita, “Klasifikasi Penyakit Jantung Menggunakan Metode Naïve Bayes”, AMRI (Analisa,
Metode, Rekayasa, Informatika) Vol. 1, No. 1, April 2022, pp. 22~26.
B. Azhar, W.K. Sari, “Penerapan Data Mining Dan Teknologi Machine Learning Pada Klasifikasi Penyakit
Jantung”, Jurnal Sistem Informasi, Vol. 14, no. 1, pp. 2560- 2568, 2022.
B. Rifai, “Algoritma Neural Network Untuk Prediksi Penyakit Jantung”, Techno Nusa Mandiri, Vol. 9, no. 1, pp. 1-
9, 2013.
D. Maulana, R. Yahya, “Implementasi Algoritma Naïve Bayes Untuk Klasifikasi Penderita Penyakit Jantung Di
Indonesia Menggunakan Rapid Miner, SIGMA – Jurnal Teknologi Pelita Bangsa, Vol. 10 No. 2, ISSN : 2407-3903
2019
J. Han and M. Kamber, “Data Mining: Concepts and Techniques, Second”. San Francisco, Canada: Morgan
Kaufmann Publishers, 2006, p. 772.
S. B. Kotsiantis, D. Kanellopoulos, and P. E. Pintelas, “Data Preprocessing for Supervised Learning,” International
Journal of Computer Science (IJCS), vol. 1, no. 2, pp. 111–117, 2006.
T. Asha, S. Natarajan, and K. N. B. Murthy, “A Data Mining Approach to the Diagnosis of Tuberculosis by
Cascading Clustering and Classification,” Journal of computing, vol. 3, no. 4, 2011.

Anda mungkin juga menyukai