Q1. Identification of Significant Features and Data Mining Techniques in Predicting Heart Disease - En.id
Q1. Identification of Significant Features and Data Mining Techniques in Predicting Heart Disease - En.id
com
Kata kunci: Penyakit kardiovaskular merupakan salah satu penyebab morbiditas dan mortalitas terbesar di antara penduduk dunia. Prediksi penyakit kardiovaskular dianggap
Penambangan data sebagai salah satu subjek terpenting di bagian analisis data klinis. Jumlah data dalam industri kesehatan sangat besar. Penambangan data mengubah kumpulan
Model prediksi besar data perawatan kesehatan mentah menjadi informasi yang dapat membantu membuat keputusan dan prediksi yang tepat. Ada beberapa penelitian yang
Algoritma klasifikasi
menerapkan teknik data mining dalam prediksi penyakit jantung. Meskipun demikian, penelitian yang memberikan perhatian terhadap fitur signifikan yang
Pemilihan fitur
memainkan peran penting dalam memprediksi penyakit kardiovaskular masih terbatas. Sangat penting untuk memilih kombinasi yang tepat dari fitur signifikan
Prediksi penyakit jantung
yang dapat meningkatkan kinerja model prediksi. Penelitian ini bertujuan untuk mengidentifikasi fitur signifikan dan teknik data mining yang dapat meningkatkan
akurasi prediksi penyakit kardiovaskular. Model prediksi dikembangkan menggunakan kombinasi fitur yang berbeda, dan tujuh teknik klasifikasi: k-NN, Decision
Tree, Naive Bayes, Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Regresi logistik). Hasil
percobaan menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining
dengan performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung. dan tujuh teknik klasifikasi: k-NN, Decision Tree, Naive Bayes,
Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Logistic Regression). Hasil percobaan
menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining dengan
performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung. dan tujuh teknik klasifikasi: k-NN, Decision Tree, Naive Bayes, Logistic
Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Logistic Regression). Hasil percobaan
menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining dengan
performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung.
1. Perkenalan
Penyakit kardiovaskular (juga dikenal sebagai penyakit jantung) tetap menjadi penyebab kematian nomor satu di seluruh dunia selama beberapa dekade
terakhir. Pada tahun 2015, Organisasi Kesehatan Dunia (WHO) memperkirakan bahwa 17,7 juta kematian telah terjadi di seluruh dunia karena penyakit
kardiovaskular (WHO, 2017). CVD adalah penyebab kematian nomor 1 secara global: lebih banyak orang meninggal setiap tahun akibat CVD daripada penyebab
lainnya. Jika kita dapat memprediksi penyakit kardiovaskular dan memberikan peringatan sebelumnya, beberapa kematian dapat dicegah.
Penerapan data mining membawa dimensi baru untuk prediksi penyakit kardiovaskular. Berbagai teknik penambangan data digunakan untuk mengidentifikasi
dan mengekstraksi informasi yang berguna dari kumpulan data klinis dengan masukan dan upaya pengguna yang minimal (Srinivas et al., 2010a). Selama dekade
terakhir, para peneliti mengeksplorasi berbagai cara untuk mengimplementasikan penambangan data dalam perawatan kesehatan untuk mencapai prediksi
penyakit kardiovaskular yang akurat.
Efisiensi penambangan data sangat bervariasi pada teknik yang digunakan dan fitur yang dipilih. Kumpulan data medis di
⁎Penulis
yang sesuai.
Alamat email:yinkia@um.edu.my (YK Chiam).
https://doi.org/10.1016/j.tele.2018.11.007
Diterima 6 Agustus 2018; Diterima dalam bentuk revisi 16 November 2018; Diterima 20 November 2018
Tersedia online 22 November 2018
0736-5853/ © 2018 Elsevier Ltd. Semua hak dilindungi undang-undang.
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
industri kesehatan berlebihan dan tidak konsisten. Lebih sulit untuk menggunakan teknik data mining tanpa persiapan sebelumnya dan tepat.
BerdasarkanKavitha dan Kannan (2016), redundansi dan inkonsistensi data dalam kumpulan data mentah memengaruhi hasil prediksi algoritme.
Akibatnya, untuk menerapkan algoritme pembelajaran mesin secara maksimal, diperlukan persiapan yang efektif untuk melakukan praproses dataset.
Selain itu, fitur yang tidak diinginkan juga dapat mengurangi kinerja teknik penambangan data (Paul et al., 2016). Dengan demikian, seiring dengan
persiapan data, diperlukan metode pemilihan fitur yang tepat untuk mencapai akurasi yang tinggi dalam prediksi penyakit jantung menggunakan fitur
signifikan dan teknik data mining.
Meskipun sudah cukup jelas bahwa pemilihan fitur sama pentingnya dengan pemilihan teknik yang cocok, peneliti masih berjuang dalam
menggabungkan teknik penambangan data yang tepat dengan seperangkat fitur yang tepat. BerdasarkanShouman et al. (2013), ada harapan
untuk mendiagnosa penyakit kardiovaskular dengan akurasi yang tinggi tetapi tidak mudah untuk mencapainya. Selain itu, kombinasi fitur
yang signifikan pasti akan meningkatkan akurasi prediksi. Ini menunjukkan bahwa eksperimen ekstensif untuk mengidentifikasi fitur
signifikan diperlukan untuk mencapai tujuan tersebut.
Kinerja teknik penambangan data yang digunakan dalam memprediksi penyakit kardiovaskular sangat berkurang tanpa kombinasi yang baik dari
fitur kunci dan juga penggunaan algoritma pembelajaran mesin yang tidak tepat (Dey et al., 2016). Oleh karena itu, sangat penting untuk
mengidentifikasi kombinasi terbaik dari fitur signifikan yang bekerja sangat baik dengan algoritme berperforma terbaik. Penelitian ini berfokus pada
pencarian teknik data mining dengan fitur signifikan yang akan bekerja dengan baik dalam memprediksi penyakit jantung. Namun, tidak mudah untuk
mengidentifikasi teknik yang tepat dan memilih fitur yang signifikan. Studi yang ada menunjukkan bahwa teknik penambangan data yang digunakan
dalam prediksi penyakit kardiovaskular tidak mencukupi, dan pemeriksaan yang tepat diperlukan untuk mengidentifikasi fitur signifikan dan teknik
penambangan data yang akan meningkatkan kinerja. BerdasarkanNahar dkk. (2013), evaluasi dan perbandingan yang tepat untuk menguji kombinasi
fitur yang berbeda bersama dengan teknik penambangan data, belum difokuskan. Dengan demikian, kebutuhan untuk eksperimen menyeluruh muncul
untuk memberikan identifikasi teknik data mining yang tepat dan fitur yang signifikan untuk memastikan prediksi penyakit jantung dapat diterima dan
akurat.
Penelitian ini bertujuan untuk mengidentifikasi fitur signifikan dan teknik data mining untuk memprediksi penyakit jantung. Eksperimen
dilakukan untuk mengidentifikasi fitur dan teknik data mining. Kumpulan data penyakit jantung dikumpulkan dari sumber data, UCI Machine
Learning Repository. Dataset Cleveland dipilih karena merupakan database yang umum digunakan oleh peneliti pembelajaran mesin dengan
catatan paling lengkap. Tujuh teknik klasifikasi (k-NN, Decision Tree, Naïve Bayes, Logistic Regression, Vote, Support Vector Machine, dan
Neural Network) diterapkan untuk membuat model prediksi untuk percobaan ini menggunakan dataset yang telah disiapkan. Berdasarkan
hasil percobaan, sembilan fitur signifikan dan tiga teknik penambangan data teratas diidentifikasi. Hasil percobaan dievaluasi menggunakan
dataset lain, UCI Statlog Dataset penyakit jantung untuk mengkonfirmasi temuan. Selain itu, penelitian ini juga membandingkan akurasi
tertinggi yang dicapai oleh teknik terbaik yang diidentifikasi dari penelitian ini dengan akurasi tertinggi yang dicapai dalam studi yang ada.
Sisa kertas ini disusun sebagai berikut.Seksi 2mendeskripsikan dataset penyakit jantung yang digunakan dalam penelitian ini, untuk
mengidentifikasi fitur signifikan dan teknik data mining.Bagian 3menjelaskan metode yang digunakan untuk melakukan eksperimen yang
meliputi Data Preprocessing, Feature Selection, Classification Modeling using Data Mining Technique dan Performance Measure. Proses
rekayasa fitur dijelaskan untuk mengilustrasikan pemilihan fitur yang signifikan dalam prediksi penyakit jantung.Bagian 4menyajikan hasil
eksperimen berupa evaluasi kinerja model yang dibuat dengan menggunakan tujuh teknik data mining.Bagian 5 membahas analisis yang
dilakukan untuk mengidentifikasi fitur-fitur penting dan teknik data mining untuk menciptakan model dengan kinerja terbaik.Bagian 6
menggambarkan percobaan evaluasi yang dilakukan untuk memvalidasi temuan menggunakan dataset lain. Akhirnya, bagian terakhir
menyimpulkan penelitian dan menyajikan pekerjaan masa depan.
2. Kumpulan data
Data penyakit jantung dikumpulkan dari repositori pembelajaran mesin UCI (Dua dan Karra Taniskidou, 2017). Ada empat
database (yaitu Cleveland, Hongaria, Swiss, dan VA Long Beach). Basis data Cleveland dipilih untuk penelitian ini karena merupakan
basis data yang umum digunakan oleh peneliti pembelajaran mesin dengan catatan paling lengkap. Dataset berisi 303 catatan.
Meskipun dataset Cleveland memiliki 76 atribut, dataset yang disediakan di repositori hanya memberikan informasi untuk subset
dari 14 atribut. Sumber data dari dataset Cleveland adalah Cleveland Clinic Foundation.Tabel 1menggambarkan deskripsi dan jenis
atribut. Terdapat 13 atribut yang menjadi fitur dalam prediksi penyakit jantung dan satu atribut berfungsi sebagai output atau
atribut prediksi adanya penyakit jantung pada seorang pasien.
Dataset Cleveland berisi atribut bernama 'num' untuk menunjukkan diagnosis penyakit jantung pada pasien pada skala yang berbeda, dari 0 hingga
4. Dalam skenario ini, 0 mewakili tidak adanya penyakit jantung dan semua nilai dari 1 hingga 4 mewakili pasien dengan penyakit jantung, di mana
penskalaan mengacu pada tingkat keparahan penyakit (4 menjadi yang tertinggi).Gambar 1menunjukkan distribusi atribut 'num' di antara 303 record.
3. Metode
Dalam penelitian ini, RapidMiner Studio digunakan untuk melakukan percobaan karena menyediakan lingkungan desain visual yang kuat
dan mudah digunakan untuk membangun alur kerja analitik prediktif. Representasi visual dari alur kerja adalah salah satu fitur yang efisien
untuk pemula. Selain itu, mendukung inovasi open source, ketersediaan, dan fungsionalitas yang efektif.Gambar 2menunjukkan alur kerja
percobaan. Dalam percobaan, dataset penyakit jantung UCI Cleveland diimpor ke RapidMiner. Proses penambangan data dimulai dari tahap
pra-pemrosesan, dilanjutkan dengan rekayasa fitur, untuk memilih kombinasi atribut dan pemodelan klasifikasi yang berbeda, hingga
membuat model untuk prediksi menggunakan teknik penambangan data. Pemilihan fitur dan pemodelan diulang untuk semua
83
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Tabel 1
Deskripsi atribut dari UCI Cleveland Dataset.
kombinasi atribut tersebut. Loop berulang sebagai subset yang berisi minimal 3 atribut yang dipilih dari 13 atribut dan model
diterapkan padanya. Kinerja setiap model yang dibuat, berdasarkan atribut yang dipilih dan teknik penambangan data selama setiap
iterasi, dicatat dan hasilnya ditampilkan setelah seluruh proses selesai.
Bagian 3.1–3.4menjelaskan secara lebih rinci preprocessing data, pemilihan fitur, pemodelan klasifikasi, dan pengukuran kinerja.
Hasil pengukuran kinerja disajikan dalamBagian 4.
Data diproses terlebih dahulu setelah dikumpulkan. Ada 6 catatan yang memiliki nilai yang hilang dalam dataset Cleveland.
Semua record dengan nilai yang hilang telah dihapus dari dataset, sehingga mengurangi jumlah record dari 303 menjadi 297.
Selanjutnya, nilai prediksi atribut untuk kehadiran penyakit jantung di dataset diubah dari nilai multiclass (0 untuk tidak adanya dan
1, 2, 3, 4 untuk ada) ke nilai biner (0 untuk tidak ada; 1 untuk ada penyakit jantung). Tugas preprocessing data dilakukan dengan
mengubah semua nilai diagnosis dari 2 menjadi 4 menjadi 1. Dengan demikian dataset yang dihasilkan hanya berisi 0 dan 1 sebagai
nilai diagnosis, di mana 0 berarti tidak ada penyakit jantung dan 1 berarti ada penyakit jantung. Setelah reduksi dan transformasi,
84
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Di antara 13 fitur yang digunakan dalam prediksi penyakit jantung, hanya atribut 'usia' dan 'jenis kelamin' yang mengacu pada
informasi pribadi setiap pasien. 11 fitur yang tersisa adalah semua atribut klinis yang dikumpulkan dari berbagai pemeriksaan
medis. Pada percobaan ini dipilih kombinasi fitur yang akan digunakan dengan 7 teknik klasifikasi; k-NN, Decision Tree, Naïve Bayes,
Logistic Regression, Vote, Support Vector Machine dan Neural Network, untuk membuat model klasifikasi. Untuk tujuan ini, metode
brute force diterapkan untuk membatasi batas bawahnya (minimal 3 fitur). Prosedurnya adalah menguji setiap kemungkinan
kombinasi fitur dengan semua teknik. Dalam percobaan, pertama, semua kemungkinan kombinasi dari 3 fitur dari 13 atribut dipilih
dan setiap kombinasi diuji dengan menerapkan 7 teknik data mining. Berikutnya,
Jumlah total kombinasi yang dapat dicapai dari satu set 13 atribut, tidak termasuk set kosong, diwakili oleh 2N−1. Dalam penelitian ini, satu
subset dari kombinasi fitur tidak boleh memiliki kurang dari 3 atribut. Dengan demikian, semua himpunan bagian dari kombinasi dicapai
dengan memiliki 2 atribut dan 1 atribut dihilangkan. Persamaan yang digunakan untuk menghitung jumlah total kombinasi diturunkan
sebagai berikut.
Jumlah kombinasi
N! N!
N 1
1! (N 1!) 2! (N 2)!
N(N 1)
N
N 1
2
2N+N2 N
N
+ 1
2
N2+N
N
+ 1
2
di mana n mewakili jumlah fitur yang digunakan untuk menghasilkan himpunan bagian dari kombinasi, yaitu 13 dalam percobaan ini.
Dengan demikian, total 8100 kombinasi fitur dipilih dan diuji dalam eksperimen ini.
85
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Setelah memilih fitur, model dibuat dengan 7 teknik klasifikasi paling populer dalam data mining: k-NN, Decision Tree, Naive
Bayes, Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (yaitu a teknik hybrid dengan Naïve Bayes
dan Logistic Regression). Teknik validasi silang 10 kali lipat digunakan untuk memvalidasi kinerja model. Pada teknik ini, seluruh
dataset dibagi menjadi 10 subset kemudian diproses sebanyak 10 kali. 9 subset digunakan sebagai set pengujian dan 1 subset
sisanya digunakan sebagai set pelatihan. Terakhir, hasilnya ditunjukkan dengan rata-rata setiap 10 iterasi. Subset dibagi
menggunakan stratified sampling, artinya setiap subset akan memiliki rasio kelas yang sama dari dataset utama.
Kinerja model klasifikasi diukur menggunakan tiga ukuran kinerja: akurasi, ukuran-f dan presisi. Akurasi adalah persentase
instance yang diprediksi dengan benar di antara semua instance. F-measure adalah rata-rata tertimbang dari presisi dan daya ingat.
Presisi adalah persentase prediksi yang benar untuk kelas positif.
Untuk mengidentifikasi fitur yang signifikan, ketiga ukuran kinerja ini digunakan, sedangkan untuk mengidentifikasi teknik penambangan
data untuk membuat model dengan kinerja terbaik, digunakan ukuran akurasi dan presisi. Untuk mengidentifikasi fitur yang signifikan, tiga
ukuran kinerja memberikan pemahaman yang lebih baik tentang perilaku keseluruhan dari kombinasi fitur yang berbeda. Di sisi lain, analisis
teknik data mining berfokus pada model dengan kinerja terbaik yang dapat menghasilkan akurasi tinggi dalam prediksi penyakit jantung
karena akurasi dan presisi adalah metrik evaluasi kinerja yang paling intuitif. Untuk setiap pengklasifikasi, kinerja diukur secara terpisah dan
semua hasilnya dicatat dengan benar untuk analisis lebih lanjut.
4. Hasil
Bagian ini menyajikan hasil yang dicapai dalam percobaan. Sembilan atribut penting: "sex", "cp", "fbs", "restecg", "exang",
"oldpeak", "slope", "ca" dan "thal", dan tiga teknik berkinerja terbaik teratas: Vote, Naïve Bayes dan SVM, diidentifikasi berdasarkan
analisis hasil percobaan.Bagian 4.1menunjukkan hasil pengukuran kinerja.Bagian 4.2menjelaskan analisis fitur dan teknik
penambangan data.
Performansi 7 teknik data mining pada 8100 kombinasi fitur diujicobakan satu per satu. Semua hasil eksperimen (termasuk
akurasi, presisi, dan f-measure dari masing-masing model) dikumpulkan untuk analisis lebih lanjut.Tabel 2–4 menggambarkan
akurasi tertinggi, presisi tertinggi, dan f-measure tertinggi yang dicapai oleh setiap teknik penambangan data dan kombinasi fitur
yang digunakan dalam model.
Ketiga tabel tersebut menunjukkan kinerja dari 7 teknik klasifikasi dalam tiga kategori yang berbeda. Berdasarkan analisis yang
ditunjukkan pada tabel, dapat dilihat bahwa akurasi tertinggi (86,87%) dicapai oleh SVM dengan 9 atribut. Di sisi lain, presisi tertinggi (95,00%)
dicapai oleh Decision Tree dan k-NN, menggunakan kombinasi yang sama dari 3 fitur (yaitu jenis kelamin, restecg, exang) sedangkan f-
measure tertinggi diberikan oleh SVM dengan 9 atribut.Meja 2menunjukkan tiga teknik dengan kinerja terbaik dengan akurasi> 90%, yaitu
SVM, Naïve Bayes dan Vote. Hasil penelitian juga menunjukkan bahwa baik Decision Tree maupun k-NN memiliki akurasi paling rendah
(82,49%) dibandingkan dengan teknik lainnya. Namun, kedua teknik ini memberikan kinerja presisi tertinggi.
Tabel 5menunjukkan akurasi rata-rata yang dicapai oleh setiap teknik penambangan data pada semua 8100 kombinasi fitur.Tabel 6 dan 7
menunjukkan presisi rata-rata dan ukuran-F dari setiap teknik penambangan data. BerdasarkanTabel 5, Vote, Naïve Bayes dan SVM adalah
tiga teknik teratas untuk semua 8100 kombinasi dengan mendapatkan rata-rata akurasi 78,20% dan 78,15%. Di sisi lain, nilai rata-rata presisi
ditunjukkan padaTabel 6menunjukkan bahwa Vote, Naïve Bayes dan SVM adalah tiga teknik teratas. Berdasarkan Tabel 7, tiga teknik teratas
yang mencapai ukuran-F rata-rata tertinggi adalah LR, SVM, dan Naïve Bayes.
Bagian ini menjelaskan pemilihan fitur signifikan dan teknik penambangan data berdasarkan hasil yang diperoleh dari
Meja 2
Akurasi tertinggi dicapai oleh setiap teknik penambangan data.
Mendukung Suara Mesin Vektor 86,87% Age, sex, cp, chol, fbs, exang, oldpeak, slope, ca
(SVM). 86,20% Sex, cp, fbs, thalach, exang, slope, ca, thal
Naif Bayes 85,86% Sex, cp, thalach, exang, oldpeak, ca
Regresi logistik 85,86% Umur, jenis kelamin, cp, chol, restecg, oldpeak, slope, ca, thal
Jaringan syaraf 84,85% Jenis kelamin, cp, trestbps, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal Jenis
k-NN 82,49% kelamin, cp, fbs, restecg, oldpeak, ca, thal
Pohon Keputusan 82,49% Sex, cp, fbs, restecg, oldpeak, ca, thal
86
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Tabel 3
Presisi tertinggi dicapai oleh setiap teknik penambangan data.
Regresi logistik 86,42% Sex, cp, trestbps, thalach, exang, oldpeak, slope, ca, thal
Tabel 4
F-measure tertinggi yang dicapai oleh masing-masing teknik data mining.
Mendukung Mesin Vektor (SVM) 88,22% Umur, jenis kelamin, cp, chol, fbs, exang, oldpeak, slope,
Naïve Bayes 87,35% ca Sex, cp, thalach, exang, oldpeak, ca
Regresi logistik 87,27% Umur, jenis kelamin, cp, chol, restecg, oldpeak, slope, ca, thal
Jaringan syaraf 85,98% Jenis kelamin, cp, trestbps, fbs, restecg, thalach, exang, oldpeak, kemiringan, ca, thal Jenis
Pilih 84,41% kelamin, cp, fbs, thalach, exang, kemiringan, ca, thal
k-NN 84,05% Jenis kelamin, cp, fbs, restecg, oldpeak, ca, thal
Pohon Keputusan 84,05% Jenis kelamin, cp, fbs, restecg, oldpeak, ca, thal
Tabel 5
Akurasi rata-rata dicapai oleh masing-masing teknik data mining.
Pilih 78,20%
Naif Bayes 78,20%
Mesin Vektor Dukungan (SVM) 78,15%
Regresi Logistik (LR) 78,03%
Jaringan syaraf 75,18%
k-NN 63,50%
Pohon Keputusan 63,50%
Tabel 6
Presisi rata-rata dicapai oleh setiap teknik penambangan data.
Pilih 79,41%
Naif Bayes 78,76%
Mesin Vektor Dukungan (SVM) 78,15%
Regresi Logistik (LR) 76,27%
Jaringan syaraf 76,20%
k-NN 66,43%
Pohon Keputusan 66,43%
Tabel 7
Rata-rata f-measure dicapai oleh masing-masing teknik data mining.
87
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Tabel 8
Perbandingan antar Atribut menghasilkan kinerja tertinggi.
Fitur Kejadian
Usia Seks cp Trestbps Chol Facebook Resecg Thalach Exang Oldpeak Lereng ca Thal
eksperimen. Dengan menganalisis hasil ini, fitur signifikan dan teknik penambangan data yang memiliki dampak signifikan dalam
menciptakan model dengan kinerja terbaik diidentifikasi untuk memprediksi penyakit jantung.Bagian 4.2.1 dan 4.2.2menunjukkan analisis
fitur signifikan, dan teknik penambangan data berkinerja terbaik yang dipilih dalam penelitian ini.
5. Evaluasi
Pada penelitian ini dilakukan evaluasi untuk memvalidasi temuan fitur signifikan dan teknik data mining yang teridentifikasi di
dalamnyaBagian 4. Tiga model prediksi dibuat menggunakan sembilan atribut signifikan dan tiga data mining teratas
Tabel 9
Perbandingan antara dataset Cleveland dan Statlog.
Jumlah Atribut 13 13
Atribut Umur, jenis kelamin, cp, trestbps, chol, fbs, restecg, exang, oldpeak, slope, ca, thal Umur, jenis kelamin, cp, trestbps, chol, fbs, restecg, exang, oldpeak,
slope, ca, thal
Atribut Kelas nomor nomor
88
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
teknik. Eksperimen dilakukan dengan menggunakan dataset lain, dataset UCI Statlog Heart Disease untuk memvalidasi kinerja model
prediksi. Sama seperti dataset Cleveland, dataset ini dikumpulkan dari repositori pembelajaran mesin UCI (Dua dan Karra Taniskidou, 2017).
Struktur dataset penyakit jantung Statlog mirip dengan dataset penyakit jantung Cleveland.Tabel 9menunjukkan perbandingan antara
kumpulan data Statlog dan Cleveland. Kedua dataset tersebut memiliki 13 atribut yang menampilkan penyakit jantung dan 1 atribut prediksi
untuk menunjukkan adanya penyakit jantung. Semua nama atributnya sama. Satu-satunya perbedaan atribut antara kedua dataset adalah
nilai yang mereka gunakan untuk merepresentasikan atribut kelas, “num”. Output untuk dataset Statlog berisi dua nilai: 1 dan 2. “1” adalah
tidak adanya penyakit jantung dan “2” adalah adanya penyakit jantung pada pasien. Di sisi lain, dataset Cleveland memiliki lima tingkat
penskalaan "num" yang berbeda dari 0 hingga 4.
Pada eksperimen sebelumnya, Cleveland dataset dikonversi dari nilai multiclass untuk 'num' menjadi nilai biner (0, 1). Ini
mengatasi perbedaan nilai 'num' antara kedua dataset. Setelah memproses data Cleveland, distribusi 297 record untuk atribut 'num'
menghasilkan 160 record untuk '0' dan 137 record untuk '1'. Di sisi lain, seperti yang terlihat diTabel 9, kumpulan data Statlog berisi
total 270 catatan. Dataset tidak mengandung nilai yang hilang. Distribusi “1″ dan “2” sebagai nilai “num” adalah 150 dan 120. Karena
tidak ada nilai yang hilang, kumpulan data tidak memerlukan banyak pemrosesan awal sebelum data digunakan dalam evaluasi ini.
Selain itu, rasio jumlah catatan ketidakhadiran dan adanya penyakit jantung hampir sama (yaitu rasio Cleveland=160:137; rasio
Statlog=150:120).
Kumpulan data Statlog memiliki representasi catatan yang sangat bersih, sehingga meningkatkan popularitasnya di kalangan peneliti juga. Banyak
penelitian terbaru (Nahato et al., 2015; Srinivas et al., 2010b) telah menggunakan kumpulan data Statlog dalam percobaan mereka. Karena semua
kesamaan dan kualitas data, dataset Statlog diidentifikasi sebagai dataset terbaik untuk digunakan dalam evaluasi untuk memvalidasi atribut signifikan
yang diusulkan dan teknik penambangan data.
Gambar 3menunjukkan seluruh proses yang digunakan untuk melakukan percobaan untuk evaluasi. Pertama, data Statlog diproses terlebih dahulu
sebelum menggunakan dataset untuk evaluasi. Untuk membuat dataset Statlog mirip dengan dataset Cleveland, nilai kelas "num" diubah dari "1"
menjadi "0" dan dari "2" menjadi "1". Dataset yang dihasilkan dengan demikian mengandung 0 dan 1 sebagai nilai keluaran yang diprediksi di mana 0
adalah tidak adanya dan 1 adalah adanya penyakit jantung. Setelah transformasi, distribusi 270 record menjadi 150 instance untuk '0' dan 120 instance
untuk '1'. Data kemudian siap digunakan untuk lingkungan klasifikasi.
Subset dari sembilan fitur signifikan yang diidentifikasi (yaitu jenis kelamin, cp, fbs, restecg, exang, oldpeak, slope, ca dan thal) dipilih dari
dataset yang diproses sebelumnya. Selanjutnya, model klasifikasi dikembangkan dengan menggunakan 3 teknik data mining teratas (yaitu
Vote, Naive Bayes dan Support Vector Machine). Dalam percobaan ini, teknik validasi silang 10 kali lipat digunakan untuk mengukur kinerja
model. Akhirnya, hasil akurasi ditunjukkan dengan rata-rata hasil yang diperoleh dari 10 iterasi.
Evaluasi model dilakukan dengan bantuan matriks konfusi. Ada empat hasil berdasarkan matriks kebingungan: True Positive
(TP), True Negative (TN), False Positive (FP) dan False Negative (FN). Rumus berikut digunakan untuk mengukur akurasi model
klasifikasi: Accuracy=(TP+TN)/n, dimana n=Total Number of Instances (Powers & Martin, 2011). Akurasi dipilih sebagai ukuran kinerja
karena merupakan salah satu kriteria paling populer dan intuitif yang digunakan dalam banyak penelitian yang ada untuk
membandingkan kinerja model klasifikasi.
Hasil akurasi yang dicapai oleh model prediksi yang dikembangkan menggunakan 9 fitur signifikan dan tiga teknik pemodelan klasifikasi
teratas adalah sebagai berikut:
89
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Tabel 10
Akurasi didapatkan dari evaluasi percobaan.
6. Diskusi
Hasil yang disajikan diTabel 10menunjukkan bahwa fitur signifikan yang teridentifikasi telah meningkatkan akurasi dari ketiga teknik penambangan
data teratas. Ini mengkonfirmasi temuan yang disajikan diBagian 4pada atribut signifikan dalam prediksi penyakit jantung. Diantara 9 ciri tersebut, 8
diantaranya merupakan ciri klinis yang dikumpulkan dari berbagai pemeriksaan medis. Hanya satu fitur, jenis kelamin, yang merupakan atribut yang
terkait dengan demografi pasien. Hal ini menunjukkan bahwa atribut pada penyelidikan dan pemeriksaan klinis memiliki pengaruh yang lebih tinggi
daripada informasi demografis dalam memprediksi penyakit jantung dengan menggunakan teknik data mining.
BerdasarkanTabel 10, model prediksi yang dikembangkan menggunakan teknik hybrid data mining, Vote, dan 9 fitur signifikan telah mencapai
akurasi tertinggi sebesar 87,41%. Karena Vote mengungguli dua teknik lainnya dalam eksperimen kedua dan menunjukkan akurasi yang konsisten
dalam kedua eksperimen, itu (Vote) diidentifikasi sebagai teknik dengan performa terbaik di antara tiga teknik teratas. Temuan telah mendorong
penelitian lebih lanjut untuk mengeksplorasi teknik penambangan data hybrid menggunakan kombinasi teknik penambangan data yang berbeda untuk
meningkatkan kinerja model prediksi.
Berdasarkan hasil evaluasi, diusulkan model prediksi terbaik dalam penelitian ini dengan menggunakan 9 atribut signifikan (sex, cp, fbs,
restecg, exang, oldpeak, slope, ca dan thal) dan teknik Vote hybrid.Gambar 4menunjukkan gambaran umum dari model prediksi penyakit
jantung yang diusulkan. Selain itu, sistem prediksi penyakit jantung dikembangkan berdasarkan model yang diusulkan untuk membantu
memprediksi adanya penyakit jantung pada pasien secara otomatis.Gambar 5mengilustrasikan tangkapan layar dari sistem prediksi penyakit
jantung. Sistem ini (HDPS v2.0) dapat diunduh melalui situs web ini:https://sites.google.com/um.edu.my/ykchiam/research/healthcaredata-
analytics.
Secara keseluruhan, penelitian ini menunjukkan bahwa fitur signifikan yang teridentifikasi dan teknik penambangan data telah meningkatkan
kinerja model prediksi. Model prediksi yang diusulkan membuka jalan untuk penelitian lebih lanjut tentang penyakit kardiovaskular
Gambar 4.Model prediksi yang diusulkan dikembangkan menggunakan Vote dan sembilan fitur signifikan.
90
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Gambar 5.Tangkapan layar sistem prediksi penyakit jantung yang dikembangkan berdasarkan model prediksi yang diusulkan.
prediksi yang dapat mendukung pengambilan keputusan klinisi dalam mendiagnosis pasien penyakit jantung.
Benchmarking berguna untuk membandingkan kinerja suatu model dengan kinerja yang dicapai oleh model lain. Metode ini digunakan untuk
menilai apakah model yang diusulkan telah mencapai akurasi yang dapat diterima dibandingkan dengan akurasi yang dicapai oleh penelitian lain.
Keakuratan model yang diusulkan menggunakan sembilan fitur signifikan (yaitu jenis kelamin, cp, fbs, restecg, exang, oldpeak, slope, ca, thal) dan teknik
Vote dibandingkan dengan enam studi lain yang telah dilakukan dalam beberapa tahun terakhir menggunakan UCI repositori pembelajaran mesin.
Tabel 11menunjukkan pembandingan akurasi model yang diusulkan terhadap akurasi model yang dilaporkan dalam enam studi yang ada.
BerdasarkanTabel 11, kita dapat melihat bahwa model yang diusulkan memiliki kinerja yang lebih baik dibandingkan dengan penelitian yang ada.
Berdasarkan perbandingan tersebut, terlihat bahwa penelitian ini menghasilkan akurasi yang lebih tinggi dengan menggunakan teknik hybrid, Vote.
Selain itu, model klasifikasi yang diusulkan dalam penelitian ini telah terbukti memiliki akurasi yang dapat diterima dan memiliki kinerja yang lebih baik
daripada penelitian lainnya.
Tabel 12menunjukkan fitur yang dipilih oleh dua belas studi yang ada yang telah menggunakan dataset penyakit jantung UCI untuk mengembangkan model
prediksi. Kesembilan fitur yang dipilih dalam model yang diusulkan telah digunakan setidaknya dalam lima penelitian. Hal ini membuktikan bahwa fitur yang dipilih
dalam penelitian ini signifikan untuk memprediksi adanya penyakit jantung pada pasien.
Tabel 11
Benchmarking dari Model yang Diusulkan.
Model yang diusulkan Vote dengan Naïve Bayes dan Logistic Regression 87,41%
Paul dkk. (2016) Verma dkk. Neural Network dengan Fuzzy 80%
(2016) Ismail dkk. (2015) El- Pohon Keputusan 80,68%
Bialy et al. (2015) Subanya dan Pohon Keputusan Mesin 86,50%
Rajalaxmi (2014) Nahar et al. Pembelajaran Ekstrim 78,54%
(2013) SVM 86,76%
Naif Bayes 69,11%
Chaurasia dan Pal (2013) KERANJANG 83,49%
Khemphila dan Boonjing (2011) Neural Network dengan Pohon Keputusan 80,99%
Shouman et al. (2011) Algoritma Genetika dengan Gain Ratio 84,10%
91
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
Tabel 12
Fitur yang dipilih oleh studi menggunakan dataset penyakit jantung UCI.
7. Kesimpulan
Industri klinis memiliki data pasien yang sangat besar yang tidak diproses. Menemukan cara untuk memproses data mentah ini menjadi permata informasi
dapat menyelamatkan banyak nyawa. Teknik data mining dapat digunakan untuk menganalisis data mentah, untuk memberikan wawasan baru menuju tujuan
pencegahan penyakit dengan prediksi yang akurat. Penyakit jantung merupakan salah satu penyebab utama kematian di dunia. Sangat penting untuk
mendeteksinya pada pasien sesegera mungkin untuk mencegah kematian.
Dalam studi ini, fitur signifikan dan teknik pemodelan klasifikasi dengan kinerja terbaik yang meningkatkan akurasi prediksi penyakit
jantung dipilih. Eksperimen pertama kali dilakukan menggunakan dataset UCI Cleveland untuk mengidentifikasi fitur signifikan dan tiga
teknik penambangan data teratas. Temuan dievaluasi melalui percobaan lain menggunakan dataset UCI Statlog. Kesembilan fitur penting
yang dipilih dalam penelitian ini adalah sex, cp, fbs, restecg, exang, oldpeak, slope, ca dan thal. Tiga teknik data mining teratas yang
menghasilkan akurasi tinggi dalam prediksi diidentifikasi dalam penelitian ini sebagai Vote, Naïve Bayes dan Support Vector Machine. Hasil
evaluasi menegaskan kembali bahwa sembilan fitur yang dipilih adalah signifikan. Selain itu, di antara tiga teknik teratas, Vote mengungguli
dua teknik lainnya. Model prediksi terbaik dibuat dengan menggunakan sembilan atribut signifikan dan teknik Vote. Terakhir, keakuratan
model yang diusulkan dibandingkan dengan keakuratan model yang diusulkan dalam studi yang ada. Hasil benchmarking menunjukkan
bahwa model klasifikasi yang diusulkan telah menghasilkan akurasi prediksi yang lebih tinggi dan tampil lebih baik dibandingkan penelitian
lainnya.
Ada banyak cara untuk meningkatkan penelitian ini dan mengatasi keterbatasan penelitian ini. Penelitian ini dapat diperpanjang dengan melakukan
percobaan yang sama pada dataset dunia nyata berskala besar. Teknik Vote yang digunakan pada model yang diusulkan adalah teknik hybrid yang
menggabungkan Naïve Bayes dan Logistic Regression. Penelitian lebih lanjut dapat dilakukan untuk menguji kombinasi teknik data mining yang berbeda
dalam prediksi penyakit jantung. Selain itu, metode pemilihan fitur baru dapat diterapkan untuk mendapatkan perspektif yang lebih luas pada fitur yang
signifikan untuk meningkatkan akurasi prediksi.
Terima kasih
Pekerjaan ini didukung oleh Hibah Penelitian Universitas Malaya (UMRG), Kode Proyek: RP028C-14HTM dan Skema Hibah
Penelitian Fundamental (FRGS) Kementerian Pendidikan Malaysia (Pendidikan Tinggi), Kode Proyek: FP057-2017A.
Pernyataan minat
Tidak ada.
Referensi
Anooj, PK, 2012. Sistem Pendukung Keputusan Klinis: Prediksi Tingkat Risiko Penyakit Jantung Menggunakan Weighted Fuzzy Rules. J. King Saud Univ.-Computer Inf. Sains. 24 (1),
27–40.
Bhatla, N., Jyoti, K., 2012. Analisis prediksi penyakit jantung menggunakan teknik penambangan data yang berbeda. Int. J.Eng. 1 (8), 1–4.
Chaurasia, V., Pal, S., 2013. Prediksi dini penyakit jantung menggunakan teknik data mining. Karib. J. SciTech. 1, 208–217.
Dey, A., Singh, J., Singh, N., 2016. Analisis algoritma pembelajaran mesin yang diawasi untuk prediksi penyakit jantung dengan pengurangan jumlah atribut menggunakan prinsipal
analisis komponen. Analisis 140 (2), 27–31.
Dua, D., Karra Taniskidou, E., 2017. Repositori Pembelajaran Mesin UCI. Universitas California, Sekolah Informasi dan Ilmu Komputer, Irvine, CA http://
archive.ics.uci.edu/ml.
El-Bialy, R., Salamay, MA, Karam, OH, Khalifa, ME, 2015. Analisis fitur set data penyakit jantung arteri koroner. Procedia Comput. Sains. 65, 459–468. Ismaeel, S.,
Miri, A., Sadeghian, A., Chourishi, D., 2015. Prediktor Extreme Learning Machine (ELM) untuk Karakteristik vi Tungku Busur Listrik. IEEE 2nd
Konferensi Internasional Keamanan Siber dan Komputasi Awan (CSCloud), New York, hlm. 329–334.
Kavitha, R., Kannan, E., 2016. Kerangka kerja yang efisien untuk klasifikasi penyakit jantung menggunakan ekstraksi fitur dan teknik pemilihan fitur dalam penambangan data.
International Conference on Emerging Trends in Engineering, Technology and Science (ICETETS), hlm. 1–5.
Khemphila, A., Boonjing, V., 2011. Klasifikasi penyakit jantung menggunakan jaringan saraf dan pemilihan fitur. Dalam: Konferensi Internasional ke-21 tentang Rekayasa Sistem
92
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
93