Q1. Identification of Significant Features and Data Mining Techniques in Predicting Heart Disease - En.id

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.
com
Telematika dan Informatika 36 (2019) 82–93
Daftar isi tersedia diScienceDirect
Telematika dan Informatika
halaman utama jurnal:www.elsevier.com/locate/tele
Identifikasi fitur signifikan dan teknik data mining dalam

memprediksi penyakit jantung
Mohammad Syafenoor AminA,C, Yin Kia ChiamA,⁎, Kasturi Dewi VarathanB
ADepartemen Rekayasa Perangkat Lunak, Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Malaya, 50603 Kuala Lumpur,
Malaysia
BDepartemen Sistem Informasi, Fakultas Ilmu Komputer dan Teknologi Informasi, Universitas Malaya, 50603 Kuala Lumpur, Malaysia
CUniversitas BRAC, 66, Mohakhali, Dhaka 1212, Bangladesh
INFO ARTIKEL ABSTRAK
Kata kunci: Penyakit kardiovaskular merupakan salah satu penyebab morbiditas dan mortalitas terbesar di antara penduduk dunia. Prediksi penyakit kardiovaskular dianggap
Penambangan data sebagai salah satu subjek terpenting di bagian analisis data klinis. Jumlah data dalam industri kesehatan sangat besar. Penambangan data mengubah kumpulan
Model prediksi besar data perawatan kesehatan mentah menjadi informasi yang dapat membantu membuat keputusan dan prediksi yang tepat. Ada beberapa penelitian yang
Algoritma klasifikasi
menerapkan teknik data mining dalam prediksi penyakit jantung. Meskipun demikian, penelitian yang memberikan perhatian terhadap fitur signifikan yang
Pemilihan fitur
memainkan peran penting dalam memprediksi penyakit kardiovaskular masih terbatas. Sangat penting untuk memilih kombinasi yang tepat dari fitur signifikan
Prediksi penyakit jantung
yang dapat meningkatkan kinerja model prediksi. Penelitian ini bertujuan untuk mengidentifikasi fitur signifikan dan teknik data mining yang dapat meningkatkan
akurasi prediksi penyakit kardiovaskular. Model prediksi dikembangkan menggunakan kombinasi fitur yang berbeda, dan tujuh teknik klasifikasi: k-NN, Decision
Tree, Naive Bayes, Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Regresi logistik). Hasil
percobaan menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining
dengan performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung. dan tujuh teknik klasifikasi: k-NN, Decision Tree, Naive Bayes,
Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Logistic Regression). Hasil percobaan
menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining dengan
performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung. dan tujuh teknik klasifikasi: k-NN, Decision Tree, Naive Bayes, Logistic
Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (teknik hybrid dengan Naïve Bayes dan Logistic Regression). Hasil percobaan
menunjukkan bahwa model prediksi penyakit jantung yang dikembangkan menggunakan fitur signifikan yang teridentifikasi dan teknik data mining dengan
performa terbaik (yaitu Vote) mencapai akurasi 87,4% dalam prediksi penyakit jantung.
1. Perkenalan
Penyakit kardiovaskular (juga dikenal sebagai penyakit jantung) tetap menjadi penyebab kematian nomor satu di seluruh dunia selama beberapa dekade
terakhir. Pada tahun 2015, Organisasi Kesehatan Dunia (WHO) memperkirakan bahwa 17,7 juta kematian telah terjadi di seluruh dunia karena penyakit
kardiovaskular (WHO, 2017). CVD adalah penyebab kematian nomor 1 secara global: lebih banyak orang meninggal setiap tahun akibat CVD daripada penyebab
lainnya. Jika kita dapat memprediksi penyakit kardiovaskular dan memberikan peringatan sebelumnya, beberapa kematian dapat dicegah.
Penerapan data mining membawa dimensi baru untuk prediksi penyakit kardiovaskular. Berbagai teknik penambangan data digunakan untuk mengidentifikasi
dan mengekstraksi informasi yang berguna dari kumpulan data klinis dengan masukan dan upaya pengguna yang minimal (Srinivas et al., 2010a). Selama dekade
terakhir, para peneliti mengeksplorasi berbagai cara untuk mengimplementasikan penambangan data dalam perawatan kesehatan untuk mencapai prediksi
penyakit kardiovaskular yang akurat.
Efisiensi penambangan data sangat bervariasi pada teknik yang digunakan dan fitur yang dipilih. Kumpulan data medis di
⁎Penulis
yang sesuai.
Alamat email:yinkia@um.edu.my (YK Chiam).
https://doi.org/10.1016/j.tele.2018.11.007
Diterima 6 Agustus 2018; Diterima dalam bentuk revisi 16 November 2018; Diterima 20 November 2018
Tersedia online 22 November 2018
0736-5853/ © 2018 Elsevier Ltd. Semua hak dilindungi undang-undang.
MS Amin dkk. Telematika dan Informatika 36 (2019) 82–93
industri kesehatan berlebihan dan tidak konsisten. Lebih sulit untuk menggunakan teknik data mining tanpa persiapan sebelumnya dan tepat.
BerdasarkanKavitha dan Kannan (2016), redundansi dan inkonsistensi data dalam kumpulan data mentah memengaruhi hasil prediksi algoritme.
Akibatnya, untuk menerapkan algoritme pembelajaran mesin secara maksimal, diperlukan persiapan yang efektif untuk melakukan praproses dataset.
Selain itu, fitur yang tidak diinginkan juga dapat mengurangi kinerja teknik penambangan data (Paul et al., 2016). Dengan demikian, seiring dengan
persiapan data, diperlukan metode pemilihan fitur yang tepat untuk mencapai akurasi yang tinggi dalam prediksi penyakit jantung menggunakan fitur
signifikan dan teknik data mining.
Meskipun sudah cukup jelas bahwa pemilihan fitur sama pentingnya dengan pemilihan teknik yang cocok, peneliti masih berjuang dalam
menggabungkan teknik penambangan data yang tepat dengan seperangkat fitur yang tepat. BerdasarkanShouman et al. (2013), ada harapan
untuk mendiagnosa penyakit kardiovaskular dengan akurasi yang tinggi tetapi tidak mudah untuk mencapainya. Selain itu, kombinasi fitur
yang signifikan pasti akan meningkatkan akurasi prediksi. Ini menunjukkan bahwa eksperimen ekstensif untuk mengidentifikasi fitur
signifikan diperlukan untuk mencapai tujuan tersebut.
Kinerja teknik penambangan data yang digunakan dalam memprediksi penyakit kardiovaskular sangat berkurang tanpa kombinasi yang baik dari
fitur kunci dan juga penggunaan algoritma pembelajaran mesin yang tidak tepat (Dey et al., 2016). Oleh karena itu, sangat penting untuk
mengidentifikasi kombinasi terbaik dari fitur signifikan yang bekerja sangat baik dengan algoritme berperforma terbaik. Penelitian ini berfokus pada
pencarian teknik data mining dengan fitur signifikan yang akan bekerja dengan baik dalam memprediksi penyakit jantung. Namun, tidak mudah untuk
mengidentifikasi teknik yang tepat dan memilih fitur yang signifikan. Studi yang ada menunjukkan bahwa teknik penambangan data yang digunakan
dalam prediksi penyakit kardiovaskular tidak mencukupi, dan pemeriksaan yang tepat diperlukan untuk mengidentifikasi fitur signifikan dan teknik
penambangan data yang akan meningkatkan kinerja. BerdasarkanNahar dkk. (2013), evaluasi dan perbandingan yang tepat untuk menguji kombinasi
fitur yang berbeda bersama dengan teknik penambangan data, belum difokuskan. Dengan demikian, kebutuhan untuk eksperimen menyeluruh muncul
untuk memberikan identifikasi teknik data mining yang tepat dan fitur yang signifikan untuk memastikan prediksi penyakit jantung dapat diterima dan
akurat.
Penelitian ini bertujuan untuk mengidentifikasi fitur signifikan dan teknik data mining untuk memprediksi penyakit jantung. Eksperimen
dilakukan untuk mengidentifikasi fitur dan teknik data mining. Kumpulan data penyakit jantung dikumpulkan dari sumber data, UCI Machine
Learning Repository. Dataset Cleveland dipilih karena merupakan database yang umum digunakan oleh peneliti pembelajaran mesin dengan
catatan paling lengkap. Tujuh teknik klasifikasi (k-NN, Decision Tree, Naïve Bayes, Logistic Regression, Vote, Support Vector Machine, dan
Neural Network) diterapkan untuk membuat model prediksi untuk percobaan ini menggunakan dataset yang telah disiapkan. Berdasarkan
hasil percobaan, sembilan fitur signifikan dan tiga teknik penambangan data teratas diidentifikasi. Hasil percobaan dievaluasi menggunakan
dataset lain, UCI Statlog Dataset penyakit jantung untuk mengkonfirmasi temuan. Selain itu, penelitian ini juga membandingkan akurasi
tertinggi yang dicapai oleh teknik terbaik yang diidentifikasi dari penelitian ini dengan akurasi tertinggi yang dicapai dalam studi yang ada.
Sisa kertas ini disusun sebagai berikut.Seksi 2mendeskripsikan dataset penyakit jantung yang digunakan dalam penelitian ini, untuk
mengidentifikasi fitur signifikan dan teknik data mining.Bagian 3menjelaskan metode yang digunakan untuk melakukan eksperimen yang
meliputi Data Preprocessing, Feature Selection, Classification Modeling using Data Mining Technique dan Performance Measure. Proses
rekayasa fitur dijelaskan untuk mengilustrasikan pemilihan fitur yang signifikan dalam prediksi penyakit jantung.Bagian 4menyajikan hasil
eksperimen berupa evaluasi kinerja model yang dibuat dengan menggunakan tujuh teknik data mining.Bagian 5 membahas analisis yang
dilakukan untuk mengidentifikasi fitur-fitur penting dan teknik data mining untuk menciptakan model dengan kinerja terbaik.Bagian 6
menggambarkan percobaan evaluasi yang dilakukan untuk memvalidasi temuan menggunakan dataset lain. Akhirnya, bagian terakhir
menyimpulkan penelitian dan menyajikan pekerjaan masa depan.
2. Kumpulan data
Data penyakit jantung dikumpulkan dari repositori pembelajaran mesin UCI (Dua dan Karra Taniskidou, 2017). Ada empat
database (yaitu Cleveland, Hongaria, Swiss, dan VA Long Beach). Basis data Cleveland dipilih untuk penelitian ini karena merupakan
basis data yang umum digunakan oleh peneliti pembelajaran mesin dengan catatan paling lengkap. Dataset berisi 303 catatan.
Meskipun dataset Cleveland memiliki 76 atribut, dataset yang disediakan di repositori hanya memberikan informasi untuk subset
dari 14 atribut. Sumber data dari dataset Cleveland adalah Cleveland Clinic Foundation.Tabel 1menggambarkan deskripsi dan jenis
atribut. Terdapat 13 atribut yang menjadi fitur dalam prediksi penyakit jantung dan satu atribut berfungsi sebagai output atau
atribut prediksi adanya penyakit jantung pada seorang pasien.
Dataset Cleveland berisi atribut bernama 'num' untuk menunjukkan diagnosis penyakit jantung pada pasien pada skala yang berbeda, dari 0 hingga
4. Dalam skenario ini, 0 mewakili tidak adanya penyakit jantung dan semua nilai dari 1 hingga 4 mewakili pasien dengan penyakit jantung, di mana
penskalaan mengacu pada tingkat keparahan penyakit (4 menjadi yang tertinggi).Gambar 1menunjukkan distribusi atribut 'num' di antara 303 record.
3. Metode
Dalam penelitian ini, RapidMiner Studio digunakan untuk melakukan percobaan karena menyediakan lingkungan desain visual yang kuat
dan mudah digunakan untuk membangun alur kerja analitik prediktif. Representasi visual dari alur kerja adalah salah satu fitur yang efisien
untuk pemula. Selain itu, mendukung inovasi open source, ketersediaan, dan fungsionalitas yang efektif.Gambar 2menunjukkan alur kerja
percobaan. Dalam percobaan, dataset penyakit jantung UCI Cleveland diimpor ke RapidMiner. Proses penambangan data dimulai dari tahap
pra-pemrosesan, dilanjutkan dengan rekayasa fitur, untuk memilih kombinasi atribut dan pemodelan klasifikasi yang berbeda, hingga
membuat model untuk prediksi menggunakan teknik penambangan data. Pemilihan fitur dan pemodelan diulang untuk semua
83
Tabel 1
Deskripsi atribut dari UCI Cleveland Dataset.
Atribut Keterangan Jenis
Usia Usia pasien dalam tahun Numerik

Seks Jenis kelamin pasien (1 untuk laki-laki dan 0 untuk perempuan) Nominal
Cp Jenis nyeri dada dijelaskan dengan 4 nilai; Nominal
Nilai 1: angina tipikal Nilai
2: angina atipikal Nilai 3:
nyeri non angina Nilai 4:
asimtomatik
Trestbps Tekanan darah istirahat (dalam mm/Hg saat masuk rumah sakit) Numerik
Chol Kolesterol serum dalam mg/dl Numerik
Facebook Gula darah puasa >120mg/dl; 1 jika benar dan 0 jika salah Nominal
Resecg Elektrokardiografi istirahat menghasilkan 3 nilai; Nominal
Nilai 0: normal
Nilai 1: memiliki kelainan gelombang ST-T (gelombang T inversi dan/atau elevasi atau depresi ST >0,05mV) Nilai 2:
menunjukkan kemungkinan atau pasti hipertrofi ventrikel kiri menurut kriteria Estes
Thalach Detak jantung maksimal tercapai Numerik
Exang Latihan menginduksi angina (1 untuk ya dan 0 untuk tidak) Nominal
Oldpeak ST depresi yang disebabkan oleh latihan relatif terhadap Numerik
Lereng istirahat Kemiringan puncak latihan segmen ST Nilai 1: Nominal
upsloping
Nilai 2: datar
Nilai 3: menurun
Ca Jumlah pembuluh darah utama (0–3) yang diwarnai dengan Numerik
Thal fluoroskopi Status jantung dijelaskan dengan 3 nilai Nominal
Nilai 3: biasa
Nilai 6: cacat tetap Nilai 7: cacat
yang dapat diperbaiki
Bil Ini mewakili diagnosis penyakit jantung dengan 5 nilai. 0 berarti tidak ada, dan 1–4 berarti ada penyakit jantung Nominal
Gambar 1.Distribusi "num" dalam dataset UCI Cleveland.
kombinasi atribut tersebut. Loop berulang sebagai subset yang berisi minimal 3 atribut yang dipilih dari 13 atribut dan model
diterapkan padanya. Kinerja setiap model yang dibuat, berdasarkan atribut yang dipilih dan teknik penambangan data selama setiap
iterasi, dicatat dan hasilnya ditampilkan setelah seluruh proses selesai.
Bagian 3.1–3.4menjelaskan secara lebih rinci preprocessing data, pemilihan fitur, pemodelan klasifikasi, dan pengukuran kinerja.
Hasil pengukuran kinerja disajikan dalamBagian 4.
3.1. Pemrosesan awal data
Data diproses terlebih dahulu setelah dikumpulkan. Ada 6 catatan yang memiliki nilai yang hilang dalam dataset Cleveland.
Semua record dengan nilai yang hilang telah dihapus dari dataset, sehingga mengurangi jumlah record dari 303 menjadi 297.
Selanjutnya, nilai prediksi atribut untuk kehadiran penyakit jantung di dataset diubah dari nilai multiclass (0 untuk tidak adanya dan
1, 2, 3, 4 untuk ada) ke nilai biner (0 untuk tidak ada; 1 untuk ada penyakit jantung). Tugas preprocessing data dilakukan dengan
mengubah semua nilai diagnosis dari 2 menjadi 4 menjadi 1. Dengan demikian dataset yang dihasilkan hanya berisi 0 dan 1 sebagai
nilai diagnosis, di mana 0 berarti tidak ada penyakit jantung dan 1 berarti ada penyakit jantung. Setelah reduksi dan transformasi,
84
Gambar 2.Alur kerja percobaan dalam penelitian ini.
3.2. Pemilihan fitur
Di antara 13 fitur yang digunakan dalam prediksi penyakit jantung, hanya atribut 'usia' dan 'jenis kelamin' yang mengacu pada
informasi pribadi setiap pasien. 11 fitur yang tersisa adalah semua atribut klinis yang dikumpulkan dari berbagai pemeriksaan
medis. Pada percobaan ini dipilih kombinasi fitur yang akan digunakan dengan 7 teknik klasifikasi; k-NN, Decision Tree, Naïve Bayes,
Logistic Regression, Vote, Support Vector Machine dan Neural Network, untuk membuat model klasifikasi. Untuk tujuan ini, metode
brute force diterapkan untuk membatasi batas bawahnya (minimal 3 fitur). Prosedurnya adalah menguji setiap kemungkinan
kombinasi fitur dengan semua teknik. Dalam percobaan, pertama, semua kemungkinan kombinasi dari 3 fitur dari 13 atribut dipilih
dan setiap kombinasi diuji dengan menerapkan 7 teknik data mining. Berikutnya,
Jumlah total kombinasi yang dapat dicapai dari satu set 13 atribut, tidak termasuk set kosong, diwakili oleh 2N−1. Dalam penelitian ini, satu
subset dari kombinasi fitur tidak boleh memiliki kurang dari 3 atribut. Dengan demikian, semua himpunan bagian dari kombinasi dicapai
dengan memiliki 2 atribut dan 1 atribut dihilangkan. Persamaan yang digunakan untuk menghitung jumlah total kombinasi diturunkan
sebagai berikut.
Jumlah kombinasi
N! N!
N 1
1! (N 1!) 2! (N 2)!
N(N 1)
N
N 1
2
2N+N2 N
N
+ 1
2
N2+N
N
+ 1
2
di mana n mewakili jumlah fitur yang digunakan untuk menghasilkan himpunan bagian dari kombinasi, yaitu 13 dalam percobaan ini.
Dengan demikian, total 8100 kombinasi fitur dipilih dan diuji dalam eksperimen ini.
85
3.3. Pemodelan klasifikasi menggunakan teknik data mining
Setelah memilih fitur, model dibuat dengan 7 teknik klasifikasi paling populer dalam data mining: k-NN, Decision Tree, Naive
Bayes, Logistic Regression (LR), Support Vector Machine (SVM), Neural Network dan Vote (yaitu a teknik hybrid dengan Naïve Bayes
dan Logistic Regression). Teknik validasi silang 10 kali lipat digunakan untuk memvalidasi kinerja model. Pada teknik ini, seluruh
dataset dibagi menjadi 10 subset kemudian diproses sebanyak 10 kali. 9 subset digunakan sebagai set pengujian dan 1 subset
sisanya digunakan sebagai set pelatihan. Terakhir, hasilnya ditunjukkan dengan rata-rata setiap 10 iterasi. Subset dibagi
menggunakan stratified sampling, artinya setiap subset akan memiliki rasio kelas yang sama dari dataset utama.
3.4. Ukuran kinerja
Kinerja model klasifikasi diukur menggunakan tiga ukuran kinerja: akurasi, ukuran-f dan presisi. Akurasi adalah persentase
instance yang diprediksi dengan benar di antara semua instance. F-measure adalah rata-rata tertimbang dari presisi dan daya ingat.
Presisi adalah persentase prediksi yang benar untuk kelas positif.
Untuk mengidentifikasi fitur yang signifikan, ketiga ukuran kinerja ini digunakan, sedangkan untuk mengidentifikasi teknik penambangan
data untuk membuat model dengan kinerja terbaik, digunakan ukuran akurasi dan presisi. Untuk mengidentifikasi fitur yang signifikan, tiga
ukuran kinerja memberikan pemahaman yang lebih baik tentang perilaku keseluruhan dari kombinasi fitur yang berbeda. Di sisi lain, analisis
teknik data mining berfokus pada model dengan kinerja terbaik yang dapat menghasilkan akurasi tinggi dalam prediksi penyakit jantung
karena akurasi dan presisi adalah metrik evaluasi kinerja yang paling intuitif. Untuk setiap pengklasifikasi, kinerja diukur secara terpisah dan
semua hasilnya dicatat dengan benar untuk analisis lebih lanjut.
4. Hasil
Bagian ini menyajikan hasil yang dicapai dalam percobaan. Sembilan atribut penting: "sex", "cp", "fbs", "restecg", "exang",
"oldpeak", "slope", "ca" dan "thal", dan tiga teknik berkinerja terbaik teratas: Vote, Naïve Bayes dan SVM, diidentifikasi berdasarkan
analisis hasil percobaan.Bagian 4.1menunjukkan hasil pengukuran kinerja.Bagian 4.2menjelaskan analisis fitur dan teknik
penambangan data.
4.1. Hasil pengukuran kinerja
Performansi 7 teknik data mining pada 8100 kombinasi fitur diujicobakan satu per satu. Semua hasil eksperimen (termasuk
akurasi, presisi, dan f-measure dari masing-masing model) dikumpulkan untuk analisis lebih lanjut.Tabel 2–4 menggambarkan
akurasi tertinggi, presisi tertinggi, dan f-measure tertinggi yang dicapai oleh setiap teknik penambangan data dan kombinasi fitur
yang digunakan dalam model.
Ketiga tabel tersebut menunjukkan kinerja dari 7 teknik klasifikasi dalam tiga kategori yang berbeda. Berdasarkan analisis yang
ditunjukkan pada tabel, dapat dilihat bahwa akurasi tertinggi (86,87%) dicapai oleh SVM dengan 9 atribut. Di sisi lain, presisi tertinggi (95,00%)
dicapai oleh Decision Tree dan k-NN, menggunakan kombinasi yang sama dari 3 fitur (yaitu jenis kelamin, restecg, exang) sedangkan f-
measure tertinggi diberikan oleh SVM dengan 9 atribut.Meja 2menunjukkan tiga teknik dengan kinerja terbaik dengan akurasi> 90%, yaitu
SVM, Naïve Bayes dan Vote. Hasil penelitian juga menunjukkan bahwa baik Decision Tree maupun k-NN memiliki akurasi paling rendah
(82,49%) dibandingkan dengan teknik lainnya. Namun, kedua teknik ini memberikan kinerja presisi tertinggi.
Tabel 5menunjukkan akurasi rata-rata yang dicapai oleh setiap teknik penambangan data pada semua 8100 kombinasi fitur.Tabel 6 dan 7
menunjukkan presisi rata-rata dan ukuran-F dari setiap teknik penambangan data. BerdasarkanTabel 5, Vote, Naïve Bayes dan SVM adalah
tiga teknik teratas untuk semua 8100 kombinasi dengan mendapatkan rata-rata akurasi 78,20% dan 78,15%. Di sisi lain, nilai rata-rata presisi
ditunjukkan padaTabel 6menunjukkan bahwa Vote, Naïve Bayes dan SVM adalah tiga teknik teratas. Berdasarkan Tabel 7, tiga teknik teratas
yang mencapai ukuran-F rata-rata tertinggi adalah LR, SVM, dan Naïve Bayes.
4.2. Analisis fitur dan teknik data mining
Bagian ini menjelaskan pemilihan fitur signifikan dan teknik penambangan data berdasarkan hasil yang diperoleh dari
Meja 2
Akurasi tertinggi dicapai oleh setiap teknik penambangan data.
Teknik Ketepatan Kombinasi
Mendukung Suara Mesin Vektor 86,87% Age, sex, cp, chol, fbs, exang, oldpeak, slope, ca
(SVM). 86,20% Sex, cp, fbs, thalach, exang, slope, ca, thal
Naif Bayes 85,86% Sex, cp, thalach, exang, oldpeak, ca
Regresi logistik 85,86% Umur, jenis kelamin, cp, chol, restecg, oldpeak, slope, ca, thal
Jaringan syaraf 84,85% Jenis kelamin, cp, trestbps, fbs, restecg, thalach, exang, oldpeak, slope, ca, thal Jenis
k-NN 82,49% kelamin, cp, fbs, restecg, oldpeak, ca, thal
Pohon Keputusan 82,49% Sex, cp, fbs, restecg, oldpeak, ca, thal
86
Tabel 3
Presisi tertinggi dicapai oleh setiap teknik penambangan data.
Teknik Presisi Kombinasi
k-NN 95,00% Sex, restecg, exang

Pohon Keputusan 95,00% Sex, restecg, exang
Pilih 90,27% cp, trestbps, fbs, thalach, exang, oldpeak, kemiringan, ca, thal Sex,
Naif Bayes 87,92% cp, fbs, kemiringan, ca, thal
Mendukung Jaringan Neural Mesin 86,86% Jenis kelamin, cp, chol, lereng, ca Jenis
Vektor (SVM). 86,43% kelamin, ca, thal
Regresi logistik 86,42% Sex, cp, trestbps, thalach, exang, oldpeak, slope, ca, thal
Tabel 4
F-measure tertinggi yang dicapai oleh masing-masing teknik data mining.
Teknik F-ukuran Kombinasi
Mendukung Mesin Vektor (SVM) 88,22% Umur, jenis kelamin, cp, chol, fbs, exang, oldpeak, slope,
Naïve Bayes 87,35% ca Sex, cp, thalach, exang, oldpeak, ca
Regresi logistik 87,27% Umur, jenis kelamin, cp, chol, restecg, oldpeak, slope, ca, thal
Jaringan syaraf 85,98% Jenis kelamin, cp, trestbps, fbs, restecg, thalach, exang, oldpeak, kemiringan, ca, thal Jenis
Pilih 84,41% kelamin, cp, fbs, thalach, exang, kemiringan, ca, thal
k-NN 84,05% Jenis kelamin, cp, fbs, restecg, oldpeak, ca, thal
Pohon Keputusan 84,05% Jenis kelamin, cp, fbs, restecg, oldpeak, ca, thal
Tabel 5
Akurasi rata-rata dicapai oleh masing-masing teknik data mining.
Teknik Akurasi Rata-rata Tercapai
Pilih 78,20%
Naif Bayes 78,20%
Mesin Vektor Dukungan (SVM) 78,15%
Regresi Logistik (LR) 78,03%
Jaringan syaraf 75,18%
k-NN 63,50%
Pohon Keputusan 63,50%
Tabel 6
Presisi rata-rata dicapai oleh setiap teknik penambangan data.
Teknik Presisi Rata-Rata Tercapai
Pilih 79,41%
Naif Bayes 78,76%
Mesin Vektor Dukungan (SVM) 78,15%
k-NN 66,43%
Tabel 7
Rata-rata f-measure dicapai oleh masing-masing teknik data mining.
Teknik Rata-rata F-measure Tercapai

Mendukung Mesin Vektor (SVM) 80,25%
Naïve Bayes 80,17%
Pilih 78,10%
k-NN 65,87%
87
Tabel 8
Perbandingan antar Atribut menghasilkan kinerja tertinggi.
Fitur Kejadian
Usia Seks cp Trestbps Chol Facebook Resecg Thalach Exang Oldpeak Lereng ca Thal
Kejadian dalam Akurasi Tertinggi 2 7 7 1 2 5 4 3 4 6 4 7 5

Kejadian dalam Pengukuran-F 2 7 7 1 2 5 4 3 4 6 4 7 5
Tertinggi Kejadian dalam Presisi 0 6 4 2 1 2 2 2 4 2 4 5 4
Tertinggi Total Jumlah Kejadian 4 20 18 4 5 12 10 8 12 14 12 19 14
eksperimen. Dengan menganalisis hasil ini, fitur signifikan dan teknik penambangan data yang memiliki dampak signifikan dalam
menciptakan model dengan kinerja terbaik diidentifikasi untuk memprediksi penyakit jantung.Bagian 4.2.1 dan 4.2.2menunjukkan analisis
fitur signifikan, dan teknik penambangan data berkinerja terbaik yang dipilih dalam penelitian ini.
4.2.1. Pemilihan fitur

Hasil yang dicapai dari percobaan dianalisis lebih lanjut untuk mengidentifikasi atribut yang signifikan untuk memprediksi
adanya penyakit jantung. Untuk mengidentifikasi atribut yang signifikan, dilakukan analisis untuk mengetahui berapa kali suatu
atribut dipilih dalam model yang memiliki akurasi, presisi, dan F-measure tertinggi. Di antara semua 8100 kombinasi, kombinasi fitur
yang menghasilkan performa tertinggi dari teknik tertentu telah diidentifikasi.Tabel 8menunjukkan analisis atribut yang telah
mencapai kinerja terbaik pada semua teknik data mining. Dengan demikian, 7 teknik yang memiliki kombinasi berbeda
menghasilkan performa tertinggi. Pada tabel ini, atribut yang terjadi pada kombinasi dengan kinerja tertinggi tersebut telah
dihitung dan dibandingkan dengan atribut lainnya. Baris pertama dariTabel 8menggambarkan berapa kali masing-masing atribut
tersebut ditemukan di antara kombinasi yang menghasilkan akurasi tertinggi di antara 7 teknik. Demikian pula, baris kedua dan
ketiga menggambarkan kemunculan atribut yang memberikan ukuran-F dan presisi tertinggi. Terakhir, penjumlahan dari semua
kemunculan setiap atribut dihitung.
Di antara 13 atribut, 'jenis kelamin' adalah atribut dengan jumlah kemunculan total tertinggi, muncul 21 kali di semua kombinasi. Hal ini
mengindikasikan bahwa atribut ini merupakan atribut paling signifikan yang berdampak pada prediksi dengan akurasi, F-measure dan presisi
yang tinggi. Pada penelitian ini, atribut yang muncul minimal 10 kali, menghasilkan kinerja tertinggi, diidentifikasi sebagai fitur yang
signifikan dalam prediksi penyakit jantung. Berdasarkan analisa diTabel 8, sembilan atribut diidentifikasi sebagai fitur signifikan dalam
prediksi jantung: "sex", "cp", "fbs", "restecg", "exang", "oldpeak", "slope", "ca" dan "thal". Selanjutnya, berdasarkan hasil percobaan, sembilan
atribut ini telah digunakan dalam model akurasi tertinggi yang dibuat menggunakan empat atau lebih teknik data mining.
4.2.2. Pemilihan teknik penambangan data

Untuk penyelesaian model yang kami usulkan, kami membutuhkan teknik penambangan data untuk berjalan seiring dengan atribut
signifikan yang dipilih. Dalam penelitian ini, tiga teknik penambangan data teratas diidentifikasi berdasarkan akurasi dan presisi rata-rata
tertinggi yang diperoleh dari eksperimen. BerdasarkanTabel 5, tiga teknik penambangan data dengan kinerja terbaik dalam hal akurasi dan
presisi rata-rata tertinggi dipilih. Ketiga teknik tersebut adalah Vote, Naïve Bayes dan SVM. Untuk menyelesaikan pemilihan tiga teknik teratas,
hasilnya diperiksa silang dengan hasil yang diperoleh diTabel 2 dan 3. Perbandingan hasil menunjukkan bahwa ketiga teknik ini telah muncul
sebagai salah satu dari tiga atau empat teknik teratas dalam akurasi dan presisi tertinggi. Dengan demikian, Vote, Naïve Bayes dan SVM
dipilih untuk mengembangkan model prediksi penyakit jantung.
5. Evaluasi
Pada penelitian ini dilakukan evaluasi untuk memvalidasi temuan fitur signifikan dan teknik data mining yang teridentifikasi di
dalamnyaBagian 4. Tiga model prediksi dibuat menggunakan sembilan atribut signifikan dan tiga data mining teratas
Tabel 9
Perbandingan antara dataset Cleveland dan Statlog.
Kategori Perbandingan Kumpulan Data Cleveland Kumpulan Data Statlog
Jumlah Atribut 13 13
Atribut Umur, jenis kelamin, cp, trestbps, chol, fbs, restecg, exang, oldpeak, slope, ca, thal Umur, jenis kelamin, cp, trestbps, chol, fbs, restecg, exang, oldpeak,
slope, ca, thal
Atribut Kelas nomor nomor
Nilai berbeda untuk “num” 0,1,2,3,4 1,2

Distribusi “num” 0 1 2 3 4 1 2
164 55 36 35 13 150 120
Rekaman dengan Nilai yang 6 0
Hilang Jumlah total instans 303 270
88
Gambar 3.Alur kerja percobaan evaluasi dalam penelitian ini.
teknik. Eksperimen dilakukan dengan menggunakan dataset lain, dataset UCI Statlog Heart Disease untuk memvalidasi kinerja model
prediksi. Sama seperti dataset Cleveland, dataset ini dikumpulkan dari repositori pembelajaran mesin UCI (Dua dan Karra Taniskidou, 2017).
Struktur dataset penyakit jantung Statlog mirip dengan dataset penyakit jantung Cleveland.Tabel 9menunjukkan perbandingan antara
kumpulan data Statlog dan Cleveland. Kedua dataset tersebut memiliki 13 atribut yang menampilkan penyakit jantung dan 1 atribut prediksi
untuk menunjukkan adanya penyakit jantung. Semua nama atributnya sama. Satu-satunya perbedaan atribut antara kedua dataset adalah
nilai yang mereka gunakan untuk merepresentasikan atribut kelas, “num”. Output untuk dataset Statlog berisi dua nilai: 1 dan 2. “1” adalah
tidak adanya penyakit jantung dan “2” adalah adanya penyakit jantung pada pasien. Di sisi lain, dataset Cleveland memiliki lima tingkat
penskalaan "num" yang berbeda dari 0 hingga 4.
Pada eksperimen sebelumnya, Cleveland dataset dikonversi dari nilai multiclass untuk 'num' menjadi nilai biner (0, 1). Ini
mengatasi perbedaan nilai 'num' antara kedua dataset. Setelah memproses data Cleveland, distribusi 297 record untuk atribut 'num'
menghasilkan 160 record untuk '0' dan 137 record untuk '1'. Di sisi lain, seperti yang terlihat diTabel 9, kumpulan data Statlog berisi
total 270 catatan. Dataset tidak mengandung nilai yang hilang. Distribusi “1″ dan “2” sebagai nilai “num” adalah 150 dan 120. Karena
tidak ada nilai yang hilang, kumpulan data tidak memerlukan banyak pemrosesan awal sebelum data digunakan dalam evaluasi ini.
Selain itu, rasio jumlah catatan ketidakhadiran dan adanya penyakit jantung hampir sama (yaitu rasio Cleveland=160:137; rasio
Statlog=150:120).
Kumpulan data Statlog memiliki representasi catatan yang sangat bersih, sehingga meningkatkan popularitasnya di kalangan peneliti juga. Banyak
penelitian terbaru (Nahato et al., 2015; Srinivas et al., 2010b) telah menggunakan kumpulan data Statlog dalam percobaan mereka. Karena semua
kesamaan dan kualitas data, dataset Statlog diidentifikasi sebagai dataset terbaik untuk digunakan dalam evaluasi untuk memvalidasi atribut signifikan
yang diusulkan dan teknik penambangan data.
5.1. Pengaturan eksperimental untuk evaluasi
Gambar 3menunjukkan seluruh proses yang digunakan untuk melakukan percobaan untuk evaluasi. Pertama, data Statlog diproses terlebih dahulu
sebelum menggunakan dataset untuk evaluasi. Untuk membuat dataset Statlog mirip dengan dataset Cleveland, nilai kelas "num" diubah dari "1"
menjadi "0" dan dari "2" menjadi "1". Dataset yang dihasilkan dengan demikian mengandung 0 dan 1 sebagai nilai keluaran yang diprediksi di mana 0
adalah tidak adanya dan 1 adalah adanya penyakit jantung. Setelah transformasi, distribusi 270 record menjadi 150 instance untuk '0' dan 120 instance
untuk '1'. Data kemudian siap digunakan untuk lingkungan klasifikasi.
Subset dari sembilan fitur signifikan yang diidentifikasi (yaitu jenis kelamin, cp, fbs, restecg, exang, oldpeak, slope, ca dan thal) dipilih dari
dataset yang diproses sebelumnya. Selanjutnya, model klasifikasi dikembangkan dengan menggunakan 3 teknik data mining teratas (yaitu
Vote, Naive Bayes dan Support Vector Machine). Dalam percobaan ini, teknik validasi silang 10 kali lipat digunakan untuk mengukur kinerja
model. Akhirnya, hasil akurasi ditunjukkan dengan rata-rata hasil yang diperoleh dari 10 iterasi.
Evaluasi model dilakukan dengan bantuan matriks konfusi. Ada empat hasil berdasarkan matriks kebingungan: True Positive
(TP), True Negative (TN), False Positive (FP) dan False Negative (FN). Rumus berikut digunakan untuk mengukur akurasi model
klasifikasi: Accuracy=(TP+TN)/n, dimana n=Total Number of Instances (Powers & Martin, 2011). Akurasi dipilih sebagai ukuran kinerja
karena merupakan salah satu kriteria paling populer dan intuitif yang digunakan dalam banyak penelitian yang ada untuk
membandingkan kinerja model klasifikasi.
5.2. Hasil evaluasi
Hasil akurasi yang dicapai oleh model prediksi yang dikembangkan menggunakan 9 fitur signifikan dan tiga teknik pemodelan klasifikasi
teratas adalah sebagai berikut:
89
Tabel 10
Akurasi didapatkan dari evaluasi percobaan.
Pilih Naif Bayes Mendukung Mesin Vektor
Akurasi diperoleh dengan 13 fitur 86,30% 84,07% 82,22%

Akurasi diperoleh dengan mengidentifikasi 9 fitur signifikan 87,41% 84,81% 85,19%
• Akurasi Suara dengan dataset 13 atribut=(103+130)/270=236/270=0,8630

• Akurasi NB dengan dataset 13 atribut=(97+130)/270=236/270=0,8407
• Akurasi SVM dengan dataset 13-atribut=(89+133)/270=236/270=0,8222
• Akurasi Suara dengan dataset 9 atribut=(100+136)/270=236/270=0,8741
• Akurasi NB dengan dataset 9 atribut=(97+132)/270=236/270=0,8481
• Akurasi SVM dengan dataset 9 atribut=(94+136)/270=236/270=0,8519
Tabel 10merangkum keakuratan model yang diperoleh dari percobaan. Tabel ini membandingkan akurasi model klasifikasi
untuk 13 atribut dan 9 atribut signifikan. BerdasarkanTabel 10, akurasi model prediksi yang dikembangkan menggunakan 9 fitur
signifikan lebih baik daripada model yang dikembangkan menggunakan 13 atribut. Akurasi tertinggi (86,30%) untuk model
klasifikasi 13 fitur dicapai oleh Vote. Selain itu, akurasi tertinggi (87,41%) untuk model klasifikasi 9 fitur juga diraih oleh Vote.
6. Diskusi
Hasil yang disajikan diTabel 10menunjukkan bahwa fitur signifikan yang teridentifikasi telah meningkatkan akurasi dari ketiga teknik penambangan
data teratas. Ini mengkonfirmasi temuan yang disajikan diBagian 4pada atribut signifikan dalam prediksi penyakit jantung. Diantara 9 ciri tersebut, 8
diantaranya merupakan ciri klinis yang dikumpulkan dari berbagai pemeriksaan medis. Hanya satu fitur, jenis kelamin, yang merupakan atribut yang
terkait dengan demografi pasien. Hal ini menunjukkan bahwa atribut pada penyelidikan dan pemeriksaan klinis memiliki pengaruh yang lebih tinggi
daripada informasi demografis dalam memprediksi penyakit jantung dengan menggunakan teknik data mining.
BerdasarkanTabel 10, model prediksi yang dikembangkan menggunakan teknik hybrid data mining, Vote, dan 9 fitur signifikan telah mencapai
akurasi tertinggi sebesar 87,41%. Karena Vote mengungguli dua teknik lainnya dalam eksperimen kedua dan menunjukkan akurasi yang konsisten
dalam kedua eksperimen, itu (Vote) diidentifikasi sebagai teknik dengan performa terbaik di antara tiga teknik teratas. Temuan telah mendorong
penelitian lebih lanjut untuk mengeksplorasi teknik penambangan data hybrid menggunakan kombinasi teknik penambangan data yang berbeda untuk
meningkatkan kinerja model prediksi.
Berdasarkan hasil evaluasi, diusulkan model prediksi terbaik dalam penelitian ini dengan menggunakan 9 atribut signifikan (sex, cp, fbs,
restecg, exang, oldpeak, slope, ca dan thal) dan teknik Vote hybrid.Gambar 4menunjukkan gambaran umum dari model prediksi penyakit
jantung yang diusulkan. Selain itu, sistem prediksi penyakit jantung dikembangkan berdasarkan model yang diusulkan untuk membantu
memprediksi adanya penyakit jantung pada pasien secara otomatis.Gambar 5mengilustrasikan tangkapan layar dari sistem prediksi penyakit
jantung. Sistem ini (HDPS v2.0) dapat diunduh melalui situs web ini:https://sites.google.com/um.edu.my/ykchiam/research/healthcaredata-
analytics.
Secara keseluruhan, penelitian ini menunjukkan bahwa fitur signifikan yang teridentifikasi dan teknik penambangan data telah meningkatkan
kinerja model prediksi. Model prediksi yang diusulkan membuka jalan untuk penelitian lebih lanjut tentang penyakit kardiovaskular
Gambar 4.Model prediksi yang diusulkan dikembangkan menggunakan Vote dan sembilan fitur signifikan.
90
Gambar 5.Tangkapan layar sistem prediksi penyakit jantung yang dikembangkan berdasarkan model prediksi yang diusulkan.
prediksi yang dapat mendukung pengambilan keputusan klinisi dalam mendiagnosis pasien penyakit jantung.
6.1. Benchmarking dari model yang diusulkan
Benchmarking berguna untuk membandingkan kinerja suatu model dengan kinerja yang dicapai oleh model lain. Metode ini digunakan untuk
menilai apakah model yang diusulkan telah mencapai akurasi yang dapat diterima dibandingkan dengan akurasi yang dicapai oleh penelitian lain.
Keakuratan model yang diusulkan menggunakan sembilan fitur signifikan (yaitu jenis kelamin, cp, fbs, restecg, exang, oldpeak, slope, ca, thal) dan teknik
Vote dibandingkan dengan enam studi lain yang telah dilakukan dalam beberapa tahun terakhir menggunakan UCI repositori pembelajaran mesin.
Tabel 11menunjukkan pembandingan akurasi model yang diusulkan terhadap akurasi model yang dilaporkan dalam enam studi yang ada.
BerdasarkanTabel 11, kita dapat melihat bahwa model yang diusulkan memiliki kinerja yang lebih baik dibandingkan dengan penelitian yang ada.
Berdasarkan perbandingan tersebut, terlihat bahwa penelitian ini menghasilkan akurasi yang lebih tinggi dengan menggunakan teknik hybrid, Vote.
Selain itu, model klasifikasi yang diusulkan dalam penelitian ini telah terbukti memiliki akurasi yang dapat diterima dan memiliki kinerja yang lebih baik
daripada penelitian lainnya.
Tabel 12menunjukkan fitur yang dipilih oleh dua belas studi yang ada yang telah menggunakan dataset penyakit jantung UCI untuk mengembangkan model
prediksi. Kesembilan fitur yang dipilih dalam model yang diusulkan telah digunakan setidaknya dalam lima penelitian. Hal ini membuktikan bahwa fitur yang dipilih
dalam penelitian ini signifikan untuk memprediksi adanya penyakit jantung pada pasien.
Tabel 11
Benchmarking dari Model yang Diusulkan.
Sumber Teknik yang Digunakan Akurasi Tercapai
Model yang diusulkan Vote dengan Naïve Bayes dan Logistic Regression 87,41%
Paul dkk. (2016) Verma dkk. Neural Network dengan Fuzzy 80%
(2016) Ismail dkk. (2015) El- Pohon Keputusan 80,68%
Bialy et al. (2015) Subanya dan Pohon Keputusan Mesin 86,50%
Rajalaxmi (2014) Nahar et al. Pembelajaran Ekstrim 78,54%
(2013) SVM 86,76%
Naif Bayes 69,11%
Chaurasia dan Pal (2013) KERANJANG 83,49%
Khemphila dan Boonjing (2011) Neural Network dengan Pohon Keputusan 80,99%
Shouman et al. (2011) Algoritma Genetika dengan Gain Ratio 84,10%
91
Tabel 12
Fitur yang dipilih oleh studi menggunakan dataset penyakit jantung UCI.
Sumber Seks cp Facebook Resecg Exang Oldpeak Lereng ca Thal
Liu dkk. (2017) Wiharto dkk. √ √ √ √ √

(2017) Dey dkk. (2016) Paul √ √ √ √ √
dkk. (2016) Nahato dkk. √ √ √ √ √ √
(2015) Tomar dan Agarwal √ √ √ √ √ √ √ √
(2014) Chaurasia dan Pal √ √ √ √ √
(2013) Sen et al. (2013) √ √ √ √ √ √
√ √ √ √ √ √
√ √ √ √ √
Nahar dkk. (2013) Bhatla √ √ √ √
dan Jyoti (2012) Anooj √ √ √ √ √
(2012) √ √
Khemphila dan Boonjing (2011) √ √ √ √ √ √
Total 5 11 5 8 8 7 7 6 6
7. Kesimpulan
Industri klinis memiliki data pasien yang sangat besar yang tidak diproses. Menemukan cara untuk memproses data mentah ini menjadi permata informasi
dapat menyelamatkan banyak nyawa. Teknik data mining dapat digunakan untuk menganalisis data mentah, untuk memberikan wawasan baru menuju tujuan
pencegahan penyakit dengan prediksi yang akurat. Penyakit jantung merupakan salah satu penyebab utama kematian di dunia. Sangat penting untuk
mendeteksinya pada pasien sesegera mungkin untuk mencegah kematian.
Dalam studi ini, fitur signifikan dan teknik pemodelan klasifikasi dengan kinerja terbaik yang meningkatkan akurasi prediksi penyakit
jantung dipilih. Eksperimen pertama kali dilakukan menggunakan dataset UCI Cleveland untuk mengidentifikasi fitur signifikan dan tiga
teknik penambangan data teratas. Temuan dievaluasi melalui percobaan lain menggunakan dataset UCI Statlog. Kesembilan fitur penting
yang dipilih dalam penelitian ini adalah sex, cp, fbs, restecg, exang, oldpeak, slope, ca dan thal. Tiga teknik data mining teratas yang
menghasilkan akurasi tinggi dalam prediksi diidentifikasi dalam penelitian ini sebagai Vote, Naïve Bayes dan Support Vector Machine. Hasil
evaluasi menegaskan kembali bahwa sembilan fitur yang dipilih adalah signifikan. Selain itu, di antara tiga teknik teratas, Vote mengungguli
dua teknik lainnya. Model prediksi terbaik dibuat dengan menggunakan sembilan atribut signifikan dan teknik Vote. Terakhir, keakuratan
model yang diusulkan dibandingkan dengan keakuratan model yang diusulkan dalam studi yang ada. Hasil benchmarking menunjukkan
bahwa model klasifikasi yang diusulkan telah menghasilkan akurasi prediksi yang lebih tinggi dan tampil lebih baik dibandingkan penelitian
lainnya.
Ada banyak cara untuk meningkatkan penelitian ini dan mengatasi keterbatasan penelitian ini. Penelitian ini dapat diperpanjang dengan melakukan
percobaan yang sama pada dataset dunia nyata berskala besar. Teknik Vote yang digunakan pada model yang diusulkan adalah teknik hybrid yang
menggabungkan Naïve Bayes dan Logistic Regression. Penelitian lebih lanjut dapat dilakukan untuk menguji kombinasi teknik data mining yang berbeda
dalam prediksi penyakit jantung. Selain itu, metode pemilihan fitur baru dapat diterapkan untuk mendapatkan perspektif yang lebih luas pada fitur yang
signifikan untuk meningkatkan akurasi prediksi.
Terima kasih
Pekerjaan ini didukung oleh Hibah Penelitian Universitas Malaya (UMRG), Kode Proyek: RP028C-14HTM dan Skema Hibah
Penelitian Fundamental (FRGS) Kementerian Pendidikan Malaysia (Pendidikan Tinggi), Kode Proyek: FP057-2017A.
Pernyataan minat
Tidak ada.
Referensi
Anooj, PK, 2012. Sistem Pendukung Keputusan Klinis: Prediksi Tingkat Risiko Penyakit Jantung Menggunakan Weighted Fuzzy Rules. J. King Saud Univ.-Computer Inf. Sains. 24 (1),
27–40.
Bhatla, N., Jyoti, K., 2012. Analisis prediksi penyakit jantung menggunakan teknik penambangan data yang berbeda. Int. J.Eng. 1 (8), 1–4.
Chaurasia, V., Pal, S., 2013. Prediksi dini penyakit jantung menggunakan teknik data mining. Karib. J. SciTech. 1, 208–217.
Dey, A., Singh, J., Singh, N., 2016. Analisis algoritma pembelajaran mesin yang diawasi untuk prediksi penyakit jantung dengan pengurangan jumlah atribut menggunakan prinsipal
analisis komponen. Analisis 140 (2), 27–31.
Dua, D., Karra Taniskidou, E., 2017. Repositori Pembelajaran Mesin UCI. Universitas California, Sekolah Informasi dan Ilmu Komputer, Irvine, CA http://
archive.ics.uci.edu/ml.
El-Bialy, R., Salamay, MA, Karam, OH, Khalifa, ME, 2015. Analisis fitur set data penyakit jantung arteri koroner. Procedia Comput. Sains. 65, 459–468. Ismaeel, S.,
Miri, A., Sadeghian, A., Chourishi, D., 2015. Prediktor Extreme Learning Machine (ELM) untuk Karakteristik vi Tungku Busur Listrik. IEEE 2nd
Konferensi Internasional Keamanan Siber dan Komputasi Awan (CSCloud), New York, hlm. 329–334.
Kavitha, R., Kannan, E., 2016. Kerangka kerja yang efisien untuk klasifikasi penyakit jantung menggunakan ekstraksi fitur dan teknik pemilihan fitur dalam penambangan data.
International Conference on Emerging Trends in Engineering, Technology and Science (ICETETS), hlm. 1–5.
Khemphila, A., Boonjing, V., 2011. Klasifikasi penyakit jantung menggunakan jaringan saraf dan pemilihan fitur. Dalam: Konferensi Internasional ke-21 tentang Rekayasa Sistem
92
(ICSeng). IEEE, Las Vegas, hlm. 406–409.

Liu, X., Wang, X., Su, Q., Zhang, M., Zhu, Y., Wang, Q., Wang, Q., 2017. Sistem klasifikasi hybrid untuk diagnosis penyakit jantung berdasarkan metode RFRS . Komputer.
Matematika. Metode Med.
Nahar, J., Imam, T., Tickle, KS, Chen, YPP, 2013. Kecerdasan komputasi untuk diagnosis penyakit jantung: pendekatan berbasis pengetahuan medis. Sistem Pakar. Aplikasi
40 (1), 96–104.
Nahato, KB, Harichandran, KN, Arputharaj, K., 2015. Penambangan pengetahuan dari dataset klinis menggunakan rough set dan jaringan saraf backpropagation. Komputer.
Matematika. Metode Med. 2015, 1–13.
Paul, AK, Shill, PC, Rabin, MRI, Akhand, MAH, 2016. Sistem pendukung keputusan fuzzy berbasis algoritma genetika untuk diagnosis penyakit jantung. (ICIEV). Di: 5th
Konferensi Internasional tentang Informatika, Elektronika dan Visi. IEEE, hlm. 145–150.
Sen, AK, Patel, SB, Shukla, DD, 2013. Teknik data mining untuk prediksi penyakit jantung koroner menggunakan pendekatan terintegrasi neuro-fuzzy two level. Int. J.Eng.
Komputer. Sains. (IJECS) 2 (8), 2663–2671.
Shouman, M., Turner, T., Stocker, R., 2011. Menggunakan pohon keputusan untuk mendiagnosis pasien penyakit jantung. Prosiding Konferensi Penambangan Data Australasia Kesembilan
(AusDM'11), Darlinghurst, Australia, hlm. 23–30.
Shouman, M., Turner, T., Stocker, R., 2013. Mengintegrasikan clustering dengan teknik data mining yang berbeda dalam diagnosis penyakit jantung. J.Komput. Sains. Eng. 20 (1).
Srinivas, K., Rani, BK, Govrdhan, A., 2010a. Aplikasi teknik data mining dalam kesehatan dan prediksi serangan jantung. Int. J.Komput. Sains. Eng. (IJCSE) 2
(02), 250–255.
Srinivas, K., Rao, GR, Govardhan, A., 2010. Analisis Penyakit Jantung Koroner dan Prediksi Serangan Jantung di Daerah Pertambangan Batubara Menggunakan Teknik Data Mining. Di dalam:
Makalah yang dipresentasikan pada Konferensi Internasional ke-5 tentang Ilmu Komputer dan Pendidikan (ICCSE), Hefei, hlm. 1344–1349.
Subanya, B., Rajalaxmi, RR, 2014. Seleksi fitur menggunakan Artificial Bee Colony untuk klasifikasi penyakit kardiovaskular. Konferensi Internasional tentang Elektronika dan
Sistem Komunikasi (ICECS), hlm. 1–6.
Tomar, D., Agarwal, S., 2014. Feature selection based least square twin support vector machine untuk diagnosis penyakit jantung. Int. J. Bio-Sci. Bio-Teknol. 6 (2), 69–82. Verma, L.,
Srivastava, S., Negi, PC, 2016. Model penambangan data hibrid untuk memprediksi kasus penyakit arteri koroner menggunakan data klinis non-invasif. J.Med. Sistem. 40
(7), 1–7.
Wiharto, W., Kusnanto, H., Herianto, H., 2017. Sistem hybrid analisis multivariat berjenjang dan jaringan saraf tiruan untuk diagnosis penyakit jantung koroner. Int. J.
Listrik Komputer. Eng. (IJECE) 7 (2), 1023–1031.
Organisasi Kesehatan Dunia (WHO), 2017. Penyakit kardiovaskular (CVDs) – Fakta Kunci.http://www.who.int/news-room/fact-sheets/detail/cardiovascular-diseases-
(cvd).
93

Q1. Identification of Significant Features and Data Mining Techniques in Predicting Heart Disease - En.id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Q1. Identification of Significant Features and Data Mining Techniques in Predicting Heart Disease - En.id

Diunggah oleh

Hak Cipta:

Format Tersedia

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

Telematika dan Informatika 36 (2019) 82–93

Daftar isi tersedia diScienceDirect

Telematika dan Informatika

halaman utama jurnal:www.elsevier.com/locate/tele

Identifikasi fitur signifikan dan teknik data mining dalam

CUniversitas BRAC, 66, Mohakhali, Dhaka 1212, Bangladesh

INFO ARTIKEL ABSTRAK

Atribut Keterangan Jenis

Usia Usia pasien dalam tahun Numerik

Gambar 1.Distribusi "num" dalam dataset UCI Cleveland.

3.1. Pemrosesan awal data

Gambar 2.Alur kerja percobaan dalam penelitian ini.

3.2. Pemilihan fitur

3.3. Pemodelan klasifikasi menggunakan teknik data mining

3.4. Ukuran kinerja

4.1. Hasil pengukuran kinerja

4.2. Analisis fitur dan teknik data mining

Teknik Ketepatan Kombinasi

Teknik Presisi Kombinasi

k-NN 95,00% Sex, restecg, exang

Vektor (SVM). 86,43% kelamin, ca, thal

Teknik F-ukuran Kombinasi

Teknik Akurasi Rata-rata Tercapai

Teknik Presisi Rata-Rata Tercapai

Teknik Rata-rata F-measure Tercapai

Regresi Logistik (LR) 80,98%

Kejadian dalam Akurasi Tertinggi 2 7 7 1 2 5 4 3 4 6 4 7 5

4.2.1. Pemilihan fitur

4.2.2. Pemilihan teknik penambangan data

Kategori Perbandingan Kumpulan Data Cleveland Kumpulan Data Statlog

Nilai berbeda untuk “num” 0,1,2,3,4 1,2

Gambar 3.Alur kerja percobaan evaluasi dalam penelitian ini.

5.1. Pengaturan eksperimental untuk evaluasi

5.2. Hasil evaluasi

Pilih Naif Bayes Mendukung Mesin Vektor

Akurasi diperoleh dengan 13 fitur 86,30% 84,07% 82,22%

• Akurasi Suara dengan dataset 13 atribut=(103+130)/270=236/270=0,8630

6.1. Benchmarking dari model yang diusulkan

Sumber Teknik yang Digunakan Akurasi Tercapai

Sumber Seks cp Facebook Resecg Exang Oldpeak Lereng ca Thal

Liu dkk. (2017) Wiharto dkk. √ √ √ √ √

(ICSeng). IEEE, Las Vegas, hlm. 406–409.

Anda mungkin juga menyukai