1060 1 9507 1 10 20170828
1060 1 9507 1 10 20170828
Abstrak
Elektrokardiogram (EKG), atau rekam jantung, dapat digunakan untuk mengenali kelainan detak
jantung atau aritmia. Bantuan komputer dengan teknik machine learning tertentu dapat digunakan
untuk mengenali aritmia secara otomatis. Tetapi data numerik yang belum diproses dari EKG
mempunyai jumlah fitur yang banyak, yang dapat mengurangi kualitas pengenalan otomatis.
Algoritma genetika (genetic algorithm, GA) dapat digunakan untuk menyeleksi fitur sehingga didapat
data dengan jumlah fitur yang lebih rendah. GA akan membuat data set dengan fitur yang sudah
diseleksi, dan data set tersebut digunakan untuk melatih support vector machine (SVM) untuk
mengklasifikasikan aritmia. Untuk pelatihan dan pengujian, digunakan data EKG dari database aritmia
Massachusetts Institute of Technology–Beth Israel Hospital (MIT-BIH). Masing-masing data
merupakan rekam jantung selama 6 detik dan diklasifikasikan ke dalam detak jantung normal dan 3
jenis aritmia. Hasil yang didapat dari penelitian menunjukkan bahwa GA-SVM mempunyai akurasi
rata-rata sebesar 82.5% menggunakan 120 data latih dan 20 data uji. GA-SVM juga dapat menurunkan
jumlah fitur, dari 2160 jumlah fitur awal menjadi rata-rata 406 fitur.
Kata kunci: aritmia, elektrokardiogram, support vector machine, algoritma genetika, seleksi fitur
Abstract
Electrocardiogram (ECG) can be used to recognize abnormal heart beats or arrhythmia. Automatic
arrhythmia recognition can be achieved through the use of machine learning techniques. However,
ECG generates raw numerical data with large amount of features that can reduce the quality of
automatic recognition. Genetic algorithm (GA) can be utilized to perform a feature selection, reducing
the amount of features. Data with reduced features then will be used to train a support vector machine
(SVM) classifier. ECG data from the Massachusetts Institute of Technology–Beth Israel Hospital (MIT-
BIH) arrhythmia database is used as training and testing data. Each data is a six-second ECG
recording, and is classified into normal heartbeat and 3 different kind of arrhythmias. Result shows
that GA-SVM yielded average accuracy of 82.5% with 120 training data and 20 test data, and reduced
the amount of feature from 2160 original features to an average of 406 reduced features.
Keywords: arrhythmia, electrocardiogram, support vector machine, genetic algorithm, feature selection
mengambil tindakan yang tepat (Wilkins, 2011). deteksi penyakit jantung dengan seleksi fitur
Dalam menginterpretasikan hasil EKG, menggunakan genetic algorithm (GA). Penelitian
diperlukan pengetahuan yang luas karena setiap dilakukan dengan 3 jenis teknik klasifikasi yakni
macam aritmia memiliki ciri-ciri yang berbeda, Naïve Bayes, decision tree, dan klasifikasi melalui
seperti bentuk-bentuk gelombang dan jumlah clustering. Dataset terdiri dari 909 data. Setiap
detak jantung permenit (Wilkins, 2011). data memiliki 13 fitur dan 2 kelas, yakni sembuh
Pengenalan manual seperti ini rentan terhadap (tidak mempunyai penyakit jantung) dan sakit
kesalahan diagnosis karena kurangnya ketelitian. (mempunyai penyakit jantung). GA dapat
Praktisi-praktisi non-ahli kardiologi, seperti menyeleksi 6 fitur dari 13 fitur yang ada. Hasil
perawat, juga dapat mengalami kesulitan klasifikasi dari fitur yang sudah diseleksi sangat
mengenali jenis-jenis gelombang. memuaskan, Naïve Bayes memiliki akurasi
Untuk membantu tenaga medis sebesar 96,5% dan decision tree memiliki akurasi
menginterpretasikan hasil EKG, dapat sebesar 99,2%. Klasifikasi melalui klustering
digunakan bantuan sistem komputer dengan memiliki akurasi yang cukup bagus yakni 88,2%.
machine learning. Akan tetapi, kendala dalam
menerapkan pengenalan otomatis dengan sistem Untuk penelitian SVM tanpa seleksi fitur,
komputer adalah EKG menghasilkan data Cholissodin, dkk (2014) melakukan klasifikasi
numerik dengan jumlah besar. Hal ini dokumen komplain elektronik kampus dengan
dikarenakan EKG merupakan rekaman aktivitas directed acyclic graph (DAG) SVM dan analytic
jantung dalam millivolt (mV) yang direkam hierarchy processing (AHP). Data-data
setiap sepersekian detik (Wilkins, 2011). diklasifikaskan ke empat kelas berdasarkan
Contoh, pada database aritmia Massachusetts urgensi dan pentingnya komplain yang diterima.
Institute of Technology–Beth Israel Hospital Data-data kemudian dioleh dengan text
(MIT-BIH) rekam jantung selama 6 detik preprocessing. Kemudian AHP digunakan untuk
menghasilkan titik data sebanyak 2160 buah mendapat bobot setiap kelas, dan akhirnya SVM
(Moody & Mark, 1997). digunakan untuk mengklasifikakan data. Hasil
Dalam mengatasi jumlah fitur yang besar yang diperoleh adalah akurasi selalu lebih tinggi
ini, support vector machine (SVM) adalah salah tanpa penggunaan bobot AHP dengan akurasi
satu algoritma yang dapat digunakan. SVM terbaik senilai 82,61%.
mempunyai keuntungan karena tidak begitu Berdasarkan penjelasan yang telah
dipengaruhi oleh besarnya jumlah fitur pada dipaparkan, akan dilakukan penelitian untuk
data (curse of dimensionality). Selain itu SVM mengklasifikasikan aritmia dari hasil EKG
juga tidak perlu mengetahui distribusi data pada dengan SVM dengan proses seleksi fitur. Data
ruang fitur (Melgani & Bazi, 2008). penelitian diambil dari database aritmia MIT-
Untuk meningkatkan kinerja SVM, jumlah BIH (Moody & Mark, 1997). Setiap data
fitur dapat dikurangi dengan melakukan proses merupakan rekam jantung selama 6 detik kanal
seleksi fitur. Pengurangan jumlah fitur dengan MLII (limb lead II yang dimodifikasi) yang
memiliki keuntungan yakni mempermudah diubah menjadi 2160 fitur dan dinormalisasi
visualisasi dan pemahaman data, mengurangi dengan metode min-max. Setiap data
biaya komputasi, dan meningkatkan kinerja mempunyai kelas yakni detak jantung normal,
algoritma (Guyon & Elisseeff, 2003). atrial fibrillation, PVC bigeminy, dan
Beberapa penelitian tentang SVM dan ventricular tachycardia. Dataset terdiri dari 120
proses seleksi fitur telah dilakukan sebelumnya. data latih dan data uji. Proses seleksi fitur
Melgani dan Bazi (2008) mengembangkan dilakukan menggunakan GA. Pengujian yang
SVM dengan kernel radial basis function dilakukan meliputi melihat pengaruh berbagai
(RBF) untuk mengklasifikasi 5 jenis detak parameter GA dan SVM terhadap hasil
jantung. SVM dioptimasi dengan particle klasifikasi.
swarm optimization (PSO) untuk menentukan
parameter C dan γ. PSO juga digunakan untuk 2. JANTUNG DAN ARITMIA
memilih subset fitur yang digunakan untuk Jantung adalah organ penuh otot yang
melatih SVM. Dengan 500 data latih, SVM- terletak di dada, di belakang sternum di
PSO dapat menentukan dengan benar 90,52% mediastinum, di antara paru-paru, dan di depan
data dari 40.438 total data uji. tulang belakang. Jantung terdiri dari empat
Dalam penelitian lain, Anbarasi, Anupriya, ruang, yang terdiri dari dua atria dan dua
dan Inyengar (2010) melakukan penelitian untuk
2 +∑ ( −
, )
+
∈
Dimana adalah data dengan nilai terbesar untuk kelas +1 dan data
− baru yang disebut dengan offspring. Offspring
dengan nilai terbesar untuk kelas −1. SV atau support vectors adalah data-data
yang mempunyai nilai lebih dari 0 (Huang, Kecman & Kopriva, 2000).
dibentuk dengan proses reproduksi yang
dilakukan dengan dua cara yaitu crossover
(menggabungkan dua individu untuk membentuk
individu baru) dan mutasi (mengubah bagian dari
sebuah individu untuk membuat individu baru).
Seluruh individu (termasuk offspring) diukur
kemampuannya dalam memecahkan masalah,
yang diukur dengan nilai fitness. Populasi baru
dibentuk
0,9
parameter-parameter GA-SVM terhadap
akurasi. Parameter-parameter yang diuji adalah: 0,8
a. Ukuran populasi GA 0,7
b. Tingkat crossover GA ( ) 0,6
c. Tingkat mutasi GA ( ) 0,5
d. Nilai threshold SVM
e. Augmenting factor SVM
f. Konstanta SVM Cr/Mr
g. Learning rate SVM
h. Nilai dari kernel RBF Gambar 3 Hasil Pengujian Crossover Rate dan
i. Jumlah iterasi SVM
Mutation Rate
Untuk setiap nilai parameter, pengujian
diulang sebanyak 10 kali untuk mendapatkan
nilai fitness rata-rata. Dalam pengujian
digunakan parameter awal sebagai berikut:
a. Ukuran populasi:
50 :
. 0,9
Fakultas Ilmu Komputer, Universitas
Brawijaya
Hasil dari pengujian kombinasi dan disajikan
pada 4. Pengujian menunjukkan bahwa crossover
rate yang lebih besar menghasilkan fitness yang
lebih baik. Hal ini dikarenakan masalah memiliki
ruang pencarian yang besar
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1175
(22160), dan crossover memberikan kemampuan pemisah yang didapat dengan menyelesaikan
untuk menjelahi ruang pencarian yang lebih quadratic problem, tetapi juga menyebabkan
luas (Gen & Cheng, 2000). Nilai kombinasi konvergensi lebih lama (Vijayakumar & Wu,
parameter dan yang dipilih untuk pengujian 1999), sehingga nilai yang didapat pada saat
selanjutnya adalah 0.9 dan 0.1. iterasi terakhir tercapai tidak optimal. Oleh
karena itu, nilai 0.5 dipilih sebagai nilai terbaik
6.3 Hasil dan Pembahasan Pengujian dan digunakan pada pengujian-pengujian
Threshold SVM selanjutnya.
1
Rata -rata Fitness
0,6
0,5
Gambar 4 Hasil Pengujian Threshold ε SVM
Hasil dari pengujian nilai threshold ε disajikan
pada 5. Bertambahnya nilai cenderung C
mengakibatkan penurunan nilai fitness. Nilai ε
menunjukkan seberapa besar yang dibutuhkan untuk
melanjutkan pencarian. Dengan demikian, nilai yang Gambar 6 Hasil Pengujian Nilai C SVM
besar akan menyebabkan pencarian mudah terhenti
karena pembaruan tidak cukup besar, walaupun
konvergensi belum tercapai. Nilai 10
−7
digunakan Hasil dari pengujian nilai C dapat dilihat
sebagai nilai ε terbaik dan digunakan pada pada gambar 7. Hasil pengujian menunjukkan
pengujian-pengujian selanjutnya. nilai fitness mengalami peningkatan dengan
bertambahnya nilai C. Nilai C memberikan
6.4 Hasil dan Pembahasan Pengujian Nilai bobot penalti yang lebih besar pada data yang
Augmenting Factor SVM melewati bidang pemisah, sehingga SVM yang
dihasilkan dapat menghindari kesalahan
1
Rata -rata Fitness
1
Fitness
0,8
Gambar 5 Hasil Pengujian Nilai λ SVM
0,6
Rata -rata
pada gambar 8. Hasil menunjukkan nilai fitness cenderung stabil dari jumlah iterasi SVM sebesar 100 dipilih sebagai
−7 −4
= 10 hingga = 10 , mencapai titik maksimal pada = 0.01 dan
kemudian mengalami penurunan. Sequential Learning pada dasarnya jumlah iterasi terbaik walaupun terdapat nilai
adalah gradient ascent (Vijayakumar & Wu, 1999) sehingga learning fitness yang lebih tinggi pada jumlah iterasi
rate yang terlalu kecil menyebabkan optimal lama tercapai, dan
learning rate yang terlalu besar menyebabkan optimal terlewati. yang lebih banyak. Selain itu, jumlah iterasi
Berdasarkan hasil pengujian, nilai = 0.01 menjadi nilai yang yang lebih banyak menyebabkan waktu
mempunyai keseimbangan antara kecepetan pencarian dan tidak
melawati hasil optimal. Oleh karena itu, = 0.01 dipilih menjadi nilai komputasi yang lebih lama.
parameter terbaik dan digunakan pada pengujian-pengujia selanjutnya.
Jumlah Iterasi SVM
6.7 Hasil dan Pembahasan Pengujian Nilai 1
0,7
0,9 0,6
0,8 0,5
900
100
200
300
400
500
600
700
800
1000
0,7
0,6
Jumlah Iterasi SVM
0,5
1 1,5 2 2,5 3 3,5 4 4,5 5
Gambar 9 Hasil Pengujian Jumlah Iterasi SVM