Anda di halaman 1dari 9

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 2, No. 3, Maret 2018, hlm. 1170-1178 http://j-ptiik.ub.ac.id

Klasifikasi Aritmia Dari Hasil Elektrokardiogram Menggunakan Support


Vector Machine Dengan Seleksi Fitur Menggunakan Algoritma Genetika
Reiza Adi Cahya1, Candra Dewi2, Bayu Rahayudi3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1reizasine@gmail.com, 2dewi_candra@ub.ac.id, 3ubay1@ub.ac.id

Abstrak
Elektrokardiogram (EKG), atau rekam jantung, dapat digunakan untuk mengenali kelainan detak
jantung atau aritmia. Bantuan komputer dengan teknik machine learning tertentu dapat digunakan untuk
mengenali aritmia secara otomatis. Tetapi data numerik yang belum diproses dari EKG mempunyai
jumlah fitur yang banyak, yang dapat mengurangi kualitas pengenalan otomatis. Algoritma genetika
(genetic algorithm, GA) dapat digunakan untuk menyeleksi fitur sehingga didapat data dengan jumlah
fitur yang lebih rendah. GA akan membuat data set dengan fitur yang sudah diseleksi, dan data set
tersebut digunakan untuk melatih support vector machine (SVM) untuk mengklasifikasikan aritmia.
Untuk pelatihan dan pengujian, digunakan data EKG dari database aritmia Massachusetts Institute of
Technology–Beth Israel Hospital (MIT-BIH). Masing-masing data merupakan rekam jantung selama 6
detik dan diklasifikasikan ke dalam detak jantung normal dan 3 jenis aritmia. Hasil yang didapat dari
penelitian menunjukkan bahwa GA-SVM mempunyai akurasi rata-rata sebesar 82.5% menggunakan
120 data latih dan 20 data uji. GA-SVM juga dapat menurunkan jumlah fitur, dari 2160 jumlah fitur
awal menjadi rata-rata 406 fitur.
Kata kunci: aritmia, elektrokardiogram, support vector machine, algoritma genetika, seleksi fitur
Abstract
Electrocardiogram (ECG) can be used to recognize abnormal heart beats or arrhythmia. Automatic
arrhythmia recognition can be achieved through the use of machine learning techniques. However, ECG
generates raw numerical data with large amount of features that can reduce the quality of automatic
recognition. Genetic algorithm (GA) can be utilized to perform a feature selection, reducing the amount
of features. Data with reduced features then will be used to train a support vector machine (SVM)
classifier. ECG data from the Massachusetts Institute of Technology–Beth Israel Hospital (MIT-BIH)
arrhythmia database is used as training and testing data. Each data is a six-second ECG recording, and
is classified into normal heartbeat and 3 different kind of arrhythmias. Result shows that GA-SVM
yielded average accuracy of 82.5% with 120 training data and 20 test data, and reduced the amount of
feature from 2160 original features to an average of 406 reduced features.
Keywords: arrhythmia, electrocardiogram, support vector machine, genetic algorithm, feature selection

teratur. Kondisi menyebabkan gejala-gejalan


1. PENDAHULUAN seperti rasa lelah dan rasa sakit di dada. Untuk
Aritmia atau kelainan detak jantung telah mendeteksi aritmia, dokter menggunakan rekam
banyak diderita oleh penduduk dunia – salah satu jantung atau elektrokardiogram (American
jenis aritmia, atrial fibrillation (afib) telah Health Association, 2016).
menyerang 6 juta penduduk Eropa dan 2,3 juta Elektrokardiogram (EKG) adalah hasil
penduduk Amerika (Kannel & Benjamin, 2008), rekaman aktivitas jantung yang didapat dengan
sedangkan aritmia jenis ventricular tachycardia menempelkan elektrode ke kulit untuk
(vtac) telah menyebabkan 300.000 kematian di menangkap arus listrik yang dihasilkan jantung.
Amerika (Compton, 2015). Deretan aktivitas-aktivitas jantung yang direkam
Aritmia menyebabkan jantung berdetak oleh EKG dapat digunakan sebagai indikator
lebih cepat, lebih lambat, atau menjadi tidak adanya gangguan irama jantung, yang dapat
digunakan oleh dokter atau perawat untuk

Fakultas Ilmu Komputer


Universitas Brawijaya 1170
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1171

mengambil tindakan yang tepat (Wilkins, 2011). deteksi penyakit jantung dengan seleksi fitur
Dalam menginterpretasikan hasil EKG, menggunakan genetic algorithm (GA).
diperlukan pengetahuan yang luas karena setiap Penelitian dilakukan dengan 3 jenis teknik
macam aritmia memiliki ciri-ciri yang berbeda, klasifikasi yakni Naïve Bayes, decision tree, dan
seperti bentuk-bentuk gelombang dan jumlah klasifikasi melalui clustering. Dataset terdiri dari
detak jantung permenit (Wilkins, 2011). 909 data. Setiap data memiliki 13 fitur dan 2
Pengenalan manual seperti ini rentan terhadap kelas, yakni sembuh (tidak mempunyai penyakit
kesalahan diagnosis karena kurangnya ketelitian. jantung) dan sakit (mempunyai penyakit
Praktisi-praktisi non-ahli kardiologi, seperti jantung). GA dapat menyeleksi 6 fitur dari 13
perawat, juga dapat mengalami kesulitan fitur yang ada. Hasil klasifikasi dari fitur yang
mengenali jenis-jenis gelombang. sudah diseleksi sangat memuaskan, Naïve Bayes
Untuk membantu tenaga medis memiliki akurasi sebesar 96,5% dan decision
menginterpretasikan hasil EKG, dapat tree memiliki akurasi sebesar 99,2%. Klasifikasi
digunakan bantuan sistem komputer dengan melalui klustering memiliki akurasi yang cukup
machine learning. Akan tetapi, kendala dalam bagus yakni 88,2%.
menerapkan pengenalan otomatis dengan sistem Untuk penelitian SVM tanpa seleksi fitur,
komputer adalah EKG menghasilkan data Cholissodin, dkk (2014) melakukan klasifikasi
numerik dengan jumlah besar. Hal ini dokumen komplain elektronik kampus dengan
dikarenakan EKG merupakan rekaman aktivitas directed acyclic graph (DAG) SVM dan analytic
jantung dalam millivolt (mV) yang direkam hierarchy processing (AHP). Data-data
setiap sepersekian detik (Wilkins, 2011). diklasifikaskan ke empat kelas berdasarkan
Contoh, pada database aritmia Massachusetts urgensi dan pentingnya komplain yang diterima.
Institute of Technology–Beth Israel Hospital Data-data kemudian dioleh dengan text
(MIT-BIH) rekam jantung selama 6 detik preprocessing. Kemudian AHP digunakan untuk
menghasilkan titik data sebanyak 2160 buah mendapat bobot setiap kelas, dan akhirnya SVM
(Moody & Mark, 1997). digunakan untuk mengklasifikakan data. Hasil
Dalam mengatasi jumlah fitur yang besar yang diperoleh adalah akurasi selalu lebih tinggi
ini, support vector machine (SVM) adalah salah tanpa penggunaan bobot AHP dengan akurasi
satu algoritma yang dapat digunakan. SVM terbaik senilai 82,61%.
mempunyai keuntungan karena tidak begitu Berdasarkan penjelasan yang telah
dipengaruhi oleh besarnya jumlah fitur pada data dipaparkan, akan dilakukan penelitian untuk
(curse of dimensionality). Selain itu SVM juga mengklasifikasikan aritmia dari hasil EKG
tidak perlu mengetahui distribusi data pada dengan SVM dengan proses seleksi fitur. Data
ruang fitur (Melgani & Bazi, 2008). penelitian diambil dari database aritmia MIT-
Untuk meningkatkan kinerja SVM, jumlah BIH (Moody & Mark, 1997). Setiap data
fitur dapat dikurangi dengan melakukan proses merupakan rekam jantung selama 6 detik kanal
seleksi fitur. Pengurangan jumlah fitur dengan MLII (limb lead II yang dimodifikasi) yang
memiliki keuntungan yakni mempermudah diubah menjadi 2160 fitur dan dinormalisasi
visualisasi dan pemahaman data, mengurangi dengan metode min-max. Setiap data
biaya komputasi, dan meningkatkan kinerja mempunyai kelas yakni detak jantung normal,
algoritma (Guyon & Elisseeff, 2003). atrial fibrillation, PVC bigeminy, dan
Beberapa penelitian tentang SVM dan ventricular tachycardia. Dataset terdiri dari 120
proses seleksi fitur telah dilakukan sebelumnya. data latih dan data uji. Proses seleksi fitur
Melgani dan Bazi (2008) mengembangkan SVM dilakukan menggunakan GA. Pengujian yang
dengan kernel radial basis function (RBF) untuk dilakukan meliputi melihat pengaruh berbagai
mengklasifikasi 5 jenis detak jantung. SVM parameter GA dan SVM terhadap hasil
dioptimasi dengan particle swarm optimization klasifikasi.
(PSO) untuk menentukan parameter C dan γ.
PSO juga digunakan untuk memilih subset fitur 2. JANTUNG DAN ARITMIA
yang digunakan untuk melatih SVM. Dengan Jantung adalah organ penuh otot yang
500 data latih, SVM-PSO dapat menentukan terletak di dada, di belakang sternum di
dengan benar 90,52% data dari 40.438 total data mediastinum, di antara paru-paru, dan di depan
uji. tulang belakang. Jantung terdiri dari empat
Dalam penelitian lain, Anbarasi, Anupriya, ruang, yang terdiri dari dua atria dan dua
dan Inyengar (2010) melakukan penelitian untuk

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1172

ventrikel. Atria dan ventrikel masing-masing 𝐾(𝒙𝒊 , 𝒙𝒋 ) adalah fungsi kernel untuk
dibagi menjadi kanan dan kiri. Atria dan memetakan data untuk kasus data yang tidak
ventrikel berperan dalam siklus peredaradan dapat dipisahkan secara linear. Fungsi kernel
darah dalam tubuh manusia (Wilkins, 2011). yang digunakan adalah radial basis function
Untuk memompa darah, jantung (RBF) pada persamaan 3.
memerlukan impuls listrik. Aktivitas listrik 𝟐
jantung ini dapat digambarkan dengan ‖𝒙𝒊 −𝒙𝒋 ‖
𝐾(𝒙𝒊 , 𝒙𝒋 ) = exp (− ) (3)
2𝜎 2
elektrokardiogam (EKG). Rekaman EKG
berbentuk gelombang yang digambarkan pada Nilai 𝛼𝑖 didapat dengan menyelesaikan
kertas dengan kisi. Sumbu horizontal bidang pemisah. Pencarian bidang pemisah
menunjukkan waktu dan sumbu vertikal dapat tersebut merupakan masalah optimasi dan dapat
menunjukkan tegangan listrik atau amplitudo. diselesaikan dengan beberapa cara. Pada
EKG direkam dengan menempelkan elektrode penelitian ini, cara yang digunakan adalah
ke kulit pasien. Tempat penempelan elektrode sequential learning (Vijayakumar & Wu, 1999).
mempengaruhi EKG yang dihasilkan, dan Sequential learning dapat menemukan bidang
terdapat 12 jenis rekaman EKG (Wilkins, 2011). pemisah optimal dengan lebih cepat dibanding
Dalam penelitian ini, jenis-jenis aritmia dengan metode quadraric programming yang
yang akan dikenali adalah: biasanya digunakan untuk memecahkan
a. Detak jantung normal. optimasi.
b. Atrial fibrillation. SVM hanya dapat mengklasifikasikan data
c. Premature ventricular contraction secara biner. Untuk klasifikasi lebih dari 2 kelas,
(PVC) bigeminy. dapat digunakan berbagai strategi memecah
d. Ventricular Tachycardia. klasifikasi multikelas menjadi beberapa
klasifikasi biner. Dalam penelitian ini digunakan
3. SUPPORT VECTOR MACHINE strategi binary decision tree (BDT) (Madzarov,
Misalkan terdapat sekumpulan data latih Gjorgjevikj & Chorbev, 2008). BDT mempunyai
berjumlah 𝑛 dengan fitur sejumlah 𝑚 (𝒙𝑖 ∈ prinsip membentuk pohon keputusan
ℜ𝑚 , 𝑖 = 1,2, … , 𝑛), support vector machine berdasarkan jarak masing-masing kelas.
(SVM) akan mengklasifikasikan setiap data ke
dalam target kelas yang bernilai 𝑦𝑖 ∈ (+1, −1). 4. ALGORITMA GENETIKA
Dari data latih tersebut, SVM melakukan Algoritma genetika atau Genetic Algorithm
klasifikasi dengan menemukan bidang (GA) adalah algoritma optimasi (Coley, 1999)
(hyperplane) yang dapat memisahkan data-data dan pencarian stokastik (Gen & Cheng, 2000)
dari kedua kelas dengan margin yang paling yang menggunakan konsep seleksi alam sebagai
besar (Huang, Kecman & Kopriva, 2006). dasar cara kerjanya. GA merupakan sebuah
Untuk menglasifikasikan data 𝒙 ke dalam metode umum atau framework yang dapat
kelas 𝑦 ∈ (+1, −1), digunakan persamaan 1, digunakan untuk menyelesaikan berbagai
dengan proses penurunan persamaan 1 secara macam masalah (Coley, 1999).
keseluruhan dapat dilihat pada Bennett & GA bekerja dengan memanipulasi populasi
Campbell (2000). atau kumpulan individu yang merepresentasikan
𝑓(𝒙) = 𝑠𝑖𝑔𝑛(∑𝑛𝑖=1 𝑦𝑖 𝛼𝑖 𝐾(𝒙𝒊 , 𝒙) + 𝑏) (1) solusi terhadap seuatu masalah. Pada awalnya,
populasi dibangkitkan secara acak pada berbagai
Dimana 𝛼𝑖 adalah Lagrange multiplier titik di ruang pencarian (Coley, 1999).
untuk data ke-i dan 𝑏 adalah nilai bias yang Kemudian dari populasi awal, dibentuk
didapat dari persamaan 2. individu-individu baru yang disebut dengan
1 ∑ 𝑦 𝛼 𝐾(𝒙𝒊 , 𝒙+ ) offspring. Offspring dibentuk dengan proses
𝑏 = − ( 𝑖∈𝑆𝑉 𝑖 𝑖 −
) (2) reproduksi yang dilakukan dengan dua cara yaitu
2 +∑
𝑖∈𝑆𝑉 𝑦𝑖 𝛼𝑖 𝐾(𝒙𝒊 , 𝒙 )
crossover (menggabungkan dua individu untuk
Dimana 𝑥 + adalah data dengan nilai 𝛼𝑖 membentuk individu baru) dan mutasi
terbesar untuk kelas +1 dan 𝑥 − data dengan nilai (mengubah bagian dari sebuah individu untuk
𝛼𝑖 terbesar untuk kelas −1. SV atau support membuat individu baru). Seluruh individu
vectors adalah data-data yang mempunyai nilai (termasuk offspring) diukur kemampuannya
𝛼𝑖 lebih dari 0 (Huang, Kecman & Kopriva, dalam memecahkan masalah, yang diukur
2000). dengan nilai fitness. Populasi baru dibentuk

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1173

dengan memilih individu-individu yang lebih


baik. Jika proses ini diulang selama beberapa
generasi, akan didapat individu terbaik (gBest)
yang diharapkan dapat menyelesaikan masalah
dengan baik (Gen & Cheng, 2000).
Individu memiliki deretean gen yang
disebut kromosom. Kromosom ini
merepresentasikan solusi untuk permasalahan
yang dihadapi. Proses melakukan pengubahan
dari solusi menjadi urutan gen dinamakan
encoding. Terdapat beberapa macam encoding,
yakni encoding biner, encoding bilangan real,
encoding permutasi integer, dan encoding
struktur data (Gen & Cheng, 2000).

5. SVM DENGAN SELEKSI FITUR


MENGGUNAKAN GA
GA digunakan untuk membentuk subfitur
yang optimal dari 2160 fitur awal. Untuk itu,
digunakan encoding biner. Gen ke-i setiap
kromosom merepresentasikan apakah fitur ke-i
digunakan dalam proses pelatihan SVM (nilai 1
menunjukkan fitur digunakan dan nilai 0
menunjukkan fitur tidak digunakan). Dengan
demikian, kromosom mempunyai 2160 gen.
Setiap gen dievaluasi dengan membentuk model
SVM. Nilai akurasi dan jumlah fitur digunakan
untuk menghitung nilai fitness.
Proses dari GA-SVM dapat dilihat pada
gambar 2. Penjelasan setiap langkah-langkah
GA-SVM adalah sebagai berikut:
Inisialisasi populasi: Inisialisasi populasi awal
Gambar 1 Alur GA-SVM
dilakukan dengan membangkitakan nilai real
acak untuk setiap gen pada setiap kromsom. b. Mutasi dilakukan dengan single
Kemudian nilai real tersebut diubah menjadi 0 mutation. Mutasi akan menghasilkan
atau 1 dengan thresholding (1 jika nilai kurang subfitur dengan karakteristik baru yang
dari sama dengan threshold dan 0 jika tidak). tidak dimiliki induk.
Nilai threshold untuk setiap kromosom dibuat 𝑐𝑟 (crossover rate) dan 𝑚𝑟 (mutation rate)
berbeda. Dengan demikian, populasi awal adalah parameter dalam rentang [0, 1] yang
memiliki jumlah fitur terseleksi yang bervariasi. menentukan jumlah crossover dan mutasi pada 1
Penggunaan inisialisasi yang sederhana dengan generasi.
langsung membangkitkan nilai 0/1 membuat
semua kromosom memilih sekitar 1080 fitur Evaluasi dengan melatih SVM: Untuk
(probabilitas 0.5×2160 total fitur) sehingga menghitung nilai fitness, dibentuk model SVM
populasi awal kurang bervariasi. menggunakan subfitur yang telah diseleksi.
dalam kromosom.
Reproduksi: Reproduksi dibagi menjadi 2: Model SVM dilatih dengan menggunakan
a. Crossover dilakukan dengan one-cut sequential learning (Vijayakumar &Wu, 1999).
point.. Crossover akan menghasilkan Dalam penelitian ini, sequential learning
subfitur yang mempunyai karakteristik dikatakan konvergen jika iterasi maksimal telah
dari kedua induknya. tercapai atau perubahan 𝛼𝑖 lebih kecil dari batas
yang telah ditentukan (max(|𝛿𝛼𝑖 |) < 𝜀 ).
Fungsi fitness dari GA-SVM dihitung
menggunakan persamaan 7.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1174

𝑓𝑖𝑡𝑛𝑒𝑠𝑠 = 0.85 × 𝑓1 + 0.15 × 𝑓2 (4) c. 𝑚𝑟 0,1


Dimana 𝑓1 adalah akurasi dari SVM yang d. σ dari RBF: 2
telah dibentuk dengan fitur yang sudah e. λ: 0,5
terseleksi. 𝑓2 adalah persentase dari fitur yang f. γ: 0.01
tidak terpilih. g. C: 1
h. ε: 10-5
Seleksi: Untuk seleksi dilakukan dengan binary
i. Iterasi maksimal SVM: 100
tournament. 2 individu acak dipilih dari
populasi, dan individu dengan fitness terbesar
6.1 Hasil dan Pembahasan Pengujian
dinyatakan lolos untuk generasi selanjutnya.
Ukuran Populasi GA
Proses ini diulang sebanyak jumlah populasi.
Pembandingan solusi: Pada setiap generasi, 1

Rata-rata Fitness
kromosom terbaik pada generasi ke-𝑖 (𝑔𝐵𝑒𝑠𝑡 𝑖 ) 0,9
dibandingkan dengan kromosom terbaik pada 0,8
generasi sebelumnya (𝑔𝐵𝑒𝑠𝑡). Jika fitness 0,7
𝑔𝐵𝑒𝑠𝑡 𝑖 lebih baik dari 𝑔𝐵𝑒𝑠𝑡, maka 𝑔𝐵𝑒𝑠𝑡 𝑖 0,6
dinyatakan sebagai 𝑔𝐵𝑒𝑠𝑡 yang baru. 0,5
10 20 30 40 50 60 70 80 90 100
Konvergensi: GA akan berhenti dengan 2 Ukuran Populasi
syarat. Pertama, GA harus dijalankan minimal
25 generasi. Kedua, jika selama 10 generasi
tidak terjadi perbaikan akurasi dan fitur yang Gambar 2 Hasil Pengujian Ukuran Populasi
terseleksi tidak turun lebih dari 10%. Kondisi
Hasil dari pengujian ukuran populasi
kedua jika dinyatakan dengan persamaan 4, akan
disajikan pada gambar 3. Dari hasil pengujian
menghasilkan nilai threshold:
didapat bahwa nilai fitness cenderung sebanding
∆𝑓𝑖𝑡𝑛𝑒𝑠𝑠 = 0.85 × ∆𝑓1 + 0.15 × ∆𝑓2 dengan ukuran populasi. Populasi menunjukkan
= 0.85 × 0 + 0.15 × 0.1 (5) berapa banyak solusi (Gen & Cheng, 2000),
sehingga populasi yang kecil menyebabkan tidak
= 0 + 0.015 = 0.015 banyak solusi yang ditelusuri. Jumlah populasi
100 dipilih sebagai jumlah populasi yang tepat
6. HASIL DAN PEMBAHASAN pada masalah ini dan digunakan pada pengujian-
Kinerja dari GA-SVM dilihat dengan hasil pengujian selanjutnya.
akurasi, yakni perbandingan antara data uji yang
diklasifikasikan dengan benar dan jumlah semua 6.2 Hasil dan Pembahasan Pengujian
data uji. Dalam penelitian ini, digunakan 120 Crossover Rate dan Mutation Rate
data latih dan 20 data uji, dengan 5 data uji untuk
1
setiap kelas. Kemudian dilihat pengaruh
Rata-rata Fitness

parameter-parameter GA-SVM terhadap 0,9


akurasi. Parameter-parameter yang diuji adalah: 0,8
a. Ukuran populasi GA 0,7
b. Tingkat crossover GA (𝑐𝑟) 0,6
c. Tingkat mutasi GA (𝑚𝑟) 0,5
d. Nilai threshold 𝜀 SVM
e. Augmenting factor 𝜆 SVM
f. Konstanta 𝐶 SVM
Cr/Mr
g. Learning rate 𝛾 SVM
h. Nilai 𝜎 dari kernel RBF
i. Jumlah iterasi SVM Gambar 3 Hasil Pengujian Crossover Rate dan
Mutation Rate
Untuk setiap nilai parameter, pengujian
diulang sebanyak 10 kali untuk mendapatkan Hasil dari pengujian kombinasi 𝑐𝑟 dan 𝑚𝑟
nilai fitness rata-rata. Dalam pengujian disajikan pada 4. Pengujian menunjukkan bahwa
digunakan parameter awal sebagai berikut: crossover rate yang lebih besar menghasilkan
a. Ukuran populasi: 50 fitness yang lebih baik. Hal ini dikarenakan
b. 𝑐𝑟: 0,9 masalah memiliki ruang pencarian yang besar

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1175

(22160), dan crossover memberikan kemampuan pemisah yang didapat dengan menyelesaikan
untuk menjelahi ruang pencarian yang lebih luas quadratic problem, tetapi juga menyebabkan
(Gen & Cheng, 2000). Nilai kombinasi konvergensi lebih lama (Vijayakumar & Wu,
parameter 𝑐𝑟 dan 𝑚𝑟 yang dipilih untuk 1999), sehingga nilai 𝛼𝑖 yang didapat pada saat
pengujian selanjutnya adalah 0.9 dan 0.1. iterasi terakhir tercapai tidak optimal. Oleh
karena itu, nilai 0.5 dipilih sebagai nilai 𝜆 terbaik
6.3 Hasil dan Pembahasan Pengujian dan digunakan pada pengujian-pengujian
Threshold 𝜺 SVM selanjutnya.
1 6.5 Hasil dan Pembahasan Pengujian Nilai
Rata-rata Fitness

0,9 𝑪 SVM
0,8
0,7 1

Rata-rata Fitness
0,6 0,9
0,5
0,8
0,7
𝜀 0,6
0,5
Gambar 4 Hasil Pengujian Threshold ε SVM

Hasil dari pengujian nilai threshold ε C


disajikan pada 5. Bertambahnya nilai 𝜀
cenderung mengakibatkan penurunan nilai
fitness. Nilai ε menunjukkan seberapa besar 𝛿𝛼𝑖 Gambar 6 Hasil Pengujian Nilai C SVM
yang dibutuhkan untuk melanjutkan pencarian. Hasil dari pengujian nilai C dapat dilihat
Dengan demikian, nilai 𝜀 yang besar akan pada gambar 7. Hasil pengujian menunjukkan
menyebabkan pencarian mudah terhenti karena nilai fitness mengalami peningkatan dengan
pembaruan 𝛼𝑖 tidak cukup besar, walaupun bertambahnya nilai C. Nilai C memberikan
konvergensi belum tercapai. Nilai 10−7 bobot penalti yang lebih besar pada data yang
digunakan sebagai nilai ε terbaik dan digunakan melewati bidang pemisah, sehingga SVM yang
pada pengujian-pengujian selanjutnya. dihasilkan dapat menghindari kesalahan
klasifikasi (Huang, Kecman & Kopriva, 2006).
6.4 Hasil dan Pembahasan Pengujian Nilai Dengan demikian nilai N = 50 digunakan
Augmenting Factor 𝝀 SVM sebagai nilai C terbaik dan digunakan pada
1
pengujian-pengujian selanjutnya.
Rata-rata Fitness

0,9
6.6 Hasil dan Pembahasan Pengujian Nilai
0,8
Learning Rate 𝜸 SVM
0,7
0,6 1
Rata-rata Fitness

0,5
0,8
0,01 0,1 0,5 1 5 10 25 50 100
0,6
𝜆
0,4

Gambar 5 Hasil Pengujian Nilai λ SVM 0,2


0
Hasil dari pengujian nilai augmenting
factor λ dapat dilihat pada 6. Hasil yang didapat
adalah pada nilai 0.01 hingga 0.5 nilai fitness
𝛾
cenderung stabil, dan nilai 𝜆 yang lebih besar
menurunkan nilai fitness. Pada sequential
learning, nilai 𝜆 yang lebih besar memberikan Gambar 7 Hasil Pengujian Nilai γ SVM
bidang pemisah yang lebih mirip dengan bidang
Hasil dari pengujian nilai 𝛾 dapat dilihat

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1176

pada gambar 8. Hasil menunjukkan nilai fitness jumlah iterasi SVM sebesar 100 dipilih sebagai
cenderung stabil dari 𝛾 = 10−7 hingga 𝛾 = jumlah iterasi terbaik walaupun terdapat nilai
10−4 , mencapai titik maksimal pada 𝛾 = 0.01 fitness yang lebih tinggi pada jumlah iterasi yang
dan kemudian mengalami penurunan. Sequential lebih banyak. Selain itu, jumlah iterasi yang
Learning pada dasarnya adalah gradient ascent lebih banyak menyebabkan waktu komputasi
(Vijayakumar & Wu, 1999) sehingga learning yang lebih lama.
rate yang terlalu kecil menyebabkan optimal Jumlah Iterasi SVM
lama tercapai, dan learning rate yang terlalu
besar menyebabkan 𝛼𝑖 optimal terlewati. 1

Rata-rata Fitness
0,9
Berdasarkan hasil pengujian, nilai 𝛾 = 0.01
0,8
menjadi nilai yang mempunyai keseimbangan
0,7
antara kecepetan pencarian dan tidak melawati 0,6
hasil optimal. Oleh karena itu, 𝛾 = 0.01 dipilih 0,5
menjadi nilai parameter terbaik dan digunakan

900
100
200
300
400
500
600
700
800

1000
pada pengujian-pengujia selanjutnya.
Jumlah Iterasi SVM
6.7 Hasil dan Pembahasan Pengujian Nilai
𝝈 Kernel RBF
Gambar 9 Hasil Pengujian Jumlah Iterasi SVM
1
Rata-rata Fitness

0,9 6.9 Validasi Pengujian


0,8
0,7
Setelah dilakukan pengujian, didapat
parameter-parameter optimal sebagai berikut:
0,6
a. Ukuran populasi: 100
0,5
b. Crossover rate: 0,9
1 1,5 2 2,5 3 3,5 4 4,5 5
c. Mutation rate: 0,1
𝜎 d. Threshold ε: 10-7
e. Augmenting factor λ: 0,5
Gambar 8 Hasil Pengujian Nilai σ Kernel RBF f. Nilai C: 50
g. Learning rate γ: 0.01
Hasil dari pengujian nilai 𝜎 dapat dilihat h. σ dari RBF: 2
pada gambar 9. Nilai fitness naik dari rentang 1 i. Iterasi maksimal SVM: 100
hingga 2, dan setelah itu turun. Untuk 𝛾 =
1/(−2𝜎), 𝛾 yang lebih besar menghasilkan Validasi pengujian dilakukan dengan
kernel yang overfit, sedangkan nilai 𝛾 yang lebih menjalankan GA-SVM dengan parameter
kecil menghasilkan kernel yang underfit optimal selama 10 kali untuk melihat kestabilan
(Melgani & Bazi, 2008). Karena 𝛾 berbanding hasil GA-SVM. Hasil dapat dilihat pada tabel 1.
terbalik dengan 𝜎 maka nilai 𝜎 yang besar akan GA-SVM mampu menghasilkan akurasi rata-
menghasilkan kernel yang underfit dan nilai 𝜎 rata sebesar 82.5.5%. GA-SVM juga dapat
yang kecil akan menghasilkan kernel yang menyeleksi rata-rata 406 fitur, penurunan yang
overfit. Dalam pengujian ini, didapat bahwa nilai signifikan dari fitur awal yang sebanyak 2160
𝛾 = 2 adalah nilai yang dapat menjaga fitur.
keseimbangan antara overfit dan underfit Tabel 1. Hasil Akhir Pengujian
sehingga mendapat fitness terbaik dan No Akurasi Jumlah Fitur Fitness
digunakan pada pengujian selanjutnya. Terpilih
1 80% 310 0.808472222
6.8 Hasil dan Pembahasan Pengujian 2 80% 695 0.781736111
3 80% 348 0.805833333
Hasil dari pengujian jumlah iterasi SVM 4 85% 396 0.845
dapat dilihat pada 10. Hasil pengujian 5 90% 320 0.892777778
menunjukkan fitness tidak mengalami kenaikan 6 80% 306 0.80875
7 85% 393 0.845208333
atau penurunan yang signifikan dengan 8 85% 297 0.851875
bertambahnya jumlah iterasi. Hal ini 9 85% 254 0.854861111
menunjukkan bahwa SVM dapat mencapai 10 75% 738 0.73625
konvergensi pada 100 iterasi. Oleh karena itu, Rata-rata 82.5% 406 0.823076389

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1177

Cholissodin, I., Kurniawati, M., Indriati &


Arwani, I., 2014. Classification of
7. PENUTUP Campus E-Complaint Documents using
Dari hasil yang didapat dalam penelitian Directed Acyclic Graph Multi-Class
klasifikasi aritmia EKG dengan menggunakan SVM Based on Analytic Hierarchy
SVM dengan seleksi fitur menggunakan GA Process. International Conference on
dapata mengklasifikasikan data dengan akurasi Advanced Computer Science and
sebesar 82,5% dan menyeleksi rata-rata 406 dari Information Systems (ICACSIS), 18-29
2160 fitur dengan 120 data latih dan 20 data uji. Oktober, pp. 247-253.
Untuk terus mengembangkan penelitian ini, Compton, S. J., 2015. Ventricular Tachycardia:
terdapat beberapa hal yang dapat Practice Essentials, Background,
dipertimbangkan. Pertama, algoritma genetika Pathophysiology. [Online]
tidak hanya sebagai metode seleksi fitur, tetapi Tersedia pada: http://emedicine.
juga untuk optimasi parameter sehingga dapat medscape.com/article/159075-overview
ditemukan parameter yang optimal secara [Diakses 15 January 2017].
otomatis. Selain itu dapat ditambahkan Gen, M. & Cheng, R., 2000. Genetic Algorithms
mekanisme random injection pada algoritma and Engineering Optimization. New
genetika untuk mencegah kondisi local optima. York: John Wiley & Sons.
Penelitian juga dapat dikembangkan
dengan membandingkan pengaruh kernel lain Guyon, I. & Elisseeff, A., 2003. An Introduction
to Variable and Feature Selection.
seperti kernel polinomial, dan strategi multikelas
Journal of Machine Learning Research,
lain seperti one-against-all dan one-against-one
terhadap hasil klasifikasi. Volume 3, pp. 1157-1182.
Huang, T.-M., Kecman, V. & Kopriva, I., 2006.
DAFTAR PUSTAKA Kernel Based Algortihms for Mining
Huge Data Sets. Heidelberg: Springer-
Anbarasi, M., Anupriya, E. & Iyengar, N. C. S. Verlag Berlin Heidelberg.
N., 2010. Enhanced Prediction of Heart
Disease with Feature Subset Selection Kannel, W. & Benjamin, E., 2008. Final Draft
Using Genetic Algorithm. International Status of the Epidemiology of Atrial
Journal of Engineering Science and Fibrillation. The Medical clinics of
Technology, 2(10), pp. 5370-5376. North America, 92(1), pp. 17-ix.
American Health Association, 2016. About Madzarov, G., Gjorgjevikj, D. & Chorbev, I.,
Arrhythmia. [Online] 2009. A Multi-class SVM Classifier
Tersedia pada: http://www.heart.org/ Utilizing Binary Decision Tree.
HEARTORG/Conditions/Arrhythmia/ Informatica, 33(2), pp. 233-241.
AboutArrhythmia/About-Arrhythmia Melgani, F. & Bazi, Y., 2008. Classification of
_UCM_002010_Article.jsp#.WHtC Electrocardiogram Signals with Support
wPl97Df [Diakses 15 January 2017]. Vector Machines and Particle Swarm
American Health Association, 2016. Why Optimization. IEEE Transactions on
Arrhythmia Matters. [Online] Information Technology in Biomedicine,
Tersedia pada: http://www.heart.org/ 12(5), pp. 667-677.
HEARTORG/Conditions/Arrhythmia/ Moody, G. B. & Mark, R. G., 1997. MIT-BIH
Why ArrhythmiaMatters/Why- Arrhythmia Database. [Online]
Arrhythmia-Matters_UCM_002023_ Tersedia pada: https://physionet.org/
Article.jsp#.WHtDUfl97Dc [Diakses 15 physiobank/database/mitdb/ [Diakses
January 2017]. 16 January 2016].
Bennett, K. P. & Campbell, C., 2000. Support Pratama, A., Cholissodin, I. & Suprapto, 2016.
Vector Machines: Hype or Hallelujah. Klasifikasi Kondisi Detak Jantung
SIGKDD Explorations, 2(2), pp. 1-13. Berdasarkan Hasil Pemeriksaaan
Coley, D., 1999. An Introduction to Genetic Elektrokardiografi Menggunakan
Algorithms for Scientists and Engineers. Binary Decision Tree - Support Vector
Singapore: World Scientific Publishing Machine (BDT-SVM). Repositori
Co. Pte. Ltd. Jurnal Mahasiswa PTIIK UB, 21(8).

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 1178

Vijayakumar, S. & Wu, S., 1999. Sequential


Support Vector Classifiers and
Regression. Proceeding International
Conference on Soft Computing (SOCO
'99), 1-4 Juni, pp. 610-619.
Wilkins, L. W., 2011. ECG Interpretation Made
Incredibly Easy. 5th ed. Pennsylvania:
Wolters Kluwer/Lippincott Williams &
Wilkins Health.

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai