Anda di halaman 1dari 6

IJCCS, Vol.x, No.x, July xxxx, pp.

1~5
ISSN: 1978-1520

Teknika 16 (02): 221 – 226


JURNAL TEKNIKA
ISSN: 0854-3143
e-ISSN: 2622-3481
Journal homepage: http://jurnal.polsri.ac.id/index.php/teknika
Journal Email: teknika@polsri.ac.id

Klasifikasi Penyakit Stroke Menggunakan Algoritma


Decision Tree C.45

Randi Estian Pambudi*1, Sriyanto2, Firmansyah3


1,2,3
Fakultas Ilmu Komputer, Informatics & Business Institute Darmajaya, Jl. 2.A. Pagar Alam
No. 93, Bandar Lampung - Indonesia 35142; Telp. (0721) 787214 Fax. (0721) 700261
e-mail: *1randiestian@darmajaya.ac.id, 2sriyanto@darmajaya.ac.id,
3
firmansyahyunialfi@darmajaya.ac.id

Abstrak
Stroke merupakan suatu gangguan fungsi otak baik lokal maupun menyeluruh yang
akan menyebabkan pasokan darah ke otak terganggu secara cepat dan berlangsung lebih dari
24 jam atau berakhir dengan kematian. Stroke juga merupakan salah satu jenis penyakit yang
paling mematikan di Indonesia. Pentingnya mengetahui gejala penyakit stroke sejak dini
merupakan pencegahan awal. Maka dari itu, dilakukan penelitian untuk menganalisa data
terkait dengan penyebab stroke. Adapun atribut yang terlibat dalam penyebab terjadinya stroke
yakni, usia, jenis kelamin, kadar glukosa, riwayat penyakit jantung, hipertensi, tipe pekerjaan,
tipe tempat tinggal, status merokok, index masa tubuh dan status pernikahan. Diperlukan
algoritma tertentu untuk mengklasifikasikan semua atribut tersebut. Decision Tree C4.5
merupakan Algoritma yang paling banyak digunakan, dalam kasus ini akurasi dari algoritma
Decision Tree C4.5 sebesar 99.07%.

Kata kunci— Stroke, Akurasi, Algoritma Decision Tree C4.5.

Abstract
Stroke is a disorder of brain function, both local and comprehensive, which will cause
the blood supply to the brain to be disrupted quickly and last more than 24 hours or end in
death. Stroke is also one of the deadliest types of disease in Indonesia. The importance of
knowing the symptoms of stroke early is an early prevention. Therefore, a study was conducted
to analyze data related to the causes of stroke. The attributes involved in the cause of stroke are
age, gender, glucose level, history of heart disease, hypertension, type of work, type of
residence, smoking status, body mass index and marital status. A certain algorithm is needed to
classify all these attributes. Decision Tree C4.5 is the most widely used algorithm, in this case
the accuracy of the Decision Tree C4.5 algorithm is 99.07%.

Keywords— Stroke, Accuracy, Decision Tree C4.5 Algorithm


222  ISSN: 1978-1520

1. PENDAHULUAN 2. METODE PENELITIAN

S troke merupakan masalah kesehatan


utama bagi masyarakat modern. Pada
saat ini, stroke semakin menjadi masalah
2.1 Jenis Penelitian
Dalam penelitian ini terdapat dua
pendekatan utama, yaitu pendekatan
serius yang dihadapi hampir diseluruh kualitatif dan pendekatan kuantitatif.
dunia. Hal tersebut dikarenakan serangan Pendekatan kualitatif digunakan untuk
stroke yang mendadak dapat menganalisa kajian literatur yang berkenaan
mengakibatkan kematian, kecacatan fisik dengan variabel-variabel yang digunakan
dan mental baik pada usia produktif dalam pengumpulan data [4].
maupun usia lanjut [1]. Sedangkan pendekatan kuantitatif
Penyakit Stroke merupakan jenis merupakan metode penelitian yang
penyakit yang mematikan dimana masuk digunakan sebagai penelitian populasi atau
kedalam 10 jenis penyakit yang paling sempel tertentu, pengumpulan data
mematikan di Indonesia. Hal ini dilihat menggunakan instrumen penelitian dan
berdasarkan pada data yang dikumpulkan analisis data bersifat statistik atau
dari sampel yang mewakili Indonesia, kuantitatif dengan tujuan untuk menguji
meliputi 41.590 kematian sepanjang 2014 hipotesis yang telah ditetapkan [5].
dan pada semua kematian itu dilakukan
autopsi verbal, sesuai pedoman Badan 2. 2 Metode Pengumpulan Data
Kesehatan Dunia (WHO) secara real-time Pada tahap ini metode
oleh dokter dan petugas terlatih [2]. pengumpulan data dibagi menjadi dua
Stroke merupakan salah satu sumber data yakni data primer dan data
penyakit yang paling banyak diderita oleh skunder. Adapun data primer yaitu data
masyarakat Indonesia dan menjadi urutan yang dikumpulkan dari sumbernya
pertama penyebab kematian tertinggi langsung. Sedangkan data skunder yaitu
disusul oleh diabetes dan hipertensi [3]. data yang dikumpulkan dari peneliti
Sudah banyak penelitian yang sebelumnya artinya peneliti tidak harus
dilakukan diantaranya: Menurut jurnal dari mengambil datanya langsung ke lapangan.
Sigit Abdillah yang berjudul Penerapan Dalam penelitian ini metode pengumpulan
Algoritma Decision Tree C4.5 Untuk data untuk mendapatkan sumber data yang
Diagnosa Penyakit Stroke Dengan akan digunakan adalah dengan metode
Klasifikasi Data Mining Pada Rumah Sakit pengumpulan data skunder. Data dari
Santa Maria Pemalang, memaparkan bahwa penelitian ini diambil dari situs kaggle
untuk studi kasus penyakit stroke dapat dataset repository
memanfaatkan teknik klasifikasi data (https://www.kaggle.com/fedesoriano/strok
mining dengan algoritma C4.5 sebagai e-prediction-dataset) sedangkan untuk data
klasifikasi stroke atau non-stroke. Dari pendukung didapatkan dari buku jurnal dan
metode klasifikasi data mining dengan publikasi lainnya.
algoritma C4.5 dan pengaplikasian pohon
keputusan yang membentuk aturan tersebut
terdapat akurasi pada data training yang 2. 3 Validasi Data
berjumlah 130 dari 156 data pasien sebesar
Validasi data dimana data
82,31% sedangkan akurasi pada data testing
penelitian ini diambil dari Kaggle Dataset
yang berjumlah 26 dari 156 data pasien
yang terdiri 11 atribut dimana terdiri dari 10
sebesar 76,92%. Perhitungan keduanya
atribut Fitur dan 1 atribut label. Pada
menggunakan confusion matrix. Penelitian
dataset tersebut dilakukan valiadasi data
ini bertujuan untuk menerapkan algoritma
atau preprocessing dengan cara
Decision Tree C4.5 dalam klasifikasi
menghilangkan data missing value. Data
penyakit stroke.
yang didapat dari situs Kaggle Dataset
sebanyak 5110 record, dari data tersebut
diantaranya 204 diidentifikasi sebagai data

Teknika Vol. 16, No. 02, Periode Bulan Juli – Desember, Tahun 2022: 221 – 226
IJCCS ISSN: 1978-1520 223

missing value pada atribut BMI. Kemudian pasien dengan kategori Male (Laki-laki)
data missing value tersebut akan dan Female (Perempuan).
dihilangkan agar data menjadi valid 3. Age (Umur)
sehingga data yang diolah tanpa missing Age/Umur merupakan atribut yang
value adalah 4.906 record. mencakup usia dataset ini memiliki data
umur dari 1 tahun – 82 tahun.
Tabel 1 Atribut, Type Data Dan Nilai 4. Heypertension (Hipertensi)
Kategori Dalam Klasifikasi Penyakit Stroke Hypertension merupakan atribut yang
Atribut Label mencakup pasien memiliki penyakit
Atribut Type Nilai hipertensi/ darah tinggi atau tidak.
Yes 5. Heart_disease (Riwayat Jantung)
Stroke Binominal Heart_disease merupakan atribut yang
No
mengindikasikan apakah pasien yang
Atribut Fitur bersangkutan memiliki riwayat penyakit
Atribut Type Nilai jantung atau tidak.
Male 6. Ever_married (Status Pernikahan)
Gender Binominal Ever_married merupakan atribut yang
Female
Age Integer 1-82 mengindikasikan apakah pasien yang
1 bersangkutan pernah menikah atau
Hypertens
Binominal tidak.
ion 0
7. Work_type (Tipe Pekerjaan)
Heart_dis 1
Binominal Work_type merupakan atribut yang
ease 0
mengindikasikan type pekerjaan dari
Ever_mar Yes pasien diantaranya:
Binominal
ried No a. Children (Anak-Anak)
Private b. Private (Pribadi)
Self- c. Self Employed (Bekerja Sendiri)
Work_typ
Polynominal employed d. Govt_job (Pekerja Pemerintahan)
e
Govt_job 8. Residence_type (Tipe Tempat Tinggal)
Children Residence_type merupakan atribut yang
Residence Urban mencakup tempat tinggal dari pasien
Binominal
_type Rural yang meliputi Urban (Perkotaan) atau
Avg_gluc Rural (Pedesaan).
Real 59-160
ose_level 9. Avg_glucose_level (Kadar Glukosa)
Bmi Real 12-78 Avg_glucose_level merupakan atribut
Formerly yang mencakup rata-rata tingkat kadar
smoked gula dalam darah.
Smoking_
Polynominal Never 10. BMI (Body Masss Index)
status
smoked BMI (Body Masss Index) merupakan
smoked atribut yang ditentukan dengan cara
menghitung berat badan dalam
kilogram dibagi dengan tinggi badan
Berikut merupakan deskripsi dari dalam meter kuadrat.
atribut Tabel 1.
1. Stroke
Stroke merupakan atribut label yang
mencakup pasien yang terkena stroke (1)
dengan kategory Yes (Menderita Stroke)
dan No (Tidak Stroke). 11. Smoking_status (Status Merokok)
2. Gender (Jenis Kelamin) Smoking_status merupakan atribut yang
Gender/Jenis Kelamin merupakan mengindikasikan perokok atau bukan
atribut yang mencakup jenis kelamin dari pasien dengan kategori:

Klasifikasi Penyakit Stroke..., Randi Estian Pambudi, dkk.


224  ISSN: 1978-1520

a. Formerly smoked (Sebelumnya 2. 5 Data Mining


merokok). Data mining merupakan suatu
b. Smoked (Merokok) istilah yang dapat digunakan untuk
c. Never Smoked (Tidak pernah menguraikan penemuan pengetahuan di
merokok). dalam suatu database. Data mining juga
adalah sebuah proses yang menggunakan
2. 4 Kerangka Pemikiran teknik statistik, matematika, kecerdasan
Penelitian ini terdiri dari beberapa buatan, dan machine learning untuk
tahapan. Permasalahan pada penelitian ini mengekstraksi dan mengidentifikasi
yaitu membandingkan penelitian informasi yang bermanfaat dan
sebelumnya mengenai klasifikasi penyakit pengetahuan yang terkait dari berbagai
stroke dengan menggunakan algoritma database besar [6].
yang sama yaitu Decision Tree C4.5 untuk
mendapatkan akurasi yang tinggi. 2. 5 Algoritma Decision Tree C4.5
Atas dasar alasan tersebut, maka Decision Tree adalah struktur
dilakukan penelitian menggunakan metode flowchart yang menyerupai Tree (pohon),
klasifikasi algoritma Decision Tree C4.5 dimana setiap simpul internal menandakan
dalam memprediksi penyakit stroke. suatu tes pada atribut, setiap cabang
Pengujian metode dilakukan dengan cara merepresentasikan hasil tes,dan simpul
confusion matrix dan kurva ROC, daun merepresentasikan kelas atau
menggunakan tools Rapidminer studio v.9. distribusi kelas [7].
berikut dibawah ini kerangka pemikiran C4.5 merupakan salah satu solusi
yang penulis buat untuk penelitian ini, pemecahan kasus yang sering digunakan
dapat dilihat pada Gambar 1. dalam pemecahan masalah pada teknik
klasifikasi [8]. Pemilihan atribut sebagai
MASALAH
simpul, baik simpul akar (root) atau simpul
internal didasarkan pada nilai Gain tertinggi
Prediksi diagnosa penyakit stroke
menggunakan algoritma Decision Tree
dari atribut-atribut yang ada. Penghitungan
C4.5 dengan Cross Validation
nilai Gain digunakan rumus Persamaan 1.

PENDEKATAN

(2)
Optimasi Algoritma Decision Tree C4.5

S : Himpunan kasus
A : Atribut
PENGEMBANGAN
n : Jumlah partisi himpunan atribut A
||: Jumlah kasus pada partisi ke- i
Tools Rapidminer Studio v.9
| S | : Jumlah kasus dalam S
Untuk menghitung nilai Entropy dapat
dilihat pada Persamaan 2
IMPLEMENTASI

Objek Penelitian data Kaggle Dataset Stroke


(3)

n : Jumlah partisi S
pi : Proporsi dari terhadap S
PENGUKURAN HASIL

Confusion Matrix ROC Curve Tingkat akurasi Algoritma Decision Tree C4.5 dalam
3. HASIL DAN PEMBAHASAN
(Accuracy) (AUC) memprediksi penyakit stroke

Penelitian ini bertujuan untuk


menerapkan algoritma Decision Tree C4.5
Gambar 1. Kerangka Pemikiran untuk mendapatkan tingkat akurasi

Teknika Vol. 16, No. 02, Periode Bulan Juli – Desember, Tahun 2022: 221 – 226
IJCCS ISSN: 1978-1520 225

penyakit stroke. Hasil dari penelitian ini


berupa pengolahan data kualitatif dan data
kuantitatif dengan perhitungan yang
dilakukan pada sebuah dataset publik.
Gambar 3. Hasil Akurasi Klasifikasi
1. Pemodelan Algoritma Decision Tree Penyakit Stroke Menggunakan Algoritma
C4.5 C4.5
Pemodelan algoritma Decision Tree
C4.5 terdiri dari 11 atribut yang merupakan 3. Hasil Visualisasi ROC Curve (AUC)
atribut dari diagnosis penyakit stroke dan Hasil dari prediksi penyakit stroke
class yang merupakan hasil akhir prediksi. juga dapat dilihat dalam kurva ROC
Model dari algoritma Decision Tree C4.5 (Receiver Operating Characteristic). Hasil
yaitu berupa pohon keputusan, agar leih dari kurva ROC dapat dilihat pada Gambar
mudah dalam membuat pohon keputusan, 4.
langkah pertama adalah menghitung jumlah
class yang berpotensi terkena penyakit
stroke dan tidak stroke dari masing-masing
class berdasarkan atribut yang telah
ditentukan dengan menggunakan data
training.

Gambar 4. Hasil Visualisasi ROC Curve


(AUC)

Pada Gambar 4 dijelaskan bahwa


Gambar 2. Model Pohon Keputusan nilai AUC:0,755 (positive class :No) garis
Klasifikasi Penyakit Stroke Menggunakan merah merupakan ROC dan garis biru
Algoritma C4.5 merupakan ROC (Thresholds).

Pada pemodelan pohon keputusan


pada Gambar 2 terdapat 23 rule yang 4. KESIMPULAN
dihasilkan dari algoritma klasifikasi
Decision Tree C4.5, dengan jumlah class Dari penjelasan diatas ini dapat
sebanyak 14 rule (no stroke) dan 9 rule (yes diambil kesimpulan penelitian dengan
strokes). Sedangkan dari atribut asli yaitu menggunakan Decision tree C4.5 berikut
11 terseleksi menjadi 8 atribut yang terdiri ini:
dari Age, Heart desease, work Type, Avg  Untuk mengetahui akurasi nilai
Glukose Level, BMI, Residence Status, confusion matrix dan nilai AUC yang
hypertension dan stroke. dihasilkan.
 Atribut yang digunakan yaitu gender,
2. Hasil Akurasi Algoritma C4.5 age, hypertension, heart desease, ever
Pada ekperimen algoritma yang married, work type, avg glukose level,
telah dilakukan maka didapatkan hasil bmi, residence status, smoking status,
untuk prediksi penyakit stroke sebesar stroke.
96.05%. hasil akurasi dapat dilihat pada  Dari 11 atribut yang terdapat diatas,
Gambar 3. kemudian atribut tersebut selanjutnya
diseleksi mana atribut terpenting yang
mempengaruhi penyakit stroke
sehingga menjadi hanya 8 atribut yang

Klasifikasi Penyakit Stroke..., Randi Estian Pambudi, dkk.


226  ISSN: 1978-1520

digunakan untuk prediksi penyakit 53129/10-penyakit-paling-


stroke, atribut-atribut tersebut yaitu : mematikan-di-indonesia/
Age, Heart desease, work Type, Avg [3] Jawapos.com, “Inilah Penyakit yang
Glukose Level, BMI, Residence Status, Paling Banyak Menyerang
hypertension dan stroke. Masyarakat Indonesia,”
 Algoritma Decision Tree C4.5, Jawapos.com, 2017, [Online].
menghasilkan tingkat akurasi diagnosis Available:
penyakit stroke yang sangat baik. https://www.jawapos.com/kesehatan
/21/11/2017/inilah-penyakit-yang-
paling-banyak-menyerang-
5. SARAN masyarakat-indonesia/
[4] A. Fauzi, B. Suharjo, and M.
Syamsun, “Pengaruh Sumber Daya
 Dataset public masih terdapat eror Finansial, Aset Tidak Berwujud dan
sehingga diharapkan nantinya akan Keunggulan Bersaing yang
diperoleh analisis yang lebih tepat. Berimplikasi Terhadap Kinerja
 Klasifikasi penyakit stroke Usaha Mikro, Kecil dan Menengah
menggunakan algoritma Decision Tree di Lombok NTB,” Manaj. IKM J.
C4.5 dalam mengimprove akurasi Manaj. Pengemb. Ind. Kecil
dapat mengubah parameter sampling Menengah, vol. 11, no. 2, pp. 151–
linier disesuaikan dengan dataset. 158, 2017, doi:
 Data missing value tidak dapat 10.29244/mikm.11.2.151-158.
dihindarkan maka untuk penelitian [5] A. Syaifullah, “Analisis pengaruh
selanjutnya dapat dilakukan financial leverage dan operating
pengembangan metode yang lain untuk leverage terhadap stock return,”
data missing value dan penentuan Inovasi, vol. 14, no. 2, p. 53, 2018,
parameter tanpa trial and error yang doi: 10.29264/jinv.v14i2.1928.
diharapkan nantinya akan memberikan [6] E. Turban and dkk., Decicion
akurasi yang lebih tinggi. Support Systems and Intelegent
Systems. Andi Offset, 2005.
[7] P. Kasih, “Pemodelan Data Mining
UCAPAN TERIMA KASIH Decision Tree Dengan Classification
Error Untuk Seleksi Calon Anggota
Penulis mengucapkan terima kasih Tim Paduan Suara,” Innov. Res.
kepada Tim Redaksi Jurnal Teknika Informatics, vol. 1, no. 2, pp. 63–69,
Politeknik Negeri Sriwijaya yang telah 2019, doi:
memberi memberi kesempatan, sehingga 10.37058/innovatics.v1i2.918.
artikel ilmiah ini dapat diterbitkan. [8] D. Nofriansyah and G. W.
Nurcahyo, Algoritma Data Mining
Dan Pengujian. Yogyakarta:
DAFTAR PUSTAKA Deepublish, 2019.

[1] J. I. Hipertensi, Pengenalan,


Pencegahan, dan Pengobatan.
Jakarta: PT Bhuana Ilmu Populer,
2016.
[2] U. Widowati, “10 Penyakit Paling
Mematikan Di Indonesia,” CNN
Indones., pp. 1–5, 2015, [Online].
Available:
http://www.cnnindonesia.com/gaya-
hidup/20150513163407-255-

Teknika Vol. 16, No. 02, Periode Bulan Juli – Desember, Tahun 2022: 221 – 226

Anda mungkin juga menyukai