Anda di halaman 1dari 4

Prosiding Annual Research Seminar 2017 ISBN : 979-587-705-4

Computer Science and ICT Vol. 3 No. 1

Perancangan Data Mining untuk Klasifikasi


Prediksi Penyakit ISPA dengan
Algoritma C4.5
Dwi Meylitasari Br. Tarigan Dr. Dian Palupi Rini, M.T Verlly Puspita
Fakultas Ilmu Komputer Fakultas Ilmu Komputer Fakultas Ilmu Komputer
Magister Teknik Informatika Magister Teknik Informatika Magister Teknik Informatika
Universitas Sriwijaya Universitas Sriwijaya Universitas Sriwijaya
Palembang, Indonesia Palembang, Indoesia Palembang, Indoesia
dwimeylitasaritarigan@gmail.com dian.palupi.rini@gmail.com verllyp@gmail.com

Abstrak Terdapat beberapa kasus kematian anak keakutan. Infeksi adalah invasi kuman atau
dibawah umur 1 tahun meninggal akibat terkena mikroorganisme ke dalam tubuh manusia dimana
penyakit ISPA (Infeksi Saluran Pernafasan Akut) , pada mereka mereproduksi dirinya sendiri, dengan demikian
tahun 2015 mencapai 579 kasus kematian anak menyebabkan gejala penyakit.Saluran pernapasan
disebabkan oleh ISPA. Saat ini teknologi dapat
adalah seperangkat organ tubuh, dimulai dari hidung ke
memberikan informasi yang cepat dan akurat khususnya
di lingkungan kesehatan baik untuk tim kesehatan, alveoli bersama dengan organ adneksa. Sementara itu,
dokter, perawat bahkan untuk pasien sendiri agar lebih infeksi akut adalah infeksi yang berlangsung selama 14
mudah mengontrol kesehatan mereka. Data mining hari atau lebih.
berhubungan dengan pencarian data untuk menemukan Mengacu pada data kematian anak neonatal
pola atau pengetahuan dari data keseluruhan. Ternyata
dibawah umur < 1 tahun di Provinsi Sumatera Selatan
kumpulan data yang besar dapat menghasilkan sebuah
data yang hasilnya dapat memberikan informasi sampai dengan bulan Desember 2015 mencapai 579
pengetahuan yang baru. Data mining adalah sebuah kasus, menurun jika dibandingkan tahun 2014 sebanyak
langkah penting dalam proses menemukan pengetahuan. 626 kasus. Penyakit Infeksi Saluran Pernapasan akut
Pada penelitian ini akan dibahas tentang perancangan merupakan penyebab kematian utama sebagian besar
data mining menggunakan algoritma C4.5 untuk disebabkan karena pneumonia, yaitu sebesar 23,6 %.
memprediksi penyakit ISPA akut atau tidak akut pada ISPA merupakan salah satu penyebab utama kunjungan
anak dengan memilih kandidat kriteria yang digunakan pasien di sarana kesehatan. Sebanyak 40-60%
pada penelitian ini sehingga dapat memberikan kunjungan berobat di puskemas dan 15-30% kunjungan
kontribusi kepada tim medis di lingkungan kesehatan
berobat di bagian rawat jalan dan rawat inap di rumah
untuk mengatahui dan menindak lanjut pasien yang
terkena penyakit ISPA. sakit disebabkan penyakit ISPA [2].
Keywords Data Mining, Algoritma C4.5, Decision Tree, Dengan perkembangan teknologi yang semakin
ISPA (Infeksi Saluran Pernafasan Akut), Komputasi pesat disemua bidang baik dari sektor pemerintahan,
Kedokteran pendidikan, pertanian, perikanan, dan khususnya di
I. PENDAHULUAN lingkungan kesehatan. Saat ini teknologi dapat
memberikan informasi yang cepat dan akurat baik
Infeksi Saluran Pernapasan Akut (ISPA) atau yang untuk tim kesehatan, dokter, perawat bahkan untuk
kita sering sebut ISPA merupakan penyakit yang umum pasien sendiri agar lebih mudah mengontrol kesehatan
terjadi pada semua kategori umur, terutama pada anak- mereka. Berbagai bidang di kesehatan menghasilkan
anak. Tingkat keparahan penyakit ISPA bervariasi dari data dalam jumlah yang besar tiap tahunnya. Data
faringitas ringan sampai pneumonia bahkan sampai tersebut kebanyakan tidak bisa memberikan informasi
pada kematian. Penyakit ISPA sangat berpengaruh secara cepat dan langsung sehingga informasi yang
besar pada tingkat morbiditas dan mortalitas, karena didapatkan memakan waktu yang lama.
salah satu penyakit infeksi menular di dunia. Menurut
data dari WHO, sekitar 4 juta orang meninggal karena Perlu secara efektif dilakukan data mining dari
ISPA setiap tahun, 98% disebabkan oleh infeksi saluran informasi yang tersembunyi dengan jumlah data yang
pernapasan akut. 1,4 juta di Indonesia dimana sangat besar tersebut.
berdasarkan hasil Riset Kesehatan Dasar (Riskesdas) Data mining berhubungan dengan pencarian data
tahun 2013 didapatkan data bahwa prevalensi nasional untuk menemukan pola atau pengetahuan dari data
ISPA di Indonesia adalah 25,0%, tidak jauh berbeda keseluruhan. Ternyata kumpulan data yang besar dapat
dengan tahun 2007 yaitu 25,5%.[1]. menghasilkan sebuah data yang hasilnya dapat
Infeksi Saluran Pernapasan Akut (ISPA) mencakup memberikan informasi pengetahuan yang baru. Data
tiga unsur utama, yaitu infeksi, saluran pernapasan, dan

179
Prosiding Annual Research Seminar 2017 ISBN : 979-587-705-4
Computer Science and ICT Vol. 3 No. 1

mining adalah sebuah langkah penting dalam proses besar data yang tersimpan dalam penyimpanan, dengan
menemukan pengetahuan [3]. menggunakan teknik pengenalan pola seprti statistik
Dalam data mining prediksi dan klasifikasi banyak dan matematika. [10]
digunakan untuk menganalisis suatu data yang dapat Algoritma C4.5 digunakan pada sekumpulan
menggambarkan kelas data atau untuk memprediksi perintah secara sistematis untuk menyelesaikan
data di masa depan. Proses klasifikasi memiliki dua permasalahan logika dari matematika. Algoritma C4.5
tahap, tahap pertama adalah proses pembelajaran merupakan algoritma yang digunakan untuk
dimana kumpulan data training dianalisis dengan membentuk pohon keputusan, sedangkan pohon
algoritma klasifikasi. Model pengklasifikasian di keputusan dapat diartikan suatu cara untuk
sajikan dengan aturan klasifiasi atau menemukan pola. memprediksi suatu kondisi. Pohon keputusan dapat
Tahap kedua adalah penggunaan model untuk membagi kumpulan data yang besar menjadi
klasifikasi, dan kumpulan data testing digunakan untuk himpunan-himpunan record yang lebih kecil dengan
memperkirakan keakuratan dalam aturan klasifikasi [4]. menerapkan serangkaian aturan keputusan.
Penelitian menggunakan klasifikasi dalam Saat ini sudah cukup banyak penerapan yang dapat
memprediksi telah banyak diterapakan untuk dilakukan oleh data mining, di berbagai sektor yang
mendiagnosa suatu penyakit dengan metode menerapakan data mining antara lain di bidang
J.48,mendiagnosa kanker payudara [5], C4.5 perbankan, perusahaan penjualan, pendidikan,
mendiagnosa penyakit stroke [6] C.45, diterapkan kesehatan, pertanian dll. Khususnya pada bidang
untuk mengklasifikasikan tingkat keganasan kanker kesehatan, banyak sekali yang dapat digali informasi
payudara [7]. Pada penelitian tersebut menjelas bahwa dengan melakukan data mining. Di bidang kesehatan
algoritma C4.5 dapat memberikan hasil prediksi dengan data mining sangat membantu untuk mendiagnosa suatu
tingkat akurasi yang sangat tinggi, namun perbedaan penyakit dan dapat memberikan informasi yang cepat
data dan kompleksitas data juga dapat menyebabkan untuk memprediksi tingkat suatu penyakit kepada tim
metode yang tidak bisa memberikan hasil yang akurat, kedokteran. Sigit Abdillah dalam penelitiannya
bahkan bisa menyentuh tingkat akurasi 0%. Seperti mendiagnosa penyakit stroke dengan algoritma C4.5
yang dilakukan oleh Ana Moris, dkk dengan menunjukkan tingkat keakurasian bernilai 82,30% [7],
membandingkan 5 model yaitu Logistic Regression memprediksi akurasi penyakit jantung menggunakan
(LR), Naive Bayes(NB), k-Nearest Neighbors (KNN), Data Mining algoritma neural network [11], Diagnosa
Random Forest (RF), dan Support Vector Machine Kanker Payudara menggunakan teknik algoritma C4.5
(SVM), dari kelima model tersebut SVM merupakan dengan pembobotan atribut yaitu mengahasilkan
model yang terburuk dengan nilai sensitifitas 0% [8]. tingkat akurasi 98,57% [5], Prediksi kebutuhan pada
Algoritma C4.5 digunakan untuk memperoleh resusitasi neonatal menggunakan data mining [8].
informasi dengan memilih atau memisahkan
karakteristik. Pemilihan data berdasarkan kategori atau III. PENGAJUAN METODOLOGI
nilai numerik untuk mengatasi nilai yang berulang.
Pada proses tersebut menghasilkan nilai ambang batas Pada perancangan ini akan dilakukan beberapa tahap :
dan kemudian membagi atribut dengan nilai ambang (1) Pengumpulan Data (2) Pengolahan Data (3) Model
batas atas dan nilai ambang batas bawah. Algoritma yang diusulkan (4) Perancangan Model
C4.5 dapat dengan mudah mengatasi nilai yang hilang.
Karena nilai yang hilang tidak dapat digunakan dalam A. Pengumpulan Data
perhitungan oleh C4.5 [9]. Terdapat dua sampel yang dapat dijadikan sumber
Pada penelitian ini akan dibahas tentang pemanfaat pengumpulan data yaitu data primer dan sekunder. Data
algoritma C4.5 untuk mendiagnosa penyakit ISPA akut sekunder yang diperoleh dapat di ambil berdasarkan
atau tidak akut pada anak dengan memilih kandidat beberapa sumber dari perusahaan/instansi, literatur,
kriteria yang akan digunakan pada penelitian ini buku, jurnal dan informasi lainnya yang ada
sehingga dapat memberi kontribusi kepada tim medis di hubungannya dengan masalah yang diteliti. Data pada
lingkungan kesehatan untuk mengatahui dan menindak penelitian ini akan menggunakan data pasien di
lanjut pasien yang terkena penyakit ISPA. beberapa puskesmas yang ada di lingkungan terdekat
dan data yang didapat dari beberapa jurnal yang
membahas tentang algoritma yang berhubungan yaitu
II. TINJAUAN PUSTAKA Algoritma C4.5. Data primer yang didapat adalah data
Teknologi Informasi saat ini menyediakan hasil uji dengan menggunakan algoritma Decision Tree
ketersediaan data yang sangat besar dan kebutuhan C4.5.
yang mendesak untuk mengubah data tersebut menjadi
informasi dan pengetahuan yang bermanfaat. Teknologi B. Pengolahan Awal Data
informasi tersebut merupakan proses data mining. Data yang akan digunakan adalah data penderita
Menurut Gartner Group data mining adalah proses ISPA puskesmas di Palembang yaitu data dengan
untuk menemukan hubungan yang terkait, pola dan beberapa variabel yaitu nama, usia, jenis kelamin,
kecenderungan dengan memeriksa dalam sekumpulan penderitan hipertensi.

180
Prosiding Annual Research Seminar 2017 ISBN : 979-587-705-4
Computer Science and ICT Vol. 3 No. 1

C. Model yang Diusulkan


Larose menyebutkan data mining adalah : .... (2)
1. Pemrosesan menggali pengetahuan baru
Keterangan :
2. Penyimpanan pola dengan teknik pengenalan pola S : himpunan (dataset)
statistik dan teknik matematika. A : atribut yang akan dipakai
n : jumlah partisi atribut A
Pada arti lain Data Mining adalah proses yang |Si| : jumlah kasus pada partisi ke-i
menggunakan statistik, matematika, kecerdasan |S| : jumlah kasus dalam S
buatan, dan machine learning untuk mengetahui
informasi yang bermanfaat [10]. Data mining adalah 3. Ulangi langkah ke-2 dan ulangi hingga semua
sebuah langkah penting dalam proses menemukan record terpartisi
pengetahuan dengan manggali nilai tambah yang 4. Proses partisi akan berhenti saat :
selama ini tidak diketahui secara manual [3] Model a) Semua record dalam node N mendapat kelas
yang diusulkan pada penelitian ini adalah algoritma yang sama
Decision C4.5.
b) Tidak ada atribut didalam record yang dipartisi
Tahapan Algoritma Decision Tree C4.5 : lagi sampai tidak ada record di dalam cabang
1) Merancang data training (pelatihan) yang kosong.
2) Menentukan akar pohon dari decision tree
3) Menghitung nilai gain : D. Perancangan Model
Dalam tahap ini akan dilakukan pemilihan dan
a). The Shannon penerapan berbagai terknik pemodelan dan merancang
Teori Shannon adalah yang paling terkenal dan beberapa indikator yang akan digunakan untuk
paling sering digunakan. Pada pendekatan teori ini mendapatkan nilai yang optimal. Hasil dari proses
pertama kali dijadikan untuk mendefinisikan suatu training berupa pohon keputusan yang disimpan dalam
informasi untuk sebuah kejadian, semakin tinggi bentuk rule. Proses perancangan ini akan dibuat
probabilitas suatu kejadian rendah (artinya jarang), flowchart dari proses training.
semakin banyak informasi yang didapatkan artinya 1. Proses pencarian akar
sangat baik. Teori Shannon menganggap informasi Proses pencarian akar dengan menghitung nilai
yang dapat dihitung dilihat dari informasi yang entropy masing-masing kategori. Selanjutnya dilakukan
bersumber atau bermula dari suatu kejadian. Jumlah perhitungan gain pada masing-masing kategori yang
informasi yang dapat dikaitkan atau dihasilkan dalam akan dijadikan nilai akar.
suatu kejadian dapat membuat persoalan informasi
menjadi nlai kuantitas, sehingga dapat diterapkan pada 2. Pembentukan cabang
proses perhitungan aritmatika [12][13]. Kategori dengan nilai gain tertinggi, akan dijadikan
dasar pembentukan simpul. Kategori dengan nilai gain
Secara umum, dapat diberikan sebuah nilai tertinggi akan dijadikan (node) simpul selanjutnya,
distribusi probabilitas P = (p1,p2....,pn) dan sampel S kemudian akan dibentuk pohon node seperti gambar 1.
membawa informasi oleh distribusi ini, juga disebut
entropy P yang menghasilkan pada fungis dibawah ini:
(2.1)
Keterangan :
S : Himpunan (dataset)
n : banyaknya record
pi : probabilitas yang didapat dari jumlah ya atau Gambar 1. Pembentukan node (simpul)
tidak
dibagi keseluruhan total kasus
Dalam proses pencarian root pada gambar 2
b) Informasi Gain G (p,T) terdapat proses entropi dan information gain. Mecari
Informasi gain adalah seleksi pengukuran atribut nilai entropi dihitung dengan keseluruhan total kasus
untuk memilih atribut yang akan di test pada tiap simpul dengan sampel data yang akan diusulkan menggunakan
(node). Atribut dengan informasi gain tertinggi akan dataset terdiri dari atribut Nama, usia, Berat, Jenis
terpilih sebagai atribut yang akan di test dari suatu Kelamin, Riwayat Hipertensi.
node[14]. Dalam perhitungan gain bisa terjadi atau
tidak suatu missing value. Untuk langkah selanjutnya
dengan menghitung gain, adalah sebagai berikut :

181
Prosiding Annual Research Seminar 2017 ISBN : 979-587-705-4
Computer Science and ICT Vol. 3 No. 1

yang bersifat prediksi. Algoritma C4.5 menggunakan


gain ratio sebagai penentu simpul akar, internal dan
daun. Algoritma C4.5 dapat menangani data numenrk
(kontinyu) dan diskret.

UCAPAN TERIMAKASIH
Penulis mengucapkan terimakasih kepada semua
pihak yang telah membantu dalam penelitian ini.
Khususnya kepada dosen dan teman-teman Magister
Informatika Universias Sriwijaya.

References
[1] Badan Penelitian dan Pengembangan Kesehaan Kementerian
Gambar 3. Flowchart Proses Pencarian root (akar) Kesehatan RI.(2013).Riset Kesehatan Dasar, Hal:103.
[2] Dinas Kesehatan Provinsi Sumatera Selatan (2015).Profil
Kesehatan Provinsi Sumatera Selatan, Hal:29.
[3] Lakshmi, B.N., Raghunandhan, G.H. (2011). A conceptual
overview of data mining. Proceedings of the National
Conference on Innovations in Emerging Technology, 27-32.
[4] Dharm Singh, Naveen Choudhary and Jully Samota. (2013).
Analysis of Data Mining Classification with Decision Tree
Technique. Global Journal Of Computer Science & Data
Engineering, Vol.13 Issue 13.
[5] Ronak Sumbaly, N. Ishnusri, S.Jeyalatha. (2014). Diagnosis of
Breast Cancer using Decision Tree Data Minin Technique.
International Journal of Computer Application, Vol.98
No.10,Hal : 16-24.
[6] Sigit Abdillah.(2011). Penerapan Algoritma Decision Tree
C4.5 Untuk Diganosa Penyakit Stroke dengan klasifikasi Data
Mining Pada Rumah Sakit Santa Maria Pemalang.
[7] Dwi Ayu Nursela. (2010). Penerapan Algoritma C4.5 untuk
Klasifikasi Tingkat Keganasan Kanker Payudara.
[8] Ana Moris,Hugo Peixoto, Cecilia Coimbra, Antonio Abelha
Gambar 2. Flowchart proses training (Pembelajaran) dan Jose Machado. 2017. Predicting the need of Neonatal
C4.5 Resuscitation using Data Mining. International Workshop on
Healthcare Interoperability and Pervasive Intelligent Systems.
571-576.
Pada proses ini dilakukan pembobotan, kemudian [9] Brijain R. Patel dan Kushik K. Rana.(2014). A Survey on
dihitung information gain dimana setiap atribut yang Decision Tree Algorithm for Classification. Vol.2, Issue 1.
memiliki nilai information gain tertinggi ditetapkan [10] Daniel T.Larose. 2005. Discovering Knowledge in Data An
sebagai root (akar). Introduction to Data Mining. Willey Interscience.
[11] Bakhtiar Rifai. 2013. Algoritma Neural Network Untuk
Prediksi Penyakit Jantung. Techno Nusa Mandiri. Vol.9 No.1
IV. KESIMPULAN [12] Turban Efraim, Aronson Jay E, and Liang. 2005. Decision
Support Systems and Intelligent Systems, 7th ed.: Prentice
Pada penelitian ini mengusulkan perancangan data Hall, Upper Saddle River, NJ.
mining untuk memprediksi penderita penyakit ISPA
[13] Benjamin Devéze & Matthieu Fouquin, Data Mining C4.5
untuk kategori Akut dan Tidak Akut menggunakan DBSCAN, PROMOTION 2005, SCIA Ecole pour
Klasifikasi Algoritma C4.5, karena rules yang terbentuk rmatique et techniques avancées.
sederhana. Untuk pengukuran atau memilih atribut [14] Sunjana, 2010. Seminar Nasional Aplikasi Teknologi
sebagai akar berdasarkan nilai gain tertinggi dari Informasi 2010. Snati 2010. Aplikasi Mining Data Mahasiswa
atribut-atribut yang ada. Dengan Metode Klasifikasi Decision Tree , 24-29 Reprinted
with corrections from The Bell System Technical Journal 1948,
Algoritma data mining C4.5 merupakan algoritma Vol. 27, pp. 379 423, 623 656
yang digunakan untuk klasifikasi atau pengelompokan

182

Anda mungkin juga menyukai