SKRIPSI
Disusun oleh:
Ulva Febriana
NIM: 135150218113014
SKRIPSI
Disusun Oleh :
Ulva Febriana
NIM: 135150218113014
Mengetahui
Ketua Jurusan Teknik Informatika
ii
PERNYATAAN ORISINALITAS
Ulva Febriana
NIM: 135150218113014
iii
KATA PENGANTAR
Segala puji syukur ke hadirat Allah SWT yang telah melimpahkan rahmat dan
karunia-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul
“Klasifikasi Penyakit Typhoid Fever (TF) Dan Dengue Haemorragic Fever (DHF)
Dengan Menerapkan Algoritma Decision Tree C4.5 (Studi Kasus : Rumah Sakit
Wilujeng Kediri)” dengan lancar dan baik. Penulis ingin mengucapkan kepada
semua piihak yang telah membantu dan mendukung penulis dalam menyelesaikan
skripsi ini. Ucapan terimakasih penulis berikan kepada :
1. Bapak M. Tanzil Furqon, S.Kom, M.CompSc selaku dosen pembimbing
pertama yang telah memberikan bimbingan dengan sabar dan saran yang
sangat membantu dalam penyusunan skripsi ini.
2. Bapak Bayu Rahayudi, S.T, M.T selaku dosen kedua yang telah
memberikan bimbingan dengan sabar dan saran yang sangat membantu
dalam penyusunan skripsi ini.
3. Seluruh Bapak dan Ibu dosen yang telah mendidik dan membagi ilmunya
kepada penulis selama menempuh pendidikan di Fakultas Ilmu Komputer.
4. Secara khusus penulis ingin menyampaikan rasa terimakasih yang
sebesar-besarnya kepada orangtua penulis Pujianto(Purn) dan Endang
Sunarsih S.Pd, Kakak penulis, Brigadir Lucky Ardianto dan Nila Ari Safitri
Amd.Keb serta Kedua Keponakan penulis, Aleyanova Sadiya dan Davira
Farra Sadiya yang selalu memberikan doa, semangat, dukungan serta
menghibur agar penulis tidak malas dalam menyusun skripsi.
5. Seluruh teman-teman penulis “KEMAL” dan khususnya untuk Ikrar Amalia
Sholekhah, Resti Febriana dan Fyma Ardita yang selalu memberikan
dukungan, bantuan serta semangat kepada penulis.
6. Seluruh pihak yang tidak bisa disebutkan satu-persatu yang telah
membantu dalam penyelesaian skripsi ini.
Penulis menyadari bahwa dalam penulisan skripsi ini masih banyak
kekurangannya. Oleh karena itu, penulis sangat mengharapkan kritik dan saran
dapat diberikan kepada penulis. Semoga penulisan skripsi ini dapat memberikan
manfaat bagi semua pihak.
Penulis
ulvafebri13@gmail.com
iv
ABSTRAK
Demam merupakan naiknya suhu tubuh yang lebih tinggi dari biasanya.
Demam itu bukanlah penyakit, melainkan awal gejala seseorang terkena penyakit.
Ada banyak penyakit yang disebabkan oleh demam, contohnya seperti Typhoid
Fever dan Dengue Haemorragic Fever. Kedua penyakit tersebut apabila diamati
secara klinis akan sulit membedakannya. Karena kedua penyakit itu hampir
memiliki gejala-gejala yang sama dan apabila terjadi kesalahan dalam
mendiagnosisnya akan menyebabkan hal yang fatal pada pasien. Penyakit Typhoid
Fever merupakan demam yang disebabkan oleh bakteri Salmonella Typhi yang
menyebar ke seluruh tubuh dan Dengue Haemorragic Fever penyakit demam yang
disebabkan oleh gigitan nyamuk Aedes Aegypti. Untuk mengatasi hal tersebut,
maka dibuatlah sistem klasifikasi diagnosa penyakit Typhoid Fever dan Dengue
Haemorragic Fever berdasar pada gejala-gejala yang dimiliki oleh pasien dengan
menerapkan algoritma desicion tree C4.5. Akurasi yang diperoleh sistem klasifikasi
penyakit Typhoid Fever (TF) dan Dengue Haemorhagic Fever (DHF) dengan
dilakukan pengujian k-folds cross validation didapatkan nilai rata-rata akurasi
tertinggi pada 5-fold cross validation dengan akurasi sebesar 91,875% yang
menggunakan data uji sebanyak 32 data dan data latih sebanyak 128 data. Hasil
uji coba ke-4 pada pengujian 5-fold cross validation ini menghasilkan akurasi
tertinggi yaitu sebesar 97%. Sedangkan analisis dengan melakukan pengujian 16-
fold cross validation dari data uji sejumlah 10 data dan data latih sejumlah 150
data, didapatkan hasil nilai uji coba sebesar 100% pada uji coba ke-2, ke-3, ke-4,
ke-6, ke-9, ke-11, ke-12 dan ke-16. Walaupun nilai akurasi 100% yang didapatkan
pada pengujian ini jumlahnya ada banyak, rata-rata akurasi pada pengujian 16-
fold cross validation ini masih dibawah nilai rata-rata akurasi yang didapat dengan
pengujian 5-fold cross validation.
v
ABSTRACT
Fever is a rise in body temperature is higher than usual. Fever is not a disease,
but the initial symptoms of a person affected by the disease. There are many
diseases caused by fever, such as Typhoid Fever and Dengue Haemorragic Fever.
Both diseases when observed clinically will be difficult to distinguish them. Because
the two diseases almost have the same symptoms and if there is an error in
diagnosing it will cause a fatal thing in the patient. Typhoid Fever disease is a fever
caused by Salmonella Typhi bacteria that spread throughout the body and
Haemorragic Fever Dengue fever caused by Aedes Aegypti mosquito bites. To
overcome this, then made a classification system of disease diagnosis Typhoid
Fever and Dengue Haemorragic Fever based on symptoms possessed by patients
by applying desicion tree algorithm C4.5. Accuracy obtained by Typhoid Fever (TF)
and Dengue Haemorhagic Fever (DHF) classification system by k-folds cross
validation test showed the highest accuracy value on 5-fold cross validation with
accuracy of 91,875% using 32 data test and Training data of 128 data. The results
of the 4th test on 5-fold cross validation test resulted in the highest accuracy of
97%. While the analysis by conducting 16-fold cross validation test of the test data
of 10 data and training data of 150 data, obtained the result of the test value of
100% on the 2nd, 3rd, 4th, 6th, The 9th, the 11th, the 12th and the 16th. Although
the 100% accuracy value obtained in this test is numerous, the average accuracy
of the 16-fold cross validation test is still below the average score of accuracy
obtained by testing 5-fold cross validation.
Keywords : Fever, Typhoid Fever, Haemorragic Fever Dengue, C4.5.
vi
DAFTAR ISI
PENGESAHAN ...........................................................................................................ii
PERNYATAAN ORISINALITAS ................................................................................... iii
KATA PENGANTAR ................................................................................................... iv
ABSTRAK ................................................................................................................... v
ABSTRACT ................................................................................................................ vi
DAFTAR ISI .............................................................................................................. vii
DAFTAR TABEL .......................................................................................................... x
DAFTAR GAMBAR .................................................................................................... xi
DAFTAR LAMPIRAN ............................................................................................... xiii
BAB 1 PENDAHULUAN............................................................................................. 1
1.1 Latar belakang........................................................................................ 1
1.2 Rumusan masalah .................................................................................. 2
1.3 Tujuan .................................................................................................... 2
1.4 Manfaat.................................................................................................. 3
1.5 Batasan masalah .................................................................................... 3
1.6 Sistematika pembahasan ....................................................................... 3
BAB 2 LANDASAN KEPUSTAKAAN ........................................................................... 5
2.1 Kajian pustaka ........................................................................................ 5
2.2 Kecerdasan buatan dan klasifikasi ......................................................... 6
2.3 Decision tree C4.5 .................................................................................. 6
2.4 Cross Validation ..................................................................................... 7
2.5 Dengue Haemorhagic Fever (DHF) ........................................................ 8
2.6 Typhoid Fever (TF) .................................................................................. 8
BAB 3 METODOLOGI ............................................................................................. 11
3.1 Studi literatur ....................................................................................... 11
3.2 Analisis kebutuhan ............................................................................... 11
3.3 Pengumpulan data ............................................................................... 12
3.4 Perancangan sistem ............................................................................. 12
3.4.1 Perancangan penyusunan tree ................................................... 12
3.4.2 Perancangan pengujian data ...................................................... 13
vii
3.5 Implementasi sistem ............................................................................ 14
3.6 Pengujian dan Analisis ......................................................................... 14
3.7 Kesimpulan........................................................................................... 14
BAB 4 PERANCANGAN ........................................................................................... 15
4.1 Deskripsi sistem ................................................................................... 15
4.2 Perancangan sistem ............................................................................. 15
4.2.1 Perancangan proses pembelajaran ............................................. 15
4.2.2 Proses pembelajaran klasifikasi algoritma C4.5 .......................... 16
4.3 Perhitungan manual ............................................................................ 18
4.4 Perancangan antarmuka ...................................................................... 26
4.4.1 Perancangan antarmuka halaman beranda ................................ 26
4.4.2 Perancangan antarmuka halaman diagnosa ............................... 27
4.4.3 Perancangan antarmuka halaman data ...................................... 28
4.4.4 Perancangan antarmuka halaman tree....................................... 28
4.4.5 Perancangan antarmuka halaman pengujian ............................. 29
4.5 Perancangan pengujian ....................................................................... 29
BAB 5 IMPLEMENTASI ........................................................................................... 31
5.1 Spesifikasi sistem ................................................................................. 31
5.1.1 Spesifikasi perangkat keras ......................................................... 31
5.1.2 Spesifikasi perangkat lunak ......................................................... 32
5.2 Batasan implementasi ......................................................................... 32
5.3 Implementasi algoritma ....................................................................... 32
5.3.1 Implementasi algoritma perhitungan nilai entropy .................... 33
5.3.2 Implementasi algoritma perhitungan nilai gain .......................... 33
5.3.3 Implementasi algoritma pembentukan tree ............................... 34
5.3.4 Implementasi algoritma pengujian ............................................. 35
5.4 Implementasi antarmuka..................................................................... 36
5.4.1 Halaman beranda ........................................................................ 36
5.4.2 Halaman diagnosa ....................................................................... 36
5.4.3 Halaman hasil diagnosa............................................................... 37
5.4.4 Halaman data .............................................................................. 37
5.4.5 Halaman tree ............................................................................... 38
viii
5.4.6 Halaman pengujian ..................................................................... 38
BAB 6 PENGUJIAN DAN ANALISIS.......................................................................... 40
6.1 Hasil pengujian k-fold cross validation ................................................ 40
6.2 Analisa hasil pengujian k-fold cross validation .................................... 42
BAB 7 KESIMPULAN ............................................................................................... 44
7.1 Kesimpulan........................................................................................... 44
7.2 Saran .................................................................................................... 44
DAFTAR PUSTAKA .................................................................................................. 45
LAMPIRAN ............................................................................................................. 47
ix
DAFTAR TABEL
x
DAFTAR GAMBAR
xi
Gambar 6.2 Tree yang terbentuk .......................................................................... 43
xii
DAFTAR LAMPIRAN
xiii
BAB 1 PENDAHULUAN
1
Pada penelitian sebelumnya yang dilakukan oleh (Adeyemo & Adeyeye, 2015)
meneliti tentang prediksi penyakit tifus dengan menerapkan algoritma ID3, C4.5
dan MLP ke dalam penelitiannya, masukkan dari sistem tersebut terdiri dari
beberapa atribut antara lain : umur, jenis kelamin, nyeri perut, sakit kepala,
pusing, batuk, demam, muntah, kehilangan selera makan dan keluaran sistem
berupa diagnosis penyakitnya. Algoritma MLP ternyata memiliki akurasi lebih
tinggi dibandingkan dengan dua algoritma lainnya, yaitu sebesar 83,6299%, tetapi
dalam kecepatan dalam melatih data algoritma C4.5 lebih baik dengan hanya 0,01
detik.
Selanjutnya, penelitian yang dilakukan oleh (Hartanto & Hansun, 2014)
menerapkan data mining dengan algoritma C4.5 untuk prediksi tingkat kelulusan
mahasiswa dengan 4 kategori yang berupa lulus cepat, lulus tepat, lulus terlambat,
dan drop out. Atribut yang berpengaruh dalam hasil prediksinya yaitu IPS semester
enam. Akurasi yang dihasilkan dari sistem ini sebesar 87,5% dari data training
sebanyak 60 dan 40 data testing.
Berdasarkan penelitian yang sudah dilakukan diatas, maka dalam penelitian ini
dirancanglah sebuah sistem klasifikasi gejala penyakit Typhoid Fever (TF) atau
Dengue Haemorhagic Fever (DHF) dengan menerapkan metode decision tree C4.5
untuk mendiagnosa jenis penyakit yang diderita oleh pasien di suatu rumah sakit.
Sistem ini diharapkan dapat membantu dokter dan tenaga medis dalam
melakukan diagnosis penyakit berdasarkan gejala-gejala yang dimasukkan dan
penerapan metode decision tree C4.5 dapat memberikan hasil yang maksimal
dalam diagnosa serta memiliki keakuratan yang tinggi.
1.3 Tujuan
Berdasarkan rumusan masalah diatas, maka tujuan dari penelitian yang dibuat
sebagai berikut :
1. Mengimplementasikan metode decision tree C4.5 ke dalam sistem diagnosa
penyakit Typhoid Fever (TF) atau Dengue Haemorhagic Fever (DHF).
2. Menghitung tingkat akurasi sistem klasifikasi diagnosa penyakit Typhoid Fever
(TF) atau Dengue Haemorhagic Fever (DHF) menggunakan metode decision
tree C4.5.
2
1.4 Manfaat
Manfaat yang didapat dari penelitian ini diharapkan dapat membantu dokter
atau tenaga medis dalam proses mendiagnosa penyakit yang diderita oleh pasien
di suatu rumah sakit agar tidak terjadinya kesalahan dalam diagnosis penyakit
Typhoid Fever (TF) atau Dengue Haemorhagic Fever (DHF).
3
4. Bab 5 Implementasi
Bab implementasi membahas tentang hasil implementasi klasifikasi gejala
penyakit Typhoid Fever (TF) dan penyakit Dengue Haemorhagic Fever (DHF)
dengan menerapkan metode decision tree C4.5.
5. Bab 6 Pengujian dan analisis
Bab pengujian membahas tentang tingkat akurasi menganalisa hasil dari
metode yang telah digunakan dalam sistem klasifikasi gejala penyakit Typhoid
Fever (TF) dan penyakit Dengue Haemorhagic Fever (DHF) dengan
menerapkan metode metode decision tree C4.5.
6. Bab 7 Penutup
Pada bab penutup berisikan kesimpulan yang diperoleh dari penelitian ini
serta saran yang berguna bagi pengembangan sistem yang dibangun.
4
BAB 2 LANDASAN KEPUSTAKAAN
5
dengan hasil sistem menunjuk pada akurasi sebesar 73,33% pada confusion matrix
dan 0,815 pada kurva ROC.
Penjelasan tentang kajian pustaka penelitian-penelitian yang sebelumnya
dilakukan dapat dilihat pada tabel 2.1.
Terdapat istilah-istilah yang ada dalam klasifikasi kecerdasan buatan yaitu set
data, digunakan untuk proses data latih dan memiliki suatu atribut;
pengklasifikasian (Classifier) model untuk menentukan objek masuk dalam suatu
kelas tertentu; set data testing, data yang digunakan untuk melakukan uji tingkat
akurasi. Terdapat metode-metode yang telah dikembangkan untuk
menyelesaikan kasus klasifikasi, contohnya pohon keputusan, pengklasifikasian
bayes, jaringan syaraf tiruan, algoritma genetika, klasifikasi k-nearest neighbor
dan lain-lain (Prabowo Pudjo Widodo, 2013).
6
1. Menyiapkan data training.
2. Menghitung nilai index Entropy terlebih dahulu dengan persamaan 2.1
n
Entropy ( S ) pi log 2 pi [2.1]
i 1
Keterangan :
S = himpunan kasus
n = jumlah partisi S
pi = proporsi dari Si terhadap S
3. Menghitung gain, untuk menetapkan atribut sebagai akar dengan
menghitung nilai gain tertinggi dari semua atribut yang ada
n Si
Gain( S , A) Entropy( S ) Entropy( S i ) [2.2]
i 1 |S|
Keterangan :
S = himpunan kasus
A = atribut
n = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S
4. Ulangi langkah kedua sampai semua record terpartisi, dan proses partisi akan
berhenti saat semua record dalam simpul N mendapat kelas yang sama, tidak
ada atribut didalam record yang dipartisi lagi, dan tidak ada record didalam
cabang yang kosong.
Rata rata
akurasi 100% [2.4]
ujicoba
7
2.5 Dengue Haemorhagic Fever (DHF)
Demam Berdarah atau bahasa ilmiahnya disebut dengan Dengue
Haemorhagic Fever merupakan penyakit virus dengue yang disebabkan oleh
gigitan nyamuk Aedes Aegypti. Nyamuk Aedes Aegypti hidup didaerah yang
mempunyai iklim tropis dengan suhu yang lembab. Nyamuk ini mempunyai ciri-
ciri tubuh hitam dengan belang putih pada kakinya. Gejala penderita penyakit ini
sekarang tidak terduga dan seringkali disepelekan oleh masyarakat awam. Gejala-
gejala penyakit Dengue Haemorhagic Fever sebagai berikut :
1. Mendadak demam tinggi (lebih dari 38oC) yang berlangsung secara terus
menerus selama 2 sampai 7 hari
2. Terdapat bintik-bintik merah pada kulit
3. Terasa mual, muntah dan kepala pusing
4. Nyeri ulu hati
5. Trombosit yang turun terus menerus
6. Diare
Maka diperlukan adanya pemberantasan pada nyamuk penularnya,
pemberantasan tersebut dilakukan dengan cara fogging atau pengasapan pada
tiap rumah agar nyamus aedes aegypti mati dan dapat pula dilakukan dengan cara
3M yaitu Menguras, Menutup dan Mengubur (WHO, 1998).
8
Tabel 2.1 Kajian Pustaka
No Judul Input Proses Output Hasil
1 Comparative Study of atribut : umur, algoritma : diagnosis penyakit Algoritma MLP ternyata memiliki
ID3/C4.5 Desicion Tree jenis kelamin, nyeri typoid fever akurasi lebih tinggi dibandingkan
- ID3
and Multiplayer perut, sakit kepala, dengan dua algoritma lainnya,
- C4.5
Peceptron Algorithms for pusing, batuk, yaitu sebesar 83,6299%, tetapi
- MLP (Multilayer Peceptron)
the Prediction of Typhoid demam, muntah, dalam kecepatan dalam melatih
Fever kehilangan selera data algoritma C4.5 lebih baik
makan dengan hanya 0,01 detik
2 A Data Mining Approach - Dataset file .csv metode : Prediksi diagnosa Akurasi dari algoritma SMO dan
for Preccise Diagnosis of penyakit Dengue J48 ternyata memiliki akurasi
- atribut seperti - REP Tree
Dengue Fever Fever tinggi dibanding algoritma lainnya,
demam, - J48
akurasi yang dihasilkan sebesar
pendarahan, - SMO
84% dan 76%. Sedangkan akurasi
myalgia, flu, - ZeroR
yang dihasilkan dari algoritma REP
kelelahan, nyeri - Random Tree
Tree sebesar 72%, algoritma
dan kepala data mining tool WEKA
Random Tree sebesar 68% dan
pusing.
algoritma SeroR sebesar 72%
3 Dengue Fever Prediction Atribut data algoritma Naive Bayes, J4.8, Hasil prediksi Akurasi terbaik pada sistem ini
: A Data Mining Problem penyakit DF SMO, RT dan REP Tree dengan penyakit DF dengan menggunakan algoritma
WEKA tool data mining J48 dengan perolehan akurasi
sebesar 88% dan untuk REP Tree
sebesar 76%, Random Tree
sebesar 76%, SMO sebesar 76%
4 Implementasi Data Atribut : IPS penelitian ini digunakan model Hasil prediksi tingkat Akurasi yang dihasilkan dari sistem
Mining dengan semester enam decision tree C4.5 kelulusan mahasiswa ini sebesar 87,5% dari data training
Algoritma C4.5 untuk sebanyak 60 dan 40 data testing
Memprediksi Tingkat
Kelulusan Mahasiswa
9
5 Sistem Prediksi Penyakit Inputan berupa Algoritma Decision Tree C4.5 Hasil prediksi Sistem ini diuji dengan 50 data
Diabetes Berbasis data pasien dan penyakit diabetes dengan hasil sistem menunjuk
Decision Tree data gejala dengan pada akurasi sebesar 73,33% pada
lengkap confusion matrix dan 0,815 pada
kurva ROC
Sumber : (Adeyemo & Adeyeye, 2015); (Bhavani & Kumar, 2015); (Shaukat, Masood, Mehreen, & Azmeen, 2015); (Hartanto & Hansun,
2014); (Andriani, 2013)
10
BAB 3 METODOLOGI
Studi literatur
Analisis kebutuhan
Pengumpulan data
Perancangan sistem
Implementasi sistem
Kesimpulan
11
1. Kebutuhan hardware yang berupa PC/Laptop
2. Kebutuhan software yang meliputi :
- Sistem operasi menggunakan Microsoft Windows 10
- Database MySQL
- Pemrograman PHP
- XAMPP
3. Kebutuhan data yang meliputi :
- Data gejala penyakit Typhoid Fever (TF) dan Dengue Haemorhagic Fever
(DHF)
- Data rekam medis penyakit Typhoid Fever (TF) dan Dengue Haemorhagic
Fever (DHF)
13
3.5 Implementasi sistem
Pada tahap implementasi sistem ini sistem klasifikasi dibangun dengan
perancangan yang telah dibuat dengan menerapkan studi literatur yang ada.
Aplikasi sistem klasifikasi gejala penyakit Typhoid Fever (TF) dan Dengue
Haemorhagic Fever (DHF) ini dibangun dengan menerapkan metode decision tree
C4.5 dengan menggunakan bahasa pemrograman PHP. Keluaran yang dihasilkan
oleh sistem ini berupa diagnosis penyakit Typhoid Fever (TF) dan Dengue
Haemorhagic Fever (DHF).
3.7 Kesimpulan
Setelah tahapan perancangan, implementasi dan pengujian sistem selesai
dilakukan maka tahap selanjutnya adalah menarik kesimpulan dan saran.
Kesimpulan didapatkan dari hasil pengujian sistem dengan metode decision tree
C4.5, sedangkan untuk saran digunakan untuk memberikan pertimbangan untuk
penelitian yang akan dilakukan selanjutnya.
14
BAB 4 PERANCANGAN
Pada bab ini menjelaskan tentang analisa kebutuhan perangkat lunak dan
perancangan untuk sistem klasifikasi penyakit Typhoid Fever (TF) dan Dengue
Haemorhagic Fever (DHF) dengan menggunakan algoritma C4.5. Pada gambar 4.1
dibawah ini menunjukan proses yang dilakukan pada bab perancangan ini.
Deskripsi Sistem
Perancangan Sistem
Perhitungan Manual
Perancangan Antarmuka
Perancangan Pengujian
15
Gambar 4.2 Diagram alir perancangan pembelajaran
4.2.2 Proses pembelajaran klasifikasi algoritma C4.5
Pada proses ini dilakukan proses algoritma C4.5 untuk klasifikasi, pertama
dengan memasukan data training lalu menentukan entropy dengan persamaan
2.1, setelah nilai tersebut ditemukan maka selanjutnya menghitung nilai gain
dengan persamaan 2.2 dan jika sudah maka akan didapatkan nilai gain tertinggi
dari 10 atribut tersebut, nilai gain tertinggi itu akan dicetak sebagai root awal.
Kemudian dari atribut yang dicetak tersebut akan dilakukan perhitungan entropy
dan gain kembali sampai tidak ada lagi node cabang yang belum
mengklasifikasikan keputusan. Pada gambar 4.3 berikut merupakan proses
pembelajaran dari perhitungan nilai entropy.
Lalu langkah berikutnya yaitu dengan menghitung nilai gain. Nilai gain
didapatkan dari persamaan 2.2. Nilai gain tertinggi akan ditetapkan sebagai root
awal. Kemudian root-root berikutnya akan dihitung lagi dengan persamaan 2.1
dan 2.2 sampai tidak ada lagi node cabang yang belum mengklasifikasikan
keputusan. Proses perhitungan nilai gain dan penentuan root dapat dilihat pada
gambar 4.4.
16
Gambar 4.3 Proses perhitungan nilai entropy
- Kemudian hitung untuk nilai entropy pada setiap atribut, mengacu pada
persamaan 2.1 :
7 7 5 5
Entropy( demam 6hari) log 2 log 2 0
12 12 12 12
0,9798
9 9 3 3 6 6
Entropy( demam 5hari) log 2 log 2 log 2
18 18 18 18 18 18
1,4591
3 3 6 6
Entropy(trombosit , normal) 0 log 2 log 2
9
9 9 9
0,9183
9 9 5 5
Entropy(trombosit , sedang) log 2 log 2 0
14 14 14 14
0,9402
Entropy(trombosit , rendah) 0
11 11 5 5
Entropy( mualmuntah, ya ) log 2 log 2 0
16 16 16 16
0,8960
5 5 3 3 7 7
Entropy( mualmuntah, tidak ) log 2 log 2 log 2
14 14 14 14 14 14
1,5067
12 12 5 5
Entropy( nyeriuluhati , ya ) log 2 log 2 0
17 17 17 17
0,8739
4 4 3 3 6 6
Entropy( nyeriuluhati , tidak ) log 2 log 2 log 2
13 13 13 13 13 13
1,5262
12 12 6 6
Entropy( sakitkepala, ya ) log 2 log 2 0
18 18 18 18
0,9183
4 4 2 2 6 6
Entropy( sakitkepala, tidak ) log 2 log 2 log 2
12 12 12 12 12 12
1,4591
10 10 5 5
Entropy( diare, ya ) log 2 log 2 0
15 15 15 15
0,9183
6 6 3 3 6 6
Entropy( diare, tidak ) log 2 log 2 log 2
15 15 15 15 15 15
1,5219
18
12 12 5 5
Entropy(tidaknafsumakan, ya ) log 2 log 2 0
17 17 17 17
0,8739
4 4 3 3 6 6
Entropy(tidaknafsumakan, tidak ) log 2 log 2 log 2
13 13 13 13 13 13
1,5263
13 13 6 6
Entropy(lemas, ya ) log 2 log 2 0
19 19 19 19
0,8997
3 3 2 2 6 6
Entropy(lemas, tidak ) log 2 log 2 log 2
11 11 11 11 11 11
1,4353
Entropy(lidahkotor, berat) 0
16 16 2 2 6 6
Entropy(lidahkotor, tidakada) log 2 log 2 log 2
24 24 24 24 24 24
1,1887
Entropy(b int ikmerah, ada) 0
3 3 8 8 6 6
Entropy(b int ikmerah, tidakada) log 2 log 2 log 2
17 17 17 17 17 17
1,4836
- Setelah dicari nilai entropy dari setiap atribut yang ada, kemudian
menghitung nilai gain dari setiap atribut, perhitungan nilai gain mengacu
pada persamaan 2.2
12 18
Gain( demam) 1,4565 0,9798 1,4591 0,1891
30 30
9 14
Gain(trombosit ) 1,4565 0,9183 0,9402 0 0,7422
30 30
16 13
Gain( mualmuntah) 1,4565 0,8960 1,5067 0,2755
30 30
17 13
Gain( nyeriuluhati ) 1,4565 0,8739 1,5262 0,2999
30 30
18 12
Gain( sakitkepala ) 1,4565 0,9183 1,459 0,219
30 30
15 15
Gain( diare) 1,4565 0,9183 1,5219 0,2364
30 30
17 13
Gain(tidaknafsumakan) 1,4565 0,8739 1,5263 0,2999
30 30
19 11
Gain(lemas) 1,4565 0,8997 1,4353 0,3604
30 30
24
Gain(lidahkotor ) 1,4565 0 1,188 0,5055
30
17
Gain(b int ikmerah) 1,4565 0 1,4836 0,6158
30
19
Hasil perhitungan untuk nilai entropy dan gain ditunjukkan pada tabel 4.1.
Tabel 4.1 Node 1
20
Gambar 4.5 Node 1
21
Tabel 4.2 Node 2
22
Tabel 4.3 Node 3
23
Setelah didapatkan pohon sementara seperti pada gambar 4.8 maka
dilakukan perhitungan untuk mencari node cabang dari nilai atribut bintik merah
tidak ada. Hasil perhitungan untuk nilai entropy dan gain untuk perhitungan
atribut bintik merah tidak ada ditunjukkan pada tabel 4.4 berikut :
Tabel 4.4 Node 4
Dari tabel perhitungan di atas didapatkan nilai gain tertinggi sebesar 0,3166
pada atribut diare, sehingga atribut tersebut menjadi node cabang dari bintik
merah tidak ada. Pada atribut diare ya sudah mengkalsifikasikan suatu penyakit
yaitu penyakit TF dan pada nilai atribut diare tidak belum mengklasifikasikan suatu
penyakit sehingga perlu dilakukan perhitungan lebih lanjut. Sehingga pohon
sementara yang didapatkan dari perhitungan diatas dapat dilihat pada gambar 4.9.
24
Gambar 4.8 Node 4
Setelah didapatkan pohon sementara seperti pada gambar 4.9 maka
dilakukan perhitungan untuk mencari node cabang dari nilai atribut diare tidak.
Hasil perhitungan untuk nilai entropy dan gain untuk perhitungan atribut tersebut
ditunjukkan pada tabel 4.5 berikut :
Tabel 4.5 Node 5
25
Dari tabel perhitungan di atas didapatkan nilai gain tertinggi sebesar 1 pada
atribut demam, sehingga atribut tersebut menjadi node cabang dari diare tidak.
Pada atribut demam <5 dan >=6 sudah mengklasifikasikan kasus menjadi satu
yaitu dengan hasil penyakit TF dan DHF sehingga tidak perlu perhitungan lebih
lanjut. Pohon keputusan dengan menggunakan algoritma C4.5 dibawah ini sudah
terselesaikan karena tidak ada lagi node cabang yang belum mengklasifikasikan
satu keputusan. Sehingga pohon keputusan yang diperoleh sebagai berikut :
26
Gambar 4.10 Perancangan antarmuka beranda
4.4.2 Perancangan antarmuka halaman diagnosa
Pada halaman diagnosa terdapat beberapa masukan gejala penyakit seperti
demam, trombosit, mual dan muntah, nyeri ulu hati, sakit kepala, diare, tidak
nafsu makan, lemas, lidah kotor dan bintik merah ,digambarkan pada gambar 4.12
berikut :
27
Gambar 4.12 Perancangan antarmuka hasil diagnosa
4.4.3 Perancangan antarmuka halaman data
Pada halaman data menampilkan kolom-kolom gejala dan kelas penyakit
dari data latih. Pada gambar 4.14 dibawah ini menggambarkan halaman data.
28
Gambar 4.14 Perancangan antarmuka halaman tree
4.4.5 Perancangan antarmuka halaman pengujian
Pada halaman pengujian menampilkan hasil pengujian sistem. Pada gambar
4.16 dibawah ini menggambarkan halaman pengujian.
29
sebagai data uji dan sisa data lainnya sebagai data latih. Perancangan pengujian
dapat dilihat pada tabel 4.6.
Tabel 4.6 Rancangan tabel pengujian k-fold cross validation
JUMLAH DATA
K-FOLD AKURASI (%)
DATA UJI DATA LATIH
2
RATA-RATA AKURASI
5
RATA-RATA AKURASI
8
RATA-RATA AKURASI
10
RATA-RATA AKURASI
12
RATA-RATA AKURASI
30
BAB 5 IMPLEMENTASI
5.3 Implementasi
Algoritma
5.3.3 Implementasi Algoritma
pembentukan tree
31
Tabel 5.1 Spesifikasi perangkat keras
Nama Spesifikasi
Processor Intel(R) CoreTMi5-3337U CPU @ 1.80GHz
RAM 4,00 GB
HD 500GB
32
5.3.1 Implementasi algoritma perhitungan nilai entropy
Langkah pertama yang dilakukan dalam membangun sistem ini adalah dengan
perhitungan nilai entropy. Implementasi perhitungan nilai entropy dapat dilihat
pada gambar 5.2.
1 public function hitungEntropy($data) {
2 $jumlah = array();
3 foreach ($data as $set) {
4 if (!isset($jumlah[$set[1]]))
5 $jumlah[$set[1]] = 1;
6 else
7 $jumlah[$set[1]]++;
8 }
9 $entropy = 0;
10 $total = array_sum($jumlah);
11 foreach ($jumlah as $value)
12 $entropy += -($value / $total) * log($value / $total, 2);
13 return $entropy;
14 }
Gambar 5.2 Proses perhitungan nilai entropy
Penjelasan dari gambar 5.2 sebagai berikut :
1. Baris 1 membuat fungsi hitung entropy
2. Baris 2 inisialisasi atribut jumlah dalam bentuk array
3. Baris 3-8 membuat perulangan sebanyak jumlah data, jika data masih
kosong maka diisi 1 apabila tidak maka jumlah ditambah
4. Baris 9-14 rumus perhitungan entropy
33
16 return ($set[0][$kolom] == $key);
17 }
18 ));
19 }
20 return $entropy + $gain;
21 }
Gambar 5.3 Perhitungan nilai gain
Penjelasan dari gambar 5.3 sebagai berikut :
1. Baris 1 membuat fungsi hitung gain
2. Baris 2 memanggil fungsi entropy
3. Baris 3-10 perulangan sebanyak data, jika variabel jumlah masih kosong
maka diinisialisai berdasarkan kolom dan disimpan dalam array
4. Baris 11-21 perhitungan nilai gain
34
2. Baris 4-5 jika jumlah kelas benar benar 1 maka mengeluarkan kelas
klasifikasinya
3. Baris 6-15 apabila jumlah atribut=0 maka memanggil nilai data, dan
perulangan sebagai value dan hitung nilai probabilitas yang paling
terakhir dan memanggil nilai label lalu dibuat node dari kelas dan
dimasukkan di tree label
4. Baris 16-28 memanggil nilai data dan perulangan sebagai nilai value dan
membuat node lagi berupa percabangan buat tree lagi
35
36 echo "rata2 akurasi = ".$rataakurasi."%";
Gambar 5.5 Proses tree
Penjelasan dari gambar 5.4 sebagai berikut :
1. Baris 1-4 inisialisasi untuk perhitungan pengujian
2. Baris 5-6 perulangan sebanyak berapa pengujian
3. Baris 7-17 perulangan sebanyak dataset, jika masuk range antara atribut
awal dan akhir maka dataset tersebut sebagai data uji, apabila tidak maka
dataset tersebut sebagai data latih.
4. Baris 18-21 instance dari kelas desicion tree,dan inisialisasi atribut benar
dan salah
5. Baris 22-30 perulangan sebanyak data uji, apabila hasil klasifikasi sesuai
kelas di database maka benar, jika tidak maka salah.
6. Baris 31-34 perhitungan akurasi
7. Baris 35-36 perhitungan rata-rata akurasi
38
Gambar 5.11 Implementasi halaman pengujian
39
BAB 6 PENGUJIAN DAN ANALISIS
Pada bab pengujian dan analisis membahas mengenai pengujian dan analisa
terhadap sistem klasifikasi penyakit penyakit Typhoid Fever (TF) dan Dengue
Haemorhagic Fever (DHF) dengan menggunakan metode decision tree C4.5.
Pengujian pada sistem ini akan dilakukan dengan menggunakan k-fold cross
validation. Dalam pengujian ini dataset dibagi menjadi K-buah partisi kemudian
dilakukan sebanyak K-kali percobaan, dimana disetiap percobaan menggunakan
data partisi ke-K sebagai data uji dan sisa data lainnya sebagai data latih.
40
5 16 144 94%
6 16 144 94%
7 16 144 100%
8 16 144 94%
9 16 144 81%
10 16 144 94%
RATA-RATA AKURASI 90%
1 10 150 70%
2 10 150 100%
3 10 150 100%
4 10 150 100%
5 10 150 80%
6 10 150 100%
7 10 150 90%
8 10 150 90%
16 9 10 150 100%
10 10 150 90%
11 10 150 100%
12 10 150 100%
13 10 150 80%
14 10 150 70%
15 10 150 90%
16 10 150 100%
RATA-RATA AKURASI 91,250%
Representasi grafik pada tabel 6.1 hasil pengujian k-fold cross validation dapat
dilihat pada gambar 6.1
91,875%
91,250%
Akurasi
90,625%
90% 90%
2 5 8 10 16
K-fold
41
6.2 Analisa hasil pengujian k-fold cross validation
Pada pengujian dengan menggunakan k-fold cross validation dengan
melalukan beberapa kali uji dengan nilai k yang berbeda didapatkan nilai rata-rata
akurasi tertinggi pada 5-fold cross validation dengan akurasi sebesar 91,875% yang
menggunakan data uji sebanyak 32 data dan data latih sebanyak 128 data. Hasil
uji coba ke-4 pada pengujian 5-fold cross validation ini menghasilkan akurasi
tertinggi yaitu sebesar 97%.
Saat uji coba k-fold cross validation dengan menggunakan data uji dan data
latih berjumlah sama yaitu pada percobaan 2-fold cross validation mendapatkan
hasil akurasi yang berbeda, karena setiap data latih pada setiap uji coba
mempunyai data latih yang berbeda-beda. Untuk analisis dengan uji coba dengan
menggunakan 8-fold cross validation pada uji coba ke-2, ke-3 dan ke-4
menghasilkan akurasi sama yaitu sebesar 90%, menghasilkan nilai akurasi sebesar
95% yang sama pada uji coba ke-5 dan ke-8 dan menghasilkan akurasi 100% pada
uji coba ke-6, uji coba dari 8-fold cross validation ini memakai data uji berjumlah
20 data dan data latih sejumlah 140 data.
Analisis untuk pengujian 10-fold cross validation menghasilkan akurasi 100%
pada uji coba ke-7, artinya pada uji coba tersebut hasil dari data uji sama dengan
data latih, pada pengujian ini menggunakan data latih berjumlah 144 data dan
data uji sebanyak 16 data. Sedangkan analisis dengan melakukan pengujian 16-
fold cross validation dari data uji sejumlah 10 data dan data latih sejumlah 150
data, didapatkan hasil nilai uji coba sebesar 100% pada uji coba ke-2, ke-3, ke-4,
ke-6, ke-9, ke-11, ke-12 dan ke-16. Walaupun nilai akurasi 100% yang didapatkan
pada pengujian ini jumlahnya ada banyak, rata-rata akurasi pada pengujian 16-fold
cross validation ini masih dibawah nilai rata-rata akurasi yang didapat dengan
pengujian 5-fold cross validation. Jadi, pengujian yang optimal terjadi ketika
menggunakan 5-fold cross validation.
Tree yang terbentuk dari proses pengujian seperti gambar 6.2 dan untuk rule
bisa dilihat pada lampiran 3.
42
Gambar 6.2 Tree yang terbentuk
43
BAB 7 KESIMPULAN
7.1 Kesimpulan
Berdasarkan hasil penelitian tentang klasifikasi penyakit Typhoid Fever (TF)
dan Dengue Haemorhagic Fever (DHF) dengan menerapkan algoritma decision
tree C4.5 dapat disimpulkan bahwa :
1. Algoritma decision tree C4.5 dapat diterapkan dalam proses klasifikasi
penyakit Typhoid Fever (TF) dan Dengue Haemorhagic Fever (DHF) dimana
dilakukan beberapa tahapan proses pembentukan decision tree yaitu dengan
menghitung nilai entropy dan gain.
2. Akurasi yang diperoleh sistem klasifikasi penyakit Typhoid Fever (TF) dan
Dengue Haemorhagic Fever (DHF) dengan dilakukan pengujian k-folds cross
validation didapatkan nilai rata-rata akurasi tertinggi pada 5-fold dengan
akurasi sebesar 91,875% yang menggunakan data uji sebanyak 32 data dan
data latih sebanyak 128 data. Sedangkan analisis dengan melakukan
pengujian 16-fold cross validation dari data uji sejumlah 10 data dan data latih
sejumlah 150 data, didapatkan hasil nilai uji coba sebesar 100% pada uji coba
ke-2, ke-3, ke-4, ke-6, ke-9, ke-11, ke-12 dan ke-16. Walaupun nilai akurasi
100% yang didapatkan pada pengujian ini jumlahnya ada banyak, rata-rata
akurasi pada pengujian 16-fold cross validation ini masih dibawah nilai rata-
rata akurasi yang didapat dengan pengujian 5-fold cross validation. Jadi,
pengujian yang optimal terjadi ketika menggunakan 5-fold cross validation.
7.2 Saran
Saran yang dapat diberikan dari penelitian untuk penelitian selanjutnya
adalah :
1. Untuk penelitian lebih lanjut dapat mengkombinasikan dengan metode yang
berbeda.
2. Untuk penelitian lebih lanjut sebaiknya menambahkan parameter maupun
jumlah data agar hasil klasifikasi lebih optimal.
44
DAFTAR PUSTAKA
Adeyemo, & Adeyeye. (2015). Comparative Study of ID3/C4.5 Desicion Tree and
Multiplayer Peceptron Algorithms for the Prediction of Typhoid Fever.
African Journal of Computing & ICT : IEEE.
Andriani, A. (2013). Sistem Prediksi Penyakit Diabetes Berbasi Decision Tree. Jurnal
Bianglala Informatika.
Annisa, D. C. (2016). Sistem Pakar Diagnosa Awal Penyakit DBD, Malaria dan Tifoid
Menggunakan Metode Fuzzy K-Nearest Neighbor (FKNN). Skripsi.
Astuti, O. (2013). Demam Tifoid. Fakultas Kedokteran Universitas Muhammadiyah
Surakarta.
Bertalya. (2009). Konsep Data Mining : Klasifikasi Pohon Keputusan. Universitas
Gunadarma.
Bhavani, M., & Kumar, S. V. (2015). A Data Mining Approach for Preccise Diagnosis
of Dengue Fever. International Journal of Latest Trends in Engineering and
Technology.
Depkes. (2015, Januari 8). Demam Berdarah Biasanya Mulai Meningkat di Januari.
Diambil kembali dari depkes.go.id:
http://www.depkes.go.id/article/view/15011700003/demam-berdarah-
biasanya-mulai-meningkat-di-januari.html
Gorunescu, F. (2011). Data MIning - Concepts, Models and Technique. Berlin:
Springer - Verlag Berlin Heidelberg.
Harahap, N. (2011). Karakteristik Penderita Demam Typoid Rawat Inap . RSUD Deli
Serdang Lubuk Pakam.
Hartanto, D., & Hansun, S. (2014). Implementasi Data Mining dengan Algoritma
C4.5 untuk Memprediksi Tingkat Kelulusan Mahasiswa. ISSN 2085-4552.
Indonesia, D. K. (2015, Januari 8). Demam Berdarah Biasanya Mulai Meningkat di
Januari. Diambil kembali dari depkes.go.id:
http://www.depkes.go.id/article/view/15011700003/demam-berdarah-
biasanya-mulai-meningkat-di-januari.html
Judarwanto, W. (2009, Februari 19). Demam Yang Dapat Mengancam Jiwa.
Diambil kembali dari infodemam.com:
https://infodemam.com/2009/02/19/demam-yang-dapat-mengancam-
jiwa/
Prabowo Pudjo Widodo, R. T. (2013). Penerapan Data Mining Dengan Matlab.
Bandung: Penerbit Rekayasa Sains.
Purwoko, S. (2005). Pertolongan Pertama Untuk Anak. Jakarta: PT Gramedia
Pustaka Utama.
45
Shaukat, K., Masood, N., Mehreen, S., & Azmeen, U. (2015). Dengue Fever
Prediction : A Data Mining Problem. Data Mining in Genomics &
Proteomics.
WHO. (1998). Demam Berdarah Dengue, Diagnosis, Pengobatan, Pencegahan dan
Pengendalian. Jakarta: EGC.
Widodo, J. (2006). Demam Tifoid, Buku Ajar Ilmu Penyakit Dalam. Jakarta: Pusat
Penerbitan Departemen Ilmu Penyakit Dalam FKUI.
Wihardi, Y. (2013, April 2). K-Fold Cross Validation. Diambil kembali dari
http://blog.yayaw.web.id/riset/k-folds-cross-validation
Xindong, W. (2009). The Top Ten Algorithm in Data Mining. Minnesota : Taylor &
Francis Group.
Yahya, R. C. (2008, Mei 10). jevuska.com. Diambil kembali dari JEVUSKA:
https://www.jevuska.com/2008/05/10/demam-tifoid-typhoid-fever/
46