Anda di halaman 1dari 11

Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887

FASTIKOM UNSIQ Wonosobo, 18 Juni 2013



1

ALGORITMA C4.5 BERBASIS ADABOOST UNTUK
PREDIKSI PENYAKIT JANTUNG KORONER

Adi Suwondo
1)
Dian Asmarajati
2)
Heri Surahman
3)
ProgramStudi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer
Universitas Sains Al-Quran J awa Tengah di Wonosobo
1,2,3)
J l. Raya Kalibeber Km.03 Mojotengah, Wonosobo
Telepon (0286) 3326102

E-mail: adi_teknik@yahoo.com
1)
E-mail: dianaj@fastikom-unsiq.ac.id
2)
E-mail: mandiriwsb@yahoo.com
3)

ABSTRACT
The pattern of symptoms of coronary heart disease (CHD) are so numerous and varied, so
that predition of the disease is still less accrurate. Many methods used in this case, one of them
data mining. Data mining is a method of extracting or mining knowledge from large amounts
of data. Techniques use in data mining is based AdaBoost algorithm C4.5. Adaboost based C4.5
algorithm will be used to classify the pattern of symptoms of coronary haerat disease with the
addition of aboosting method to obtain higher accuracy value. C4.5 uses anormalization to get
te information (entropy difference) and the results of the election is used to separate the
attributes of the data. Attributes that have the highest normalized information is one that is used
to make decisions. While AdaBoost is a boosting algorithm that is used to bulid the strength of
the classification as a linier combination.
Therefore in this study will try to predict coronary heart disease (CHD) with 195 general
chek-up of data taken from the Avisena Wonosobo laboratory database. The framework used in
this study is Rapid Miner

Keywords : Coronary Heart Disease (CHD), Datamining, C4.5, AdaBoost, Rapid Miner

PENDAHULUAN
Faktor risiko penyakit kardiovaskular sekarang sudah signifikan dalam semua populasi [2]. Di Indonesia telah
terjadi pergeseran kejadian penyakit jantung dan pembuluh darah dari urutan ke-10 pada tahun 1980 menjadi urutan ke-
13 pada tahun 1986 [1]. Sedangkan sebagai penyebab kematian tetap menduduki peringkat ke-3.
Pada penelitian ini mengambil data pasien general chek up dari laboratorium Avisena dari tahun 2010 hingga
2011, teknik yang digunakan adalah decision tree dengan menambahkan metode boosting didalamnya yakni adaboost
[6]. Adaboost digunakan dengan alasan metode ini dapat mingkatkan ketelitian dalam proses klasifikasi dan prediksi
dengan cara membangkitkan kombinasi dari suatu model, dengan memilih model yang memiliki nilai bobot paling
besar.
Berdasarkan latar belakang yang telah diuraikan di atas, dapat dirumuskan bahwa Prediksi penyakit jantung
koroner dengan algoritma C4.5 belum menunjukkan nilai akurasi tinggi. Sedangkan pertanyaan penelitian (question
research) pada penelitian ini adalah Bagaimana penerapan Adaboost pada algoritma C4.5 dapat meningkatkan akurasi
pada prediksi penyakit jantung koroner?. Tujuan penelitian ini adalah untuk menerapkan AdaBoost pada Algoritma
C4.5 untuk meningkatkan akurasi prediksi penyakit jantung koroner Manfaat dari penelitian ini adalah manfaat praktis
dari penelitian ini adalah staff medis dapat menggunakan model yang telah dikembangkan untuk memprediksi penyakit
jantung koroner pada pasien, serta manfaat teoritis hasil penelitian ini adalah penerapan Adaboost pada algoritma C4.5
dalam pemodelan yang berkaitan dengan klasifikasi faktor risiko penyakit jantung koroner, dan manfaat kebijakan
penelitian ini diharapkan dapat digunakan pada lembaga laboratorium Avisena Wonosobo. Kontribusi yang diharapkan
dapat diberikan dari penelitian ini adalah dengan penerapan Adaboost pada algoritma C4.5 akan meningkatkan prediksi
penyakit jantung koroner berdasarkan faktor risiko dengan lebih akurat.

LANDASAN TEORI
1. Data Mining
Secara sederhana, data mining merupakan penggalian atau "pertambangan" pengetahuan dari sejumlah besar
data [7]. Data mining merupakan bagian dari proses Knowledge Discovery from Data (KDD).
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

2

Penemuan pengetahuan sebagai suatu proses memiliki urutan sebagai berikut [7]:
1. Data Cleaning (untuk menghilangkan noise dan data yang tidak konsisten)
2. Data Integration (di mana beberapa sumber data dapat dikombinasikan)
3. Data Selection (di mana data yang relevan dengan penelitian yang akan diambil)
4. Data transformation (dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk
pertambangan dengan melakukan operasi ringkasan atau agregas)
5. Data mining (proses esensial dimana metode cerdas yang diterapkan dalam rangka untuk mengekstrak pola
data)
6. Pattern Evaluation (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan
7. Knowledge Presentation (di mana visualisasi dan teknik representasi pengetahuan digunakan untuk
menyajikan pengetahuan kepada pengguna)

2. Algoritma C4.5
Secara umum, decision tree adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari
serangkaian keputusan yang mengarah ke solusi. Tiap simpul dalam menyatakan keputusan dan daun menyatakan
solusi. Adapun pemodelan pohon yang biasa dipakai dalam pohon keputusan adalah rooted tree (pohon berakar)
Pohon berakar adalah pohon yang satu buah simpulnya diperlakukan sebagai akar dan sisi-sisinya diberi arah
sehingga menjadi graf berarah.
Pada metode decision tree langkah awalnya ialah mencari node yang akan digunakan sebagai akar pohon [7].
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk
menghitung gain digunakan rumus seperti tertera dalam persamaan 1.
0oin(S,A) =Entropy(S)
|S

|
S
n
-1
Entropy(Si) (1)
Dengan :
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sedangkan perhitungan nilai entropy dapat dilihat pada persamaan 2 berikut [7]:

Entropy(S) = pi log
2
Si
n
=1
(2)
Dengan :
S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S

3. AdaBoost pada C4.5
AdaBoost adalah algoritma untuk membangun kekuatan klasifikasi sebagai kombinasi linear, Adaboost
merupakan singkatan dari Adaptive Boosting yang dikembangkan oleh Freund dan Schapire [12].
Bentuk umum persamaan Adaboost menggunakan rumus
crror(Hi) =w] x crr(X])
d
]
(3)

4. CRISP-DM (Cross-Industry Standard Process for Data Mining)
Dikembangkan pada tahun 1996 oleh analyst yang mewakili DaimlerChrysler, SPSS, dan NCR [15]. CRISP
menyediakan standar proses baku untuk data mining yang dapat diterapkan kedalam strategi pemecahan masalah
umum pada bisnis atau pada unit penelitian. Standar baku ini merupakan standar nonproprietary, bebas digunakan
siapapun tanpa harus membayar lisensi.
Menurut CRISP-DM, sebuah Project Data Mining memiliki Lifecycle yang terdiri dari enam fase, dari
keenam fase tersebut adalah:
1. Business / research understanding
2. Data Understanding (Pemahaman terhadap data)
3. Data preparation (persiapan data)
4. Modeling (pemodelan)
5. Evaluation (evaluasi)
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

3

6. Deployment (penyebaran)

Dalam mengevaluasi data mining menggunakan Cross Validation untuk membuat validasi dari jumlah data
untuk data pelatihan dan pengujian yang terbatas [15]. ROC Curve dan Confusion Matrix, ROC Curve dikenal
sebagai teknik representasi dalam bentuk grafis dalam mengevaluasi data mining [16].
Confusion Matrix [15] berisi informasi tentang sistem klasifikasi aktualisasi dan prediksi. Kinerja sistem
biasanya dievaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan confusion matrix untuk
pengklasifikasi dua kelas true positif dan true negatif.

5. Jantung Koroner dan Faktor Risiko
Penyakit jantung koroner (PJK) mempunyai jangka kematian dan kesakitan yang tinggi. Walaupun penyebab
dasar terjadinya penyakit jantung koroner belum diketahui dengan pasti, para ahli telah mengidentifikasi sejumlah
faktor yang berhubungan dengan terjadinya penyakit jantung yang disebut sebagai faktor risiko. Faktor risiko
penyakit jantung koroner ada yang membaginya dalam faktor risiko primer (independen) dan sekunder, [9] yaitu:
faktor risiko primer; faktor ini dapat menyebabkan gangguan arteri berupa aterosklerosis tanpa harus dibantu oleh
faktor lain (independen), termasuk faktor risiko primer, yaitu hiperlidemi, merokok, dan hipertensi. Dan faktor
risiko sekunder; Faktor ini baru dapat menimbulkan kelainan arteri bila ditemukan faktor lain secara bersamaan,
termasuk faktor risiko sekunder, yaitu PJK melitus (DM), obesitas, stres, kurang olah raga, alkohol, dan riwayat
keluarga. Yang termasuk risiko utama adalah [1]:
a. Hipertensi
b. Hiperkolesterolemi
c. Kolesterol total
Kadar Kolesterol
Normal Agak tinggi
(Pertengahan)
Tinggi
<200 mg/dl 200 239 mg/dl >240 mg/dl
d. LDL kolesterol
Kadar LDL
Normal Agak tinggi (Pertengahan) Tinggi
<130 mg/dl 130 159 mg/dl >160 mg/dl

5. HDL Kolesterol
Kadar HDL
Normal Agak tinggi
(Pertengahan)
Tinggi
>45 mg/dl 35 - 45 mg/dl >35 mg/dl
6. Kadar trigliserida
Kadar Trigliserida
Normal Agak tinggi
(Pertengahan)
Tinggi
>150 mg/dl 150 - 250 mg/dl >500 mg/dl

METODE PENELITIAN
Dalam penelitian ini digunakan data catatan rekam medis pada laboratorium Avisena baik yang diduga penderita
penyakit jantung koroner maupun orang sehat yang melakukan General Check-up. Dalam penelitian ini menggunakan
model Cross-Standard Industry for Data Mining (CRISP-DM) [10].
Klasifikasi Adult Treatment Panel-III, 2001 [11] mengenai kadar kolesterol total, kadar LDL, kadar trigliserida,
kadar HDL (dalam mg/dL) adalah sebagai berikut :

Tabel 1 Klasifikasi kadar kolesterol total
Nilai Atribut Interval
Desirable <200
Borderline 200 239
Tinggi 240





Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

4

Tabel 2 Klasifikasi kadar LDL (Low Density Lipoprotein)
Nilai Atribut Interval
Optimal <100
Mendekati/ di atas optimal 100 129
Borderline tinggi 130 159
Tinggi 160 189
Sangat tinggi 190

Tabel 3 Klasifikasi kadar Trigliserida
Nilai Atribut Interval
Normal <100
Sedang 100 149
Borderline Tinggi 150 199
Tinggi 200 499
Sangat tinggi 500

Tabel 4 Klasifikasi kadar HDL (High Density Lipoprotein)
Nilai Atribut Interval
Rendah <40
Tinggi 60

Kemudian dilakukan tahap preparation data, Kemudian data yang dihasilkan setelah proses persiapan data adalah
data training yang sudah terklasifikasi seperti pada tabel Tabel 5 berikut:
Tabel 5 Data Training hasil dari Proses Preparation
No Trigliserida HDL LDL Kolesterol Class
1 Normal Optimal Rendah Desirable PJK
2 Tinggi Tinggi Rendah Tinggi PJK
3 Borderline Hight Sangat Tinggi Tinggi Tinggi PJK
4 Normal di atas Optimal Rendah Desirable PJK
5 Normal di atas Optimal Tinggi Desirable PJK
6 Normal Borderline Hight Tinggi Tinggi PJK
7 Borderline Hight Borderline Hight Rendah Borderline TIDAK
8 Tinggi Borderline Hight Rendah Borderline TIDAK
9 Borderline Hight Borderline Hight Rendah Tinggi PJK
10 Normal Optimal Tinggi Desirable TIDAK
11 Normal Borderline Hight Rendah Desirable TIDAK
12 Borderline Hight Tinggi Rendah Borderline TIDAK
13 Borderline Hight Sangat Tinggi Rendah Tinggi PJK
14 Normal di atas Optimal Tinggi Borderline TIDAK
15 Borderline Hight di atas Optimal Rendah Desirable TIDAK
16 Borderline Hight Optimal Rendah Desirable TIDAK
17 Borderline Hight Optimal Tinggi Desirable TIDAK
18 Normal Optimal Rendah Borderline TIDAK
19 Normal Borderline Hight Tinggi Borderline TIDAK
20 Borderline Hight Borderline Hight Tinggi Borderline TIDAK
21 Tinggi di atas Optimal Tinggi Borderline TIDAK
22 Tinggi Borderline Hight Tinggi Borderline TIDAK
23 Normal di atas Optimal Rendah Borderline TIDAK
24 Tinggi Tinggi Tinggi Borderline TIDAK
25 Tinggi di atas Optimal Rendah Borderline TIDAK
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

5

26 Borderline Hight di atas Optimal Tinggi Borderline TIDAK
27 Borderline Hight Optimal Rendah Borderline TIDAK
28 Normal Optimal Tinggi Borderline TIDAK
29 Normal Optimal Rendah Tinggi TIDAK
30 Normal di atas Optimal Rendah Tinggi TIDAK
31 Borderline Hight Optimal Rendah Tinggi PJK

1. Tahap Modeling
a) Algoritma C4.5
Tahap modeling ini merupakan langkah algoritma untuk membentuk pohon keputusan dengan data pada
tabel 5 di atas yakni sebagai berikut:
Langkah 1: Menghitung jumlah class, jumlah class untuk PJK dan class untuk TIDAK. Menghitung nilai
entropy dari semua class dan menghitung class yang dibagi berdasarkan atribut Trigliserida, LDL, HDL dan
Kolesterol. Kemudian dilakukan perhitungan Gain untuk tiap atribut, karna nilai gain tertinggilah yang akan
dijadikan sebagai akar. Hasil perhitungan yang pertama ditunjukkan oleh tabel 6 berikut:
Tabel 6 Perhitungan Node 1
Node
Jumlah
Kasus
PJK TIDAK Entropy Gain
1 Total 31 9 22 0.869138
Trigliserida 0.01443
Normal 13 4 9 0.890492
Borderline Hight 12 4 8 0.918296
Tinggi 6 1 5 0.650022
Sangat tinggi 0 0 0 0.000000
LDL 0.12718
Optimal 9 2 7 0.764205
di atas optimal 9 2 7 0.764205
Borderline Hight 8 2 6 0.811278
Tinggi 3 1 2 0.918296
Sangat tinggi 2 2 0 0.000000

HDL 0.00911
Rendah 18 6 12 0.918296
Tinggi 13 3 10 0.779350

Kolesterol 0.41347
Desirable 8 3 5 0.954434
Borderline 15 0 15 0.000000
Tinggi 8 6 2 0.811278
Kolom entropy pada baris Total dihitung dengan persamaan 2 sebagai berikut:
Entropy(Iotol) =_
22
31
x log
2
[
22
31
] +_
9
31
x log
2
[
9
31
]
Entropy(Iotol) =0.869138

Karena untuk menghitung sebuah gain atribut membutuhkan entropy dari setiap kasus pada atribut tersebut
maka entropy harus diketahui terlebih dahulu dengan persamaan 2.
Langkah 2: Kemudian nilai Gain pada baris Trigliserida dihitung dengan menggunakan persamaan 1 sebagai
berikut:
0oin(Iotol,IriglcscriJo) =0.869138 _[
13
31
x0.890492 +[
12
31
x0.918296 +[
6
31
x0.650022 +
[
0
31
x0]
0oin(Iotol,IriglcscriJo) =0.01443


Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

6

b) Algoritma C4.5 dan AdaBoost
Langkah kerja AdaBoost dengan menggunakan 31 data yang terbagi dalam 4 atribut yakni Trigliserida,
HDL, LDL dan Kolesterol. Pada tabel 5 di atas menunjukkan 9 data dengan class PJK dan 22 data dengan
class TIDAK. Dilakukan pencarian bobot untuk masing-masing data menggunakan algoritma AdaBoost
sehingga didapatkan tabel bobot seperti pada tabel 7 di bawah:
Tabel 7 Pembobotan data oleh AdaBoost
No Bobot Awal
Bobot Setelah
Iterasi I Iterasi II Iterasi III Iterasi VI
1 0.0556 0.0086 0.0116 0.0459 -0.1137
2 0.0556 0.0086 0.0116 0.0459 -0.1137
3 0.0556 0.0086 0.0116 0.0459 -0.1137
4 0.0556 0.0086 0.0116 0.0459 -0.1137
5 0.0556 0.0086 0.0116 0.0459 -0.1137
6 0.0556 0.0086 0.0116 0.0459 -0.1137
7 0.0556 0.0086 0.0116 0.0459 -0.1137
8 0.0556 0.0086 0.0116 0.0459 -0.1137
9 0.0556 0.0086 0.0116 0.0459 -0.1137
10 0.0208 0.0025 0.0042 0.0115 -0.0284
11 0.0208 0.0025 0.0042 0.0115 -0.0284
12 0.0208 0.0025 0.0042 0.0070 -0.0173
13 0.0208 0.0025 0.0042 0.0070 -0.0173
14 0.0208 0.0025 0.0042 0.0042 0.0042
15 0.0208 0.0025 0.0042 0.0070 -0.0173
16 0.0208 0.0025 0.0042 0.0070 -0.0070
17 0.0208 0.0025 0.0042 0.0070 -0.0173
18 0.0208 0.0025 0.0042 0.0070 -0.0173
19 0.0208 0.0025 0.0042 0.0070 -0.0173
20 0.0208 0.0025 0.0042 0.0115 -0.0284
21 0.0208 0.0025 0.0042 0.0115 -0.0284
22 0.0208 0.0025 0.0042 0.0115 -0.0284
23 0.0208 0.0025 0.0042 0.0042 -0.0173
24 0.0208 0.0025 0.0042 0.0042 -0.0105
25 0.0208 0.0025 0.0042 0.0070 -0.0105
26 0.0208 0.0025 0.0042 0.0070 -0.0173
27 0.0208 0.0025 0.0042 0.0115 -0.0070
28 0.0208 0.0025 0.0042 0.0042 -0.0173
29 0.0208 0.0025 0.0042 0.0042 -0.0105
30 0.0208 0.0025 0.0042 0.0070 -0.0105
31 0.0208 0.0025 0.0042 0.0189 -0.0105
c) Evaluasi
Evaluasi menggunakan Cross Validation, ROC Curve dan Confusin Matrix akan dijelaskan selanjutnya.

HASIL PENELITIAN DAN PEMBAHASAN
1. Pengukuran Penelitian
Konfigurasi algoritma C4.5 dan Adaboost yang digunakan adalah:
Tabel 8 Konfigurasi C4.5 dan Adaboost
C4.5 C4.5 +Adaboost
Criteria Information Gain Information Gain
Minimal Size for Split 2 2
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

7

Minimal Leaf Size 1 1
Minimal Gain 0.1 0.1
Maximal Dept 20 20
Confidence 0.25 0.25
Number of Prepruning 3 3
Iterations X 10

2. Hasil Penelitian
Hasil pengujian akan membentuk pohon keputusan sesuai dengan pengujian yang sudah dilakukan dan
menunjukkan akurasi prediksi penyakit jantung koroner antara algoritma C4.5 dan AdaBoost yang dimodelkan
dengan pohon keputusan.
Algoritma C4.5 dan AdaBoost hasil dari pengujian yang menggunakan tool rapidminer adalah seperti pada gambar
1, 2, 3 dan 4:

Gambar 1 Algoritma C4.5 yang terbentuk dari pengujian menggunakan tool RapidMiner

Gambar 2 Algoritma C4.5 +AdaBoost yang terbentuk dari pembobotan 2.674.
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

8


Gambar 3 Algoritma C4.5 +AdaBoost yang terbentuk dari pembobotan 2.909

Gambar 4 Algoritma C4.5 +AdaBoost yang terbentuk dari pembobotan 0.855

3. Pengujian Model
Nilai akurasi yang ditunjukkan oleh C4.5

Gambar 5 nilai akurasi yang ditunjukkan oleh C4.5 adalah 91.38%

Perubahan akurasinya dapat dilihat setelah ditambahkan metode AdaBoost

Gambar 6 nilai akurasi yang ditunjukkan setelah menggunakan metode boosting adalah 94.83%

4. Kurva ROC (Receiver Operating Characteristic)
Gambar kurva di bawah menunjukkan grafik ROC, dimana nilai AUC yang ditunjukkan dari keduanya memiliki
nilai akurasi yang cukup baik yakni di atas 0.500. Tabel 9 di bawah menunjukkan status data yang dibaca oleh
grafik ROC




Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

9

Tabel 9 Status Data yang dibaca oleh ROC Curve
No C4.5 C4.5 dan Adaboost
1. PJK PJK
2. PJK PJK
3. PJK PJK
4. PJK PJK
5. PJK PJK
6. PJK PJK
7. PJK PJK
8. TIDAK PJK
9. TIDAK PJK
10. PJK PJK
11. TIDAK TIDAK
12. PJK TIDAK
13. TIDAK TIDAK
14. TIDAK TIDAK
15. TIDAK TIDAK
16. TIDAK TIDAK
17. TIDAK TIDAK
18. TIDAK TIDAK
19. TIDAK TIDAK
20. TIDAK TIDAK
21. TIDAK TIDAK
22. TIDAK TIDAK
23. TIDAK TIDAK
24. TIDAK TIDAK
25. TIDAK TIDAK
26. TIDAK TIDAK
27. TIDAK TIDAK
28. TIDAK TIDAK
29. TIDAK TIDAK
30. TIDAK TIDAK
31. TIDAK TIDAK

Gambar 7 Kurva akurasi C4.5 dan AdaBoost
Dari pengujian yang dilakukan di dapatkan hasil seperti pada tabel di bawah ini:

Tabel 10 Hasil uji C4.5 dengan metode Boosting
C4.5 AdaBoost
Acuracy 91.38% 94.83%
Precision 97.92% 94.34%
Sensitivity 85.71% 62.58%
Specificity 92.16% 100%
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

10

Recall 92.16% 100%
AUC 8.000 1.000

PENUTUP
1. Kesimpulan
Berdasarkan hasil penelitian, analisis dan pengembangan model dalam memprediksi penyakit jantung
koroner berdasarkan klasifikasi faktor risiko menggunakan algoritma C4.5 menunjukkan nilai 91.38%, kemudian
ditamkahkan metode boosting yakni AdaBoost sehingga nilai akurasi menunjukkan kenaikan sebesar 94.84%.
Maka dapat diambil kesimpulan bahwa penambahan metode AdaBoost dalam memprediksi penyakit
jantung koroner terbukti memiliki nilai akurasi cukup tinggi yakni 94.84%. Jadi nyata bahwa penerapan AdaBoost
pada Algoritma C4.5 dapat meningkatkan akurasi prediksi penyakit jantung koroner
2. Saran
Dari hasil pembahasan penelitian ini maka dapat diberikan saran-saran sebagai berikut:
1. Implementasi Algoritma C4.5 berbasis AdaBoost pada data yang memiliki atribut prediksi lebih banyak.
2. Melakukan uji komparasi baik pada algoritmanya maupun metode representasinya yang mungkin dapat
diterapkan dalam sistem, sehingga dapat meningkatkan nilai akuarsi yang lebih tinggi di masa mendatang

REFERENSI
[1] T. B. Anwar, "Faktor Risiko Penyakit Jantung Koroner," repository.usu.ac.id, p. 15, 2004.
[2] (2002) www.who.int. [Online]. http://www.who.int/cardiovascular_diseases/resources/atlas/en/
[3] Minas A. Karaolis, Joseph A. Moutiris, Demetra Hadjipanayi, Constantinos S. Pattichis, "Assessment of the risk
factors of coronary heart events based on data mining with decision trees," IEEE Transactions on Information
Technology in Biomedicine, v.14 n.3, p.559-566, vol. 14, no. 3, pp. 559-566, May 2010.
[4] J yoti, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International
Journal of Computer Applications (0975 8887), vol. 17, pp. 1-3, Mar. 2011.
[5] M. Kumari and S. Godara, "Comparative Study of Data Mining Classification Methods in Cardiovascular Disease
Prediction," International Journal of Computer Sci ence and Technology, vol. 2, no. 2, pp. 304-308, Jun. 2011.
[6] C. &. Hall, The Top Ten Algorithms in Data Mining. Boca Raton, London: CRC Press, 2009.
[7] Han, J., & Kamber, M., Data Mining Concept and Tehniques., M. Kauffman., Ed. San Francisco, 2006.
[8] D. T. Larose, Discovering Knowledge in Data An Introduction to Data Mining. Hoboken, New Jersey: A JOHN
WILEY & SONS, INC., 2005.
[9] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons. Inc, 2005.
[10] Quinlan, JR, C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[11] Kusrini, Emha Taufiq Lutfi, Algoritma data Mining. Yogyakarta: Andi Offset, 2009.
[12] Tom Mitchell, Machine Learning. Boston: McGraw Hill, 1997.
[13] S. Craw, Case Based Reasoning. Berlin, Heidelberg: Springer-Verlag, 2005.
[14] Y. Freund and R. E. Schapire, "A Short Introduction to Boosting," Journal of Japanese Society for Artificial
Intelligence, vol. 5, no. 14, pp. 771-780, Sep. 1999.
[15] P. Chapman, CRISP-DM 1.0: step-by-step data mining guide. SPSS, 2000.
[16] I. H. Witten, E. Frank, and M. A. Hall, Data Mining (Practical Machine Learning Tools and Techniques), 3rd ed.
Burlington, United States of Amerika: Morgan Kaufman, 2011.
[17] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, 2nd ed. San Francisco,
United States of Amerika: Elsevier Inc., 2005.
[18] R. Kohavi and F. Provost, Applications of data mining to electronic commerce. Kluwer Academic Publishers,
2001.
[19] M. Clinic. (2010, Aug.) http://www.clinic-medicare.com. [Online]. http://www.clinic-
medicare.com/story_detail.php?id=4
[20] Boon NA, Colledge NR, Walker BR and Hunter JAA, avidson's Principles & Practice of Medicine, 20th Edition.
Churchill Livingstone, 2006.
[21] Kasiman, Sutomo, "Gangguan Metabolisme Lemak dan Penyakit Jantung Koroner," in Pidato Pengukuhan
Jabatan Guru Besar Tetap dalam Ilmu Penyakit Dalam pada Universitas Sumatra Utara, Medan, 1997, p. 6.
[22] A. Tjokroprawiro, "Diabetes Melitus : capita Selecta 2001-B (Clinical Experiences and Recent Advances).," in ,
Yogyakarta., 2001.
[23] Mohammed M. Mazid, A. B. M. Shawkat Ali, Kevin S. Tickle , "Improved C4.5 algorithm for rule based
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 ISSN: 2338-3887
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013

11

classification," Proceedings of the 9th WSEAS international conference on Artificial intelligence, knowledge
engineering and data bases, 2010.
[24] Ford ES, Capewell S., "Coronary heart disease mortality among young adults in the US from 1980 through 2002:
concealed levelling of mortality rates.," in , 2007.
[25] T. Yang, "Computational Verb Decision Trees," International Journal of Computational Cognition, pp. 34-46,
2006.
[26] J. Soni, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International
Journal of Computer Applications (0975 8887), pp. 1-3, 2011.
[27] Khusrini and L. E. T., Algoritma Data Mining. Yogyakarta, Indonesia: Andi Publishing, 2009.
[28] A. M. Morrison, Receiver Operating Characteristic (ROC) Curve. Boston, United States of Amerika:
Massachusetts Water Resources Authority, 2005.

Anda mungkin juga menyukai