Data Mining WEKA

PERBANDINGAN HASIL PREDIKSI THORACIC SURGERY MENGGUNAKAN
DECISION TREES DAN DECISION RULES CLASSIFIER
Afifah Qowwamina Qisty, Annisa Nur Fadhilah, Cynthia Octaria, Fitria Ramadhani,
Qory Aprilarita
Jurusan Ilmu Komputer FMIPA
Universitas Lampung
Abstrak. Tujuan penelitian ini adalah membandingkan tingkat akurasi prediksi harapan
hidup pasien kanker paru-paru yang menjalani thoracic surgery dengan menggunakan
decision trees dan decision rules classifier. Terdapat dua algoritma decision trees (J48
dan Random Forest) dan satu algoritma decision rules (ZeroR) yang digunakan untuk
memprediksi dataset tersebut. Dalam penelitian ini, digunakan metode holdout dengan
perbandingan data training sebesar 70% dan data testing sebesar 30%. Hasil dari
penelitian menunjukkan bahwa algoritma ZeroR menghasilkan performa yang lebih
unggul dari algoritma J48 dan Random Forest, dengan tingkat persentase ketepatan
sebesar 84.3972 % untuk ZeroR, 83.6879 % untuk J48, dan 80,1418% untuk hasil
pengujian dengan algoritma Random Forest.
Keyword: Classification, Data Mining, Decision Rules, Decision Trees, Thoracic
Surgery
I. INTRODUCTION secara konvensional sudah

tidak efektif lagi, karenanya
I. Data adalah sesuatu yang
dibutuhkan metode analisis
belum mempunyai arti bagi
data yang efisien untuk
penerimanya dan masih
jumlah data yang besar
memerlukan adanya suatu
sekalipun. Dalam hal ini,
pengolahan. Data yang
data mining berperan
dikumpulkan diolah dengan
penting dalam menganalisa
menganalisa data tersebut
data karena data mining
sehingga dihasilkan
tidak hanya menhasilkan
informasi penting dari data
suatu informasi, tetapi juga
mentah yang dikumpulkan.
dapat menghemat sumber
Sering waktu, ukuran data
daya manusia serta
yang terkumpul dari
mengurangi biaya
beberapa sektor meningkat
operasional [1].
dengan jumlah yang sangat
besar, sehingga analisis data
II. Data mining adalah teknik pengetahuan menggunakan
ekstraksi informasi dari decision rules atau trees [3].
database besar dan tidak Oleh karena itu, dalam paper
terorganisir. Data mining ini digunakan dua classifier
melakukan ekstraksi dan dari metode trees yaitu
menghasilkan informasi Random Forest dan J48, dan
prediksi dari database yang satu classifier dari metode
besar. Dalam hal ini, decision rules yaitu ZeroR.
informasi yang dihasilkan Random Forest dipilih
berupa prediksi karena memiliki hasil
kelangsungan hidup pasien akurasi paling tinggi yaitu
setelah operasi toraks 100% untuk pengujian
dimana terdapat 2 kelas, menggunakan actual data,
selamat atau meninggal [2]. sedangkan J48 dipilih karena
Klasifikasi adalah salah satu nilai akurasinya juga cukup
task yang paling sering tinggi yaitu 90,72% [3]. Dari
dalam machine learning penelitian sebelumnya yang
dimana diberikan 2 atau menggunakan metode
lebih set contoh data yang decision rules, ZeroR
berbeda, pelajar perlu merupakan classifier dengan
membangun sebuah nilai akurasi tertinggi dengan
classifier untuk nilai 85.1064% [2].
membedakan antar kelas. V.
Klasifikasi memungkinkan VI. Tujuan dari paper ini adalah
kita untuk mengelompokkan untuk membandingkan hasil
data dalam database yang prediksi kelangsungan hidup
besar ke dalam set kelas pasien setelah dilakukan
yang sudah didefinisikan [2]. operasi dari beberapa teknik
III. dengan yang digunakan.
IV. Operasi toraks adalah salah Teknik/model yang
satu operasi yang paling digunakan dalam paper ini
sering dilakukan pada pasien adalah model trees classifier,
kanker paru-paru. Tingkat yaitu Random Forest dan
kesuksesan setelah operasi J48 serta rules classifier,
menjadi hal paling penting yaitu ZeroR. Dalam
bagi dokter untuk pengujian hasil prediksi,
memutuskan pasien mana penulis menggunakan
yang harus dilakukan operasi metode holdout dengan
[2]. Untuk menghilangkan perbandingan 70:30 sesuai
keraguan, penting untuk dengan pengujian di
mengusulkan sebuah metode penelitian sebelumnya [3].
untuk mengekstrak VII.
II. LITERATURE REVIEW mengindikasikan bahwa dari
VIII. 5 algoritma yang digunakan,
IX. Telah banyak penelitian yaitu Decision Tree, Logistic
yang dilakukan terkait Regression, Multilayer
dengan dataset Thoracic Perceptron, Random Forest,
Surgery, diantaranya adalah dan SVM, algoritma Random
penelitian yang dilakukan Forest memiliki performa
oleh H. Md. Ahasan Uddin terbaik jika dujikan dengan
dan A. Md. Nure mengenai metode holdout maupun
pengujian hasil akurasi yang metode ten cross validation
dilakukan dengan untuk data oversample [3].
menggunakan software Sementara, penelitian Koklu
WEKA toolkit versi 3.6.11. Murat et al. terfokus pada
Percobaan dilakukan untuk penggunaan teknik decision
mencari hasil yang paling rules seperti Conjunctive
akurat dari beberapa metode Rule, Decision Table,
yang digunakan, seperti DTNB, JRip, NNge, OneR,
Boosted Simple Logistic PART, Ridor dan ZeroR
Regression, Nave Bayes, untuk menentukan algoritma
Simple Logistic, J48, terbaik yang dapat
Multilayer Perceptron, digunakan untuk
Boosted Nave Bayes, memprediksi keakuratan
Boosted Multilayer prediksi dari dataset. Secara
Perceptron, dan Boosted keseluruhan, algoritma
J48. Berdasarkan hasil ZeroR memperlihatkan hasil
percobaan, disimpulkan akurasi prediksi terbaik
bahwa metode Boosted untuk pengujian dengan
Simple Logistic Regression menggunakan teknik
memiliki performa yang decision rules [2].
lebih unggul pada nilai XII.
akurasi, F-measure, dan III. METHODOLOGY
ROC dibandingkan dengan XIII.
metode lain yang dicobakan A. Deskripsi Data
[1]. XIV.
X. XV. Penulis menggunakan
XI. Penelitian lain yang Dataset Thoracic Surgery
membahas tentang Thoracic yang merupakan klasifikasi
Surgery adalah penelitian data yang terkait dengan
yang dilakukan oleh P. harapan hidup pasca-operasi
Janaki Sharan et al., dan pada pasien kanker paru-
Koklu Murat et al. P. Janaki paru. Data dikumpulkan dari
Sharan et al. pasien kanker paru primer
yang menjalani reseksi paru u
besar di Wroclaw Thoracic t
operation Centre, terkait XX. XXI. D XXII. Dia
dengan departemen 1 G gno
Thoracic Surgery dari N sa
Medical University of pen
Wroclaw dan Pusat Penyakit yaki
Paru Lower-Silesian, t
Polandia. Dataset ini berd
merupakan bagian dari asar
Registry Kanker Paru kan
Nasional, yang dikelola kom
Institute of Tuberculosis and bina
Pulmonary Diseases in si
Warsaw, Polandia [1]. dari
Dataset berisi 470 jumlah kod
kasus, setiap kasus berisi 16 e
atribut (variabel independen) ICD
dan 1 atribut berisi variabel -10
Boolean dependen yang (DG
merupakan klasifikasi kelas N3,
atribut dan memiliki dua DG
nilai berikut: Risk (kematian N2,
dalam waktu satu tahun DG
setelah operasi) atau N4,
Survival (berhasil bertahan DG
hidup setelah satu tahun N6,
pasca operasi). Tabel 1 DG
merangkum beberapa N 5,
karakteristik utama dari DG
atribut [3]. N8,
XVI. DG
XVII. XVIII. N XIX. Des N1)
N a krip XXIII.XXIV. P XXV. For
m si 2 R ced
a E Vita
4 l
A Cap
t acit
r y
i (FV
b C)
(dat XXVI.XXVII. XXVIII. V
a 3 PRE5 olu
num me
erik yan
) g
dihe
mbu
skan
seca
ra
paks
a
pad
a
akhi
r
deti
k
pert
ama
pern
apas
an
(FE
V1)
(dat
a
num
eric)
XXIX.XXX. P XXXI. Stat
4 R us
E kine
6 rja
berd
asar
kan
Zub
rod
Scal
e
(PR
Z2,
PRZ XXXII.
XXXIII. XXXIV. N
1, 5 PRE7 yeri
PRZ sebe
0) lum
oper
asi
(T,
F)
XXXV.
XXXVI. XXXVII. H 12,
6 PRE8 emo OC
ptys 13,
is OC
sebe 14)
lum L. LI. P LII. Dia
oper 1 R bete
asi E s
(T, 1 mell
F) 7 itus
XXXVIII.
XXXIX. XL. Dys tipe
7 PRE9 pno 2
ea (T,
sebe F)
lum LIII. LIV. P LV. MI
oper 1 R sam
asi E pai
(T, 1 den
F) 9 gan
XLI. XLII. P XLIII. Bat 6
8 R uk bula
E sebe n
1 lum (T,
0 oper F)
asi LVI. LVII. P LVIII. Pen
(T, 1 R yaki
F) E t
XLIV.XLV. P XLVI. Lem 2 arter
9 R as 5 i
E sebe peri
1 lum fer
1 oper (T,
asi F)
(T, LIX. LX. P LXI. Mer
F) 1 R oko
XLVII.XLVIII. XLIX. Uku E k
1 PRE14 ran 3 (T,
tum 0 F)
or LXII. LXIII. P LXIV. As
(OC 1 R ma
11, E (T,
OC 3 F)
2 sampel baru dari sebuah
LXV. LXVI. A LXVII.Usia vektor input, random forest
1 G (dat menempatkan sampel baru
E a secara menurun pada
num masing-masing trees. Setiap
erik trees memberikan klasifikasi
) dengan bantuan vote untuk
LXVIII.
LXIX. R LXX. Har kelas tersebut. Random
1 i apa forest melakukan klasifikasi
s n berdasarkan vote maksimum
k hidu dari seluruh trees yang
p terdapat dalam forest [3].
setel LXXVI.
ah 1 LXXVII. Setiap trees mengalami
tahu perkembangan sebagai
n berikut:
men 1. Jika jumlah kasus pada training set
jala adalah N, random sampling dari N
ni ini dilakukan dengan penggantian,
oper dari data asli.
asi 2. Jika terdapat variabel input K,
(T sejumlah k << K telah ditentukan,
jika sehingga pada setiap node, variabel
men k yang dipilih secara acak dan
ingg pemecahan (split) terbaik pada k ini
al, F digunakan untuk memecah node.
jika Nilai k tetap konstan selama forest
sela mengalami pertumbuhan.
mat) 3. Setiap trees mengalami
LXXI. perkembangan sebesar mungkin.
LXXII.Dataset berisi 85% pasien Tidak ada pemangkasan trees
yang bertahan hidup dan dilakukan [3].
15% yang memiliki risiko LXXVIII.
meninggal [3]. LXXIX. Keuntungan random
LXXIII. forest sebagai decision trees
B. Teknik Data Mining yaitu:
LXXIV. 1. Prediksi yang lebih baik.
1) Random Forest (RF) 2. Hampir tidak ada parameter tuning
LXXV. Random Forests bekerja yang diperlukan dengan random
dengan mengembangkan forest.
banyak klasifikasi trees. LXXX.
Untuk mengklasifikasikan 2) J48
LXXXI. J48 merupakan dari penelitian terdahulu
implementasi JAVA dari yang menyarankan untuk
algoritma C4.5 yang pada menggunakan metode
awalnya dikembangkan oleh decision rules dan decision
Quinlan pada tahun 1993. trees. Random Forest dan
Dalam metode ini, di setiap J48 merupakan bagian dari
node terdapat atribut data decision trees, sedangkan
yang efektif dalam membagi ZeroR merupakan bagian
sampel ke dalam himpunan dari decision rules.
bagian dalam satu kelas atau LXXXVII.
lainnya yang terpilih. Atribut LXXXVIII. Penelitian ini
yang menyediakan informasi menggunakan metode
normalisasi tertinggi dipilih holdout dengan random
untuk proses prediksi [1]. sampling untuk membagi
LXXXII. data berasio 70:30 dari data
3) 0R (ZeroR) asli. Bagian pertama yaitu 70
LXXXIII. ZeroR adalah metode persen merupakan data yang
klasifikasi yang paling digunakan untuk training
sederhana yang bergantung dan bagian kedua yaitu 30
pada target dan mengabaikan persen digunakan untuk
semua predictor. ZeroR testing.
classifier hanya LXXXIX.
memprediksi kategori IV. RESULT
mayoritas (kelas). Meskipun XC.
tidak ada kekuatan A. Dataset
prediktabilitas di ZeroR, hal XCI.
ini berguna untuk XCII. Penelitian ini menggunakan
menentukan kinerja dasar dataset Thoracic Surgery
sebagai patokan untuk yang berasal dari halaman
metode klasifikasi lainnya UCI Machine Learning
[2]. Dataset. Dari 470 data yang
LXXXIV. terdapat di dalam dataset,
C. Metodologi Penelitian sebanyak 70% dijadikan data
LXXXV. latih (training) dan 30% data
LXXXVI. Penelitian ini dilakukan uji (testing). Pengambilan
secara mendalam sampel data training dan
menggunakan 3 teknik data testing dilakukan secara acak
mining, yaitu Random oleh sistem.
Forest, J48, dan ZeroR. XCIII.
Teknik-teknik yang B. Hasil Pengujian
digunakan pada penelitian XCIV.
ini menggunakan referensi
XCV. Pengujian dilakukan dengan daripada metode decision
mengimplementasikan trees (baik J48 maupun
bahasa pemrograman JAVA Random Forest). Hal
di netbeans yang telah tersebut dapat dibuktikan
diintegrasikan dengan dari nilai correctly classified
WEKA library. Dari instances dengan classifier
pengujian yang telah ZeroR pada dataset Thoraric
dilakukan, diperoleh tingkat Surgery mencapai persentase
akurasi sebagai berikut. tertinggi sebesar 84,3972%,
XCVI. sedangkan correctly
XCIX. D classified instances dengan
XCVII. Decision
ecision classifier J48 dan Random
XCVIII. Trees
Rules Forest hanya menghasilkan
CI. Ra persentase sebesar 83,6879%
C. J4 ndom CIII. Z dan 80,1418% dengan
8 CII. Fo eroR menggunakan metode
rest holdout 70:30.
CVI. 8 CXII.
CIV. 83. CV. 80,
4.3972 CXIII. Reference
6879 % 1418 %
% CXIV.
CVII. CXV. [1] H. Md. Ahasan Uddin
CVIII. Berdasarkan tabel di atas, and A. Md. Nure,
data menunjukkan bahwa Predicting Outcome of
tingkat akurasi lebih baik Thoracic Surgery by Data
dengan menggunakan Mining Techniques,
metode ZeroR. International Journal of
CIX. Advanced Research in
V. CONCLUSION Computer Science and
CX. Software Engineering Vol.5
CXI. Berdasarkan hasil Issue 1, January 2015.
perbandingan antara metode CXVI.
klasifikasi decision trees CXVII. [2] Koklu Murat,
(J48 dan Random Forest) Kahramanli Humar,
dan decision rules (ZeroR) Allahverdi Novruz,
yang digunakan untuk Applications of Rule Based
mengklasifikasi dataset Classification Techniques
Thoraric Surgery, dapat for Thoracic Surgery, Joint
disimpulkan bahwa metode International Conference
decision rules (dalam 2015.
penelitian ini menggunakan CXVIII.
ZeroR) menghasilkan CXIX. [3] P. Janaki Sharan, D. Anil
akurasi yang lebih baik Kumar, Mayakal
Sabhapathy, Prediction of International Daily Journal
the Post-Operative Life 2015, ISSN 2278 5469
Expectancy Using Data EISSN 2278 5450.
Mining Technique, The CXX.
CXXI.

Data Mining WEKA

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Mining WEKA

Diunggah oleh

Hak Cipta:

Format Tersedia

PERBANDINGAN HASIL PREDIKSI THORACIC SURGERY MENGGUNAKAN

DECISION TREES DAN DECISION RULES CLASSIFIER

I. INTRODUCTION secara konvensional sudah

Anda mungkin juga menyukai