1768 3454 1 SM
1768 3454 1 SM
2.1-91
Seminar Nasional Teknologi Informasi dan Multimedia 2017 ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 4 Februari 2017
sesuai untuk proses data mining. Proses coding dalam Secara umum algoritma C4.5 untuk membangun pohon
KDD merupakan proses kreatif dan sangat tergantung keputusan adalah sebagai berikut.
pada jenis atau pola informasi yang akan dicar dalam a. Pilih atrbu sebagai akar.
basis data. (4) Data Mining, data mining adalah proses b. Buat cabang untuk tiap-tiap nilai.
mencari pola atau informasi menarik dalam data terpilih c. Bagi kasus dalam cabang.
dengan menggunakan teknik atau metode tertentu.
d. Ulangi proses untuk setiap cabang sampai
Teknik, metode atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat semua kasus pada cangan memiliki kelas yang
sangat bergantung pada tujuan dan proses KDD secara sama.
keseluruhan. (5) Interpretation / Evaluation, pola
informasi yang dihasilkan dari proses data mining perlu Dataset penerbangan memiliki 41 variabel.
ditampilkan dalam bentuk yang mudah dimengerti oleh
pihak yang berkepentingan. Tahap ini merupakan bagian "cartodb_id"
dari poses KDD yang disebut interpretation. Tahap ini "the_geom"
mencakup pemeriksaan apakah pola atau informasi yang "amateurbuilt"
ditemukan bertentangan dengan fakta atau hipotesis yang "field_1"
ada sebelumnya.[3] "flighttype"
"incidentlocation"
Teknik klasfikasi merupakan suatu pendekatan "weathercondition"
sistematis untuk membangun model klasifikasi dari "schedule"
suatu himpunan atau masukan. Tiap teknik "reportstatus"
menggunakan suatu algoritma pembelajaran untuk "registrationnumber"
mendapatkan suatu model yang paling memenuhi "purposeofflight"
"model"
hubungan antara himpunan atribut dan label klas dalam
"make"
data masukan. Tujuan dari algoritma pembelajaran
"location"
adalah utuk membangun model yang secara umum
"investigationtype"
berkemampuan baik, yaitu model yang dapat
"injuryseverity"
memprediksi label kelas dari record yang tidak diketahui
"fardescription"
kelas sebelumna dengan akurat. [1] Sebuah pohon
"eventid"
keputusan digunakan untuk mengklasifikasikan data
"enginetype"
dengan melewati rekor data ke simpul daun dari pohon
"country"
keputusan menggunakan nilai dari variabel atribut dan "broadphaseofflight"
menempatkan nilai target dari simpul daun untuk data "airportname"
pencatatan. [5] "airportcode"
"aircraftdamage"
2. Pembahasan "aircraftcategory"
Pohon keputusan merupakan representasi sederhana dari "aircarrier"
teknik klasifikasi untuk sejumlah kelas berhingga, "accidentnumber"
dimana simpul internal maupun simpul akar ditandai "severity_injured"
dengan nama atribut, rusuk-rusuknya diberi lebel nilai "severity_fatal"
atribut yang mungkin dan simpul daun ditandai dengan "pctdeath"
kelas yang berbeda.[1] "pctinjured"
"totalperson"
Decision tree sesuai digunakan untuk kasus-kasus "totaluninjured"
dimana outputnya bernilai diskrit. Walaupun banyak "totalseriousinjuries"
variasi model decision tree dengan tingkat kemampuan "totalminorinjuries"
dan syarat yang berbeda, pada umumnya beberapa ciri "totalfatalinjuries"
kasusu berikut cocok untuk diterapkan decision tree[2] : "numberofengines"
1. Data/example dinyatakan dengan pasangan "longitude"
atribut dan nilainya. "latitude"
2. Label/output data biasanya bernilai diskri "publicationdate"
3. Data mempunyai missing value. "eventdate"
Pohon keputusan juga berguna unuk mengeksplorasi
data, menemukan hubungan tersembunyi antara Gambar 1.Variabel dalam dataset
sejumlah calon variabel input dengan sebuah variabel
target. Pohon keputusan juga dapat diunakan untk Namun dataset penerbangan yang diuji dalam algoritma
mengestimasi nilai dasar variabel continue meskipun ada C4.5 pohon keputusan didapat dari ramdayz.carto.com.
beberapa teknik yang lebih sesuai untuk kasus ini[3]. https://ramdayz.carto.com/tables/flights/public hanya 4
2.1-92
Seminar Nasional Teknologi Informasi dan Multimedia 2017 ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 4 Februari 2017
variabel yang digunakan. Data yang digunkan sebanyak === Summary ===
13777, dengan sampel di tabel 1.
Correctly Classified Instances
Tabel 1.Data Penerbangan 12872 93.4311 %
Num
Flight Investigation Aircraft of Incorrectly Classified Instances
No type type damage Eng 905 6.5689 %
Non-
1 commercial Accident Substantial 1 Kappa statistic
Non- 0.2626
2 commercial Accident Substantial 1
Non- Mean absolute error
3 commercial Accident Substantial 1 0.1088
Non-
4 commercial Accident Substantial 1 Root mean squared error
Non- 0.2332
5 commercial Accident Substantial 1
Non- Relative absolute error
6 commercial Accident Substantial 1 79.0865 %
Non-
7 commercial Accident Substantial 1 Root relative squared error
Non- 88.9476 %
8 commercial Accident Substantial 1
Total Number of Instances
Non-
13777
9 commercial Accident Substantial 1
Non-
10 commercial Accident Substantial 1 === Confusion Matrix ===
Kesimpulan dataset terhadap variabel flighttype, a b <-- classified as
investigationtype, aircraftdemage, numberofengines 179 844 | a = Commercial
dapat dilihat sebagai berikut 61 12693 | b = Non-commercial
Flighttype
Gambar 3.Summary Klasifikasi Algoritma C4.5
Commercial : 1023
Non-commercial:12754
Gain(S,A) = Entropy(S) -
Investigationtype …...(1)
Destroyed : 1825
Minor : 400
Substantial:11552
Numberofengines
Min. : 1.000
1st Qu.: 1.000
Median : 1.000
Mean : 1.132
3rd Qu.: 1.000
Max. :24.000
Gambar 2 Summary Data Penerbangan
2.1-93
Seminar Nasional Teknologi Informasi dan Multimedia 2017 ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 4 Februari 2017
Gambar 4 Nilai Gain Node 1 Dari gambar diatas terlihat bahwa number of engines
memiliki nilai gain yang paling tinggi. Oleh karena itu
variable number of engines menjadi akar dalam pohon
keputusan. Perhitungan diatas merupakan perhitugan
pada node pertama. Setelah node berakhir dihasilkan
pohon keputusan menyeluruh.
Pohon keputusan yang dibuat oleh algoritma C4.5 adalah
sebagai berikut:
3. Kesimpulan
Hasil yang di dapat dari algoritma C4.5 menggunakan
dataset penerbangan terdapat 8 kolom dan ditiap kolom
terdapat pilihan Commercial dan Non-Commercial dan
2.1-94
Seminar Nasional Teknologi Informasi dan Multimedia 2017 ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 4 Februari 2017
Daftar Pustaka
[1] F. A. Hermawati, “Data Mining”, ANDI, 2013
[2] B. Sentosa, “Data Mining Teknik Pemnafaatan Data untuk
Keperluan Bisnis”, Graha Ilmu, 2007.
[3] Kusrini, E. T. Luthfi, “Algoritma Data Mining”, Penerbit ANDI,
R. Frinkel, R. Taylor, R. Bolles, R. Paul, “An overview of AL,
programming system for automation,” in Proc. Fourth Int. Join
Conf Artif.Intel., pp. 758-765, Sept. 3-7, 2006.
[4] A.S.R. Ansori, M. Hariadi, W. Endah,"Pemodelan Retakan Tiga
Dimensi Akibat Ledakan Untuk Serious Games", in Proc.
Semnasteknomedia 2013, pp.13-1, Januari 13,2013.
Biodata Penulis
Andreas Chandra, saat ini sedang menempuh
pendidikan sarjana 1 program studi teknik informatika di
STMIK Amikom Yogyakarta.
2.1-95
Seminar Nasional Teknologi Informasi dan Multimedia 2017 ISSN : 2302-3805
STMIK AMIKOM Yogyakarta, 4 Februari 2017
2.1-96