Anda di halaman 1dari 7

PERBANDINGAN IMPLEMENTASI DECISION TREE

DENGAN ALGORITMA C4.5 DAN C5.0

JULIUS SIHOTANG
DBC 113 174
Teknik Informatika Universitas Palangka Raya
Email : msp.juliussihotang@gmail.com

ABSTRAK
Pohon keputusan merupakan sebuah sistem atau cara yang manusia kembangkan untuk
membantu mencari solusi

dan membuat keputusan dari masalah-masalah dengan

memperhitungkan berbagai macam faktor yang ada dalam masalah tersebut. Secara umum,
pohon keputusan adalah suatu pemodelan dari suatu persoalan yang terdiri dari serangkaian
keputusan yang mengarah ke solusi.

Pada makalah ini akan dibahas mengenai perbedaan

implementasi teknik untuk menggunakan pohon keputusan dalam pengambilan keputusan dari
suatu masalah sesuai dengan teori keputusan baik algoritma C4.5 maupun algoritma C5.0.
Masalah yang dibahas adalah perbedaan kedua algoritma tersebut dalam menyelesaikan
permasalahan kredit. Simpul dalam pohon keputusan ini menyatakan keputusan dan faktor dari
luar, sedangkan ujung dari pohon keputusan menyatakan solusi. Setiap keputusan yang diambil
akan menghasilkan solusi yang berbeda pula.
Kata kunci : Pohon keputusan, pemodelan masalah, teori keputusan, solusi.
1. Pendahuluan
Kecerdasan
Intelligence)
bagian

dari

dalam bahasa komputer, baik bahasa C,


Buatan
merupakan
ilmu

(Artificial
salah

komputer

satu
yang

mempelajari bagaimana membuat mesin


(komputer) dapat melakukan pekerjaan
seperti sebaik yang dilakukan oleh

Pascal, Basic, dan bahasa pemrograman


lainnya. Tetapi dalam perkembangan
selanjutnya,
pemrograman

dikembangkan
yang

khusus

program kecerdasan buatan dapat ditulis

untuk

aplikasi kecerdasan buatan, yaitu LIPS


dan PROLOG.

manusia bahkan bisa lebih baik daripada


yang dilakukan manusia. Aplikasi atau

bahasa

2. Landasan Teori
2.1. Pengambilan Keputusan

Pengambilan Keputusan adalah suatu proses

Pohon Keputusan merupakan representasi

pemikiran dalam rangka pemecahan suatu

sederhana dari teknik klasifikasi yang

masalah untuk memperoleh hasil akhir

merupakan proses pembelajaran suatu fungsi

untuk

dalam

tujuan yang memetakan tiap himpunan

pengambilan keputusan bisa berdampak

atribut ke satu dari kelas yang didefenisikan

kepada kerugian. Misal dalam perusahaan,

sebelumnya.

dilaksanakan.

Kesalahan

keputusan yang diambil oleh pimpinan


perusahaan merupakan hasil pemikiran yang
harus dilaksanan oleh bawahannya atau
mereka

yang

harus

dilaksanakan

oleh

bawahannya atau mereka yang bersangkutan


dengan organisasi yang dia pimpin.

Mining

proses

yang

diulang dan memerlukan interaksi manusia


untuk menemukan pola

atau model baru yang dapat digeneralisasi


untuk

masa

karena mudah untuk diinterpretasi oleh


manusia. Dengan kemampuannya untuk
mem-break
simple.

merupakan

dalam prosesnya

metode klasifikasi yang paling populer

yang

akan

datang,

down

proses

pengambilan

keputusan yang kompleks menjadi lebih

2.2. Data Mining


Data

Pohon keputusan merupakan salah satu

dan

bermanfaat jika digunakan untuk melakukan

Pohon

keputusan

juga

dapat

menemukan hubungan tersembunyi antara


sejumlah calon variabel input dengan sebuah
variabel target. Selain itu pohon keputusan
dapat memadukan antara eksplorasi data dan
pemodelan, sehingga sangat baik sebagai
langkah awal dalam proses pemodelan.

suatu tindakan. Data mining berisi pencarian


pola yang diinginkan dalam database besar
untuk

membantu

dalam

pengambilan

keputusan diwaktu yang akan datang. Polapola ini dikenali oleh perangkat tertentu

Gambar Blok Diagram Model Klasifikasi

yang dapat memberikan suatu analisa data

Dengan menggunakan

yang kemudian dapat dipelajari dengan teliti

keputusan dapat menghindari munculnya

dan bermanfaat. Dan salah satu teknik dari

permasalahan dengan menggunakan kriteria

bagian data mining adalah klasifikasi, yaitu

yang jumlahnya lebih sedikit pada setiap

menentukan sebuah record data baru ke

node internal tanpa banyak mengurangi

salah satu dari beberapa kategori atau klas

kualitas keputusan yang dihasilkan. Dan

yang

kekurangan

yang telah difenisikan sebelumnya.

dari

metode pohon

pohon

keputusan

Dan salah satu bagian teknik dari klasifikasi

diantaranya adalah terjadi overlap terutama

adalah pohon keputusan.

ketika

2.3. Metode Decision Tree

kelas-kelas

dan

kriteria

yang

digunakan jumlahnya sangat banyak dan

kualitas hasil keputusan yang didapatkan

dibuat cabang untuk tiap-tiap nilai didalam

sangat tergantung pada bagaimana pohon

akar tersebut. Langkah berikutnya yaitu

tersebut didesain.

membagi kasus dalam cabang. Kemudian

Metode ini digunakan untuk memprediksi


nilai diskrit dari fungsi target, yang mana
fungsi pembelajaran dipresentasikan oleh
sebuah

decision

merupakan

tree.

himpunan

Decision

tree

IFTHEN.Setiap

path dalam tree dihubungkan sebuah aturan,


dimana presi terdiri dari sekumpulan node
node yang ditemui, dan kesimpulan dari
aturan terdiri atas kelas yang terhubung
denganleafdari path.

ulangi proses untuk setiap cabang sampai


semua kasus pada cabang memiliki kelas
yang sama
2.5. Algoritma C5.0
Algoritma

C5.0

merupakan

merupakan

penyempurnaan dari algoritma terdahulu


yang dibentuk oleh Ross Quinlan pada
tahun 1987, yaitu algoritma ID3 dan C4.5.
Perbedaan utama C5.0 dari ID3 adalah:
C5.0 dapat menangani atribut kontinyu dan

Terdapat 3 jenis node yang terdapat pada

diskrit dan Hasil pohon keputusan C5.0

decision tree, yaitu:

dapat dipangkas atau terdapat pruning

a.Root node, merupakan node paling atas,


padanode ini tidak ada input dan bisa tidak
mempunyai output atau mempunyai output
lebih dari satu.
b.Internal

(pemangkasan).

Atribut

dengan

nilai

information gain tertinggi akan terpilih


sebagai parent bagi node selanjutnya.
Algoritma ini membentuk pohon keputusan
dengan cara pembagian dan menguasai

node

sampel secara rekursif dari atas ke bawah.

terdapat

Algoritma ini dimulai dengan semua data

percabangan. Pada node ini terdapat satu

yang dijadikan akar dari pohon keputusan

input dan memiliki output mininmal dua.

sedangkan atribut yang dipilih akan menjadi

percabangan.

Node,
Pada

merupakan
node

ini

c.Leaf node atau terminal node, merupakan


node akhir. Pada node ini terdapat satu input
dan tidak mempunyai output.

pembagi bagi sampel tersebut.


3. Hasil dan Pembahasan
Pada jurnal ini yang dibahas

adalah

perbandingan dan analisis jurnal Klasifikasi


2.4. Algoritma C4.5
merupakan algoritma

kredit Menggunakan Metode decision Tree


yang

digunakan

pada Nasabah pd Bpr Bkk Gabus yang

untuk membuat Pohon Keputusan. Dalam

dibuat

oleh

algoritma C4.5 untuk membangun pohon

Komputer, Universitas Dian Nuswantoro,

keputusan hal pertama yang dilakukan yaitu

Semarang) dan jurnal Evaluasi Pemohon

memilih atribut sebagai akar. Kemudian

Kredit

Mobil

Susanti

Di

(Universitas

PT

Ilmu

Dengan

Menggunakan Teknik Data Mining Decision

5. Jika waktu sedang, maka keterangan =

Tree oleh Yogi Yusuf W, F. Rian Pratikto,

Tidak Lancar.

Vivianne A. S (Jurusan Teknik Industri,


Universitas Katolik Parahyangan).

pengujian dengan algoritma C4.5 dimana

3.1. Jurnal I (Klasifikasi Kredit)

tingkat

Pada jurnal pertama penulis melakukan


pengimplementasian
Setelah

dilakukan

algoritma
pengujian

Pada jurnal pertama ini penulis melakukan

C4.5.

akurasinya

tergolong

Good

Classification. Berikut merupakan detail


Rapid Miner :

metode

algoritma C4.5 Pada rapid Miner, maka


terbentuk pohon keputusan seperti gambar.

Kelebihan :
Kelebihan penggunaan metode decision tree
pada jurnal pertama ini adalah tingkat
Pada gambar yang menjadi akar dari pohon

keakurasian pengambilan keputusan sudah

keputusan yaitu waktu. Pohon keputusan

sangatlah baik, hal ini didasarkan pada

diatas menghasilkan rule yang yang akan

tingkat perhitungan rapid miner; daerah

diimplementasikan pada program. Rules

pengambilan

tersebut sebagai berikut:

sebelumnya sangat luas dan kompleks dapat

1. Jika waktu pendek dan pendapatan

dibuat sedemikian sederhana; eliminasi

besar, maka keterangan = Lancar.

perhitungan-perhitungan

yang

diperlukan,

decision

keputusan

karena

pada

nasabah

yang

tidak
tree

2. Jika waktu pendek, pendapatan kecil

sample yang diuji hanya yang memenuhi

dan pinjaman kecil, maka keterangan =

kriteria tertentu.

Lancar.
Kekurangan :
3. Jika waktu pendek, pendapatankecil
dan pinjaman sedang, maka keterangan =

Kekurangan penggunaan metode decision

Lancar.

tree pada jurnal pertama ini adalah dapat


terjadi overlap jika terdapat kelas-kelas

4.

Jika

waktu

pendek,

pendapatan

sedang , maka keterangan = Lancar.

nasabah yang memiliki kriteria yang mirip.

Hal ini juga menyebabkan kalkulasi error

6. Rekening tagihan telepon, rata-rata

yang sangat banyak saat system dijalankan.

tagihan telepon yang harus dibayar dalam

3.2. Jurnal II (Penentuan Resiko Kredit)


Pada

jurnal

kedua

penulis

melakukan

pengimplementasian metode decision tree


dengan Algoritma C5.0 untuk menemukan

tiga bulan terakhir.


7. Rekening tagihan listrik, rata-rata tagihan
listrik yang harus dibayar dalam tiga bulan
terakhir.

resiko kredit terhadap kemampuan client

Variabel target dari kasus ini adalah risiko

dalam menyelesaikan kewajibannya sebagai

kredit dan variabel inputnya adalah 8

pelaku

variabel yang telah disebutkan di atas.

kredit.

Penilaian

kemampuan

dilakukan dengan banyak kriteria tertentu


Model

credit

scoring

dikembangkan

adalah

yang

akan

model

yang

memprediksi risiko kredit sebagai kredit


lancar dan kredit macet. Model ini akan
digunakan pada tahap skoring kredit. Setiap
pemohon

kredit

diharuskan

mengisi

informasi-informasi yang selanjutnya akan


diproses

pada

tahap

skoring

kredit.

Informasi-informasi yang harus diisi oleh


pemohon kredit adalah:

tiga bulan terkahir.

melunasi

yang harus dilakukan setiap bulan.

pelunasan utang (pilihanannya adalah 12,


24, 36 bulan).
rata-rata

perputaran keuangan selama tiga bulan

5. Umur, umur pemohon kredit.

kewajibannya

sebanyak 750 record. Sampel tersebut


dikelompokan ke dalam dua kelas yaitu
kelas lancar dan kelas macet. Karena
decision tree mengharuskan variabel bersifat
diskrit, maka variabel-variabel kontinyu
didiskritkan terlebih dahulu.

metode decision tree :


Lancar if Penghasilan >

13000000 then Lancar


Lancar if Penghasilan <=

13000000 and DP > 55 % and Jumlah Bulan


= 12 then Lancar
Rule 3 for

terkahir.

dikumpulkan. Jumlah sampel yang tersedia

Rule 2 for

3. Jumlah periode pinjaman, jumlah periode

koran/tabungan,

kewajiban

Rule 1 for

2. Cicilan per bulan, besarnya pembayaran

Rekening

representatif yaitu debitur yang sudah

Aturan Keputusan yang dibuat dengan

1. Penghasilan, rata-rata penghasilan selama

4.

Sebelum model dikembangkan, sampel yang

Lancar if Penghasilan <=

13000000 and DP > 55 %

and Jumlah

Bulan = 36 then Lancar


Rule 4 for Lancar if Penghasilan <=
13000000 and DP > 55 % and Jumlah Bulan

= 24 and Rekening koran / Tabungan >

daripada

140.911.945 then Lancar

diinterpretasikan.

Rule 5 for
13000000

Lancar if

Penghasilan <=

and DP > 55 % and Jumlah

Bulan = 36 and Rekening koran / Tabungan


<= 140.911.945 and Cicilan per Bulan >
2.505.400 then Lancar
Rule 6 for

13000000 and DP <=55% then Macet


Rule 7 for

lainnya

Model

untuk

prediksi

yang

dihasilkan berdasarkan dari training data


sebanyak 60% dari total sampel yang ada.
Kekurangan :
Kekurangan dari algoritma C5.0 adalah
masih

Macet if Penghasilan <=

model

banyak

terjadi

overlap,

jika

pengklasifikasian didsarkan pada kriteria


yang telalu umum dan kompleks. Hal ini

Macet if Penghasilan <=

13000000 and DP > 55% and Jumlah Bulan


= 24 and Rekening koran / Tabungan <=

juga membuat system mudah terbebani


dengan space penyimpanan yang cukup
banyak.

140.911.945 and Cicilan per Bulan <=


2.505.400 then Macet

4. Penutup

Pemodelan prediksi status kredit dibantu


dengan software Clementine. Algoritma
yang digunakan adalah algoritma C5.0.
Algoritma C5.0 bekerja dengan melakukan
splitting pada sampel berdasarkan variabel
yang

memberikan

information

gain

tertinggi. Setiap sub sampel didefinisikan


dengan first split kemudian melakukan split
kembali yang biasanya didasarkan pada
variabel yang berbeda dan proses akan terus
berulang hingga sub sampel tidak dapat
dilakukan split.
Kelebihan :
Kelebihan dari penggunaan algoritma C5.0
yaitu quite robust pada kehadiran masalah
seperti missing data dan jumlah yang besar
dari input variabel. Model yang dihasilkan
oleh algoritma C5.0 lebih mudah dipahami

Dalam menggunakan metode decision tree


algoritma C5.0 lebih baik dibanding C4.5.
karena algoritma C5.0 dapat melakukan
penghematan memori lebih besar disbanding
C4.5 sebanyak 90% lebih cepat. Perhitungan
ini didasarkan pada tautan jurnal yang
melakukan perbandingan kedua algoritma
melalui

beberapa

sample

kompleks.

Algoritme C5.0 tetap dianggap sebagai


algoritma yang sangat membantu dalam
melakukan

klasifikasi

data

karena

karakteristik data yang diklasifikasi dapat


diperoleh dengan jelas baik dalam bentuk
struktur pohon keputusan maupun aturan ifthen,

sehingga

memudahkan

pengguna

dalam melakukan penggalian informasi


terhadap data yang bersangkutan.
Daftar Pustaka

Pramudiono I. Pengantar Data Mining:


Menambang Permata Pengetahuan di
Gunung

Data.

2003

<URL:http://ikc.dinus.ac.id/umum/iko/ik
o-datamining.zip> diakses tanggal 30
December 2015.

Oslan, Yetli. Validitas Suatu Alamat


menggunakan Pohon keputusan dengan
ID3.

2007.
Ernawati, I. Prediksi Status Keaktifan Studi
Mahasiswa Dengan Algoritma C5.0 dan
KNearest

Neighbor

[Tesis].

Institut

Pertanian Bogor. Bogor. 2008.

Nugroho, Fanuel., Kristanto, Harianto., dan

Algoritma

Volume 3 Nomor 2 April 2007. 1: 2.

Jurnal

Informatika,

Ian H.Witten, Frank Eibe, and Mark A.Hall,


Data

Mining

Pratical

Machine

Learning Tools and Techniques. USA:


Morgan Kaufman, 3rd ed.