Contoh Paper KDD

Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2006)
Auditorium Universitas Gunadarma, Depok, 23-24 Agustus 2006
ISSN : 1411-6286
KNOWLEDGE DISCOVERY PADA RISKED CUSTOMERS BANK

MENGGUNAKAN DECISION TREE
Enny Itje Sela
STMIK AKAKOM, Jl. Raya Janti 143, Yogyakarta
ennysela@akakom.ac.id
ABSTRAK
Telah dibuat penelitian untuk mengetahui profil customer bank yang akan diberi
pinjaman oleh bank. Pemilihan nasabah dibutuhkan untuk meminimalkan resiko
yang dapat mengakibatkan kerugiaanuntuk pihak bank. Risiko tersebut dikategorikan
tinggi (high), sedang (moderat), dan rendah (low).Adapun data nasabah yang diteliti
mempunyai 9 buah atribut dan 107 record. Knowledge Discovery In Databases
(KDD) adalah salah satu metode yang digunakan untuk memperoleh pengetahuan
dalam sebuah basis data. Salah satu cara yang digunakan adalah pohon keputusan
(decision tree). Pengetahuan tersebut direpresentasikan dalam bentuk kaidah
produksi. Algoritma yang digunakan adalah Iteractive Dichotomicer 3 (ID3).
Kata Kunci: customer, decision tree , kaidah produksi, Knowledge Discovery In
Databases (KDD).
1. PENDAHULUAN
1.1. Latar Belakang
Proses pengajuan kredit oleh nasabah
(customer) menjadi semakin mudah, baik untuk
kredit barang maupun kredit uang. Khususnya
dalam bidang perbankan, pengajuan kredit uang
bisa dilakukan oleh semua masyarakat dengan
syarat-syarat sepanjang memenuhi syarat-syarat
yang dientukan bank tersebut. Untuk
menghindari adanya kredit macet, perlu
diketahui profil nasabah khususnya yang akan
mengajukan kredit, sehingga resiko terjadinya
hal itu menjadi minimal.
Knowledge Discovery In Databases
(KDD) merupakan metode untuk memperoleh
pengetahuan dari basis data yang dibentuk.
Dalam basis data itu terdapat tabel-tabel yang
saling
berhubungan/berrelasi.
Hasil
pengetahuan yang diperoleh dalam proses
tersebut dapat digunakan sebagai basis
pengetahuan (knowledge base) untuk keperluan
pengambilan keputusan. Salah satu cara untuk
memperoleh pengetahuan tersebut dengan cara
menambang
data
menggunakan
pohon
keputusan (decision tree).
Knowledge Discovery Pada Risked
(Enny Itje Sela)
1.2. Permasalahan
Berdasarkan latar belakang diatas ,
salah satu pokok permasalahan yang diangkat
adalah bagaimana memperoleh pengetahuan
untuk mengidentifikasi nasabah bank yang akan
diberikan kredit sehinggan meminimalkan
adanya
resiko
kredit
macet
ataupun
permasalahan
lain
yang
mengganggu
operasional bank tersebut.
Cara yang
digunakan adalah membentuk pohon keputusan
dengan algoritma Iteractive Dichotomicer 3
(ID3).pengetahuan yang diperoleh selanjutnya
direpresentasikan dalan kaidah produksi.
2. TEORI
2.1.Pohon Keputusan (Decision Tree)
Algoritma induksi yang paling umum
digunakan adalah kelompok TDIDT (Top Down
Induction Decision Tree). Algoritma ini
didasarkan pada algoritma lain yang dikenalkan
oleh Ross Quinlan yaitu ID 3 (Interactive
Dichotomicer) 3. Input algoritma ini adalah
sebuah database dengan beberapa variabel yang
juga dikenal dengan atribut. Setiap masukan
5
dalam database menyajikan sebuah obyek dari

domain yang selanjutnya disebut dengan
variabel bebas (independent variable). Sebuah
atribut didesain untuk mengklasifikasikan
obyek, yang selanjutnya disebut dengan
variabel tidak bebas (dependet variable).
Masalah yang harus dipecahkan adalah
melakukan proses klasifikasi terhadap data
yang disimpan dalam database tersebut.
Algoritma TDIDT memerlukan 2 langkah
pengerjaan yaitu membangun pohon keputusan
(constuction
decision
tree)
dan
menyederhanakan pohon keputusan yang dibuat
(prunning decision tree). Pohon keputusan
terdiri dari rangkaian tes sehingga terjadi
klasifikasi diantara data/obyek yang disimpan.
Contoh pohon keputusan
Nilai 1,1
Atribut 2
Atribut
Nilai 1,3
Atribut 4
Nilai 2,3
Nilai 2,1
Kelas 1
Nilai 2,2
Kelas 2
Nilai 2,4
Kelas 3
Kelas
Gambar 1. Pohon Keputusan

2.2. Konstruksi Pohon Keputusan
Proses klasifikasi dilakukan dari node
paling atas / akar pohon (root). Dilanjutkan ke
bawah
melakui
cabang-cabang
sampai
dihasilkan node daun (leaves) dimana node
daun ini menunjukkan hasil akhir klasifikasi.
Sebuah obyek yang diklasifikasikan dalam
pohon harus dites nilai entropinya. Entropi
adalah ukuran dari teori informasi yang dapat
mengetahui karakteristik impuruty, dan
homogenety dari kumpulan data. Dari nilai
entropi tersebut kemudia dihitung nilai
information gain (IG) masing-masing atribut
independent terhadap atribut dependentnya. IG
merupakan nilai rata-rata entropi pada semua
atribut.
(http://www.ai.unive.ac.iat/IST/decisiontree.html)
Sebuah pohon keputusan dapat
dikonstruksi dengan melihat regurasi seperti
dibawah
ini:
((http://www2.cs.uregina.ca/~hamilton/courses/831/
notes/ml/dtrees2.html)
6
Klasifikasi
/Prediksi
Pohon
Keputusan
Aturan
/Kaidah
Gambar 2. Alur Diagram Pohon Keputusan

Berdasarkan gambar 2 diatas , data akan diubah
menjadi bentuk pohon keputusan. Pengubahan
bentuk data dilakukan dengan menggunakan
algoritma ID3, dengan langkah-langkah sebagai
berikut :
1. tentukan atribut yang akan dijadikan
node pohon dengan menghitung nilai
entropinya.
2. pilihlah atribut yang mempunyai nilai
entropi minimal.
Jika terdapat S atribut dala suatu data set
dengan c outcomes, maka
Entropi(S)=p(I)log2p(I)
Nilai 1,2
Atribut 3
Data
ISSN : 1411-6286
.(1)
dimana p(I) adalah proposisi S dalam kelas I. S

= keseluruhan sample
Gain (S,A) adalah information gain dari
sekumpulan data S pada atribut A yang
didefinisikan sebagai :
Gain (S,A) = Entropi(S) ((|Sv| / |S| ) *
Entropi (Sv)).(2)
Sv = subset S untuk atribut A yang bernilai v

| Sv| = cacah elemen Sv
||S| = cacah elemen S
Setelah pohon keputusan dibuat, merupakan hal
yang mudah untuk mengkonversikannya
kedalam bentuk aturan (rules) yang biasanya
disajikan dalam bentuk kaidah produksi.
Adapun cara yang dilakukan adalah melakukan
trace pada setiap path dalam pohon dari node
akar hingga mendapatkan node daun dimana
antesedent dipeoleh dari outcomes dan
konsekuen diperoleh dari node daun.
2.2. Prunning Decision Tree
Jika sebuag rule telah dibuat berdasarkan pohon
keputusan , lakukan
1. Eliminasi anteseden yang tidak perlu , cara
a. Buatkan tabel kontingensi untuk setiap rule
yang mempunyai beberapa anteseden
rule
dengan
b. Sederhanakan
cara
mengeliminasi anteseden yang tidak
mempengaruhi
konklusi,
dengan
menggunakan tes independesi ,
(Enny Itje Sela)
Chi-Square Test jika frekuensi nilai

ekpektasi > 10
o Yates Correction for Continuity jika
frekuensi nilai ekpektasi 5 10
o Fishers Exact Test jika frekuensi nilai
ekpektasi <5
2. Eliminasi rule yang tidak perlu
o
3. Metode Penelitian
Adapun
cara
yang
digunakan
untuk
menjalankan penelitian ini adalah :
1. Mencari sampel data yang akan
digunakan untuk melaksanakan proses
tranformasi menjadi pengetahuan.
2. Melakukan konstruksi pohon keputusan
3. Melakukan prunning decision tree
4. Mengenerate basis pengetahuan dalam
format JIKA .MAKA
4. Pembahasan
4.1.Deskripsi Permasalahan
Profil nasabah dikategorikan sebagai berikut :
o Nasabah beresiko rendah (low risked)
o Nasabah beresiko menengah (moderat
risked)
o Nasabah beresiko tinggi (high risked)
Dari ketiga kategori tersebut, bank akan
memilih nasabah yang mempunyai resiko
rendah atau moderat untuk diberikan kredit.
Record record nasabah yang telah direkam
oleh pihak bank dikumpulkan dari waktu ke
waktu adalah :
o Riwayat kredit (credit history) yang berisi
nilai buruk (bad), baik (good), tidak
diketahui (unknown)
o Simpanan (debt) berisi nilai tinggi (high)
dengan
simpanan
lebih
besar
Rp.30.000.000,00 dan bernilai rendah (low)
jika simpanan dibawah Rp.30.000.000,00
o colateral berisi nilai tidak ada (none) dan
adequatic
o Pekerjaaan berisi nilai ABRI, PNS, dosen
swasta, karyawan swasta non dosen
o
Pendapatan (income) berisi nilai 0Rp.1.500.000 ;
Rp. 1.600.000,00 Rp.
35.000.000,00; dan
lebih besar
Rp.
35.000.000,00
o
Jenis kelamin (gender) yang berisi pria
dan wanita.
(Enny Itje Sela)
ISSN : 1411-6286
Data set nasabah yang dikompilasi oleh bank

disajikan dalam bentuk tabel yang terdiri dari 7
kolom dan 105 baris , seperti dibawah ini.
4.2.Analisis Information Gain
Node Akar Level 0
Untuk menetukan node akar (level 0)
pohon keputusan dihitung IG dari ke 6 atribut
tabel dimana atribut risk menjadi dependent
atribut dan keenam atribut yang lain (credit
history, colateral, debt, income, pekerjaan, dan
gender) menjadi independent atribut. Nilai
entropi atribut risk (E(risk)) dapat dihitung
berdasarkan rumus di bab 2, menghasilkan nilai
sebesar 1,527. Berikut ini proses analisis IG
pada level 0.
Atribut income
Berdasarkan tabel 4.1. diatas dapat dibuat
matriks data antara atribut income dengan
risk seperti disajikan dibawah ini.
Tabel 1. Matriks atribut income dan risk
income
0-15
16-35
>35
36
33
36
105
r.high
r.modert
r.low
22
13
10
6
10
6
8
10
20
Berdasarkan matriks diatas , dapat

dihasilkan jumlah nilai entropi atribut income
terhadap atribut risk (E(income)) yaitu sebesar
1.44 dan hasil dari perhitungan E tersebut dapat
dihitung nilai IG(risk, income)= 0,085.
E (income| 015)
E (income| 1635)
0,461905
E (income)
1,441623
IG
0,085364
0,494483
E (income|
>35)
0,485235
4.3. Pohon Keputusan

Hasil pohon keputusan dapat dilihat
pada gambar 3, halaman 7.
4.4 Uji Atribut

Pengujian atribut dilakukan menggunakan uji
Chi-Square karena frekuensi nilai ekspektasi
setiap sell lebih besar dari 10. Berikut hasil uji
independensi dengan asumasi = 0.05
7
atribut income 0 15
Nilai X2 dalam tabel X2 (2; 0,05) = 5,99
Nilai X2 hitung = 7,693
Karena nilai X2 hitung > X2 tabel disimpulkan
bahwa atribut income 0 15 mempengaruhi
atribut risk.
atribut income 16-35
Karena nilai X2 hitung < X2 tabel disimpulkan
bahwa atribut income 16-35
tidak
mempengaruhi atribut risk.
atribut income >35
bahwa atribut income >35 mempengaruhi
atribut risk.
atribut credit bad
bahwa atribut credit bad mempengaruhi atribut
risk.
atribut credit unknown
bahwa atribut credit unknown mempengaruhi
atribut risk.
atribut credit good
bahwa atribut credit good mempengaruhi
atribut risk.
atribut debt
bahwa atribut debt tidak mempengaruhi atribut
risk
atribut gender
bahwa atribut gender tidak mempengaruhi
atribut risk.
atribut pek. pns
8
ISSN : 1411-6286

bahwa atribut pek. pns mempengaruhi atribut
risk.
atribut pek. dosen
bahwa atribut pek. dosen mempengaruhi atribut
risk.
atribut pek. abri
bahwa atribut pek. abri mempengaruhi atribut
risk.
atribut pek. kary. swasta
bahwa atribut pek. kary. swasta mempengaruhi
atribut risk.
4.5.Basis Pengetahuan
Dari pohon keputusan tersebut, dapat dihasilkan
basis pengetahuan yang direpresentasikan dalan
kaidah produksi pada tabel 2..
Selanjutnya setelah dilakukan uji independent
dengan Chi Square dapat diperoleh basis
pengetahuan akhir seperti tabel 3.
Tabel 3.Kriteria Nasabah Yang Direkomendasi
colateral none & credit good & pek. kary swasta
colateral none & credit good & pek. dosen & income
0-15
colateral none & credit good & pek. pns & income >
35
colateral none & pek. abri

colateral none & pek. pns & income > 35
colateral none & pek. pns & credit good
colateral none & pek. pns
colateral none & pek. pns & income 0-15
colateral none & pek. pns & income 0-15 &
credit good
colateral adequate
5.PENUTUP
(Enny Itje Sela)
5.1. Kesimpulan
Berdasarkan
pembahasan bab-bab
sebelumnya, dapat ditarik kesimpulan sebagai
berikut :
1. Pohon keputusan dengan algoritma ID3
dapat digunakan untuk memperoleh
pengetahuan pada bidang perbankan
khususnya untuk mengklasifikasikan
pemberian kredit nasabah
2. Klasifikasi nasabah didasarkan pada
resiko rendah (low) dan sedang
(moderat) tergantung pada pihak bank
5.2. Saran
Adapun saran yang dapat diberikan
berdasarkan pembahasan sebelumnya adalah :
1. Perlu adanya uji validasi terhadap
hasil pengetahuan akhir tentang
nasabah yang direkomendasikan
untuk diberi kredit pinjaman.
2. Perlu
diimplementasikan
menggunakan bahasa pemrograman
tertentu sehingga proses editing
data dapat dimungkinkan.
6. DAFTAR PUSTAKA
[1] Han , Jie dan Chambber, M. , 2001, Data
Mining Concept and Technique , Academic
Press, USA
[2] Sudjana, 1996, Metode Statistik Edisi 6 ,
Penerbit tarsito, Bandung
[3] Prayudi, Yudi, 2002, Datamining For
Knowledge Discovery In Medical Data,

(Enny Itje Sela)
ISSN : 1411-6286
Makalah Seminar Nasional Universitas

Bina Nusantara, Jakarta
[4] Greening, Dan R, Theres`Gold In That
Mountain of Data,
http://www.newarchietechmag.com/archiev
es/2000/01/greening/
[5] Moore , Andrew. W, 2006, Decision Trees,
www.cs.cmu.edu
[6] -------------------,08/05/2006, Decision Tree
Prunning,
http://www.cs.wisc.edu/~noto/cs540/lecture
/11-dtree-pruning.html
[7] ------------------,08/05/2006, Decision Tree
Learning Algorithms,
http://www.ai.univie.ac.at/IST/decisiontree.html
[8] -------------------,08/05/2006, Decision Tree
Learning Example,
http://www.ai.univie.ac.at/IST/decisiontree-example.html
[9] ------------------, 30/05/2006, Decision Tree
Construction,
http://www2.cs.uregina.ca/~hamilton/cours
es/831/notes/ml/dtrees2.html
[10] ------------------, 30/05/2006, Decision Tree
Rules
&
Prunning,
es/831/notes/ml/dtrees3.html
[11] -----------------, 30/05/2006, Overview of
Decision
Tree,
es/831/notes/ml/4_dtrees1.html
ISSN : 1411-6286
Tabel 2. Basis Pengetahuan Awal

Nomor
aturan
R-1
R-2
JIKA
JIKA
R-3
JIKA
R-4
JIKA
R-5
JIKA
R-6
JIKA
R-7
JIKA
R-8
R-9
JIKA
JIKA
R-10
JIKA
R-11
JIKA
R-12
JIKA
R-13
JIKA
R-14
JIKA
R-15
JIKA
R-16
JIKA
R-17
JIKA
R-18
JIKA
R-19
JIKA
R-20
JIKA
R-21
R-22
JIKA
JIKA
R-23
R-24
JIKA
JIKA
10
Aturan
debt high & colateral none & credit bad
debt high & colateral none & credit good & pek.
abri & gender wanita
abri & gender pria
kary sawasta
dosen & income 0-15
dosen & income > 35
pns & income > 35
debt high & colateral none & credit unknown
debt low & colateral none & pek. abri & income
> 35
16- 35
0-15 & credit good
debt low & colateral none & pek. pns & income
> 35
16-35 & credit good
16-35 & credit unknown
0-15 & credit bad
0-15 & credit unknown & gender pria
0-15 & credit unknown & gender wanita
0-15 & credit good
debt low & colateral none & pek. dosen &
income > 35 & credit bad
0-15
debt low & colateral none & pek. kary.swasta
0-15 & credit bad
debt low & colateral adequate & gender pria
debt low & colateral adequate & gender wanita
MAKA risk
MAKA risk
high
High
MAKA risk
moderat
MAKA risk
low
MAKA risk
moderat
MAKA risk
high
MAKA risk
low
MAKA risk
MAKA risk
high
high
MAKA risk
moderat
MAKA risk
high
MAKA risk
low
MAKA risk
low
MAKA risk
moderat
MAKA risk
high
MAKA risk
low
MAKA risk
moderat
MAKA risk
low
MAKA risk
high
MAKA risk
high
MAKA risk
MAKA risk
high
high
MAKA risk
MAKA risk
moderat
low

(Enny Itje Sela)
C2
P1
gender
G1
G2
moderat
II1
moderat
P3
P4
iincome
iincome
high
llow
high
CR2
II2
high
low
P4
iincome
II3
II3
Moderat,high
P1
G1
moderat
II2
pek
G2
high
II3
C1
gender
CR1
Pek
P2
high
C1
credit
high
low
colateral
Colateral
low
D2
debt
D1
C2
ISSN : 1411-6286
II1
credit
iincome
II2
II3
CR2
Moderat,high
low
credit
moderat
credit
credit
CR1
high
low
gender
G2
Gambar 3. Hasil Pohon Keputusan

(Enny Itje Sela)
G1
low
11
Low,moder
II3
CR3
Keterangan :
Debt : D1= high ; D2 = low
Colateral: C1 = none ; C2 = adequate
Credit : CR1 = bad ; CR2 =good; CR3 = unknown
Pek
: P1 = abri ; P2=swasta ; P3=dosen ; P4 = pns
Gender : G1 = wanita ; G2 = pria
Income : I1 = 0-15 ; I2 = 16-35 ; I3 = >35
II2
high
CR1
CR3
iincome
II1
II2
CR3
llow
high
II1
moderat
Low,moderat
P3
P2
moderat
hig
CR3
High. low

Contoh Paper KDD

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Contoh Paper KDD

Diunggah oleh

Hak Cipta:

Format Tersedia

Proceeding, Seminar Ilmiah Nasional Komputer dan Sistem Intelijen (KOMMIT 2006)

Auditorium Universitas Gunadarma, Depok, 23-24 Agustus 2006

KNOWLEDGE DISCOVERY PADA RISKED CUSTOMERS BANK

dalam database menyajikan sebuah obyek dari

Gambar 1. Pohon Keputusan

Gambar 2. Alur Diagram Pohon Keputusan

dimana p(I) adalah proposisi S dalam kelas I. S

Sv = subset S untuk atribut A yang bernilai v

Chi-Square Test jika frekuensi nilai

Data set nasabah yang dikompilasi oleh bank

Berdasarkan matriks diatas , dapat

4.3. Pohon Keputusan

4.4 Uji Atribut

Karena nilai X2 hitung > X2 tabel disimpulkan

colateral none & pek. abri

Knowledge Discovery Pada Risked

Makalah Seminar Nasional Universitas

Tabel 2. Basis Pengetahuan Awal

Knowledge Discovery Pada Risked

Gambar 3. Hasil Pohon Keputusan

Knowledge Discovery Pada Risked

Anda mungkin juga menyukai