5 UNTUK
PENENTUAN KELAYAKAN PEMBERIAN KREDIT
KOPERASI
TESIS
FIRMANSYAH
14000216
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer (M.Kom)
FIRMANSYAH
14000216
ii
Nama : Firmansyah
NIM : 14000216
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Dengan ini menyatakan bahwa tesis yang telah saya buat dengan judul:
“Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan Kelayakan Pemberian
Kredit Koperasi” adalah hasil karya sendiri, dan semua sumber baik yang kutip
maupun yang dirujuk telah saya nyatakan dengan benar dan tesis belum pernah
diterbitkan atau dipublikasikan dimanapun dan dalam bentuk apapun.
Firmansyah
iii
HALAMAN PENGESAHAN
DEWAN PENGUJI
iv
KATA PENGANTAR
v
Serta semua pihak yang terlalu banyak untuk penulis sebutkan satu persatu
sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan
tesis ini masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran
yang bersifat membangun demi kesempurnaan penulisan karya ilmiah yang
penulis hasilkan untuk yang akan datang.
Akhir kata semoga tesis ini dapat bermanfaat bagi penulis khususnya dan bagi
para pembaca yang berminat pada umumnya.
Firmansyah
Penulis
vi
Nama : Firmansyah
NIM : 14000216
Program Studi : Magsiter Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Jenis Karya : Tesis
Dengan Hak Bebas Royalti Non-Eksklusif ini pihak STMIK Nusa Mandiri
berhak menyimpan, mengalih-media atau bentuk-kan, mengelolaannya dalam
pangkalan data (database), mendistribusikannya dan menampilkan atau
mempublikasikannya di internet atau media lain untuk kepentingan akademis
tanpa perlu meminta ijin dari kami selama tetap mencantumkan nama kami
sebagai penulis/pencipta karya ilmiah tersebut.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK
Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak
Cipta dalam karya ilmiah saya ini.
Firmansyah
vii
ABSTRAK
Nama : Firmansyah
NIM : 14000216
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Judul : “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”
Kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu,
berdasarkan persetujuan atau kesepakatan pinjam meminjam antara bank dengan
pihak lain yang mewajibkan pihak peminjam melunasi utangnya setelah jangka
waktu tertentu dengan pemberian bunga. Sebelum koperasi menyetujui kredit
yang diajukan oleh debitur, koperasi melakukan analisis kredit terhadap debitur
apakah pengajuan kredit disetujui atau tidak disetujui
Analisa kredit yang dilakukan oleh analis terkadang tidak akurat, sehingga
beberapa debitur yang diberikan kredit tidak mempunyai kemampuan untuk
membayar yang menyebabkan kredit macet. Dari permasalahan ini diperlukan
suatu model yang mampu mengklasifikasikan sekaligus memprediksi debitur
mana saja yang bermasalah dan tidak bermasalah.
Kata kunci:
Analisa kredit, pohon keputusan, algoritma C4.5
ABSTRACT
Name : Firmansyah
NIM : 14000216
Study of Program : Magister Ilmu Komputer
Levels : Strata Dua (S2)
Concentration : e-Business
Titel : “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”
Decision tree model was able to improve the accuracy in analyzing the credit
worthiness of borrowers who filed. The more rich information or knowledge
contained by the training data, the accuracy of decision trees will increase.
Keyword :
Credit analysis, decision tree, C4.5 algorithm
DAFTAR ISI
Halaman
HALAMAN SAMPUL............................................................................... i
HALAMAN JUDUL................................................................................... ii
HALAMAN PERNYATAAN ORISINALITAS........................................ iii
HALAMAN PENGESAHAN..................................................................... iv
KATA PENGANTAR................................................................................. v
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS.................................... vii
ABSTRAK.................................................................................................. viii
ABSTRACT................................................................................................... ix
DAFTAR ISI............................................................................................... x
DAFTAR TABEL........................................................................................ xi
DAFTAR GAMBAR................................................................................... xii
DAFTAR LAMPIRAN............................................................................... xiii
BAB 1. PENDAHULUAN.......................................................................... 1
1.1. Latar Belakang Penulisan........................................................ 1
1.2. Identifikasi Masalah................................................................ 3
1.3. Tujuan Penelitian..................................................................... 3
1.4. Ruang Lingkup Penelitian....................................................... 3
1.5. Manfaat penelitian.................................................................. 4
1.6. Ruang lingkup penelitian ....................................................... 4
1.7. Sistematika penulisan ............................................................ 4
BAB 2. LANDASAN/KERANGKA PEMIKIRAN................................... 5
2.1. Tinjauan Studi......................................................................... 5
2.2. Tinjauan Pustaka..................................................................... 6
2.3. Studi kasus .......................................................................... 14
2.4. Rapid Miner .......................................................................... 19
2.5. Kerangka pemikiran ................................................................. 20
BAB 3. METODE PENELITIAN............................................................... 22
BAB 4. HASIL PENELITIAN DAN PEMBAHASAN............................. 42
BAB 5. PENUTUP..................................................................................... 49
5.1. Kesimpulan............................................................................ 49
5.2. Saran..................................................................................... 49
DAFTAR REFERENSI.............................................................................. 50
SURAT KETERANGAN RISET/PRAKTEK KERJA LAPANGAN...... 52
DAFTAR TABEL
DAFTAR GAMBAR
DAFTAR LAMPIRAN
BAB I
PENDAHULUAN
1
2
Analisis kredit merupakan hal yang penting dalam lingkup resiko keuangan
(Lai, Yu, Zhou, & Wang, 2006), oleh karena itu perlunya dilakukan analisa.
Namun, melakukan proses analisa kredit membutuhkan waktu lama (Kotsiantis,
Kanellopoulos, Karioti, & Tampakas, 2009) dan mengidentifikasi data debitur
yang bermasalah merupakan hal yang sulit (Odeh, Featherstone, & Das, 2010).
Data yang besar dan banyaknya parameter tentunya membutuhkan alat yang
efektif dan efisien untuk melakukan analisa kredit dan menilai debitur yang
mempunyai resiko gagal bayar dan yang tidak beresiko.
Sebagai tolak ukur bahwa debitur disetujui atau ditolak, dapat digunakan
data histori debitur yang telah disetujui oleh koperasi. Namun, perlu diperhatikan
juga bahwa debitur yang telah disetujui juga tidak semuanya pembayar kredit
yang baik, artinya ada beberapa debitur yang telah disetujui tapi beberapa bulan
kemudian pembayarannya menunggak. Dibawah ini merupakan tabel yang
menunjukkan data debitur bermasalah disebabkan ketidakakuratan analis dalam
menganalisa kredit yang diajukan debitur sehingga menyebabkan kredit macet,
data ini diambil dari koperasi Sudin Pendidikan Jakarta Selatan yaitu :
Tabel 1.1 Laporan Data Debitur Bermasalah dari tahun 2003 s.d 2004 dalam persentase
(sumber : laporan koperasi Dikmenti Jaksel 2003-2004)
Tahun Jumlah Kredit
Anggota Macet
2003 239 12.13%
2004 259 12.74%
Gambar 2.1 Grafik peningkatan kredit macet dari tahun 2003 s.d 2004 (sumber : laporan
simpan pinjam koperasi SUDIN Dikmenti Jaksel)
3
Tabel 1.1 menunjukkan mulai tahun 2003 hingga tahun 2004 terjadi
kenaikan kredit macet, ini disebabkan karena sejumlah anggota koperasi yang
menunggak pembayaran kredit. Data di atas menjadi permasalahan bagi koperasi,
karena jika debitur tidak mampu membayar cicilan kredit dalam jangka waktu
yang telah ditentukan, maka ini akan menyebabkan kredit macet.
Ada beberapa penelitian dan tehnik analisa kredit yang dibuat oleh beberapa
peneliti seperti Lai, Yu, Zhou dan Wang (2006) yang melakukan evaluasi resiko
kredit dengan menggunakan model Least Square Support Vector Machines.
Henley dan Hand (1996) juga melakukan penilaian terhadap kredit debitur dengan
menggunakan model K Nearest Neighbour. Jiang (2009) membuat model untuk
memprediksi nasabah yang yang bermasalah dan tidak bermasalah dalam
pembayaran kredit dengan menggunakan model algoritma C4.5. Data yang
digunakan diambil dari perusahaan German credit yang merupakan perusahaan
pembiayaan. Jiang mengambil beberapa atribut dan kemudian dimasukkan ke
dalam model untuk memprediksi persentase nasabah yang bermasalah.
Untuk mengatasi permasalahan di atas, maka penulis menggunakan model
pohon keputusan algoritma C4.5. Model ini akan digunakan untuk memprediksi
apakah debitur nantinya akan bermasalah dalam pembayaran kredit atau tidak.
Model ini dipilih karena proses learning dan klasifikasi pada algoritma C4.5
sederhana dan cepat. Secara umum, model algoritma C4.5 mempunyai tingkat
akurasi yang tinggi (Han & Kamber, 2006).
4
BAB II
LANDASAN/KERANGKA PEMIKIRAN
5
6
2.2.1 Kredit
Pengertian kredit pada pasal 1 angka 11 Undang-undang no 10 tahun 1998
tentang perubahan undang-undang no 7 tahun 1992 tentang Perbankan adalah
penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan
persetujuan atau kesepakatan pinjam meminjam antar bank dengan pihak lain
yang mewajibkan pihak peminjam untuk melunasi utangnya dalam jangka waktu
tertentu dengan pemberian bunga.
Ada beberapa prinsip penilaian kredit yang sering dilakukan, yaitu prinsip
5C (Kasmir, 2000) dalam (Triwahyuniati, 2008):
1. Character, adalah watak atau sifat seseorang dalam hal ini adalah calon
debitur. Tujuannya adalah untuk memberikan keyakinan kepada bank, bahwa
watak atau sifat dari orang-orang yang akan diberikan kredit benar-benar dapat
dipercaya.
2. Capacity, untuk melihat kemampuan calon nasabah dalam membayar kredit
dihubungkan dengan kemampuan mengelola bisnis serta kemampuan mencari
laba.
3. Capital, dimana dimana untuk mengetahui sumber-sumber pembiayaan yang
dimiliki nasabah terhadap usaha yang akan dibiayai oleh bank.
4. Collateral, merupakan jaminan yang diberikan calon nasabah baik yang
bersifat fisik maupun non fisik.
5. Condition, dalam menilai kredit hendaknya dinilai kondisi ekonomi sekarang
dan untuk di masa yang akan datang sesuai sektor masing-masing.
Pada tabel 2.1 di atas sifat nilai dibagi dua yaitu kategorikal dan nilai kontinu,
kategorikal merupakan nilai yang bukan dalam bentuk angka seperti jumlah
tanggungan dibagi berdasarkan kategori sedikit, sedang dan banyak. Sedangkan
nilai kontinu adalah nilai atribut yang bernilai angka, seperti jumlah pinjaman Rp.
10.000.000, merupakan nilai nominal. Sebenarnya nilai kategorikal merupakan
nilai yang diambil dari nilai angka, namun untuk memudahkan dalam proses
analisa maka angka-angka tersebut dibagi menjadi beberapa kategori.
Gambar 2. 1 Data mining sebagai bagian dari proses knowledge discovery (sumber
gambar: Data mining concept and tehniques, Han & Kamber).
2.2.3 Klasifikasi
Menganalisa konsumen yang akan membeli komputer atau menganalisa
apakah seseorang mengidap kanker merupakan contoh proses klasifikasi dalam
data mining dimana klasifikasi dapat menghasilkan sebuah prediksi seperti
“beresiko” dan “tidak beresiko”, atau “ya” dan “tidak”. Pada gambar 2.2
menunjukkan bagaimana proses klasifikasi. Tahap pertama adalah proses learning
yaitu data training dianalisa oleh algoritma klasifikasi dan menghasilkan sejumlah
aturan, yaitu proses menganalisa data training oleh algoritma klasifikasi,
kemudian tahap kedua yaitu training adalah menguji akurasi dari algoritma
klasifikasi dengan memasukkan sejumlah data. Kedua tahap tersebut terlihat pada
gambar 2.2 di bawah ini :
Gambar 2. 2 (a) Tahap learning : data training dianalisa oleh algoritma klasifikasi dan
menghasilkan sejumlah aturan. dan (b) tahap klasifikasi: menguji akurasi dari algoritma
klasifikasi dengan memasukkan sejumlah data. (sumber : Han & Kamber, 2006)
Gambar 2.2(a) menunjukkan bahwa pada tahap learning, data training dianalisa
oleh algoritma klasifikasi sehingga menghasilkan sejumlah aturan atau rule.
Kemudian di gambar 2.2(b) pada tahap klasifikasi, sejumlah aturan yang telah
dihasilkan pada tahap learning akan diuji akurasinya dengan memasukkan
sejumlah data uji. Jika data uji terbukti akurat dan dapat diterima , maka model
dapat diterapkan untuk tupel berikutnya.
menggambarkan hasil dari atribut yang diuji, dan setiap daun menggambarkan
kelas. Pohon keputusan bekerja mulai dari akar paling atas, jika diberikan
sejumlah data uji, misalnya X dimana kelas dari data X belum diketahui, maka
pohon keputusan akan menelusuri mulai dari akar sampai node dan setiap nilai
dari atribut sesuai data X diuji apakah sesuai dengan aturan pohon keputusan,
kemudian pohon keputusan akan memprediksi kelas dari tupel X.
1. Menyiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas
tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang
terpilih,dengan cara menghitung nilai Gain dari masing-masing atribut, nilai
Gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung
nilai Gain dari atribut, hitung dahulu nilai entropy yaitu :
n
Entropy ( S ) = ∑ − pi * log 2 pi (1.1)
i =1
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S
3. Kemudian hitung nilai Gain dengan metode information gain :
n
| Si |
Gain( S , A) = Entropy ( S ) − ∑ * Entropy ( S i ) (1.2)
i =1 | S |
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat :
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
Rule based biasanya dituliskan dalam bentuk logika IF-THEN atau jika dibuat
persamaannya yaitu :
IF condition THEN conlusion
contoh sebuah rule yaitu :
IF age=youth AND student=yes THEN buys_computer=yes
Pernyataan IF dari persamaan di atas dikenal sebagai rule antecedent atau
precondition sedangkan pernyataan THEN disebut sebagai rule consequent.
Dalam rule antecedent biasanya menyertakan satu atau lebih atribut (misalnya
atribut age dan student) dan menggunakan logika AND jika menggunakan lebih
dari satu atribut. Rule consequent merupakan prediksi kelas, dalam contoh di atas
prediksinya yaitu membeli komputer atau buys_computer=yes (Han & Kamber,
2006).
Aturan-aturan dalam rule based dapat diturunkan dari pohon keputusan
yang telah terbentuk. Karena pohon keputuan yang besar, terkadang sulit untuk
menginterpretasikan pohon bentuk keputusan (Han & Kamber, 2006). Agar
pohon keputusan ini dapat lebih mudah dipahami oleh manusia, maka perlu
diinterpretasikan dalam bentuk aturan-aturan atau rule based. Contoh rule based
hasil ektraksi dari pohon keputusan pada gambar 2.1 yaitu :
R1: IF age=youth AND student=no THEN buys_computer=no
R2: IF age=youth AND student=yes THEN buys_computer=yes
R2: IF age=middle_aged THEN buys_computer=yes
R2: IF age=senior AND credi_rating=excellent THEN buys_computer=yes
R2: IF age=senior AND credi_rating=fair THEN buys_computer=no
Dalam kasus ini tidak digunakan logika OR, karena aturan-aturan
diekstraksi langsung dari pohon keputusan yang disebut mutually exclusive dan
exhaustive. Dengan mutually exclusive artinya tidak ada aturan yang berbenturan
atau konflik karena tidak boleh ada dua aturan dalam dalam tupel yang sama.
Sedangkan exhaustive artinya dalam satu set aturan merupakan kombinasi nilai
yang mungkin, artinya setiap aturan pasti menggambarkan kombinasi atribut dan
nilai yang mungkin (Han & Kamber, 2006).
Tabel 2.2 merupakan data training untuk menentukan seseorang bermain tenis
berdasarkan atribut outlook, temperature, humidity, dan windy. Kolom play
merupakan class dari masing-masing tupel. Dari tabel di atas akan dibuat pohon
keputusan untuk menentukan keputusan bermain tenis berdasarkan cuaca,
kelembaban, temperatur dan angin. Ada beberapa langkah untuk membuat
keputusan, yaitu :
1. Tabel 2.2 di atas merupakan data training beserta kelasnya.
2. Menghitung jumlah kasus keputusan Yes, jumlah kasus keputusan No dan
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut outlook,
temperature, humidity, dan windy. Kemudian, lakukan penyeleksian atribut
dengan menghitung Gain tertinggi.
Baris Total kolom Entropy pada tabel 2.2 dihitung dengan persamaan 2 sebagai
berikut :
4 4 10 10
Entropy (Total ) = (− * log 2 ( )) + (− * log 2 ( ))
14 14 14 14
Entropy (Total ) = 0.86
1 Total 14 4 1 0.86
Outlook 0.25
Cloudy 4 0 4 0
Rainy 5 1 4 0.72
Sunny 5 3 2 0.97
Temperature 0.18
Cool 4 0 4 0
Hot 4 2 2 1
Mild 6 2 4 0.92
Humidity 0.37
High 7 4 3 0.98
Normal 7 0 7 0
Windy 0.005
9
False 8 2 6 0.81
True 6 4 2 0.92
Atribut Humidity mempunyai dua nilai yaitu High dan Normal. Dari kedua nilai
tersebut, nilai atribut normal sudah mengklasifikasikan kasus menjadi 1, karena
jika dilihat dari data training keputusan untuk semua nilai Normal mempunyai
kelas yang sama yaitu Yes sehingga tidak perlu dilakukan partisi node, tetapi
perlu partisi node untuk nilai High. Gambar 2.4 menunjukkan atribut Humidity
menjadi akar dari pohon dan dipartisi menjadi dua yaitu High dan Normal.
Tabel 2. 4 Pohon Keputusan Hasil Perhitungan Node 1
Gambar 2. 4 Pohon Keputusan Hasil Perhitungan Node 1
Gambar 2. 5 Pohon Keputusan Hasil Perhitungan Node 1
a. Menghitung jumlah kasus Yes dan No serta menghitung entropy dari semua
kasus pada atribut Outlook, Temperature, dan Windy yang dapat menjadi akar
dari nilai atribut High. Kemudian, lakukan perhitungan Gain untuk tiap-tiap
atribut.
Tabel 2.4 Perhitungan Node 1.1
Node Jml Tidak Ya Entropy Gain
kasus (S1) (S2)
(S)
1. Humidity- 7 4 3 0.985228136
High
Outlook 0.69951385
Cloudy 2 0 2 0
Rainy 2 1 1 1
Sunny 3 3 0 0
Temperature 0.020244207
Cool 0 0 0 0
Hot 3 2 1 0.918295834
Mild 4 2 2 1
Windy 0.020244207
False 4 2 4 1
True 3 2 1 0.918295834
Dari tabel 2.4 di atas dapat dilihat bahwa nilai Gain tertinggi didapat oleh
atribut Outlook, yaitu sebesar 0.67. Dengan demikian atribut Outlook dapat
menjadi node cabang dari nilai atribut High. Ada tiga nilai dari atribut Outlook
yaitu Cloudy, Rainy, dan Sunny. Dari ketiga nilai tersebut, nilai atribut Cloudy
sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes dan nilai
atribut Sunny sudah mengklasifikasikan kasus menjadi satu dengan keputusan
No, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai
atribut Rainy masih perlu dilakukan perhitungan lagi. Gambar 2.5
menunjukkan atribut outlook dipartisi menjadi cloudy, rainy, dan sunny.
Pohon keputusan yang terbentuk pada tahap ini ditunjukkan oleh gambar 2.5
berikut :
Gambar 2. 5 Pohon keputusan hasil perhitungan Node 1.1
b. Menghitung jumlah kasus Yes dan No serta menghitung entropy dari semua
kasus pada atribut Temperature dan Windy yang dapat menjadi node cabang
dari nilai atribut Rainy. Kemudian, lakukan perhitungan Gain untuk tiap-tiap
atribut.
Tabel 2. 5 Perhitungan Node 1.1.2
Node Jml Tidak Ya Entropy Gain
kasus (S1) (S2)
(S)
1.1.2 Humidity- 2 1 1 1
High dan
Outlook
Rainy
Temperature 0
Cool 0 0 0 0
Hot 0 0 0 0
Mild 2 1 1 1
Windy 1
False 1 0 1 0
True 1 1 0 0
Dari tabel 2.5 diketahui bahwa atribut dengan Gain tertinggi adalah atribut
Windy, yaitu sebesar 1. Maka, atribut Windy dapat menjadi node cabang dari
nilai atribut Windy, yaitu False dan True. Dari kedua nilai tersebut, nilai atribut
False sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes dan
nilai atribut True sudah mengklasifikasikan kasus menjadi 1 dengan keputusan
No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut
ini. Pohon keputusan yang terbentuk pada tahap ini ditunjukkan oleh gambar
2.6 berikut :
Pada gambar 2.6, semua kasus pada pohon keputusan sudah masuk ke dalam kelas
sehingga tidak ada lagi kasus/atribut yang dapat dipartisi. Pohon keputusan dari
gambar 2.6 dapat diekstraksi sejumlah aturan, yaitu :
R1: IF humidity=high AND THEN play=yes
R2: IF humidity=high AND outlook=rainy AND windy=false THEN play=yes
R3: IF humidity=high AND outlook=rainy AND windy=true THEN play=no
R4: IF humidity=high AND outlook=sunny THEN play=no
R5: IF humidity=normal THEN play=yes
Gambar 2. 6 Tampilan area kerja Rapid Miner. Yang dimasukkan yaitu data training
dan model yaitu decision tree.
Gambar 2.7 di atas merupakan tampilan area kerja Rapid Miner. Rapid
Miner merupakan perangkat lunak yang dibuat oleh Dr. Markus Hofmann dari
Institute of Technology Blanchardstown dan Ralf Klinkenberg dari rapid-i.com
dengan tampilan GUI (Graphical User Interface) sehingga memudahkan pengguna
dalam menggunakan perangkat lunak ini. Perangkat lunak ini bersifat open source
dan dibuat dengan menggunakan bahasa Java di bawah lisensi GNU Public
License dan Rapid Miner dapat dijalankan di sistem operasi manapun . Dengan
menggunakan Rapid Miner, tidak dibutuhkan kemampuan koding khusus, karena
semua fasilitas sudah disediakan. Rapid Miner dikhususkan untuk penggunaan
data mining. Model yang disediakan juga cukup lengkap, seperti model Bayesian
Modelling, Tree Induction,Neural Network dan lain-lain.
Banyak metode yang disediakan oleh Rapid Miner mulai dari klasifikasi,
klustering, asosiasi dan lain-lain. Jika tidak ada metode atau model algoritma yang
tidak ada dalam Weka, pengguna boleh menambahkan modul lain, karena Weka
bersifat open source, jadi siapapun dapat ikut mengembangkan perangkat lunak
ini. Dapat dilihat pada gambar 2.8 pohon yang diekstraksi dari data training dan
model.
Gambar 2. 7 Tampilan hasil pohon keputusan. Pohon akan tampil otomatis saat
dijalankan lewat rapid miner.
Problem
Analisa kredit tidak
akurat
Approach
Model klasifikasi pohon
keputusan dan
algoritma C4.5
Development
Framework Rapidminer
Implementation
Measurement
Confusion Kurva ROC
matrix
Result
Algoritma C4.5 terbukti akurat
dalam penentuan kelayakan
Gambar 2. 8 Kerangka pemikiran. Dimulai dari problem, approach,
development, implementation, measurement, dan result.
BAB III
METODE PENELITIAN
22
23
- Rp.
10.000.000
Rp. 10.000.001 Besar
- Rp.
15.000.000
Jangka Waktu 1 tahun 1
2 tahun 2
3 tahun 3
h
27 110 Banyak III Sedang 3 Baik
28 111 Sedang III Sedang 3 Baik
Bermasala
29 117 Sedang II Sedang 3 h
30 120 Kosong II Sedang 3 Baik
31 122 Sedikit II Sedang 3 Baik
32 123 Kosong III Sedang 3 Baik
33 125 Sedang III Sedang 3 Baik
34 126 Sedang III Sedang 3 Baik
35 129 Sedikit III Kecil 2 Baik
36 130 Kosong III Sedang 3 Baik
37 133 Banyak III Sedang 3 Baik
38 135 Banyak II Sedang 3 Baik
39 136 Sedang III Kecil 3 Baik
40 138 Sedang IV Sedang 3 Baik
41 150 Sedikit IV Sedang 3 Baik
42 164 Sedikit II Sedang 3 Baik
43 165 Sedikit III Sedang 3 Baik
44 166 Kosong III Sedang 3 Baik
45 174 Sedikit IV Sedang 3 Baik
46 177 Kosong IV Sedang 3 Baik
47 181 Sedang IV Sedang 3 Baik
Bermasala
48 185 Banyak IV Sedang 3 h
49 199 Sedikit III Sedang 3 Baik
50 221 Sedang III Sedang 3 Baik
51 224 Sedang III Kecil 2 Baik
52 244 Kosong II sedang 3 Baik
53 245 Kosong III sedang 3 Baik
54 250 Sedang IV sedang 3 Baik
55 256 Banyak IV sedang 3 Baik
56 259 Sedang III sedang 3 Baik
57 282 Sedikit III besar 3 Baik
58 286 Kosong II sedang 3 Baik
Bermasala
59 291 Banyak II sedang 3 h
60 298 Banyak III sedang 3 Baik
Bermasala
61 299 Sedang III sedang 3 h
62 304 Sedang II sedang 3 Baik
63 305 Sedikit III sedang 3 Baik
64 318 Sedikit IV sedang 2 Baik
65 322 Sedikit II sedang 3 Baik
66 323 Kosong III besar 3 Baik
67 324 Sedikit III Kecil 3 Baik
68 328 Kosong III sedang 3 Baik
69 331 Sedikit III sedang 3 Baik
70 332 Sedikit IV sedang 3 Baik
71 337 Kosong IV sedang 3 Baik
72 341 Sedikit III sedang 3 Baik
yang tidak diperlukan akan dihapus. Tupel dalam data set mungkin terjadi
duplikasi atau terdapat tupel yang sama, sehingga untuk memperkecil jumlah
tupel, tupel yang sama dijadikan akan dijadikan dalam satu tupel untuk
mewakili tupel tersebut sehingga akan terlihat pada tabel 3.3 di bawah :
Tabel 3. 3 Data training kredit. Diperoleh dari proses data cleaning, data integration, dan
data reduction.
Jumlah Level Level Jangka
No Tanggungan Golongan Pinjaman waktu Class
1 Sedang III Kecil 2 Baik
2 Sedang II sedang 3 Bermasalah
3 Sedang II Kecil 2 Baik
4 Sedikit III sedang 3 Baik
5 Sedikit IV sedang 3 Baik
6 Sedang III sedang 3 Baik
7 Banyak II sedang 3 Bermasalah
8 Sedikit II sedang 3 Baik
9 Sedikit II sedang 3 Bermasalah
10 Sedang III besar 3 Baik
11 Banyak III sedang 2 Baik
12 Banyak II sedang 3 Baik
13 Sedikit IV besar 3 Baik
14 Sedikit III besar 2 Bermasalah
15 Sedikit II sedang 2 Baik
16 Sedang II sedang 2 Baik
17 Sedikit III sedang 2 Baik
18 Banyak I sedang 3 Bermasalah
19 Sedikit II besar 3 Bermasalah
20 Banyak III sedang 3 Baik
21 Kosong II sedang 3 Baik
22 Kosong III sedang 3 Baik
23 Sedikit III Kecil 2 Baik
24 Sedang III Kecil 3 Baik
25 Sedang IV sedang 3 Baik
26 Kosong IV sedang 3 Baik
27 Banyak IV sedang 3 Baik
28 Sedikit III besar 3 Baik
29 Sedang III sedang 3 Bermasalah
30 Sedang II sedang 3 Baik
31 Sedikit IV sedang 2 Baik
32 Kosong III besar 3 Baik
33 Sedikit III Kecil 3 Baik
34 Kosong II besar 3 Baik
35 Sedang I sedang 3 Bermasalah
36 Sedang IV Kecil 2 Baik
37 Sedang IV besar 3 Baik
38 Sedikit III sedang 3 Bermasalah
39 Sedikit IV Kecil 2 Baik
Tabel 3. 4 Data debitur bermasalah : data bermasalah ini dihasilkan dari data training,
sehingga lebih sedikit dari data sebelum di training.
Kasus Jumlah Level Level Jangka
ke Tanggungan golongan Pinjaman waktu Class
1 Sedang II sedang 3 Bermasalah
2 Banyak II sedang 3 Bermasalah
3 Sedikit II sedang 3 Bermasalah
4 Sedikit III besar 2 Bermasalah
5 Banyak I sedang 3 Bermasalah
6 Sedikit II besar 3 Bermasalah
7 Sedang I sedang 3 Bermasalah
8 Sedang III sedang 3 Bermasalah
9 Sedikit III sedang 3 Bermasalah
10 Sedikit II sedang 2 Bermasalah
11 Banyak III sedang 3 Bermasalah
12 Sedikit III besar 3 Bermasalah
13 Sedang II sedang 2 Bermasalah
4. Tahap modelling (modeling).
Tahap ini juga dapat disebut tahap learning karena pada tahap ini data training
diklasifikasikan oleh model dan kemudian menghasilkan sejumlah aturan.
Model yang digunakan dalam tahap ini menggunakan algoritma C4.5. Seperti
yang telah dijelaskan sebelumnya, ada beberapa tahap yang harus dilalui dalam
membentuk pohon keputusan, tentunya algoritma C4.5 digunakan untuk
membuat pohon keputusan. Untuk membuat pohon keputusan, dibutuhkan data
training yang diambil dari tabel 3.1.
5. Menghitung jumlah kasus class baik dan jumlah kelas bermasalah dan
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut
Jumlah_Tanggungan, Level_Golongan, Level_Pinjaman, Jangka_Waktu.
Kemudian, lakukan penyeleksian atribut dengan menghitung Gain tertinggi.
Baris Total kolom Entropy dihitung dengan persamaan 2 sebagai berikut :
15 15 46 46
Entropy (Total ) = (− * log 2 ( )) + (− * log 2 ( ))
61 61 61 61
Entropy (Total ) = 0.80
6. Dengan menggunakan persamaan Gain, hitung jumlah kasus dari masing-
masing atribut dan hitung Gain. Hasil perhitungan dapat dilihat pada tabel di
bawah ini :
Tabel 3. 5 Tabel perhitungan node 1
Node Jml Bermasalah Baik Entropy Gain
kasus (Si) (Si)
(S)
1 Total 48 6 42 0.54
Jumlah_Tanggungan 0.055
Kosong 10 0 10 0
Sedikit 15 2 13 0.56
Sedang 15 2 13 0.56
Banyak 8 2 6 0.81
Level_Golongan 0.222
I 2 2 0 0
II 12 3 9 0.81
III 19 1 18 0.29
IV 15 0 15 0
Level_Pinjaman 0.033
Kecil 11 0 11 0
Sedang 27 4 23 0.60
Besar 10 2 8 0.81
Jangka_Waktu 0.035
1 3 0 3 0
2 17 1 16 0.32
3 28 5 23 0.67
Tabel 3. 6 Hasil perhitungan node 1.1 dan 1.2
Node Jml Bermasalah Baik Entropy Gain
kasus (Si) (Si)
(S)
1.1 Level_Golongan‐II 12 3 9 0.81
Level_Pinjaman 0.080
Kecil 2 0 2 0
Sedang 7 2 5 0.86
Besar 3 1 2 0.91
Jumlah_Tanggungan 0.145
Kosong 3 0 3 0
Sedikit 4 1 3 0.81
Sedang 3 1 2 0.91
Banyak 2 1 1 1
Jangka_Waktu 0.176
1 0 0 0 0
2 4 0 4 0
3 8 3 5 0.95
1.2 Level_Golongan‐III 19 1 18 0.29
Level_Pinjaman 0.119
Kecil 5 0 5 0
Sedang 10 0 10 0
Besar 4 1 3 0.81
Jumlah_Tanggungan 0.072
Kosong 4 0 4 0
Sedikit 7 1 6 0.59
Sedang 5 0 5 0
Banyak 3 0 3 0
Jangka_Waktu 0.072
1 2 0 2 0
2 7 1 6 0.59
3 10 0 10 0
Tabel 3. 7 Hasil perhitungan node 1.1.1 dan node 1.2.1
Node Jml Bermasalah Baik Entropy Gain
kasus (Si) (Si)
(S)
Level_Golongan ‐ II
1.1.1 Jangka_Waktu : 3 8 3 5 0.95
Jumlah_Tanggungan 0.483
Kosong 2 0 2 0
Sedikit 3 1 2 0.91
Sedang 1 1 0 0
Banyak 1 1 1 1
Level_Pinjaman 0.108
Kecil 1 0 1 0
Sedang 4 2 2 1
Besar 3 1 2 0.91
Level_Golongan ‐ III
1.2.1 Level_Pinjaman : 4 1 3 0.81
Besar
Jumlah_Tanggungan 0.31
Kosong 1 0 1 0
Sedikit 2 1 1 1
Sedang 1 0 1 0
Banyak 0 0 0 0
Jangka_Waktu 0.81
1 0 0 0 0
2 1 1 0 0
3 3 0 3 0
Tabel 3. 8 Hasil perhitungan node 1.1.1.1 dan node 1.1.1.2
Node Jml Bermasalah Baik Entropy Gain
kasus (Si) (Si)
(S)
1.1 Level_Golongan ‐ II
1.1.1 Jangka_Waktu‐3
1.1.1.1 Jumlah_Tanggungan 3 1 2 0.91
: Sedikit
Level_PInjaman 0.91
Kecil 1 0 1 0
Sedang 1 0 1 0
Besar 1 1 0 0
1.1.1.2 Jumlah_Tanggungan 2 1 1 1
: Banyak
Level_Pinjaman 1
Kecil 0 0 0 0
Sedang 1 1 0 0
Besar 1 0 1 0
1.2 Level_Golongan ‐ III
1.2.3 Level_Pinjaman :
Besar
1.2.2.2 Jumlah_Tanggungan 2 1 1 1
: Sedikit
Jangka_Waktu 1
1 0 0 0 0
2 1 1 0 0
3 1 0 1 0
Gambar 3. 5 Pohon keputusan hasil ekstraksi dari hasil perhitungan dengan metode
information gain. Pohon yang terbentuk belum dilakukan pruning.
2. Buka program Rapid Miner, kemudian akan muncul tampilan awal. Untuk
memasukkan data training yang telah dibuat sebelumnya, pilih menu File –
Import Data – Import CSV File.
3. Tampil jendela Data import wizard dengan total 5 langkah. Pada langkah
ke-1 ini tentukan nama file yang berisi data training dalam direktori
kemudian pilih Next seperti terlihat pada gambar 3.2.
Gambar 3. 6 Tampilan langkah 1 : memilih data training. Data yang digunakan bisa dalam
format .xls, .csv, atau .xml.
Pada langkah ke-2 pastikan Skip Comment, Semicolon, dan Use Quote
sudah ditandai kemudian pilih Next. Langkah ke-3 menentukan anotasi dari
setiap tupel, abaikan kemudian pilih Next. Pada langkah ke-4 yaitu
menentukan nama atribut. Walaupun nama atribut sudah tertulis seperti att1
dan lain-lain, namun untuk memudahkan maka harus dibuat nama artribut
sesuai dengan data training. Setelah semua telah terisi, klik Reload data
untuk menyimpan. Pilih next untuk berlanjut ke tahap berikutnya. Lihat
gambar 3.3. di bawah ini :
Gambar 3. 7 Tampilan langkah 4 : menentukan atribut dan label
Pada langkah terakhir, tentukan nama data dan disimpan dalam New local
repository kemudian pilih Finish.
4. Data training yang sebelumnya disimpan, akan tersimpan otomatis ke dalam
Repositories. Pilih tab Repositories – NewLocalRepository –
Data_Training. Geser data_training ke area Main Process. Untuk
menambahkan model, pilih tab Operators – Modelling – Classification and
Regression – Tree Induction – Decision Tree. Geser Decision Tree ke area
Main Process dan hubungkan seperti gambar 3.4 di bawah ini :
Gambar 3. 8 Relasi antara data training dan model : menyiapkan data training dan
menentukan model klasifikasi yang digunakan.
5. Untuk melihat hasilnya, pilih menu Process – Run maka akan tampil hasil
berupa pohon keputusan seperti gambar 3.5 di bawah :
Gambar 3. 9 Pohon keputusan yang telah terbentuk
6. Tahap deployment.
Pada tahap ini yaitu menerapkan model algoritma C4.5 ke koperasi untuk
penentuan kelayakan pemberian kredit.
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
4.1 Pengukuran Penelitian
4.1.1 Hasil Penelitian
Tujuan dari penelitian ini menguji keakuratan analisa kredit dengan
menggunakan algoritma C4.5. Data yang dianalisa adalah data pinjaman dalam
bentuk kredit, yaitu semua data kredit yang telah disetujui oleh pihak koperasi.
42
43
Gambar 4. 2 Model confusion matrix : nilai true positives, false negatives, false positives,
dan true negatives didapat dari data uji (Han & Kamber, 2006)
t _ pos
sensitivity =
pos
t _ neg
specificity =
neg
t _ pos
precision =
(t _ pos + f _ pos )
pos neg
accuracy = sensitivity + specificity
( pos + neg ) ( pos + neg )
dimana :
t_pos = jumlah true positives
t_neg = jumlah true negatives
pos = jumlah tupel positif
neg = jumlah tupel negatif
f_pos = jumlah false positives
kemudian masukkan nilai yang ada di dalam confusion matrix ke dalam
persamaan di atas, sehingga akan menghasilkan nilai seperti di bawah ini :
Tabel 4. 4 Nilai sensitivity, specificity, precision, dan accuracy dalam persentase. Terlihat
bahwa nilai akurasi mencapai 90%.
Nilai (%)
Sensitivity 100
Specificity 50
Precision 100
Accuracy 90
Recall 50
Terlihat pada gambar 4.4, nilai accuracy, recall dan precision yang dihasilkan
oleh Rapid Miner menggunakan model confusion matrix.
Gambar 4. 4 Nilai AUC dalam grafik ROC dengan metode information gain dan gain
ratio dengan memasukkan data uji.
Gambar 4. 5 Nilai AUC dalam grafik ROC metode gini index dengan memasukkan data
uji.
Gambar 4. 6 Grafik ROC dengan perbandingan tiga metode, yaitu information gain,
gain ratio dan gini index tanpa memassukan data uji.
BAB V
PENUTUP
5.1 Kesimpulan
Dari hasil penelitian terbukti bahwa algoritma C4.5 lebih akurat
dibandingkan analisa yang dilakukan oleh analis kredit. Hal ini dibuktikan dengan
hasil evaluasi penelitian bahwa algoritma C4.5 mampu menganalisa kredit yang
bermasalah dan yang debitur yang tidak bermasalah sebanyak 90%.
5.2 Saran
Walaupun model algoritma C4.5 sudah diterapkan dan berjalan dengan baik
di dalam sistem, namun ada beberapa hal yang harus ditambahkan untuk
menambah akurasi algoritma C4.5, yaitu :
1. Melakukan pruning terhadap algoritma C4.5 sehingga pohon yang terbentuk
tidak terlalu besar bahkan mungkin untuk jumlah data yang besar sekalipun.
Ini dilakukan untuk mengefisienkan kinerja dari algoritma C4.5 tanpa
mengurangi keakuratannnya.
2. Untuk melihat tingkat akurasi dari algoritma, akan lebih baik algoritma C4.5
dibandingkan atau dikomparasi model algoritma lain seperti Naive Bayes
atau Support Vector Machine.
3. Pada riset selanjutnya dapat digunakan metode seleksi atribut yang lain
seperti Chi-Square untuk ketepatan penyeleksian atribut.
4. Menerapkan algoritma C4.5 ke dalam data yang lebih besar untuk menguji
akurasi dari algoritma.
42
43
Daftar Pustaka
C.R.Kothari. (2004). Research Methology Methods and Techniques. India: New
Age International Limited.
Han, J., & Kamber, M. (2006). Data Mining Concept and Tehniques. San
Fransisco: Morgan Kauffman.
Isaac, S., & Michael, W. B. (1981). Handbook in research and evaluation: A
collection of principles, methods, and strategies useful in the planning,
design, and evaluation of studies in education and the behavioral sciences.
San Diego: EDITS Publisher.
Jiang, Y. (2009 ). Credit Scoring Model Based on Decision Tree and the
Simulated Annealing Algorithm. 2009 World Congress on Computer
Science and Information Engineering (hal. 18 - 22). Los Angeles: IEEE
Computer Society.
Kotsiantis, S., Kanellopoulos, D., Karioti, V., & Tampakas, V. (2009). An
ontology-based portal for credit risk analysis. 2009 2nd IEEE International
Conference on Computer Science and Information Technology, (hal. 165-
169). Beijing.
Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
Lai, K. K., Yu, L., Zhou, L., & Wang, S. (2006). Credit Risk Evaluation with
Least Square Support Vector Machine. Springer-Verlag , 490-495.
Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey
& Sons, Inc.
Odeh, O. O., Featherstone, A. M., & Das, S. (2010). Predicting Credit Default:
Comparative Results from an Artificial Neural Network, Logistic
Regression and Adaptive Neuro-Fuzzy Inference System. EuroJournals
Publishing, Inc. 2010 , 7-17.
Satchidananda, S. S., & Simha, J. B. (2010). Comparing Decision Trees With
Logistic Regression for Credit Risk Analysis. Management of e-Commerce
and e-Government (ICMeCG), 2010 Fourth International Conference, (hal.
35 - 38). Chengdu.
Sekaran, U. (1992). Research Metthods for Business : A Skill Building Approach,
2th Edition. New York: John Willey & Son.
Sugiyono. (2009). Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung:
Alfabeta.
Triwahyuniati, N. (2008). Pelaksanaan Analisis Kredit Pada di PT Bank Haga
Semarang. Thesis Magister Kenotariatan , 38.
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining : Practical Machine
Learning and Tools. Burlington: Morgan Kaufmann Publisher.
Xhemali, D., Hinde, C. J., & Stone, R. G. (2009). Naïve Bayes vs. Decision Trees
vs. Neural Networks in the Classification of Training Web Pages. IJCSI
International Journal of Computer Science Issues , 16-23.
Zurada, J. (2010). Could Decision Trees Imnprove the Classification Accuracy
and Interpretability of Loan Granting Decisions. HICSS '10 Proceedings of
the 2010 43rd Hawaii International Conference on System Sciences, (hal. 1-
9). Koloa.
54
55
56
57
58