Anda di halaman 1dari 69

PENERAPAN ALGORITMA KLASIFIKASI C4.

5 UNTUK
PENENTUAN KELAYAKAN PEMBERIAN KREDIT
KOPERASI

TESIS

FIRMANSYAH
14000216

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER


SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2011

 
 
 
 

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK


PENENTUAN KELAYAKAN PEMBERIAN KREDIT
KOPERASI

TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Magister Ilmu Komputer (M.Kom)

FIRMANSYAH
14000216

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER


SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2011

 
ii 
 
 
 

SURAT PERNYATAAN ORISINALITAS

Yang bertanda tangan di bawah ini :

Nama : Firmansyah
NIM : 14000216
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business

Dengan ini menyatakan bahwa tesis yang telah saya buat dengan judul:
“Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan Kelayakan Pemberian
Kredit Koperasi” adalah hasil karya sendiri, dan semua sumber baik yang kutip
maupun yang dirujuk telah saya nyatakan dengan benar dan tesis belum pernah
diterbitkan atau dipublikasikan dimanapun dan dalam bentuk apapun.

Demikianlah surat pernyataan ini saya buat dengan sebenar-benarnya. Apabila


dikemudian hari ternyata saya memberikan keterangan palsu dan atau ada pihak
lain yang mengklaim bahwa tesis yang telah saya buat adalah hasil karya milik
seseorang atau badan tertentu, saya bersedia diproses baik secara pidana maupun
perdata dan kelulusan saya dari Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri
dicabut/dibatalkan.

Jakarta, 6 Februari 2011


Yang menyatakan,

Materai Rp. 6.000,-

Firmansyah

 
iii 
 
 
 

HALAMAN PENGESAHAN

Tesis ini diajukan oleh :


Nama : Firmansyah
NIM : 14000216
Program Studi : Magsiter Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Judul Tesis : “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”

Telah berhasil dipertahankan dihadapan Dewan Penguji dan diterima sebagai


bagian persyaratan yang diperlukan untuk memperoleh gelar Magister Ilmu
Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah
Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (STMIK Nusa
Mandiri).

Jakarta, 24 April 2010


Pascasarjana Magister Ilmu Komputer
STMIK Nusa Mandiri
Direktur

H. Mochamad Wahyudi, MM, M.Kom

DEWAN PENGUJI

Penguji I : Dr. Dana Indra Sensuse

Penguji II : Drs. Bambang Setyarso, MA

Penguji III / : Romi Satria Wahono, M.Eng


Pembimbing

 
iv 
 
 
 

KATA PENGANTAR

Puji syukur alhamdullillah, penulis panjatkan kehadirat Allah, SWT, yang


telah melimpahkan rahmat dan karunia-Nya, sehingga pada akhirnya penulis
dapat menyelesaikan tesis ini tepat pada waktunya. Dimana tesis ini penulis
sajikan dalam bentuk buku yang sederhana. Adapun judul tesis, yang penulis
ambil sebagai berikut “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”.
Tujuan penulisan tesis ini dibuat sebagai salah satu untuk mendapatkan gelar
Magister Ilmu Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu
Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri
(STMIK Nusa Mandiri).
Tesis ini diambil berdasarkan hasil penelitian yang penulis lakukan pada
koperasi SUDIN Dikmenti Jakarta Selatan. Penulis juga lakukan mencari dan
menganalisa berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah,
buku-buku literatur, internet, dll yang terkait dengan pembahasan pada tesis ini.
Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua pihak
dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini tepat
pada waktunya. Untuk itu ijinkanlah penulis kesempatan ini untuk mengucapkan
ucapan terima kasih yang sebesar-besarnya kepada :
1. Bapak Romi Satria Wahono, M.Eng selaku pembimbing tesis yang telah
menyediakan waktu, pikiran danm tenaga dalam membimbing penulis dalam
menyelesaikan tesis ini.
2. Bapak Andi Azis sekalu Kepala Seksi SUDIN Dikmenti Jakarta Selatan yang
telah mengijinkan penulis melakukan riset untuk mendapatkan data atau
informasi yang penulis butuhkan.
3. Kedua orang tua yang telah memberikan dukungan material dan moral kepada
penulis.
4. Seluruh staf pengajar (dosen) Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri yang
telah memberikan pelajaran yang berarti bagi penulis selama menempuh studi.

 

 
 
 

5. Seluruh staf dan karyawan Program Pascasarjana Magister Ilmu Komputer


Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri yang
telah melayani penulis dengan baik selama kuliah.
6. Para sahabat yang telah memberingan dukungan.
7. Rekan-rekan BTI BSI yang telah memberikan pengalamannya.
8. Semua yang tak bisa saya sebutkan satu persatu.

Serta semua pihak yang terlalu banyak untuk penulis sebutkan satu persatu
sehingga terwujudnya penulisan tesis ini. Penulis menyadari bahwa penulisan
tesis ini masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran
yang bersifat membangun demi kesempurnaan penulisan karya ilmiah yang
penulis hasilkan untuk yang akan datang.
Akhir kata semoga tesis ini dapat bermanfaat bagi penulis khususnya dan bagi
para pembaca yang berminat pada umumnya.

Jakarta, 6 Februari 2011

Firmansyah
Penulis

 
vi 
 
 
 

SURAT PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH


UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya :

Nama : Firmansyah
NIM : 14000216
Program Studi : Magsiter Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Jenis Karya : Tesis

Demi pengembangan ilmu pengetahuan, dengan ini menyetujui untuk


memberikan ijin kepada pihak Program Pascasarjana Magister Ilmu Komputer
Sekolah Tinggi Manajemen Inbentukika dan Komputer Nusa Mandiri (STMIK
Nusa Mandiri) Hak Bebas Royalti Non-Eksklusif (Non-exclusive Royalti-Free
Right) atas karya ilmiah kami yang berjudul : “Penerapan Algoritma Klasifikasi
C4.5 untuk Penentuan Kelayakan Pemberian Kredit Koperasi” beserta perangkat
yang diperlukan (apabila ada).

Dengan Hak Bebas Royalti Non-Eksklusif ini pihak STMIK Nusa Mandiri
berhak menyimpan, mengalih-media atau bentuk-kan, mengelolaannya dalam
pangkalan data (database), mendistribusikannya dan menampilkan atau
mempublikasikannya di internet atau media lain untuk kepentingan akademis
tanpa perlu meminta ijin dari kami selama tetap mencantumkan nama kami
sebagai penulis/pencipta karya ilmiah tersebut.

Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak STMIK
Nusa Mandiri, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak
Cipta dalam karya ilmiah saya ini.

Demikian pernyataan ini saya buat dengan sebenarnya.

Jakarta, 6 Februari 2011


Yang menyatakan,
Materai Rp. 6.000,-

Firmansyah

 
vii 
 
 
 

ABSTRAK

Nama : Firmansyah
NIM : 14000216
Program Studi : Magister Ilmu Komputer
Jenjang : Strata Dua (S2)
Konsentrasi : e-Business
Judul : “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”

Kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan dengan itu,
berdasarkan persetujuan atau kesepakatan pinjam meminjam antara bank dengan
pihak lain yang mewajibkan pihak peminjam melunasi utangnya setelah jangka
waktu tertentu dengan pemberian bunga. Sebelum koperasi menyetujui kredit
yang diajukan oleh debitur, koperasi melakukan analisis kredit terhadap debitur
apakah pengajuan kredit disetujui atau tidak disetujui

Analisa kredit yang dilakukan oleh analis terkadang tidak akurat, sehingga
beberapa debitur yang diberikan kredit tidak mempunyai kemampuan untuk
membayar yang menyebabkan kredit macet. Dari permasalahan ini diperlukan
suatu model yang mampu mengklasifikasikan sekaligus memprediksi debitur
mana saja yang bermasalah dan tidak bermasalah.

Model pohon keputusan ternyata mampu meningkatkan akurasi dalam


menganalisa kelayakan kredit yang diajukan calon debitur. Semakin kaya
informasi atau pengetahuan yang dikandung oleh data training, maka akurasi
pohon keputusan akan semakin meningkat.

Kata kunci:
Analisa kredit, pohon keputusan, algoritma C4.5

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 


viii 
 
 

ABSTRACT

Name : Firmansyah
NIM : 14000216
Study of Program : Magister Ilmu Komputer
Levels : Strata Dua (S2)
Concentration : e-Business
Titel : “Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan
Kelayakan Pemberian Kredit Koperasi”

Credit is the provision of money or bills can be equivalent, under contracts


lending between banks by another party that requires the borrower repay the debt
after a certain period of time with interest. Prior to approve cooperative credit
proposed by the debtor, the cooperative credit analysis of borrowers whether
credit application is approved or not approved.

Credit analysis performed by analysts sometimes inaccurate, so some credit given


debtor has no ability to pay that cause bad credit. From this problem we need a
model that is able to classify at the same time predicting that troubled borrowers
everywhere and not problematic.

Decision tree model was able to improve the accuracy in analyzing the credit
worthiness of borrowers who filed. The more rich information or knowledge
contained by the training data, the accuracy of decision trees will increase.

Keyword :
Credit analysis, decision tree, C4.5 algorithm

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 


ix 
 
 

DAFTAR ISI

Halaman
HALAMAN SAMPUL............................................................................... i
HALAMAN JUDUL................................................................................... ii
HALAMAN PERNYATAAN ORISINALITAS........................................ iii
HALAMAN PENGESAHAN..................................................................... iv
KATA PENGANTAR................................................................................. v
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS.................................... vii
ABSTRAK.................................................................................................. viii
ABSTRACT................................................................................................... ix
DAFTAR ISI............................................................................................... x
DAFTAR TABEL........................................................................................ xi
DAFTAR GAMBAR................................................................................... xii
DAFTAR LAMPIRAN............................................................................... xiii
BAB 1. PENDAHULUAN.......................................................................... 1
1.1. Latar Belakang Penulisan........................................................ 1
1.2. Identifikasi Masalah................................................................ 3
1.3. Tujuan Penelitian..................................................................... 3
1.4. Ruang Lingkup Penelitian....................................................... 3
1.5. Manfaat penelitian.................................................................. 4
1.6. Ruang lingkup penelitian ....................................................... 4
1.7. Sistematika penulisan ............................................................ 4
BAB 2. LANDASAN/KERANGKA PEMIKIRAN................................... 5
2.1. Tinjauan Studi......................................................................... 5
2.2. Tinjauan Pustaka..................................................................... 6
2.3. Studi kasus .......................................................................... 14
2.4. Rapid Miner .......................................................................... 19
2.5. Kerangka pemikiran ................................................................. 20
BAB 3. METODE PENELITIAN............................................................... 22
BAB 4. HASIL PENELITIAN DAN PEMBAHASAN............................. 42
BAB 5. PENUTUP..................................................................................... 49
5.1. Kesimpulan............................................................................ 49
5.2. Saran..................................................................................... 49
DAFTAR REFERENSI.............................................................................. 50
SURAT KETERANGAN RISET/PRAKTEK KERJA LAPANGAN...... 52

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 



 
 

DAFTAR TABEL

Tabel 1.1 Laporan data debitur bermasalah ............................................... 2


Tabel 2.1 Atribut data debitur .................................................................... 7
Tabel 2.2 Tabel keputusan bermain tenis ................................................... 14
Tabel 2.3 Perhitungan node 1 ..................................................................... 15
Tabel 2.4 Perhitungan node 1.1 .................................................................. 16
Tabel 2.5 Perhitungan node 1.1.2 ............................................................... 17
Tabel 3.1 Data kredit tahun 2003 ............................................................... 23
Tabel 3.2 Data training kredit .................................................................... 24
Tabel 3.3 Kategori atribut ........................................................................... 30
Tabel 3.4 Data debitur bermasalah ............................................................ 31
Tabel 3.5 Perhitungan node 1 ..................................................................... 32
Tabel 3.6 Perhitungan node 1.1 dan 1.2 ..................................................... 33
Tabel 3.7 Perhitungan node 1.1.1 dan 1.2.1 ............................................... 33
Tabel 3.8 Perhitungan node 1.1.1.1 dan 1.1.1.2 ......................................... 34
Tabel 4.1 Data uji ....................................................................................... 42
Tabel 4.2 Hasil pengujian dengan C4.5 ..................................................... 43
Tabel 4.3 Konversi ke confusion matrix .................................................... 44
Tabel 4.4 Nilai sensitivity, specificity, precision, dan accuracy dalam persentase
..................................................................................................................... 45

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 


xi 
 
 

DAFTAR GAMBAR

Gambar 1.1 Grafik peningkatan kredit macet ............................................ 2


Gambar 2. 1 Data mining sebagai bagian dari proses knowledge discovery 8
Gambar 2. 2 (a) Tahap learning dan (b) tahap klasifikasi. .......................... 10
Gambar 2. 3 Contoh konsep pohon keputusan .......................................... 11
Gambar 2. 4 Pohon Keputusan Hasil Perhitungan Node 1 ........................ 16
Gambar 2. 5 Pohon keputusan hasil perhitungan Node 1.1 ....................... 17
Gambar 2. 6 Pohon keputusan hasil perhitungan Node 1.1.2 .................... 18
Gambar 2. 7 Tampilan area kerja Rapid Miner .......................................... 19
Gambar 2. 8 Tampilan hasil pohon keputusan ........................................... 20 
Gambar 2. 9 Kerangka pemikiran .............................................................. 21
Gambar 3. 1 Pohon keputusan dengan metode information gain .............. 36
Gambar 3. 2 Tampilan langkah 1 : memilih data training ......................... 38
Gambar 3. 3 Tampilan langkah 4 : menentukan atribut dan label ............. 39
Gambar 3. 4 Relasi antara data training dan model ................................... 40
Gambar 3.5 Pohon keputusan yang telah terbentuk ................................... 40
Gambar 4. 1 Model confusion matrix ........................................................ 44
Gambar 4.2 Confusion matrix dengan RapidMiner ................................... 46
Gambar 4.3 Nilai AUC dalam grafik ROC dengan metode information gain dan
gain ratio dengan memasukkan data uji ...................................................... 46
Gambar 4.4 Nilai AUC dalam grafik ROC metode gini index dengan memasukkan
data uji ........................................................................................................ 47
Gambar 4.5 Grafik ROC dengan perbandingan tiga metode, yaitu information
gain, gain ratio dan gini index tanpa memassukan data uji ....................... 47

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 


xii 
 
 

DAFTAR LAMPIRAN

Lampiran 1. Laporan kredit tahun 2003 ..................................................... 53

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri 


xiii 
 
 

BAB I
PENDAHULUAN
 

2.1 Latar Belakang Penulisan


Kredit adalah penyediaan uang atau tagihan yang dapat dipersamakan
dengan itu, berdasarkan persetujuan atau kesepakatan pinjam meminjam antara
bank dengan pihak lain yang mewajibkan pihak peminjam melunasi utangnya
setelah jangka waktu tertentu dengan pemberian bunga. Sedangkan Kredit Tanpa
Jaminan atau Kredit Tanpa Agunan (KTA) adalah kredit yang diberikan bank atau
lembaga keuangan dalam bentuk uang tunai, yang dapat diperoleh tanpa
memberikan jaminan. Kemudahan ini banyak dimanfaatkan oleh para nasabah
untuk meminjam sejumlah dana dari koperasi untuk digunakan berbagai keperluan
nasabah (UU Perbankan No. 10 tahun 1998).
Koperasi adalah merupakan usaha kekeluargaan dengan tujuan untuk
mensejahterakan anggotanya (UUD 1945 pasal 33 ayat 1). Umumnya koperasi
dikendalikan secara bersama oleh seluruh anggotanya dimana setiap anggota
memiliki hak suara yang sama dalam setiap keputusan yang diambil. Ada
beberapa tahap yang harus dilalui sebelum pinjaman dicairkan, mulai dari calon
debitur mengisi data dan mengajukan aplikasi, setelah aplikasi diterima oleh
koperasi, maka koperasi akan melakukan survey untuk memastikan apakah data
yang diisi oleh calon debitur benar adanya. Apabila tidak ada masalah dalam
proses survey, koperasi akan melakukan analisa berdasarkan aplikasi calon
debitur, termasuk latar belakang, kemampuan debitur dan lain-lain. Jika tahap ini
sudah disetujui maka dana yang diajukan oleh debitur akan dicairkan.
Kredit yang diajukan oleh debitur memiliki resiko, karena dari sekian
banyak debitur yang mengajukan aplikasi ada kemungkinan beberapa debitur
yang bermasalah dalam pembayarannya sehingga menyebabkan kredit macet.
Sebelum koperasi menyetujui kredit yang diajukan oleh debitur, koperasi
melakukan analisis kredit terhadap debitur apakah pengajuan kredit disetujui atau
tidak disetujui. Analisa kredit adalah penyelidikan faktor-faktor yang berpengaruh
pada lancarnya atau kurang lancarnya pengembalian kredit (Basuki, 2007).


 

 

Analisis kredit merupakan hal yang penting dalam lingkup resiko keuangan
(Lai, Yu, Zhou, & Wang, 2006), oleh karena itu perlunya dilakukan analisa.
Namun, melakukan proses analisa kredit membutuhkan waktu lama (Kotsiantis,
Kanellopoulos, Karioti, & Tampakas, 2009) dan mengidentifikasi data debitur
yang bermasalah merupakan hal yang sulit (Odeh, Featherstone, & Das, 2010).
Data yang besar dan banyaknya parameter tentunya membutuhkan alat yang
efektif dan efisien untuk melakukan analisa kredit dan menilai debitur yang
mempunyai resiko gagal bayar dan yang tidak beresiko.
Sebagai tolak ukur bahwa debitur disetujui atau ditolak, dapat digunakan
data histori debitur yang telah disetujui oleh koperasi. Namun, perlu diperhatikan
juga bahwa debitur yang telah disetujui juga tidak semuanya pembayar kredit
yang baik, artinya ada beberapa debitur yang telah disetujui tapi beberapa bulan
kemudian pembayarannya menunggak. Dibawah ini merupakan tabel yang
menunjukkan data debitur bermasalah disebabkan ketidakakuratan analis dalam
menganalisa kredit yang diajukan debitur sehingga menyebabkan kredit macet,
data ini diambil dari koperasi Sudin Pendidikan Jakarta Selatan yaitu :
Tabel 1.1 Laporan Data Debitur Bermasalah dari tahun 2003 s.d 2004 dalam persentase
(sumber : laporan koperasi Dikmenti Jaksel 2003-2004)
 
Tahun Jumlah Kredit
Anggota Macet
2003 239 12.13%
2004 259 12.74%

 
Gambar 2.1 Grafik peningkatan kredit macet dari tahun 2003 s.d 2004 (sumber : laporan 
simpan pinjam koperasi SUDIN Dikmenti Jaksel) 
 

 

 

Tabel 1.1 menunjukkan mulai tahun 2003 hingga tahun 2004 terjadi
kenaikan kredit macet, ini disebabkan karena sejumlah anggota koperasi yang
menunggak pembayaran kredit. Data di atas menjadi permasalahan bagi koperasi,
karena jika debitur tidak mampu membayar cicilan kredit dalam jangka waktu
yang telah ditentukan, maka ini akan menyebabkan kredit macet.
Ada beberapa penelitian dan tehnik analisa kredit yang dibuat oleh beberapa
peneliti seperti Lai, Yu, Zhou dan Wang (2006) yang melakukan evaluasi resiko
kredit dengan menggunakan model Least Square Support Vector Machines.
Henley dan Hand (1996) juga melakukan penilaian terhadap kredit debitur dengan
menggunakan model K Nearest Neighbour. Jiang (2009) membuat model untuk
memprediksi nasabah yang yang bermasalah dan tidak bermasalah dalam
pembayaran kredit dengan menggunakan model algoritma C4.5. Data yang
digunakan diambil dari perusahaan German credit yang merupakan perusahaan
pembiayaan. Jiang mengambil beberapa atribut dan kemudian dimasukkan ke
dalam model untuk memprediksi persentase nasabah yang bermasalah.
Untuk mengatasi permasalahan di atas, maka penulis menggunakan model
pohon keputusan algoritma C4.5. Model ini akan digunakan untuk memprediksi
apakah debitur nantinya akan bermasalah dalam pembayaran kredit atau tidak.
Model ini dipilih karena proses learning dan klasifikasi pada algoritma C4.5
sederhana dan cepat. Secara umum, model algoritma C4.5 mempunyai tingkat
akurasi yang tinggi (Han & Kamber, 2006).

2.2 Identifikasi Masalah


Permasalahan yang muncul berdasarkan uraian di atas adalah banyaknya
hasil analisis yang tidak akurat, seperti pengajuan kredit yang disetujui ternyata
bermasalah dalam pembayaran cicilan.

2.3 Tujuan Penelitian


Dengan menerapkan Pohon Keputusan berbasis algoritma C4.5 diharapkan
dapat meningkatkan keakuratan analisa kredit.

 

 

2.4 Manfaat Penelitian


Manfaat dari penelitian ini adalah :
a. Manfaat praktis dari penelitian ini adalah untuk memudahkan analis kredit
dalam memberikan keputusan.
b. Manfaat teoritis penelitian ini yatu untuk memberikan sumbangan
penerapan model algoritma C4.5.
c. Manfaat kebijakan yaitu agar algoritma C4.5 mampu menjadi alat
pendukung keputusan analis kredit.

2.5 Ruang Lingkup Penelitian


Ruang lingkup berfungsi untuk membatasi pembahasan pada pokok
permasalahan saja. Ruang lingkup wilayah penelitian yaitu mencakup Koperasi
SUDIN Jakarta Selatan, sedangkan ruang lingkup waktu yaitu dimulainya
penelitian hingga selesainya observasi yang dilakukan yaitu tanggal 1 Desember
2010 s.d 10 Januari 2011. Data yang diteliti mulai tahun 2003 hingga tahun 2004.

2.6 Sistematika Penulisan


Bab I : Pendahuluan. Membahas mengenai latar belakang penulisan, masalah
kredit yang terjadi di koperasi, pemecahan masalah dan tujuan penelitian.
Bab II : Landasan teori. Membahas tentang teori yang melandasi penelitian yaitu
model pohon keputusan dan algoritma C4.5. Studi kasus disajikan untuk memberi
contoh dan langkah algoritma C4.5.
Bab III : Metode penelitian. Membahas metode pengumpulan data dan
eksperimen. Eksperimen merupakan inti pembahasan dari bab ini, yaitu menguji
model algoritma C4.5 untuk memprediksi debitur bermasalah.
BAB IV : Hasil dan pembahasan. Menampilkan hasil dari eksperimen, baik
sebelum diterapkan model maupun setelah diterapkan model. Membahas metode
mengukur hasil dengan metode statistik. Ditampilkan hasil uji dalam model
statistik.
BAB V : Penutup. Membahas kesimpulan dari penelitian dan saran untuk
penelitian selanjutnya.

 
 
 

BAB II
LANDASAN/KERANGKA PEMIKIRAN
 

2.1 Tinjauan Studi


Ada beberapa penelitian yang menggunakan model Pohon Keputusan C4.5
sebagai algoritma untuk memprediksi berdasarkan data histori.
1. Credit Scoring Model Based on Decision Tree and the Simulated Annealing
Algorithm (Jiang, 2006).
Membuat model untuk memprediksi nasabah yang yang bermasalah dan tidak
bermasalah dalam pembayaran kredit dengan menggunakan model Pohon
Keputusan dan C4.5 dan Simulated Annealing Algoritma. Data yang
digunakan diambil dari perusahaan German credit yang merupakan
perusahaan pembiayaan. Jiang mengambil beberapa atribut dan kemudian
dimasukkan ke dalam model untuk memprediksi persentase nasabah yang
bermasalah.
2. Could Decision Trees Improve the Classification Accuracy and
Interpretability of Loan Granting Decisions ? (Zurada, 2010).
Membuat penelitian untuk membandingkan beberapa algoritma seperti
Regresi Linier, Neural Network, Support Vector Machine, Case Base
Reasoning, Rule Based Fuzzy Neural Network dan Decision Tree. Semua
model algoritma tadi digunakan untuk menganalisa persetujuan pinjaman
dalam bentuk kredit. Dari hasil penelitian didapatkan bahwa Decision Tree
terbukti mempunyai akurasi tertinggi dalam menentukan keputusan
dibandingkan algoritma lain.
3. Comparing decision trees with logistic regression for credit risk analysis
(Satchidananda & Simha, 2006).
Penelitian ini membandingkan dua model algoritma untuk analisa resiko
kredit, yaitu Pohon Keputusan dan Regresi Logistik. Data diambil dari dua
bank yang berbeda, kemudian untuk mengelompokkan kasus positif dan
negatif maka dilakukan klustering data dengan menggunakan k-means. Hasil
analisa dari masing-masing model dikomparasi dan kemudian diukur.,


6
 

kemudian didapatkan bahwa algoritma pohon keputusan mempunyai tingkat


akurasi yang tinggi dibandingkan algoritma regresi logistik.
Dari semua penelitian dan model yang digunakan, terbukti bahwa pohon
keputusan dan algoritma C4.5 mampu menyelesaikan masalah yang berhubungan
dengan analisa kredit dan membuktikan pohon keputusan menghasilkan akurasi
yang lebih baik dibanding model lain.

2.2 Tinjauan Pustaka


Dalam penulisan tesis ini, penulis menggunakan buku, prosiding, dan jurnal
sebagai referensi untuk menjelaskan model algoritma C4.5.

2.2.1 Kredit
Pengertian kredit pada pasal 1 angka 11 Undang-undang no 10 tahun 1998
tentang perubahan undang-undang no 7 tahun 1992 tentang Perbankan adalah
penyediaan uang atau tagihan yang dapat dipersamakan dengan itu, berdasarkan
persetujuan atau kesepakatan pinjam meminjam antar bank dengan pihak lain
yang mewajibkan pihak peminjam untuk melunasi utangnya dalam jangka waktu
tertentu dengan pemberian bunga.
Ada beberapa prinsip penilaian kredit yang sering dilakukan, yaitu prinsip
5C (Kasmir, 2000) dalam (Triwahyuniati, 2008):
1. Character, adalah watak atau sifat seseorang dalam hal ini adalah calon
debitur. Tujuannya adalah untuk memberikan keyakinan kepada bank, bahwa
watak atau sifat dari orang-orang yang akan diberikan kredit benar-benar dapat
dipercaya.
2. Capacity, untuk melihat kemampuan calon nasabah dalam membayar kredit
dihubungkan dengan kemampuan mengelola bisnis serta kemampuan mencari
laba.
3. Capital, dimana dimana untuk mengetahui sumber-sumber pembiayaan yang
dimiliki nasabah terhadap usaha yang akan dibiayai oleh bank.
4. Collateral, merupakan jaminan yang diberikan calon nasabah baik yang
bersifat fisik maupun non fisik.
5. Condition, dalam menilai kredit hendaknya dinilai kondisi ekonomi sekarang
dan untuk di masa yang akan datang sesuai sektor masing-masing.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
7
 

Tehnik analisa kredit dengan menggunakan algoritma C4.5 diharapkan


dapat meminimalkan masuknya debitor yang bermasalah, karena semakin banyak
debitur bermasalah maka akan semakin memperbesar tingkat kredit macet yang
pada akhirnya dapat menimbulkan kebangkrutan. Ditulis dalam (Zurada, 2010)
bahwa ada beberapa atribut yang menyertai data debitur yaitu seperti umur,
jumlah kredit, checking, penjamin, jangka kredit, lama bekerja, jumlah akun di
bank, status pekerjaan, histori kredit, status rumah, dana aman, status pernikahan,
alasan pinjaman, dan lain-lain. Namun dalam penelitian ini hanya beberapa atribut
penting yang digunakan sebagai ukuran untuk menganalisa calon debitur, yaitu :
Tabel 2. 1 Atribut data debitur dibagi berdasarkan nilai kategorikal dan
nilai kontinu.
Nama Atribut Sifat Nilai
Jumlah Tanggungan Kategorikal
Level Pekerjaan Kategorikal
Jumlah Pinjaman Nilai Kontinu
Jangka Waktu Kategorikal
Penghasilan Nilai Kontinu
Class Kategorikal

Pada tabel 2.1 di atas sifat nilai dibagi dua yaitu kategorikal dan nilai kontinu,
kategorikal merupakan nilai yang bukan dalam bentuk angka seperti jumlah
tanggungan dibagi berdasarkan kategori sedikit, sedang dan banyak. Sedangkan
nilai kontinu adalah nilai atribut yang bernilai angka, seperti jumlah pinjaman Rp.
10.000.000, merupakan nilai nominal. Sebenarnya nilai kategorikal merupakan
nilai yang diambil dari nilai angka, namun untuk memudahkan dalam proses
analisa maka angka-angka tersebut dibagi menjadi beberapa kategori.

2.2.2 Data Mining


Data mining merupakan disebut sebagai proses ektraksi pengetahuan dari
data yang besar. Sesuai fungsinya, data mining adalah proses pengambilan
pengetahuan dari volume data yang besar yang disimpan dalam basis data, data
warehouse, atau informasi yang disimpan dalam repositori (Han & Kamber,
2006). Gartner Group dalam (Larose, 2005) menyebutkan bahwa data mining
adalah proses menelusuri pengetahuan baru, pola dan tren yang dipilah dari
jumlah data yang besar yang disimpan dalam repositori atau tempat penyimpanan

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
8
 

dengan menggunakan teknik pengenalan pola serta statistik dan tehnik


matematika.
Data mining merupakan bagian dari proses Knowledge Discovery from
Data (KDD). Di bawah ini digambarkan skema dari proses KDD :

Gambar 2. 1 Data mining sebagai bagian dari proses knowledge discovery (sumber
gambar: Data mining concept and tehniques, Han & Kamber).

Gambar 2.1 di atas menunjukkan proses penjelajahan pengetahuan dimulai dari


beberapa database dilakukan proses cleaning dan integration sehingga

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
9
 

menghasilkan data warehouse. Dilakukan proses selection dan transformation


yang kemudian disebut sebagai data mining hingga menemukan pola dan
memperoleh pengetahuan dari data (knowledge).

2.2.3 Klasifikasi
Menganalisa konsumen yang akan membeli komputer atau menganalisa
apakah seseorang mengidap kanker merupakan contoh proses klasifikasi dalam
data mining dimana klasifikasi dapat menghasilkan sebuah prediksi seperti
“beresiko” dan “tidak beresiko”, atau “ya” dan “tidak”. Pada gambar 2.2
menunjukkan bagaimana proses klasifikasi. Tahap pertama adalah proses learning
yaitu data training dianalisa oleh algoritma klasifikasi dan menghasilkan sejumlah
aturan, yaitu proses menganalisa data training oleh algoritma klasifikasi,
kemudian tahap kedua yaitu training adalah menguji akurasi dari algoritma
klasifikasi dengan memasukkan sejumlah data. Kedua tahap tersebut terlihat pada
gambar 2.2 di bawah ini :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
10
 

Gambar 2. 2 (a) Tahap learning : data training dianalisa oleh algoritma klasifikasi dan
menghasilkan sejumlah aturan. dan (b) tahap klasifikasi: menguji akurasi dari algoritma
klasifikasi dengan memasukkan sejumlah data. (sumber : Han & Kamber, 2006)

Gambar 2.2(a) menunjukkan bahwa pada tahap learning, data training dianalisa
oleh algoritma klasifikasi sehingga menghasilkan sejumlah aturan atau rule.
Kemudian di gambar 2.2(b) pada tahap klasifikasi, sejumlah aturan yang telah
dihasilkan pada tahap learning akan diuji akurasinya dengan memasukkan
sejumlah data uji. Jika data uji terbukti akurat dan dapat diterima , maka model
dapat diterapkan untuk tupel berikutnya.

2.2.4 Algoritma C4.5


Pohon keputusan mirip sebuah sebuah struktur pohon dimana terdapat node
internal (bukan daun) yang mendeskripsikan atribut-atribut, setiap cabang

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
11
 

menggambarkan hasil dari atribut yang diuji, dan setiap daun menggambarkan
kelas. Pohon keputusan bekerja mulai dari akar paling atas, jika diberikan
sejumlah data uji, misalnya X dimana kelas dari data X belum diketahui, maka
pohon keputusan akan menelusuri mulai dari akar sampai node dan setiap nilai
dari atribut sesuai data X diuji apakah sesuai dengan aturan pohon keputusan,
kemudian pohon keputusan akan memprediksi kelas dari tupel X.

Gambar  2.  3  Contoh  konsep  pohon  keputusan  untuk  menentukan  pembelian


Gambarkomputer berdasarkan atribut age, student dan credit rating. 
2.1 di atas merupakan pohon keputusan untuk memprediksi   apakah
Gambar 2.3 menggambarkan pohon keputusan untuk memprediksi apakah
seseorang membeli komputer. Node internal disimbolkan dengan persegi, cabang
disimbolkan dengan garis, dan daun disimbolkan dengan oval.
Algoritma C4.5 dan pohon keputusan merupakan dua model yang tak
terpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhan
algoritma C4.5. Di akhir tahun 1970 hingga di awal tahun 1980-an, J. Ross
Quinlan seorang peneliti di bidang mesin pembelajaran mengembangkan sebuah
model pohon keputusan yang dinamakan ID3 (Iterative Dichotomiser), walaupun
sebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J. Marin, dan P.T.
Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3 yang
dinamakan C4.5 yang berbasis supervised learning.
Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan
algoritma C4.5 (Kusrini & Luthfi, 2009), yaitu :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
12
 

1. Menyiapkan data training. Data training biasanya diambil dari data histori yang
pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas
tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang
terpilih,dengan cara menghitung nilai Gain dari masing-masing atribut, nilai
Gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung
nilai Gain dari atribut, hitung dahulu nilai entropy yaitu :
n
Entropy ( S ) = ∑ − pi * log 2 pi (1.1)
i =1

Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S
3. Kemudian hitung nilai Gain dengan metode information gain :
n
| Si |
Gain( S , A) = Entropy ( S ) − ∑ * Entropy ( S i ) (1.2)
i =1 | S |

Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat :
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.

2.2.5 Klasifikasi Rule Based


Rule based atau algoritma berbasis aturan merupakan cara terbaik untuk
merepresentasikan sejumlah bit data atau pengetahuan (Han & Kamber, 2006).

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
13
 

Rule based biasanya dituliskan dalam bentuk logika IF-THEN atau jika dibuat
persamaannya yaitu :
IF condition THEN conlusion
contoh sebuah rule yaitu :
IF age=youth AND student=yes THEN buys_computer=yes
Pernyataan IF dari persamaan di atas dikenal sebagai rule antecedent atau
precondition sedangkan pernyataan THEN disebut sebagai rule consequent.
Dalam rule antecedent biasanya menyertakan satu atau lebih atribut (misalnya
atribut age dan student) dan menggunakan logika AND jika menggunakan lebih
dari satu atribut. Rule consequent merupakan prediksi kelas, dalam contoh di atas
prediksinya yaitu membeli komputer atau buys_computer=yes (Han & Kamber,
2006).
Aturan-aturan dalam rule based dapat diturunkan dari pohon keputusan
yang telah terbentuk. Karena pohon keputuan yang besar, terkadang sulit untuk
menginterpretasikan pohon bentuk keputusan (Han & Kamber, 2006). Agar
pohon keputusan ini dapat lebih mudah dipahami oleh manusia, maka perlu
diinterpretasikan dalam bentuk aturan-aturan atau rule based. Contoh rule based
hasil ektraksi dari pohon keputusan pada gambar 2.1 yaitu :
R1: IF age=youth AND student=no THEN buys_computer=no
R2: IF age=youth AND student=yes THEN buys_computer=yes
R2: IF age=middle_aged THEN buys_computer=yes
R2: IF age=senior AND credi_rating=excellent THEN buys_computer=yes
R2: IF age=senior AND credi_rating=fair THEN buys_computer=no
Dalam kasus ini tidak digunakan logika OR, karena aturan-aturan
diekstraksi langsung dari pohon keputusan yang disebut mutually exclusive dan
exhaustive. Dengan mutually exclusive artinya tidak ada aturan yang berbenturan
atau konflik karena tidak boleh ada dua aturan dalam dalam tupel yang sama.
Sedangkan exhaustive artinya dalam satu set aturan merupakan kombinasi nilai
yang mungkin, artinya setiap aturan pasti menggambarkan kombinasi atribut dan
nilai yang mungkin (Han & Kamber, 2006).

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
14
 

2.3 Studi Kasus


Sebagai contoh, di bawah ini terdapat tabel keputusan bermain tenis
(Kusrini & Luthfi, 2009) :
Tabel 2. 2 Tabel keputusan bermain tenis berdasarkan atribut outlook, temperature,
humidity, dan windy
Id Outlook Temperature Humidity Windy Play
1 Sunny Hot High FALSE No
2 Sunny Hot High TRUE No
3 Cloudy Hot High FALSE Yes
4 Rainy Mild High FALSE Yes
5 Rainy Cool Normal FALSE Yes
6 Rainy Cool Normal TRUE Yes
7 Cloudy Cool Normal TRUE Yes
8 Sunny Mild High FALSE No
9 Sunny Cool Normal FALSE Yes
10 Rainy Mild Normal FALSE Yes
11 Sunny Mild Normal TRUE Yes
12 Cloudy Mild High TRUE Yes
13 Cloudy Hot Normal FALSE Yes
14 Rainy Mild High TRUE No

Tabel 2.2 merupakan data training untuk menentukan seseorang bermain tenis
berdasarkan atribut outlook, temperature, humidity, dan windy. Kolom play
merupakan class dari masing-masing tupel. Dari tabel di atas akan dibuat pohon
keputusan untuk menentukan keputusan bermain tenis berdasarkan cuaca,
kelembaban, temperatur dan angin. Ada beberapa langkah untuk membuat
keputusan, yaitu :
1. Tabel 2.2 di atas merupakan data training beserta kelasnya.
2. Menghitung jumlah kasus keputusan Yes, jumlah kasus keputusan No dan
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut outlook,
temperature, humidity, dan windy. Kemudian, lakukan penyeleksian atribut
dengan menghitung Gain tertinggi.
Baris Total kolom Entropy pada tabel 2.2 dihitung dengan persamaan 2 sebagai
berikut :
4 4 10 10
Entropy (Total ) = (− * log 2 ( )) + (− * log 2 ( ))
14 14 14 14
Entropy (Total ) = 0.86

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
15
 

3. Hitung nilai Gain masing-masing atribut dengan persamaan 1 sebagai berikut


(lihat tabel 2.2). Sebagai contoh, menghitung nilai Gain pada baris Outlook
dengan persamaan 1 :
n
| Outlook i |
Gain(Total , Outlook ) = Entropy (Total ) − ∑ * Entropy (Outlook i )
i =1 | Total |
4 5 5
Gain(Total , Outlook ) = 0.863120569 − (( * 0) + ( * 0.723) + ( * 0.97))
14 14 14
Gain(Total , Outlook ) = 0.23
4. Nilai Gain untuk Temperature, Humidity dan Windy juga dilakukan
perhitungan nilai Gain. Nilai Gain yang paling tinggi akan menjadi node akar
dari pohon. Dari hasil tabel 2.3 di bawah dapat dilihat bahwa Gain tertinggi
dimiliki oleh atribut Humidity yaitu sebesar 0.37.
Tabel 2. 3 Perhitungan Node 1
Nod Jml Tidak Ya Entropy Gain
kasus (S) (Si) (Si)

1 Total 14 4 1 0.86

Outlook 0.25
Cloudy 4 0 4 0
Rainy 5 1 4 0.72
Sunny 5 3 2 0.97
Temperature 0.18
Cool 4 0 4 0
Hot 4 2 2 1
Mild 6 2 4 0.92
Humidity 0.37
High 7 4 3 0.98
Normal 7 0 7 0
Windy 0.005
9
False 8 2 6 0.81
True 6 4 2 0.92

Atribut Humidity mempunyai dua nilai yaitu High dan Normal. Dari kedua nilai
tersebut, nilai atribut normal sudah mengklasifikasikan kasus menjadi 1, karena
jika dilihat dari data training keputusan untuk semua nilai Normal mempunyai
kelas yang sama yaitu Yes sehingga tidak perlu dilakukan partisi node, tetapi

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
16
 

perlu partisi node untuk nilai High. Gambar 2.4 menunjukkan atribut Humidity
menjadi akar dari pohon dan dipartisi menjadi dua yaitu High dan Normal.

Tabel 2. 4 Pohon Keputusan Hasil Perhitungan Node 1   
Gambar 2. 4 Pohon Keputusan Hasil Perhitungan Node 1
Gambar 2. 5 Pohon Keputusan Hasil Perhitungan Node 1
 
a. Menghitung jumlah kasus Yes dan No serta menghitung entropy dari semua
kasus pada atribut Outlook, Temperature, dan Windy yang dapat menjadi akar
dari nilai atribut High. Kemudian, lakukan perhitungan Gain untuk tiap-tiap
atribut.
Tabel 2.4 Perhitungan Node 1.1
Node Jml Tidak Ya Entropy Gain
kasus (S1) (S2)
(S)
1. Humidity- 7 4 3 0.985228136
High
Outlook 0.69951385
Cloudy 2 0 2 0
Rainy 2 1 1 1
Sunny 3 3 0 0
Temperature 0.020244207
Cool 0 0 0 0
Hot 3 2 1 0.918295834
Mild 4 2 2 1
Windy 0.020244207
False 4 2 4 1
True 3 2 1 0.918295834

Dari tabel 2.4 di atas dapat dilihat bahwa nilai Gain tertinggi didapat oleh
atribut Outlook, yaitu sebesar 0.67. Dengan demikian atribut Outlook dapat
menjadi node cabang dari nilai atribut High. Ada tiga nilai dari atribut Outlook

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
17
 

yaitu Cloudy, Rainy, dan Sunny. Dari ketiga nilai tersebut, nilai atribut Cloudy
sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes dan nilai
atribut Sunny sudah mengklasifikasikan kasus menjadi satu dengan keputusan
No, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai
atribut Rainy masih perlu dilakukan perhitungan lagi. Gambar 2.5
menunjukkan atribut outlook dipartisi menjadi cloudy, rainy, dan sunny.
Pohon keputusan yang terbentuk pada tahap ini ditunjukkan oleh gambar 2.5
berikut :

 
  Gambar 2. 5 Pohon keputusan hasil perhitungan Node 1.1 
 
b. Menghitung jumlah kasus Yes dan No serta menghitung entropy dari semua
kasus pada atribut Temperature dan Windy yang dapat menjadi node cabang
dari nilai atribut Rainy. Kemudian, lakukan perhitungan Gain untuk tiap-tiap
atribut.
Tabel 2. 5 Perhitungan Node 1.1.2
Node Jml Tidak Ya Entropy Gain
kasus (S1) (S2)
(S)
1.1.2 Humidity- 2 1 1 1
High dan
Outlook
Rainy
Temperature 0
Cool 0 0 0 0

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
18
 

Hot 0 0 0 0
Mild 2 1 1 1
Windy 1
False 1 0 1 0
True 1 1 0 0

Dari tabel 2.5 diketahui bahwa atribut dengan Gain tertinggi adalah atribut
Windy, yaitu sebesar 1. Maka, atribut Windy dapat menjadi node cabang dari
nilai atribut Windy, yaitu False dan True. Dari kedua nilai tersebut, nilai atribut
False sudah mengklasifikasikan kasus menjadi 1, yaitu keputusannya Yes dan
nilai atribut True sudah mengklasifikasikan kasus menjadi 1 dengan keputusan
No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut
ini. Pohon keputusan yang terbentuk pada tahap ini ditunjukkan oleh gambar
2.6 berikut :

Gambar 2. 6 Pohon keputusan hasil perhitungan Node 1.1.2

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
19
 

Pada gambar 2.6, semua kasus pada pohon keputusan sudah masuk ke dalam kelas
sehingga tidak ada lagi kasus/atribut yang dapat dipartisi. Pohon keputusan dari
gambar 2.6 dapat diekstraksi sejumlah aturan, yaitu :
R1: IF humidity=high AND THEN play=yes
R2: IF humidity=high AND outlook=rainy AND windy=false THEN play=yes
R3: IF humidity=high AND outlook=rainy AND windy=true THEN play=no
R4: IF humidity=high AND outlook=sunny THEN play=no
R5: IF humidity=normal THEN play=yes

2.4 Rapid Miner

Gambar 2. 6 Tampilan area kerja Rapid Miner. Yang dimasukkan yaitu data training
dan model yaitu decision tree.

Gambar 2.7 di atas merupakan tampilan area kerja Rapid Miner. Rapid
Miner merupakan perangkat lunak yang dibuat oleh Dr. Markus Hofmann dari
Institute of Technology Blanchardstown dan Ralf Klinkenberg dari rapid-i.com
dengan tampilan GUI (Graphical User Interface) sehingga memudahkan pengguna
dalam menggunakan perangkat lunak ini. Perangkat lunak ini bersifat open source
dan dibuat dengan menggunakan bahasa Java di bawah lisensi GNU Public
License dan Rapid Miner dapat dijalankan di sistem operasi manapun . Dengan
menggunakan Rapid Miner, tidak dibutuhkan kemampuan koding khusus, karena
semua fasilitas sudah disediakan. Rapid Miner dikhususkan untuk penggunaan

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
20
 

data mining. Model yang disediakan juga cukup lengkap, seperti model Bayesian
Modelling, Tree Induction,Neural Network dan lain-lain.
Banyak metode yang disediakan oleh Rapid Miner mulai dari klasifikasi,
klustering, asosiasi dan lain-lain. Jika tidak ada metode atau model algoritma yang
tidak ada dalam Weka, pengguna boleh menambahkan modul lain, karena Weka
bersifat open source, jadi siapapun dapat ikut mengembangkan perangkat lunak
ini. Dapat dilihat pada gambar 2.8 pohon yang diekstraksi dari data training dan
model.

Gambar 2. 7 Tampilan hasil pohon keputusan. Pohon akan tampil otomatis saat
dijalankan lewat rapid miner.

2.5 Kerangka Pemikiran


Gambar 2.9 di bawah ini adalah kerangka pemikiran dari penelitian ini,
dimulai dari problem (permasalahan) analisa kredit yang tidak akurat kemudian
dibuat approach (model) yaitu algoritma C4.5 untuk memecahkan permasalahan.
Untuk mengembangkan aplikasi (development) berdasarkan model yang dibuat,
digunakan Rapid Miner. Tahap berikutnya yaitu implementation (implementasi),
pada tahap ini objek implementasi dilakukan di koperasi simpan pinjam, tehnik
sampling menggunakan random sample, dan desain ekperimennya digunakan
CRISP-DM. Kerangka pemikiran dalam penulisan thesis ini yaitu :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
21
 

Problem

Analisa kredit tidak 
akurat 

Approach

Model klasifikasi pohon 
keputusan dan 
algoritma C4.5 

Development

Framework Rapidminer 

Implementation 

Obyek :  Tehnik sampling :  Desain eksperimen : 


koperasi  random  CRISP‐DM 

Measurement
Confusion  Kurva ROC 
matrix 

Result
Algoritma C4.5  terbukti akurat 
dalam penentuan kelayakan 

Gambar 2. 8 Kerangka pemikiran. Dimulai dari problem, approach, 
development, implementation, measurement, dan result. 

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
 
 

BAB III
METODE PENELITIAN

3.1 Perancangan Penelitian


3.1.1 Desain Riset
Desain riset yang digunakan dalam penelitian ini adalah metode
eksperimen. Metode ini menguji kebenaran sebuah hipotesis dengan statistik dan
menghubungkannya dengan masalah penelitian (C.R.Kothari, 2004). Misalnya,
menguji apakah tinggi rendahnya honor seorang dosen mempengaruhi kinerja
proses belajar mengajar. Desain eksperimen juga dibagi dua, yaitu eksprimen
absolut dan eksperimen komparatif. Eksperimen absolut mengarah kepada
dampak yang dihasilkan dari eksperimen, misalnya pengaruh honor dosen
terhadap kinerja. Sedangkan eksperimen komparatif yaitu membandingkan dua
objek yang berbeda, misalnya membandingkan dua algoritma yang berbeda
dengan melihat hasil statistik masing-masing mana yang lebih baik (C.R.Kothari,
2004). Dalam penelitian ini, penulis mengambil model eksperimen absolut.
3.1.2. Pengumpulan data
Ada dua tipe dalam pengumpulan data, yaitu pengumpulan data primer dan
pengumpulan data sekunder. Data primer adalah data yang dikumpulkan pertama
kali dan untuk melihat apa yang sesungguhnya terjadi. Data sekunder adalah data
yang sebelumnya pernah dibuat oleh seseorang baik di terbitkan atau tidak
(C.R.Kothari, 2004). Dalam pengumpulan data primer, penulis menggunakan
metode observasi dan interview, dengan menggunakan data-data yang
berhubungan pengajuan kredit dan bertanya secara langsung kepada pihak yang
terlibat secara langsung di dalam sistem. Sedangkan dalam pengumpulan data
sekunder menggunakan buku, jurnal, publikasi dan lain-lain.
3.2 Eksperimen
Ada beberapa tahap yang dilakukan dalam melakukan eksperimen ini,
penulis menggunakan model Cross-Standard Industry for Data Mining (CRISP-
DM) (Larose, 2005) yang terdiri dari 6 tahap, yaitu :

22 
 
23 
 

1. Tahap business understanding.


Berdasarkan laporan kredit tahun 2003 ditemukan kredit macet sebanyak 29
orang, sehingga ini menjadi permasalahan koperasi dan merupakan imbas dari
analisa analis yang kurang akurat. Agar akurat, maka dikembangkan model
klasifikasi algoritma C4.5 untuk menentukan kelayakan pemberian kredit
dengan tujuan analisa yang dilakukan lebih akurat.
2. Tahap data understanding.
Data kredit diambil dari koperasi SUDIN Jakarta Selatan pada tahun 2003
hingga 2004, dimana dari 239 debitur, 29 diantaranya bermasalah dalam
pembayaran atau dengan istilah lain macet dalam pembayaran kreditnya. Ada
beberapa atribut yang digunakan di dalam data debitur yaitu no anggota ( no
keanggotaan yang diberikan koperasi), jumlah tanggungan (jumlah anak), level
golongan (tingkatan golongan pada pegawai negeri), level pinjaman (besar
pinjaman yang diberikan kepada debitur), jangka waktu (lama pinjaman dalam
tahun), dan class (label yang diberikan kepada debitur, label baik untuk yang
pembayarannya lancar, dan bermasalah jika kreditnya macet).
Nilai dari semua atribut yang ada di tabel, merupakan nilai kategorikal dan
bukan nilai angka, misalnya seperti atribut Jumlah Tanggungan yang
mempunyai nilai sedikit merupakan kategori jika debitur mempunyai jumlah
anak 1 sampai 2. Gambar 3.1 di bawah ini ditampilkan nama atribut, kategori,
dan nilai angka (rangenya). Berikut rule nilainya :
 
Tabel 3. 1 Kategori atribut 
Atribut Nilai Angka Kategori
Jumlah 1-2 Sedikit
Tanggungan
3-5 Sedang
>5 Banyak
0 Kosong
Level Golongan IA – ID I
IIA – IID II
IIIA – IIID III
IVA – IVE IV
Level Pinjaman Rp. 1000.000 - Kecil
Rp.
5.000.000
Rp. 5.000.001 Sedang

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
24 
 

- Rp.
10.000.000
Rp. 10.000.001 Besar
- Rp.
15.000.000
Jangka Waktu 1 tahun 1
2 tahun 2
3 tahun 3

3. Tahap data preparation.


Tabel di bawah ini menunjukkan data transaksi kredit baik yang bermasalah
maupun yang tidak bermasalah.
 
Tabel 3. 2 Data kredit tahun 2003 sebanyak 239 nasabah dengan atributnya jumlah 
tanggungan, level golongan, level pinjaman dan jangka waktu. 29 diantaranya 
bermasalah dalam pembayaran kreditnya. 
No Jumlah
anggot Tanggunga Level Level Jangka
No a n Golongan Pinjaman Waktu Class
1 1 Sedang III Kecil 2 Baik
Bermasala
2 6 Sedang II Sedang 3 h
3 10 Sedang II Kecil 2 Baik
4 29 Sedikit III Sedang 3 Baik
5 32 Sedikit IV Sedang 3 Baik
6 34 Sedang III Sedang 3 Baik
Bermasala
7 38 Banyak II Sedang 3 h
8 44 Sedang III Sedang 3 Baik
9 45 Sedikit II Sedang 3 Baik
Bermasala
10 51 Sedikit II Sedang 3 h
11 59 Sedikit II Sedang 3 Baik
12 71 Sedang III Besar 3 Baik
13 73 Banyak III Sedang 2 Baik
14 74 Banyak II Sedang 3 Baik
15 76 Sedikit II Sedang 3 Baik
16 77 Sedang III Besar 3 Baik
17 80 Sedikit II Sedang 3 Baik
18 86 Sedikit IV Besar 3 Baik
Bermasala
19 87 Sedikit III Besar 2 h
20 100 Sedikit II Sedang 2 Baik
21 101 Sedang III Sedang 3 Baik
22 103 Sedang II Sedang 2 Baik
23 104 Sedikit III Sedang 2 Baik
24 105 Sedang III Sedang 3 Baik
Bermasala
25 106 Banyak I Sedang 3 h
26 109 Sedikit II Besar 3 Bermasala

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
25 
 

h
27 110 Banyak III Sedang 3 Baik
28 111 Sedang III Sedang 3 Baik
Bermasala
29 117 Sedang II Sedang 3 h
30 120 Kosong II Sedang 3 Baik
31 122 Sedikit II Sedang 3 Baik
32 123 Kosong III Sedang 3 Baik
33 125 Sedang III Sedang 3 Baik
34 126 Sedang III Sedang 3 Baik
35 129 Sedikit III Kecil 2 Baik
36 130 Kosong III Sedang 3 Baik
37 133 Banyak III Sedang 3 Baik
38 135 Banyak II Sedang 3 Baik
39 136 Sedang III Kecil 3 Baik
40 138 Sedang IV Sedang 3 Baik
41 150 Sedikit IV Sedang 3 Baik
42 164 Sedikit II Sedang 3 Baik
43 165 Sedikit III Sedang 3 Baik
44 166 Kosong III Sedang 3 Baik
45 174 Sedikit IV Sedang 3 Baik
46 177 Kosong IV Sedang 3 Baik
47 181 Sedang IV Sedang 3 Baik
Bermasala
48 185 Banyak IV Sedang 3 h
49 199 Sedikit III Sedang 3 Baik
50 221 Sedang III Sedang 3 Baik
51 224 Sedang III Kecil 2 Baik
52 244 Kosong II sedang 3 Baik
53 245 Kosong III sedang 3 Baik
54 250 Sedang IV sedang 3 Baik
55 256 Banyak IV sedang 3 Baik
56 259 Sedang III sedang 3 Baik
57 282 Sedikit III besar 3 Baik
58 286 Kosong II sedang 3 Baik
Bermasala
59 291 Banyak II sedang 3 h
60 298 Banyak III sedang 3 Baik
Bermasala
61 299 Sedang III sedang 3 h
62 304 Sedang II sedang 3 Baik
63 305 Sedikit III sedang 3 Baik
64 318 Sedikit IV sedang 2 Baik
65 322 Sedikit II sedang 3 Baik
66 323 Kosong III besar 3 Baik
67 324 Sedikit III Kecil 3 Baik
68 328 Kosong III sedang 3 Baik
69 331 Sedikit III sedang 3 Baik
70 332 Sedikit IV sedang 3 Baik
71 337 Kosong IV sedang 3 Baik
72 341 Sedikit III sedang 3 Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
26 
 

73 345 Kosong II besar 3 Baik


Bermasala
74 149 Sedang II sedang 3 h
75 350 Banyak III sedang 3 Baik
76 354 Sedikit III sedang 3 Baik
77 357 Sedang III sedang 3 Baik
78 359 Sedang III sedang 3 Baik
Bermasala
79 365 Kosong II sedang 3 h
Bermasala
80 375 Kosong III sedang 3 h
81 379 Sedang I sedang 3 Baik
82 380 Banyak III sedang 3 Baik
83 387 Sedang II sedang 3 Baik
Bermasala
84 389 Sedikit II besar 3 h
85 395 Sedang IV Kecil 2 Baik
86 399 Sedang IV sedang 3 Baik
87 426 Sedang III sedang 3 Baik
88 417 Sedikit III sedang 3 Baik
89 419 Sedikit III sedang 3 Baik
Bermasala
90 421 Sedang II sedang 3 h
91 442 Banyak III sedang 3 Baik
92 445 Sedang IV besar 3 Baik
Bermasala
93 470 Banyak IV sedang 3 h
94 471 Banyak III sedang 3 Baik
95 483 Sedang III sedang 3 Baik
96 488 Sedang II sedang 3 Baik
97 492 Sedikit II sedang 3 Baik
98 499 Sedikit III sedang 3 Baik
99 517 Sedikit III sedang 3 Baik
100 524 Kosong II sedang 3 Baik
Bermasala
101 525 Sedikit II sedang 3 h
102 527 Kosong III sedang 3 Baik
103 530 Sedikit III besar 3 Baik
104 556 Sedikit III sedang 3 Baik
105 561 Kosong III sedang 3 Baik
Bermasala
106 563 Sedikit III sedang 3 h
107 577 Kosong III sedang 3 Baik
108 579 Sedang II sedang 3 Baik
109 580 Banyak III sedang 3 Baik
110 584 Sedikit IV Kecil 2 Baik
111 585 Sedang IV sedang 1 Baik
112 586 Sedang II sedang 2 Baik
113 594 Sedang III sedang 2 Baik
114 595 Banyak III sedang 2 Baik
115 598 Sedikit III sedang 2 Baik
116 607 Sedang III sedang 2 Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
27 
 

117 641 Sedang II sedang 3 Baik


118 644 Kosong III sedang 2 Baik
119 653 Kosong IV besar 2 Baik
120 656 Sedang II sedang 2 Baik
121 659 Banyak III sedang 3 Baik
122 671 Sedang III sedang 3 Baik
123 686 Sedikit IV besar 3 Baik
124 688 Sedang IV sedang 3 Baik
125 689 Sedang III sedang 3 Baik
126 690 Sedang III sedang 2 Baik
Bermasala
127 697 Sedikit II sedang 2 h
128 703 Sedikit III sedang 3 Baik
129 710 Sedikit IV besar 3 Baik
130 717 Sedikit III sedang 3 Baik
131 718 Sedang III sedang 2 Baik
132 722 Banyak IV sedang 3 Baik
133 731 Sedang III sedang 2 Baik
134 740 Sedikit II sedang 3 Baik
135 745 Sedikit III sedang 1 Baik
136 755 Sedikit II sedang 3 Baik
137 759 Sedang III sedang 3 Baik
Bermasala
138 765 Banyak III sedang 3 h
139 766 Banyak IV Kecil 3 Baik
140 778 Sedikit IV sedang 3 Baik
141 779 Sedang III sedang 2 Baik
142 781 Sedikit III sedang 2 Baik
143 789 Sedikit III sedang 2 Baik
144 792 Sedikit III sedang 2 Baik
145 802 Sedikit IV sedang 3 Baik
146 807 Sedang III sedang 3 Baik
147 824 Sedang III sedang 3 Baik
148 847 Sedikit II besar 3 Baik
149 849 Sedang III sedang 3 Baik
150 851 Banyak IV sedang 3 Baik
151 858 Sedikit III sedang 3 Baik
Bermasala
152 859 Banyak III sedang 3 h
153 865 Sedang IV sedang 3 Baik
154 871 Sedang III Kecil 3 Baik
155 872 Kosong II sedang 3 Baik
156 874 Sedikit III sedang 3 Baik
157 879 Kosong II sedang 3 Baik
158 888 Sedang III sedang 3 Baik
159 895 Sedang III sedang 3 Baik
160 913 Sedikit IV sedang 2 Baik
161 914 Kosong IV sedang 2 Baik
162 916 Sedikit IV sedang 2 Baik
163 940 Sedang II sedang 3 Baik
164 944 Sedang III sedang 2 Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
28 
 

165 946 Sedikit III sedang 2 Baik


166 957 Sedang III sedang 2 Baik
167 960 Banyak III sedang 1 Baik
168 966 Sedikit II sedang 3 Baik
169 967 Banyak III sedang 3 Baik
170 974 Sedang IV sedang 3 Baik
171 982 Sedang II sedang 3 Baik
172 984 Kosong III sedang 3 Baik
Bermasala
173 988 Sedikit III besar 3 h
174 990 Kosong IV sedang 3 Baik
175 1003 Sedang IV sedang 3 Baik
176 1010 Sedang III Kecil 2 Baik
177 1014 Sedikit III sedang 2 Baik
178 1015 Kosong II sedang 2 Baik
179 1028 Banyak III sedang 3 Baik
180 1033 Banyak IV sedang 3 Baik
181 1036 Sedang III sedang 3 Baik
182 1039 Sedang III sedang 3 Baik
Bermasala
183 1045 Sedikit III sedang 3 h
184 1046 Sedikit III sedang 3 Baik
Bermasala
185 1051 Sedikit III besar 3 h
186 1052 Kosong III sedang 3 Baik
187 1053 Sedikit II sedang 3 Baik
188 1057 Kosong III sedang 3 Baik
189 1063 Sedang IV sedang 2 Baik
190 1071 Banyak IV sedang 3 Baik
191 1073 Sedikit II sedang 3 Baik
192 1076 Sedang III sedang 3 Baik
193 1077 Sedang III sedang 3 Baik
194 1082 Kosong III Kecil 3 Baik
195 1105 Kosong III sedang 2 Baik
Bermasala
196 1106 Sedang II sedang 2 h
197 1109 Banyak III sedang 2 Baik
198 1116 Sedang IV Kecil 3 Baik
199 1120 Sedikit II sedang 3 Baik
200 1121 Kosong III sedang 3 Baik
201 1135 Banyak IV sedang 3 Baik
202 1136 Banyak III sedang 2 Baik
203 1141 Sedang II sedang 3 Baik
204 1143 Sedikit III sedang 3 Baik
205 1145 Sedikit II sedang 3 Baik
Bermasala
206 1147 Sedang II sedang 3 h
207 1148 Sedang II sedang 3 Baik
208 1149 Sedikit III sedang 3 Baik
209 1152 Sedang III sedang 2 Baik
210 1153 Banyak II besar 3 Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
29 
 

211 1155 Sedikit II Kecil 3 Baik


212 1157 Banyak III sedang 3 Baik
213 1166 Sedang II sedang 3 Baik
214 1168 Sedang IV sedang 2 Baik
215 1186 Kosong III sedang 3 Baik
Bermasala
216 1189 Sedikit II sedang 3 h
217 1191 Kosong III sedang 3 Baik
218 1192 Sedang II sedang 3 Baik
219 1195 Sedang III sedang 3 Baik
220 1201 Sedikit III sedang 1 Baik
Bermasala
221 1202 Kosong III sedang 3 h
222 1208 Sedikit III sedang 3 Baik
223 1209 Sedang IV Kecil 3 Baik
224 1213 Sedang IV sedang 3 Baik
225 1278 Sedikit III sedang 3 Baik
226 1279 Sedang III sedang 3 Baik
227 1284 Banyak II sedang 3 Baik
228 1285 Sedikit III sedang 3 Baik
229 1290 Banyak IV sedang 3 Baik
230 1293 Sedang III sedang 3 Baik
231 1303 Sedang III sedang 3 Baik
232 1206 Kosong III sedang 3 Baik
233 1308 Sedikit III sedang 3 Baik
Bermasala
234 1318 Banyak III sedang 3 h
235 1319 Sedikit III sedang 3 Baik
236 1321 Banyak II sedang 3 Baik
237 1324 Sedang III sedang 3 Baik
238 1324 Sedang IV sedang 3 Baik
239 1325 Kosong IV sedang 3 Baik
 
Tabel 3.2 merupakan data murni yang belum diolah menjadi data training. Jika
kita lihat secara seksama pada tabel 3.2, maka akan didapati beberapa atribut yang
tidak digunakan dan record yang duplikasi. Untuk itu maka diperlukan tehnik
dalam preprocessing (Han & Kamber, 2006) yaitu :
a. Data cleaning bekerja untuk membersihkan nilai yang kosong ,tidak konsisten
atau mungkin tupel yang kosong (missing values dan noisy).
b. Data integration berfungsi menyatukan tempat penyimpanan (arsip) yang
berbeda ke dalam satu data. Dalam hal ini, ada dua arsip yang diambil sebagai
data warehouse yaitu data anggota dan data kredit.
c. Data reduction. Jumlah atribut dan tupel yang digunakan untuk data training
mungkin terlalu besar, hanya beberapa atribut yang diperlukan sehingga atribut

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
30 
 

yang tidak diperlukan akan dihapus. Tupel dalam data set mungkin terjadi
duplikasi atau terdapat tupel yang sama, sehingga untuk memperkecil jumlah
tupel, tupel yang sama dijadikan akan dijadikan dalam satu tupel untuk
mewakili tupel tersebut sehingga akan terlihat pada tabel 3.3 di bawah :

Tabel 3. 3 Data training kredit. Diperoleh dari proses data cleaning, data integration, dan 
data reduction. 
Jumlah Level Level Jangka
No Tanggungan Golongan Pinjaman waktu Class
1 Sedang III Kecil 2 Baik
2 Sedang II sedang 3 Bermasalah
3 Sedang II Kecil 2 Baik
4 Sedikit III sedang 3 Baik
5 Sedikit IV sedang 3 Baik
6 Sedang III sedang 3 Baik
7 Banyak II sedang 3 Bermasalah
8 Sedikit II sedang 3 Baik
9 Sedikit II sedang 3 Bermasalah
10 Sedang III besar 3 Baik
11 Banyak III sedang 2 Baik
12 Banyak II sedang 3 Baik
13 Sedikit IV besar 3 Baik
14 Sedikit III besar 2 Bermasalah
15 Sedikit II sedang 2 Baik
16 Sedang II sedang 2 Baik
17 Sedikit III sedang 2 Baik
18 Banyak I sedang 3 Bermasalah
19 Sedikit II besar 3 Bermasalah
20 Banyak III sedang 3 Baik
21 Kosong II sedang 3 Baik
22 Kosong III sedang 3 Baik
23 Sedikit III Kecil 2 Baik
24 Sedang III Kecil 3 Baik
25 Sedang IV sedang 3 Baik
26 Kosong IV sedang 3 Baik
27 Banyak IV sedang 3 Baik
28 Sedikit III besar 3 Baik
29 Sedang III sedang 3 Bermasalah
30 Sedang II sedang 3 Baik
31 Sedikit IV sedang 2 Baik
32 Kosong III besar 3 Baik
33 Sedikit III Kecil 3 Baik
34 Kosong II besar 3 Baik
35 Sedang I sedang 3 Bermasalah
36 Sedang IV Kecil 2 Baik
37 Sedang IV besar 3 Baik
38 Sedikit III sedang 3 Bermasalah
39 Sedikit IV Kecil 2 Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
31 
 

40 Sedang IV sedang 1 Baik


41 Sedang III sedang 2 Baik
42 Kosong III sedang 2 Baik
43 Kosong IV besar 2 Baik
44 Sedikit II sedang 2 Bermasalah
45 Sedikit III sedang 1 Baik
46 Banyak III sedang 3 Bermasalah
47 Banyak IV Kecil 3 Baik
48 Sedikit II besar 3 Baik
49 Kosong IV sedang 2 baik
50 Banyak III sedang 1 baik
51 Sedikit III besar 3 Bermasalah
52 Kosong II sedang 2 baik
53 Sedang IV sedang 2 Baik
54 Kosong III Kecil 3 Baik
55 Sedang II sedang 2 Bermasalah
56 Sedang IV Kecil 3 Baik
57 Banyak II besar 3 Baik
58 Sedikit II Kecil 3 Baik

Telah disebutkan sebelumnya bahwa ada 29 debitur bermasalah dalam


pembayaran kredit, data ini telah dipisahkan dari data pembayar yang tidak
bermasalah. Dengan proses training, data debitur bermasalah menjadi 13 tupel
karena telah melalui tahap training. Berikut datanya dalam bentuk tabel 3.4 :

Tabel 3. 4 Data debitur bermasalah : data bermasalah ini dihasilkan dari data training, 
sehingga lebih sedikit dari data sebelum di training. 
Kasus Jumlah Level Level Jangka
ke Tanggungan golongan Pinjaman waktu Class
1 Sedang II sedang 3 Bermasalah
2 Banyak II sedang 3 Bermasalah
3 Sedikit II sedang 3 Bermasalah
4 Sedikit III besar 2 Bermasalah
5 Banyak I sedang 3 Bermasalah
6 Sedikit II besar 3 Bermasalah
7 Sedang I sedang 3 Bermasalah
8 Sedang III sedang 3 Bermasalah
9 Sedikit III sedang 3 Bermasalah
10 Sedikit II sedang 2 Bermasalah
11 Banyak III sedang 3 Bermasalah
12 Sedikit III besar 3 Bermasalah
13 Sedang II sedang 2 Bermasalah
 
4. Tahap modelling (modeling).

Tahap ini juga dapat disebut tahap learning karena pada tahap ini data training
diklasifikasikan oleh model dan kemudian menghasilkan sejumlah aturan.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
32 
 

Model yang digunakan dalam tahap ini menggunakan algoritma C4.5. Seperti
yang telah dijelaskan sebelumnya, ada beberapa tahap yang harus dilalui dalam
membentuk pohon keputusan, tentunya algoritma C4.5 digunakan untuk
membuat pohon keputusan. Untuk membuat pohon keputusan, dibutuhkan data
training yang diambil dari tabel 3.1.
5. Menghitung jumlah kasus class baik dan jumlah kelas bermasalah dan
Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut
Jumlah_Tanggungan, Level_Golongan, Level_Pinjaman, Jangka_Waktu.
Kemudian, lakukan penyeleksian atribut dengan menghitung Gain tertinggi.
Baris Total kolom Entropy dihitung dengan persamaan 2 sebagai berikut :
15 15 46 46
Entropy (Total ) = (− * log 2 ( )) + (− * log 2 ( ))
61 61 61 61
Entropy (Total ) = 0.80
6. Dengan menggunakan persamaan Gain, hitung jumlah kasus dari masing-
masing atribut dan hitung Gain. Hasil perhitungan dapat dilihat pada tabel di
bawah ini :

Tabel 3. 5 Tabel perhitungan node 1 
Node      Jml  Bermasalah  Baik  Entropy  Gain 
kasus  (Si)  (Si) 
(S) 
1  Total    48  6  42  0.54   
  Jumlah_Tanggungan           0.055
    Kosong 10  0  10  0   
    Sedikit  15  2  13  0.56   
    Sedang 15  2  13  0.56   
    Banyak  8  2  6  0.81   
  Level_Golongan            0.222
    I  2  2  0  0   
    II  12  3  9  0.81   
    III  19  1  18  0.29   
    IV  15  0  15  0   
  Level_Pinjaman            0.033
    Kecil  11  0  11  0   
    Sedang 27  4  23  0.60   
    Besar  10  2  8  0.81   
  Jangka_Waktu            0.035
    1  3  0  3  0   
    2  17  1  16  0.32   
    3  28  5  23  0.67   

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
33 
 

 
 
Tabel 3. 6 Hasil perhitungan node 1.1 dan 1.2 
Node      Jml  Bermasalah  Baik  Entropy  Gain 
kasus  (Si)  (Si) 
(S) 
1.1  Level_Golongan‐II    12  3  9  0.81   
  Level_Pinjaman            0.080 
    Kecil  2  0  2  0   
    Sedang 7  2  5  0.86   
    Besar  3  1  2  0.91   
  Jumlah_Tanggungan           0.145 
    Kosong 3  0  3  0   
    Sedikit  4  1  3  0.81   
    Sedang 3  1  2  0.91   
    Banyak  2  1  1  1   
  Jangka_Waktu            0.176 
    1  0  0  0  0   
    2  4  0  4  0   
    3  8  3  5  0.95   
               
1.2  Level_Golongan‐III    19  1  18  0.29   
  Level_Pinjaman            0.119 
    Kecil  5  0  5  0   
    Sedang 10  0  10  0   
    Besar  4  1  3  0.81   
  Jumlah_Tanggungan           0.072 
    Kosong 4  0  4  0   
    Sedikit  7  1  6  0.59   
    Sedang 5  0  5  0   
    Banyak  3  0  3  0   
  Jangka_Waktu            0.072 
    1  2  0  2  0   
    2  7  1  6  0.59   
    3  10  0  10  0   

Tabel 3. 7 Hasil perhitungan node 1.1.1 dan node 1.2.1 
Node      Jml  Bermasalah  Baik  Entropy  Gain 
kasus  (Si)  (Si) 
(S) 
  Level_Golongan ‐ II             
1.1.1  Jangka_Waktu : 3    8  3  5  0.95   
  Jumlah_Tanggungan            0.483 
    Kosong  2  0  2  0   
    Sedikit  3  1  2  0.91   
    Sedang  1  1  0  0   
    Banyak  1  1  1  1   
  Level_Pinjaman            0.108 

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
34 
 

    Kecil  1  0  1  0   
    Sedang  4  2  2  1   
    Besar  3  1  2  0.91   
               
               
  Level_Golongan ‐ III             
1.2.1  Level_Pinjaman :    4  1  3  0.81   
Besar 
  Jumlah_Tanggungan            0.31 
    Kosong  1  0  1  0   
    Sedikit  2  1  1  1   
    Sedang  1  0  1  0   
    Banyak  0  0  0  0   
  Jangka_Waktu             0.81 
    1  0  0  0  0   
    2  1  1  0  0   
    3  3  0  3  0   
               

Tabel 3. 8 Hasil perhitungan node 1.1.1.1 dan node 1.1.1.2 
Node      Jml  Bermasalah  Baik  Entropy  Gain 
kasus  (Si)  (Si) 
(S) 
1.1  Level_Golongan ‐ II             
1.1.1  Jangka_Waktu‐3             
1.1.1.1  Jumlah_Tanggungan    3  1  2  0.91   
: Sedikit 
  Level_PInjaman            0.91 
    Kecil  1  0  1  0   
    Sedang  1  0  1  0   
    Besar  1  1  0  0   
               
1.1.1.2  Jumlah_Tanggungan    2  1  1  1   
: Banyak 
  Level_Pinjaman            1 
    Kecil  0  0  0  0   
    Sedang  1  1  0  0   
    Besar  1  0  1  0   
               
1.2  Level_Golongan ‐ III             
1.2.3  Level_Pinjaman :             
Besar 
1.2.2.2  Jumlah_Tanggungan    2  1  1  1   
: Sedikit 
  Jangka_Waktu            1 
    1  0  0  0  0   
    2  1  1  0  0   
    3  1  0  1  0   

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
35 
 

               

Setelah dilakukan perhitungan untuk membentuk pohon keputusan, maka hasil


pohon yang terbentuk akan terlihat seperti gambar 3.1. Dapat dilihat bahwa
atribut jangka waktu menjadi akar dari pohon.
 
 
 
 
 
 
 
 

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
36 
 

Gambar 3. 5 Pohon keputusan hasil ekstraksi dari hasil perhitungan dengan metode 
information gain. Pohon yang terbentuk belum dilakukan pruning. 

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
37 
 

Pohon keputusan pada gambar 3.Untuk menginterpretasikan pohon


keputusan di atas menjadi aturan-aturan yaitu :
1. R1: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=sedikit AND level_pinjaman=besar THEN
class=bermasalah
2. R2: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=sedikit AND level_pinjaman=kecil THEN class=baik
3. R3: IF level_golongan=II AND jangka_waktu=3 AND jumlah_tanggungan
= sedikit AND level_pinjaman=sedang THEN class=baik
4. R4: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=banyak AND level_pinjaman=sedang THEN
class=bermasalah
5. R5: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=banyak AND level_pinjaman=besar THEN class=baik
6. R6: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=sedang THEN class=bermasalah
7. R7: IF level_golongan=II AND jangka_waktu=3 AND
jumlah_tanggungan=kosong THEN class=baik
8. R8: IF level_golongan=II AND jangka_waktu=2 THEN class=baik
9. R9: IF level_golongan=III AND level_pinjaman=besar AND
jangka_waktu=2 THEN class=bermasalah
10. R10: IF level_golongan=III AND level_pinjaman=besar AND
jangka_waktu=3 THEN class=baik
11. R11: IF level_golongan=III AND level_pinjaman=kecil THEN class=baik
12. R12: IF level_golongan=III AND level_pinjaman=sedang THEN class=baik
13. R13: IF level_golongan=IV THEN class=baik
14. R14: IF level_golongan=I THEN class=bermasalah
a. Penerapan dengan Rapid Miner
Ada beberapa tahap dalam menggunakan Rapid Miner yaitu :
1. Untuk menganalisa, dibutuhkan data training. Data training yang akan
dimasukkan ke dalam Rapid Miner bisa dalam format .csv, .xls, .mdb dan
lain-lain. Data yang penulis gunakan adalah dalam format .csv.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
38 
 

2. Buka program Rapid Miner, kemudian akan muncul tampilan awal. Untuk
memasukkan data training yang telah dibuat sebelumnya, pilih menu File –
Import Data – Import CSV File.
3. Tampil jendela Data import wizard dengan total 5 langkah. Pada langkah
ke-1 ini tentukan nama file yang berisi data training dalam direktori
kemudian pilih Next seperti terlihat pada gambar 3.2.

 
Gambar 3. 6 Tampilan langkah 1 : memilih data training. Data yang digunakan bisa dalam 
format .xls, .csv, atau .xml.
Pada langkah ke-2 pastikan Skip Comment, Semicolon, dan Use Quote
sudah ditandai kemudian pilih Next. Langkah ke-3 menentukan anotasi dari
setiap tupel, abaikan kemudian pilih Next. Pada langkah ke-4 yaitu
menentukan nama atribut. Walaupun nama atribut sudah tertulis seperti att1
dan lain-lain, namun untuk memudahkan maka harus dibuat nama artribut
sesuai dengan data training. Setelah semua telah terisi, klik Reload data
untuk menyimpan. Pilih next untuk berlanjut ke tahap berikutnya. Lihat
gambar 3.3. di bawah ini :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
39 
 

 
Gambar 3. 7 Tampilan langkah 4 : menentukan atribut dan label 
 
Pada langkah terakhir, tentukan nama data dan disimpan dalam New local
repository kemudian pilih Finish.
4. Data training yang sebelumnya disimpan, akan tersimpan otomatis ke dalam
Repositories. Pilih tab Repositories – NewLocalRepository –
Data_Training. Geser data_training ke area Main Process. Untuk
menambahkan model, pilih tab Operators – Modelling – Classification and
Regression – Tree Induction – Decision Tree. Geser Decision Tree ke area
Main Process dan hubungkan seperti gambar 3.4 di bawah ini :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
40 
 

 
Gambar 3. 8 Relasi antara data training dan model : menyiapkan data training dan 
menentukan model klasifikasi yang digunakan.
5. Untuk melihat hasilnya, pilih menu Process – Run maka akan tampil hasil
berupa pohon keputusan seperti gambar 3.5 di bawah :

 
Gambar 3. 9 Pohon keputusan yang telah terbentuk 

5. Tahap evaluation (evaluasi).


Tahap ini dapat disebut tahap klasifikasi karena pada tahap ini menguji
akrurasi dengan memasukkan data uji pada tahun. Tahap ini dijelaskan secara
lebih rinci pada bab IV.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
41 
 

6. Tahap deployment.

Pada tahap ini yaitu menerapkan model algoritma C4.5 ke koperasi untuk
penentuan kelayakan pemberian kredit.

3.3 Jadwal Penelitian


Ada beberapa tahap yang dilalui dalam melakukan penelitian ini, yaitu :
1. Identifikasi masalah dan analisa kebutuhan.
Dalam tahap ini dilakukan pencarian masalah yang berhubungan dengan
peminjaman kredit serta mengidentifikasi permasalahannnya. Dari masalah
yang ditemukan, maka mulai menganalisa kebutuhan yang dibutuhkan oleh
pengguna.
2. Pengumpulan data
Mengumpulkan data-data yang diperlukan dari hasil observasi dan
wawancara. Data yang sudah dikumpulkan akan diolah, ‘dibersihkan’ jika ada
yang tidak dibutuhkan dan mengambil yang diperlukan.
3. Eksperimen
Tahap ini mulai menentukan model yang digunakan, memasukkan data
training ke dalam model dan menguji menggunakan Rapid Miner.
4. Implementasi
Menerapkan model pohon keputusan dan algoritma C4.5 ke dalam sistem
untuk menganalisa debitur bermasalah dan dapat digunakan oleh pengguna.
5. Evaluasi
Untuk mengukur apakah model yang telah dikembangkan berhasil atau tidak
adalah dengan melakukan evaluasi. Evaluasi digunakan untuk mengukur
keakuratan hasil yang dicapai oleh model.
6. Penulisan
Penulisan ke dalam bentuk laporan penelitian (thesis) dilakukan secara
bersamaan atau paralel dengan langkah yang lain agar efisien.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
 
 

BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
 
4.1 Pengukuran Penelitian
4.1.1 Hasil Penelitian
Tujuan dari penelitian ini menguji keakuratan analisa kredit dengan
menggunakan algoritma C4.5. Data yang dianalisa adalah data pinjaman dalam
bentuk kredit, yaitu semua data kredit yang telah disetujui oleh pihak koperasi.

4.2.2 Pengujian Model


Nilai accuracy, precision, dan recall dari data training dapat dihitung
dengan menggunakan Rapid Miner. Setelah diuji coba dengan metode cross-
validation, didapatkan hasil pengukuran terhadap data training yaitu accuracy =
79.50%, precision = 86.50% dan recall = 91.00%.
Model yang telah dikembangkan akan diuji keakuratannya dengan
memasukkan sejumlah data uji (test set) ke dalam model. Untuk mengukur
keakuratan model dengan baik, data uji seharusnya bukan data yang berasal dari
data training (Han & Kamber, 2006). Data uji diambil dari laporan kredit
koperasi tahun 2004. Ada 20 sampel yang diambil dari data keseluruhan, jumlah
data sebanyak 239 tidak diambil karena jumlah ini sama dengan data tahun 2003
dan tidak ada perubahan, hanya 20 sampel yang bertambah sehingga totalnya
menjadi 259.
Terlihat pada tabel 4.1, pengujian akan dilakukan dari populasi data
training. Karena jumlah data training hanya 20 maka berdasarkan tabel yang
dibuat oleh (Isaac & Michael, 1981) akan diambil keseluruhan yaitu 20 sampel
dengan tingkat kesalahan 5% baik data debitur bermasalah dan data debitur tidak
bermasalah (baik) secara acak (simple random sampling).
Tabel 4. 1 Data uji: 20 nasabah merupakan data yang diambil di tahun 2004 (sumber :
laporan kredit koperasi SUDIN Dikmenti tahun 2004)
Jumlah Level Level Jangka
No tanggungan Golongan Pinjaman Waktu Class
1 Banyak III Sedang 2 Baik
2 Sedikit II Besar 3 Bermasalah
3 Kosong III Besar 3 Baik
4 Sedikit IV Sedang 2 Baik

42 
43 
 

5 Sedikit III Kecil 2 Baik


6 Sedang III Kecil 2 Baik
7 Sedang IV Besar 3 Baik
8 Sedang III Sedang 3 Baik
9 Sedang II Besar 3 Bermasalah
10 Sedikit III Sedang 3 Baik
11 Banyak IV Sedang 3 Baik
12 Sedang III Sedang 2 Baik
13 Banyak II Besar 2 Bermasalah
14 Kosong II Sedang 3 Baik
15 Banyak III Besar 3 Baik
16 Banyak III Kecil 3 Baik
17 Sedang II Sedang 2 Baik
18 Sedang III Besar 3 Bermasalah
19 Sedikit IV Besar 3 Baik
20 Sedikit III Sedang 3 baik

Sampel akan diujikan ke dalam data training untuk mendapatkan hasil


klasifikasi dari C4.5. Pada pengujian ini, ditambahkan metode penyeleksian
atribut lain yaitu gini index dan gain ratio dengan tujuan untuk melihat akurasi
dari masing-masing metode penyeleksian atribut dengan algoritma yang sama
yaitu C4.5. Dari pengujian yang dilakukan didapatkan hasil :
Tabel 4. 2 Hasil pengujian dengan C4.5
Jumlah Level Level Jangka Information Gini Index Gain ratio
No tanggungan Golongan Pinjaman Waktu Class Gain
1 Banyak III Sedang 2 Baik Baik Baik Baik
2 Sedikit II Besar 3 Bermasalah Bermasalah Bermasalah Bermasalah
3 Kosong III Besar 3 Baik Baik Baik Baik
4 Sedikit IV Sedang 2 Baik Baik Baik Baik
5 Sedikit III Kecil 2 Baik Baik Baik Baik
6 Sedang III Kecil 2 Baik Baik Baik Baik
7 Sedang IV Besar 3 Baik Baik Baik Baik
8 Sedang III Sedang 3 Baik Baik Baik Baik
9 Sedang II Besar 3 Bermasalah Bermasalah Bermasalah Bermasalah
10 Sedikit III Sedang 3 Baik Baik Baik Baik
11 Banyak IV Sedang 3 Baik Baik Baik Baik
12 Sedang III Sedang 2 Baik Baik Baik Baik
13 Banyak II Besar 2 Bermasalah Baik Baik Baik
14 Kosong II Sedang 3 Baik Baik Baik Baik
15 Banyak III Besar 3 Baik Baik Baik Baik
16 Banyak III Kecil 3 Baik Baik Baik Baik
17 Sedang II Sedang 2 Baik Baik Baik Baik

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
44 
 

18 Sedang III Besar 3 Bermasalah Baik Baik Baik


19 Sedikit IV Besar 3 Baik Baik Baik Baik
20 Sedikit III Sedang 3 baik Baik Baik Baik

Dilihat dari hasil masing-masing metode penyeleksian atribut, hasilnya


menunjukkan kesamaan. Dari hasil pengujian di atas akan dievaluasi tingkat
akurasinya menggunakan 2 model yaitu menggunakan confusion matrix dan ROC
(Receiver Operating Characteristic).
1. Evaluasi model confusion matrix.
Evaluasi ini menggunakan tabel seperti matrix di bawah ini :

Gambar 4. 2 Model confusion matrix : nilai true positives, false negatives, false positives,
dan true negatives didapat dari data uji (Han & Kamber, 2006)

True positives merupakan tupel positif di data set yang diklasifikasikan


positif. True negatives merupakan tupel negatif di data set yang
diklasifikasikan negatif. False positives adalah tupel positif di data set yang
diklasifikasikan negatif sedangkan false negatives merupakan jumlah tupel
negatif yang diklasfikasikan positif. Kemudian masukkan data uji yang ada di
gambar 4.1 ke dalam model confusion matrix maka akan didapatkan hasil
pada tabel 4.3.

Tabel 4. 3 Konversi ke confusion matrix


Baik Bermasalah
Baik 16 0
Bermasalah 2 2

Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai


yang telah dimasukkan tersebut untuk dihitung jumlah sensitivity, specificity,
precision dan accuracy. Sensitivity digunakan untuk membandingkan jumlah
true positives terhadap jumlah tupel yang positives sedangkan specificity
adalah perbandingan jumlah true negatives terhadap jumlah tupel yang
negatives. Untuk menghitung digunakan persamaan di bawah ini :

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
45 
 

t _ pos
sensitivity =
pos

t _ neg
specificity =
neg
t _ pos
precision =
(t _ pos + f _ pos )

pos neg
accuracy = sensitivity + specificity
( pos + neg ) ( pos + neg )
dimana :
t_pos = jumlah true positives
t_neg = jumlah true negatives
pos = jumlah tupel positif
neg = jumlah tupel negatif
f_pos = jumlah false positives
kemudian masukkan nilai yang ada di dalam confusion matrix ke dalam
persamaan di atas, sehingga akan menghasilkan nilai seperti di bawah ini :
Tabel 4. 4 Nilai sensitivity, specificity, precision, dan accuracy dalam persentase. Terlihat
bahwa nilai akurasi mencapai 90%.
Nilai (%)
Sensitivity 100
Specificity 50
Precision 100
Accuracy 90
Recall 50

Terlihat pada gambar 4.4, nilai accuracy, recall dan precision yang dihasilkan
oleh Rapid Miner menggunakan model confusion matrix.

Gambar 4. 3 Confusion matrix menggunakan Rapid Miner.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
46 
 

2. Kurva ROC ((Receiver Operating Characteristic)


Gambar 4.3 menunjukkan grafik ROC dengan nilai AUC (Area Under Curve)
dengan metode information gain sebesar 0.500, metode gain ratio juga
menunjukkan hasil yang sama. Sedangkan nilai AUC yang menggunakan
metode gini index mencapai angka 0.703 seperti terlihat pada gambar 4.4.
Akurasi AUC dikatakan sempurna apabila nilai AUC mencapai 1.000 dan
akurasinya buruk jika nilai AUC dibawah 0.500.

Gambar 4. 4 Nilai AUC dalam grafik ROC dengan metode information gain dan gain
ratio dengan memasukkan data uji.

Gambar 4. 5 Nilai AUC dalam grafik ROC metode gini index dengan memasukkan data
uji.

Seperti yang dijelaskan sebelumnya, penulis membandingkan tiga metode


penyeleksian atribut yaitu information gain, gain ratio dan gini index. Seperti
terlihat pada gambar 4.5, dengan menggunakan Rapid Miner, hasil dari ketiga

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
47 
 

metode menghasilkan grafik yang berbeda, namun demikian nilai akurasi


hasil confusion matrix tetap sama.

Gambar 4. 6 Grafik ROC dengan perbandingan tiga metode, yaitu information gain,
gain ratio dan gini index tanpa memassukan data uji.

4.2 Implikasi Penelitian


Dari hasil evaluasi baik secara confusion matrix maupun empiris ternyata
terbukti akurat dibanding hasil analisa analis. Dengan hasil ini, maka
kemungkinan terjadinya kredit macet dapat dikurangi dan menekan jumlah
debitur yang bermasalah, dengan demikian algoritma C4.5 dapat memberikan
solusi untuk permasalahan penentuan kelayakan pemberian kredit.
 

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
 
 

BAB V
PENUTUP
 

5.1 Kesimpulan
Dari hasil penelitian terbukti bahwa algoritma C4.5 lebih akurat
dibandingkan analisa yang dilakukan oleh analis kredit. Hal ini dibuktikan dengan
hasil evaluasi penelitian bahwa algoritma C4.5 mampu menganalisa kredit yang
bermasalah dan yang debitur yang tidak bermasalah sebanyak 90%.

5.2 Saran
Walaupun model algoritma C4.5 sudah diterapkan dan berjalan dengan baik
di dalam sistem, namun ada beberapa hal yang harus ditambahkan untuk
menambah akurasi algoritma C4.5, yaitu :
1. Melakukan pruning terhadap algoritma C4.5 sehingga pohon yang terbentuk
tidak terlalu besar bahkan mungkin untuk jumlah data yang besar sekalipun.
Ini dilakukan untuk mengefisienkan kinerja dari algoritma C4.5 tanpa
mengurangi keakuratannnya.
2. Untuk melihat tingkat akurasi dari algoritma, akan lebih baik algoritma C4.5
dibandingkan atau dikomparasi model algoritma lain seperti Naive Bayes
atau Support Vector Machine.
3. Pada riset selanjutnya dapat digunakan metode seleksi atribut yang lain
seperti Chi-Square untuk ketepatan penyeleksian atribut.
4. Menerapkan algoritma C4.5 ke dalam data yang lebih besar untuk menguji
akurasi dari algoritma. 
 
 
 
 
 
 
 
 
 
 

42 
43 
 

Daftar Pustaka
C.R.Kothari. (2004). Research Methology Methods and Techniques. India: New
Age International Limited.
Han, J., & Kamber, M. (2006). Data Mining Concept and Tehniques. San
Fransisco: Morgan Kauffman.
Isaac, S., & Michael, W. B. (1981). Handbook in research and evaluation: A
collection of principles, methods, and strategies useful in the planning,
design, and evaluation of studies in education and the behavioral sciences.
San Diego: EDITS Publisher.
Jiang, Y. (2009 ). Credit Scoring Model Based on Decision Tree and the
Simulated Annealing Algorithm. 2009 World Congress on Computer
Science and Information Engineering (hal. 18 - 22). Los Angeles: IEEE
Computer Society.
Kotsiantis, S., Kanellopoulos, D., Karioti, V., & Tampakas, V. (2009). An
ontology-based portal for credit risk analysis. 2009 2nd IEEE International
Conference on Computer Science and Information Technology, (hal. 165-
169). Beijing.
Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing.
Lai, K. K., Yu, L., Zhou, L., & Wang, S. (2006). Credit Risk Evaluation with
Least Square Support Vector Machine. Springer-Verlag , 490-495.
Larose, D. T. (2005). Discovering Knowledge in Data. New Jersey: John Willey
& Sons, Inc.
Odeh, O. O., Featherstone, A. M., & Das, S. (2010). Predicting Credit Default:
Comparative Results from an Artificial Neural Network, Logistic
Regression and Adaptive Neuro-Fuzzy Inference System. EuroJournals
Publishing, Inc. 2010 , 7-17.
Satchidananda, S. S., & Simha, J. B. (2010). Comparing Decision Trees With
Logistic Regression for Credit Risk Analysis. Management of e-Commerce
and e-Government (ICMeCG), 2010 Fourth International Conference, (hal.
35 - 38). Chengdu.
Sekaran, U. (1992). Research Metthods for Business : A Skill Building Approach,
2th Edition. New York: John Willey & Son.
Sugiyono. (2009). Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung:
Alfabeta.
Triwahyuniati, N. (2008). Pelaksanaan Analisis Kredit Pada di PT Bank Haga
Semarang. Thesis Magister Kenotariatan , 38.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
44 
 

Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining : Practical Machine
Learning and Tools. Burlington: Morgan Kaufmann Publisher.
Xhemali, D., Hinde, C. J., & Stone, R. G. (2009). Naïve Bayes vs. Decision Trees
vs. Neural Networks in the Classification of Training Web Pages. IJCSI
International Journal of Computer Science Issues , 16-23.
Zurada, J. (2010). Could Decision Trees Imnprove the Classification Accuracy
and Interpretability of Loan Granting Decisions. HICSS '10 Proceedings of
the 2010 43rd Hawaii International Conference on System Sciences, (hal. 1-
9). Koloa.

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri


 
53 
 

Lampiran 1. Laporan kredit koperasi 2003 – 2004.


Status
No Jumlah Jumlah Jangka kredit
No Anggota Tanggungan Golongan Pinjaman waktu (Class)
1 1 Sedang IIIA 5000000 2 Baik
2 6 Sedang IID 10000000 3 Bermasalah
3 10 Sedang IID 4500000 2 Baik
4 29 Sedikit IIIC 6500000 3 Baik
5 32 Sedikit IVA 7550000 3 Baik
6 34 Sedang IIIA 9500000 3 Baik
7 38 Banyak IIC 8550000 3 Bermasalah
8 44 Sedang IIIB 6000000 3 Baik
9 45 Sedikit IID 6500000 3 Baik
10 51 Sedikit IID 9400000 3 Bermasalah
11 59 Sedikit IIC 8500000 3 Baik
12 71 Sedang IIID 12000000 3 Baik
13 73 Banyak IIIA 5500000 2 Baik
14 74 Banyak IIB 8800000 3 Baik
15 76 Sedikit IIC 9000000 3 Baik
16 77 Sedang IIID 11000000 3 Baik
17 80 Sedikit IIC 10000000 3 Baik
18 86 Sedikit IVA 14000000 3 Baik
19 87 Sedikit IIIC 11000000 2 Bermasalah
20 100 Sedikit IID 7000000 2 Baik
21 101 Sedang IIID 8400000 3 Baik
22 103 Sedang IID 9500000 2 Baik
23 104 Sedikit IIID 8000000 2 Baik
24 105 Sedang IIIA 8800000 3 Baik
25 106 Banyak ID 9500000 3 Bermasalah
26 109 Sedikit IIC 11000000 3 Bermasalah
27 110 Banyak IIID 10000000 3 Baik
28 111 Sedang IIID 10000000 3 Baik
29 117 Sedang IIC 9000000 3 Bermasalah
30 120 Kosong IID 9800000 3 Baik
31 122 Sedikit IID 8000000 3 Baik
32 123 Kosong IIID 7000000 3 Baik
33 125 Sedang IIIC 7800000 3 Baik
34 126 Sedang IIIB 8500000 3 Baik
35 129 Sedikit IIIB 4000000 2 Baik
36 130 Kosong IIIC 6000000 3 Baik
37 133 Banyak IIIA 6500000 3 Baik
38 135 Banyak IIA 8000000 3 Baik
39 136 Sedang IIID 5000000 3 Baik

 
 
54 
 

40 138 Sedang IVC 8500000 3 Baik


41 150 Sedikit IVD 9000000 3 Baik
42 164 Sedikit IID 10000000 3 Baik
43 165 Sedikit IIIA 9500000 3 Baik
44 166 Kosong IIIC 10000000 3 Baik
45 174 Sedikit IVB 9000000 3 Baik
46 177 Kosong IVB 9800000 3 Baik
47 181 Sedang IVC 8000000 3 Baik
48 185 Banyak IVA 7000000 3 Bermasalah
49 199 Sedikit IIIB 7800000 3 Baik
50 221 Sedang IIIC 8500000 3 Baik
51 224 Sedang IIID 4000000 2 Baik
52 244 Kosong IIA 6000000 3 Baik
53 245 Kosong IIIB 9500000 3 Baik
54 250 Sedang IVC 8000000 3 Baik
55 256 Banyak IVC 8800000 3 Baik
56 259 Sedang IIIA 9500000 3 Baik
57 282 Sedikit IIIC 11000000 3 Baik
58 286 Kosong IIA 10000000 3 Baik
59 291 Banyak IIB 10000000 3 Bermasalah
60 298 Banyak IIID 9000000 3 Baik
61 299 Sedang IIIA 8400000 3 Bermasalah
62 304 Sedang IID 9500000 3 Baik
63 305 Sedikit IIID 8000000 3 Baik
64 318 Sedikit IVA 8800000 2 Baik
65 322 Sedikit IIB 9500000 3 Baik
66 323 Kosong IIIC 11000000 3 Baik
67 324 Sedikit IIID 4000000 3 Baik
68 328 Kosong IIIA 6000000 3 Baik
69 331 Sedikit IIIB 7500000 3 Baik
70 332 Sedikit IVD 8500000 3 Baik
71 337 Kosong IVC 9500000 3 Baik
72 341 Sedikit IIID 8000000 3 Baik
73 345 Kosong IID 11000000 3 Baik
74 149 Sedang IID 8000000 3 Bermasalah
75 350 Banyak IIIC 8500000 3 Baik
76 354 Sedikit IIID 5500000 3 Baik
77 357 Sedang IIIB 7500000 3 Baik
78 359 Sedang IIIB 8500000 3 Baik
79 365 Kosong IID 8400000 3 Bermasalah
80 375 Kosong IIID 9500000 3 Bermasalah
81 379 Sedang ID 8000000 3 Baik
82 380 Banyak IIIA 8800000 3 Baik

 
 
55 
 

83 387 Sedang IID 9500000 3 Baik


84 389 Sedikit IID 11000000 3 Bermasalah
85 395 Sedang IVC 4000000 2 Baik
86 399 Sedang IVC 6000000 3 Baik
87 426 Sedang IIID 7500000 3 Baik
88 417 Sedikit IIIA 8500000 3 Baik
89 419 Sedikit IIIA 9500000 3 Baik
90 421 Sedang IIA 8500000 3 Bermasalah
91 442 Banyak IIIC 9500000 3 Baik
92 445 Sedang IVA 11000000 3 Baik
93 470 Banyak IVA 7000000 3 Bermasalah
94 471 Banyak IIIA 8000000 3 Baik
95 483 Sedang IIID 9000000 3 Baik
96 488 Sedang IIC 7000000 3 Baik
97 492 Sedikit IIB 8500000 3 Baik
98 499 Sedikit IIIC 8000000 3 Baik
99 517 Sedikit IIID 5500000 3 Baik
100 524 Kosong IIB 6500000 3 Baik
101 525 Sedikit IIC 7700000 3 Bermasalah
102 527 Kosong IIIB 7500000 3 Baik
103 530 Sedikit IIID 11000000 3 Baik
104 556 Sedikit IIIA 7000000 3 Baik
105 561 Kosong IIID 8400000 3 Baik
106 563 Sedikit IIIC 9500000 3 Bermasalah
107 577 Kosong IIIC 8000000 3 Baik
108 579 Sedang IID 8800000 3 Baik
109 580 Banyak IIIA 9500000 3 Baik
110 584 Sedikit IVA 4500000 2 Baik
111 585 Sedang IVD 6500000 1 Baik
112 586 Sedang IID 7550000 2 Baik
113 594 Sedang IIIB 9500000 2 Baik
114 595 Banyak IIIA 8550000 2 Baik
115 598 Sedikit IIIA 6000000 2 Baik
116 607 Sedang IIIC 6500000 2 Baik
117 641 Sedang IIC 9400000 3 Baik
118 644 Kosong IIIB 8500000 2 Baik
119 653 Kosong IVA 12000000 2 Baik
120 656 Sedang IIB 5500000 2 Baik
121 659 Banyak IIID 8800000 3 Baik
122 671 Sedang IIID 9000000 3 Baik
123 686 Sedikit IVD 11000000 3 Baik
124 688 Sedang IVA 6000000 3 Baik
125 689 Sedang IIIA 7500000 3 Baik

 
 
56 
 

126 690 Sedang IIID 8500000 2 Baik


127 697 Sedikit IID 9500000 2 Bermasalah
128 703 Sedikit IIID 8000000 3 Baik
129 710 Sedikit IVA 11000000 3 Baik
130 717 Sedikit IIID 8000000 3 Baik
131 718 Sedang IIIA 8500000 2 Baik
132 722 Banyak IVA 5500000 3 Baik
133 731 Sedang IIIA 7500000 2 Baik
134 740 Sedikit IID 8500000 3 Baik
135 745 Sedikit IIID 8400000 1 Baik
136 755 Sedikit IID 9500000 3 Baik
137 759 Sedang IIIC 8000000 3 Baik
138 765 Banyak IIIC 10000000 3 Bermasalah
139 766 Banyak IVD 4500000 3 Baik
140 778 Sedikit IVA 6500000 3 Baik
141 779 Sedang IIID 7550000 2 Baik
142 781 Sedikit IIIC 9500000 2 Baik
143 789 Sedikit IIIB 8550000 2 Baik
144 792 Sedikit IIIC 6000000 2 Baik
145 802 Sedikit IVC 6500000 3 Baik
146 807 Sedang IIIC 9400000 3 Baik
147 824 Sedang IIID 8500000 3 Baik
148 847 Sedikit IID 12000000 3 Baik
149 849 Sedang IIID 5500000 3 Baik
150 851 Banyak IVA 8800000 3 Baik
151 858 Sedikit IIIB 9000000 3 Baik
152 859 Banyak IIIC 8800000 3 Bermasalah
153 865 Sedang IVB 9500000 3 baik
154 871 Sedang IIIB 4500000 3 baik
155 872 Kosong IID 6500000 3 baik
156 874 Sedikit IIID 7550000 3 baik
157 879 Kosong IID 9500000 3 baik
158 888 Sedang IIIC 8550000 3 baik
159 895 Sedang IIIB 6000000 3 baik
160 913 Sedikit IVA 6500000 2 baik
161 914 Kosong IVA 9400000 2 baik
162 916 Sedikit IVD 8500000 2 baik
163 940 Sedang IID 7000000 3 baik
164 944 Sedang IIID 8000000 2 baik
165 946 Sedikit IIIB 9000000 2 baik
166 957 Sedang IIIB 7000000 2 baik
167 960 Banyak IIIB 8500000 1 baik
168 966 Sedikit IID 8000000 3 baik

 
 
57 
 

169 967 Banyak IIID 5500000 3 baik


170 974 Sedang IVB 6500000 3 baik
171 982 Sedang IID 7700000 3 baik
172 984 Kosong IIID 7500000 3 baik
173 988 Sedikit IIID 11000000 3 Bermasalah
174 990 Kosong IVD 7000000 3 baik
175 1003 Sedang IVD 8400000 3 baik
176 1010 Sedang IIID 4500000 2 baik
177 1014 Sedikit IIIA 6500000 2 baik
178 1015 Kosong IID 7550000 2 baik
179 1028 Banyak IIIC 9500000 3 baik
180 1033 Banyak IVB 8550000 3 baik
181 1036 Sedang IIIB 6000000 3 baik
182 1039 Sedang IIID 6500000 3 baik
183 1045 Sedikit IIID 9400000 3 Bermasalah
184 1046 Sedikit IIIC 8500000 3 baik
185 1051 Sedikit IIIC 12000000 3 Bermasalah
186 1052 Kosong IIIB 5500000 3 Baik
187 1053 Sedikit IID 10000000 3 Baik
188 1057 Kosong IIID 9000000 3 Baik
189 1063 Sedang IVA 9800000 2 Baik
190 1071 Banyak IVA 8000000 3 Baik
191 1073 Sedikit IID 7000000 3 Baik
192 1076 Sedang IIID 7800000 3 Baik
193 1077 Sedang IIIC 8500000 3 Baik
194 1082 Kosong IIID 4000000 3 Baik
195 1105 Kosong IIIC 6000000 2 Baik
196 1106 Sedang IID 6500000 2 Bermasalah
197 1109 Banyak IIID 8000000 2 Baik
198 1116 Sedang IVD 5000000 3 Baik
199 1120 Sedikit IID 8500000 3 Baik
200 1121 Kosong IIIC 6500000 3 Baik
201 1135 Banyak IVA 7000000 3 Baik
202 1136 Banyak IIIB 8000000 2 Baik
203 1141 Sedang IID 7000000 3 Baik
204 1143 Sedikit IIIC 6500000 3 Baik
205 1145 Sedikit IID 6700000 3 Baik
206 1147 Sedang IID 8700000 3 Bermasalah
207 1148 Sedang IID 6000000 3 Baik
208 1149 Sedikit IIIB 10000000 3 Baik
209 1152 Sedang IIIB 8000000 2 Baik
210 1153 Banyak IID 11000000 3 Baik
211 1155 Sedikit IID 4500000 3 Baik

 
 
58 
 

212 1157 Banyak IIID 5500000 3 Baik


213 1166 Sedang IID 7000000 3 Baik
214 1168 Sedang IVB 8000000 2 Baik
215 1186 Kosong IIIB 6000000 3 Baik
216 1189 Sedikit IID 9000000 3 Bermasalah
217 1191 Kosong IIIC 7000000 3 Baik
218 1192 Sedang IIC 8500000 3 Baik
219 1195 Sedang IIID 9600000 3 Baik
220 1201 Sedikit IIID 8500000 1 Baik
221 1202 Kosong IIIA 10000000 3 Bermasalah
222 1208 Sedikit IIIC 8000000 3 Baik
223 1209 Sedang IVC 5000000 3 Baik
224 1213 Sedang IVC 8500000 3 Baik
225 1278 Sedikit IIID 6500000 3 Baik
226 1279 Sedang IIIA 7000000 3 Baik
227 1284 Banyak IID 8000000 3 Baik
228 1285 Sedikit IIIA 7000000 3 Baik
229 1290 Banyak IVA 6500000 3 Baik
230 1293 Sedang IIIC 6700000 3 Baik
231 1303 Sedang IIIC 8700000 3 Baik
232 1206 Kosong IIIB 6000000 3 Baik
233 1308 Sedikit IIIA 10000000 3 Baik
234 1318 Banyak IIIC 9000000 3 Bermasalah
235 1319 Sedikit IIID 9800000 3 Baik
236 1321 Banyak IID 8000000 3 Baik
237 1324 Sedang IIID 7000000 3 Baik
238 1324 Sedang IVA 7800000 3 Baik
239 1325 Kosong IVA 8500000 3 Baik
 

 
 

Anda mungkin juga menyukai