Penerapan Data Mining Dalam Klasifikasi Penentuan Kelayakan Nasabah

Penerapan Data Mining dalam Penentuan Klasifikasi Kelayakan Calon
Nasabah Penerima Kredit dengan Algoritma C4.5
BAB I PENDAHULUAN
1.1 Latar Belakang
Dalam dunia perbankan, pemberian kredit kepada nasabah adalah
kegiatan yang sangat sering terjadi yang mempunyai resiko tinggi. Masalah yang
sering terjadi yaitu analisis kredit yang tidak hati hati atau kurang cermat dalam
proses pemberian kredit, maupun dari pola perilaku nasabah yang kurang baik.
Dalam pelaksanaannya, analisis kredit melakukan pengambilan keputusan
penerima kredit dengan cara mensurvei langsung kondisi calon nasabah kredit
tanpa melakukan pengujian nasabah tersebut layak atau tidak untuk menerima
kredit, sehingga bisa menyebabkan terjadinya kredit macet karena belum
dilakukannya pengujian terlebih dahulu. Untuk mencegah terjadinya kredit macet,
seorang analisis kredit perbankan harus mampu mengambil keputusan yang tepat
dan melalukan pengujian untuk menerima ataupun menolak pengajuan kredit.
Untuk mengetahui kelayakan kredit di masa mendatang, diperlukan adanya
peramalan yang akurat yang salah satunya menggunakan teknologi di bidang
Data Mining.
Banyak penelitian yang membahas mengenai penentuan kelayakan
penerima kredit dengan algoritma Data Mining. Seperti penelitian yang dilakukan
oleh Abbas Heiat (2011) menyatakan bahwa, resiko bagi lembaga keuangan untuk
memberikan kredit yang diminta tergantung pada seberapa baik mereka
membedakan pemohon kredit yang baik dari para pemohon kredit yang macet.
Upaya yang biasa dilakukan untuk menekan angka kredit macet ini adalah
menganalisis kredit dengan cermat, peningkatan kualitas karyawan guna
menangani sikap kehati-hatian dalam memberikan pengawalan saat pembayaran
kredit.
Teknologi Data Mining memiliki peranan penting dalam dunia bisnis yang
semakin kompetitif. Data Mining mampu memanfaatkan aset penting perusahaan
yaitu data bisnis yang jumlahnya sangat besar sehingga dapat menghasilkan
informasi yang belum pernah terpelajari sebelumnya. Dalam kasus ini, penerapan
ilmu Data Mining bisa dimanfaatkan untuk memprediksi resiko kredit dari
berbagai informasi yang diperoleh sehingga dapat digunakan sebagai alternatif
solusi untuk mengurangi resiko kredit macet.
Ada beberapa teknik yang digunakan dalam Data Mining salah satunya
klasifikasi. Klasifikasi memiliki beberapa algoritma, dan dalam penelitian ini akan
digunakan algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi data
dengan teknik pohon keputusan yang terkenal karena memiliki beberapa
kelebihan. Misalnya dapat mengolah data numeric, dapat menangani nilai atribut
yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan
tercepat diantara algoritma lainnya.
1.2 Rumusan Masalah
Berdasarkan latar belakang tersebut, dapat dirumuskan permasalahan
sebagai berikut :
1. Apakah data atribut nasabah mempengaruhi kredit macet ?
2. Bagaimana cara kerja algoritma C4.5 ?

3. Berapa tingkat keakuratan algoritma C4.5 untuk penelitian ini ?
4. Apakah algoritma C4.5 bisa mengurangi resiko kredit macet ?
1.3 Tujuan Penelitian
Adapun tujuan dari penelitian ini yaitu :
1. Mengetahui kelayakan nasabah yang berpotensi mendapat kredit.
2. Memudahkan pihak Bank dalam membuat keputusan untuk pemberian
kredit.
3. Mengetahui faktor-faktor yang diperlukan dalam melakukan
pengklasifikasian nasabah sebagai dasar pemberian kredit.
4. Mengimplementasikan algoritma C4.5 dalam melakukan
pengklasifikasian nasabah pada proses pemberian kredit.
5. Mengurangi resiko kredit macet.
1.4 Batasan Masalah
Batasan masalah dari penelitian ini diantaranya adalah :
1. Metode Data Mining yang digunakan adalah decision tree dengan
algoritma yang digunakan adalah Algoritma C4.5.
2. Data yang digunakan adalah data training nasabah sebelum adanya survey
lapangan oleh petugas, yang berarti data hanya digunakan untuk
memprediksi nasabah yang layak mendapat kredit.

3. Penerapan digunakan hanya untuk menentukan analisa kelayakan nasabah
penerima kredit.
4. Hasil dari proses mining adalah terbentuknya pola data berupa beberapa
rules (aturan prediksi).
1.5 Metodologi Penelitian
Seperti pada penelitian Data Mining lainnya, tahap pertama dalam
penelitian ini adalah pengambilan data. Data tersebut kami ambil dari website uci
data set. Data tersebut memiliki 8 atribut dan 1 atribut kelas. Adapun atribut -
atribut tersebut yaitu umur, jenis kelamin, pekerjaan, status pernikahan,
pendidikan, tempat tinggal dan hutang dan ada atribut kelas. Adapun alur proses
pengolahan data adalah sebagai berikut :

1.6 Sistematika Penulisan
Adapun Sistematika penulisan dari penelitian ini yaitu :
BAB I Pendahuluan
1.1 Latar Belakang
1.2 Rumusan Masalah
1.3 Tujuan Penelitian
1.4 Batasan Masalah
1.5 Metodologi Penelitian
1.6 Sistematika Penulisan
BAB II KAJIAN PUSTAKA
2.1 Tinjauan Pustaka
2.2 Landasan Teori
2.2.1 Data Mining
2.2.2 Klasifikasi
2.2.3 Pohon Keputusan (Decision Tree)
2.2.4 Algoritma C4.5
BAB III ANALISIS SISTEM
3.1 Analisis Model
3.2 Analisa Masalah
3.3 Perancangan Alur Sistem
3.4 Alur Proses Pengolahan Data

BAB II KAJIAN PUSTAKA
2.1 Tinjauan Pustaka

Beberapa penelitian menggunakan Algoritma pohon keputusan telah
banyak digunakan di berbagai studi kasus khususnya algoritma C4.5, karena
algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi dibandingkan
dengan algoritma pohon keputusan yang lain. Penelitian terkait dengan
menggunakan algoritma C4.5 adalah sebagai berikut :

1. Penelitian terkait dengan jurnal yang pernah dilakukan oleh Mabrur
dan Lubis (2012) dengan judul Penerapan Data Mining untuk
memprediksi kriteria nasabah kredit. Penelitian tersebut dilakukan
untuk memprediksi kriteria nasabah kredit yang berpotensi
melakukan peminjaman (kredit) terhadap bank. Hasil dari
penelitian tersebut adalah sebuah aplikasi yang dapat memudahkan
bagian dana bank XY dalam memperoleh target pemasaran kredit
dimasa mendatang.
2. Studi kasus yang lain, penelitian terkait perbandingan kinerja
pohon keputusan ID3 dan C4.5 pernah dilakukan oleh Sukardi, Abd
Syukur dan Supriyanto (2014) dengan judul Klasifikasi Spam
Email Menggunakan Algoritma C4.5 dengan Seleksi Fitur.
Penelitian tersebut bertujuan untuk mengetahui sejauh mana tingkat
akurasi algoritma C4.5 untuk menyeleksi fitur spam email. Hasil
penelitian ini membuktikan bahwa pohon keputusan algoritma C4.5
memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan
ID3 dalam mengklasifikasikan data spam email.

2.2 Landasan Teori
2.2.1 Data Mining
Data mining adalah proses menganalisa data dari perspektif yang
berbeda dan menyimpulkannya menjadi informasi-informasi penting
yang dapat dipakai untuk meningkatkan keuntungan, memperkecil
biaya pengeluaran, atau bahkan keduanya. Secara teknis, data mining
dapat disebut sebagai proses untuk menemukan korelasi atau pola dari
ratusan atau ribuan field dari sebuah relasional database yang besar
(Mabrur dan Lubis, 2012).

Data mining adalah proses mencari pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode tertentu.
Teknik, Metode atau Algoritma dalam Data Mining sangat bervariasi.
Pemiihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses Knowledge Discovery in Database (KDD) secara
keseluruhan (Mardi, 2016)

Knowledge Discovery in Database (KDD) merupakan ilmu yang
membahas tentang pola sebuah data yang mengacu pada proses untuk
menambang (mining) pengetahuan dari sekumpulan data yang sangat
besar (Fatayat, 2013). Pramudiono dalam bukunya Kusrini,
mengatakan Data Mining adalah serangkaian proses untuk menggali
nilai tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual (Kusrini, 2009).

Data yang banyak dan besar belum tentu memiliki makna atau
informasi didalamnya yang dapat dimanfaatkan. Dengan proses data
mining, data tersebut dapat dirubah menjadi aturan, pola ataupun
model (Prasetyo 2012). Proses data mining antara lain melakukan
pengumpulan data dan penggunaan data historis guna mencari pola
dan hubungan atribut dalam dataset (Santosa 2007). Dari beberapa

pakar data mining terdapat satu pengertian bahwa dalam data mining
digunakan data lampau untuk mengetahui atau menyimpulkan serta
mendapat pengetahuan baru yang bisa dipakai untuk memperbaiki
pengambilan keputusan di masa depan.

2.2.2 Klasifikasi
Klasifikasi merupakan salah satu peran utama dari data mining.
Klasifikasi yaitu proses dari mencari suatu himpunan model (fungsi)
yang dapat mendeskripsikan dan membedakan kelas-kelas data atau
konsep-konsep, dengan tujuan dapat menggunakan model tersebut
untuk memprediksi kelas dari suatu objek yang mana kelasnya belum
diketahui. Klasifikasi termasuk kedalam supervised learning karena
dalam proses klasifikasi terdapat proses pembelajaran dengan data
lampau atau data training. Proses ini digunakan algoritma untuk
mengenali pola dari data yang nantinya dapat diterapkan kepada data
baru yang belum diketahui kelompoknya (Rani, 2015).

Dalam klasifikasi, terdapat target variabel kategori. Sebagai
contoh, penggolongan pendapatan dapat dipisahkan dalam tiga
kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan
rendah. Dalam melakukan suatu klasifikasi dibutuhkan data lampau
yang nantinya akan diolah menjadi sebuah aturan ataupun sebuah
pengetahuan baru. Masalah klasifikasi pada dasarnya adalah sebagai
berikut (Susanto and Suryadi 2010):

1. Masalah Klasifikasi berangkat dari data training yang tersedia.
2. Data training akan diolah dengan menggunakan algoritma
klasifikasi.
3. Masalah klasifikasi berakhir dengan dihasilkannya sebuah
pengetahuan yang direpresentasikan dalam bentuk diagram,
aturan atau pengetahuan.

2.2.3 Pohon Keputusan (Decision Tree)
Model pohon keputusan pertama kali diperkenalkan oleh Hunt
dan Dikembangkan oleh Quinlan pada tahun 1986. Pohon keputusan
merupakan metode klasifikasi dari prediksi yang sangat kuat dan
terkenal. Pohon keputusan terdiri dari simpul internal, simpul daun
Dan cabang. Setiap simpul internal berisi tes pada atribut, Sedangkan
setiap node daun berisi sebuah kelas, dan setiap cabang dari Node
memungkinkan untuk mendapatkan hasil dari data asli (Ardun dan
Windha, 2015).
Metode pohon keputusan mengubah fakta menjadi pohon
keputusan yang mempresentasikan aturan. Aturan dapat dengan
mudah dipahami dengan bahasa alami. Dan mereka juga dapat
diekspresikan dalam bentuk bahasa basis data seperti Structured
Query Language untuk mencari record pada kategori tertentu. Pohon
keputusan juga berguna untuk mengeksplorasi data menemukan
hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target.

2.2.4 Algoritma C4.5
Algoritma C4.5 Merupakan pengembangan dari algoritma ID3
(Larose 2005) yang dikembangkan oleh Quinlan (Han and Kamber
2006). Beberapa pengembangan yang dilakukan pada C4.5 antara lain
bisa mengatasi missing value, bisa mengatasi contiu data, dan pruning
(Fadillah, 2013). Jantan et al, (2010) menyebutkan algoritma C4.5
merupakan salah satu teknik decision tree yang sering digunakan

untuk menghasilkan beberapa aturan-aturan dan sebuah pohon
keputusan dengan tujuan untuk meningkatkan keakuratan dari prediksi
yang sedang dilakukan, di samping itu algoritma C4.5 merupakan
algoritma yang mudah dimengerti.

Langkah untuk membuat sebuah decision tree dari algoritma C4.5
adalah sebagai berikut (Han and Kamber 2006):

1. Mempersiapkan data training, data training yaitu data yang diambil
dari data histori yang pernah terjadi sebelumnya atau disebut data
masa lalu dan sudah dikelompokan dalam kelas-kelas tertentu.

2. Menentukan akar pohon. Akar pohon ditentukan dengan cara
menghitung GainRatio tertinggi dari masing-masing atribut.
Sebelum menghitung GainRatio, terlebih dahulu menghitung Total
Entropy sebelum dicari masing-masing Entropy class, adapun

rumus mencari Entropy (Ardhun dan Windha, 2015) seperti di
bawah:
(1) Keterangan:
S = Himpunan
kasus
n = jumlah partisi S
pi = proporsi dari Si terhadap S
Dimana log2pi dapat dihitung dengan cara (Ardhun dan Windha,
2015) :
3. Gain (S,A) merupakan

(2)
perolehan informasi dari atribut A
relative terhadap output data S. Perolehan informasi didapat dari
output data atau variable dependent S yang dikelompokkan
berdasarkan atribut A, dinotasikan dengan gain (S,A). Rumus untuk
menghitung Gain (Ardhun dan Windha, 2015) seperti dibawah ini :

(3)
Di mana :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
[Si] : jumlah kasus pada partisi ke-i
[S] : jumlah kasus pada S
BAB III
ANALISIS SISTEM
3.1 Analisis Model

3.1.1 Kebutuhan Masukkan
Kebutuhan masukan dari sistem adalah nilai atribut yang dibuat
ke dalam sebuah data tabel. Atribut yang digunakan untuk
perhitungan pada penelitian ini yaitu umur, jenis kelamin, pekerjaan,
status pernikahan, pendidikan, tempat tinggal dan hutang.

Salah satu proses kalkulasi dari entropy adalah proses kalkulasi
nilai entropy prediksi yaitu dengan jumlah 100 sampel data.
Selanjutnya, akan diuraikan penjelasan lebih terperinci mengenai
tiap-tiap langkah dalam pembentukan pohon keputusan dengan
menggunakan weka 3.6. Berikut adalah tabel atribut data training:
Tabel 3.1 atribut data training
3.2 Analisa Masalah
Tabel 1 atribut data

Seperti yang sudah dijelaskan pada latar belakang masalah,
bahwa permasalahan yang muncul adalah bagaimana mengolah data
operasional yang sudah ada menjadi ilmu pengetahuan baru berupa
informasi yang akan datang, yang dapat berguna untuk menciptakan suatu
strategi baru untuk memperoleh solusi dalam penyelesaian masalah yang
sedang terjadi.
Analisa ini bermanfaat untuk mengetahui karakteristik calon
nasabah yang akan melakukan kredit, sehingga membantu para analisis
kredit dalam melakukan penilaian terhadap calon nasabahnya. Penilaian ini
bertujuan agar dapat mengurangi masalah ketidak lancaran dalam
pembayaran kredit. Oleh karena itu, Data Mining merupakan salah satu
solusinya.
3.3 Perancangan Alur Sistem
3.3.1 Flowchart
START
Nasabah mendaftar ke
Teller Bank
Teller menginput data

Nasabah
Pegawai melakukan uji

kelayakan nasabah
kredit
Tidak
LAYAK
3.3.2 Ya Konteks
Diagram
Diagram
Teller menerima hasil konteks merupakan diagram yang menggambarkan
uji kelayakan
aliran kredit
nasabah data secara garis besar yang dipresentasikan dengan
lingkaran tunggal yang mewakili keseluruhan sistem. Diagram ini

Teller memberi tahu
nasabah mencatat data yang
hasil uji kelayakan masuk ke sistem beserta sumbernya, informasi
kredit
Nasabah menerima
hasil uji kelayakan
Teller memberi uang

kredit ke nasabah
END
Nasabah menerima
uang t
Gambar 3.1 Flowchart uji kelayakan kredit nasabah

yang dihasilkan oleh sistem dan tujuannya. Diagram konteks ini
terdapat sebuah proses sistem kelayakan nasabah penerima kredit
dan satu entitas karyawan, seperti gambar diagram konteks yang
ada di bawah ini.
3.3.3 Data Flow Diagram (DFD) Level 0

Data Flow Diagram (DFD) adalah bagan atau alat perancangan
sistem yang menggambarkan sebuah logika dan alur pada sebuah
sistem. DFD merupakan langkah yang digunakan untuk
menurunkan diagram konteks dalam bentuk lebih detail. Model ini
menggambarkan sistem sebagai jaringan kerja antar fungsi yang
saling berhubungan dengan aliran data dan penyimpanan data. Pada
sistem ini digunakan DFD level 0 seperti gambar di bawah ini.
Gambar 3.2 Diagram Konteks Kelayakan Nasabah Kredit

Gambar 3.3 DFD level 0 Kelayakan Nasabah Kredit
3.4 Alur Proses Pengolahan Data
Gambar 3.4 Alur Proses Pengolahan Data Kelayakan Nasabah

Penerapan Data Mining Dalam Klasifikasi Penentuan Kelayakan Nasabah

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Penerapan Data Mining Dalam Klasifikasi Penentuan Kelayakan Nasabah

Diunggah oleh

Hak Cipta:

Format Tersedia

Penerapan Data Mining dalam Penentuan Klasifikasi Kelayakan Calon

Nasabah Penerima Kredit dengan Algoritma C4.5

1.1 Latar Belakang

Dalam dunia perbankan, pemberian kredit kepada nasabah adalah

Dalam pelaksanaannya, analisis kredit melakukan pengambilan keputusan

kredit, sehingga bisa menyebabkan terjadinya kredit macet karena belum

dilakukannya pengujian terlebih dahulu. Untuk mencegah terjadinya kredit macet,

dan melalukan pengujian untuk menerima ataupun menolak pengajuan kredit.

Untuk mengetahui kelayakan kredit di masa mendatang, diperlukan adanya

peramalan yang akurat yang salah satunya menggunakan teknologi di bidang

Banyak penelitian yang membahas mengenai penentuan kelayakan

memberikan kredit yang diminta tergantung pada seberapa baik mereka

menganalisis kredit dengan cermat, peningkatan kualitas karyawan guna

menangani sikap kehati-hatian dalam memberikan pengawalan saat pembayaran

semakin kompetitif. Data Mining mampu memanfaatkan aset penting perusahaan

berbagai informasi yang diperoleh sehingga dapat digunakan sebagai alternatif

solusi untuk mengurangi resiko kredit macet.

digunakan algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi data

dengan teknik pohon keputusan yang terkenal karena memiliki beberapa

yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan

tercepat diantara algoritma lainnya.

1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, dapat dirumuskan permasalahan

1. Apakah data atribut nasabah mempengaruhi kredit macet ?

2. Bagaimana cara kerja algoritma C4.5 ?

4. Apakah algoritma C4.5 bisa mengurangi resiko kredit macet ?

1.3 Tujuan Penelitian

Adapun tujuan dari penelitian ini yaitu :

1. Mengetahui kelayakan nasabah yang berpotensi mendapat kredit.

2. Memudahkan pihak Bank dalam membuat keputusan untuk pemberian

3. Mengetahui faktor-faktor yang diperlukan dalam melakukan

pengklasifikasian nasabah sebagai dasar pemberian kredit.

4. Mengimplementasikan algoritma C4.5 dalam melakukan

pengklasifikasian nasabah pada proses pemberian kredit.

5. Mengurangi resiko kredit macet.

1.4 Batasan Masalah

Batasan masalah dari penelitian ini diantaranya adalah :

1. Metode Data Mining yang digunakan adalah decision tree dengan

algoritma yang digunakan adalah Algoritma C4.5.

lapangan oleh petugas, yang berarti data hanya digunakan untuk

memprediksi nasabah yang layak mendapat kredit.

rules (aturan prediksi).

1.5 Metodologi Penelitian

Seperti pada penelitian Data Mining lainnya, tahap pertama dalam

atribut tersebut yaitu umur, jenis kelamin, pekerjaan, status pernikahan,

pengolahan data adalah sebagai berikut :

Adapun Sistematika penulisan dari penelitian ini yaitu :

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Batasan Masalah

1.5 Metodologi Penelitian

1.6 Sistematika Penulisan

BAB II KAJIAN PUSTAKA

2.1 Tinjauan Pustaka

2.2 Landasan Teori

2.2.1 Data Mining

2.2.3 Pohon Keputusan (Decision Tree)

2.2.4 Algoritma C4.5

BAB III ANALISIS SISTEM

3.1 Analisis Model

3.2 Analisa Masalah

3.3 Perancangan Alur Sistem