Anda di halaman 1dari 18

Penerapan Data Mining dalam Penentuan Klasifikasi Kelayakan Calon

Nasabah Penerima Kredit dengan Algoritma C4.5

BAB I PENDAHULUAN

1.1 Latar Belakang

Dalam dunia perbankan, pemberian kredit kepada nasabah adalah

kegiatan yang sangat sering terjadi yang mempunyai resiko tinggi. Masalah yang

sering terjadi yaitu analisis kredit yang tidak hati hati atau kurang cermat dalam

proses pemberian kredit, maupun dari pola perilaku nasabah yang kurang baik.

Dalam pelaksanaannya, analisis kredit melakukan pengambilan keputusan

penerima kredit dengan cara mensurvei langsung kondisi calon nasabah kredit

tanpa melakukan pengujian nasabah tersebut layak atau tidak untuk menerima

kredit, sehingga bisa menyebabkan terjadinya kredit macet karena belum

dilakukannya pengujian terlebih dahulu. Untuk mencegah terjadinya kredit macet,

seorang analisis kredit perbankan harus mampu mengambil keputusan yang tepat

dan melalukan pengujian untuk menerima ataupun menolak pengajuan kredit.

Untuk mengetahui kelayakan kredit di masa mendatang, diperlukan adanya

peramalan yang akurat yang salah satunya menggunakan teknologi di bidang

Data Mining.

Banyak penelitian yang membahas mengenai penentuan kelayakan

penerima kredit dengan algoritma Data Mining. Seperti penelitian yang dilakukan

oleh Abbas Heiat (2011) menyatakan bahwa, resiko bagi lembaga keuangan untuk

memberikan kredit yang diminta tergantung pada seberapa baik mereka

membedakan pemohon kredit yang baik dari para pemohon kredit yang macet.
Upaya yang biasa dilakukan untuk menekan angka kredit macet ini adalah

menganalisis kredit dengan cermat, peningkatan kualitas karyawan guna

menangani sikap kehati-hatian dalam memberikan pengawalan saat pembayaran

kredit.

Teknologi Data Mining memiliki peranan penting dalam dunia bisnis yang

semakin kompetitif. Data Mining mampu memanfaatkan aset penting perusahaan

yaitu data bisnis yang jumlahnya sangat besar sehingga dapat menghasilkan

informasi yang belum pernah terpelajari sebelumnya. Dalam kasus ini, penerapan

ilmu Data Mining bisa dimanfaatkan untuk memprediksi resiko kredit dari

berbagai informasi yang diperoleh sehingga dapat digunakan sebagai alternatif

solusi untuk mengurangi resiko kredit macet.

Ada beberapa teknik yang digunakan dalam Data Mining salah satunya

klasifikasi. Klasifikasi memiliki beberapa algoritma, dan dalam penelitian ini akan

digunakan algoritma C4.5. Algoritma C4.5 adalah algoritma klasifikasi data

dengan teknik pohon keputusan yang terkenal karena memiliki beberapa

kelebihan. Misalnya dapat mengolah data numeric, dapat menangani nilai atribut

yang hilang, menghasilkan aturan-aturan yang mudah diinterpretasikan dan

tercepat diantara algoritma lainnya.

1.2 Rumusan Masalah

Berdasarkan latar belakang tersebut, dapat dirumuskan permasalahan

sebagai berikut :

1. Apakah data atribut nasabah mempengaruhi kredit macet ?

2. Bagaimana cara kerja algoritma C4.5 ?


3. Berapa tingkat keakuratan algoritma C4.5 untuk penelitian ini ?

4. Apakah algoritma C4.5 bisa mengurangi resiko kredit macet ?

1.3 Tujuan Penelitian

Adapun tujuan dari penelitian ini yaitu :

1. Mengetahui kelayakan nasabah yang berpotensi mendapat kredit.

2. Memudahkan pihak Bank dalam membuat keputusan untuk pemberian

kredit.

3. Mengetahui faktor-faktor yang diperlukan dalam melakukan

pengklasifikasian nasabah sebagai dasar pemberian kredit.

4. Mengimplementasikan algoritma C4.5 dalam melakukan

pengklasifikasian nasabah pada proses pemberian kredit.

5. Mengurangi resiko kredit macet.

1.4 Batasan Masalah

Batasan masalah dari penelitian ini diantaranya adalah :

1. Metode Data Mining yang digunakan adalah decision tree dengan

algoritma yang digunakan adalah Algoritma C4.5.

2. Data yang digunakan adalah data training nasabah sebelum adanya survey

lapangan oleh petugas, yang berarti data hanya digunakan untuk

memprediksi nasabah yang layak mendapat kredit.


3. Penerapan digunakan hanya untuk menentukan analisa kelayakan nasabah

penerima kredit.

4. Hasil dari proses mining adalah terbentuknya pola data berupa beberapa

rules (aturan prediksi).

1.5 Metodologi Penelitian

Seperti pada penelitian Data Mining lainnya, tahap pertama dalam

penelitian ini adalah pengambilan data. Data tersebut kami ambil dari website uci

data set. Data tersebut memiliki 8 atribut dan 1 atribut kelas. Adapun atribut -

atribut tersebut yaitu umur, jenis kelamin, pekerjaan, status pernikahan,

pendidikan, tempat tinggal dan hutang dan ada atribut kelas. Adapun alur proses

pengolahan data adalah sebagai berikut :


1.6 Sistematika Penulisan

Adapun Sistematika penulisan dari penelitian ini yaitu :

BAB I Pendahuluan

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Tujuan Penelitian

1.4 Batasan Masalah

1.5 Metodologi Penelitian

1.6 Sistematika Penulisan

BAB II KAJIAN PUSTAKA

2.1 Tinjauan Pustaka

2.2 Landasan Teori

2.2.1 Data Mining

2.2.2 Klasifikasi

2.2.3 Pohon Keputusan (Decision Tree)

2.2.4 Algoritma C4.5

BAB III ANALISIS SISTEM

3.1 Analisis Model

3.2 Analisa Masalah

3.3 Perancangan Alur Sistem

3.4 Alur Proses Pengolahan Data


BAB II KAJIAN PUSTAKA

2.1 Tinjauan Pustaka


Beberapa penelitian menggunakan Algoritma pohon keputusan telah

banyak digunakan di berbagai studi kasus khususnya algoritma C4.5, karena

algoritma C4.5 memiliki tingkat akurasi yang lebih tinggi dibandingkan

dengan algoritma pohon keputusan yang lain. Penelitian terkait dengan

menggunakan algoritma C4.5 adalah sebagai berikut :


1. Penelitian terkait dengan jurnal yang pernah dilakukan oleh Mabrur

dan Lubis (2012) dengan judul Penerapan Data Mining untuk

memprediksi kriteria nasabah kredit. Penelitian tersebut dilakukan

untuk memprediksi kriteria nasabah kredit yang berpotensi

melakukan peminjaman (kredit) terhadap bank. Hasil dari

penelitian tersebut adalah sebuah aplikasi yang dapat memudahkan

bagian dana bank XY dalam memperoleh target pemasaran kredit

dimasa mendatang.
2. Studi kasus yang lain, penelitian terkait perbandingan kinerja

pohon keputusan ID3 dan C4.5 pernah dilakukan oleh Sukardi, Abd

Syukur dan Supriyanto (2014) dengan judul Klasifikasi Spam

Email Menggunakan Algoritma C4.5 dengan Seleksi Fitur.

Penelitian tersebut bertujuan untuk mengetahui sejauh mana tingkat

akurasi algoritma C4.5 untuk menyeleksi fitur spam email. Hasil

penelitian ini membuktikan bahwa pohon keputusan algoritma C4.5

memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan

ID3 dalam mengklasifikasikan data spam email.


2.2 Landasan Teori
2.2.1 Data Mining
Data mining adalah proses menganalisa data dari perspektif yang

berbeda dan menyimpulkannya menjadi informasi-informasi penting

yang dapat dipakai untuk meningkatkan keuntungan, memperkecil

biaya pengeluaran, atau bahkan keduanya. Secara teknis, data mining

dapat disebut sebagai proses untuk menemukan korelasi atau pola dari

ratusan atau ribuan field dari sebuah relasional database yang besar

(Mabrur dan Lubis, 2012).


Data mining adalah proses mencari pola atau informasi menarik

dalam data terpilih dengan menggunakan teknik atau metode tertentu.

Teknik, Metode atau Algoritma dalam Data Mining sangat bervariasi.

Pemiihan metode atau algoritma yang tepat sangat bergantung pada

tujuan dan proses Knowledge Discovery in Database (KDD) secara

keseluruhan (Mardi, 2016)


Knowledge Discovery in Database (KDD) merupakan ilmu yang

membahas tentang pola sebuah data yang mengacu pada proses untuk

menambang (mining) pengetahuan dari sekumpulan data yang sangat

besar (Fatayat, 2013). Pramudiono dalam bukunya Kusrini,

mengatakan Data Mining adalah serangkaian proses untuk menggali

nilai tambah dari suatu kumpulan data berupa pengetahuan yang

selama ini tidak diketahui secara manual (Kusrini, 2009).


Data yang banyak dan besar belum tentu memiliki makna atau

informasi didalamnya yang dapat dimanfaatkan. Dengan proses data

mining, data tersebut dapat dirubah menjadi aturan, pola ataupun

model (Prasetyo 2012). Proses data mining antara lain melakukan

pengumpulan data dan penggunaan data historis guna mencari pola

dan hubungan atribut dalam dataset (Santosa 2007). Dari beberapa


pakar data mining terdapat satu pengertian bahwa dalam data mining

digunakan data lampau untuk mengetahui atau menyimpulkan serta

mendapat pengetahuan baru yang bisa dipakai untuk memperbaiki

pengambilan keputusan di masa depan.


2.2.2 Klasifikasi
Klasifikasi merupakan salah satu peran utama dari data mining.

Klasifikasi yaitu proses dari mencari suatu himpunan model (fungsi)

yang dapat mendeskripsikan dan membedakan kelas-kelas data atau

konsep-konsep, dengan tujuan dapat menggunakan model tersebut

untuk memprediksi kelas dari suatu objek yang mana kelasnya belum

diketahui. Klasifikasi termasuk kedalam supervised learning karena

dalam proses klasifikasi terdapat proses pembelajaran dengan data

lampau atau data training. Proses ini digunakan algoritma untuk

mengenali pola dari data yang nantinya dapat diterapkan kepada data

baru yang belum diketahui kelompoknya (Rani, 2015).


Dalam klasifikasi, terdapat target variabel kategori. Sebagai

contoh, penggolongan pendapatan dapat dipisahkan dalam tiga

kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan

rendah. Dalam melakukan suatu klasifikasi dibutuhkan data lampau

yang nantinya akan diolah menjadi sebuah aturan ataupun sebuah

pengetahuan baru. Masalah klasifikasi pada dasarnya adalah sebagai

berikut (Susanto and Suryadi 2010):


1. Masalah Klasifikasi berangkat dari data training yang tersedia.
2. Data training akan diolah dengan menggunakan algoritma

klasifikasi.
3. Masalah klasifikasi berakhir dengan dihasilkannya sebuah

pengetahuan yang direpresentasikan dalam bentuk diagram,

aturan atau pengetahuan.


2.2.3 Pohon Keputusan (Decision Tree)
Model pohon keputusan pertama kali diperkenalkan oleh Hunt

dan Dikembangkan oleh Quinlan pada tahun 1986. Pohon keputusan

merupakan metode klasifikasi dari prediksi yang sangat kuat dan

terkenal. Pohon keputusan terdiri dari simpul internal, simpul daun

Dan cabang. Setiap simpul internal berisi tes pada atribut, Sedangkan

setiap node daun berisi sebuah kelas, dan setiap cabang dari Node

memungkinkan untuk mendapatkan hasil dari data asli (Ardun dan

Windha, 2015).
Metode pohon keputusan mengubah fakta menjadi pohon

keputusan yang mempresentasikan aturan. Aturan dapat dengan

mudah dipahami dengan bahasa alami. Dan mereka juga dapat

diekspresikan dalam bentuk bahasa basis data seperti Structured

Query Language untuk mencari record pada kategori tertentu. Pohon

keputusan juga berguna untuk mengeksplorasi data menemukan

hubungan tersembunyi antara sejumlah calon variabel input dengan

sebuah variabel target.


2.2.4 Algoritma C4.5
Algoritma C4.5 Merupakan pengembangan dari algoritma ID3

(Larose 2005) yang dikembangkan oleh Quinlan (Han and Kamber

2006). Beberapa pengembangan yang dilakukan pada C4.5 antara lain

bisa mengatasi missing value, bisa mengatasi contiu data, dan pruning

(Fadillah, 2013). Jantan et al, (2010) menyebutkan algoritma C4.5

merupakan salah satu teknik decision tree yang sering digunakan


untuk menghasilkan beberapa aturan-aturan dan sebuah pohon

keputusan dengan tujuan untuk meningkatkan keakuratan dari prediksi

yang sedang dilakukan, di samping itu algoritma C4.5 merupakan

algoritma yang mudah dimengerti.


Langkah untuk membuat sebuah decision tree dari algoritma C4.5

adalah sebagai berikut (Han and Kamber 2006):


1. Mempersiapkan data training, data training yaitu data yang diambil

dari data histori yang pernah terjadi sebelumnya atau disebut data

masa lalu dan sudah dikelompokan dalam kelas-kelas tertentu.


2. Menentukan akar pohon. Akar pohon ditentukan dengan cara

menghitung GainRatio tertinggi dari masing-masing atribut.

Sebelum menghitung GainRatio, terlebih dahulu menghitung Total

Entropy sebelum dicari masing-masing Entropy class, adapun


rumus mencari Entropy (Ardhun dan Windha, 2015) seperti di

bawah:

(1) Keterangan:
S = Himpunan

kasus
n = jumlah partisi S
pi = proporsi dari Si terhadap S
Dimana log2pi dapat dihitung dengan cara (Ardhun dan Windha,

2015) :

3. Gain (S,A) merupakan


(2)
perolehan informasi dari atribut A

relative terhadap output data S. Perolehan informasi didapat dari

output data atau variable dependent S yang dikelompokkan

berdasarkan atribut A, dinotasikan dengan gain (S,A). Rumus untuk

menghitung Gain (Ardhun dan Windha, 2015) seperti dibawah ini :


(3)

Di mana :
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
[Si] : jumlah kasus pada partisi ke-i
[S] : jumlah kasus pada S
BAB III

ANALISIS SISTEM

3.1 Analisis Model


3.1.1 Kebutuhan Masukkan
Kebutuhan masukan dari sistem adalah nilai atribut yang dibuat

ke dalam sebuah data tabel. Atribut yang digunakan untuk

perhitungan pada penelitian ini yaitu umur, jenis kelamin, pekerjaan,

status pernikahan, pendidikan, tempat tinggal dan hutang.


Salah satu proses kalkulasi dari entropy adalah proses kalkulasi

nilai entropy prediksi yaitu dengan jumlah 100 sampel data.

Selanjutnya, akan diuraikan penjelasan lebih terperinci mengenai

tiap-tiap langkah dalam pembentukan pohon keputusan dengan

menggunakan weka 3.6. Berikut adalah tabel atribut data training:

Tabel 3.1 atribut data training

3.2 Analisa Masalah

Tabel 1 atribut data


Seperti yang sudah dijelaskan pada latar belakang masalah,

bahwa permasalahan yang muncul adalah bagaimana mengolah data

operasional yang sudah ada menjadi ilmu pengetahuan baru berupa

informasi yang akan datang, yang dapat berguna untuk menciptakan suatu

strategi baru untuk memperoleh solusi dalam penyelesaian masalah yang

sedang terjadi.

Analisa ini bermanfaat untuk mengetahui karakteristik calon

nasabah yang akan melakukan kredit, sehingga membantu para analisis

kredit dalam melakukan penilaian terhadap calon nasabahnya. Penilaian ini

bertujuan agar dapat mengurangi masalah ketidak lancaran dalam

pembayaran kredit. Oleh karena itu, Data Mining merupakan salah satu

solusinya.
3.3 Perancangan Alur Sistem
3.3.1 Flowchart
START

Nasabah mendaftar ke
Teller Bank

Teller menginput data


Nasabah

Pegawai melakukan uji


kelayakan nasabah
kredit

Tidak
LAYAK

3.3.2 Ya Konteks
Diagram
Diagram
Teller menerima hasil konteks merupakan diagram yang menggambarkan
uji kelayakan
aliran kredit
nasabah data secara garis besar yang dipresentasikan dengan

lingkaran tunggal yang mewakili keseluruhan sistem. Diagram ini


Teller memberi tahu
nasabah mencatat data yang
hasil uji kelayakan masuk ke sistem beserta sumbernya, informasi
kredit

Nasabah menerima
hasil uji kelayakan

Teller memberi uang


kredit ke nasabah

END
Nasabah menerima
uang t

Gambar 3.1 Flowchart uji kelayakan kredit nasabah


yang dihasilkan oleh sistem dan tujuannya. Diagram konteks ini

terdapat sebuah proses sistem kelayakan nasabah penerima kredit

dan satu entitas karyawan, seperti gambar diagram konteks yang

ada di bawah ini.

3.3.3 Data Flow Diagram (DFD) Level 0


Data Flow Diagram (DFD) adalah bagan atau alat perancangan

sistem yang menggambarkan sebuah logika dan alur pada sebuah

sistem. DFD merupakan langkah yang digunakan untuk

menurunkan diagram konteks dalam bentuk lebih detail. Model ini

menggambarkan sistem sebagai jaringan kerja antar fungsi yang

saling berhubungan dengan aliran data dan penyimpanan data. Pada

sistem ini digunakan DFD level 0 seperti gambar di bawah ini.

Gambar 3.2 Diagram Konteks Kelayakan Nasabah Kredit


Gambar 3.3 DFD level 0 Kelayakan Nasabah Kredit
3.4 Alur Proses Pengolahan Data

Gambar 3.4 Alur Proses Pengolahan Data Kelayakan Nasabah

Beri Nilai