Anda di halaman 1dari 8

PENENTUAN PERSETUJUAN PEMBERIAN KREDIT BANK

MENGGUNAKAN METODE HYBRID SVM


Erliyah Nurul Jannah1, Rizky Widhanto Herlambang2, Mario Renato Pangow 3
(Semangat)
Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember
Kampus Sukolilo Surabaya, 60111
1

Email : erliyah.nj@gmail.com , rizky.widhanto.herlambang@gmail.com , pangow.mario@gmail.com


ABSTRAK

AN
G

AT

Kredit merupakan produk utama dari sebuah bank. Bank dapat memperoleh keuntungan yang besar
dari sektor ini. Namun keuntungan tersebut juga diimbangi dengan besarnya resiko yang akan dihadapi oleh
pihak bank jika terjadi kredit bermasalah, misal kredit macet. Hal ini terjadi karena tak sedikit bank
memutuskan memberi kredit kepada nasabahnya hanya berdasar pada intuisi. Agar dapat mengurangi resiko
terjadinya kredit bermasalah pada persetujuan pemberian kredit, dibutuhkan suatu metode yang dapat
membantu pihak bank dalam menambil keputusan. Hybrid Support Vector Machine (SVM) adalah salah satu
metode data mining yang dapat digunakan untuk mengatasi permasalahan ini. Hybrid SVM pada makalah ini
merupakan kombinasi antara metode SVM dengan kernel Radial Basis Function (RBF), Grid Search, dan F
Score. Grid Search digunakan untuk mengoptimasi parameter kernel, sedangkan F Score digunakan untuk
memilih fitur yang diskriminatif, yaitu fitur yang paling berkontribusi dalam membedakan kelas. Performa
metode Hybrid SVM tidak dipengaruhi oleh jumlah dimensi atau jumlah fitur dari dataset. Uji coba
menunjukkan bahwa Hybrid SVM memiliki tingkat akurasi yang tinggi yaitu 88,70% dan waktu komputasi 0,24
detik.
Kata Kunci: Kredit, Support Vector Machine (SVM), RBF kernel, Hybrid SVM, F Score, Grid Search

pemberian kredit telah dikembangkan dengan cara


pengelompokan nasabah, apakah seorang nasabah
layak diberi kredit atau tidak. Pengelompokan
tersebut pada umumnya didasarkan pada karakter,
kapasitas, modal, jaminan, dan kondisi ekonomi dari
nasabah tersebut.
Saat ini pihak bank dihadapkan pada suatu
masalah. Mereka berusaha meningkatkan pemberian
volume kredit, namun juga harus dapat mengurangi
tingkat resiko terjadinya kredit bermasalah.
Tak sedikit bank memberikan kredit kepada
nasabahnya hanya berdasar intuisi. Hal ini tentu saja
sangat beresiko terhadap kelancaran kredit. Oleh
sebab itu, dibutuhkan sebuah metode yang akurat
yang dapat membantu dalam penentuan pemberian
kredit bank kepada nasabah.
Berbagai macam metode telah dikembangkan
untuk membantu kreditor dan banker dalam
memutuskan pemberian kredit kepada nasabah.
Metode-metode yang diusulkan sebelumnya telah
menggunakan teknik-teknik yang ada dalam data
mining. Beberapa metode yang telah dilakukan
adalah metode statistik konvensional yang meliputi
linear discriminant model [3], logistic regression
models [4], k-nearest neighbor models [5], decision
tree models [6], dan neural network models [7]. Pada
linear discriminant model, terdapat batasan berupa
asumsi bahwa variabel bebas harus terdistribusi
normal. Padahal kenyataannya variabel bebas belum

PENDAHULUAN

SE
M

Pertumbuhan ekonomi dunia di sektor industri


saat ini sangat pesat. Hal ini mendorong terjadinya
kompetisi industri yang cukup ketat. Sehingga baik
perorangan
maupun
perusahaan
terkadang
membutuhkan tambahan modal untuk melebarkan
ranah industrinya. Modal tersebut salah satunya bisa
diperoleh dari pemberian kredit dari bank.
Kredit menurut wikipedia adalah suatu fasilitas
keuangan yang memungkinkan seseorang atau badan
usaha untuk meminjam uang dan membayarnya
kembali dalam jangka waktu yang ditentukan [1].
Kredit merupakan salah satu produk utama dari
sebuah bank. Bank dapat memperoleh keuntungan
yang besar dari sektor ini. Namun besarnya
keuntungan yang didapat oleh bank juga diimbangi
dengan resiko yang tak bisa diremehkan. Salah satu
resiko pemberian kredit yang mungkin dialami
perusahaan adalah kredit bermasalah, misalnya
nasabah tidak mengembalikan uang pinjaman.
Seperti yang diberitakan oleh situs vibiznews.com
pada tanggal 19 Juli 2011, bahwa jumlah kredit
macet Perbankan Indonesia hingga Mei 2011
sejumlah Rp 34,991 Triliun [2].
Pada dua dekade terakhir, banyak metode telah
dikembangkan sebagai acuan bagi pihak bank untuk
melakukan persetujuan pemberian kredit. Persetujuan

Data Mining Contest Gemastik 2011


ITS Surabaya, 12 13 Oktober 2011

Oleh sebab itu, dalam makalah ini metode yang


akan digunakan untuk penentuan persetujuan
pemberian kredit adalah metode hybrid SVM. Yaitu
kombinasi antara metode SVM dengan Grid Search
untuk optimasi parameter kernel SVM dan F Score
untuk pemilihan fitur yang diskriminatif. Hybrid
SVM diharapkan dapat memprediksi penentuan
persetujuan pemberian kredit dengan akurasi yang
tinggi dan waktu komputasi yang relatif singkat.

METODE DAN IMPLEMENTASI

AT

Support vector machine (SVM) adalah metode


yang pertama kali dicetuskan oleh Vapnik and
Corinna Cortes pada tahun 1995. SVM dikenal dapat
memecahkan masalah klasifikasi di berbagai bidang,
seperti pattern recognition, bioinformatics, dan text
categorization.
2.1 Preprocessing Data
Sebelum
proses
klasifikasi
dilakukan,
diperlukan preprocessing data terlebih dahulu.
Preprocessing ini meliputi :
a. Replace Missing Values
Replace Missing Values adalah proses mengisi
semua data yang hilang (missing value). Jika
missing value tersebut bertipe kontinu, maka akan
diisi dengan rata-rata dari seluruh data dalam satu
fitur atau atribut. Namun jika missing value
tersebut bertipe nominal, maka akan diisi dengan
modus dari data keseluruhan dalam satu fitur atau
atribut.
b. Nominal To Binary
Nominal To Binary adalah proses mengubah data
nominal menjadi data biner. SVM dapat
melakukan klasifikasi pada data yang bertipe
nominal, namun data tersebut harus terlebih
dahulu diubah menjadi data biner.
c. Normalisasi
Normalisasi adalah proses mengubah nilai dari
data pada tiap-tiap atribut kontinu sehingga
menjadi berskala 0 sampai 1. Hal ini bertujuan
untuk menghindari terjadinya dominasi atribut
terhadap hasil klasifikasi.

SE
M

AN
G

tentu terdistribusi normal[8]. Sedangkan pada logistic


regression, model ini tidak efektif untuk menangani
permasalahan
klasififikasi
non
linier
dan
permasalahan yang melibatkan interaksi antar
variabel dalam variabel bebas[8]. Dan k-nearest
neighbor models, nilai akurasi dari model bergantung
pada nilai k jumlah ketetanggaan[8].
Pada metode statistik konvensional, probabilitas
yang mendasari model harus diasumsikan terlebih
dahulu untuk dapat menghitung probabilitas posterior
di mana keputusan akan dibuat . Namun SVM dapat
melakukan klasifikasi tanpa batasan atau asumsi ini
[9]. Performa SVM juga tidak bergantung pada
jumlah fitur atau atribut pada dataset. Sehingga
banyaknya fitur tidak mempengaruhi waktu
komputasi. Berbeda dengan beberapa metode data
mining lainnya yang memiliki batasan pada jumlah
fitur, seperti neural network dan decision tree. Fitur
dalam jumlah banyak akan menyebabkan waktu
komputasi semakin lama. Padahal saat ini, teknologi
dituntut untuk dapat menggali informasi dari data
yang berjumlah besar dalam waktu yang singkat.
Akhir-akhir ini telah banyak diajukan metode
gabungan (hybrid) untuk merancang model penilaian
kredit yang efektif. Hal ini dilakukan dengan harapan
dapat meningkatkan akurasi. Dan salah satu metode
hybrid tersebut adalah metode gabungan dengan
melibatkan Support Vector Machine (SVM), atau
lebih dikenal dengan Hybrid SVM. SVM dikenal
sukses dalam klasifikasi di berbagai bidang. Salah
satunya adalah klasifikasi penilaian kredit[10].
Terdapat tiga masalah utama ketika menerapkan
Hybrid SVM dalam proses klasifikasi. Pertama
pemilihan fitur, kedua pemilihan kernel, dan terakhir
adalah penentuan parameter kernel yang optimal.
Pemilihan fitur merupakan hal yang penting
dalam klasifikasi. Pemilihan fitur digunakan untuk
memilih fitur-fitur yang diskriminatif atau yang
paling berkontribusi dalam membedakan kelas. Fitur
yang tidak berkontribusi sebaiknya tidak digunakan
atau direduksi. Reduksi fitur diharapkan dapat
meningkatkan akurasi dan mengurangi waktu
komputasi [11].
Berbagai macam metode pemilihan fitur telah
diajukan, salah satunya adalah metode F Score.
Metode ini sederhana, namun efektif untuk memilih
fitur-fitur yang diskriminatif [12].
Berikutnya adalah permasalahan pemilihan
kernel. Berdasarkan penelitian yang telah dilakukan
oleh Huang C,M., RBF kernel terbukti efektif dalam
melakukan klasifikasi permasalahan persetujuan
pemberian kredit [11].
Setelah pemilihan kernel, selanjutnya adalah
optimasi nilai dari parameter kernel. Grid Search
merupakan algoritma yang efektif untuk menentukan
parameter yang optimal pada kernel Radial Basis
Function (RBF)[13].

Gambar 1. Ide Utama Support Vector Machine

Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM

( )

(1)

dengan mini dan maxi adalah nilai minimum dan


maksimum pada atribut ke-i.

AN
G

2.2 Support Vector Machine (SVM)


Konsep SVM dapat dijelaskan secara sederhana
sebagai usaha untuk mencari hyperlane terbaik yang
berfungsi sebagai pemisah dua buah kelas pada input
space. Hyperplane pemisah terbaik antara dua kelas
adalah hyperplane yang mempunyai margin terbesar.
Margin adalah jarak antara hyperplane tersebut
dengan pattern terdekat dari masing-masing kelas.
Pattern yang paling dekat ini disebut sebagai support
vector. Ilustrasi dari konsep SVM dapat digambarkan
pada Gambar 1.
Data yang tersedia dinotasikan dengan i d,
sedangkan label atau kelas masing-masing
dinotasikan dengan yi {-1,+1} untuk i =1,2,...,n, di
mana n
adalah banyaknya data. Permasalahan
optimasi pada SVM adalah :
(

))

(2)

SE
M

Dengan
untuk semua i = 1n
dan
di mana i adalah Langrange
multiplier untuk setiap data i. C adalah nilai yang
akan mengontrol relative cost dari tujuan optimasi
secara keseluruhan.
Pada permasalahan klasifikasi yang bersifat non
separable, fungsi kernel k(xi,xj) dapat digantikan
dengan fungsi yang lain seperti radial basis function
(RBF) yang memiliki fungsi sebagai berikut :
(

) (3)

atau
(

2.3 Pemilihan Parameter Optimal Menggunakan


Grid Search
Parameter yang tepat dapat menambah akurasi
dari metode SVM. Dalam metode SVM dengan
menggunakan kernel Radial Basis Function (RBF),
terdapat dua parameter yaitu C dan Gamma ().
Grid Search adalah metode yang digunakan
untuk mencari parameter yang optimal pada SVM
dengan RBF kernel. Metode ini bersifat exhaustive.
Pencarian nilai parameter yang optimal dilakukan
dalam range atau space tertentu. Dalam makalah ini,
range parameter yang digunakan adalah C = 2-5, 2-3
215 dan = 2-15, 2-13 23 [14].
Parameter yang optimal adalah pasangan C dan
yang menghasilkan Cross Validation (CV) rate
tertinggi jika dilakukan k-fold Cross Validation pada
data training.
Langkah-langkah untuk mendapatkan parameter
yang optimal dengan menggunakan Grid Search
dapat dilihat pada Gambar 2 dan secara singkat dapat
dijelaskan sebagai berikut :

Menyiapkan Grid Space, C = 2-5, 2-3 215 dan


= 2-15, 2-13 23

Melakukan uji coba klasifikasi untuk tiap-tiap


kombinasi C dan

Mengevaluasi dengan k-fold Cross Validation

Parameter yang optimal adalah kombinasi C dan


yang menghasilkan Cross Validation Rate
tertinggi

AT

Jika xi adalah data pada atribut ke-i, maka


normalisasi xi atau norm(xi) dapat dilakukan
dengan rumus sebagai berikut :

) (4)

2.4 Pemilihan Fitur Menggunakan F Score


F Score merupakan salah satu metode pemilihan
fitur yang sederhana namun efektif dalam
menentukan fitur-fitur yang diskriminatif [12]. F
Score memiliki kompleksitas O(nm) di mana n adalah
jumlah data dan m adalah jumlah fitur.
F Score dapat mengukur discriminant dua
himpunan bilangan real. Terdapat vektor data xi, i =
1,2,. . . , m, jika jumlah data positif dan data negatif
adalah n+ dan n-, maka F-score fitur i didefinisikan
sebagai berikut:
()

(
( )

( )

( )

( )

( )

( )

( )

(5)

( )

dengan = 1 / 22.

di mana , , , adalah rata-rata keseluruhan


data, rata-rata data positif, rata-rata data negatif dari
( )
fitur ke-i,
merupakan fitur ke-i dari data positif

Teknik SVM digunakan dalam makalah ini


karena memiliki kelebihan sebagai berikut :
1. SVM dapat diterapkan pada data yang bertipe
nominal namun dengan cara mengubahnya
menjadi data biner
2. Performa SVM tidak dipengaruhi oleh dimensi
(jumlah atribut atau fitur) dataset, sehingga SVM
dapat diterapkan untuk memecahkan masalah
klasifikasi dengan dataset berdimensi tinggi.

ke-k, sedangkan
merupakan fitur ke-i dari data
negatif ke-k[15].
Pembilang pada Persamaan 5 merupakan
diskriminan dari data positif dan negatif, dan
penyebut dari persamaan tersebut merupakan
diskriman tiap dua data dalam dataset. Semakin besar
nilai F Score, fitur tersebut semakin diskriminatif.
Langkah-langkah pemilihan fitur menggunakan
F Score dapat dilihat pada Gambar 3. Secara umum

( )

Data Mining Contest Gemastik 2011


ITS Surabaya, 12 13 Oktober 2011

SKENARIO UJI COBA

Urutkan fitur
berdasarkan F Score

Ambil sejumlah f fitur dengan F Score


tertinggi untuk uji coba klasifikasi dan
lakukan k-fold cross validation. Ulangi
langkah ini dengan nilai f yang berbeda

Hitung nilai Cross


Validation (CV) rate

Ambil sebanyak f fitur yang


menghasilkan CV rate tertinggi
untuk proses klasifikasi

AN
G

Uji coba dilakukan dengan PC Intel Core i5, 2.3


GHz, dan 4 GB RAM. Tools yang digunakan adalah
Weka versi 3.6.5 yang tersedia di website
http://www.cs.waikato.ac.nz/ml/weka/ dan tambahan
library libSVM [16] untuk uji coba hybrid SVM.

Hitung F Score dari


masing-maing fitur

AT

prosedur pemilihan tersebut dapat dijelaskan sebagai


berikut :

Menghitung nilai F Score dari masing-masing


fitur

Memilih sejumlah f fitur dengan fungsi :


f = [n/2i], i {0, 1, 2, , m}
(6)
di mana m adalah bilangan bulat yang
memenuhi n/2m 1 [9]

Mengambil training set T = D k untuk setiap f


fitur dalam data set D

Melakukan Cross Validation

Menghitung Cross Validation rate

Mengambil sejumlah f fitur yang memiliki nilai


Cross Validation rate tertinggi

SE
M

3.1 Dataset
Pada tahap uji coba ini, data yang digunakan
merupakan data history nasabah dari sebuah bank
dengan jumlah record sebanyak 416 record. Jumlah
record yang termasuk kelas SETUJU adalah 185
record. Dan jumlah record yang termasuk dalam
kelas TOLAK sebanyak 231 record.
Dataset ini terdiri dari 15 atribut dan 1 kelas.
Jumlah atribut yang bertipe kontinu sebanyak 6
atribut dan jumlah atribut yang bertipe nominal 9
atribut.

Siapkan Grid Space (C, )

Uji coba klasifikasi untuk tiaptiap kombinasi nilai C dan dan


lakukan k-fold cross validation

Hitung nilai Cross


Validation (CV) rate

Ambil kombinasi C dan


yang menghasilkan CV rate
tertinggi sebagai parameter
optimal

Gambar 2. Prosedur pemilihan parameter yang


optimal dengan metode Grid Search

Gambar 3. Prosedur Pemilihan Fitur dengan F


Score

3.2 Preprocessing
Tahap preprocessing data dapat dijelaskan
sebagai berikut :
a. Replace Missing Values
Dalam dataset yang digunakan untuk uji coba
pada makalah ini, terdapat 7 atribut yang
mengandung missing value.
Missing value
tersebut akan diisi dengan nilai rata-rata (mean)
atau modus dari data yang ada pada tiap-tiap
atribut. Nilai rata-rata digunakan untuk mengisi
missing value pada atribut yang bertipe kontinu,
dan nilai modus untuk atribut yang bertipe
nominal.
Daftar atribut yang mengandung missing value
beserta nilai mean atau modus dari atribut
tersebut dapat dilihat pada Tabel 1.
b. Nominal To Binary
Terdapat 9 atribut yang bertipe nominal dalam
dataset. Untuk mengubah atribut yang bertipe
nominal menjadi biner, dapat dilakukan dengan
cara menghitung jumlah kemungkinan nilai yang
dapat mengisi atribut tersebut.
Misal untuk atribut X4, nilai yang mungkin yang
dapat mengisi atribut X4 adalah 1,2,3, atau 4
(dapat diketahui dari keterangan yang ada dalam
dataset). Jadi, jumlah kategori yang mungkin
mengisi atribut X4 berjumlah empat kategori.
Sehingga atribut X4 akan dipecah menjadi empat
atribut yaitu X41, X42, X43, dan X44. Atribut X41

Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM

( )

AT

Tabel 2. Hasil proses Nominal To Binary untuk


atribut bertipe nominal
Atribut Jumlah
Hasil Nominal To Binary
Kategori
2
X1
X1
4
X41, X42, X43, X44
X4
3
X51, X52, X53
X5
14
X61, X62, X63, X64, X65, X66,
X6
X67, X68, X69, X610, X611,
X612, X613, X614
9
X71, X72, X73, X74, X75, X76,
X7
X77, X78, X79
2
X9
X9
2
X10
X10
2
X11
X12
3
X131, X132, X133
X13

AN
G

sampai dengan X44 ini hanya boleh diisi dengan


nilai 0 atau 1.
Untuk atribut nominal yang hanya memiliki dua
kategori, tidak perlu dipecah menjadi dua atribut.
Karena atribut tersebut sudah dapat menampung
nilai 0 atau 1 (nilai biner).
Atribut-atribut bertipe nominal yang telah diubah
menjadi biner dapat dilihat pada Tabel 2. Dari
Tabel 2, dapat dihitung jumlah atribut hasil proses
Nominal To Binary. Semula jumlah atribut
nominal adalah 9 atribut. Setelah dilakukan
proses Nominal To Binary, kesembilan atribut
tersebut dipecah menjadi 37 atribut. Sehingga saat
ini dataset terdiri dari 37 atribut ditambah dengan
6 atribut kontinu, menjadi 43 atribut.
c. Normlisasi
Proses normalisasi hanya dilakukan pada atribut
yang pertipe kontinu, yaitu atribut X2, X3, X8,
X11, X14, dan X15.
Untuk normalisasi X2, nilai minimum dan
maksimum yang ada pada atribut tersebut harus
dicari terlebih dahulu.
Nilai minimum untuk atribut X2 adalah 15,17 dan
nilai maksimumnya adalah 30,02. Maka untuk
normalisasi nilai-nilai yang ada pada atribut X2
dilakukan dengan perhitungan :

SE
M

dengan xi adalah nilai yang ada pada atribut X2.


Hal yang sama juga dilakukan untuk atribut
kontinu yang lain. Dicari terlebih dahulu nilai
minimum
dan
maksimumnya,
kemudian
normalisasinya
dapat
dilakukan
dengan
Persamaan 1.

3.3

Uji Coba Pemilihan Parameter dengan Grid


Search
Dalam uji coba penentuan parameter yang
optimal untuk SVM dengan kernel RBF, range nilai
parameter C dan yang akan diuji coba adalah C = 25
, 2-3 215 dan = 2-15, 2-13 23 [14].
Gambar 4 merupakan grafik uji coba parameter
dengan menggunakan Grid Search.
Tabel 1. Data atribut dengan missing value
Jumlah Nilai
Nilai
Atribut
Jenis
Missing Mean Modus
Value
Nominal
3
1
X1
Nominal
2
1
X4
Nominal
2
1
X5
Nominal
2
1
X6
Nominal
2
1
X7
Kontinu
8
30,02
X2
Kontinu
7
183,36
X14

Gambar 4. Uji coba penentuan parameter


menggunakan Grid Search

3.4 Uji Coba Pemilihan Fitur Menggunakan F


Score
Karena
sebelumnya
telah
dilakukan
preprocessing data Nominal To Binary, maka dari
data semula yang mempunyai 15 atribut berubah
menjadi 43 atribut. Semua atribut tersebut dihitung
nilai F Score-nya. Kemudian diurutkan berdasarkan
nilai F Score tertinggi. Atribut atau fitur yang
memiliki nilai F Score = 0 tidak akan diikutkan
dalam proses berikutnya atau diabaikan.
Kemungkinan jumlah fitur yang akan dipilih
adalah sejumlah f fitur dengan f memenuhi fungsi f =
[n/2i], i {0, 1, 2, , m}, m bilangan bulat yang
memenuhi n/2m 1 [9].
Jika jumlah atribut ada 43 dan 3 atribut
diabaikan karena hanya berisi 0. Sehingga saat ini
jumlah atribut menjadi 40, maka nilai f yang mungkin
adalah 40, 20, 10, 5.
Dari semua kemungkinan nilai f tersebut, akan
dilakukan uji coba klasifikasi. Sejumlah f fitur yang
memiliki CV Rate tertinggi akan dipilih sebagai
atribut. Dan akan digunakan dalam proses
selanjutnya.

Data Mining Contest Gemastik 2011


ITS Surabaya, 12 13 Oktober 2011

3.5 Uji Coba Hybrid SVM


Proses klasifikasi dilakukan dengan metode
hybrid SVM dengan data yang didapat dari dua
proses sebelumnya, yaitu proses pemilihan fitur dan
optimasi parameter. Dalam proses ini, dilakukan kfold cross validation dengan k = 5, 6, , 10. k-fold
cross validation yang menghasilkan nilai akurasi
paling tinggi akan dipilih sebagai model untuk proses
prediksi dengan data testing yang baru.

HASIL UJI COBA

Uji coba pada mulanya dilakukan dengan


mengklasifikasi data dengan menggunakan SVM,
dengan parameter default yang terdapat di Weka
yaitu C = 1 dan = 0, serta jumlah atribut tidak
dikurangi. Uji coba ini menghasilkan Cross
Validation Rate 86,06%.

AN
G

4.1 Hasil Uji Coba Pemilihan Parameter


Optimal dengan Grid Search
Telah dilakukan uji coba optimasi parameter
kernel RBF dengan metode Grid Search yang dapat
dilihat pada Gambar 4. CV rate tertinggi didapat
ketika kombinasi C dan bernilai 0,125 dan 0,125
serta k = 6 dengan nilai 88,22 %. Kedua nilai ini
akan digunakan sebagai parameter SVM dengan
kernel RBF pada proses selanjutnya.

AT

beda. Hasil uji coba tersebut dapat dilihat pada


Gambar 6.
Dari uji coba klasifikasi data persetujuan
pemberian kredit dengan metode hybrid SVM, dapat
diketahui bahwa reduksi jumlah fitur dari 40 fitur
menjadi 20 dapat menghasilkan akurasi yang tidak
jauh berbeda. Bahkan pada k = 10 menghasilkan CV
Rate yang sama, yaitu 88,70%. Model ini selanjutnya
akan digunakan untuk memprediksi data testing yang
baru.

SE
M

4.2 Hasil
Uji
Coba
Pemilihan
Fitur
menggunakan F SCore
Proses pemilihan fitur dengan menggunakan F
Score telah menghasilkan urutan fitur berdasarkan
nilai F Score nya. Urutan fitur tersebut dapat dilihat
pada Tabel 3. Semakin besar nilai F Score, fitur
tersebut semakin diskriminatif.
Dari Tabel 3, dapat diketahui bahwa terdapat
tiga fitur dengan nilai F Score = 0. Ketiga fitur
tersebut tidak akan diikutkan dalam proses
klasifikasi.
Dengan data F Score pada Tabel 3, dilakukan
uji coba klasifikasi menggunkan SVM sebanyak 4
kali, yaitu dengan jumlah atribut f = 40, 20, 10, dan
5. Serta dengan parameter RBF kernel C = 0,125, =
0,125. Setelah dilakukan 5-fold cross validation,
didapatkan hasil CV rate seperti pada Gambar 5.
Dari Gambar 4, dapat diketahui bahwa f fitur
dengan CV rate terbaik didapat pada nilai f = 20 dan f
= 40 yaitu dengan nilai 88,46 %. Jadi, untuk proses
selanjutnya jumlah fitur yang digunakan adalah 40
atau 20.
4.3 Hasil Uji Coba Klasifikasi Menggunakan
SVM
Telah
dilakukan
uji
coba
klasifikasi
menggunakan SVM dengan jumlah fitur 40 dan 20.
Namun dengan k-fold cross validation yang berbeda-

Gambar 5. Grafik CV Rate untuk Pemilihan f


Jumlah Fitur Terbaik

Gambar 6. Grafik CV Rate Klasifikasi dengan


Jumlah Fitur 40
4.4 Perbandiangan dengan Metode Lain
Pada tahap ini, dilakukan uji coba untuk
membandingkan performa hybrid SVM dengan
beberapa metode data mining lainnya. Hasil uji coba
perbandingan performa metode dapat dilihat pada
Tabel 4.
Dari Tabel 4 dapat diketahui bahwa hybrid
SVM memiliki tingkat akurasi yang paling tinggi
dibanding keempat metode lainnya, dan hybrid SVM
membutuhkan waktu yang singkat untuk melakukan
proses klasifikasi dibanding beberapa metode
lainnya.

Institut Teknologi Sepuluh Nopember, Penentuan Persetujuan Pemberian Kredit Bank Menggunakan
Metode Hybrid SVM

Atribut

F Score

No

Atribut

F Score

X9

1,202195

23

X12

0,007038

X10

0,311402

24

X64

0,005934

X11

0,209408

25

X66

0,005934

X8

0,141035

26

X71

0,003675

X72

0,070294

27

X61

0,003166

X3

0,057741

28

X65

0,003019

X614

0,048

29

X74

0,002959

X78

0,046893

30

X1

0,002446

X52

0,04669

31

X75

0,001934

10

X69

0,040144

32

X79

0,001934

11

X15

0,038311

33

X610

0,001875

12

X63

0,038241

34

X76

0,001189

13

X42

0,037798

35

X9

0,0009

14

X52

0,037798

36

X132

0,000365

15

X41

0,037798

37

X73

0,000155

16

X51

0,037798

38

X612

0,000116

17

X131

0,028412

39

X68

0,00006

18

X133

0,028363

40

X67

0,000023

19

X14

0,024508

41

X43

20

X611

0,020738

42

X44

21

X77

0,007836

43

X53

22

X62

0,007815

SE
M

Tabel 4. Hasil Uji Coba Perbandingan Metode


Metode
Akurasi
Rata-rata Waktu
(%)
Komputasi
(detik)

ANN
C45 / J48
Hybrid SVM
Nave Bayes
SVM

DAFTAR PUSTAKA

[1] Anonim. 2011. Kredit (Keuangan),


<URL:http://id.wikipedia.org/wiki/Kredit_%28
keuangan%29>
[2] ns/NS/vbn-dtc.
2011.
Kredit
Macet
Perbankan Mencapai Rp 31,336 Triliun,
<URL:http://www.vibiznews.com/news/bankin
g_insurance/2011/05/18/kredit-macetperbankan-mencapai-rp-31336-triliun>
[3] Reichert, A. K., Cho, C. C., Wagner, G. M.
1983. An Examination of The Conceptual
Issues Involved in Developing Credit-scoring
Models. Journal of Business and Economic
Statistics 1, 2:101114.
[4] Henley, W. E. 1995. Statistical Aspects of
Credit Scoring. Dissertation. The Open
University, Milton Keynes, UK.
[5] Henley, W. E., Hand, D. J. 1996. A k-nearest
Neighbor Classifier for Assessing Consumer
Credit risk. Statistician 44, 1:7795.
[6] Davis, R. H., Edelman, D. B., & Gammerman,
A. J. 1992. Machine Learning Algorithms for
Credit-card
Applications.
Journal
of
Mathematics Applied in Business and
Industry 4:4351.
[7] Desai, V. S., Crook, J. N., & Overstreet, G. A.
1996). A Comparison of Neural Networks and
Linear Scoring Models in The Credit Union
Environment.
European
Journal
of
Operational Research. 95, 1:2437.
[8] The comparisons of data mining techniques for
the predictive accuracy of probability of default
of credit card clients, I cheng yeh
[9] Huang, C., Chen, M., Wang, C. 2006. "Credit
Scoring with a Data Mining Approach based on
Support Vector Machines". Expert Systems
with Applications 33, 847-856.
[10] Belotti, T, Crook J. 2008. Support Vector
Machines For credit Scoring and Discovery of
Significant Features. Expert Systems with
Applications 36, 3302-3308
[11] Zhang, G. P. 2000. Neural Networks for
Classification: A survey. IEEE Transactions on
Systems, Man, and Cybernetics Part C:
Applications and Reviews 30, 4:451462.
[12] Zhang, X., Zhong, S. 2009. Blind Steganalysis
Method for bmp Images based on Statistical
mwcf and f-score Method. Proceedings of the

AN
G

berhubungan dengan kemungkinan pengembalian


uang pinjaman oleh nasabah kepada bank.
Namun, dengan adanya reduksi fitur
dikhawatirkan akan mengakibatkan terjadinya over
fitting. Model akan menghasilkan akurasi yang tinggi
pada data training, namun tidak dapat melakukan
prediksi dengan tepat pada data testing. Perlu
dilakukan penelitian lebih lanjut tentang efek reduksi
fitur.

AT

Tabel 3. Nilai F Score Tiap-tiap Fitur


No

86,06
85,34
88,71
82,93
86,06

3,64
0,19
0,24
0,03
0,14

KESIMPULAN

Klasifikasi menggunakan hybrid SVM yang


dilakukan dengan cara pemilihan parameter yang
optimal dan pemilihan fitur terlebih dahulu dapat
menambah akurasi hasil klasifikasi. Dari hasil uji
coba, diketahui bahwa akurasi atau CV Rate pada uji
coba dengan menggunakan SVM lebih kecil dari
klasifikasi menggunakan hybrid SVM. Pada SVM
didapatkan CV 86,06%, sedangkan pada hybrid
SVM didapatkan 88,70%.
Perbedaan akurasi walaupun hanya 1% akan
sangat berpengaruh pada kondisi bank, karena hal ini

[13]

[14]

[15]

SE
M

AN
G

[16]

2009 International Conference on Wavelet


Analysis and Pattern Recognition. Baoding
2009.
Hsieh, N. C. 2005. Hybrid Mining Approach in
The Design of Credit Scoring Models . Expert
Systems with Applications. 28, 4:655665.
Hsu, C. W., Chang, C. C., & Lin, C. J. 2003. A
Practical Guide to Support Vector
Classification,
<URL:http://www.csie.ntu.edu.tw/~cjlin/papers/
guide/guide.pdf>
Chen, Y.-W., & Lin, C.-J. 2005. Combining
SVMs with Various Feature Selection
Strategies,
<URL:http://www.csie.ntu.edu.tw/~cjlin/papers/
features.pdf>
Chang, C. C., & Lin, C. J. 2001. LIBSVM: a
Library for Support Vector Machines,
<URL:http://www.csie.ntu.edu.tw/~cjlin/libsvm

AT

Data Mining Contest Gemastik 2011


ITS Surabaya, 12 13 Oktober 2011