ABSTRACT
Cooperatives as a form of organization that are important in promoting economic growth . Cooperatives be
an alternative for people to get funds in an effort to improve their quality of life , day-to- day needs and
develop the business . No doubt , lend funds to member cooperatives will surely emerge problems , such as
members of the borrower paying the overdue installment of funds , misuse of funds for other purposes , the
customer fails to develop its business so as to result in cooperative funds do not flow or it can lead to bad
credit . In this research will be carried out loans prediction using data mining classification Support Vector
Machine and k - Nearest Neighbors were then conducted a comparison of both methods . From the test
results to measure the performance of both methods using cross validation , confusion matrix and ROC
curves is known that Support Vector Machine has an accuracy value of 92.67 % followed by k -Nearest
Neighbors, which has a value of 88.67 % accuracy . Thus the Support Vector Machine method is included
in Verry Good Clasification because it has the accuracy of 92.67 % .
ABSTRAK
Koperasi sebagai salah satu bentuk organisasi yang penting dalam meningkatkan pertumbuhan ekonomi.
Koperasi simpan pinjam menjadi salah satu alternatif bagi masyarakat untuk mendapatkan dana dalam
upaya memperbaiki taraf kehidupan, pemenuhan kebutuhan sehari-hari dan mengembangkan usaha.Tidak
dipungkiri, memberikan pinjaman dana kepada anggota koperasi pasti akan muncul permasalahan-
permasalahan, seperti anggota peminjam terlambat membayarkan cicilan dana, penyalahgunaan dana untuk
keperluan lain, nasabah gagal mengembangkan usahanya sehingga dapat mengakibatkan dana di koperasi
tidak mengalir atau dapat mengakibatkan kredit macet. Dalam penelitian ini akan dilakukan prediksi
pinjaman kredit dengan menggunakan metode klasifikasi data mining Support Vector Machine dan k-
Nearest Neighbor syang kemudian dilakukan komparasi kedua metode tersebut. Dari hasil pengujian
dengan mengukur kinerja kedua metode tersebut menggunakan cross validation, confusion matrix dan
kurva ROC diketahui bahwa Support Vector Machine memiliki nilai akurasi 92.67% diikuti oleh k-Nearest
Neighbors yang memiliki nilai akurasi 88,67%. Dengan demikian Metode Support Vector Machine tersebut
termasuk dalam Verry Good Clasification karena memiliki nilai akurasinya sebesar 92.67%.
115
Nandang Iriadi dan Henny Leidiyana
yang telah disetujui oleh koperasi. Namun, serba usaha Ceger Jaya tahun 2011, dengan
perlu diperhatikan juga bahwa debitur yang jumlah nasabah bermasalah sebanyak 400
telah disetujui juga tidak semuanya orang. Preprocessing data yang dilakukan
pembayar kredit yang baik, artinya ada adalah mereduksi data nasabah koperasi.
beberapa debitur yang telah disetujui tapi Data sejumlah 400 record direduksi menjadi
beberapa bulan kemudian pembayarannya 300 record dengan menghilangkan duplikasi
menunggak. Untuk memprediksi perilaku data. Data tersebut selanjutnya diolah
nasabah kredit ini diperlukan suatu metode menggunakan rapid miner dengan 10 K-fold
atau teknik yang dapat mengolah data-data validation sehingga didapatkan data training
yang sudah ada di bank tersebut. Salah satu dan data testing.
metodenya dapat menggunakan teknik data 2.2. Metode Penelitian
mining. Beberapa teknik yang digunakan Penelitian ini terdiri dari beberapa
untuk menganalisa untuk permasalah kredit tahap seperti terlihat pada kerangka
telah dilakukan antara lain dengan pemikiran Gambar 1.
menggunakan neural network dan naive a. Problem
bayes. Permasalahan (problem) pada penelitian
Penelitian-penelitian Komparasi yang ini adalah belum diketahuinya algoritma
telah dilakukan oleh Lan Yu, Guoqing Chen, yang akurat untuk kelayakan pemberian
Andy Koronios, Shiwu Zhu, Xunhua Guo pinjaman kredit kepada anggota koperasi,
(2007), Henny Leidiyana (2011), Ferry terutama untuk penentuan level resiko
Febian (2011), Wisti Dwi Septiani (2013). kredit.
Penelitian ini bertujuan Untuk memprediksi b. Approach
perilaku nasabah kredit. Hal ini diperlukan Jenis penelitian yang dilakukan dalam
suatu metode atau teknik yang dapat penelitian ini adalah jenis penelitian
mengolah data-data yang sudah ada di eksperimen, yaitu menekankan pada
koperasi tersebut. Salah satu metodenya percobaan dari teori-teori yang sudah
dapat menggunakan teknik data mining. ada.Untuk itu dibuat approach (model)
Metoda tersebut digunakan dalam penelitian dalam bentuk support vector machine
ini untuk membandingkan (komparasi) dan k-Nearest Neighbors untuk
antara metode support vector machine dan k- memecahkan permasalahan kemudian
Nearest Neighbors, untuk mengetahui dilakukan pengujian terhadap kinerja dari
apakah kedua metode tersebut benar-benar kedua metode tersebut.
akurat atau tidak. Support vector machine (SVM) adalah
2. Bahan dan Metode Penelitian metode pengklasifikasian yang mencari
2.1. Bahan hyperplane terbaik untuk memisahkan
Bahan yang digunakan dalam data-data dengan kelas-kelas yang
penelitian ini adalah data nasabah koperasi berbeda. Diistilahkan juga sebagai
maximum margin classifier karena training dengan cepat dan ini berguna
secara simultan meminimalisasikan dalam teknik learning ketika mengadapi
classification error dan memaksimalkan masalah ketidaktegasan (Maimon, 2005).
margin geometrinya (Sembiring, 2007). Algoritma k-Nearest Neighbors (k-NN)
Permasalahan klasifikasi yang ada pada adalah metode menyediakan pendekatan
umumnya berusaha memisahkan sederhana untuk menghitung prediksi
sekelompok data yang berada pada kelas dalam pengamatan yang diketahui (Myatt
yang satu dengan sekelompok data yang 2007). Algoritma k-Nearest Neighbor (k-
ada di kelas yang lain. Support vector NN) merupakan suatu metode untuk
machine (SVM) adalah sistem melakukan klasifikasi terhadap objek
pembelajaran yang pengklasifikasiannya berdasarkan data pembelajaran yang
menggunakan ruang hipotesis berupa jaraknya paling dekat dengan objek
fungsi-fungsi linear dalam sebuah ruang tersebut. k-NN merupakan salah satu
fitur (feature space) berdimensi tinggi, metode pengklasifikasian data
dilatih dengan algoritma pembelajaran berdasarkan similaritas dengan label data
yang didasarkan pada teori optimasi (Larose, 2006) . Untuk algoritma K-
dengan mengimplementasikan learning Nearest Neighbor banyak kasus yang
bias yang berasal dari teori pembelajaran dapat selesaikan dan salah satunya adalah
statistik. Dalam konsepnya SVM kasus tentang kemungkinan seorang
berusaha menemukan fungsi pemisah nasabah bank akan bermasalah dalam
(hyperplane) terbaik diantara fungsi yang pembayaran atau tidak (kusrini dan
tidak terbatas jumlahnya. SVM adalah Luthfi, 2009). K-Nearest Neighbors yaitu
sebuah metode baru yang menjanjikan metode yang memperhitungkan
untuk klasifikasi data baik secara linier kedekatan jarak data atau kemiripan
maupun onlinier (Han dan Kamber, jumlah kemunculan data antara satu data
2006). Singkatnya, mesin dukungan dengan data lainnya. Support Vector
vektor (SVM) merupakan algoritma yang Machines yaitu metode yang mencari
bekerja sebagai berikut. Menggunakan fungsi pemisah (hyperplane) terbaik
pemetaan nonlinie runtuk mengubah data untuk memisahkan data-data dengan
pelatihan asli kedimensi yang lebih kelas-kelas yang berbeda
tinggi. SVM cukup populer untuk c. Development
penggunaan klasifikasi karena Untuk mengembangkan aplikasi
kelebihannya antara lain dari segi cara (development) berdasarkan model yang
kerja, SVM baik untuk klasifikasi, tidak dibuat, digunakan Rapid Miner. Model
tergantung pada jumlah fitur dan bisa yang telah dibentuk diuji tingkat
mengatasi masalah dimensi. Dari segi akurasinya dengan memasukan data uji
komputasi, SVM dapat melakukan proses yang berasal dari data training yang
didapatkan dari metode cross validation keuntungan dari Confusion Matrix adalah
dengan 10 K-fold cross validation. mudah untuk mengetahui jika data ada
d. Implementation diantara dua kelas (mislabeling).
Untuk penerapan (implementation) yaitu Confusion Matrix berisi informasi
penerapan hasil model yang sudah tentang aktual (actual) dan prediksi
terbentuk menjadi sebuah rule yang (predicted) pada sistem klasifikasi.
digunakan untuk menganalisa anggota Kinerja sistem seperti ini biasanya
koperasi yang layak untuk mendapatkan dievaluasi dengan menggunakan data
pinjaman. Di sini tidak dibangun aplikasi pada matriks.
tersendiri, melainkan aplikasi dengan Receiver operating characteristic (ROC)
cara memasukan data yang sudah adalah cara lain untuk menguji kinerja
dipreprocessing ke rapid miner. mengklasifikasi (Gorunescu, 2010).
e. Result Kurva merupakan suatu grafik yang
Tahap terakhir yaitu menghasilkan dapat terbentuk oleh nilai area under
(result) algoritma klasifikasi yang paling curve (AUC). Nilai Akurasi AUC
akurat untuk prediksi penentuan dikatakan sempurna apabila nilai AUC
pinjaman kredit pada anggota Koperasi mencapai 1.000 dan akurasinya buruk
Serba Usaha “Ceger Jaya”. Hasil akurasi jika nilai AUC dibawah 0.500. Klasifikasi
yang baik pada rule yang terbentuk akan data mining, nilai Area Under
direkomendasikan untuk diterapkan dan Curve(AUC) dibagi menjadi 5 kelompok,
implementasikan pada sebuah aplikasi nilai AUC antara 0.90-1.00 (klasifikasi
yang dapat memprediksi penentuan sangat baik), nilai AUC antara 0.80-0.90
resiko pinjaman kredit bermasalah pada (klasifikasi baik), nilai AUC antara
anggota koperasi tersebut. 00.70-0.80 (klasifikasi cukup), nilai AUC
f. Measurement antara 00.60-0.70 (klasifikasi buruk),
Untuk pengukuran (measurement) nilai AUC antara 00.50-0.60 (klasifikasi
digunakan metode Comparison, Cross salah) (Gorunescu, 2011).
Validation, Confusion Matrix, Kurva Sebuah grafik ROC adalah plot dengan
ROC, T-Test. Metode tersebut digunakan tingkat positif salah (FP) pada sumbu X
untuk membandingkan hasil dari masing- dan tingkat positif benar (TP) pada
masing metode. sumbu Y. Titik (0,1) adalah klasifikasi
Confusion Matrix adalah alat visualisasi sempurna yang mengklasifikasikan
yang biasa digunakan pada supervised semua kasus positif dan kasus negatif
learning (Gorunescu, 2010). Tiap kolom dengan benar, karena tingkat positif salah
pada matriks adalah contoh dalam kelas (FP) adalah 0 (tidak ada) dan tingkat
prediksi, sedangkan setiap baris mewakili positif benar (TP) adalah 1. Titik (0,0)
kejadian di kelas yang sebenarnya. Satu merupakan sebuah klasifikasi yang
vector machine sebesar 92.67%, dan metode sesuai, dan 21 data diprediksi lancar
k-nearest neighborssebesar 88.67%. ternyata bermasalah.
Tabel 1 adalah confusion matrix dari Dengan metode k-Nearest Neighbors,
perhitungan berdasarkan data training menghasilkan kondisi seperti pada Tabel 2
dengan data sebanyak 300 record, diketahui Diketahui dari 300 data, 10 diklasifikasikan
dari 300 data,0 diklasifikasikan bermasalah bermasalah sesuai dengan prediksi yang
sesuai dengan prediksi yang dilakukan dilakukan dengan metode k-Nearest
dengan metode support vector machine, lalu Neighbors, lalu 23 data diprediksi
1 data diprediksi bermasalah tetapi ternyata bermasalah tetapi ternyata lancar, 256 data
lancar, 278 data class lancar diprediksi class lancar diprediksi sesuai, dan 11 data
diprediksi lancar ternyata bermasalah.
Tabel 1. Model Confusion Matrix untuk Metode Support Vector Machine
Accuracy : 92.67% +/- 1.33% (mikro : 92.67%)
True bermasalah true lancar class precision
Pred.Bermasalah 0 1 0.00%
Pred.Lancar 21 278 92.98%
Classreacall 0.00% 99.64%
Dari hasil komparasi kedua metode tingkat optimistic k-NN lebih tinggi dari
maka didapat hasil komparasi antara support SVM.
vector machine dan k-Nearest Neighbors Tabel 3 Komparasi Nilai AUC
Gambar 6. Grafik Komparasi ROC Curve Metode Support Vector Machine dan k-Nearest Neighbors
Melihat dari kedua hasil pengujian terbaik adalah Support Vector Machine
dari tabel 3 dan tabel 4 (accuracy dan AUC) sedangkan menurut pengujian ROC Curve
serta gambar 4 dan 5 ternyata masih belum (AUC), algoritma yang terbaik adalah k-
bisa ditentukan algoritma apa yang terbaik. Nearest Neighbors . Untuk penentuan lebih
Menurut pengujian accuracy, algoritma lanjut akan digunakan pengujian dengan
memanfaatkan uji statistik yaitu dengan termasuk dalam Exellent Clasification dan k-
menggunakan uji T-Test (Santosa, 2010). Nearest Neighbors termasuk dalam Good
Tabel 5 Hasil uji T-Test pada Support Vector Clasification.
Machine dan k-Nearest Neighbors T-Test
Significance 4. Kesimpulan
0.927+/-0.013 0.890+/-0.033
Dari penelitian berjudul Prediksi
0.927+/-0.013 0.005
.890+/-0.033 Pinjaman Kredit dengan Support Vector
Tabel 5 memperlihatkan hasil uji T-
Machines dan K-Nearest Neighbors pada
Test pada Support Vector Machine dan k-
Koperasi Serba Usaha, dapat ditarik
Nearest Neighbors. Berdasarkan hasil
kesimpulan bahwa metode Support Vector
tersebut dapat dianalisis bahwa algoritma
Machine dapat digunakan untuk menentukan
Support Vector Machine memiliki perbedaan
resiko peminjaman kredit pada koperasi dan
nilai yang sangat dominan atau signifikan
memprediksi pelanggan potensial lebih
karena memiliki nilai probabilitas < 0,05
handal dibandingkan dengan metode k-NN
yaitu 0,005 terhadap algoritma k-Nearest
dan cara konvensional dengan akurasi
Neighbors. Sehingga dapat disimpulkan
92.67%.
bahwa algoritma yang paling akurat untuk
memprediksi pinjaman kredita dalah Support
Daftar Pustaka
Vector Machine karena memiliki nilai uji
accuracy tertinggi yaitu 92.67% dan nilai uji Febrian, Ferry. 2011. Analisis Komparasi
Algoritma Klasifikasi Data Mining
statistik T-Test paling dominan terhadap Pada Akseptasi Data Fakultatif
algoritma lainnya walaupun memiliki nilai Reasuransi Jiwa. [Tesis]. Jakarta :
Program Studi Teknik Informatika
uji AUC tidak paling tinggi yaitu 0,927 Sekolah Tinggi Manajemen
Diikuti dengan algoritma k-Nearest Informatika dan Komputer Eresha.
Neighbors yang memiliki perbedaan nilai Gorunescu, Florin. 2011. Data Mining:
Concepts, Models, and Techniques.
yang sangat dominan atau signifikan Verlag Berlin Heidelberg : Springer
terhadap algoritma Support Vector Machine. Han, J.,&Kamber, M. 2006. Data Mining
Tabel 6.Hasil Perbandingan Seluruh Pengujian Concept and Tehniques. San
Support Vector k-Nearest Fransisco: Morgan Kauffman.
Machine Neighbors Leidiyana, Heny. 2011. Komparasi
Accuracy 92.67% 88,67%
Algoritma Klasifikasi Data Mining
AUC 0.927 0.890
T-Test dominan Tdk dominan
Dalam Penentuan Resiko Kredit
Kepemilikan Kendaraan Bermotor.
Melihat hasil perbandingan dari seluruh [Tesis]. Jakarta : STMIK Nusa
pengujian yang telah dilakukan seperti Mandiri.
Larose, D. T. 2006. Data Mining Methods
terangkum pada Tabel 6, menyatakan bahwa
And Models. Canada: John Wiley
algoritma Support Vector Machine sangat &Sons, Inc.
akurat untuk menangani masalah prediksi. Kusrini, & Luthfi, E. T. 2009. Algoritma
Data Mining. Yogyakarta: Andi
Berdasarkan AUC dapat disimpulkan bahwa
Publishing
Algoritma Support Vector Machine