1 November 2020
E-ISSN: 162
Abstrak
Departement Telemarketing Bank dituntut mampu membuat target klien, karena kinerja
telemarketing bank dinilai dari target klien yang berminat pada produk bank yang ditawarkan
untuk mendukung telemarketing bank meningkatkan keberhasilannya dalam promosi, maka
dilakukan prediksi untuk menentukan keputusan klien berminat atau tidak pada produk deposito,
akan tetapi kepada nasabah atau klien yang memiliki potensial untuk menerima penawaran dari
telemarketing bank, yang dimana dapat meminimalisir kerugian biaya dalam promosi kepada
klien. Maka dapat dilakukan penerapan dan pemanfaatan teknik data mining guna memprediksi
minat klien menggunakan Support Vector Machine yang merupakan salah satu teknik yang cocok
untuk melakukan prediksi. Dengan menerapkan K-Fold Cross Validation untuk mengevaluasi
kinerja model atau algoritma dimana data dipisahkan mejadi dua subset data proses
pembelajaran dan data validasi. Setelah penelitian selesai dilakukan, maka muncul nilai akurasi
dari metode Support Vector Machine K-Fold Cross Validation sebesar 94,91% dengan nilai AUC
0.979 dengan menggunakan 10-fold K Validation. Kemudian dilakukan kembali perhitungan lebih
dengan parameter Kernel Polynominal mendapatkan hasil akurasi lebih besar dengan nilai
akurasi sebesar 95,18% dengan nilai AUC 0,974.
Kata Kunci: Prediksi, Bank Marketing Data Set, Support Vector Machine, Kernel Polynominal,
Klasifikasi
Abstract
The Telemarketing Department of the Bank is demanded to be able to make the target
client, because the performance of the bank telemarketing is assessed from the target of clients
who are interested in the bank products offered to support the telemarketing bank to increase its
success in promotion, then predictions are made to determine whether or not the client's decision
is interested in deposit products. customers or clients who have the potential to receive offers
from telemarketing banks, which can minimize cost losses in promotions to clients. So the
application and utilization of data mining techniques can be done to predict client interests using
Support Vector Machine which is one technique that is suitable for making predictions. By
applying K-Fold Cross Validation to evaluate the performance of a model or algorithm where the
data is separated into two subsets of learning process data and validation data. After the research
is completed, the accuracy of the Support Vector Machine K-Fold Cross Validation method is
94,91%with AUC value of 0.979 using 10-fold K Validation. Then do more calculations with
Polynominal Kernel parameters to get greater accuracy with an accuracy value of 95,18% with
an AUC value of 0,974.
Keywords: Prediction, Bank Marketing Data Set, Support Vector Machine, Polynominal Kernel,
Classification
http://eprosiding.ars.ac.id/index.php/psi
163
http://eprosiding.ars.ac.id/index.php/psi
164
http://eprosiding.ars.ac.id/index.php/psi
165
dalam jenis klasifikasi sangat baik. Sehingga penelitian pengembangan (research and
dapat disimpulkan bahwa SVM dan NN devlopment). Berdasarkan tingkat
memiliki performa kinerja yang baik untuk kealamiannya, metode penelitian dapat
pengolahan dataset penyakit ginjal kronis. dikelompokan menjadi metode penelitian
Dan dari hasil penelitian diketahui untuk eksperimen, survey dan naturalistik
dataset ginjal kronis bahwa metode SVM (Suhardjono et al., 2019).
menghasilkan nilai akurasi yang lebih tinggi Menurut Nurdin & Hartati (2019: 13)
dari metode Neural Network. menyimpulkan bahwa ”penelitian (research)
Pada penelitian dengan judul pada hakikatnya merupakan salah satu cara
Perbandingan K-Nearest Neighbor (KNN) untuk menyelesaikan suatu masalah atau
Dan Support Vector Machine (SVM) Dalam mencari jawaban dari persoalan yang
Pengenalan Karakter Plat Kendaraan dihadapi secara ilmiah. Penelitian
Bermotor (Budianto, Maryono, & Ariyuana, menggunakan cara berpikir reflektif, berpikir
2018) disimpulkan bahwa dari hasil keilmuan dengan prosedur yang sesuai
pengenalan karakter plat nomor dengan dengan tujuan dan sifat penyelidikan”.
metode SVM dan KNN didapatkan hasil Metode penelitian secara umum,
bahwa Prosentase akurasi pengenalan memiliki 4 metode penelitian yaitu:
dengan metode SVM adalah 95%. penelitian tindakan, eksperimen, studi
Sedangkan Pengenalan dengan kasus, dan survey (Dawson, 2009). Pada
menggunakan metode KNN adalah 80%. metode penelitian yang digunakan adalah
Terjadi beberapa kesalahan dalam eksperimen dan tahapan dalam penelitian
mengenali karakter yang hampir mirip yang dapat dilihat pasda Gambar 1
seperti 8 dengan B, 0 dengan O dan Q dan Pengumpulan
Data
beberapa karakter yang lain.
Pada penelitian dengan judul Pengolahan
Data Awal
Analisis Perbandingan Akurasi dalam
Identifikasi Autism dengan SVM dan Naive Model yang
Bayes (Ferawaty, Zarlis, & Nababan, 2016). Diusulkan
2. Metode Penelitian
Penelitian atau research dapat
diartikan mecari kembali. Re yang berarti
kembali dan To Seacrh ialah mencari.
Dikatakan mencari kembali karena teori atau
hasil penelitian sebelumnya belum tentu
benar selamanya. Oleh sebab itu, waktu,
objek dan lokasi yang berbeda dapat
dilakukan penelitian kembali Obyek yang
diteliti berdasarkan tujuan dan tingkat
kealamian (natural setting) yang
diklasifikasikan disebut dengan metode
penelitian. Berdasarkan tujuannya, metode
penelitian pun dapat diklasifikasikan menjadi
penelitian terapan (applied research) dan Gambar 2. Pemodelan yang diusulkan
http://eprosiding.ars.ac.id/index.php/psi
166
http://eprosiding.ars.ac.id/index.php/psi
167
1
b = - (w.x + + W.x -) (1) 2.5 Pengolahan Data Pertama
2
2 Data yang akan diolah
w= ∑𝑛𝑖=1 𝛼i yi xi (2) menggunakan data yang berbentuk numerik
Banyak teknik data mining atau pada atribut data bank marketing dataset,
machine learning yang dikembangkan dari 17 atribut pada dataset bank marketing
dengan asumsi kelinieran, sehingga ada 7 atribut yang memiliki data numerik
algoritma yang dihasilkan terbatas untuk ialah sebagai berikut: (x1) age, (x2) balance,
kasus-kasus yang linier (Santosa, 2007). (x3) day, (x4) duration, (x5) campaign, (x6)
SVM dapat bekerja pada data non-linier pdays, (x7) previous, dan satu atribut class
dengan menggunakan pendekatan kernel dengan label Y (1) untuk Yes dan (-1) untuk
pada fitur data awal himpunan data. Fungsi No.
kernel yang digunakan untuk memetakan Dari atribut yang telah diambil maka
dimensi awal (dimensi yang lebih rendah) selanjutnya adalah menentukan jumlah data
himpunan data ke dimensi baru (dimensi yang diolah sebesar 36 data yang dimana
yang relatif lebih tinggi). Menurut Prasetyo terdiri dari 6 data latih untuk menentukan
(2012) macam fungsi kernel diantaranya: pemodelan dan 30 data uji yang akan
1. Kernel Gaussian Radial Basic Function ditentukan hasil dalam prediksi untuk
(RBF) mengklasifikasikan klien berminat atau tidak
∥ xi − xj ∥ 2 pada produk deposito.seperti pada table
𝐾(𝑥𝑖, 𝑥𝑗) = 𝑒𝑥𝑝 (− )
2𝑎² data berikut.
2. Kernel Polynomial Tabel 1. Data Awal
𝐾(𝑥𝑖, 𝑥𝑗) = (𝑥𝑖. 𝑥𝑗 + 𝐶)𝑑 No X1 X2 X3 X4 X5 X6 X7 Y
dan adalah pasangan dua data training. 1 30 1787 19 79 1 -1 0 -1
2 33 4789 11 220 1 339 4 -1
Parameter merupakan konstanta. Fungsi
3 35 1350 16 185 1 330 1 -1
kernel mana yang harus digunakan untuk 4 30 1476 3 199 4 -1 0 -1
subtitusi dot product di feature space sangat 5 59 0 5 226 1 -1 0 -1
tergantung pada data karena fungsi kernel 6 35 747 23 141 2 176 3 -1
ini akan menentukan fitur baru di mana 7 36 307 14 341 1 330 2 -1
hyperplane akan dicari (Santosa, 2007). 8 39 147 6 151 2 -1 0 -1
9 41 221 14 57 2 -1 0 -1
10 43 -88 17 313 1 147 2 -1
2.4 Pengumpulan Data 11 39 9374 20 273 1 -1 0 -1
Pada penelitian ini penulis 12 43 264 17 113 2 -1 0 -1
13 36 1109 13 328 2 -1 0 -1
menggunakan data publik dari UCI Machine 14 31 360 29 89 1 241 1 -1
Learning Repository dengan nama data 15 40 194 29 189 2 -1 0 -1
Bank Marketing Data Set, yang mudah 16 56 4073 27 239 5 -1 0 -1
diakses dan tersedia untuk publik karena 17 37 2317 20 114 1 152 2 -1
bersifat terbuka. Dataset tersebut 18 25 -221 23 250 1 -1 0 -1
19 55 1613 3 296 1 270 3 1
dipublikasikan pada tahun 2014. Dataset
20 34 1337 17 330 2 127 3 1
terdiri dari 45211 record, serta terdiri dari 17 21 63 3904 4 250 2 187 2 1
atribut. Dimana setiap atribut memeberikan 22 48 1147 5 389 1 64 2 1
informasi tentang profil klien dan 23 36 1049 14 224 4 -1 0 1
pendekatan seorang telemarketing dalam 24 54 2206 12 104 1 99 2 1
mempromosikan sebuah produk, serta satu 25 38 1988 27 164 2 130 2 1
26 33 661 18 968 1 -1 0 1
atribut kelas yang memberikan informasi 27 59 1 15 159 2 378 3 1
klien berminat atau tidak pada deposito yang 28 37 480 22 344 2 182 8 1
ditawarkan. Informasi yang dibawakan pada 29 37 189 1 238 1 107 2 1
Bank Marketing Data Set seperti: age, job, 30 57 0 28 648 1 -1 0 1
marital, education, default, housting, loan, 31 60 366 3 593 1 -1 0 1
32 44 205 3 289 1 -1 0 1
contact, month, day of week, duration, 33 32 5514 22 319 1 182 1 1
campaign, pdays, previous, poutcome dan y 34 33 273 16 803 1 -1 0 1
(S. Moro, P. Cortez dan P. Rita). 35 28 4579 12 409 2 -1 0 1
Dari jumlah data yang begitu besar 36 37 5106 30 244 1 -1 0 1
tidak dapat diproses, karena terlalu lama
untuk dilakukan perhitungan pada aplikasi Tabel 2. Data Latih
yang digunakan. Maka pada tahapan X1 X2 X3 X4 X5 X6 X7 Y
selanjutnya data akan diperkecil agar lebih 35 747 23 141 2 176 3 -1
43 264 17 113 2 -1 0 -1
cepat dalam pemprosesan perhitungannya. 25 -221 23 250 1 -1 0 -1
http://eprosiding.ars.ac.id/index.php/psi
168
http://eprosiding.ars.ac.id/index.php/psi
169
http://eprosiding.ars.ac.id/index.php/psi
170
Tabel 6. Hasil Prediksi pada data yang bernilai (1) atau Yes, dalam
X1 X2 X3 X4 X5 X6 X7 Y Prediksi
0,21 0,27 0,60 0,12 0,10 0,10 0,10 -1 -1
hasil prediksi untuk data Yes hanya 4 data
0,27 0,52 0,38 0,24 0,10 0,82 0,50 -1 1 yang benar pada perhitungan prediksinya
0,31 0,23 0,51 0,21 0,10 0,80 0,20 -1 -1
0,21 0,24 0,16 0,22 0,70 0,10 0,10 -1 -1
daripada hasil prediksi (-1) atau No yang
0,82 0,12 0,21 0,25 0,10 0,10 0,10 -1 -1 memiliki 2 data yang salah dalam
0,33 0,14 0,46 0,35 0,10 0,80 0,30 -1 -1
0,39 0,13 0,24 0,18 0,30 0,10 0,10 -1 -1 perhitungan prediksinya. Jadi dapat
0,44 0,14 0,46 0,10 0,30 0,10 0,10 -1 -1 disimpulkan untuk True Positif pada dataset
0,48 0,11 0,54 0,32 0,10 0,41 0,30 -1 -1
0,39 0,90 0,62 0,29 0,10 0,10 0,10 -1 -1 ialah data (-1) atau No karena data hasil
0,33 0,21 0,43 0,34 0,30 0,10 0,10 -1 -1 perhitungannya lebih besar dari (1) atau Yes
0,23 0,15 0,87 0,13 0,10 0,61 0,20 -1 -1
0,42 0,13 0,87 0,22 0,30 0,10 0,10 -1 -1 yang dapat disebut dengan True Negatif.
0,75 0,46 0,82 0,26 0,90 0,10 0,10 -1 1
0,35 0,31 0,62 0,15 0,10 0,42 0,30 -1 -1
Bila diberikan sebuah hasil atau nilai
0,73 0,25 0,16 0,31 0,10 0,67 0,40 1 -1 accuracy yang digunakan pada perhitungan
0,29 0,23 0,54 0,34 0,30 0,37 0,40 1 -1
0,90 0,44 0,18 0,27 0,30 0,50 0,30 1 1
manual saat ini sebesar 56,67% untuk data
0,58 0,21 0,21 0,39 0,10 0,24 0,30 1 -1 yang tepat dalam perhitungannya.
0,33 0,21 0,46 0,25 0,70 0,10 0,10 1 -1
0,37 0,28 0,82 0,19 0,30 0,38 0,30 1 1 Selanjutnya melakukan penelitian
0,27 0,17 0,57 0,90 0,10 0,10 0,10 1 -1 menggunakan algoritma Support Vector
0,82 0,12 0,49 0,19 0,30 0,90 0,40 1 1
0,35 0,16 0,68 0,35 0,30 0,49 0,90 1 -1 Machine untuk mengklasifikasi data dari UCI
0,35 0,13 0,10 0,26 0,10 0,33 0,30 1 -1 Machine Learning Repository
0,84 0,15 0,16 0,57 0,10 0,10 0,10 1 -1
0,50 0,14 0,16 0,30 0,10 0,10 0,10 1 -1 menggunakan Rapidminer dengan dataset
0,25 0,58 0,68 0,33 0,10 0,49 0,20 1 1
0,27 0,14 0,51 0,76 0,10 0,10 0,10 1 -1
Bank Marketing. Dengan sumber data yang
0,16 0,50 0,40 0,41 0,30 0,10 0,10 1 -1 berisi 17 atribut yang dimana 9 atribut
nominal dirubah menjadi numeric dengan
Pada Tabel 6 ditentukan bahwa operator nominal to numeric dengan
hasil pemodelan dan dilakukannya sebuah perbandingan 1:0 merubah nominal yang
prediksi dengan 30 data yang dihitung dipilih menjadi satu (1) dan yang tidak
secara manual mendapatkan hasil terpilih menajdi nol (0), serta jumlah data
klasifikasi sebesar 24 data klien mempunyai sebesar 45211 data menjadi 4521 data yang
nilai prediksi (-1) dan 6 data klien mengikuti data penelitian terbaru dari Bank
mempunyai nilai prediksi (1), dimana nilai Marketing Dataset. Selanjutnya dihitung
prediksi (-1) adalah klien yang tidak menggunakan Metode 10 K-Fold Cross
berminat terhadap produk deposito dan nilai Validation Support Vector Machine dan
(1) adalah klien yang berminat terhadap dengan perbandingan perhitungan lebih
produk deposito. Kernel Polynominal mendapatkan nilai yang
optimal dan terbaik dari kernel dot product.
4. Kesimpulan Kesimpulan yang dapat diambil dari hasil
Pada penelitian ini dilakukan penelitian yang sudah dilakukan sebagai
eksperimen terhadap algoritma Support berikut:
Vector Machine untuk mengklasifikasi data 1. Telah diterapkan algoritma SVM pada
dari UCI Machine Learning Repository Bank Marketing Data Set menggunakan
menggunakan dataset Bank Marketing. metode 10-Fold Cross Validation
Dengan sumber data terbaru yang berisi 17 performa klasifikasi dengan akurasi
atribut dan 45211 data. Dan saat ini sebesar 94,91% dan AUC 0.979.
dilakukan perhitungan manual 2. Telah diketahui nilai hasil akurasi dari
menggunakan Microsoft Excel 2013 dengan algoritma SVM untuk klasifikasi Bank
jumlah data 36 data yang dibagi menjadi Marketing Data Set dengan parameter
data latih sebesar 6 data dan 30 data untuk kernel polynominal hasil akurasi optimal
diuji kebenaran dari pemodelan data yang sebesar 95,18% dan AUC 0.974
diambil dan ternyata dari 30 data hasil menggunakan 10-Fold Cross Validation.
prediksi menggambarkan 24 data yang tidak
berminat pada deposito yang ditawarkan, Referensi
sedangkan 6 data yang lainnya berminat Abbas, I. (2016). Penerapan Metode Moving
kepada deposito yang ditawarkan. Dari 30 Average (MA) Berbasis Algoritma
data maka hanya 20% yang menerima atau Support Vector Machine (SVM) untuk
berminat kepada produk yang ditawarkan Membandingkan Pola Kurva dengan
oleh telemarketing bank. Trend Kurva pada Trading Forex
Maka dalam hasil yang didapatkan Online. ILKOM Jurnal Ilmiah.
ternyata hasil prediksi dan data yang sudah Agustina, C. (2019). Analisa Nasabah
ada memiliki nilai yang berbeda terutama Potensial Tabungan Deposito
http://eprosiding.ars.ac.id/index.php/psi
171
http://eprosiding.ars.ac.id/index.php/psi