Priscila Elia Kusumaningtyas - DatminC - EAS

1
Klasifikasi Nasabah Pada Customer Churn Prediction

Menggunakan Discriminant Analysis, Naïve Bayes,
dan K-Nearest Neighbor
1
Rahmania Azwarini, 2Priscila Elia Kusumaningtyas, 3Irhamah, 4Kartika Fithriasari, 5Santi Wulan
Purnami
Departemen S1-Statistika, Fakultas Sains dan Analitika Data Institut Teknologi Sepuluh Nopember
(ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: 1rahmaniaazwarini@gmail.com, 2priscilaeliakusumaningtyas@gmail.com,
3
irhamahn2@gmail.com, 4kartika_f@statistika.ac.id, 5santiwulan08@gmail.com
Abstrak—Churn merupakan suatu kondisi dimana ketika analisa dari churn modelling yaitu mengetahui kondisi seperi
perusahaan dalam kasus ini yaitu bank kehilangan nasabah dan apa yang mengakibatkan seorang nasabah akan menutup
memilih untuk menggunakan produk/layanan dari bank. akun rekening mereka. Selain itu berdasarkan penggalian
Churn modelling berguna untuk mencegah berpindahnya
informasi akan diketahui beberapa pola yang menyebabkan
nasabah ke bank lain dengan melakukan deteksi dini nasabah-
nasabah mana saja yang berpotensi untk beralih ke bank lain. seorang nasabah akan menutup rekening mereka [1].
Hasil analisa dari churn modelling yaitu mengetahui kondisi Sebelum melakukan analisis pada data Churn
seperi apa yang mengakibatkan seorang nasabah akan menutup Modelling , terlebih dahulu dilakukan pre-processing. Tujuan
akun rekening mereka. Pada penelitian ini dilakukan pre- dari pre-processing data adalah mengatasi permasalahan
processing, analisis statistika deskriptif serta visualisasi data, yang dapat mengganggu hasil analisis seperti misalnya
analisis komponen utama , dan analisis klasifikasi pada data missing value, data redundant, outliers, ataupun format data
Churn Modelling. Tujuannya adalah mengatasi permasalahan yang tidak sesuai dengan sistem. Langkah selanjutnya adalah
yang dapat mengganggu hasil analisis seperti misalnya missing analisis secara deskriptif dan visualisasi data. Analisis secara
value, data redundant, outliers, ataupun format data yang tidak deskriptif dilakukan agar peneliti mengetahui bagaimana
sesuai dengan sistem, bagaimana summary atau sekilas
summary atau sekilas informasi dari suatu data, sedangkan
informasi dari suatu data. Selain itu juga dilakukan analisis
klasifikasi dengan metode Naive Bayes, diskriminan, dan K- tujuan dari visualisasi data adalah agar peneliti dapat
Nearest Neighbor. Kesimpulan yang dihasilkan yaitu ditinjau mengetahui metode apa yang tepat untuk diterapkan untuk
dari segi metode klasifikasi yang memberikan ukuran kebaikan melakukan analisis terhadap data tersebut. Kemudian setelah
model paling baik adalah metode Naive Bayes. Sedangkan jika melakukan analisis pre-processing dan visualisasi data ,
ditinjau dari segi split data yang memberikan ukuran kebaikan dilakukan analisis klasifikasi untuk mengelompokkan churn
odel lebih tinggi adalah Repeated Holdout. sesuai dengan kriteria tertentu. Analisis Principal
Kata Kunci— Churn Modelling, Diskriminan, K-Nearest Component (analisis komponen utama) juga akan dilakukan
Neighbor, Naive Bayes, Pre-processing. pada penelitian ini. Tujuan dari analisis komponen utama
I. PENDAHULUAN adalah untuk mengekstraksi atau mereduksi variabel-variabel
C
prediktor kontinyu pada data churn modelling menjadi
hurn merupakan suatu kondisi dimana ketika perusahaan komponen komponen yang jumlahnya lebih sedikit dibanding
dalam kasus ini yaitu bank kehilangan nasabah dan variabel yang ada pada data ini sebelumnya.
memilih untuk menggunakan produk/layanan dari bank lain. Berdasarkan uraian di atas penelitian ini bertujuan untuk
Hal ini merupakan sesuatu yang normal dalam bisnis, analisis data mining terhadap data Churn Modelling.
meskipun demikian bank tidak boleh menganggap ini sebagai Penelitian ini dilakukan untuk mengetahui model klasifikasi
hal yang tidak dapat diperbaiki dan dibiarkan menjadi terbaik dalam menyelesaikan permasalahan klasifikasi pada
masalah yang panjang tanpa solusi. Nasabah lama yang tiba- data Churn Modelling. Hasil klasifikasi data diharapkan
tiba memutuskan untuk tidak bertransaksi di bank tentu dapat dapat memberikan informasi penting secara padat dan jelas
disebabkan oleh sesuatu yang sangat fatal dari kepada pihak bank terkait prediksi faktor-faktor penyebab
produk/layanan bank yang diberikan kepada nasabah. nasabah untuk tetap mebuka akun bank atau menutup akun
Penyebab nasabah suatu bank beralih ke bank lainnya dapat bank, sehingga dapat memberikan pertimbangan evaluasi
disebabkan oleh beberapa hal diantaranya kerasanya bagi bank untuk meningkat layanan/produk Jika bank
persaingan usaha dan suasana kompetisi pada industri mampu menekan angka customer churn di titik terendah
perbankan, ketidakpuasan nasabah pada pelayanan bank dan maka pertumbuhan bank dapat lebih cepat dikarenakan
penyebab lainnya [1]. tidaka ada kebocoran dari segi nasabah. Tidak adanya
Oleh karena itu diperlukan suatu churn modelling untuk kebocoran dari segi nasabah maka revenue bank tersebut
menemukan titik penyebab kepergian pelanggan. Churn akan meningkat seiring dengan berjalnnya waktu.
modelling berguna untuk mencegah berpindahnya nasabah ke
bank lain dengan melakukan deteksi dini nasabah-nasabah
mana saja yang berpotensi untuk beralih ke bank lain. Hasil
2
II.TINJAUAN PUSTAKA B. Missing Value

A. Statistika Deskriptif Missing value merupakan suatu kondisi dimana pada
Statistika deskriptif merupakan metode-metode terkait suatu pengamatan atau penelitian terdapat nilai yang hilang,
dengan perkumpulan dan penyajian suatu gugus data noisy, dan data yang tidak konsisten. Missing value terjadi
sehingga memberikan informasi yang berguna [2]. arena adanya kesalahan data entry, tidak terisinya kuisioner
oleh responden, dan kesalahan alat atau pegukuran [3].
1. Mean Missing value terbagi menjadi 3 bagian berdasarkan
Mean adalah teknik penjelasan kelompok yang didasarkan karakteristik antar variabelnya:
atas nilai rata-rata dari kelompok tersebut [2]. Adapun 1. Missing Completely at Random (MCAR) : Missing value
rumus dari mean yaitu: yang tidak tergantung pada data lain.
n (1 2. Missing at Random (MAR) : Missing value bergantung
 Xi ) pada data lain, namun tidak bergantung pada data itu
Mean  i 1 sendiri.
n 3. Not Missing at Random (NMAR) : Peluang adanya
Keterangan: missing value bergantung pada nilai atribut tersebut.4
n
Mengatasi missing value metode yang digunakan dibagi
X
i 1
i = Jumlah nilai menjadi 3 kategori yaitu, Parameter estimation (Maximum
Likelihood Estimation), Case/Pairwise Deletion (Penghapu-
n = Banyaknya data pairwise, missing value dapat diatasi dengan penggantian
nilai perkiraan mean. Teknik imputasi listwise adalah
2. Median mengganti missing value dengan mean dari setiap
Median adalah hasil pengamatan yang telah diurutkan dari variabelnya. Sedangkan teknik imputasi pairwise adalah
yang terkecil sampai terbesar yang tepat di tengah-tengah mengganti missing value dengan memperhatikan terlebih
data jika data ganjil atau rata-rata dua pengamatan jika dahulu korelasi antar variabel yang terdapat missing value
banyak datanya genap [2]. Berikut merupakan rumus dari untuk menentukan nilai mean yang akan dimasukkan ke data
median: yang hilang.
n  (2
 2  fk  ) C. Outlier
Median  tb   p
fi Outlier adalah suatu data yang menyimpang dari
 
  sekumpulan data yang lain atau tidak mengikuti pola data
Keterangan: secara keseluruhan. Dalam suatu kumpulan data biasanya
tb = batas bawah median terdapat 10% pengamatan yang outlier[4].Keberadaan data
n = banyaknya data outlier dapat menggangku dalam proses analisis data dan
𝑓𝑘 = frekuensi kumulatif data di bawah kelas median memang harus dihindari. Data outlier dapat diatasi dengan
𝑓𝑖 = frekuensi data pada kelas median menggunakan dua pendekatan yaitu, secara univariat dan
𝑝 = panjang interval kelas multivariat. Pendekatan univariat dapat dilakukan dengan
menentukan nilai ambang batas yang akan dikategorikan
3. Standar Deviasi sebagai outlier dengan cara mengkonversi nilai data ke
Standar deviasi merupakan ukuran keragaman terbaik dalam standard score (z-score) yang mempunyai nilai rata-
yang dimiliki. Simpangan baku bernilai akar dari varians. rata nol dengan nilai standar deviasi satu. Pendekatan
Dimana dilambangkan s untuk sampel dan σ untuk multivariat bisa menggunakan kriteria jarak Mahalanobis
populasi [2]. Berikut merupakan rumus dari simpangan (the Mahalanobis Distance) dimana tiap-tiap observasi dapat
baku: dihitung dan menunjukkan jarak sebuah observasi dari rata-
(3 rata semua variabel.

n
( xi  x) 2 ) Data outlier dapat ditangani dengan :
 i 1
1. Memeriksan ketepatan data
n Kasus yang menyebabkan adanya outlier adalah karena
Keterangan: data yang dimasukkan tidak tepat. Perhatikan nilai dalam
 = simpangan baku untuk populasi. suatu penelitian agar nilai yang dimasukkan tepat.
s = simpangan baku untuk sampel. 2. Menghapus kasus outlier
Simpangan baku merupakan nilai akar dari ragam. Kekurangan cara ini adalah sampel ditukar dengan
4. Maximum mengeluarkannya dari kasus.
Nilai maksimum merupakan suatu ukuran penyebaran III. Visualisasi Data
data dimana nilai maksimum merupakan nilai terbesar
Visualisasi data adalah bentuk tampilan data dalam
dari suatu data.
gambar atau grafik. Tujuan utama visualisasi data adalah
5. Minimum untuk mengkomunikasikan informasi secara jelas dan efisien
Nilai minimum merupakan suatu ukuran penyebaran data kepada pengguna dalam bentuk grafik informasi seperti
dimana nilai minimum merupakan nilai terkecil dari suatu grafik,tabel, gambar, dan lain sebagainya [2].
data.
3
IV. Boxplot
Boxplot merupakan metode grafik yang mudah digunakan
dan diinterpretasikan untuk memperoleh informasi dari suatu
data. Boxplot dapat digambarkan dalam posisi vertikal dan 6. Jitter Plot
horizontal[2]. Plot jitter memetakan titik data dalam bentuk titik-titik
Terdapat 5 ukuran statistik yang bisa dibaca dari boxplot tunggal, dengan cara yang mirip dengan scatterplot.
yaitu, nilai minimum (nilai terkecil), Q1 (kuartil terendah Perbedaannya adalah bahwa plot jitter membantu
atau pertama), Q2 (median), Q3 (kuartil tertinggi atau memvisualisasikan hubungan antara variabel pengukuran dan
ketiga), dan nilai maksimum (nilai terbesar). variabel kategori. Jitter plot sangat berguna untuk
mengevaluasi penyebaran data dalam kelompok dan
1. Scatterplot
memiliki keuntungan menunjukkan banyak titik data, tanpa
Scatterplot merupakan diagram pencar untuk
risiko tumpang tindih besar (overplotting) [2].
mengetahui nilai korelasi atau hubungan antar
variabel.Ukuran yang dipakai untuk mengetahui derajat D.Cosine Similarity
hubungan terutama untuk data kuantitatif dinamakan dengan Cosine similarity adalah ukuran kesamaan yang lebih
koefisien korelasi[5]. Teknik korelasi merupakan teknik umum digunakan dalam information retrieval dan meruakan
analisis yang melihat kecenderungan pola dalam satu ukuran sudut antara vektor dokumen D a (titik (ax,bx)) dan Db
vairiabel berdasarkan kecenderungan pola dalam variabel (titik (ay,by)). Tiap vektor tersebut merepresentasikan setiap
lain. kata dalam setiap dokuen (teks) yang dibandingkan untuk
Pengujian korelasi menyatakan bahwa
H0 : ρ = 0 (3 Cos(C) = a2+ b2 -c2 / 2ab (4
H0 : ρ ≠ 0 ) )
Statistik uji : P-value dimana
Daerah kritis : Tolak H0 jika P-value < α (alpha) a2 = ax2 + ay2 ,b2 = bx2 + by2 (5
Tolak H0 menunjukkan adanya korelasi antara variabel c2 = (bx – ax)2 + (ay – by)2 )
prediktor dengan variabel respon jika nilai r > 0 sehingga didapatkan
menunjukkan korelasi positif, jika r < 0 menunjukkan axbx  a yby (6
cos C 
korelasi negatif r mendekati 1 merupakan korelasi tinggi. a a x b b
2 2 2 2 )
x y x y
2. Pie Chart Ketika dua dokumen identik, sudutnya adalah nol derajat
Pie chart atau diagram kue merupakan diagram lingkaran (0o) dan kesamaannya adalah satu (1) dan ketika dua
berbentuk tiga dimensi dan setiap juring menunjukkan dokumen tidak identik sama sekali, sudutnya adalah 90
presentase dari masing-masing kelompok data[2]. Setiap derajat (90o) dan kesamaannya adalah nol (0) [6].
juring menggambarkan banyak frekuensi untuk setiap data E. Principal Componen Analysis (PCA)
dalam bentuk sudut dengan satuan derajat atau bentuk
persen. PCA digunakan untuk mereduksi dimensi data dengan cara
transformasi variabel-variabel asli yang berkorelasi, dengan
3. Bar Chart tetap mempertahankan sebanyak mungkin keragaman yang
Bar chart ditemukan oleh L. Gantt Chart dan Fredick W. dapat dijelaskan. Selanjutnya variabel baru ini dinamakan
Taylor yang menjelaskan bahwa bar chart merupakan grafik Principal Component (PC). PC dapat dibentuk dari matriks
yang disajikan secara vertikal maupun horizontal dan kovarians maupun matriks korelasi. PC dari matriks korelasi
menunjukkan data berdasarkan kategori tertentu dimana tidak jika variabel yang diamati tidak mempunyai satuan
ada penekanan total presentase[2]. pengukuran yang sama, maka variabel tersebut perlu
distandarisasikan terlebih dahulu [7].
4. Histogram T
Histogram adalah diagram batang yang menunjukkan Vektor random x   x1 , x2 ,..., x p  mempunyai matriks
frekuensi dari data yang diatur berdasarkan ukurannya.
Histogram menunjukkan karakteristik dari data yang dibagi varians-kovarians  dengan eigenvalue berturut-turut yaitu
menjadi kelas-kelas. Histogram dalam bentuk “normal” atau 1  2  ...   p  0 maka kombinasi linear utama yaitu
bentuk lonceng menunjukkan bahwa banyak data yang
Z1  e1T x  e11 x1  e21 x2  ...  e p1 x p (7
berada dalam rata-rata. Bentuk histogram yang tidak simetris
)
menunjukkan banyak data tidak berada dalam nilai rata-rata,
tetapi nilainya berada dalam batas atas atau bawah [2]. Z 2  e2T x  e12 x1  e22 x2  ...  e p 2 x p
5. Violin Plot 
Violin plot merupakan diagram yang menunjukkan Z p  e p x  e1 p x1  e2 p x2  ...  e pp x p
T
kepadatan probabilitas dari data pada nilai yang berbeda,

Violin plot mencakup penanda untuk median dari data dan dengan
box yang menunjukkan kisaran interkuartil, seperti halnya Z1=PC pertama dengan varians terbesar
dalam box plot standar. Overlay pada violin plot ini adalah Z2=PC kedua dengan varians terbesar kedua
estimasi densitas kernel [2]. Zp=PC ke-p dengan varians terbesar ke-p
x1=variabel asal pertama
4
Ep=eigenvektor data ke-p Dengan

Model PC ke-i secara umum dapat ditulis dengan ym = Vektor skor diskriminan ke-m dari obyek.
Z i  eiT x dimana i=1,2,...,p [7].
yim = Nilai tengah skor diskriminan ke-m dari kelompok ke-
F. Naive Bayes
i.
Algoritma naive bayes merupakan suatu bentuk klasifikasi
data menggunakan metode probabilitas untuk mencari
a 'm = Vektor koefisien fungsi diskriminan.
peluang terbesr dari kemungkinan klasifikasi. Klasifikasi xij = Vektor pengamatan dari objek yang dikelompokkan.
naive bayes mengacu pada teorema bayes dengan persamaan
berikut [7]. xk = Vektor nilai tengah peubah pembeda kelompok ke-i.
P( X | Ci ) P(Ci ) (8
P  Ci | X   r = Banyaknya fungsi diskriminan penggolongan.
P( X ) )
Ketika P(X) konstan untuk semua kelas maka hanya P(X| H.K- Nearest Neighbor (KNN)
Ci)P(Ci) yang dihitung. Jika probabilitas class prior K-Nearest Neeighbor merupakan metode klasifikasi yang
sebelumnya tidak diketahui maka diasusikan kelasnya sama bertujuan untuk mengklasifikasikan objek baru berdasarkan
yaitu P(C1)=P(C2)=...=P(C n) untuk menghitung P(X|Ci) dan atributdan training samples yang jaraknya paling dekat
P(X|Ci)P(Ci). Adapun rumus probabilitas class prior yaitu dngan objek tersebut. Algoritma KNN termasuk metode yang
P  Ci  
| C(i , D ) |  
(9
)
menggunakan algoritma supervised. Supervised learning
bertujuan untuk menemukan pola baru dalam data dengan
|D| menghubungkan pola data yang sudah ada dengan data baru.
Apabila variabel-variabel bersifat independen satu sama Dekat atau jauhnya jarak antara dua titik yaitu titik pada data
lain maka testing (x) dan titik data training (y) digunakan rumus
P  X | Ci    k 1 P  xk | Ci  P  x1 | Ci  xP  x2 | Ci  x...xP  xn | Ci 
n
Euclidean distance sebagai berikut [7].
Naive bayes mempunya kelebihan yaitu membutuhkan n (13
d xy    xi  yi 
2
waktu komputasi pendek saat pembelajaran dan )

i 1
meningkatkan kinerja klasifikasi dengan menghilangkan dengan
atribut yang tidak sesuai. Namun memilikikelemahan d = jarak kedekatan
membutuhkan data yang cukup banyak untuk mendapatkan x = data testing
hasil yang baik [7]. y = data training
G.Analisis Diskriminan n = jumlah atribut 1 sampai n.
Analisis diskriminan adalah metode analisis multivariat I. Repeat Holdout dan K-Fold Cross Validation
yang bertujuan untuk memisahkan beberapa kelompok data Repeat holdout validation merupakan metode validasi
yang sudah terkelompokkan dengan cara membentuk fungsi yang menyediakan sejumlah data sebagai data training dan
diskriminan. Asumsi yang harus diperhatikan dalam analisis testing. Prosedur ini menjamin bahwa setiap klasifikasi dapat
diskriminan yaitu [8]/ terwakili pada data training dan testing secara proporsional
1. Sejumlah p peubah bebas menyebar mengikuti sebaran sehingga tidak terjadi over represented pada salah satu atau
normal ganda. lebih klasifikasi. Kelas yang terbagi dari proses holdout
2. Atriks peragam berdimensi p x p dari peubah-peubah proporsinya harus sedekat mungkin dengan proporsi aslinya.
bebas dalam setiap kelompok harus homogen. Perulangan terhadap seluruh proses training dan testing
Uji sebaran normal ganda dapat dilakukan dengan plot khi dilakukan beberapa kali dengan data training dan testing
kuadrat. Setiap vektor pengamatan dihitung jarak teracak, kemudian diambil nilai rata-ratanya [7].
Mahalanobis dengan persamaan [8]. K-fold cross validation merupakan teknik untuk
 ~
  ~
 (10 mengevaluasi kinerja sebuah model, dimana sebuah data (D)
d i 2   xi  xi  Si 1  xi  xi 
    ) secara acak dibagi menjadi k subsets data (folds) yaitu
Pengujian fungsi diskriminan dilakukan menggunakan D1,D2,...,D k dengan ukuran yang sama. Kinerja klasifikasi
statistik V-Bartlett melalui pendekatan khi-kuadrat sebagai diperoleh dengan menghitung rata-rata nilai kinerja
berikut klasifikasi pada setiap fold, dengan banyak fold sacara umum
 1  (11 yaitu 10. Model dibentuk menggunakan k-1 subsets sebagai
Vr   N  1   p  g   ln  m  r  1  m 
s
 2  ) data training dan diuji menggunakan 1 subset yang tersisa

Jadi jika Vr    , p r 1  g  2  artinya fungsi diskriman ke-r
2 sebagai data testing [7].
masih dierlukan untuk menerangkan perbedaan p-peubah J. Ukuran Performa Klasifikasi
diantara g-kelompok. Kriteria masuknya individu ke dalam
Performa klasifikasi dapat dievaluasi dengan menghitung
kelompok ke-i apabila [8].
banyaknya prediksi benar pada kelas positif (TP), banyaknya
(12
prediksi benar pada kelas negarif(TN), dan banyaknya
2
)
   a  x 
2
 y  
r r r
2
 yim '
 xk     a 'm x  xk  prediksi salah pada kelas positif (FP), serta banyaknya
m 1
m
m 1
m ij
 m1   prediksi salah pada kelas negatif (FN). Kemudian keemat
5
nilai tersebut disusun dalam confussion matrix sebagai 3. Melakukan analisa target yang lebih jelas untuk
berikut [9]. mendapatkan target yang tepat dan target yang loyal.
Tabel 1. Confusion Matrix 4. Memberikan pelayanan yang lebih terhadap pelanggan.
5. Melakukan kampanye atau promosi atas kelebihan yang
Kelas Kelas Prediksi
dimiliki perusahaan diantara rival-rival lainnya [1].
Aktual Positif Negatif
V.METODOLOGI PENELITIAN
Positif TP FN
A. Sumber Data
Negatif FP TN
Data yang digunakan dalam penelitian ini yaitu data
Ketepatan klasifikasi dapat diukur menggunakan
Churn Modelling. Data ini merupakan data sekunder
akurasi,sensitivitas, dan spesifisitas. Akurasi untuk mengukur
sebanyak 10.000 buah data yang diperoleh di website
efektivitas classsifier secara keseluruhan, semakin tinggi
https://www.kaggle.com/shrutimechlearn/churn-modelling.
nilai akurasi maka semakin baik pula kinerja classifier dalam
mengklasifikasikan data. Sensitivitas berguna dalam B. Variabel Penelitian
mengukur efektivitas classifier untuk identifikasi kelas Variabel yang digunakan dalam penelitian ini adalah
positif. Spesifisitas berguna dalam mengukur efektivitas sebagai berikut.
classifier untuk identifikasi kelas negatif [9]. Tabel 2. Variabel Penelitian
TN  TP (14
Akurasi  Variabel Keterangan
TN  TP  FN  FP )
TP CustomerhId Nomor identifikasi nasabah bank
Sensitivitas 
TP  FN Surname Nama belakang nasabah
TN CreditScore Nilai kredit nasabah
Spesifisitas 
TN  FP Geography Negara asal nasabah
Performa klasifikasi dapat diukur melalui ukuran
performasi lainnya salah satunya yaitu Area Under ROC Gender Jenis kelamin nasabah
Curve (AUC). Receiver Operating Characteristic (ROC) Age Usia nasabah
Curve digambarkan oleh nilai false positive (FP) rate pada Lama nasabah telah bergabung di
sumbu x dan sensiivitas (true positive rate) pada sumbu Y. Tenure bank (dalam tahun)
Titik yang berada di atas diagonal grafik ROC menunjukkan
Balance Saldo nasabah di bank
hasil klasifikasi yang baik dan sebaliknya. AUC merupakan
rangkuman performa klasifikasi pada ROC curve pada suatu Jumlah produk bank yang digunakan
nilai ukuran tunggal [10]. NumofProducts nasabah
1 (15 Kepemilikan kartu kredit oleh
AUC  ( Sensitivitas  Spesifisitas ) nasabah
2 )
Interpretasi AUC dilakukan dengan pendekatan statisti HasCrCard 1= nasabah memiliki kartu kredit
yaitu dengan mengklasifikasikan kekuatan nilai diagnostik 0= nasabah tidak memiliki kartu
menjadi sangat lemah jika AUC >50-60% , lemah jika AUC kredit
>60-70%, sedang >70-80%, baik jika AUC >80-90%, dan Keaktifan nasabah bank
sangat baik jika AUC >90-100% [10]. IsActiveMembe
r 1= nasabah anggota aktif bank
I. Tinjauan Non Statistik 0= nasabah bukan anggota aktif bank
Churn merupakan suatu kondisi dimana ketika perusahaan
Perkiraan pendapatan nasabah (dalam
dalam kasus ini yaitu bank kehilangan nasabah dan memilih
EstimatedSalary Dollar)
untuk menggunakan produk/layanan dari bank lain. Hal ini
merupakan sesuatu yang normal dalam bisnis, meskipun Keputusan nasabah
demikian bank tidak boleh menganggap ini sebagai hal yang Exited 1 = nasabah menutup akun bank
tidak dapat diperbaiki dan dibiarkan menjadi masalah yang
0= nasabah tetap membuka akun bank
panjang tanpa solusi. Nasabah lama yang tiba-tiba
memutuskan untuk tidak bertransaksi di bank tentu dapat
disebabkan oleh sesuatu yang sangat fatal dari C.Struktur Data
produk/layanan bank yang diberikan kepada nasabah. Berikut adalah struktur data dalam penelitian ini
Ada banyak cara untuk mengurangi churn contohnya Tabel 3. Struktur Data
adalah Variabel
1. Melakukan analisis mengapa nasabah melakuka churn, Pengamata
n (j) (X2 (X19
dengan mengetahui alasannya maka perusahaan dapat (X1) … Y
) )
melakukan solusi atas churn yang terjadi dan dapat
mengurangi nya. 1 X1.1 X1.2 … X1.19 Y.19
2. Melakukan interaksi yang aktif pada nasabah dengan 2 X2.1 X2.2 … X2.19 Y.29
menampilkan kelebihan produk atau jasa tersebut. . . . … . .
6
. . . … . .
. . . … . .
Y.m
m Xm.1 Xm.2 … Xm.19
9
D.Langkah Analisis
Langkah-langkah analisis dalam pembuatan laporan
praktikum ini adalah sebagai berikut.
1. Melakukan identifikasi terhadap permasalahan. Gambar 1. Deteksi Tipe Variabel
2. Mengambil data sekunder dari website Gambar 1 menunjukkan bahwa terdapat 3 variabel yang
https://www.kaggle.com/shrutimechlearn/churn-modelling. terdeteksi jenis numerik padahal seharusnya ketiga variabel
3. Melakukan cleaning pada data yang terdapat missing tersebut jenisnya adalah kategorik/ karakter. Terlebih lagi
value. variabel Exited yang berperan sebagai variabel respons juga
4. Melakukan preprocessing berupa deteksi outlier pada data. terdeteksi sebagai numerik. Hal ini jika dibiarkan, nantinya
5. Melakukan feature extraction dengan Principal akan memberikan hasil klasifikasi yang kurang tepat. Oleh
Component Analysis (PCA). karena itu, peneliti melakukan pendefinisian ulang terhadap
6. Menganalisis statistika deskriptif dari data. ketiga variabel tersebut dari yang semula terdeteksi numerik,
7. Elakukan visualisasi pada data. akan diubah menjadi kategorik atau karakter.
8. Melakukan analisis classification dengan metode Naive
Bayes, Diskriminan, dan K-Nearest Neighbor
9. Melakukan training-testing: repeated holdout dan k-fold
CV
10.Melakukan perbandingan hasil menggunakan kriteria
akurasi, sensitifitas, spesifitas, ROC, AUC.
11.Melakukan analisis dan interpretasi.
12.Membuat kesimpulan dan saran
VI. ANALISIS DAN PEMBAHASAN Gambar 2. Deteksi Tipe Variabel
A. Data Pre-Processing Setelah dilakukan pendefinisian ulang tipe variabel, pada
Gambar 2 dapat diperoleh informasi bahwa semua variabel
Sebelum melakukan proses data mining, terlebih dahulu sudah terdeteksi secara tepat jenisnya. Tiga variabel yang
dilakukan data pre-processing. Data yang akan di pre- semula terdeteksi sebagai numerik, setelah dilakukan
processing adalah data Churn Modelling yang diambil dari pendefinisian ulang sudah terdeteksi secara benar yaitu
website www.kaggle.com. Data yang didapatkan sebanyak sebagai kategorik/faktor/karakter.
10000 pengamatan dengan 13 variabel. Pada proses pre- 2. Deteksi Missing Value dan Imputasi Missing Value
processing tahap yang dilakukan ada 3 yaitu 1) deteksi Proses deteksi missing value dilakukan menggunakan
missing value dan mengatasinya, 2) deteksi outlier dan data software Anaconda Phyton3 sehingga didapatkan output
noise, 3) feature selection (pemilihan variabel) dan feature sebagai berikut.
extraction (ekstraksi variabel). Berikut merupakan analisis Tabel 4. Deteksi Missing Value
pre-processing pada data Churn Modelling. Variabel Banyak Nilai Missing
1. Deteksi Tipe Variabel CustomerId 0
Surname 0
Langkah awal sebelum dilakukan deteksi missing value
CreditScore 0
dan pengisian missing value terlebih dahulu peneliti
Geography 0
melakukan identifikasi tipe variabel untuk mengetahui Gender 0
apakah variabel-variabel dalam data ini sudah terindentifikasi Age 0
jenisnya secara tepat atau belum. Mengingat data yang akan Tenure 0
dianalisis pada penelitian kali ini adalah kasus data Balance 0
klasifikasi, maka yang berperan sebagai predictor adalah data NumOfProducts 0
yang memiliki tipe kontinyu dan atau kategorik, sedangkan HasCrCard 33
untuk variabel respons adalah data yang bertipe IsActiveMember 0
kategorik/faktor/karakter. Apabila respons pada data EstimatedSalary 51
terdeteksi kontinyu (numerik) sedangkan ini adalah kasus Exited 0
klasifikasi, maka tetntunya akan memberikan hasil yang Tabel 4 menunjukkan bahwa pada data Churn Modelling
kurang tepat. Oleh karena itu, peneliti melakukan deteksi terdapat dua variabel yang mengandung missing value yaitu
jenis variabel dengan menggunakan software RStudio dan variabel HasCrCard sebanyak 33 dan variabel
diperoleh hasil sebagai berikut. EstimatedSalary sebanyak 51. Setelah diketahui variabel
mana saja yang terdeteksi memiliki missing value, langkah
selanjutnya adalah melakukan imputasi missing value. Proses
imputasi missing value dapat dilakukan dengan mengisikan
7
nilai mean, median, atau modus pada cell yang missing Berikut merupakan boxplot dari setiap variabel kontinyu
tersebut dengan memperhatikan jenis variabel. Apabila jenis data Churn Modelling.
variabel yang mengandung missing value adalah kontinyu
(numerik) maka imputasi dilakukan dengan cara mengisikan
nilai mean dari variabel tersebut. Namun, apabila pada
variabel kontinyu tersebut terdapat data outlier, maka proses
imputasi dilakukan dengan mengisikan nilai median dari
variabel tersebut. Sedangkan jika variabel yang terdapat
missing adalah variabel kategorik, imputasi missing value
dilakukan dengan mengisikan modus dari variabel kategorik
tersebut.
Variabel EstimatedSalary merupakan variabel kontinyu,
sehingga perlu dilakukan deteksi outlier pada variabel Gambar 4. Box Plot Data Churn Modelling
EstimatedSalary terlebih dahulu sebelum dilakukan pengisian Berdasarkan Gambar 4 dapat diketahui bahwa
missing value dengan menggunakan boxplot. pengamatan outlier data Churn Modelling terdapat pada
variabel CreditScore, Age, dan NumOfProduct. Data outlier
dapat dilihat dari adanya titik titik hitam yang berada di luar
boxplot.
b. Deteksi Outlier dengan z-score
Deteksi data outlier juga dapat dilakukan dengan
menggunakan z-score sebagai berikut.
Tabel 6. Nilai Z-score
Variabel Z-score
CreditScore [0.32622142 ... 1.46377078]
Age [0.29351742…1.04143285]
Tenure [1.04175968...0.35020386]
Gambar 3. Boxplot Variabel EstimatedSalary Balance [1.22584767…0.85996499]
Berdasarkan Gambar 3 terlihat bahwa pada variabel NumOfProducts [0.91158349…0.91158349]
EstimatedSalary tidak terdapat data outlier, sehingga EstimatedSalary [2.25861e-02…1.07792e+00]
imputasi missing value pada variabel EstimatedSalary Tabel 6. menunjukkan nilai z-score untuk setiap
dilakukan dengan mengisikan nilai mean yaitu sebesar pengamatan pada masing-masing variabel. Data outlier
100052,723483. Selanjutnya dilakukan imputasi missing memiliki nilai z-score yang lebih dari 3. Berdasarkan nilai z-
value variabel kategorik HasCrCard dengan mengisikan score pada Tabel 6 dapat diketahui dimana saja letak data
modus dari variabel tersebut yaitu 1 (customer churn). outlier pada masing-masing variabel yang ditunjukkan oleh
Setelah dilakukan imputasi, maka diperoleh output sebagai Gambar 3 berikut.
berikut.
Tabel 5. Missing Value setelah Imputasi
Variabel Banyak Nilai Missing
CustomerId 0
Surname 0
CreditScore 0
Geography 0
Gender 0
Age 0
Tenure 0
Balance 0
NumOfProducts 0
HasCrCard 0
IsActiveMember 0
EstimatedSalary 0
Exited 0
Gambar 5. Letak Data Outlier berdasarkan Nilai Z-Score
Tabel 5 menunjukkan bahwa setelah dilakukan imputasi
Berdasarkan Gambar 5 secara berurutan dari atas ke
pada variabel HasCrCard dan EstimatedSalary, missing
bawah merupakan array dari letak data outlier variabel
value pada kedua variabel tersebut sudah bernilai 0. Artinya
CreditScore hingga EstimatedSalary. Pada Gambar 5 dapat
pada data Churn Modelling sudah tidak ada missing value.
dilihat bahwa letak data outlier pada variabel CreditScore
3. Deteksi Outlier ada pada pengamatan ke 1405, 1631, 1838, dan seterusnya.
Setelah dilakukan deteksi dan imputasi missing value, Sedangkan variabel Age memiliki data outlier pada
selanjutnya dilakukan deteksi outlier pada data Churn pengamatan ke 85, 158, 230, dan seterusnya. Begitupun
Modelling. Proses deteksi Outlier dilakukan dengan dengan variabel NumOfProducts yang juga memiliki data
menggunakan boxplot, z-score, dan scatter plot. outlier yaitu pada pengamatan ke 7, 70, 1254, 1469, dan
a. Deteksi Outlier menggunakan Boxplot seterusnya. Gambar 5 menunjukkan bahwa variabel yang
8
paling banyak mengandung adata outlier pada data Churn Berikut merupakan tahapan analisis komponen utama pada
Modelling adalah variabel Age. data Churn Modelling.
a. Menghitung nilai eigen dari setiap variabel data
c. Deteksi Outlier dengan Scatter Plot
Dengan menggunakan bantuan software Anaconda
Berikut merupakan matriks satter plot dari data Churn
Python3 didapatkan eigen value untuk masing-masing
Modelling.
variabel sebagai berikut.
Tabel 7. Nilai Eigen
Eigen Value
1.311248
1.013964
Tabel 7 merupakan eigen value dari setiap variabel

kontinyu data Churn Modelling. Dari perhitungan eigen
value pada tabel 7, kemudian dilakukan perhitungan eigen
vector menggunakan software Anaconda Phyton3 dan
diperoleh output sebagai berikut.
e1  [4,303e  02 3, 419e  03 8,185e  04 7,044e  01 7,055e  01 6,396e  02]
e2  [1,5272e  02 1,3504e  01 6, 244e  02 6,982e  01 6,999e  01 1,195e  02]
e3  [8, 432e  02 4, 692e  01 5,875e  01 1,112e  01 4, 474e  02 6, 427e  01]
e4  [9,506e  01 1,829e  01 2, 266e  02 4,329e  02 6, 645e  03 2, 455e  01]
e5  [1,7155e  01 6, 762e  02 7, 083e  01 4,945e  03 6,585e  02 6, 781e  01]
e6  [2, 400e  01 8,5055e  01 3,855e  01 4,337e  02 7,693e  02 2,500e  01]
Gambar 6. Matriks Scatter Plot dari Data Churn Modelling Berdasarkan Tabel 6 dan peigen vector di atas dapat
Pada Gambar 6 dapat dilihat bahwa scatter plot yang diketahui bahwa ada sebanyak 3 eigen value yang memiliki
mengandung data dari variabel Age, NumOfProduct, dan nilai lebih dari 1. Hal ini mengindikasikan bahwa nantinya
variabel CreditScore memiliki titik yang terpencar jauh. Hal akan terbentuk 3 komponen utama yang masing-masing
ini berarti bahwa ketiga variabel tersebut memiliki data yang komponen tersebut akan berisi variabel-variabel yang
outlier. Pada penelitian ini, peneliti memutuskan untuk tidak memiliki korelasi tinggi. Untuk menentukan nilai eigen yang
menangani data yang outlier dikarenakan jumlah data outlier diambil dapat juga digunakan scree plot sebagai berikut.
dalam data ini terlalu banyak. Selain itu dikarenakan data
outlier kemungkinan akan memberikan informasi yang
berarti bagi analisis.
3. Feature Extraction
Langkah selanjutnya setelah melakukan deteksi missing
value dan deteksi outlier adalah feature extraction atau
mengekstraksi variabel data Churn Modelling menjadi
beberapa kelompok variabel yang nantinya akan digunakan
dalam analisis selanjutnya. Tujuan dari melakukan ekstraksi
variabel ini adalah untuk mengelompokkan variabel-variabel
kontinyu yang ada pada data Churn Modelling, sehingga
didapatkan suatu informasi yang lebih padat dan jelas tanpa
harus mengeliminasi (tidak mengikutkan) suatu variabel
dalam analisis. Pada penelitian ini, peneliti menggunakan Gambar . Scree Plot
metode Principals Component Analysis (PCA) dalam Berdasarkan Gambar 7 dapat dilihat bahwa terdapat 3 eigen
melakukan ekstraksi variabel. value yang memiliki nilai lebih dari atau sama dengan satu.
Pada tahap ekstraksi variabel dengan Principals Sehingga diperoleh persamaan komponen utama (
Component Analysis (PCA), variabel data yang dapat ) sebagai berikut.
digunakan dalam analisis adalah variabel yang sifatnya
kontinyu. Sehingga, pada tahap ekstraksi hanya akan PC1  1,5272e  02 z1  1,3504e  01z2  6, 244e  02 z3
melibatkan 6 variabel kontinyu yang ada pada data Churn 6,982e  01z4  6,999e  01z5  1,195e  02 z6
Modelling yaitu CreditScore, Age, Balance, NumOfProducts,
dan EstimatedSalary. Dari analisis komponen utama ini PC2  8, 432e  02 z1  4, 692e  01z2  5,875e  01z3
diharapkan dari 6 variabel yang masuk ke analisis akan di 1,112e  01z4  4, 474e  02 z5  6, 427e  01z6
ekstraksi menjadi m komponen yang lebih kecil dari 6.
PC3  9,506e  01z1  1,829e  01z2  2, 266e  02 z3
9
4,329e  02 z4  6, 645e  03 z5  2, 455e  01z6 didapatkan 3 variabel baru yang didalamnya memuat
variabel-variabel yang telah dikelompokkan tersebut. Adapun
Setelah mendapatkan persamaan komponen utama,
variabel baru yang dibentuk berdasarkan hasil PCA adalah
selanjutnya dilakukan perhitungan proporsi kumulatif untuk
sebagai berikut.
mengetahui kontribusi dari setiap komponen. Perhitungan
1) Layanan Produk dan Informasi Saldo , berisi variabel
proporsi kumulatif dilakukan dengan menggunakan software
Balance dan NumOfProducts.
Anaconda Phyton3 dan didapatkan output sebagai berikut.
2) Status Nasabah, berisi variabel Age, Tenure, dan
EstimatedSalary.
3) Credit Score yang berisi variabel CreditScore.
4. Feature Selection
Setelah melakukan feature extraction pada variabel data
kontinyu, selanjutnya dilakukan seleksi variabel data
kategorikal dengan menggunakan chi-square test. Sebelum
melakukan chi-square test perlu dilakukan pengkodingan
terhadap setiap variabel kategorikal. Berikut merupakan hasil
plot p-value chi-square test.
Gambar 8. Proporsi Kumulatif

Gambar 8 menunjukkan proporsi kumulatif dari
komponen-komponen yang telah didapatkan sebelumnya.
Pada Gambar 16 terlihat bahwa apabila peneliti mengambil 3
komponen, maka proporsi kumulatifnya adalah sebesar
55,44%. Artinya apabila peneliti menggunakan 3 komponen
utama atau 3 PC, maka 3 komponen utama tersebut mampu
menjelaskan variabilitas dari 6 variabel kontinyu sebesar
55,44%. Setelah mengetahui proporsi kumulatif dari
komponen utama, selanjutnya peneliti akan memetakan
variabel 1, variabel 2 sampai pada variabel 6 masuk ke dalam Gambar 10. P-Value Bar Plot Chi-Square Test
PC1, PC2, atau PC3. Proses pemetaan variabel ke dalam PC Pada Gambar 10 dapat dilihat bahwa bar dari variabel
menggunakan software Anaconda Phyton3 dan didapatkan HasCrCard mendekati angka 1 yang artinya nilai p-value
output sebagai berikut. dari variabel tersebut lebih besar dari alpha 0.05, sehingga
variabel HasCrCard terdeksi noise as a feature. Oleh karena
variabel tersebut merupakan noise maka variabel tersebut
tidak diikutkan dalam proses analisis selanjutnya.
Setelah dilakukan proses ekstraksi variabel kontinyu
dan seleksi variabel kategorik menggunakan chi-square test,
diperoleh hasil bahwa data Churn Modelling yang awalnya
terdiri dari 13 variabel kemudian direduksi menjadi 6
variabel yaitu Gender, IsActiveMember, Layanan Produk,
Status Nasabah, CreditScore, dan Exited.
B. Statistika Deskriptif dan Visualisasi Data
Gambar 9. Pemetaan Variabel ke Komponen
Berikut merupakan analisis karakteristik dari data Churn
Pemetaan variabel-variabel ke komponen dilakukan
Modelling.
dengan melihat nilai absolut yang terbesar dari nilai loading Tabel 8. Statistika Deskriptif
masing-masing variabel. Dapat diketahui dari Gambar 9 Variable Mean Median Varian Modus
variabel yang masuk ke dalam komponen 1 adalah variabel Credit
Balance dan NumOfProducts, sedangkan yang masuk ke 650,53 652 9341,86 850
Score
dalam komponen 2 adalah variabel Age, Tenure dan Gender - - - Male
EstimatedSalary. Variabel yang masuk ke dalam komponen 3 Age 37,922 37 109,994 37
adalah variabel CreditScore. Apabila ada 2 atau lebih Tenure 5,0128 5 8,3647 2
variabel yang masuk ke dalam komponen yang sama, berarti Balance 76486 97199 3893436176 0
antara variabel yang masuk ke komponen yang sama tersebut Num Of 1,5302 1 0,3383 1
memiliki korelasi yang tinggi. Ini berarti variabel Balance Product
Estimastd
memiliki korelasi yang tinggi dengan variabel 100053 100053 3293632883 100053
Salary
NumOfProduct, variabel Age, Tenure memiliki korelasi yang IsActive
tinggi dengan variabel EstimatedSalary. Berdasarkan Member - - - 1
pemetaan variabel-variabel ke dalam komponen, kemudian HasCard - - - 1
10
Exited 0
Berdasarkan Tabel 8 dapat diperoleh informasi bahwa
nasabah yang membuka rekening di bank tersebut paling
banyak adalah nasabah berjenis kelamin laki-laki. Rata-rata
nasabah bank tersebut berusia 37 tahun dengan saldo
rekening rata-rata nasabahnya sebesar 76486. Lima puluh
persen dari nasabah memiliki penghasilan tiap bulannya di
atas 100053 dan 50% nasabah lainnya memiliki penghasilan
tiap bulan di bawah 100053. Nilai varians dari penghasilan
nasabah memiliki variansi yang sangat besar. Hal tersebut
mengindikasikan bahwa nasabah masyarakat yang membuka Gambar 12. Bar Chart Exited
rekening di bank tersebut memiliki kondisi ekonomi yang Gambar 12 menunjukkan status nasabah apakah nasabah
berbeda-beda. Kebanyakan masyarakat menjadi nasabah di tersebut akan churn (menutup akun atau pindah ke bank lain)
bank tersebut selama 2 tahun. Namun, ada juga masyarakat atau tetap menjadi nasabah di bank tersebut. Berdasarkan
yang menjadi nasabah selama 5 tahun. Seperti bank pada Gambar 12 dapat diketahui bahwa dari 10000 nasabah bank
umumnya, bank tersebut juga menyediakan layanan dan tersebut, yang tetap bertahan untuk menjadi nasabah bank
produk untuk nasabah. Rata-rata nasabah di bank tersebut jumlahnya lebih banyak disbanding yang memutuskan untuk
hanya menggunakan 1 produk layanan dari bank tersebut, churn (menutup akun bank tersebut). Nasabah yang churn
entah itu hanya untuk menabung, atau kartu kredit, atau dapat disebabkan karena mungkin kurang puas terhadap
mungkin bisa juga deposit. Dalam pelayanan kredit, nasabah pelayanan dari bank tersebut sehingga memutuskan untuk
banyak yang tertarik untuk menggunakan layanan kredit bank pindah ke bank lain, atau dimungkinkan juga karena memang
tersebut karena mungkin pengajuan kredit di bank tersebut ingin berhenti karena suatu hal tertentu.
sangat mudah.. Sebagai bank yang membuka pelayanan
kredit, bank ini juga memiliki credit score bagi nasabahnya.
Rata-rata Credit Score yang dimiliki nasabah adalah sebesar
650,53 dan yang paling banyak nasabah mendapatkan score
credit sebesar 850. CreditScore digunakan bank untuk
melihat apakah seorang nasabah layak menerima pinjaman
dari bank tersebut atau tidak.
Gambar 13. Violin Plot Age

Berdasarkan Gambar 13 dapat dilihat violin plot
cenderung membesar pada rentang usia 30-40 tahun. Hal ini
mengindikasikan bahwa nasabah di bank tersebut
kebanyakan berusia rentang 30 hingga 40 tahun.
Gambar 11. Histogram CreditScore
Gambar 11 merupakan histogram dari data variabel
CreditScore. Berdasarkan Gambar 11 dapat diketahui bahwa
distribusi data CreditScore nasabah tidak normal (tidak
merata). Ada nasabah yang memiliki score kredit sangan
tinggi, namun ada juga nasabah yang memiliki score kredit
yang rendah. Nasabah paling banyak memperoleh score
credit antara 600 hingga 700. Tidak meratanya score credit
dikarenakan tipe nasabah yang berbeda-beda. Beberapa
nasabah yang memiliki score credit tinggi cenderung selalu
membayar tagihan tepat waktu (tidak pernah menunggak).
Sementara sebaliknya, nasabah yang memiliki score credit
rendah disebabkan karena nasabah tersebut kemungkinan
sering menunggak dalam hal permbayaran kartu kredit.
Gambar 14. Pie Chart IsActiveMember
Gambar 14 menunjukkan persentase perbandingan antara
nasabah bank yang memiliki kartu kredit dan nasabah yang
tidak memiliki kartu kredit. Berdasarkan Gambar 14 dapat
diketahui bahwa banyaknya nasabah yang memiliki kartu
kredit tidak jauh berbeda dengan nasabah yang tidak
11
memiliki kartu kredit. Hal ini mengindikasikan bahwa lebih

dari 50% nasabah bank tersebut menyukai hal-hal yang
praktis contohnya seperti dalam hal pembayaran. Nasabah
yang memiliki kartu kredit cenderung tidak ingin repot
membawa uang tunai ketika bepergian. Selain itu kartu kredit
juga dapat digunakan untuk membayar cicilan.
Gambar 17. Jitter Plot IsActiveMember

Seorang nasabah dikatakan sebagai anggota aktif apabila
nasabah tersebut memiliki akun yang aktif yang mana akun
tersebut sering digunakan untuk melakukan aktivitas
perbankan contohnya seperti tarik tunai, menabung, transfer,
Gambar 15. JitterPlot HsCrCard
dan sebagainya. Berdasarkan Gambar 17 dapat diketahui
Dari Gambar 15 dapat dilihat bahwa mayoritas nasabah
bahwa nasabah dari bank tersebut mayoritas merupakan
yang memiliki kartu kredit adalah nasabah laki-laki. Nasabah
anggota aktif yang didominasi oleh nasabah berjenis kelamin
yang memiliki kartu kredit cenderung tidak menutup akun
laki-laki. Nasabah yang merupakan anggota aktif cenderung
rekening bank. Namun, tidak menutup kemungkinan bahwa
memilih untuk tetap membuka rekening di bank tersebut,
nasabah yang memiliki kartu kredit juga akan mengalami
namun tidak menutup kemungkinan bahwa nasabah yang
churn. Nasabah yang tidak memiliki kartu kredit namun
tidak terlalu aktif juga tetap bertahan untuk membuka
churn jumlahnya cenderung lebih sedikit dibanding nasabah
rekening di bank tersebut. Nasabah yang tidak aktif dan
yang memiliki kartu credit dan churn. Churn nasabah yang
churn jumlahnya lebih banyak disbanding nasabah yang aktif
memiliki kartu kredit diindikasikan karena beberapa nasabah
dan churn.
mungkin merasa kurang puas terhadap layanan kredit dari
bank tersebut. C. Naïve Bayes Classification
Naïve Bayes Classifier merupakan metode classifier yang
berdasarkan probabilitas dan teorema Bayesian dengan
asumsi keindependenan atribut. Asumsi independensi atribut
akan menghilangkan kebutuhan banyaknya jumlah data latih
dari seluruh atribut yang dibutuhkan untuk mengklasifikasi
suatu data. Data latih untuk Teorema Bayes membutuhkan
paling tidak perkalian kartesius dari seluruh kelompok atribut
yang mungkin, sehingga semakin sedikit atribut yang
digunakan, akan mengurangi data latih yang dibutuhkan.
Padahal, pada kenyataannya asumsi atribut independen pada
Naïve Bayes Classifier sering dilanggar. Hal ini disebabkan
karena asumsi keindependenan atribut dalam dunia nyata
Gambar 16. Bar Chart Tenure hampir tidak pernah terjadi.
Gambar 16 menunjukkan jumlah nasabah laki-laki dan Sesuai pada uraian tersebut, sehingga asumsi yang harus
perempuan apabila dilihat dari segi lama menjadi nasabah. dipenuhi dalam menggunakan klasifikasi Naïve Bayes adalah
Berdasarkan Gambar 16 dapat diketahui bahwa nasabah independensi. Berikut merupakan uji asumsi independensi
dengan jenis kelamin laki-laki cenderung lebih lama menjadi pada data dengan menggunakan cosine similiarity.
nasabah bank dibanding nasabah perempuan. Tabel 9. Cosine Similiarity
Y X Similarity
Exited Layanan Produk dan 0.374418105
Saldo
Exited Status Nasabah -0.12151524
Exited CreditScore 0.107940903
Exited IsActiveMember -0.06686485
Exited Gender 0.226906036
Berdasarkan Tabel 9 dapat dilihat bahwa nilai similarity
pada setiap variabel cenderung lebih kecil dari 0.5, sehingga
12
asumsi independen sudah terpenuhi. Karena asumsi Kemudian nilai auc sebesar 1 atau 100% mengindikasikan
independen sudah terpenuhi, maka analisis dapat dilakukan bahwa kekuatan nilai diagnostik dengan metode Naïve Bayes
lebih lanjut. dengan pembagian data training dan testing menggunakan
Dalam melakukan analisis klasifikasi dengan metode repeated holdout method pada kasus ini sangat baik.
Naïve Bayes, dilakukan pembagian data training dan data
testing terlebih dahulu. Pada penelitian ini akan dilakukan 2. KFold Cross Validation Naïve Bayes
pembagian data training dan data testing dengan metode K-fold cross validation data akan dibagi menjadi dua
Repeated Holdout dan KFold Cross Validation. bagian yaitu training dan testing atau tiga bagian yaitu
training, validation, dan testing. Pada teknik K-fold cross
1. Repeated Holdout Naïve Bayes validation proses pembagian training dan testing akan
Metode holdout adalah metode yang akan menyediakan dilakukan sebanyak K. Pada penelitian ini K yang digunakan
sejumlah data untuk digunakan sebagai data testing, dan adalah 5.
sisanya sebagai data training. Saat proses pengacakan data Pembagian data training dan data testing dengan metode
untuk dibagi sebagai data training dan testing, sangat KFold adalah sebesar 80 : 20. Hasil dari confusion matrix
mungkin terjadi overrepresented pada salah satu atau lebih data training adalah sebagai berikut.
klasifikasi. Dalam artian bahwa klasifikasi tersebut dominan Tabel 13. Confussion Matrix Data Training
dibandingkan klasifikasi lainnya, sehingga data training dan Churn (1) Continue (0)
testing yang tercipta menjadi tidak representatif. Untuk Churn (1) 1647 0
mengatasi pembagian kategori dalam testing dan training Continue (0) 0 6353
yang tidak representative maka dilakukan Repeated Holdout. Berdasarkan Tabel 13 dapat diperoleh informasi bahwa
Pada proses ini dilakukan perulangan terhadap seluruh proses nasabah yang churn dan dikategorikan churn adalah sebesar
training dan testing beberapa kali dengan data training dan 100% sedangkan nasabah yang tidak churn dan dikategorikan
testing yang teracak. Kemudian diambil nilai rata-ratanya. tidak churn (continue) pada kasus tersebut adalah sebesar
Pada penelitian ini, peneliti membagi data training dan 100%. Sedangkan untuk hasil klasifikasi pada data testing
data testing dengan proporsi 70 : 30. Adapun hasil confusion adalah sebagai berikut.
matrix dari data training adalah sebagai berikut. Tabel 14. Confussion Matrix Data Testing
Tabel 10. Confussion Matrix Data Training
Churn (1) Continue (0)
Churn (1) Continue (0) Churn (1) 390 0
Churn (1) 1444 0 Continue (0) 0 1610
Continue (0) 0 5556 Tabel 14 menjelaskan bahwa nasabah yang churn dan
Tabel 10 menjelaskan bahwa nasabah yang churn dan dikategorikan churn adalah sebesar 100% sedangkan nasabah
dikategorikan churn adalah sebesar 100% sedangkan nasabah yang continue dan dikategorikan continue pada kasus
yang tidak churn dan dikategorikan tidak churn (continue) tersebut adalah sebesar 100%.
pada kasus tersebut adalah sebesar 100%. Sedangkan untuk Adapun ukuran kebaikan model klasifikasi Naïve Bayes
hasil klasifikasi pada data testing adalah sebagai berikut. dengan pembagian data Training dan data Testing
Tabel 11. Confussion Matrix Data Testung
menggunakan Stratify Holdout method dapat diukur dengan
Churn (1) Continue (0) menggunakan nilai akurasi, presisi, recall dan AUC. Nilai
Churn (1) 593 0 tersebut adalah sebagai berikut.
Continue (0) 0 2407 Tabel 15. Ketepatan Hasil Klasifikasi
Tabel 11 menjelaskan bahwa nasabah yang churn dan Data Akurasi Presisi Recall AUC
dikategorikan churn adalah sebesar 100% sedangkan nasabah Training 1.0 1.0 1.0 1.0
yang continue dan dikategorikan continue pada kasus Testing 1.0 1.0 1.0 1.0
tersebut adalah sebesar 100%. Tabel 15 menjelaskan bahwa ketepatan hasil klasifikasi
Kebaikan model klasifikasi dengan menggunaan Naïve pada data training sebesar 100% sedangkan pada data testing
Bayes dengan pembagian data training dan testing Holdout sebesar 100%. Artinya, kelas yang diklasifikasikan dengan
method dapat diukur dengan menggunakan nilai akurasi, benar pada data Training adalah sebesar 100% sedangkan
presisi, recall dan AUC. Nilai tersebut adalah sebagai pada data Testing sebesar 100 %. Nilai presisi untuk data
berikut. training maupun data testing sama-sama memiliki nilai 1
Tabel 12. Ketepatan Hasil Klasifikasi
yang berarti persentase nasabah yang benar melakukan churn
Data Akurasi Presisi Recall AUC dari keseluruhan yang diprediksi churn adalah sebesar 100%.
Training 1.0 1.0 1.0 1.0 Nilai AUC dari data training maupun testing adalah sebesar
Testing 1.0 1.0 1.0 1.0 1 atau 100% yang berarti bahwa kekuatan nilai diagnostik
Tabel 12 menjelaskan bahwa ketepatan hasil klasifikasi dengan metode Naïve Bayes dengan pembagian data training
pada data training sebesar 100% sedangkan pada data testing dan testing menggunakan repeated holdout method pada
sebesar 100%. Artinya, kelas yang diklasifikasikan dengan kasus ini sangat baik.
benar pada data Training adalah sebesar 100% sedangkan
pada data Testing sebesar 100 %. Sedangkan presisi dari D. Discriminant Analysis
klasifikasi baik data training dan testing adalah 1 yang Analisis Diskriminan adalah teknik statistika untuk
berarti persentase nasabah yang benar melakukan churn dari mengelompokkan individu ke dalam kelompok-kelompok
keseluruhan yang diprediksi churn adalah sebesar 100%. yang saling bebas dan tegas berdasarkan segugus peubah
13
bebas. Analisis Diskriminan merupakan teknik yang akurat nilai akurasi, presisi, recall dan AUC. Nilai tersebut adalah
untuk memprediksi suatu objek termasuk ke kategori apa, sebagai berikut.
dengan catatan data-data yang dilibatkan terjamin Tabel 20. Ketepatan Hasil Klasifikasi
akurasinya. Data Akurasi Presisi Recall AUC
Sebelum melakukan analisis diskriminan, terdapat 2 Training 0.8008 0.735 0.054 0.5244
asumsi yang harus terpenuhi yaitu : 1) Sejumlah p variabel Testing 0.807 0.612 0.064 0.527
penjelas harus berdistribusi normal, 2) Matriks varians- Tabel 20 menjelaskan bahwa ketepatan hasil klasifikasi
covarians variabel penjelas berukuran p x p pada kedua pada data training sebesar 80.08% sedangkan pada data
kelompok harus sama. Berikut merupakan hasil pengujian testing sebesar 80.7%. Artinya, kelas yang diklasifikasikan
normal multivariat data Churn Modelling. dengan benar pada data Training adalah sebesar 80.08%
Tabel 16. Uji Normal Multivariat sedangkan pada data Testing sebesar 80.7 %. Presisi dari data
W p-value training sebesar 0.735 yang berarti persentase kebenaran
0,99857 0,0001954 prediksi nasabah churn dikategorikan sebagai churn adalah
Berdasarkan Tabel 16 dapat diketahui bahwa p-value sebesar 73.5%. Kemudian nilai presisi dari data testing
0,0001954 dimana nilai tersebut kurang dari alpha 0,05. Oleh sebesar 0.612 mengindikasikan bahwa persentase nasabah
karena itu data tidak berdistribusi normal multivariat. Namun yang benar melakukan churn dari keseluruhan yang
pada penelitian ini diasumsikan normal multivariat. diprediksi churn adalah sebesar 61,2%. Selanjutnya nilai
Selanjutnya adalah uji asumsi matriks kovarian homogen AUC dari data training dan data testing secara berturut-turut
menggunakan uji Box’M sebagai berikut. adalah sebesar 52,44% dan 52,7% yang mengindikasikan
bahwa kekuatan nilai diagnostic sangat lemah.
Tabel 17. Uji Homogenitas
Box’M p-value 2. KFold Cross Validation Diskriminan
48,152 0,000 Pembagian data training dan testing secara KFold Cross
Tabel 17 menunjukkan bahwa p-value dari pengujian Validation adalah sebesar 80 : 20. Adapun K yang digunakan
Box’M adalah sebesar 0,000. Hal ini berarti bahwa antar adalah sebesar 5. Hasil confusion matrix untuk data training
variabel penjelas memiliki matriks kovarian yang tidak dengan metode analisis diskriminan adalah sebagai berikut.
homogen. Namun pada penelitian ini diasumsikan bahwa Tabel 21. Confussion Matrix Data Training
matriks kovarian homogen, sehingga memenuhi asumsi yang Churn (1) Continue (0)
dibutuhkan untuk analisis diskriminan. Churn (1) 116 1531
Akan dilakukan analisis diskriminan untuk menentukan Continue (0) 58 6295
suatu pengamatan apakah termasuk dalam kelas 1 (Churn) Berdasarkan Tabel 21 dapat diketahui bahwa nasabah
atau 0 (Continue). Pembagian data training dan data testing yang churn dan dikategorikan sebagai churn adalah sebesar
pada analisis diskriminan ini dilakukan dengan cara 7,04% sedangkan nasabah yang tidak churn dan
Repeated Holdout dan KFold Cross Validation. dikategorikan tidak churn (continue) pada kasus tersebut
1. Repeated Holdout Diskriminan adalah sebesar 99,087%. Adapun untuk hasil klasifikasi pada
Pembagian data training dan testing secara Repeated data testing adalah sebagai berikut.
Holdout adalah sebesar 70 : 30. Adapun hasil confusion Tabel 22. Confussion Matrix Data Testing
matrix untuk data training adalah sebagai berikut. Churn (1) Continue (0)
Tabel 18. Confussion Matrix Data Training
Churn (1) 8 382
Churn (1) Continue (0) Continue (0) 6 1604
Churn (1) 78 1366 Tabel 22 menunjukkan bahwa nasabah yang churn dan
Continue (0) 28 5528 dikategorikan churn adalah sebesar 2,05% sedangkan
Tabel 18 menjelaskan bahwa nasabah yang churn dan nasabah yang continue dan dikategorikan continue pada
dikategorikan churn adalah sebesar 5,4% sedangkan nasabah kasus tersebut adalah sebesar 99,63%.
yang tidak churn dan dikategorikan tidak churn (continue) Kebaikan model klasifikasi dengan menggunakan analisis
pada kasus tersebut adalah sebesar 99,49%. Sedangkan untuk diskriminan dengan pembagian data training dan testing
hasil klasifikasi pada data testing adalah sebagai berikut. KFold apcmethod dapat diukur dengan menggunakan nilai
Tabel 19. Confussion Matrix Data Testung
akurasi, presisi, recall dan AUC. Nilai tersebut adalah
Churn (1) Continue (0) sebagai berikut.
Churn (1) 38 555 Tabel 23. Ketepatan Hasil Klasifikasi
Continue (0) 24 2383 Data Akurasi Presisi Recall AUC
Tabel 19 menunjukkan bahwa nasabah yang churn dan Training 0.8013 0.679 0.0704 0.530
dikategorikan churn adalah sebesar 6,408% sedangkan Testing 0.8059 0.503 0.0202 0.508
nasabah yang continue dan dikategorikan continue pada Tabel 23 menjelaskan bahwa ketepatan hasil klasifikasi
kasus tersebut adalah sebesar 99,0%. pada data training sebesar 80.08% sedangkan pada data
Kebaikan model klasifikasi dengan menggunakan analisis testing sebesar 80.7%. Artinya, kelas yang diklasifikasikan
diskriminan dengan pembagian data training dan testing dengan benar pada data Training adalah sebesar 80.08%
Repeated Holdout method dapat diukur dengan menggunakan sedangkan pada data Testing sebesar 80.7 %. Adapun nilai
presisi dari klasifikasi menggunakan KFold Cross Validation
14
Discriminant Analysis untuk data training adalah sebesar adalah sebesar 100%. Adapun untuk hasil klasifikasi pada
0.679 yang artinya persentase nasabah yang benar melakukan data training untuk k=10 adalah sebagai berikut.
churn dari keseluruhan yang diprediksi churn adalah sebesar Tabel 26. Confussion Matrix Data Training (k=10)
67,9%. Sedangkan nilai presisi dari data testing sebesar 0.503 Churn (1) Continue (0)
yang berarti bahwa persentase nasabah yang benar Churn (1) 1310 134
melakukan churn dari keseluruhan yang diprediksi churn Continue (0) 1 5555
pada data testing adalah sebesar 50,3%. Nilai AUC dari data Berdasarkan Tabel 26 dapat diperoleh informasi bahwa
training dan data testing berturut-turut adalah sebesar 53% nasabah yang churn dan dikategorikan sebagai churn adalah
dan 50.8% yang berarti bahwa kekuatan nilai diagnostic dari sebesar 90,72% sedangkan nasabah yang tidak churn dan
metode Diskriminan dalam kasus ini sangat lemah. dikategorikan tidak churn (continue) pada kasus tersebut
adalah sebesar 99,98%. Berikut merupakan hasil klasifikai
E. K-Nearest Neighbor
data testing pada saat dicobakan k = 5.
Algoritma K-Nearest Neighbor (k-NN) adalah salah satu Tabel 27. Confussion Matrix Data Testing (k=5)
metode yang menerapkan algoritma supervised dimana hasil Churn (1) Continue (0)
dari sampel uji yang baru diklasifikasikan berdasarkan Churn (1) 588 5
mayoritas dari kategori pada k-NN. Ketepatan algoritma k- Continue (0) 3 2404
NN ditentukan oleh ada dan tidak adanya data yang tidak Berdasarkan Tabel 27 dapat diketahui bahwa nasabah
relevan, atau jika bobot fitur tersebut setara dengan yang churn dan dikategorikan sebagai churn adalah sebesar
relevansinya terhadap klasifikasi. Algoritma k-NN adalah 99,15% sedangkan nasabah yang tidak churn dan
salah satu metode yang digunakan untuk analisis klasifikasi, dikategorikan tidak churn (continue) pada kasus tersebut
namun beberapa dekade terakhir metode k-NN juga adalah sebesar 99,87%. Selanjutnya hasil klasifikasi pada
digunakan untuk prediksi. k-NN termasuk kelompok data testing untuk k=10 adalah sebagai berikut.
instance-based learning. Algoritma ini juga merupakan salah
satu teknik lazy learning. k-NN dilakukan dengan mencari
kelompok k objek dalam data training yang paling dekat Tabel 28. Confussion Matrix Data Testing (k=10)
(mirip) dengan objek pada data baru atau data testing. Churn (1) Continue (0)
Sesuai pada uraian tersebut, sehingga asumsi yang harus Churn (1) 557 36
dipenuhi dalam menggunakan klasifikasi k-NN adalah Continue (0) 0 2407
independensi. Berikut merupakan uji asumsi independensi Berdasarkan Tabel 28 diketahui bahwa nasabah yang
pada data dengan menggunakan cosine similiarity. churn dan dikategorikan sebagai churn adalah sebesar
Tabel 24. Cosine Similiarity
93,92% sedangkan nasabah yang tidak churn dan
Y X Similarity dikategorikan tidak churn (continue) pada kasus tersebut
Exited Layanan Produk dan 0.374418105 adalah sebesar 100%.
Saldo Setelah diketahui berapa persentase nasabah yang churn
Exited Status Nasabah -0.12151524 terprediksi churn dan yang tidak churn terprediksi tidak
Exited CreditScore 0.107940903 churn , selanjutnya akan dilakukan evaluasi kebaikan model
Exited IsActiveMember -0.06686485 untuk data training maupun testing dengan k = 5 dan k = 10.
Exited Gender 0.226906036 Tabel 29. Ketepatan Hasil Klasifikasi
Berdasarkan Tabel 24 dapat diperoleh informasi bahwa K Data Akurasi Presisi Recall AUC
nilai similarity pada setiap variabel cenderung lebih kecil 5 Trainin 0.9995 1.0 0.9979 0.998
dari 0.5, sehingga asumsi independen sudah terpenuhi. g
Karena asumsi independen sudah terpenuhi, maka dapat Testing 0.9973 0.9949 0.9915 0.995
dilakukan analisis lebih lanjut. 10 Trainin 0.9807 0.9992 0.9072 0.953
Pembagian data training dan data testing dengan proporsi g 5
70:30 untuk metode repeated holdout dan sebesar 80 : 20
Testing 0.988 1.0 0.9392 0.969
untuk KFold Cross Validation. Nilai k yang digunakan
Berdasarkan Tabel 29 dapat diperoleh informasi bahwa
sebesar 5 dan 10.
ketepatan hasil klasifikasi tertinggi terdapat pada data
1. Repeated Holdout KNN
training maupun testing dengan nilai k=5. Pada data training,
Hasil confusiom matrix dari data training untuk k=5
akurasi ketepatan klasifikasi sebesar 99,95% sedangkan pada
dengan repeated holdout adalah sebagai berikut.
data testing sebesar 99,73%. Artinya, kelas yang
Tabel 25. Confussion Matrix Data Training (k=5)
diklasifikasikan dengan benar pada data Training adalah
Churn (1) Continue (0)
sebesar 99,95% sedangkan pada data Testing sebesar 99,73%.
Churn (1) 1441 3
Nilai presisi dari data training adalah sebesar 1 yang artinya
Continue (0) 0 5556
persentase nasabah yang benar melakukan churn dari
Berdasarkan Tabel 25 dapat diketahui bahwa nasabah
keseluruhan yang diprediksi churn pada data training adalah
yang churn dan dikategorikan sebagai churn adalah sebesar
sebesar 100%. Adapun nilai presisi dari data testing adalah
99,79% sedangkan nasabah yang tidak churn dan
sebesar 0.9949 yang berarti bahwa persentase nasabah yang
dikategorikan tidak churn (continue) pada kasus tersebut
benar melakukan churn dari keseluruhan yang diprediksi
churn pada data testing sebesar 99,49%. Apabiila dilihat dari
15
nilai AUC untuk data training maupun testing yang secara Testing 0.9964 1.0 0.9819 0.966
berturut-turut nilainya 99,8% dan 99,5% maka dapat 7
diindikasikan bahwa kekuatan diagnostic metode KNN 10 Trainin 0.9981 1.0 0.9907 0.988
dengan pembagian data training dan testing secara repeated g 1
holdout sangat baik. Testing 0.977 1.0 0.8581 0.914
2. KFold Cross Validation KNN 1
Pembagian data training dan testing secara KFold Cross Berdasarkan Tabel 34 dapat diperoleh informasi bahwa
Validation adalah sebesar 80 : 20. Adapun K yang digunakan ketepatan hasil klasifikasi tertinggi terdapat pada data
dalam pembagian data menjadi testing training adalah training maupun testing dengan nilai k=5. Pada data training,
sebesar 5. Pada penelitian ini akan dicobakan metode akurasi ketepatan klasifikasi sebesar 99,96% sedangkan pada
klasifikasi KNN dengan k = 5 dan k =10. Hasil confusion data testing sebesar 99,64%. Artinya, kelas yang
matrix untuk data training dengan metode KNN adalah diklasifikasikan dengan benar pada data Training adalah
sebagai berikut. sebesar 99,96% sedangkan pada data Testing sebesar 99,64%.
Tabel 30. Confussion Matrix Data Training (k=5) Nilai presisi dari data training adalah sebesar 0.9987 yang
Churn (1) Continue (0) artinya persentase nasabah yang benar melakukan churn dari
Churn (1) 1631 16 keseluruhan yang diprediksi churn pada data training adalah
Continue (0) 4 6349 sebesar 99.87%. Adapun nilai presisi dari data testing adalah
Berdasarkan Tabel 30 dapat diketahui bahwa nasabah sebesar 1 yang berarti bahwa persentase nasabah yang benar
yang churn dan dikategorikan sebagai churn adalah sebesar melakukan churn dari keseluruhan yang diprediksi churn
99,02% sedangkan nasabah yang tidak churn dan pada data testing sebesar 100%. Kemudian nilai AUC dari
dikategorikan tidak churn (continue) pada kasus tersebut data training dan data testing secara berturut turut adalah
adalah sebesar 99.93%. Adapun untuk hasil klasifikasi pada sebesar 99,48% dan 96,67% yang mengindikasikan bahwa
data training untuk k=10 adalah sebagai berikut. kekuatan diagnostic dari metode KNN dengan pembagian
Tabel 31. Confussion Matrix Data Training (k=10) data training dan testing menggunakan KFold Cross
Churn (1) Continue (0) Validation sangat baik.
Churn (1) 1608 39
Continue (0) 0 6353 F. Perbandingan Hasil Klasifikasi
Berdasarkan Tabel 31 dapat diperoleh informasi bahwa Setelah dilakukan analisis klasifikasi dengan tiga metode
nasabah yang churn dan dikategorikan sebagai churn adalah yaitu Naïve Bayes , Analisis Diskriminan, dan K-Nearest
sebesar 97,63% sedangkan nasabah yang tidak churn dan Neighbor yang mana setiap metode tersebut dicobakan 2
dikategorikan tidak churn (continue) pada kasus tersebut metode pembagian data training dan testing , selanjutnya
adalah sebesar 100%. Berikut merupakan hasil klasifikai data dilakukan perbandingan hasil klasifikasi dari metode-metode
testing pada saat dicobakan k = 5. yang sudah diterapkan tersebut. Adapun perbandingan hasil
Tabel 32. Confussion Matrix Data Testing (k=5) dilakukan dengan cara membandingkan ukuran kebaikan
Churn (1) Continue (0) model dari data testing untuk setiap metode sebagai berikut.
Churn (1) 364 26
Continue (0) 0 1610 Tabel 35. Perbandingan Ketepatan Hasil Klasifikasi antar Metode
Berdasarkan Tabel 32 dapat diketahui bahwa nasabah Split Metode Akurasi Presisi AUC
yang churn dan dikategorikan sebagai churn adalah sebesar Repeat Naïve 1.0 1.0 1.0
93,33% sedangkan nasabah yang tidak churn dan Holdoud Bayes
dikategorikan tidak churn (continue) pada kasus tersebut Diskrimina 0.807 0.612 0.527
adalah sebesar 100%. Selanjutnya hasil klasifikasi pada data n
testing untuk k=10 adalah sebagai berikut. KNN 0.9973 1.0 0.995
Tabel 33. Confussion Matrix Data Testing (k=10) KFold Naïve 1.0 1.0 1.0
Churn (1) Continue (0) Cross Bayes
Churn (1) 323 67 Validatio Diskrimina 0.8059 0.503 0.508
Continue (0) 0 1610 n n
Berdasarkan Tabel 33 diketahui bahwa nasabah yang KNN 0.9964 0.9819 0.9667
churn dan dikategorikan sebagai churn adalah sebesar 82,8% Berdasarkan Tabel 35 apabila ditinjau dari segi metode,
sedangkan nasabah yang tidak churn dan dikategorikan tidak dari ketiga metode klasifikasi yang telah diterapkan yang
churn (continue) pada kasus tersebut adalah sebesar 100%. memberikan ukuran ketepatan klasifikasi paling baik adalah
Setelah diketahui berapa persentase nasabah yang churn metode Naïve Bayes. Hal ini disebabkan karena Naïve Bayes
terprediksi churn dan yang tidak churn terprediksi tidak merupakan sebuah metode klasifikasi yang berakar pada
churn , selanjutnya akan dilakukan evaluasi kebaikan model teorema Bayes. Metode Naïve Bayes memprediksi peluang di
untuk data training maupun testing dengan k = 5 dan k = 10. masa depan berdasarkan histori di masa sebelumnya,
Tabel 34. Ketepatan Hasil Klasifikasi sehingga dapat dikatakan bahwa Naïve Bayes memiliki
K Data Akurasi Presisi Recall AUC asumsi yang sangat kuat akan independensi dari masing-
5 Trainin 0.9996 0.9987 0.9993 0.994 masing kondisi/kejadian. Menurut Xhemali, Hinde, dan
g 8 Stone (2009) Naïve Bayes memiliki tingkat akurasi yang
16
paling baik disbanding metode classifier yang lain. 5. Pada proses visualisasi data digunakan boxplot, scatter
Sedangkan untuk metode K-Nearest Neighbor memberikan plot, violin plot, jitter plot, dan pie chart.
ukuran kebaikan model tertinggi setelah naïve Bayes. 6. Pada proses analisis klasifikasi apabila ditinjau dari segi
Kelebihan dari metode KNN adalah sifatnya yang sangat non metode, dari ketiga metode klasifikasi yang diterapkan
linear, sehingga sangat cocok digunakan apabila pola data yaitu Naïve Bayes, Analisis Diskriminan, dan K-Nearest
respons tidak memembentuk pola yang linear, seperti pada Neighbor yang memberikan ukuran kebaikan model
kasus ini. Selain itu KNN juga memiliki konsistensi yang paling baik adalah metode Naïve Bayes. Sedangkan
kuat dan efektif untuk data training juga memiliki apabila ditinjau dari segi split data, yang memberikan
konsistensi yang kuat dan efektif untuk data training yang ukuran kebaikan model lebih tinggi adalah Repeated
berukuran besar. Adapun metode klasifikasi yang Holdout.
memberikan ukuran kebaikan paling kecil adalah metode
B. Saran
diskriminan. Kelemahan dari metode diskriminan adalah data
harus memenuhi asumsi normal multivariat dan covarian Berdasarkan analisis yang telah dilakukan, saran untuk
homogen. Sehingga apabila asumsi tersebut tidak terpenuhi, Bank yaitu diharapkan agar selanjutnya lebih menigkatkan
pengklasifikasian yang dilakukan oleh diskriminan menjadi kembali performa layanan dan hal apapun yang berhubungan
kurang tepat. Contohnya pada kasus data ini, asumsi dengan nasabah. Hal ini perlu dilakukan agar tingkat
distribusi normal antar variabel penjelas dan homogenitas kepuasan nasabah semakin tinggi sehingga dapat mengurangi
pada kovarian tidak terpenuhi, sehingga menyebabkan nasabah yang churn.
klasifikasi kurang tepat dan akurasi yang diberikan lebih Selanjutnya saran untuk peneliti adalah untuk belajar
kecil. Selanjutnya apabila ditinjau dari segi metode split data lebih dalam lagi mengenai analisis pre-processing, PCA, dan
menjadi training dan testing, pada kasus data ini yang klasifikasi agar ke depannya dapat lebih baik lagi dalam
memberikan ukuran kebaikan model lebih tinggi adalah menganalisis sehingga performansi model yang didapatkan
metode pembagian data training dan testing menggunakan lebih bagus.
Repeat Holdout.
DAFTAR PUSTAKA
VII. KESIMPULAN DAN SARAN [1] Ventura. (2019, Mei 11). Churn Rate Bagaimana Mencegah
Bangkrutnya Perusahaan.
A. Kesimpulan [2] Walpole, Ronald E. 1995. Pengantar Statistika Edisi ke-3. Jakarta: PT.
Gramedia Pustaka Utama.
Berdasarkan analisis dan pembahasan di atas, dapat [3] Kaiser, Jiri. 2014. "Dealing with Missing Values in Data." By Journal of
disimpulkan yaitu sebagai berikut. Systems Integration.
1. Pada proses imputasi missing value, untuk variabel [4] Hampel. 1986. "Multivariate a regression S -estimation for Robust
Estimation and Inference." Ghent University.
EstimatedSalary diisi dengan nilai mean dari variabel [5] Yuswandy. 2009. "Regresi dan Korelasi." Bandung: Tarsito.
tersebut sedangkan nilai missing pada variabel [6] Imbar, Radiant Victor, Adelia, Ayub, Mewati, Rehatta, & Alexander.
HasCrCardt diisi menggunakan modus dari variabel (2014, Juni 24). Implementasi Cosine Similarity dan Algoritma Smith-
Waterman untuk Mendeteksi Kemiripan Teks. Jurnal Informatika
tersebut. Universittas Kristen Maranatha Bandung Vol.10 No.1, pp. 1-103.
2. Pada proses deteksi outlier menggunakan boxplot , z- [7] Han, J.., Kamber, M.., Pei, & J. (2012). Data Mining Concepts and
score, dan scatter plot,diketahui variabel yang Techniques 3rd Edition. USA: Morgan Kaufmann.
[8] Johnson,R.A & Wichern, D.W. 2002. Applied Multivariate Statistical
mengandung outlier ada 3 yaitu Balanced, Analysis. 5th Ed. New Jersey :Prentice Hall
NumOfProduct, dan CreditScore. Peneliti memutuskan [9] Sokolova, M., Lapalme, & G. (2009). A systematic Analysis of
untuk tidak menangani outlier tersebut karena Performance Measures for Classification Tasks.
dimungkinkan outlier akan memberikan informasi yang [10] Bekkar, M., Djemaa, H. K., Alitouch, & T. A. (2013). Evaluation
Measures for Models Assessment Over Imbalanced Data Sets. Journal
berarti. of Information Engineering and Applications Vol.3 No.10, 27-38.
3. Proses ekstraksi variabel kontinyu dilakukan dengan
menggunakan Principals Component Analysis sehingga LAMPIRAN
dari 6 variabel kontinyu dikelompokkan ke dalam 3 Syntax R
variabel baru (LayananProdukDanSaldo, StatusNasabah,
dan CreditScore). Sedangkan feature selection digunakan #Deteksi Tipe Data
untuk menyeleksi variabel kategorik yang memiliki > library(readxl)
pengaruh signifikan terhadap data dan didapatkan 1 Warning message:
variabel yang signifikan yaitu IsActiveMember. R graphics engine version 12 is not supported by this version
4. Analisis karaktersitik pada data Churn_Modelling of RStudio. The Plots tab will be disabled until a newer
menunjukkan bahwa masyarakat yang menjadi nasabah di version of RStudio is installed.
bank tersebut mayoritas adalah laki-laki. Usia nasabah > Churn_Modelling <-
bervariasi dari yang kurang dari 20 tahun hingga lebih read_excel("~/DATMIN/Churn_Modelling.xlsx")
dari 70 tahun. Paling banyak nasabah berusia 37 tahun. > View(Churn_Modelling)
Nilai varians dari penghasilan nasabah memiliki variansi > str(Churn_Modelling)
yang sangat besar. Hal tersebut mengindikasikan bahwa #Pendefinisian Ulang Variabel
nasabah masyarakat yang membuka rekening di bank > HasCrCard1<-as.character(Churn_Modelling$HasCrCard)
tersebut memiliki kondisi ekonomi yang berbeda-beda. > IsActiveMember1<-
as.character(Churn_Modelling$IsActiveMember)
17
> Exited1<-as.character(Churn_Modelling$Exited)
>
cbind.data.frame(Churn_Modelling,IsActiveMember1,HasCr
Card1,Exited1)
> drop<-c("HasCrCard","IsActiveMember","Exited")
> Churn_Modelling=Churn_Modelling[,!
(names(Churn_Modelling)%in%drop)]
> View(Churn_Modelling)
> str(Churn_Modelling)
#Jitter & Bar Plot

library(ggplot2)
library(ggpubr)
jitter1 <- ggplot(hasil_Churn, aes(x=EstimatedSalary,

y=Exited, color=Gender))+ geom_jitter()
jitter1
bar1<-ggplot(hasil_Churn, aes(factor(Gender),
fill = factor(Exited))) +geom_bar()
bar1
p<-ggplot(hasil_Churn, aes(x=Gender, y=EstimatedSalary,

fill=Gender)) +
geom_bar(stat="identity")+theme_minimal()
p
18

Priscila Elia Kusumaningtyas - DatminC - EAS

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Priscila Elia Kusumaningtyas - DatminC - EAS

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Klasifikasi Nasabah Pada Customer Churn Prediction

II.TINJAUAN PUSTAKA B. Missing Value

kepadatan probabilitas dari data pada nilai yang berbeda,

Ep=eigenvektor data ke-p Dengan

waktu komputasi pendek saat pembelajaran dan )

 2  ) data training dan diuji menggunakan 1 subset yang tersisa

Tabel 7 merupakan eigen value dari setiap variabel

Gambar 8. Proporsi Kumulatif

Gambar 13. Violin Plot Age

memiliki kartu kredit. Hal ini mengindikasikan bahwa lebih

Gambar 17. Jitter Plot IsActiveMember

#Jitter & Bar Plot

jitter1 <- ggplot(hasil_Churn, aes(x=EstimatedSalary,

p<-ggplot(hasil_Churn, aes(x=Gender, y=EstimatedSalary,

Anda mungkin juga menyukai