Anda di halaman 1dari 17

IMPLEMENTASI METODE SMOTE DAN BACK

PROPAGATION YANG TERMODIFIKASI CONJUGATE


GRADIENT POWELL BEALE UNTUK PREDIKSI CHURN
PERUSAHAAN TELEKOMUNIKASI

Proposal Tugas Akhir

Kelas TA 1

Rudiyanto
1107130061

Program Studi Sarjana Ilmu Komputasi


Fakultas Informatika
Universitas Telkom
Bandung
2016
LEMBAR PERSETUJUAN

IMPLEMENTASI METODE SMOTE DAN BACK


PROPAGATION YANG TERMODIFIKASI CONJUGATE
GRADIENT POWELL BEALE UNTUK PREDIKSI CHURN
PERUSAHAAN TELEKOMUNIKASI

SMOTE METHOD AND MODIFIED BACK PROPRAGATION


CONJUGATE GRADIENT POWELL BEALE
IMPLEMENTATION FOR CHURN PREDICTION OF
TELECOMMUNICATION COMPANIES

Rudiyanto
1107130061

Proposal ini diajukan sebagai usulan pembuatan tugas akhir pada


Program Studi Sarjana Ilmu Komputasi
Fakultas Informatika Universitas Telkom

Bandung, 1 November 2016


Menyetujui

Calon Pembimbing 1 Calon Pembimbing 2

Untari Novia Wisesty, S.T.,M.T. Annisa Aditsania, M.Si.


NIP. 13870083 NIP. 15900046
ABSTRAK
Churn prediction adalah suatu pendekatan data mining untuk memprediksi
pelanggan yang berpotensial untuk churn. Ada banyak alternatif data mining yang bisa
diterapkan untuk memodelkan churn prediction. Namun model klasifikasi data mining
memiliki keterbatasan karena sifat khusus dari churn yaitu imbalance class, sehingga
akurasi hasil klasifikasi dari kelas mayoritas (not churn) cenderung naik sedangkan
hasil klasifikasi dari kelas minoritas (churn) cenderung memburuk. Salah satu
pendekatan dalam menangani imbalance class tersebut adalah synthetic minority over-
sampling technique (SMOTE). Dalam penelitian tugas akhir ini yaitu mencoba
mengimplementasikan metode SMOTE dan back propagation yang termodifikasi
conjugate gradient powell beale dalam churn prediction dan menganalisis hasil
performansi kombinasi dari kedua metode tersebut yang dinyatakan dalam bentuk
confusion matrix dengan menggunakan metode evaluasi F1-measure.
Kata kunci : churn prediction, imbalance class, SMOTE, back propagation, conjugate
gradient powell beale, F1-measure.
BAB I
PENDAHULUAN

1.1 Latar Belakang


Didalam area bisnis sebuah perusahaan telekomunikasi dituntut untuk menjalin
hubungan yang baik dengan pelanggan, guna mendapatkan loyalitas pelanggan, baik
dari kepuasan pelanggan maupun nilai tambah terhadap penyedia layanan terkait.
Untuk mempertahankan nilai kepuasan dari pelanggan tentunya dibutuhkan sebuah
metode yang dapat mendeteksi atau membaca perilaku pelanggan yang hendak
meninggalkan peyedia layanan tersebut atau biasa disebut sebagai churn prediction.
Churn prediction merupakan pengaplikasian data mining yang bertujuan untuk
mendeteksi pelanggan yang meninggalkan penyedia layanan. Didalam churn
prediction terdapat banyak model data mining yang dapat dilakukan [1]. Namun
algoritma atau model data mining untuk analisis churn masih memiliki keterbatasan
karena sifat khusus dari churn yaitu imbalance class. Imbalance class adalah adanya
ketimpangan antara kelas mayoritas(not churn) dengan minoritas(churn) sehingga
menyebabkan akurasi dari kelas mayoritas cenderung naik sedangkan kelas minoritas
cenderung memburuk [4]. Untuk mengatasi masalah imbalance class pada churn
prediction penulis menggunakan metode synthetic minority over-sampling technique
(SMOTE) yaitu dengan cara menambahkan data di kelas minoritas agar distibusi data
menjadi seimbang. Adapun jumlah data yang di tambahkan di sesuaikan dengan
presentase metode SMOTE yang di pilih.
Back propagation adalah metode klasifikasi yang dapat di implementasikan pada
kasus prediksi. Back propagation mampu melakukan proses learning yang
reprentasinya di analogikan seperti otak manusia [6]. back propagation termasuk
algoritma pembelajaran yang terawasi dengan arsitektur yang sederhana dan mampu
mengurangi error [11]. Namun metode standar dari back propagation seringkali terlalu
lambat dalam proses pelatihanya [14]. Untuk mempercepat pelatihan back propagation
dibutuhkan modifikasi dengan cara mengganti fungsi pelatihanya dengan
menggunakan metode conjugate gradient powell beale. Oleh karena itu metode back
propagation yang termodifikasi conjugate gradient powell beale diharapkan dapat
mempercepat proses pelatihan dan dapat mendeteksi perilaku pelanggan yang hendak
churn.
Tujuan dari penelitian tugas akhir ini adalah untuk mengetahui bagaimana tingkat
akurasi prediksi churn dengan menggunakan metode back propagation yang
termodifikasi conjugate gradient powell beale dan SMOTE yang perhitungan tingkat
akurasinya dinyatakan dalam bentuk confusion matrix dengan menggunakan metode
evaluasi F1-measure.
1.2 Perumusan Masalah
a. Bagaimana cara mengatasi imbalance class pada churn prediction
menggunakan metode SMOTE?
b. Bagaimana cara mempercepat proses pelatihan untuk metode back propagation
menggunakan conjugate gradient powell beale?
c. Bagaimana tingkat akurasi churn prediction dari hasil penerapan metode
SMOTE dan back propagation yang termodifikasi conjugate gradient powell
beale yang dinyatakan dalam bentuk confusion matrix dengan menggunakan
metode evaluasi F1-measure?

1.3 Tujuan
a. Menganalisis dan mengimplementasikan metode SMOTE pada churn
prediction.
b. Menganalisis dan mengimplementasikan metode back propagation yang
termodifikasi conjugate gradient powell beale pada churn prediction.
c. Menganalisis performansi metode back propagation yang termodifikasi
conjugate gradient powell beale dan SMOTE berdasarkan akurasi yang
dinyatakan dalam bentuk confusion matrix dengan menggunakan metode
evaluasi F1-measure.

1.4 Batasan Masalah


Data yang digunakan dalam penelitian tugas akhir ini berupa data pelanggan speedy
perusahaan telekomunikasi yang diambil dari tujuh regional yaitu Ambon, Jayapura,
Sorong, Makasar, Pare-pare, Palu, Kendari, dan Manado. Dengan 51 atribut data dan
1 atribut kelas yaitu churn dan not churn.

1.5 Rencana Kegiatan


Berikut merupakan rencana kegitan dari tugas akhir ini:
a. Studi Literatur
Pada tahap ini, akan dilakukan pencarian informasi bagi penulis dalam
mempelajari referensi yang berhubungan dengan imbalance class, churn
prediction, SMOTE, back propagation, conjugate gradient powell beale,
confusion matrix, dan F1-measure.
b. Analisis dan Pencarian Data
Pada tahap ini, dilakukan pencarian data yang berkaitan dengan penelitian yaitu
data pelanggan speedy perusahaan telekomunikasi.
c. Analisis dan Perancangan Sistem
Pada tahap ini, akan di lakukan perancangan sistem prediksi churn
menggunakan metode SMOTE dan back propagation yang termodifikasi
conjugate gradient powell beale untuk perusahaan telekomunikasi.
d. Implementasi Sistem
Pada tahap ini dilakukan pembangunan sistem prediksi churn berdasarkan hasil
perancangan sistem.
e. Analisis Hasil Implementasi
Pada tahap ini dilakukan analisis hasil implementasi sistem prediksi churn
dengan metode SMOTE dan back propagation yang termodifikasi conjugate
gradient powell beale.
f. Pembuatan Laporan
Pada tahap ini akan dibuat laporan tugas akhir berdasarkan analisis
implementasi dari sistem yang telah di buat.

1.6 Jadwal kegiatan


Berikut merupakan jadwal kegiatan yang direncanakan untuk menyelesaikan tugas
akhir ini.
Tabel 1.1 Jadwal Kegiatan

NO Kegiatan Bulan Bulan Bulan Bulan Bulan Bulan


1 2 3 4 5 6
1 Studi Literatur

2 Analisis dan
Pencarian Data
3 Analisis dan
Perancangan
Sistem
4 Implementasi
Sistem
5 Analisis Hasil
Implementasi
6 Penyusunan
Proposal
BAB II
TINJAUAN PUSTAKA

2.1 Related Work


Teknik data mining merujuk pada ekstraksi laten, tidak diketahui, yang berarti
berguna untuk informasi data dari set data yang besar. Untuk menyelidiki informasi
yang dapat dihasilkan dari data yang diambil. Di eropa, jumlah pelanggan yang beralih
operator meningkat dari tahun ke tahun dan tingkat churn sekarang rata-rata naik di
25% sampai dengan tahun 2012 [12]. Teknik mining dapat menjadi solusi yang
menjanjikan untuk memanajemen pelanggan yang churn dan model neural network
dapat memberikan lebih dari 92% akurasi prediksi churn pelanggan pada perusahaan
jaringan seluler [13].

2.2 Customer Churn


Customer churn didefinisikan sebagai kecenderungan pelanggan untuk berhenti
melakukan bisnis dengan perusahaan atau penyedia layanan dalam jangka waktu
tertentu, telah menjadi masalah yang signifikan dan menjadi tantangan utama banyak
perusahaan di seluruh dunia yang harus di hadapai untuk bertahan dan mampu bersaing
di pasar yang sangat kompetitif [4]. Oleh karena itu dibutuhkan sebuah metode yang
dapat mendeteksi atau membaca perilaku pelanggan yang hendak meninggalkan
peyedia layanan tersebut atau biasa di sebut sebagai churn prediction.
Proses churn prediction [1], merupakan area penelitian yang sangat diperdebatkan
selama lebih dari sepuluh tahun. Para peneliti dari berbagai ilmu disiplin telah mencoba
untuk menganalisis masalah ini dari perspektif mereka sendiri untuk mencari tahu
pemahaman yang jelas dan untuk merekomendasikan solusi yang efektif terhadap
masalah churners di berbagai area bisnis. Dalam churn prediction secara konvensional
memiliki keunggulan yang sederhana dan kuat berkaitan dengan cacat atau tidaknya
input data. Mereka memiliki keterbatasan yang serius terhadap interpretasi alasan
untuk churn. Oleh karena itu untuk mengukur efektivitas model prediksi tergantung
juga pada seberapa baik hasil yang didapat untuk menyimpulkan kemungkinan alasan
untuk churn [5,1].

2.3 Synthetic Minority Over-sampling Technique (SMOTE)


Metode SMOTE yang diusulkan oleh [2], sebagai salah satu teknik sampling
dalam menangani imbalance class. Kinerja dari metode SMOTE yaitu dengan
menambahkan jumlah data di kelas minoritas agar seimbang dengan kelas mayoritas,
dengan membangkitkan data buatan atau sintetis data. Data buatan yang dibangun pada
kelas minoritas dilakukan berdasarkan metode k-nearest neighbors (ketetanggan
terdekat). Pembuatan data sintetis pada imbalance class terbagi menjadi dua perbedaan
prosedur yang dilakukan yaitu pertama, pada data numerik dihitung perbedaan untuk
setiap atribut antara minority sample dengan salah satu k-nearest neighboor, kalikan
perbedaan dengan angka yang diacak antara 0 dan 1, kemudian hasilnya ditambahkan
dengan minority sample. Kedua, pada data kategorik diambil voting antara minority
sample dan nearest neighboor kemudian nilai dari hasil voting tersebut ditandai
menjadi synthetic minority class yang baru [2,7].
Gambar 2.1. Ilustrasi SMOTE[7]

Data numerik di ukur jarak kedekatanya dengan jarak Euclidean sedangkan data
kategorik lebih sederhana yaitu dengan nilai modus [8]. Perhitungan jarak antara contoh
kelas minor yang peubahnya berskala kategorik dilakukan dengan rumus Value
Difference Metric(VDM) yaitu [9,8] :

∆(𝑋, 𝑌) = 𝑤𝑥 𝑤𝑦 ∑𝑁
𝑖=1 𝛿(𝑥𝑖, 𝑦𝑖)
𝑟
(2.1)

Dengan :
∆(𝑋, 𝑌) : jarak antara amatan X dengan Y.
𝑤𝑥, 𝑤𝑦 : bobot amatan(dapat diabaikan).
𝑁 : banyaknya peubah penjelas.
𝑅 : bernilai 1 (jarak Manhattan) atau 2 (jarak Euclidean).
𝛿(𝑥𝑖, 𝑦𝑖)𝑟 : jarak antara kategori, dengan rumus :

𝐶 𝐶2𝑖
𝛿(𝑉1 , 𝑉2 ) = ∑𝑁 1𝑖
𝑖=1 | 𝐶 − | (2.2)
1 𝐶2

Dengan :
𝛿(𝑉1 , 𝑉2 ) : jarak antara nilai V1 dan V2.
𝐶1𝑖 : banyaknya V1 yang termasuk kelas i.
𝐶2𝑖 : banyaknya V2 yang termasuk kelas i.
𝐼 : banyaknya kelas ; i = 1,2,....m.
𝐶1 : banyaknya nilai 1 terjadi.
𝐶2 ∶ banyaknya nilai 2 terjadi.
𝑁 : banyaknya kategori.
𝐾 : konstanta (biasanya 1).
2.4 Neural Network
Neural Network telah menjadi banyak minat selama beberapah tahun terakhir dan
sudah berhasil diterapkan diberbagai masalah seperti keuangan, kedokteran, teknik
geologi dan fisika. Semua berawal pada tahun 1943 ketika McCullock dan pitts
membuktikan bahwa neuron mempunyai kemampuan komputasi yang lebih baik [3].

2.4.1 Arsitektur
Pada gambar 2.2, merupakan arsitektur dari NN yang sederhana. Hal ini terdiri
dari input, output dan satu lapisan tersembunyi. Setiap node dari lapisan input
terhubung ke node dari lapisan tersembunyi dan setiap simpul dari lapisan tersembunyi
terhubung ke simpul dari lapisan output. Input layer merupakan informasi mentah yang
dimasukan kedalam jaringan. Setiap input di jaringan diduplikasi dan diturunkan ke
simpul di lapisan tersembunyi. Lapisan tersembunyi menerima data dari lapisan input
menggunakan nilai input dan memodifikasi menggunakan nilai bobot, nilai baru yang
dihasilkan mengirim ke lapisan output, tetapi juga diubah oleh beberapa bobot dari
hubungan antara lapisan tersembunyi dan lapisan output. Proses informasi dari lapisan
output yang diterima dari lapisan tersembunyi akan menghasilkan output yang diproses
oleh fungsi aktivasi [3].

Gambar 2.2 Multi Layer FeedForward Network[3]

2.4.2 Model Non-Linear


Menurut [3] terdapat tiga elemen dasar dari suatu model neuron, yaitu :
 Sekumpulan sinapsis atau jalur hubungan, dimana setiap sinapsis memilki
karakteristik yang dinyatakan oleh bobot atau kekuatanya.
 Suatu adder untuk menjumlahkan sinyal-sinyal input yang diberikan bobot
oleh sinapsis neuron yang berurutan. Operasi-operasi yang digambarkan di
sini mengikuti aturan Linear Combiner.
 Suatu fungsi aktivasi untuk membatasi amplitudo output dari setiap neuron.
Gambar 2.3 Model matematis non-linear dari suatu neuron[3]

Menurut [10] selama proses pelatihan, input data berulang kali dimasukan kedalam
jaringan syaraf. Performa dari setiap keluaran prediksi jaringan syaraf dibandingkan
dengan output yang di inginkan. Secara matematis dapat dituliskan persamaanya
sebagai berikut :

𝜀𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (2.3)
Dengan :
𝑦𝑖 : actual output.
𝑦̂𝑖 ∶ 𝑛𝑒𝑢𝑟𝑎𝑙 𝑛𝑒𝑡𝑤𝑜𝑟𝑘 𝑜𝑢𝑡𝑝𝑢𝑡.
Prinsip dari jaringan syaraf adalah bahwa ketika data dari input di sajikan pada
input layer, node jaringan (neurons) melakukan perhitungan pada lapisan berikutnya
sampai nilai output dihitung pada masing-masing node output. Output dari hidden node
dapat dituliskan persamaanya sebagai berikut :

ℎ𝑖 = ∑𝑁
𝑖=1 𝑤𝑖 𝑥𝑖 (2.4)
Dengan :
𝑤𝑖 : bobot koneksi antara hidden dan input layers.
𝑥𝑖 : node input.

Output dari jaringan syaraf dituliskan sebagai berikut :

𝑦𝑖 = 𝐹(∑𝑁
𝑖=1 𝑤𝑖 𝑥𝑖 + 𝑏𝑗 ) (2.5)
Dengan :
𝑏𝑗 ∶ tresholds di lapisan tersembunyi.

2.4.3 Back Propagation Yang Termodifikasi Conjugate Gradient Powell Beale


Menurut [11] back propagation merupakan algoritma pembelajaran yang terawasi
dan biasanya digunakan oleh perceptron dengan banyak lapisan (multi layer
perceptron) untuk mengubah bobot-bobot yang terhubung dengan neuron-neuron yang
ada pada lapisan tersembunyinya. Algoritma back propagation menggunakan output
error untuk mengubah nilai bobotnya dalam arah mundur (backward). Untuk
mendapatkan error ini, tahap perambatan maju (forward propagation) harus di
kerjakan terlebih dahulu. Pada saat perambatan maju, neuron-neuron di aktifkan dengan
menggunakan fungsi aktivasi yang dapat dideferensiasikan seperti fungsi sigmoid.
Salah satu dari sekian banyak algoritma pelatihan untuk MLP yang sangat populer
adalah back propagation [6].
Menurut [14] metode standar dari back propagation seringkali terlalu lambat dalam
proses pelatihanya. Untuk mempercepat pelatihan back propagation dibutuhkan
modifikasi dengan cara mengganti fungsi pelatihanya dengan menggunakan metode
conjugate gradient powell beale. Metode conjugate gradient itu sendiri merupakan
salah satu metode optimasi yang arah pencarianya didasarkan pada arah konjugasi yang
nilainya ortogonal. Algoritma back propagation yang termodifikasi conjugate gradient
powell beale dapat dilihat dalam langkah-langkah berikut :
1. Definisikan masalah
 Pola masukan (𝑃)
 Matriks target (𝑇)
2. Inisialisasi parameter jaringan
Parameter jaringan terdiri dari :
 Arsitektur jaringan (input layer, hidden layer, output layer)
 Nilai ambang (threshold)
 Learning rate (𝑙𝑟)
 Mean Square Error (MSE)
 Bobot-bobot sinaptik (W) dilakukan melalui pembangkitan nilai
acak.
3. Pelatihan jaringan
a. Perhitungan maju
Tiap-tiap unit input (𝑥𝑖, 𝑖 = 1,2,3, . . , 𝑛) menerima sinyal 𝑥𝑖 dan
meneruskan sinyal tersebut ke semua unit pada lapisan yang ada di
atasnya (lapisan tersembunyi). Tiap-tiap unit pada lapisan tersembuunyi
(𝑧𝑖,𝑗 = 1,2,3, … , 𝑝) menjumlahkan sinyal-sinyal input terbobot :

𝑧_𝑖𝑛𝑗 = 𝑏1𝑗 + ∑𝑛𝑖=1 𝑥𝑖 𝑣𝑖𝑗 (2.6)

Gunakan fungsi aktivasi untuk menghitung sinyal outputnya :

1
𝑧𝑗 = 𝑓 (𝑧_ 𝑖𝑛 ) = −𝑧_𝑖𝑛 (2.7)
𝑗 1+𝑒 𝑗
Selanjutnya tiap-tiap unit output (𝑦𝑘 , 𝑘 = 1,2,3, … , 𝑚) menjumlahkan
sinyal-sinyal input terbobot :

𝑦_𝑖𝑛𝑘 = 𝑏2𝑘 + ∑𝑝𝑖=1 𝑧𝑖 𝑤𝑗𝑘 (2.8)

Gunakan fungsi aktivasi untuk menghitung sinyal outputnya :

1
𝑦𝑘 = 𝑓 (𝑦_ 𝑖𝑛 ) = −𝑦_𝑖𝑛 (2.9)
𝑘 1+𝑒 𝑘
b. Perhitungan Mundur
Tiap-tiap unit output menerima target yang kemudian dihitung informasi
errornya :

𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘 )𝑓 ′ (𝑦_𝑖𝑛𝑘 ) = (𝑡𝑘 − 𝑦𝑘 ) 𝑦𝑘 (1 − 𝑦𝑘 ) (2.10)


Hitung faktor kesalahan pada unit lapisan tersembunyi berdasarkan faktor
kesalahan sebelumnya :

𝛿_𝑖𝑛𝑗 = ∑𝑚
𝑘=1 𝛿𝑘 𝑤𝑗𝑘 (2.11)
𝛿𝑗 = 𝛿_𝑖𝑛 𝑓 ′ (𝑧_𝑖𝑛𝑗 ) = 𝛿_𝑖𝑛 (1 − 𝑧𝑗 ) (2.12)
𝑗 𝑗

Hitung gradient di unit output layer :


1
𝑔𝑘+1 = ∑𝑝𝑛=1 𝛿𝑛𝑘 𝑦𝑛𝑘 (2.13)
𝑁

Hitung gradient di unit hidden layer :


1
𝑔𝑗+1 = ∑𝑝𝑛=1 𝛿𝑛𝑗 𝑧𝑛𝑗 (2.14)
𝑁

Reset arah direction ke negatif gradient :

|𝑔𝑘+1 ∗ 𝑔𝑗+1 | ≥ 0.2 ||𝑔𝑘 ||2 (2.15)

Hitung parameter 𝛽 conjugate gradient powell beale untuk semua neuron


pada hidden layer dan output layer :

𝑔𝑘+1 𝑇 (𝑔𝑘+1 − 𝑔𝑘 )
𝛽𝑘+1 = (2.16)
𝑑𝑘 𝑇 (𝑔𝑘+1 − 𝑔𝑘 )

Dengan :
𝛽𝑘+1 = nilai parameter saat ini.
𝑔𝑘+1 = gradient pada iterasi saat ini.
𝑔𝑘 = gradient pada iterasi sebelumnya.
𝑑𝑘 = direction pada iterasi sebelumnya.

Kemudian menghitung direction untuk semua neuron pada hidden layer


dan output layer :

𝑑𝑘+1 = −𝑔𝑘+1 + 𝛽𝑘 𝑑𝑘 (2.17)

Dengan :
𝑑𝑘+1 = direction iterasi saat ini.
𝑔𝑘+1 = gradient pada iterasi saat ini.
𝛽𝑘 = nilai parameter dari iterasi sebelumnya.
𝑑𝑘 = direction pada iterasi sebelumnya

Inisialisasi awal direction :

𝑑1 = −𝑔1 (2.18)
Selanjutnya hitung parameter 𝛼 untuk semua neuron pada hidden layer
dan output layer menggunakan teknik line search.

Kemudian tahap update bobot dapat dilakukan dengan persamaan berikut:

𝑤𝑡+1 = 𝑤𝑡 + 𝛼𝑡+1 𝑑𝑡 + 1 (2.19)

Dengan :
𝑤𝑡+1 = bobot baru
𝑤𝑡 = bobot lama.
𝛼𝑡+1 = nilai alfa saat ini.
𝑑𝑡 = direction pada saat ini.

4. Pelatihan dihentikan ketika (epoch >= maxepoch) dan telah tercapai


MSE(Mean Square Error) yang diinginkan.
BAB III
PERANCANGAN SISTEM

3.1 Deskripsi Sistem


Pada tugas akhir ini akan dibuat sistem churn prediction untuk perusahaan
telekomunikasi dengan metode SMOTE dan back propagation yang termodifikasi
conjugate gradient powell beale. Sistem churn prediction yang akan dibangun
menggunakan data pelanggan speedy pada perusahaan telekomunikasi, dengan dua
class yaitu churn dan not churn. Data tersebut yang nantinya akan diklasifikasi untuk
mendapatkan model prediksi dan menganalisis performansi kombinasi antara metode
SMOTE dan back propagation yang termodifikasi conjugate gradient powell beale.

3.2 Perancangan Sistem


Sistem churn prediction yang akan dibangun secara umum terbagi dalam dua tahap
proses utama. Tahap pertama adalah preprocessing untuk normalisasi data dan
penanganan imbalance class. Tahap kedua adalah klasifikasi data hasil preprocessing
dengan metode back propagation yang termodifikasi conjugate gradient powell beale.
Untuk mengukur performansi hasil prediksi dinyatakan dalam bentuk confusion matrix
dengan metode evaluasi F1-measure. Dibawah ini merupakan diagram alir dari
rancangan sistem churn prediction pada perusahaan telekomunikasi dengan metode
SMOTE dan back propagation yang termodifikasi conjugate gradient powell beale.

Gambar 3.1 Diagram alir perancangan sistem churn prediction


A. Dataset
Dataset yang digunakan berupa data pelanggan speedy perusahaan telekomunikasi
yang diambil dari tujuh regional yaitu Ambon, Jayapura, Sorong, Makasar, Pare-pare,
Palu, Kendari, dan Manado. Dengan 51 atribut data dan 1 atribut kelas yaitu churn dan
not churn.

Tabel 3.1 Deskripsi Data Pelanggan Speedy Perusahaan Telekomunikasi


No Atribut Deskripsi
1 SEGMENT_ID Segmen pelanggan
2 UMUR_PLG Lama berlangganan
3 PAKET_SPEEDY_ID Paket broadband internet
4 WITEL Area berlangganan
5 TAG_N Jumlah tagihan pada bulan ke-
N
{N, N-1, ............N-11}
6 STATUS_BAYAR_N Status pembayaran pada bulan
ke-N
{N, N-1, ............N-11}
7 GGN_N Jumlah Komplain pada bulan
ke-N
{N, N-1, ............N-11}
8 USAGE_N Total pengguna pelanggan
pada bulan ke-N
{N, N-1, ............N-11}
9 CHURN Status pelanggan churn
{0=NO, 1=YES}

B. Preprocessing
Pada tahap ini, akan dilakukan proses preprocessing dataset pelanggan speedy
perusahaan telekomunikasi. Data diproses untuk dilakukan normalisasi data dan
penanganan sifat khusus dari churn yaitu imbalance class dimana adanya ketimpangan
antara kelas mayoritas (not churn) dan minoritas (churn) sehingga menyebabkan
akurasi dari kelas mayoritas cenderung naik sedangkan kelas minoritas cenderung
memburuk. Untuk menangani masalah tersebut dilakukan tahap preprocessing over-
sampling menggunakan metode SMOTE yaitu dengan menambahkan data pada kelas
minoritas sehingga distribusi data menjadi seimbang. Data hasil preprocessing nantinya
akan digunakan pada tahap training classifier menggunakan dataset training hasil
preprocessing dan testing classifier menggunakan dataset testing hasil preprocessing.

C. Training Classifier
Training Classifier adalah proses learning yang akan dilakukan oleh metode
backpropagation yang termodifikasi conjugate gradient powell beale guna
memperoleh model yang optimal untuk mengklasifikasikan data antara churn dan not
churn kedalam kelasnya masing-masing. Data yang digunakan dalam proses ini adalah
data training hasil preprocessing. Keluaran learning yang dihasilkan oleh metode
backpropagation yang termodifikasi conjugate gradient powell beale berupa bobot dan
bias yang nantinya digunakan dalam proses testing classifier.
D. Testing Classifier
Proses testing dilakukan ketika model klasifikasi didapatkan. Model yang
didapatkan diaplikasikan kedalam data testing hasil preprocessing guna menganalisa
tingkat akurasi prediksi model dalam memprediksi kelas churn dan not churn.

E. Analisis Performansi
Pada tahap ini akan dihitung tingkat akurasi hasil prediksi dari proses testing yang
dinyatakan dalam bentuk confusion matrix dengan metode F1-measure. Menurut [2]
performansi untuk machine learning biasanya dinyatakan dalam bentuk confusion
matrix seperti digambarkan dalam tabel 3.2 (untuk masalah 2 kelas). Kolom
menyatakan kelas prediksi dan baris menyatakan kelas aktual.
Tabel 3.2 Confusion Matrix
Predicted Negative Predicted Negative
Actual Negative TN FP
Actual Positive FN TP

Dalam confusion matrix, TN adalah jumlah contoh negatif jika hasil klasifikasinya
benar (True Negative), FP adalah sejumlah contoh negatif jika hasil klasifikasi tidak
benar (False Positive), FN adalah jumlah contoh positif jika hasil klasifikasi tidak benar
yaitu negatif (False Negative) dan TP merupakan jumlah sample positif dan hasil
klasifikasi positif (True Positive). F1-measure adalah metode evaluasi untuk mengukur
kinerja algoritma yang merupakan kombinasi dari precision dan recall yang masing-
masing rumusnya ditunjukan pada persamaan berikut :

TP
Recall = TP+FN (3.1)

𝑇𝑃
Precision = 𝑇𝑃+𝐹𝑃 (3.2)

(TP+TN)
F1-measure = (TP+FP+TN+FN) (3.3)
DAFTAR PUSTAKA
[1] Shaaban.E, Helmy.Y, Khedr.A, & Nasrt.M.,2012, A Proposed Churn Prediction
Model, vol.2,pp.693-697.
[2] Chawla.N.V, Bowyer.k.w, Hall.L.O, & Kegelmayer.W.P.,2002, Synthetic Minority
Over-sampling Technique, pp.321-357.
[3] Cilimkovic.M.,2015, Neural Network and Back Propagation Algorithm, Ireland.
[4] Xie.Y, Li.X, Ngai.L.W.T, &Ying.W., 2009, Customer Churn Prediction Using
Improved Balanced Random Forest, China, pp.5445-5449.
[5] Lazarov.V, & Capota.M., Churn Prediction.
[6] Suyanto., 2008. Soft Computing. Bandung : Informatika Bandung.
[7] Sastrawan.A.S, Baizal.A, & Bijaksana.M.A.,2010, Analisis Pengaruh Metode
Combine Sampling Dalam Churn Prediction Untuk Perusahaan Telekomunikasi,
pp.1979-2328.
[8] Barro.A.R, Sulviant.L.D, & Afendi.F.M.,2013, Penerapan Synthetic Minority
Oversampling Technique (Smote) Terhadap Data Tidak Seimbang Pada Model
Komposisi Jamu, vol. 1(1) : eg(1-6).
[9] S.Cost & S.Salzberg.,2012, A Weighted Nearest Neighbor Algorithm For Learning
With Symbolic Features, Boston.
[10] Ismail.M.R, Awang.M.K, Rahman.M.N.A, & Makhtar.M., 2015, A Multi Layer
Perceptron Approach For Customer Churn Prediction, vol.10, No.7, pp.213-222.
[11] Dewi.S.,2004. Jaringan Syaraf Tiruan. Yogyakarta : Graha Ilmu.
[12] A. T. Kearney, “European Mobile Industry Observatory 2011. In GSMA (Ed.)”,
Rising to the Challenge of Intense Competition, (2011).

[13] Sharma.A, & Panigrani.P.K.,2011, A Neural Network Based Approach For Prediction
churn in cellular Network Services.

[14] Adiwijaya, U.N.Wisesty, T.A.B. Wirayuda, Z.K.A.Baizal & U.Haryoko, An


Improvement Backpropagation Performance By Using Conjugate Gradient On
Forecasting Of Air Temperature And Humidity In Indonesia, vol 2013, part1, pp.57-
67.

Anda mungkin juga menyukai