ii Universitas Indonesia
DAFTAR TABEL
Tabel 3.1 Performa Sistem Prediksi Customer Churn (Huang, et al., 2015) ........ 20
Tabel 3.2 Performa Sistem Prediksi dengan Berbagai Metode Untuk Data
Imbalance .............................................................................................................. 20
Tabel 3.3 Nilai Bisnis dari Sistem Prediksi Customer Churn ............................... 21
Pada bab ini akan dijelaskan mengenai latar belakang pemanfaatan teknologi big
data pada industri telekomunikasi terutama terkait dengan subscriber churn.
Fenomena diatas sayangnya tidak menjadi kabar baik bagi perusahaan penyedia
jasa telekomunikasi. Revenue utama bagi perusahaan telekomunikasi adalah sms
dan voice (panggilan telepon), peningkatan kebutuhan akses internet berdampak
pada penurunan top revenue yang menjadi faktor penurunan average revenue per
user (ARPU). Selain penurunan revenue, menurut (Huang et al. n.d.) persaingan
ketat antar operator mengakibatkan peningkatan subscriber churn. Di China
perbandingan antara new customer dan churn customer berbanding antara 5,2
dengan 9,4 dimana tingkat churn lebih tinggi.
4 Universitas Indonesia
5
Pada makalah ini akan dibahas mengenai implementasi churn prediction dan
revenue retention dengan menggunakan teknologi big data di industri
telekomunikasi. Implementasi churn prediction akan lebih mudah dengan
memanfaatkan karakteristik big data, yaitu: velocity, veracity, variety, velocity dan
value (5V). Yang dimaksud dengan 5V adalah tingkat jumlah training data
(Volume) yang cukup besar dengan berbagai macam jenis data (Variety) yang
datang dari Business Supporting Systems (BSS) dan Operation Supporting System
(OSS) dapat memberikan 96% ketepatan terhadap prediksi churn pada bulan
berikutnya dari churn model sebelum-nya. Hasil yang didapatkan adalah dengan
melakukan Analisa terhadap data dengan rentang waktu 9 bulan dari 2 juta
pelanggan prabayar. Penelitian yang dilakukan oleh (Huang et al. n.d.)
membuktikan bahwa akurasi data dapat ditingkatkan dengan memperbesar data
training.
1.2. Permasalahan
Menurunnya penggunaan pada layanan voice dan sms dari pelanggan jasa
telekomunikasi berdampak pada turunnya revenue dari perusahaan penyedia jasa
telekomunikasi. Hal ini didukung oleh artikel yang dipaparkan pada (2017
Telecommunications Trends n.d.)
Universitas Indonesia
6
Error! Reference source not found. adalah representasi dari seluruh penyedia jasa
telekomunikasi di dunia. Dimana terjadi penurunan ARPU dikarenakan setiap
pelanggan saat ini cenderung untuk menggunakan layanan data dari pada voice dan
SMS. Voice dan SMS adalah revenue utama dari penyedia jasa telekomunikasi.
Perusahaan telekomunikasi belomba – lomba memberikan penawaran terbaik untuk
produk data, dengan harapan mempertahankan subscriber lama atau mendapatkan
subscriber baru dengan harapan mereka tidak hanya melakukan transaksi data
tetapi juga voice dan sms.
Analisis perlu dilakukan untuk mengenali subscriber yang akan churn dan usaha
yang dapat dilakukan untuk mempertahankan subscriber tersebut. Churn prediction
model dibutuhkan sebagai alat untuk membantu analisis. Hasil dari analisis bisa
digunakan sebagai action plan dengan menggunakan retention model, untuk
memberikan penawaran yang sesuai guna mencegah churn terjadi. Dari
permasalahan yang telah dipaparkan dapat diambil kesimpulan permasalahan yang
akan dibahas pada makalah ini antara lain:
Tujuan dari makalah ini adalah memberikan gambaran bagaimana teknologi big
data membantu dalam melakukan identifikasi subscriber yang berpotensi
melakukan churn. Selain identifikasi, makalah ini juga akan membahas mengenai
customer retention dan bagaimana retention system memanfaatkan big data.
Universitas Indonesia
7
BAB 2
PEMBAHASAN
Pada bab ini akan dibahas mengenai teori dan model yang digunakan untuk
melakukan identifikasi subscriber churn dan menangani subscriber churn.
Menurut penelitian yang ditulis oleh (Li 2015) operator telekomunikasi melakukan
transformasi fokus bisnis dari network menjadi data dalam persaingan bisnis
telekomunikasi. Fokus terhadap network merujuk kepada bagaimana operator
telekomunikasi melakukan optimalisasi terhadap network yang disediakan. Fokus
terhadap data merujuk pada bagaimana perusahaan telekomunikasi memfokuskan
bisnis mereka dengan menggunakan Business Intelligence (BI). Pada penelitian
tersebut big data merupakan platform yang digunakan untuk menyimpan data dan
membangun classifier model yang digunakan untuk melakukan analisis terhadap
subscriber.
Merujuk kepada penelitian yang ditulis oleh (Huang et al. n.d.) bahwa perusahaan
telekomunikasi mengelola data dalam jumlah besar setiap harinya. Pada penelitian
tersebut menyatakan bahwa data pada industri telekomunikasi didapatkan melalui
BSS dan OSS yang bekerja secara terpisah. Business Supporting Systems (BSS)
adalah komponen TI utama yang digunakan operator untuk menjalankan operasi
bisnisnya terhadap pelanggan. BSS mendukung empat proses, yaitu: manajemen
produk, manajemen pesanan, manajemen pendapatan, dan manajemen pelanggan.
Operation Supporting Systems (OSS) adalah sistem komputer yang digunakan oleh
penyedia layanan telekomunikasi untuk mengelola jaringan mereka (misalnya:
jaringan seluler). OSS mendukung fungsi manajemen seperti persediaan jaringan,
penyediaan layanan, konfigurasi jaringan, dan manajemen kesalahan. Data yang
didapatkan melalui BSS mencapai 24GB setiap harinya dan data dari OSS
mencapai 2.2TB setiap harinya. Pengelolaan data dalam jumlah besar tentu lebih
sulit dan membutuhkan biaya maintenance yang jauh lebih besar, sehingga
pemanfaatan teknologi big data diharapkan dapat menjawab kebutuhan tersebut.
Universitas Indonesia
8
Pada penelitian yang dilakukan oleh (Li 2015) infrastruktur yang digunakan adalah
dengan menggunakan teknologi cloud computing untuk melakukan efisiensi dan
elastisitas. Infrastruktur yang digunakan pada penelitian tersebut dapat menangani
big data processing termasuk didalam nya aplikasi yang dimiliki oleh perusahaan
telekomunikasi.
Universitas Indonesia
9
Gambar 2-2 adalah gambaran fungsional arsitektur terhadap platform big data.
Dimana big data terletak diantara application layer dan data resource. Prediction
model dan retention system akan dibangun pada layer aplikasi sedangkan source
data dan komputasi dilakukan di dalam platform big data.
Penggunaan telnologi big data pada penelitian (Huang et al. n.d.) menggunakan
Hive dan Spark SQL untuk melakukan sanitasi dan ekstraksi dari berbagai macam
aplikasi yang terdapat pada perusahaan penyedia jasa telekomunikasi. Pada
penelitian tersebut teknologi penyimpanan bukan lagi dalam bentuk relational
database (RDBMS) namun penyimpanan dilakukan pada file system yang disebut
dengan HDFS. Hive dan SparkSQL dapat digunakan untuk melakukan pencarian
data seperti query pada database. Hasil query tersebut disimpan pada RDD
(Resilient Distributer Dataset) dan Hive.
Algoritma random forest, diperkenalkan oleh Tin Kam Ho pada tahun 1995 yang
merupakan pengembangan dari algoritma bootstrap aggregating (bagging) dan
random feature selection. Pada penelitian yang dilakukan oleh (Scornet n.d.)
Universitas Indonesia
10
menyatakan random forest dikenal berhasil sebagai metode yang umum digunakan
untuk klasifikasi. Pendekatan yang dilakukan adalah menggabungkan beberapa
decision trees dan menggabungkan (rata – rata) hasil prediksi mereka. Random
forest telah menunjukkan kinerja yang sangat baik dimana jumlah variabel jauh
lebih besar daripada jumlah observasi. Selain itu, dapat diterapkan pada berbagai
jenis masalah mulai dari skala besar atau pada skala pembelajaran. Berikut adalah
langkah – langkah algoritma random forest (Mambang and Byna 2017):
3. Pada setiap node pada tree, pilih nilai F yang diperoleh dari persamaan divawah,
dimana M adalah jumlah total fitur:
F = Log2 (M + 1)
4. Ambil set sebanyak atribut F yang akan menjadi kandidat atribut untuk
membelah setiap node. Atribut yang menjadi simpul berikutnya ditentukan
berdasarkan kriteria tertentu (berdasarkan algoritma pohon keputusan yang
dipilih).
6. Hasil prediksi yang diperoleh dari model (frekuensi yang paling sering muncul)
dari masing-masing pohon keputusan di RF.
Pada sub bab ini akan dijelaskan mengenai model untuk melakukan identifikasi
terhadap subscriber dan model untuk melakukan retention terhadap pelanggan yang
memasuki masa tenggang atau akan berpotensi churn.
Universitas Indonesia
11
Prediksi dari churn subscriber dapat dilihat dari personal information pelanggan
tersebut yaitu komplain, penggunaan jasa telekomunikasi (termasuk didalam nya
penggunaan paket data, telepon dan sms), riwayat pembayaran atau pengisian pulsa
dan lain sebagainya. Menurut (Li 2015) teknologi big data sangat memungkinkan
industri telekomunikasi untuk mengumpulkan informasi pribadi pelanggan guna
mengetahui behaviour dari setiap subscriber. Pada bagian ini akan dibahas
mengenai model prediksi terhadap churn subscriber pada perusahaan penyedia jasa
telekomunikasi. Pada penelitian yang dilakukan oleh (Li 2015) model dapat di
dapatkan dari behaviour information sedangkan pada penelitian yang dilakukan
oleh (Ahn, Han, and Lee 2006) subscriber churn di kategorikan menjadi lebih detail.
Pada penelitian tersebut menjelaskan mengenai faktor - faktor yang menyebabkan
churn subscriber diantaranya:
1. Customer dissatisfaction
2. Switching cost
3. Service usage
4. Customer status
Untuk membuat churn prediction model dibutuhkan data real dari subscriber. Pada
penelitian yang dilakukan oleh (Huang et al. n.d.) dilakukan pengembangan dari
churn prediction model sebelum nya dimana precision pada penelitian sebelumnya
meningkat dari 0.68 menjadi 0.96 dengan meningkatkan jumlah data pada data
training dimana data yang digunakan untuk mengembangkan model churn
prediction adalah data 9 bulan sebelum nya. Untuk churn prediction model sebelum
nya dapat dilakukan dengan teknologi database dengan melakukan pengambilan
Universitas Indonesia
12
smapel. Untuk meningkatkan hasil presisi dibutuhkan teknologi big data untuk
melakukan penyimpanan data dan pemrosesan data untuk hasil yang lebih presisi.
Pada penelitian yang dilakukan oleh (Li 2015) atribut yang digunakan dalam churn
prediction model diklasifikasikan menjadi 3 kategori yaitu basic information,
billing information dan behaviour information. Sedangkan pada penelitian (Huang
et al. n.d.) attribute yang digunakan untuk melakukan kategori dibagi menjadi 3
bagian yang berbeda yaitu baseline features, CS (circuit switch) features dan PS
(packet switch) features. Untuk baseline features di dapatkan melalui BSS
(Bussiness Support System) seperti account balance, call frequency, call duration,
complaint frequency, data usage, recharge amount dan lain sebagainya. Informasi
ini digunakan untuk melakukan komparasi antara penelitian yang dilakukan nya
dan penelitian sebelumnya dengan vector xm =[x1, ...,xi,... ,xj,...,xN] untuk setiap
customer m. pada penelitian yang dilakukan oleh (Huang et al. n.d.) menggunakan
algoritma unsupervised, semi-supervised dan supervised learning untuk
menghasilan Graph, Topic, dan Second order.
Setelah penentuan atribut penelitian (Li 2015) mengambil 2 attribut yang akan
digunakan untuk membangun churn prediction model sebagai perbandingan
dikatakan M1 sebagai dasar dari prediksi terhadap billing dan kedua menggunakan
basic, billing dan behaviour information sebagai prediksi. seperti yang telah
disebutkan sebelumnya penelitian (Huang et al. n.d.) menggunakan CS dan PS
yang berasal dari Operational support system (OSS). CS merepresentasikan kualitas
layanan suara yang pada penelitian (Li 2015) merupakan bagian dari behaviour
information. Sedangkan PS merepresentasikan kualitas layanan data. Penelitian (Li
2015) yang dilakukan hui menggunakan metode random forest sebagai tools untuk
melakukan klasifikasi. Logistic regression dan metode decision tree juga digunakan
Universitas Indonesia
13
Berdasarkan penelitian yang dilakukan oleh (Huang et al. n.d.) random forest
merupakan model classifier yang memiliki performa paling tinggi diantara
classifier yang lain. Gambar 2-3 merupakan hasil algoritma untuk prediction model
yang telah dilakukan pada penelitian sebelum nya. Pada gambar tersebut pula
menunjukan bahwa random forest memiliki performa yang paling tinggi. Pada
penelitian tersebut dikatakan bahwa random forest menggunakan bootstrap untuk
membentuk decision trees secara seimbang model training data sama dengan
penelitian 1 dengan menggunakan label Ym= {non-churner=1, churner=1}.
Random forest dikatakan tepat diimplementasikan pada decision tree (𝑓𝑡 ) dimana
1≤𝑡≤𝑇
𝑇
1
𝑦 = ∑ 𝑓𝑡 (𝑥),
𝑇
𝑡=1
Dimana y adalah subscriber yang melakukan churn. pada penelitian ini akan di
evaluasi mengenai subscriber yang memiliki recharge rate minimum. Untuk
Universitas Indonesia
14
decision tree akan secara random memilih subset dari √𝑁 dimana N adalah atribut
yang akan di lakukan split dengan melakukan iterasi terhadap atribut itu sendiri.
Pada penelitian (Li 2015) menggunakan pendekatan batas threshold untuk
melakukan klasifikasi terhadap churners dan non-churners. Untuk threshold diatas
0.5 dikategorikan sebagai churners dan dibawahnya sebagai non-churners. Dengan
informasi yang telah dirancang dapat diambil kesimpulan apakah faktor-faktor
tersebut mempengaruhi tingkat akurasi dari prediction model atau tidak, jika
berpengaruh seberapa besar pengaruh dari akurasi tersebut. Untuk penelitian ini
dibahas mengenai pengaruh subscriber yang melakukan churn terhadap neigbour
atau oranf disekitarnya. Pada makalah ini akan fokus kepada churn model yang
dihasilkan. Spliting akan dilakukan dengan menggunakan Gini improvement I(.)
untuk menentukan dimana akan dilakukan pemecahan dari xMxN,
𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒𝑖 = ∑ ∑ 𝐼(𝑥1:𝑀𝑖 )
𝑡=1 𝑃𝑖 ∈𝑡𝑟𝑒𝑒𝑡
Pada penelitian yang dilakukan oleh (Adebiyi, Oyatoye, and Bolanle 2016)
menyatakan bahwa subscriber retention atau customer retention merupakan
Universitas Indonesia
15
Universitas Indonesia
16
Penelitian yang dilakukan oleh (Huang et al. n.d.) menyatakan bahwa operator
telekomunikasi memandang hubungan antara retention system dan churn’s
prediction model sebagai loop tertutup. Hal ini dikarenakan operator tidak
hanya peduli dengan subscriber churn tetapi juga program atau jenis promosi
apa yang tepat dilakukan untuk mempertahankan pelanggan yang berpotensi
pindah atau menggunakan operator lain. Operator memiliki banyak layanan
dan bentuk promosi yang akan ditawarkan kepada pelanggan yang berpotensi
melakukan subscriber churn. Sebelumnya, operator melakukan pemetaan
terhadap promosi atau program yang perlu dilakukan secara manual
berdasarkan pegetahuan umum yang dimiliki namun memperoleh hasil yang
kurang efektif dan akurat. Berdasarkan pemaparan sebelumnya dibutuhkan
sebuah retention system otomatis yang dapat digunakan untuk mencocokkan
penawaran dengan subscriber churner yang potensial.
Universitas Indonesia
17
Universitas Indonesia
18
BAB 3
IMPLEMENTASI DAN HASIL
Penelitian yang dilakukan oleh (Huang, et al., 2015) menggunakan rentang waktu
empat bulanan. Sedangkan pada penelitian (Li 2015) menggunakan rentang waktu
Sembilan bulan. Churn clasifier dibangun dari data pada bulan N-1. Kemudian data
bulan N dimasukkan ke dalam clasifier untuk melakukan prediksi yang hasilnya
diurutkan dari pelanggan potensinya paling tinggi untuk churn sampai paling
rendah. Kemudian pelanggan yang berpotensi churn pada bulan N+1 dibagi secara
acak menjadi dua kelompok, yaitu kelompok yang mendapatkan retention
campaign dan kelompok yang tidak mendapatkan perlakuan apapun. Evaluasi dari
prediksi churn dan retention dilakukan pada bulan N+2. Hasil dari retention
campaign digunakan sebagai label untuk melatih retention clasifier
mengklasifikasikan churner potensial ke dalam beberapa retention strategy.
Clasifier yang dihasilkan akan digunakan pada rentang waktu empat bulanan
berikutnya dengan urutan proses yang sama. Gambar di bawah ini menunjukkan
proses penelitian tersebut.
Universitas Indonesia
19
Hasil dari sistem prediksi churn berupa daftar pelanggan non-churner pada bulan
ini yang berpeluang besar menjadi pelanggan churner pada bulan berikutnya.
Jumlah pelanggan dalam daftar tersebut didenotasikan sebagai U. Hasil ini
kemudian dievaluasi berdasarkan nilai recall (R@U), precision (P@U), area di
bawah kurva Receiver Operating Characteristics (AUC), dan area di bawah kurva
precision-recall (PR-AUC) (Huang, et al., 2015). Penambahan jumlah pelanggan
dalam U akan menambah nilai recall tetapi mengurangi precision. Nilai recall
untuk U didenotasikan sebagai berikut:
Hasil evaluasi prediksi customer churn dapat dilihat pada tabel 1. Tabel tersebut
menunjukkan nilai R@U, P@U, AUC, dan PR-AUC dengan menggunakan 150
fitur dan akumulasi data empat bulan yang telah dijelaskan di atas.
Universitas Indonesia
20
Salah satu sisi positif dari penelitian (Huang, et al., 2015) adalah peneliti mengakui
bahwa perbandingan antara data churn dan non-churn tidak seimbang sehingga
matriks PR-AUC lebih baik digunakan daripada matriks AUC. Walaupun dalam
hasil penelitian tetap dituliskan kedua matriks tersebut. Penelitian ini juga
menyinggung metode untuk menangani ketidakseimbangan dalam data, yaitu not
balanced, up sampling, down sampling, dan weighted instance. Hasil prediksi
setelah data diterapkan empat metode tersebut dapat dilihat pada tabel 2. Namun,
sayangnya tidak dijelaskan berapa jumlah U yang diambil, jumlah fitur yang
digunakan, dan jumlah data yang digunakan sehingga menghasilkan nilai pada tabel
tersebut. Jika kita bandingkan antara tabel 1 dan tabel 2 terlihat bahwa kedua tabel
memiliki nilai yang berbeda, sehingga apakah penerapan metode untuk data
imbalance akan memperbaiki performa sistem prediksi atau tidak. Penelitian
(Huang, et al., 2015) hanya mencari metode mana yang terbaik tanpa melihat
apakah metode tersebut perlu dilakukan atau tidak.
Tabel 3.2 Performa Sistem Prediksi dengan Berbagai Metode Untuk Data Imbalance
Penelitian lain yang berkaitan dengan (Huang, et al., 2015) adalah penelitian (Xie,
Li, Ngai, & Ying, 2009) mengenai prediksi customer churn perbankan
menggunakan improved balance random forests dan penelitian (Lu, 2002)
mengenai prediksi customer churn dalam industri telekomunikasi menggunakan
Universitas Indonesia
21
Survival Analysis Modeling dengan SAS. Hal yang menarik dari kedua penelitian
tersebut, evaluasi hasil prediksi menggunakan lift yang tidak disebutkan sama sekali
dalam penelitian (Huang, et al., 2015).
Pada grup A tidak dilakukan retention campaign, sedangkan pada grup B dilakukan
retention campaign. Dalam grup A terlihat bahwa persentase pelanggan yang
melakukan isi ulang dalam periode 15 hari masa tenggang atau pelanggan yang
tidak jadi churn sangat rendah. Persentase pelanggan yang tidak jadi churn dalam
subset top 5 x 104 di grup A hanya 1,68% pada bulan kedelapan dan 1,04% pada
bulan kesembilan. Hal ini menunjukkan sistem prediksi memiliki akurasi yang
tinggi. Tabel 3 grup B memperlihatkan bahwa retention campaign pada pelanggan
yang berpotensi churn berpengaruh besar mencegah pelanggan untuk churn.
Jumlah pelanggan yang tidak jadi churn dalam subset top 5 x 104 sebesar 18.49%
pada bulan kedelapan dan 30,77% pada bulan kesembilan.
Universitas Indonesia
22
BAB 4
KESIMPULAN
Universitas Indonesia
DAFTAR PUSTAKA
Ahn, Jae-hyeon, Sang-pil Han, and Yung-seop Lee. 2006. “Customer Churn
Analysis : Churn Determinants and Mediation Effects of Partial Defection in
the Korean Mobile Telecommunications Service Industry.” 30: 552–68.
Huang, Yiqing et al. “Telco Churn Prediction with Big Data.” : 607–18.
Li, Hui. 2015. “Enhancing Telco Service Quality with Big Data Enabled Churn
Analysis : Infrastructure , Model , and Deployment.” 30(6): 1201–14.
Mambang, and Agus Byna. 2017. “DENGAN CHAID DECISION TREE UNTUK
KLASIFIKASI.” : 103–8.
Xie, Y., Li, X., Ngai, E. W., & Ying, W. (2009). Customer churn prediction using
improved balanced random forests. Expert Systems with Applications, 36(3),
5445-5449.
23 Universitas Indonesia