Case Study - PDB - Kelompok 8 (Makalah)

UNIVERSITAS INDONESIA
PENERAPAN BIG DATA PADA INDUSTRI TELEKOMUNIKASI UNTUK

MENANGANI SUBSCRIBER CHURN
Tugas Case Studi Pengolahan Data Besar
Abhiyasa Suta Bhumikapala 1606858680

Addini Ainul Haq 1606858705
Ramanti Dharayani 1606858996
Ulfalia Febiana 1606859102
PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER
JAKARTA
NOVEMBER 2017
DAFTAR ISI
DAFTAR ISI ........................................................................................................... i
DAFTAR GAMBAR ............................................................................................. ii
DAFTAR TABEL ................................................................................................ iii
BAB 1 PENDAHULUAN ..................................................................................... 4

1.1. Latar Belakang ......................................................................................... 4
1.2. Permasalahan............................................................................................ 5
1.3. Tujuan Penelitian ..................................................................................... 6
BAB 2 PEMBAHASAN ........................................................................................ 7

2.1. Penggunaan Big Data pada Telekomunikasi ........................................... 7
2.1.1. Infrastruktur Telekomunikasi pada Proses Big Data ................... 8
2.2. Random Forest ......................................................................................... 9
2.3. Subscriber Churn Analysis..................................................................... 10
2.3.1. Churn Prediction Model ............................................................ 10
2.3.2. Customer Retention .................................................................... 14
2.3.3. Customer Retention Model ......................................................... 16
BAB 3 IMPLEMENTASI DAN HASIL............................................................ 18
BAB 4 KESIMPULAN ....................................................................................... 22
DAFTAR PUSTAKA .......................................................................................... 23

DAFTAR GAMBAR
Gambar 1-1 Penurunan penggunaan setiap pelanggan ........................................... 5

Gambar 2-1 Infrastruktur implementasi big data pada Telekomunikasi ................. 8
Gambar 2-2 Gambaran penggunaan big data pada perusahaan telekomunikasi ..... 9
Gambar 2-3 Perbandingan Algoritma ................................................................... 13
Gambar 2-4 Retention System .............................................................................. 16
Gambar 3-1 Proses Penelitian dalam Siklus Empat Bulanan................................ 19
ii Universitas Indonesia
DAFTAR TABEL
Tabel 3.1 Performa Sistem Prediksi Customer Churn (Huang, et al., 2015) ........ 20
Tabel 3.2 Performa Sistem Prediksi dengan Berbagai Metode Untuk Data
Imbalance .............................................................................................................. 20
Tabel 3.3 Nilai Bisnis dari Sistem Prediksi Customer Churn ............................... 21
iii Universitas Indonesia

BAB 1
PENDAHULUAN
Pada bab ini akan dijelaskan mengenai latar belakang pemanfaatan teknologi big
data pada industri telekomunikasi terutama terkait dengan subscriber churn.
1.1. Latar Belakang
Perkembangan industri telekomunikasi yang pesat dewasa ini menuntut kebutuhan

aplikasi dan layanan telekomunikasi yang baik. PricewaterhouseCoopers
menyatakan dalam artikel terkait tren telekomunikasi di tahun 2017 bahwa pembuat
aplikasi dapat menawarkan aplikasi mereka secara langsung dengan pelanggan
dengan memanfaatkan google play atau AppStore, hal ini mengakibatkan
kebutuhan akan akses internet meningkat pesat (2017 Telecommunications Trends
n.d.)
Fenomena diatas sayangnya tidak menjadi kabar baik bagi perusahaan penyedia
jasa telekomunikasi. Revenue utama bagi perusahaan telekomunikasi adalah sms
dan voice (panggilan telepon), peningkatan kebutuhan akses internet berdampak
pada penurunan top revenue yang menjadi faktor penurunan average revenue per
user (ARPU). Selain penurunan revenue, menurut (Huang et al. n.d.) persaingan
ketat antar operator mengakibatkan peningkatan subscriber churn. Di China
perbandingan antara new customer dan churn customer berbanding antara 5,2
dengan 9,4 dimana tingkat churn lebih tinggi.
Customer churn pada industri telekomunikasi adalah perpindahan pelanggan dari

satu operator ke operator lain dengan tujuan mencari harga murah dan layanan
yang lebih baik. Penelitian yang dilakukan (Adebiyi, Oyatoye, and Bolanle 2016)
menyatakan bahwa mempertahankan pelanggan yang sudah ada memiliki biaya
yang lebih murah daripada harus mencari pelanggan baru, untuk itu dibutuhkan
sistem prediksi dari data customer mengenai customer mana yang akan mengalami
churn. Dengan mengurangi 1% tingkat churn dari operator telekomunikasi dapat
meningkatkan profit yang cukup signifikan (Li 2015) (Huang et al. n.d.). Hal ini
4 Universitas Indonesia
5
dapat menguntungkan perusahaan telekomunikasi terkait menurun nya revenue

utama dari SMS dan voice.
Pada makalah ini akan dibahas mengenai implementasi churn prediction dan
revenue retention dengan menggunakan teknologi big data di industri
telekomunikasi. Implementasi churn prediction akan lebih mudah dengan
memanfaatkan karakteristik big data, yaitu: velocity, veracity, variety, velocity dan
value (5V). Yang dimaksud dengan 5V adalah tingkat jumlah training data
(Volume) yang cukup besar dengan berbagai macam jenis data (Variety) yang
datang dari Business Supporting Systems (BSS) dan Operation Supporting System
(OSS) dapat memberikan 96% ketepatan terhadap prediksi churn pada bulan
berikutnya dari churn model sebelum-nya. Hasil yang didapatkan adalah dengan
melakukan Analisa terhadap data dengan rentang waktu 9 bulan dari 2 juta
pelanggan prabayar. Penelitian yang dilakukan oleh (Huang et al. n.d.)
membuktikan bahwa akurasi data dapat ditingkatkan dengan memperbesar data
training.
1.2. Permasalahan
Menurunnya penggunaan pada layanan voice dan sms dari pelanggan jasa
telekomunikasi berdampak pada turunnya revenue dari perusahaan penyedia jasa
telekomunikasi. Hal ini didukung oleh artikel yang dipaparkan pada (2017
Telecommunications Trends n.d.)
Gambar 1-1 Penurunan penggunaan setiap pelanggan

(Sumber: (2017 Telecommunications Trends n.d.))
Universitas Indonesia
6
Error! Reference source not found. adalah representasi dari seluruh penyedia jasa
telekomunikasi di dunia. Dimana terjadi penurunan ARPU dikarenakan setiap
pelanggan saat ini cenderung untuk menggunakan layanan data dari pada voice dan
SMS. Voice dan SMS adalah revenue utama dari penyedia jasa telekomunikasi.
Perusahaan telekomunikasi belomba – lomba memberikan penawaran terbaik untuk
produk data, dengan harapan mempertahankan subscriber lama atau mendapatkan
subscriber baru dengan harapan mereka tidak hanya melakukan transaksi data
tetapi juga voice dan sms.
Persaingan yang ketat antara penyedia jasa layanan telekomunikasi dengan

berbagai promosi dan penawaran untuk mendapatkan subscriber baru berdampak
pada tingginya tingkat subscriber churn (Huang et al. n.d.) dimana churn rate pada
pelanggan pre-paid mencapai 9.4% di China. Sedangkan pada penelitian yang
dilakukan oleh (Ahn, Han, and Lee 2006) churn rate di korea meningkat dari 16.9%
pada tahun 2003 menjadi 20.0% di tahun 2004. Penelitian yang dilakukan oleh Li
(2015) dan Huang et al. n.d. menyatakan bahwa menurunkan 1% churn rate akan
lebih efektif daripada mencari subscriber baru.
Analisis perlu dilakukan untuk mengenali subscriber yang akan churn dan usaha
yang dapat dilakukan untuk mempertahankan subscriber tersebut. Churn prediction
model dibutuhkan sebagai alat untuk membantu analisis. Hasil dari analisis bisa
digunakan sebagai action plan dengan menggunakan retention model, untuk
memberikan penawaran yang sesuai guna mencegah churn terjadi. Dari
permasalahan yang telah dipaparkan dapat diambil kesimpulan permasalahan yang
akan dibahas pada makalah ini antara lain:
1. Bagaimana melakukan identifikasi subscriber yang akan churn?

2. Bagaimana menangani subscriber yang akan churn
1.3. Tujuan Penelitian
Tujuan dari makalah ini adalah memberikan gambaran bagaimana teknologi big
data membantu dalam melakukan identifikasi subscriber yang berpotensi
melakukan churn. Selain identifikasi, makalah ini juga akan membahas mengenai
customer retention dan bagaimana retention system memanfaatkan big data.
7
BAB 2
PEMBAHASAN
Pada bab ini akan dibahas mengenai teori dan model yang digunakan untuk
melakukan identifikasi subscriber churn dan menangani subscriber churn.
2.1. Penggunaan Big Data pada Telekomunikasi
Menurut penelitian yang ditulis oleh (Li 2015) operator telekomunikasi melakukan
transformasi fokus bisnis dari network menjadi data dalam persaingan bisnis
telekomunikasi. Fokus terhadap network merujuk kepada bagaimana operator
telekomunikasi melakukan optimalisasi terhadap network yang disediakan. Fokus
terhadap data merujuk pada bagaimana perusahaan telekomunikasi memfokuskan
bisnis mereka dengan menggunakan Business Intelligence (BI). Pada penelitian
tersebut big data merupakan platform yang digunakan untuk menyimpan data dan
membangun classifier model yang digunakan untuk melakukan analisis terhadap
subscriber.
Merujuk kepada penelitian yang ditulis oleh (Huang et al. n.d.) bahwa perusahaan
telekomunikasi mengelola data dalam jumlah besar setiap harinya. Pada penelitian
tersebut menyatakan bahwa data pada industri telekomunikasi didapatkan melalui
BSS dan OSS yang bekerja secara terpisah. Business Supporting Systems (BSS)
adalah komponen TI utama yang digunakan operator untuk menjalankan operasi
bisnisnya terhadap pelanggan. BSS mendukung empat proses, yaitu: manajemen
produk, manajemen pesanan, manajemen pendapatan, dan manajemen pelanggan.
Operation Supporting Systems (OSS) adalah sistem komputer yang digunakan oleh
penyedia layanan telekomunikasi untuk mengelola jaringan mereka (misalnya:
jaringan seluler). OSS mendukung fungsi manajemen seperti persediaan jaringan,
penyediaan layanan, konfigurasi jaringan, dan manajemen kesalahan. Data yang
didapatkan melalui BSS mencapai 24GB setiap harinya dan data dari OSS
mencapai 2.2TB setiap harinya. Pengelolaan data dalam jumlah besar tentu lebih
sulit dan membutuhkan biaya maintenance yang jauh lebih besar, sehingga
pemanfaatan teknologi big data diharapkan dapat menjawab kebutuhan tersebut.
8
2.1.1. Infrastruktur Telekomunikasi pada Proses Big Data
Pada penelitian yang dilakukan oleh (Li 2015) infrastruktur yang digunakan adalah
dengan menggunakan teknologi cloud computing untuk melakukan efisiensi dan
elastisitas. Infrastruktur yang digunakan pada penelitian tersebut dapat menangani
big data processing termasuk didalam nya aplikasi yang dimiliki oleh perusahaan
telekomunikasi.
Gambar 2-1 Infrastruktur implementasi big data pada Telekomunikasi

(Sumber: (Li 2015))
Infrastruktur yang digunakan pada penelitian tersebut menggunakan IaaS, PaaS,

SaaS dimana seluruh infrastruktur menggunakan cloud. Pada penelitian yang
dilakukan oleh (Huang et al. n.d.) menjelaskan mengenai bagaimana data analytic
tersebut akan di proses melalui platform big data.
9
Gambar 2-2 Gambaran penggunaan big data pada perusahaan telekomunikasi

(Sumber: (Huang et al. n.d.))
Gambar 2-2 adalah gambaran fungsional arsitektur terhadap platform big data.
Dimana big data terletak diantara application layer dan data resource. Prediction
model dan retention system akan dibangun pada layer aplikasi sedangkan source
data dan komputasi dilakukan di dalam platform big data.
Penggunaan telnologi big data pada penelitian (Huang et al. n.d.) menggunakan
Hive dan Spark SQL untuk melakukan sanitasi dan ekstraksi dari berbagai macam
aplikasi yang terdapat pada perusahaan penyedia jasa telekomunikasi. Pada
penelitian tersebut teknologi penyimpanan bukan lagi dalam bentuk relational
database (RDBMS) namun penyimpanan dilakukan pada file system yang disebut
dengan HDFS. Hive dan SparkSQL dapat digunakan untuk melakukan pencarian
data seperti query pada database. Hasil query tersebut disimpan pada RDD
(Resilient Distributer Dataset) dan Hive.
2.2. Random Forest
Algoritma random forest, diperkenalkan oleh Tin Kam Ho pada tahun 1995 yang
merupakan pengembangan dari algoritma bootstrap aggregating (bagging) dan
random feature selection. Pada penelitian yang dilakukan oleh (Scornet n.d.)
10
menyatakan random forest dikenal berhasil sebagai metode yang umum digunakan
untuk klasifikasi. Pendekatan yang dilakukan adalah menggabungkan beberapa
decision trees dan menggabungkan (rata – rata) hasil prediksi mereka. Random
forest telah menunjukkan kinerja yang sangat baik dimana jumlah variabel jauh
lebih besar daripada jumlah observasi. Selain itu, dapat diterapkan pada berbagai
jenis masalah mulai dari skala besar atau pada skala pembelajaran. Berikut adalah
langkah – langkah algoritma random forest (Mambang and Byna 2017):
1. Pilih nilai n yang menunjukkan jumlah pohon
2. Menghasilkan sampel n bootstrap dengan teknik re-sampling training set.
3. Pada setiap node pada tree, pilih nilai F yang diperoleh dari persamaan divawah,
dimana M adalah jumlah total fitur:
F = Log2 (M + 1)
4. Ambil set sebanyak atribut F yang akan menjadi kandidat atribut untuk
membelah setiap node. Atribut yang menjadi simpul berikutnya ditentukan
berdasarkan kriteria tertentu (berdasarkan algoritma pohon keputusan yang
dipilih).
5. RF terus terbentuk tanpa pemangkasan apapun. Hal ini ditunjukkan untuk

menghilangkan bias dalam persentase hasil prediksi.
6. Hasil prediksi yang diperoleh dari model (frekuensi yang paling sering muncul)
dari masing-masing pohon keputusan di RF.
2.3. Subscriber Churn Analysis
Pada sub bab ini akan dijelaskan mengenai model untuk melakukan identifikasi
terhadap subscriber dan model untuk melakukan retention terhadap pelanggan yang
memasuki masa tenggang atau akan berpotensi churn.
2.3.1. Churn Prediction Model
Churn pada industri telekomunikasi merupakan perilaku pelanggan telekomunikasi

yang tidak lagi berlangganan jasa telekomunikasi pada operator. Pada industri ini
11
pelanggan dibagi menjadi 2 jenis prabayar dan pascabayar. Pelanggan prabayar

akan disebut dengan prepaid dan pascabayar akan disebut dengan postpaid.
Pemberhentian berlangganan pada jasa telekomunikasi untuk prabayar atau prepaid
dilakukan apabila pelanggan tersebut tidak lagi melakukan pembayaran sekitar 1-3
bulan setelah pembayaran terakhir. Sedangkan untuk pasca bayar, pelanggan tidak
lagi melakukan pembayaran dibulan selanjutnya setelah tagihan terakhir muncul
atau tergantung kebijakan dari penyedia jasa telekomunikasi dianggap churn,
namun secara garis besar memiliki konsep yang sama.
Prediksi dari churn subscriber dapat dilihat dari personal information pelanggan
tersebut yaitu komplain, penggunaan jasa telekomunikasi (termasuk didalam nya
penggunaan paket data, telepon dan sms), riwayat pembayaran atau pengisian pulsa
dan lain sebagainya. Menurut (Li 2015) teknologi big data sangat memungkinkan
industri telekomunikasi untuk mengumpulkan informasi pribadi pelanggan guna
mengetahui behaviour dari setiap subscriber. Pada bagian ini akan dibahas
mengenai model prediksi terhadap churn subscriber pada perusahaan penyedia jasa
telekomunikasi. Pada penelitian yang dilakukan oleh (Li 2015) model dapat di
dapatkan dari behaviour information sedangkan pada penelitian yang dilakukan
oleh (Ahn, Han, and Lee 2006) subscriber churn di kategorikan menjadi lebih detail.
Pada penelitian tersebut menjelaskan mengenai faktor - faktor yang menyebabkan
churn subscriber diantaranya:
1. Customer dissatisfaction
2. Switching cost
3. Service usage
4. Customer status
Untuk membuat churn prediction model dibutuhkan data real dari subscriber. Pada
penelitian yang dilakukan oleh (Huang et al. n.d.) dilakukan pengembangan dari
churn prediction model sebelum nya dimana precision pada penelitian sebelumnya
meningkat dari 0.68 menjadi 0.96 dengan meningkatkan jumlah data pada data
training dimana data yang digunakan untuk mengembangkan model churn
prediction adalah data 9 bulan sebelum nya. Untuk churn prediction model sebelum
nya dapat dilakukan dengan teknologi database dengan melakukan pengambilan
12
smapel. Untuk meningkatkan hasil presisi dibutuhkan teknologi big data untuk
melakukan penyimpanan data dan pemrosesan data untuk hasil yang lebih presisi.
Pada penelitian yang dilakukan oleh (Li 2015) atribut yang digunakan dalam churn
prediction model diklasifikasikan menjadi 3 kategori yaitu basic information,
billing information dan behaviour information. Sedangkan pada penelitian (Huang
et al. n.d.) attribute yang digunakan untuk melakukan kategori dibagi menjadi 3
bagian yang berbeda yaitu baseline features, CS (circuit switch) features dan PS
(packet switch) features. Untuk baseline features di dapatkan melalui BSS
(Bussiness Support System) seperti account balance, call frequency, call duration,
complaint frequency, data usage, recharge amount dan lain sebagainya. Informasi
ini digunakan untuk melakukan komparasi antara penelitian yang dilakukan nya
dan penelitian sebelumnya dengan vector xm =[x1, ...,xi,... ,xj,...,xN] untuk setiap
customer m. pada penelitian yang dilakukan oleh (Huang et al. n.d.) menggunakan
algoritma unsupervised, semi-supervised dan supervised learning untuk
menghasilan Graph, Topic, dan Second order.
Basic information terdiri dari informasi kapan subscriber menggunakan jasa

telekomunikasi, umur, jenis kelamin, status dan lain sebagainya terkait informasi
pribadi subscriber. Billing information system merupakan sistem yang di proses
setiap bulannya biasanya untuk subscriber postpaid termasuk di dalam nya account
balance, travel fee dan lain sebagainya. Untuk behaviour information di dapatkan
dari customer relationship management system dan call detail records (CDR).
Setelah penentuan atribut penelitian (Li 2015) mengambil 2 attribut yang akan
digunakan untuk membangun churn prediction model sebagai perbandingan
dikatakan M1 sebagai dasar dari prediksi terhadap billing dan kedua menggunakan
basic, billing dan behaviour information sebagai prediksi. seperti yang telah
disebutkan sebelumnya penelitian (Huang et al. n.d.) menggunakan CS dan PS
yang berasal dari Operational support system (OSS). CS merepresentasikan kualitas
layanan suara yang pada penelitian (Li 2015) merupakan bagian dari behaviour
information. Sedangkan PS merepresentasikan kualitas layanan data. Penelitian (Li
2015) yang dilakukan hui menggunakan metode random forest sebagai tools untuk
melakukan klasifikasi. Logistic regression dan metode decision tree juga digunakan
13
sebagai pembanding untuk memastikan performance dari random forest. Pada

penelitian (Huang et al. n.d.) juga menggunakan random forest sebagai classifier
untuk membuat model prediksi
Gambar 2-3 Perbandingan Algoritma

Berdasarkan penelitian yang dilakukan oleh (Huang et al. n.d.) random forest
merupakan model classifier yang memiliki performa paling tinggi diantara
classifier yang lain. Gambar 2-3 merupakan hasil algoritma untuk prediction model
yang telah dilakukan pada penelitian sebelum nya. Pada gambar tersebut pula
menunjukan bahwa random forest memiliki performa yang paling tinggi. Pada
penelitian tersebut dikatakan bahwa random forest menggunakan bootstrap untuk
membentuk decision trees secara seimbang model training data sama dengan
penelitian 1 dengan menggunakan label Ym= {non-churner=1, churner=1}.
Random forest dikatakan tepat diimplementasikan pada decision tree (𝑓𝑡 ) dimana
1≤𝑡≤𝑇
Prediksi label pada vector x merupakan rata-rata dari keseluruhan tree

direpresentasikan pada rumus dibawah ini
𝑇
1
𝑦 = ∑ 𝑓𝑡 (𝑥),
𝑇
𝑡=1
Dimana y adalah subscriber yang melakukan churn. pada penelitian ini akan di
evaluasi mengenai subscriber yang memiliki recharge rate minimum. Untuk
14
decision tree akan secara random memilih subset dari √𝑁 dimana N adalah atribut
yang akan di lakukan split dengan melakukan iterasi terhadap atribut itu sendiri.
Pada penelitian (Li 2015) menggunakan pendekatan batas threshold untuk
melakukan klasifikasi terhadap churners dan non-churners. Untuk threshold diatas
0.5 dikategorikan sebagai churners dan dibawahnya sebagai non-churners. Dengan
informasi yang telah dirancang dapat diambil kesimpulan apakah faktor-faktor
tersebut mempengaruhi tingkat akurasi dari prediction model atau tidak, jika
berpengaruh seberapa besar pengaruh dari akurasi tersebut. Untuk penelitian ini
dibahas mengenai pengaruh subscriber yang melakukan churn terhadap neigbour
atau oranf disekitarnya. Pada makalah ini akan fokus kepada churn model yang
dihasilkan. Spliting akan dilakukan dengan menggunakan Gini improvement I(.)
untuk menentukan dimana akan dilakukan pemecahan dari xMxN,
p1 adalah probabilitas terhadap churner dan p2 adalah probabilitas terhadap non-

churner pada group G(.) yang merupakan indeks untuk group subscriber. Setiap
atribut akan di evaluasi dan ditentukan split point dan menemukan maximum Gini
Improvement. Maximum I adalah node dari tree dan attribute lain dari RF akan
membentuk 500 tree dengan minimum sample node 100 untuk menghindari over
fitting. Proses splitting akan dihentikan apabila individual nodes kurang dari 100.
Setelah dilakukan RF training di simpulkan bahwa importance value dari setiap

atribut dengan menambahkan Gini Improvement pada setiap node nya
𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑒𝑖 = ∑ ∑ 𝐼(𝑥1:𝑀𝑖 )
𝑡=1 𝑃𝑖 ∈𝑡𝑟𝑒𝑒𝑡
2.3.2. Customer Retention
Pada penelitian yang dilakukan oleh (Adebiyi, Oyatoye, and Bolanle 2016)
menyatakan bahwa subscriber retention atau customer retention merupakan
15
bagian dari customer relationship management (CRM) yang bertujuan

untuk menciptakan dan membangun hubungan dengan pelanggan dengan
tujuan meningkatkan nilai dari pelanggan dan meningkatkan profit bagi
perusahaan. Pada penelitian (Ahmad et al. 2015) mendefinisikan subscriber
retention sebagai usaha atau proses yang dilakukan oleh perusahaan untuk
memperoleh loyalitas dan memastikan pelanggan kembali membeli (re-
purchase) produk atau jasa yang ditawarkan.
Kedua penelitian sebelumnya (Adebiyi, Oyatoye, and Bolanle 2016)
(Ahmad et al. 2015) sependapat bahwa biaya yang dibutuhkan untuk
memperoleh pelanggan baru jauh lebih besar daripada biaya yang
dikeluarkan untuk mempertahankan pelanggan lama. Beberapa nilai yang
diperoleh perusahaan melalui sistem subscriber retention antara lain:
a. Mengurangi kebutuhan untuk memperoleh pelanggan baru dan
pelanggan dengan potensi resiko yang besar, dimana dapat fokus kepada
kebutuhan pelanggan yang ada saat ini
b. Pelanggan lama cenderung melakukan transaksi dan membeli produk
lebih banyak
c. Pendapat positif dari pelanggan lama merupakan cara yang baik untuk
memperoleh pelanggan baru
d. Pelanggan lama cenderung kurang sensitif dengan pemasaran yang
dilakukan kompetitor
e. Pelanggan cenderung mengingat dan membicarakan pengalaman
pelayanan buruk yang dialami kepada orang lain yang dapat merusak
citra perusahaan
Penyedia layanan komunikasi perlu mengenali karakteristik dari subscriber

churn, layanan yang ada dipasaran, dan apa yang memotivasi mereka untuk
tetap berlangganan atau beralih ke kompetitor dengan layanan serupa atau sama.
Prediction model nantinya akan memetakan karakteristik subscriber churn
dengan program atau penawaran yang sesuai.
16
2.3.3. Customer Retention Model
Penelitian yang dilakukan oleh (Huang et al. n.d.) menyatakan bahwa operator
telekomunikasi memandang hubungan antara retention system dan churn’s
prediction model sebagai loop tertutup. Hal ini dikarenakan operator tidak
hanya peduli dengan subscriber churn tetapi juga program atau jenis promosi
apa yang tepat dilakukan untuk mempertahankan pelanggan yang berpotensi
pindah atau menggunakan operator lain. Operator memiliki banyak layanan
dan bentuk promosi yang akan ditawarkan kepada pelanggan yang berpotensi
melakukan subscriber churn. Sebelumnya, operator melakukan pemetaan
terhadap promosi atau program yang perlu dilakukan secara manual
berdasarkan pegetahuan umum yang dimiliki namun memperoleh hasil yang
kurang efektif dan akurat. Berdasarkan pemaparan sebelumnya dibutuhkan
sebuah retention system otomatis yang dapat digunakan untuk mencocokkan
penawaran dengan subscriber churner yang potensial.
Berdasarkan penelitian yang dilakukan oleh (Huang et al. n.d.), subscriber

churner yang potensial Xm akan diklasifikasikan kedalaam beberapa sub-
kategori yang berisi penawaran dan promosi Ym = {0,1,2,…C-1} dimana Ym =
0 berarti pelanggan tersebut tidak menerima penawaran apapun. Retention
system classifier dilatih menggunakan Random Forest untuk melakukan
klasifikasi multi kategori. Retention classifier akan diupdate apabila campaign
result tersedia. Selain classifier, algoritma label propagation dilakukan pada
campaign result Ym kepada call graph, message graph dan co-occurrence
graph yang akan digunakan dalam proses training dan classification.
Gambar 2-4 Retention System

17
Pada Gambar 2-4 digambarkan bahwa classifiers akan melakukan pemetaan

atau prediction promosi atau penawaran apa yang sesuai dengan pelanggan
yang berpotensi untuk melakukan churn. Hasil dari penawaran campaign
results akan digunakan untuk memperbaharui retention system classifier dan
menambah atau memperbaharui label kategori yang digunakan pada proses
training.
18
BAB 3
IMPLEMENTASI DAN HASIL
Pelanggan prabayar dianggap sebagai churner apabila tidak melakukan pengisian

pulsa dalam rentang 15 hari pada recharge period atau masa tenggang. Data
pelanggan churner dan non-churner yang dikumpulkan oleh (Huang, et al., 2015)
selama sembilan bulan memperlihatkan bahwa jumlah pelanggan non-churner
sekitar 9,2 % dari total pelanggan secara keseluruhan. Meskipun jumlah pelanggan
churner tergolong banyak, tetapi total pelanggan dari bulan ke bulan relatif sama.
Hal ini menunjukkan bahwa setiap bulan jumlah pelanggan baru hampir sama
dengan jumlah pelanggan churner. Biaya yang dibutuhkan untuk mengakusisi
pelanggan baru adalah sekitar tiga kali biaya yang dikeluarkan untuk
mempertahankan pelanggan sehingga terdapat nilai bisnis yang besar dari sistem
churn predicition and retention model.
Penelitian yang dilakukan oleh (Huang, et al., 2015) menggunakan rentang waktu
empat bulanan. Sedangkan pada penelitian (Li 2015) menggunakan rentang waktu
Sembilan bulan. Churn clasifier dibangun dari data pada bulan N-1. Kemudian data
bulan N dimasukkan ke dalam clasifier untuk melakukan prediksi yang hasilnya
diurutkan dari pelanggan potensinya paling tinggi untuk churn sampai paling
rendah. Kemudian pelanggan yang berpotensi churn pada bulan N+1 dibagi secara
acak menjadi dua kelompok, yaitu kelompok yang mendapatkan retention
campaign dan kelompok yang tidak mendapatkan perlakuan apapun. Evaluasi dari
prediksi churn dan retention dilakukan pada bulan N+2. Hasil dari retention
campaign digunakan sebagai label untuk melatih retention clasifier
mengklasifikasikan churner potensial ke dalam beberapa retention strategy.
Clasifier yang dihasilkan akan digunakan pada rentang waktu empat bulanan
berikutnya dengan urutan proses yang sama. Gambar di bawah ini menunjukkan
proses penelitian tersebut.
19
Gambar 3-1 Proses Penelitian dalam Siklus Empat Bulanan

Hasil dari sistem prediksi churn berupa daftar pelanggan non-churner pada bulan
ini yang berpeluang besar menjadi pelanggan churner pada bulan berikutnya.
Jumlah pelanggan dalam daftar tersebut didenotasikan sebagai U. Hasil ini
kemudian dievaluasi berdasarkan nilai recall (R@U), precision (P@U), area di
bawah kurva Receiver Operating Characteristics (AUC), dan area di bawah kurva
precision-recall (PR-AUC) (Huang, et al., 2015). Penambahan jumlah pelanggan
dalam U akan menambah nilai recall tetapi mengurangi precision. Nilai recall
untuk U didenotasikan sebagai berikut:
Sedangkan nilai precision didefinisikan sebagai berikut:
Hasil evaluasi prediksi customer churn dapat dilihat pada tabel 1. Tabel tersebut
menunjukkan nilai R@U, P@U, AUC, dan PR-AUC dengan menggunakan 150
fitur dan akumulasi data empat bulan yang telah dijelaskan di atas.
20
Tabel 3.1 Performa Sistem Prediksi Customer Churn
Salah satu sisi positif dari penelitian (Huang, et al., 2015) adalah peneliti mengakui
bahwa perbandingan antara data churn dan non-churn tidak seimbang sehingga
matriks PR-AUC lebih baik digunakan daripada matriks AUC. Walaupun dalam
hasil penelitian tetap dituliskan kedua matriks tersebut. Penelitian ini juga
menyinggung metode untuk menangani ketidakseimbangan dalam data, yaitu not
balanced, up sampling, down sampling, dan weighted instance. Hasil prediksi
setelah data diterapkan empat metode tersebut dapat dilihat pada tabel 2. Namun,
sayangnya tidak dijelaskan berapa jumlah U yang diambil, jumlah fitur yang
digunakan, dan jumlah data yang digunakan sehingga menghasilkan nilai pada tabel
tersebut. Jika kita bandingkan antara tabel 1 dan tabel 2 terlihat bahwa kedua tabel
memiliki nilai yang berbeda, sehingga apakah penerapan metode untuk data
imbalance akan memperbaiki performa sistem prediksi atau tidak. Penelitian
(Huang, et al., 2015) hanya mencari metode mana yang terbaik tanpa melihat
apakah metode tersebut perlu dilakukan atau tidak.
Tabel 3.2 Performa Sistem Prediksi dengan Berbagai Metode Untuk Data Imbalance
Penelitian lain yang berkaitan dengan (Huang, et al., 2015) adalah penelitian (Xie,
Li, Ngai, & Ying, 2009) mengenai prediksi customer churn perbankan
menggunakan improved balance random forests dan penelitian (Lu, 2002)
mengenai prediksi customer churn dalam industri telekomunikasi menggunakan
21
Survival Analysis Modeling dengan SAS. Hal yang menarik dari kedua penelitian
tersebut, evaluasi hasil prediksi menggunakan lift yang tidak disebutkan sama sekali
dalam penelitian (Huang, et al., 2015).
(Huang, et al., 2015) mendeskripsikan potensi keuntungan yang dapat diperoleh

dari penggunaan sistem prediksi customer churn dan retention campaign. Pada
bulan kedelapan dan kesembilan, hasil dari sistem prediksi yang berupa daftar
pelanggan dengan pelanggan yang paling mungkin churn diambil subset yang
terdiri dari top 5 x 104 dan top 5 x 104 ~ 1 x 105. Subset tersebut dikelompokkan
secara acak menjadi grup A dan B. Tabel 3 menunjukkan pembagian tersebut.
Tabel 3.3 Nilai Bisnis dari Sistem Prediksi Customer Churn
Pada grup A tidak dilakukan retention campaign, sedangkan pada grup B dilakukan
retention campaign. Dalam grup A terlihat bahwa persentase pelanggan yang
melakukan isi ulang dalam periode 15 hari masa tenggang atau pelanggan yang
tidak jadi churn sangat rendah. Persentase pelanggan yang tidak jadi churn dalam
subset top 5 x 104 di grup A hanya 1,68% pada bulan kedelapan dan 1,04% pada
bulan kesembilan. Hal ini menunjukkan sistem prediksi memiliki akurasi yang
tinggi. Tabel 3 grup B memperlihatkan bahwa retention campaign pada pelanggan
yang berpotensi churn berpengaruh besar mencegah pelanggan untuk churn.
Jumlah pelanggan yang tidak jadi churn dalam subset top 5 x 104 sebesar 18.49%
pada bulan kedelapan dan 30,77% pada bulan kesembilan.
22
BAB 4
KESIMPULAN
Dari pemaparan yang telah dilakukan melalui penelitian-penelitian sebelumnya

dapat disimpulkan bahwa:
 Dewasa ini fokus dari perusahaan telekomunikasi selain terhadap kualitas

jaringan juga kepada bagaimana data dengan menggunakan business
intelligent untuk menangkap insight dari behavior data subscriber.
 Penerapan teknologi big data pada perusahaan telekomunikasi adalah
selain penyimpanan data dalam skala besar juga dapat digunakan sebagai
subscriber churn analysis dan bagaimana menanggulanginya dengan
menggunakan retention system.
 Metodologi yang digunakan pada pembahasan makalah ini adalah algoritma
random forest yang digunakan untuk melakukan klasifikasi, yang terdiri
dari banyak decision tree.
 Penentuan churn subscriber dengan menggunakan algoritma random forest
dinilai efektif
 Retention campaign pada pelanggan yang berpotensi churn berpengaruh
besar mencegah pelanggan untuk churn.
 Dari pemaparan yang telah disebutkan big data dapat digunakan sebagai
platform untuk komputasi dalam perancangan model subscriber churn. Dan
teknologi big data juga dapat digunakan sebagai solusi untuk
mempertahankan subscriber.
DAFTAR PUSTAKA
“2017 Telecommunications Trends.”

https://www.strategyand.pwc.com/trend/2017-telecommunications-industry-
trends.
Adebiyi, Sulaimon Olanrewaju, Emmanuel Olateju Oyatoye, and Bilqis Bolanle.

2016. “Relevant Drivers for Customers ` Churn and Retention Decision in the
Nigerian Mobile Telecommunication Industry.” 8(3): 52–67.
Ahmad, Farid et al. 2015. “Factors Affecting Customer Retention in Telecom

Sector of Pakistan Factors Affecting Customer Retention in Telecom Sector
of Pakistan.” (July).
Ahn, Jae-hyeon, Sang-pil Han, and Yung-seop Lee. 2006. “Customer Churn
Analysis : Churn Determinants and Mediation Effects of Partial Defection in
the Korean Mobile Telecommunications Service Industry.” 30: 552–68.
Huang, Yiqing et al. “Telco Churn Prediction with Big Data.” : 607–18.
Li, Hui. 2015. “Enhancing Telco Service Quality with Big Data Enabled Churn
Analysis : Infrastructure , Model , and Deployment.” 30(6): 1201–14.
Lu, J. 2002. Predicting Customer Churn in the Telecommunications Industry –– An

Application of Survival Analysis Modeling Using SAS. SAS User Group
International (SUGI27) Online Proceedings.
Mambang, and Agus Byna. 2017. “DENGAN CHAID DECISION TREE UNTUK
KLASIFIKASI.” : 103–8.
Scornet, Erwan. “A Random Forest Guided Tour.” : 1–35.
Xie, Y., Li, X., Ngai, E. W., & Ying, W. (2009). Customer churn prediction using
improved balanced random forests. Expert Systems with Applications, 36(3),
5445-5449.
23 Universitas Indonesia

Case Study - PDB - Kelompok 8 (Makalah)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Case Study - PDB - Kelompok 8 (Makalah)

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSITAS INDONESIA

PENERAPAN BIG DATA PADA INDUSTRI TELEKOMUNIKASI UNTUK

Tugas Case Studi Pengolahan Data Besar

Abhiyasa Suta Bhumikapala 1606858680

PROGRAM STUDI MAGISTER TEKNOLOGI INFORMASI

DAFTAR ISI ........................................................................................................... i

DAFTAR GAMBAR ............................................................................................. ii

DAFTAR TABEL ................................................................................................ iii

BAB 1 PENDAHULUAN ..................................................................................... 4

BAB 2 PEMBAHASAN ........................................................................................ 7

BAB 3 IMPLEMENTASI DAN HASIL............................................................ 18

BAB 4 KESIMPULAN ....................................................................................... 22

DAFTAR PUSTAKA .......................................................................................... 23

Gambar 1-1 Penurunan penggunaan setiap pelanggan ........................................... 5

iii Universitas Indonesia

1.1. Latar Belakang

Perkembangan industri telekomunikasi yang pesat dewasa ini menuntut kebutuhan

Customer churn pada industri telekomunikasi adalah perpindahan pelanggan dari

dapat menguntungkan perusahaan telekomunikasi terkait menurun nya revenue

Gambar 1-1 Penurunan penggunaan setiap pelanggan

Persaingan yang ketat antara penyedia jasa layanan telekomunikasi dengan

1. Bagaimana melakukan identifikasi subscriber yang akan churn?

1.3. Tujuan Penelitian

2.1. Penggunaan Big Data pada Telekomunikasi

2.1.1. Infrastruktur Telekomunikasi pada Proses Big Data

Gambar 2-1 Infrastruktur implementasi big data pada Telekomunikasi

Infrastruktur yang digunakan pada penelitian tersebut menggunakan IaaS, PaaS,

Gambar 2-2 Gambaran penggunaan big data pada perusahaan telekomunikasi

2.2. Random Forest

1. Pilih nilai n yang menunjukkan jumlah pohon

2. Menghasilkan sampel n bootstrap dengan teknik re-sampling training set.

5. RF terus terbentuk tanpa pemangkasan apapun. Hal ini ditunjukkan untuk

2.3. Subscriber Churn Analysis

2.3.1. Churn Prediction Model

Churn pada industri telekomunikasi merupakan perilaku pelanggan telekomunikasi

pelanggan dibagi menjadi 2 jenis prabayar dan pascabayar. Pelanggan prabayar

Basic information terdiri dari informasi kapan subscriber menggunakan jasa

sebagai pembanding untuk memastikan performance dari random forest. Pada

Gambar 2-3 Perbandingan Algoritma

Prediksi label pada vector x merupakan rata-rata dari keseluruhan tree

p1 adalah probabilitas terhadap churner dan p2 adalah probabilitas terhadap non-

Setelah dilakukan RF training di simpulkan bahwa importance value dari setiap

2.3.2. Customer Retention

bagian dari customer relationship management (CRM) yang bertujuan

Penyedia layanan komunikasi perlu mengenali karakteristik dari subscriber

2.3.3. Customer Retention Model

Berdasarkan penelitian yang dilakukan oleh (Huang et al. n.d.), subscriber

Gambar 2-4 Retention System

Pada Gambar 2-4 digambarkan bahwa classifiers akan melakukan pemetaan

Pelanggan prabayar dianggap sebagai churner apabila tidak melakukan pengisian

Gambar 3-1 Proses Penelitian dalam Siklus Empat Bulanan

Sedangkan nilai precision didefinisikan sebagai berikut:

Tabel 3.1 Performa Sistem Prediksi Customer Churn

(Sumber: (Huang et al. n.d.))

(Sumber: (Huang et al. n.d.))

(Huang, et al., 2015) mendeskripsikan potensi keuntungan yang dapat diperoleh

Tabel 3.3 Nilai Bisnis dari Sistem Prediksi Customer Churn

(Sumber: (Huang et al. n.d.))

Dari pemaparan yang telah dilakukan melalui penelitian-penelitian sebelumnya

 Dewasa ini fokus dari perusahaan telekomunikasi selain terhadap kualitas

“2017 Telecommunications Trends.”

Adebiyi, Sulaimon Olanrewaju, Emmanuel Olateju Oyatoye, and Bilqis Bolanle.

Ahmad, Farid et al. 2015. “Factors Affecting Customer Retention in Telecom