Anda di halaman 1dari 28

Klasifikasi Pelanggan dengan Algoritme Pohon Keputusan

dan Pendugaan Peluang Pelanggan yang Merespons


Penawaran dengan Regresi Logistik

SIAP 16
Yuandri Trisaputra Oktarina Safar Nida
Y O G YA K A R TA , 2 7 O K T O B E R 2 0 1 5
CONTENT
1• Latar Belakang
2• Metode
3• Tujuan dan Manfaat
4• Teknik Praprosesing
5• Teknik Data Mining
6• Tools
7• Algoritme
8• Model
9
• Simpulan
SIAP 16
L ATAR
BEL AK ANG
SIAP 16
Latar Belakang
Fitur
Pelanggan

VAR_0001

VAR_0002
Klasifikasi
VAR_0003 dan
Pendugaan
VAR_0004 Peluang

.
. Respons Ya (1)
Pelanggan . Atau
. Respons Tidak (0)
VAR_1932

VAR_1933

VAR_1934
SIAP 16
METODE
SIAP 16
Metode

Praproses Data
- Split Data Klasifikasi
- Sampling - Pohon Keputusan Data Test
- Pemilihan Variabel

Data Set
Pendugaan Peluang
- Regresi Logistik

Data Train

Predicted
Model

SIAP 16
TUJUAN DAN
M A N FA AT
SIAP 16
Tujuan dan Manfaat

Menerapkan teknik klasifikasi pohon keputusan


T untuk mengklasifikasi pelanggan yang akan
merespon penawaran.

Melakukan pendugaan peluang target pelanggan


T dengan fitur-fitur tertentu yang merespon
penawaran.

M
Membantu perusahan agar mudah dan cepat untuk
menentukan pelanggan yang merespon penawaran

SIAP 16
P RA P ROS ES
SIAP 16
Praproses

Split Data
• Dari 144673 baris pada Data Set dibagi menjadi beberapa bagian dengan masing-
masing 10000 baris.
• Setiap bagian file dilakukan penyesuaian format csv.
• Mengatasi missing value (NA, 9999, -1, -9999)

Sampling
• Untuk mengurangi dimensi pelanggan dilakukan simple random sampling dengan
𝑁
e = 0.05, menghasilkan 399 observasi dengan metode slovini (𝑛 = 1+(𝑁𝑒 2 )).

Pemilihan Variabel
• Untuk mengurangi dimensi fitur yang akan digunakan metode subSetEval
dengan pencarian bestFirst, menghasilkan 24 fitur. Dari 24 fitur di reduksi
kembali menjadi 20 fitur dengan melakukan observasi statistik deskriptif dari
setiap variabel.

SIAP 16
TEKNIK DATA
MINING
SIAP 16
Teknik Data Mining

KLASIFIKASI
• Klasifikasi data baru dari classifier yang dibentuk dari data latih

PENDUGAAN PELUANG “YA” PADA


PENAWARAN
• Alat statistik untuk menentukan peluang pelanggan
mengatakan ya pada penawaran (target nilai 1).

SIAP 16
A LG ORITME
SIAP 16
Algoritme

• Algoritme untuk membentuk pohon


Algoritme J48 keputusan yang digunakan untuk klasifikasi.

• Model regresi dengan peubah respon


kategorik biner
Regresi • Model Logit pada regresi logistic adalah:
Logistik Biner •𝜋 𝑥 =
exp(𝛽+𝛽𝑥1+⋯…+𝛽𝑥𝑝)
1+ exp(𝛽+𝛽𝑥1+⋯…+𝛽𝑥𝑝)

SIAP 16
TOOLS
SIAP 16
Tools

Emeditor Microsoft Weka versi IBM SPSS versi


Excel 2013 3.6.20 21.0

SIAP 16
MOD EL
SIAP 16
Model

DATA TRAIN

Data train, hasil dari pra proses data digunakan untuk membuat classifier dan model
pendugaan peluang. Data train terdiri atas 399 observasi dan 21 Fitur. Fitur tersebut, yaitu
VAR_0034, VAR_0060, VAR_0062, VAR_0212, VAR_0331, VAR_0362, VAR_0503, VAR_0542,
VAR_0624, VAR_0758, VAR_0807, VAR_0915, VAR_0947, VAR_1015, VAR_1020, VAR_1023,
VAR_1027,VAR_1032,VAR_1385,VAR_1502.

SIAP 16
Model

CLASSIFIER J48
Proses klasifikasi menggunakan algoritma pohon
keputusan J48 dan dijalankan pada software Weka.
Parameter yang digunakan pada Weka yaitu faktor
kepercayaan / confidenceFactor = 0.05 dan
minimal banyaknya objek / minNumObj = 2.
dengan melakukan test cross validation fold = 10.

Dari total instance/objek atau pelanggan yang


berjumlah 399, terdapat 78.1955% data
diklasifikasikan secara benar dan 21.8045% data
diklasifikasikan tidak benar.

SIAP 16
Model

CONFUSION MATRIKS

Dimana:
A=0
B=1

Sebanyak 272 data kelas A benar diklasifikasi class A, 40 data


kelas B benar diklasifikasi class B. Sedangkan terdapat 70 data
B salah diklasifikasi class A dan 17 data kelas A salah
diklasifikasi class B.

SIAP 16
Model

POHON KEPUTUSAN (CLASSIFIER)

Hanya 11 variabel yang menjadi node keputusan, yaitu: VAR_1027, VAR_0034,


VAR_1015, VAR_0759, VAR_503, VAR_1015, VAR_0915, VAR_0947, VAR_0212,
VAR_1385. Variabel “VAR_1027” sebagai root dan variabel lainnya menjadi node
cabangnya.

SIAP 16
Model

ATURAN KEPUTUSAN
• Jika VAR_1027 <= 0 dan VAR_0034 <= 1, maka diklasifikasikan sebagai kelas A
• Jika VAR_1027 <= 0 dan VAR_0034 >1 dan VAR_0758 > 4, maka diklasifikasikan sebagai kelas B
• Jika VAR_1027 <= 0 dan VAR_1015 <= 1 dan VAR_0758 <= 4, maka diklasifikasikan sebagai kelas A
• Jika VAR_1027 <= 0 dan VAR_1015 <= 1 dan VAR_0758 > 4, maka diklasifikasikan sebagai kelas B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_1015 <= 0, A
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_1015 > 0 dan VAR_0915>11, B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_1015 > 0 dan VAR_0915<=11 dan VAR_0947 = T, B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_1015 > 0 dan VAR_0915<=11 dan VAR_0947 = F dan
VAR_1027>1, B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_1015 > 0 dan VAR_0915<=11 dan VAR_0947 = F dan
VAR_1027<=1, A
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_0202>51529101604, B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_0202<=51529101604 dan VAR_1305<=35, B
• Jika VAR_1027 > 0 dan VAR_503=F dan VAR_0202<=51529101604 dan VAR_1305>35, A

SIAP 16
Model

MODEL REGRESI LOGISTIK BINER

0.054x1𝑉𝑎𝑟_1502 𝑥0.995𝑣𝑎𝑟_1385 𝑥 … . 𝑥1.462𝑉𝑎𝑟_0034


𝜋 𝑥 =
1 + ( 0.054x1𝑉𝑎𝑟1502 𝑥0.995𝑣𝑎𝑟1385 𝑥 … . 𝑥1.462𝑉𝑎𝑟0034 )

SIAP 16
Model

Hosmer and Lemeshow Test

H0 : Tidak ada perbedaan klasifikasi yang diprediksi dan


diamati (Model layak digunakan)
Hosmer and Lemeshow Test H1 : Ada perbedaan klasifikasi yang diprediksi dan diamati

Step Chi-square df Sig.


1 6.880 8 .550

sig > 0.05


Terima H0  Model layak digunakan

REGRESI LOGISTIK BINER


SIAP 16
Model

Classification Table

Predicted
target
Percentage
Observed 0 1 Correct

Step 1 target 0 275 14 95.2


1 62 48 43.6
Overall
Percentage 81.0
a.The cut value is .500

Model memberikan keakuratan


sebanyak 81% dari data sample

REGRESI LOGISTIK BINER


SIAP 16
S IMP UL AN
SIAP 16
Simpulan

Teknik klasifikasi dapat diterapkan untuk mengklasifikasikan pelanggan


baru dengan aturan-aturan yang dihasilkan dari klasifikasi menggunakan
pohon keputusan dengan akurasi yang didapat sekitar 78%.
Model logit yang terbentuk adalah:
0.054x1𝑉𝑎𝑟_1502 𝑥0.995𝑣𝑎𝑟_1385 𝑥 … . 𝑥1.462𝑉𝑎𝑟_0034
𝜋 𝑥 =
1 + ( 0.054x1𝑉𝑎𝑟1502 𝑥0.995𝑣𝑎𝑟1385 𝑥 … . 𝑥1.462𝑉𝑎𝑟0034 )
Model ini layak dan memiliki nilai keakuratan sebesar 81%

SIAP 16
THANK YOU

SIAP 16

Anda mungkin juga menyukai