Anda di halaman 1dari 18

Pada masalah klasifikasi terdapat 2 jenis variabel, yaitu target variable (yang menunjukkan sebuah objek masuk

dalam kategori yang mana), dan variabel prediktor (yaitu data para objek yang akan dijadikan dasar untuk
memprkirakan objek tersebut masuk kelompok mana

Terdapat 2 jenis algoritma untuk memecahkan masalah klasifikasi, yaitu CART (Classification and Regression
Trees) yang selalu bercabang dua, dan C4.5 (yang dapat bercabang 2 atau lebih, tergantung candidate list yang
dirancang)

Berikut ini adalah contoh pelaksanaan algoritma CART

Training Data

Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk Ingin menebak resiko kredit
F High High 25 Good berdasarkan savings, asset, income seorang nasabah
A Medium High 75 Good
G Low Low 25 Bad Resiko kredit = target variable
B Low Low 50 Bad
C High Medium 25 Bad asset, income, saving predictor variable
D Medium Medium 50 Good
H Medium Medium 75 Good
E Low Medium 100 Good

L_1: Susunlah atau rancanglah candidate split


Kandidiat split adalah seperti pada tabel 6.3

L-2 Menghitung performansi setiap calon cabang


Split PL PR PjTL PjTR 2PL*PR Qst Psi
1 0.375 0.625 Good 0.3333 0.8000 0.4688 0.9333 0.4375
Bad 0.6667 0.2000
2 0.375 0.625 Good 1.0000 0.4000 0.4688 1.2000 0.5625
Bad 0.0000 0.6000
3 0.25 0.75 Good 0.5000 0.6667 0.3750 0.3333 0.1250
Bad 0.5000 0.3333
4 0.25 0.75 Good 0.0000 0.8333 0.3750 1.6667 0.6250
Bad 1.0000 0.1667
5 0.5 0.5 Good 0.7500 0.5000 0.5000 0.5000 0.2500
Bad 0.2500 0.5000
6 0.25 0.75 Good 1.0000 0.5000 0.3750 1.0000 0.3750
Bad 0.0000 0.5000
7 0.375 0.625 Good 0.3333 0.8000 0.4688 0.9333 0.4375
Bad 0.6667 0.2000
8 0.625 0.375 Good 0.4000 1.0000 0.4688 1.2000 0.5625
Bad 0.6000 0.0000
9 0.875 0.125 Good 0.5714 1.0000 0.2188 0.8571 0.1875
Bad 0.4286 0.0000

L-3
cabang ke-4 adalah calon cabang yang akan menjadi cabang
Customer Savings Asset Income Credit Risk
F High High 25 Good
C High Medium 25 Bad
E Low Medium 100 Good
A Medium High 75 Good
D Medium Medium 50 Good
H Medium Medium 75 Good

L-2 Menghitung performansi setiap calon cabang yang belum berfungsi

Split PL PR PjTL PjTR 2PL*PR Qst Psi


1 0.166667 0.833333 Good 1.0000 0.8000 0.2778 0.4000 0.1111
Bad 0.0000 0.2000
2 0.5 0.5 Good 1.0000 0.6667 0.5000 0.6667 0.3333
Bad 0.0000 0.3333
3 0.333333 0.666667 Good 0.5000 1.0000 0.4444 1.0000 0.4444 *
Bad 0.5000 0.0000
4

5 0.666667 0.333333 Good 0.7500 1.0000 0.4444 0.5000 0.2222


Bad 0.2500 0.0000
6 0.333333 0.666667 Good 1.0000 0.7500 0.4444 0.5000 0.2222
Bad 0.0000 0.2500
7 0.333333 0.666667 Good 0.5000 1.0000 0.4444 1.0000 0.4444 *
Bad 0.5000 0.0000
8 0.5 0.5 Good 0.6667 1.0000 0.5000 0.6667 0.3333
Bad 0.3333 0.0000
9 0.833333 0.166667 Good 0.8000 1.0000 0.2778 0.4000 0.1111
Bad 0.2000 0.0000

L-3 Pilih calon cabang-3 sebagai cabang sesungguhnya


Customer Savings Asset Income Credit Risk
F High High 25 Good
C High Medium 25 Bad

L-2 Menghitung performansi setiap calon cabang yang belum berfungsi

Split PL PR PjTL PjTR 2PL*PR Qst Psi


1 0 1 Good 0.0000 0.5000 0.0000 1.0000 0.0000
Bad 0.0000 0.5000
2 0 1 Good 0.0000 0.5000 0.0000 1.0000 0.0000
Bad 0.0000 0.5000
3

5 0.5 0.5 Good 0.0000 1.0000 0.5000 2.0000 1.0000 *


Bad 1.0000 0.0000
6 0.5 0.5 Good 1.0000 0.0000 0.5000 2.0000 1.0000
Bad 0.0000 1.0000
7 1 0 Good 0.5000 0.0000 0.0000 1.0000 0.0000
Bad 0.5000 0.0000
8 1 0 Good 0.5000 0.0000 0.0000 1.0000 0.0000
Bad 0.5000 0.0000
9 1 0 Good 0.5000 0.0000 0.0000 1.0000 0.0000
Bad 0.5000 0.0000

L-3 Pilih calon cabang-5 sebagai cabang sesungguhnya


me seorang nasabah
selisih abs(selisih)
-0.4667 0.4667
0.4667 0.4667
0.6000 0.6000
-0.6000 0.6000
-0.1667 0.1667
0.1667 0.1667
-0.8333 0.8333
0.8333 0.8333
0.2500 0.2500
-0.2500 0.2500
0.5000 0.5000
-0.5000 0.5000
-0.4667 0.4667
0.4667 0.4667
-0.6000 0.6000
0.6000 0.6000
-0.4286 0.4286
0.4286 0.4286
selisih abs(selisih)
0.2000 0.2000
-0.2000 0.2000
0.3333 0.3333
-0.3333 0.3333
-0.5000 0.5000
0.5000 0.5000

-0.2500 0.2500
0.2500 0.2500
0.2500 0.2500
-0.2500 0.2500
-0.5000 0.5000
0.5000 0.5000
-0.3333 0.3333
0.3333 0.3333
-0.2000 0.2000
0.2000 0.2000
selisih abs(selisih)
-0.5000 0.5000
-0.5000 0.5000
-0.5000 0.5000
-0.5000 0.5000

-1.0000 1.0000
1.0000 1.0000
1.0000 1.0000
-1.0000 1.0000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
Pada masalah klasifikasi terdapat 2 jenis variabel, yaitu target variable (yang menunjukkan sebuah objek
masuk dalam kategori yang mana), dan variabel prediktor (yaitu data para objek yang akan dijadikan dasar
untuk memprkirakan objek tersebut masuk kelompok mana

Terdapat 2 jenis algoritma untuk memecahkan masalah klasifikasi, yaitu CART (Classification and Regression
Trees) yang selalu bercabang dua, dan C4.5 (yang dapat bercabang 2 atau lebih, tergantung candidate list
yang dirancang)

Berikut ini adalah contoh pelaksanaan algoritma C4.5

Training Data

Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk Ingin menebak resiko kredit
A Medium High 75 Good berdasarkan savings, asset, income seorang nasaba
B Low Low 50 Bad
C High Medium 25 Bad Resiko kredit = target variable
D Medium Medium 50 Good
E Low Medium 100 Good asset, income, savingpredictor variable
F High High 25 Good
G Low Low 25 Bad
H Medium Medium 75 Good

L_1: Susunlah atau rancanglah candidate split


Kandidiat split adalah seperti pada tabel 6.6

L-2 Menghitung entropi sebelum pencabangan

Saat ini kita berhadapan dengan Root Node yang mengandung 8 rekord, yang berdasarkan target variable, 3 diantaranya
bad risk, 5 diantaranya good risk

Entropi dari Root Node ini adalah:


Risk Freq Pj log2 Pj -Pj*log2 Pj
Bad 3 0.375 -1.41504 0.530639
Good 5 0.625 -0.67807 0.423795
Total 8 H(T)= 0.954434
Candidate split Child Nodes Good Bad P(good) P(bad) -P(good)*log2 P(good)
1 Savings=low 1 2 0.333333 0.666667 0.5283208336
Savings= medium 3 0 1 0 0
Savings=high 1 1 0.5 0.5 0.5
2 Assets=low 0 2 0 1 0
Assets= medium 3 1 0.75 0.25 0.3112781245
Assets=high 2 0 1 0 0
3 Income ≤ 25000 1 2 0.333333 0.666667 0.5283208336
Income > 25000 4 1 0.8 0.2 0.2575424759
4 Income ≤ 50000 2 3 0.4 0.6 0.528771238
Income > 50000 3 0 1 0 0
5 Income ≤ 75000 4 3 0.571429 0.428571 0.4613456697
Income > 75000 1 0 1 0 0

L3 Didapatkan percabangan

Data training yangtersisa adalah Rekord C,D,E,H

Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk
C High Medium 25 Bad
D Medium Medium 50 Good
H Medium Medium 75 Good
E Low Medium 100 Good

L-2 Menghitung entropis Node A sebelum pencabangan

Saat ini kita berhadapan dengan Root Node yang mengandung 4 rekord, yang berdasarkan target variable, 1 diantaranya
bad risk, 3 diantaranya good risk

Entropi dari Root Node ini adalah:


Risk Freq Pj log2 Pj -Pj*log2 Pj
Bad 1 0.25 -2 0.5
Good 3 0.75 -0.41504 0.311278
Total 4 H(T)= 0.811278

-P(good)*log2
Candidate split Child Nodes Good Bad P(good) P(bad) P(good)
1 Savings=low 1 0 1 0 0
Savings= medium 2 0 1 0 0
Savings=high 0 1 0 1 0
2

3 Income ≤ 25000 0 1 0 1 0
Income > 25000 3 0 1 0 0
4 Income ≤ 50000 1 1 0.5 0.5 0.5
Income > 50000 2 0 1 0 0
5 Income ≤ 75000 2 1 0.666667 0.333333 0.3899750005
Income > 75000 1 0 1 0 0

L3 Didapatkan percabangan
an sebuah objek
an dijadikan dasar

ation and Regression


tung candidate list

gs, asset, income seorang nasabah

target variable

predictor variable

kan target variable, 3 diantaranya


-P(bad)*log2 P(bad) Total P(savings= …) Total*P(savings = …) Grand Total
0.3899750005 0.918296 0.375 0.3443609378
0 0 0.375 0 0.5943609378
0.5 1 0.25 0.25
0 0 0.25 0
0.5 0.811278 0.5 0.4056390622 0.4056390622
0 0 0.25 0
0.3899750005 0.918296 0.375 0.3443609378
0.7955659971
0.464385619 0.721928 0.625 0.4512050593
0.4421793565 0.970951 0.625 0.6068441215
0.6068441215
0 0 0.375 0
0.5238824663 0.985228 0.875 0.862074619
0.862074619
0 0 0.125 0

kan target variable, 1 diantaranya


-P(bad)*log2 P(bad) Total P(savings= …) Total*P(savings = …) Grand Total
0 0 0.25 0
0 0 0.5 0 0
0 0 0.25 0

0 0 0.25 0
0
0 0 0.75 0
0.5 1 0.5 0.5
0.5
0 0 0.5 0
0.5283208336 0.918296 0.75 0.6887218755
0.6887218755
0 0 0.25 0
Inf Gain candidate list

0.3600730652

0.5487949407 Terbaik

0.1588680058

0.3475898814

0.0923593839
Inf Gain candidate list

0.8112781245 Terbaik

0.8112781245

0.3112781245

0.1225562489

Anda mungkin juga menyukai