dalam kategori yang mana), dan variabel prediktor (yaitu data para objek yang akan dijadikan dasar untuk
memprkirakan objek tersebut masuk kelompok mana
Terdapat 2 jenis algoritma untuk memecahkan masalah klasifikasi, yaitu CART (Classification and Regression
Trees) yang selalu bercabang dua, dan C4.5 (yang dapat bercabang 2 atau lebih, tergantung candidate list yang
dirancang)
Training Data
Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk Ingin menebak resiko kredit
F High High 25 Good berdasarkan savings, asset, income seorang nasabah
A Medium High 75 Good
G Low Low 25 Bad Resiko kredit = target variable
B Low Low 50 Bad
C High Medium 25 Bad asset, income, saving predictor variable
D Medium Medium 50 Good
H Medium Medium 75 Good
E Low Medium 100 Good
L-3
cabang ke-4 adalah calon cabang yang akan menjadi cabang
Customer Savings Asset Income Credit Risk
F High High 25 Good
C High Medium 25 Bad
E Low Medium 100 Good
A Medium High 75 Good
D Medium Medium 50 Good
H Medium Medium 75 Good
-0.2500 0.2500
0.2500 0.2500
0.2500 0.2500
-0.2500 0.2500
-0.5000 0.5000
0.5000 0.5000
-0.3333 0.3333
0.3333 0.3333
-0.2000 0.2000
0.2000 0.2000
selisih abs(selisih)
-0.5000 0.5000
-0.5000 0.5000
-0.5000 0.5000
-0.5000 0.5000
-1.0000 1.0000
1.0000 1.0000
1.0000 1.0000
-1.0000 1.0000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
0.5000 0.5000
Pada masalah klasifikasi terdapat 2 jenis variabel, yaitu target variable (yang menunjukkan sebuah objek
masuk dalam kategori yang mana), dan variabel prediktor (yaitu data para objek yang akan dijadikan dasar
untuk memprkirakan objek tersebut masuk kelompok mana
Terdapat 2 jenis algoritma untuk memecahkan masalah klasifikasi, yaitu CART (Classification and Regression
Trees) yang selalu bercabang dua, dan C4.5 (yang dapat bercabang 2 atau lebih, tergantung candidate list
yang dirancang)
Training Data
Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk Ingin menebak resiko kredit
A Medium High 75 Good berdasarkan savings, asset, income seorang nasaba
B Low Low 50 Bad
C High Medium 25 Bad Resiko kredit = target variable
D Medium Medium 50 Good
E Low Medium 100 Good asset, income, savingpredictor variable
F High High 25 Good
G Low Low 25 Bad
H Medium Medium 75 Good
Saat ini kita berhadapan dengan Root Node yang mengandung 8 rekord, yang berdasarkan target variable, 3 diantaranya
bad risk, 5 diantaranya good risk
L3 Didapatkan percabangan
Target
objek Predictor Variable Variable
Customer Savings Asset Income Credit Risk
C High Medium 25 Bad
D Medium Medium 50 Good
H Medium Medium 75 Good
E Low Medium 100 Good
Saat ini kita berhadapan dengan Root Node yang mengandung 4 rekord, yang berdasarkan target variable, 1 diantaranya
bad risk, 3 diantaranya good risk
-P(good)*log2
Candidate split Child Nodes Good Bad P(good) P(bad) P(good)
1 Savings=low 1 0 1 0 0
Savings= medium 2 0 1 0 0
Savings=high 0 1 0 1 0
2
3 Income ≤ 25000 0 1 0 1 0
Income > 25000 3 0 1 0 0
4 Income ≤ 50000 1 1 0.5 0.5 0.5
Income > 50000 2 0 1 0 0
5 Income ≤ 75000 2 1 0.666667 0.333333 0.3899750005
Income > 75000 1 0 1 0 0
L3 Didapatkan percabangan
an sebuah objek
an dijadikan dasar
target variable
predictor variable
0 0 0.25 0
0
0 0 0.75 0
0.5 1 0.5 0.5
0.5
0 0 0.5 0
0.5283208336 0.918296 0.75 0.6887218755
0.6887218755
0 0 0.25 0
Inf Gain candidate list
0.3600730652
0.5487949407 Terbaik
0.1588680058
0.3475898814
0.0923593839
Inf Gain candidate list
0.8112781245 Terbaik
0.8112781245
0.3112781245
0.1225562489