ROOT NODE
A
x1 x4
x2 x3
INTERNAL NODE
a1 B C a4
y1 y2 y3 z1 z2 z3
LEAF NODE
b1 D b3 c1 c2 c3
w1 w2 w3
d1 d2 d3
Lambang bulat pada pohon keputusan melambangkan node akar (root node)
dan juga node cabang (internal node). Namun node akar selalu terletak paling
atas tanpa memiliki input, sedangkan node cabang mempunyai input. Lambang
kotak melambangkan node daun (leaf node). Setiap node daun berisi nilai atribut
dari node cabang atau node akarnya.
3. Algoritma C4.5
Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon
keputusan yang terkenal dan disukai karena memiliki kelebihan-kelebihan.
Kelebihan ini misalnya dapat mengolah data numerik (kontinyu) dan diskret,
dapat menangani nilai atribut yang hilang, menghasilkan aturan-aturan yang
mudah diinterpretasikan dan tercepat di antara algoritma-algoritma yang
menggunakan memori utama di komputer.
Algoritma C4.5 mengkonstruksi pohon keputusan dari data pelatihan, yang
berupa kasus-kasus atau record (tupel) dalam basisdata. Setiap kasus berisikan
nilai dari atribut-atribut untuk sebuah kelas. Setiap atribut dapat berisi data
diskret atau kontinyu (numerik). C4.5 juga menangani kasus yang tidak memiliki
nilai untuk sebuah atau lebih atribut. Akan tetapi, atribut kelas hanya bertipe
diskret dan tidak boleh kosong.
Ada tiga prinsip kerja algoritma C4.5 pada tahap belajar dari data, yaitu
sebgai berikut :
1. Pembuatan Pohon Keputusan
Obyektif dari algoritma pohon keputusan adalah mengkonstruksi struktur data
pohon (dinamakan pohon keputusan) yang dapat digunakan untuk
memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki
kelas. Algoritma ini memilih pemecahan kasus-kasus yang terbaik dengan
menghitung dan membandingkan gain ratio, kemudian pada node-node yang
terbentuk di level berikutnya. Demikian seterusnya sampai terbentuk daun-
daun.
( ) ∑ 2 ∑ 2
dimana,
X : Himpunan Kasus
k : jumlah partisi X
pj : Proporsi Xj terhadap X
( ) ( ) ( )
Besar nilai Entropy(X) menunjukkan bahwa X adalah atribut yang lebih acak.
Di sisi lain, atribut yang lebih kecil dari nilai Entropy(X) menyiratkan atribut ini
sedikit lebih acak yang signifikan untuk data mining. Nilai entropi mencapai nilai
minimum 0, ketika semua pj lain = 0 atau berada pada kelas yang sama. Nilainya
mencapai maksimum log2 k, ketika semua nilai pj adalah sama dengan 1/k.
3.3 Gain Ratio
Pada kontruksi pohon C4.5, di setiap simpul pohon, atribut dengan nilai gain
ratio tertinggi dipilih sebagai atribut split untuk simpul. Rumus dari gain ratio
adalah sebagai berikut :
( )
( )
( )
Dimana gain(a) adalah information gain dari atribut a untuk himpunan sampel X
dan split info(a) menyatakan entropi atau informasi potensial yang didapat pada
pembagian X menjadi n sub himpunan berdasarkan telaahan pada atribut a.
Sedangkan gain(a) didefinisikan sebagai berikut :
( ) ( ) ( )
Untuk rumus split info(a) adalah sebagai berikut :
| | | |
( ) ∑ ( )
| | | |
| |
( ) ( ) ∑ ( )
| |
Alasan penggunaan gain ratio(a) pada C4.5 (bukan gain(a)) sebagai kriteria
pada pemilihan atribut adalah gain ternyata bias terhadap atribut yagn memiliki
banyak nilai unik.
CONTOH
Soal :
Terdapat data pelamar pekerjaan beserta hasil penerimaannya pada sebuah Bank. Pada tabel berikut terdapat 10 atribut
yaitu bagian pekerjaan yang akan dicari, pendidikan terakhir, jurusan sewaktu kuliah, IPK terakhir, hasil wawancara,
kelengkapan berkas pelamar, kerapian penampilan pelamar, umur, status pelamar dan hasil penerimaan kerja. Buatlah
pohon keputusan dengan menggunakan algoritma C4.5 !
KELENGKAPAN
PELAMAR BAGIAN PENDIDIKAN JURUSAN IPK WAWANCARA KERAPIAN UMUR STATUS HASIL
BERKAS
1 TELLER S1 AKUNTANSI 3,8 BAIK LENGKAP BAIK 27 MENIKAH LULUS
TIDAK
2 TELLER S1 AKUNTANSI 2,8 CUKUP TDK LENGKAP BAIK 28 LAJANG
LULUS
TIDAK
3 TELLER S1 AKUNTANSI 2,7 CUKUP LENGKAP BAIK 32 BERCERAI
LULUS
4 IT S2 INFORMATIKA 3,6 BAIK LENGKAP CUKUP 29 LAJANG LULUS
5 IT S1 INFORMATIKA 3,6 BAIK LENGKAP CUKUP 26 LAJANG LULUS
6 IT S2 INFORMATIKA 2,6 BAIK TDK LENGKAP BURUK 28 MENIKAH LULUS
TIDAK
7 IT D3 INFORMATIKA 2,5 CUKUP TDK LENGKAP BURUK 27 LAJANG
LULUS
8 TELLER D3 AKUNTANSI 3,4 CUKUP TDK LENGKAP BAIK 22 LAJANG LULUS
9 MARKETING S2 MANAJEMEN 3,5 CUKUP LENGKAP BAIK 29 LAJANG LULUS
TIDAK
10 MARKETING S2 MANAJEMEN 2,8 BURUK LENGKAP BAIK 29 MENIKAH
LULUS
11 TELLER S1 AKUNTANSI 3,2 BAIK LENGKAP CUKUP 27 MENIKAH LULUS
TIDAK
12 TELLER D2 MANAJEMEN 3,3 BAIK LENGKAP CUKUP 33 MENIKAH
LULUS
13 TELLER D2 MANAJEMEN 2,8 BURUK TDK LENGKAP CUKUP 22 BERCERAI LULUS
TIDAK
14 TELLER S1 AKUNTANSI 2,8 BAIK TDK LENGKAP CUKUP 31 BERCERAI
LULUS
TIDAK
15 TELLER S1 AKUNTANSI 2,4 BURUK TDK LENGKAP CUKUP 21 MENIKAH
LULUS
16 TELLER S1 AKUNTANSI 2,5 BAIK LENGKAP CUKUP 25 MENIKAH LULUS
17 MARKETING S2 MATEMATIKA 3,2 CUKUP LENGKAP BAIK 25 LAJANG LULUS
CUST.
18 S1 MATEMATIKA 3,4 BAIK LENGKAP BAIK 26 LAJANG LULUS
SERVICE
CUST.
19 S1 MATEMATIKA 2,7 CUKUP LENGKAP BAIK 26 LAJANG LULUS
SERVICE
20 MARKETING S2 MANAJEMEN 3,3 BAIK LENGKAP BURUK 29 LAJANG LULUS
21 MARKETING S2 MANAJEMEN 3,4 BAIK LENGKAP BAIK 33 MENIKAH LULUS
TIDAK
22 TELLER D3 MANAJEMEN 2,3 BURUK LENGKAP BAIK 23 MENIKAH
LULUS
CALL
23 D1 INFORMATIKA 3,2 BAIK TDK LENGKAP BAIK 23 MENIKAH LULUS
CENTRE
CALL TIDAK
24 D1 INFORMATIKA 2,4 BURUK LENGKAP BURUK 29 LAJANG
CENTRE LULUS
CUST.
25 S1 AKUNTANSI 3,3 BAIK LENGKAP BURUK 26 LAJANG LULUS
SERVICE
CUST. TIDAK
26 S1 AKUNTANSI 2,4 CUKUP TDK LENGKAP BAIK 26 LAJANG
SERVICE LULUS
CUST.
27 S1 AKUNTANSI 3,3 CUKUP LENGKAP BURUK 27 MENIKAH LULUS
SERVICE
28 TELLER S1 MANAJEMEN 3,2 CUKUP TDK LENGKAP CUKUP 24 LAJANG LULUS
29 TELLER S1 MANAJEMEN 3,4 BAIK LENGKAP BAIK 24 LAJANG LULUS
TIDAK
30 TELLER S1 MANAJEMEN 2,9 BURUK TDK LENGKAP BAIK 29 LAJANG
LULUS
PENYELESAIAN
Dari kasus diatas akan dibuat sebuah pohon keputusan untuk menentukan
pelamar baru apakah diterima atau tidak. Berikut rincian langakah penyelasaian
dalam pemebentukan pohon keputusan.
Jumlah kasus : 30
Jumlah kasus dengan hasil Lulus : 19
Jumlah kasus dengan hasil Tidak Lulus : 11
( ) ( ) ( )
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Setelah dicari nilai entropy pada setiap nilai dari atribut yang ada, kemudian
lakukan perhitungan untuk mencari nilai gain dari setiap atribut.
| |
( ) ( ) ∑ ( )
| |
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
Hasil perhitungan untuk nilai entropy dan gain ditunjukkan dalam tabel
berikut.
BANYAK TDK LULUS
ATRIBUT LULUS (L) ENTROPY GAIN
KASUS (TL)
TOTAL
0,9481
KASUS 30 19 11
BAGIAN 0,0659
TELLER 14 7 7 1
MARKETING 5 4 1 0,7219
IT 4 3 1 0,8113
CALL
2 1
CENTRE 1 1
CUST.
5 0,7219
SERVICE 4 1
PENDIDIKAN 0,0758
D1 2 1 1 1
D2 2 1 1 1
D3 3 1 2 0,9183
S1 16 10 6 0,9544
S2 7 6 1 0,5917
JURUSAN 0,0763
AKUNTANSI 11 6 5 0,9940
MANAJEMEN 10 6 4 0,9710
INFORMATIKA 6 4 2 0,9183
MATEMATIKA 3 3 0 0
IPK 0,4589
<2,5 4 0 4 0
2.5 - 3 10 4 6 0,9710
3 - 3.5 12 11 1 0,4138
>3,5 4 4 0 0
WAWANCARA 0,2183
BAIK 14 12 2 0,5917
CUKUP 10 6 4 0,9710
BURUK 6 1 5 0,6500
BERKAS 0,0570
LENGKAP 19 14 5 0,8315
TDK
11 1
LENGKAP 5 6
KERAPIAN 0,0035
BAIK 15 9 6 0,9710
CUKUP 9 6 3 0,9183
BURUK 6 4 2 0,9183
UMUR 0,1430
<=23 5 3 2 1
24 - 27 13 11 2 0,6194
28 - 30 8 4 4 1,0000
>30 4 1 3 0,8113
STATUS 0,0316
LAJANG 16 11 5 0,8960
MENIKAH 11 7 4 0,9457
BERCERAI 3 1 2 0,9183
MAX = 0,4589
Dari hasil perhitungan pada tabel diatas, diketahui bahwa nilai Gain
terbesar yaitu pada atribut IPK yaitu sebesar 0,4589. Sehingga atribut
IPK menjadi node akar.
Pada atribut IPK terdapat 4 nilai atribut, yaitu <2.5, 2.5-3, 3-3.5, >3.5.
Nilai atribut yang pertama yaitu <2.5 sudah mengklasifikasikan kasus
menjadi 1 yaitu dengan hasil Tidak Lulus sehingga tidak perlu dilakukan
perhitungan lebih lanjut.
Dan nilai atribut keempat >3,5 sudah mengklasifikasikan kasus menjadi 1
yaitu dengan hasil Lulus, sehingga tidak perlu dilakukan perhitungan
lebih lanjut.
Sedangkan nilai atribut kedua dan ketiga yaitu 2.5–3 dan 3-3.5 belum
mengklasifikasikan kasus menjadi satu keputusan sehingga perlu
dilakukan perhitungan lagi.
Dari proses tersebut maka dapat dihasilkan pohon sementara seperti berikut
ini.
IPK
<2,5 >3,5
2,5 - 3 3 – 3,5
Perhitungan dilakukan untuk mencari node cabang dari nilai atribut 2.5-3.
Perhitungan dilakukan dengan mencari nilai dari atribut selain yang menjadi
node akar (IPK), yaitu dengan mencari jumlah kasus untuk hasil Lulus dan
Tidak Lulus, dan nilai Entropy dari semua kasus saat IPK = 2.5 – 3. Dan
kemudian lakukan perhitungan untuk mencari nilai Gain, dan atribut dengan
nilai Gain terbesar, maka akan menjadi node cabang dari nilai atribut 2.5-3.
Node 1.2 :
Jumlah kasus dengan IPK = 2,5 – 3 : 10
Jumlah kasus dengan IPK = 2,5 – 3 yang hasil Lulus :4
Jumlah kasus dengan IPK = 2,5 – 3 yang hasil Tidak Lulus :6
( ) ( ) ( )
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Lakukan juga perhitungan untuk nilai entropy pada setiap atribut, kecuali
pada atibut IPK :
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Setelah dicari nilai entropy pada setiap nilai dari atribut yang ada, kemudian
lakukan perhitungan untuk mencari nilai gain dari setiap atribut.
| |
( ) ( ) ∑ ( )
| |
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
Hasil perhitungan yang dilakukan ditunjukkan dalam tabel berikut.
Node 1.2 :
TDK
BANYAK LULUS
ATRIBUT LULUS ENTROPY GAIN
KASUS (L)
(TL)
IPK 2,5 - 3 10 4 6 0,9710
BAGIAN 0,2200
TELLER 6 2 4 0,9183
MARKETING 1 0 1 0
IT 2 1 1 1
CALL CENTRE 0 0 0 0
CUST.
1 1 0 0
SERVICE
PENDIDIKAN 0,2200
D1 0 0 0 0
D2 1 1 0 0
D3 1 0 1 0
S1 6 2 4 0,9183
S2 2 1 1 1
JURUSAN 0,1710
AKUNTANSI 4 1 3 0,8113
MANAJEMEN 3 1 2 0,9183
INFORMATIKA 2 1 1 1
MATEMATIKA 1 1 0 0
WAWANCARA 0,0955
BAIK 3 2 1 0,9183
CUKUP 4 1 3 0,8113
BURUK 3 1 2 0,9183
BERKAS 0,0200
LENGKAP 4 2 2 1
TDK LENGKAP 6 2 4 0,9183
KERAPIAN 0,1345
BAIK 5 1 4 0,7219
CUKUP 3 2 1 0,9183
BURUK 2 1 1 1
UMUR 0,3710
<=23 1 1 0 0
24 - 27 3 2 1 0,9183
28 - 30 4 1 3 0,8113
>30 2 0 2 0
STATUS 0,0955
LAJANG 4 1 3 0,8113
MENIKAH 3 2 1 0,9183
BERCERAI 3 1 2 0,9183
MAX = 0,3710
Dari hasil perhitungan pada tabel diatas, diketahui bahwa nilai Gain
terbesar yaitu pada atribut Umur yaitu sebesar 0,3710. Sehingga atribut
Umur menjadi node cabang dari nilai atribut 2.5-3.
Pada atribut Umur terdapat 4 nilai atribut, yaitu ≤23, 24-27, 28-30, >30.
Nilai atribut yang pertama yaitu ≤23 sudah mengklasifikasikan kasus
menjadi 1 yaitu dengan hasil Lulus sehingga tidak perlu dilakukan
perhitungan lebih lanjut.
Dan nilai atribut keempat yaitu >30 sudah mengklasifikasikan kasus
menjadi 1 yaitu dengan hasil Tidak Lulus, sehingga tidak perlu dilakukan
perhitungan lebih lanjut.
Sedangkan nilai atribut kedua dan ketiga yaitu 24-27 dan 28-30 belum
mengklasifikasikan kasus menjadi satu keputusan sehingga perlu
dilakukan perhitungan lagi.
Dari proses tersebut maka dapat dihasilkan pohon sementara seperti berikut
ini.
IPK
<2,5 >3,5
2,5 - 3 3 – 3,5
1.2 LULUS
TIDAK LULUS 1.3 ?
UMUR
<=23 24 - 27 28 - 30 >30
Node 1.3 :
Jumlah kasus dengan IPK = 3 – 3,5 : 12
Jumlah kasus dengan IPK = 3 – 3,5 yang hasil Lulus : 11
Jumlah kasus dengan IPK = 3 – 3,5 yang hasil Tidak Lulus :1
( ) ( ) ( )
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Lakukan juga perhitungan untuk nilai entropy pada setiap atribut, kecuali
pada atibut IPK :
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Setelah dicari nilai entropy pada setiap nilai dari atribut yang ada, kemudian
lakukan perhitungan untuk mencari nilai gain dari setiap atribut.
| |
( ) ( ) ∑ ( )
| |
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
Dari hasil perhitungan pada tabel diatas, diketahui bahwa nilai Gain
terbesar yaitu pada atribut Pendidikan yaitu sebesar 0,4138. Sehingga
atribut Pendidikan menjadi node cabang dari nilai atribut 3-3.5.
Pada atribut Pendidikan terdapat 5 nilai atribut, dimana semua anilai
atribut sudah mengklasifikasikan kasus menjadi 1 yaitu dengan hasil
Lulus, Tidak Lulus, Lulus, Lulus dan Lulus sehingga tidak perlu
dilakukan perhitungan lebih lanjut. Dari proses tersebut maka dapat
dihasilkan pohon sementara seperti berikut ini.
IPK
<2,5 >3,5
2,5 - 3 3 – 3,5
1.3 ?
TIDAK 1.2 LULUS
PENDIDIK
LULUS UMUR
AN
<=23 24 - 27 28 - 30 >30 D1 D2 D3 S1 S2
TIDAK TIDAK
LULUS 1.2.2 ? 1.2.3 ? LULUS LULUS LULUS LULUS
LULUS LULUS
Lakukan perhitungan untuk mencari node cabang dari nilai atribut umur 24-
27. Perhitungan dilakukan dengan mencari nilai dari atribut selain yang
menjadi node akar (IPK) dan node cabang (Umur), yaitu dengan mencari
jumlah kasus untuk hasil Lulus dan Tidak Lulus, dan nilai Entropy dari semua
kasus saat IPK = 2.5–3 dan Umur = 24-27. Dan kemudian lakukan
perhitungan untuk mencari nilai Gain, dan atribut dengan nilai Gain terbesar,
maka akan menjadi node cabang dari nilai atribut 24-27.
Node 1.2.2 :
Jumlah kasus dengan IPK = 2,5 – 3 dan UMUR = 24 - 27 :3
Jumlah kasus dg IPK = 3 – 3,5 dan UMUR = 24 - 27 yang hasil Lulus :2
Jumlah kasus dg IPK = 3 – 3,5 dan UMUR = 24 – 27 yang hasil Tdk Lulus : 1
( ) ( ) ( )
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Lakukan juga perhitungan untuk nilai entropy pada setiap atribut, kecuali
pada atibut IPK dan Umur :
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Setelah dicari nilai entropy pada setiap nilai dari atribut yang ada, kemudian
lakukan perhitungan untuk mencari nilai gain dari setiap atribut.
| |
( ) ( ) ∑ ( )
| |
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ) ( ))
Dari hasil perhitungan pada tabel diatas, diketahui bahwa nilai Gain
terbesar yaitu sebesar 0,9183, karena ada beberapa atribut yang sama-
sama memiliki nilai gain terbesar, maka dipilih salah satu atribut yaitu
pada atribut Berkas. Sehingga atribut Berkas menjadi node cabang dari
nilai atribut 24 - 27.
Pada atribut Berkas terdapat 2 nilai atribut, dimana semua nilai atribut
sudah mengklasifikasikan kasus menjadi 1 yaitu dengan hasil Lulus dan
Tidak Lulus sehingga tidak perlu dilakukan perhitungan lebih lanjut.
Dari proses tersebut maka dapat dihasilkan pohon sementara seperti berikut
ini.
IPK
<2,5 >3,5
2,5 - 3 3 – 3,5
<=23 28 - 30 >30 D1 D2 D3 S1 S2
24 - 27
1.2.2 1.2.3
LULUS TIDAK LULUS LULUS TIDAK LULUS LULUS LULUS LULUS
BERKAS WAWANCARA
Kemudian lakukan perhitungan untuk mencari node cabang dari nilai atribut
umur 28-30. Perhitungan dilakukan dengan mencari nilai dari atribut selain
yang menjadi node akar (IPK) dan node cabang (Umur), yaitu dengan
mencari jumlah kasus untuk hasil Lulus dan Tidak Lulus, dan nilai Entropy
dari semua kasus saat IPK = 2.5–3 dan Umur = 28-30. Dan kemudian
lakukan perhitungan untuk mencari nilai Gain, dan atribut dengan nilai Gain
terbesar, maka akan menjadi node cabang dari nilai atribut 28-30.
Node 1.2.3 :
Jumlah kasus dengan IPK = 2,5 – 3 dan UMUR = 28 - 30 :4
Jumlah kasus dg IPK = 3 – 3,5 dan UMUR = 28 - 30 yang hasil Lulus :1
Jumlah kasus dg IPK = 3 – 3,5 dan UMUR = 24 - 30 yang hasil Tdk Lulus : 3
( ) ( ) ( )
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Lakukan juga perhitungan untuk nilai entropy pada setiap atribut, kecuali
pada atibut IPK dan Umur :
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
( ) (( ) ( )) (( ) ( ))
Setelah dicari nilai entropy pada setiap nilai dari atribut yang ada, kemudian
lakukan perhitungan untuk mencari nilai gain dari setiap atribut.
| |
( ) ( ) ∑ ( )
| |
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ))
( ) (( ) ( ) ( ))
( ) (( ) ( ) ( ))
Dari hasil perhitungan pada tabel diatas, diketahui bahwa nilai Gain
terbesar yaitu sebesar 0,8113, karena ada beberapa atribut yang sama-
sama memiliki nilai gain terbesar, maka dipilih salah satu atribut yaitu
pada atribut Wawancara. Sehingga atribut Wawancara menjadi node
cabang dari nilai atribut 28-30.
Pada atribut Wawancara terdapat 3 nilai atribut, dimana semua nilai
atribut sudah mengklasifikasikan kasus menjadi 1 yaitu dengan hasil
Lulus, Tidak Lulus dan Tidak Lulus sehingga tidak perlu dilakukan
perhitungan lebih lanjut. Dari proses tersebut maka dapat dihasilkan
pohon sementara seperti berikut ini.
IPK
<2,5 >3,5
2,5 - 3 3 – 3,5
1.3 ?
TIDAK 1.2 LULUS
PENDIDIK
LULUS UMUR
AN
<=23 24 - 27 28 - 30 >30 D1 D2 D3 S1 S2
1.2.3
1.2.2 TIDAK TIDAK
LULUS WAWANCA LULUS LULUS LULUS LULUS
BERKAS LULUS LULUS
RA