Entropi ( S )= Pj log 2 Pj
j=1
Misalkan terdapat sebuah kandidat simpul yang akan dikembangkan (S), yang membagi data
T ke dalam sejumlah subset T1, T2, , Tk. Dengan menggunakan persamaan entropy diatas,
nilai entropy tiap subset dihitung (HS(Ti)). Kemudian total bobot subset simpul S dihitung
dengan menggunakan persamaan dibawah ini :
dimana Pi merupakan proporsi record pada subset i. Semakin seragam sebuah subset
terhadap kelas-kelas pembaginya, maka semakin kecil nilai entropy. Nilai entropy paling
kecil adalah 0, yang dicapai ketika record subset berada pada satu kelas yang sama.
Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi
sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.
Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui
persamaan berikut :
Si
Entropi(Si)
S
Gain ( S , A ) =Entropi ( S )
i=1
Pada algoritma C4.5, nilai information gain dihitung untuk seluruh simpul yang mungkin
dikembangkan. Simpul yang dikembangkan adalah simpul yang memiliki nilai information
gain yang paling besar
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut :
a. Pilih atribut sebagai akar
Pemilihan atribut sebagai akar didasarkan pada nilai gain tertinggi dari atribut-atribut
yang ada.
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Contoh :
1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan
atribut Cuaca, Suhu, Kelembapan dan Berangin. Setelah itu lakukan penghitungan
Gain untuk masing masing atribut.
Entropi ( S )= Pj log 2 Pj
j=1
Keterangan :
S
: Himpunan (dataset) kasus
k
: Jumlah partisi S
pi
: probabilitas yang didapat dari Sum (Ya) dibagi total kasus.
Jadi Entropi total adalah :
(( )
Entropi ( S )=
( )) ( ( )
( ))
10
10
4
4
log 2
+
log2
=0.863120569
14
14
14
14
Kemudian lakukan analisis pada setiap atribut dan nilai-nilainya dan hitung
nilai entropinya.
Selain itu kita juga menghitung gain setiap atribut dengan rumus :
Si Entropi(Si)
S
Gain ( S , A ) =Entropi ( S )
i=1
Keterangan :
S
: himpunan (dataset) kasus
A
: atribut
k
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke i
|S|
: jumlah kasus dalam S
(( ) ( )
4
4
6
0+
1+
0.918295834 =0.183850925
14
14
14
(( ) ( ) ( )
( )
8
6
0.811278124 +
0.918295834 =0.005977711
14
14
(( )
( )
Atribut
Sum(Y
A)
Sum(Tida
k)
Hujan
Cerah
Nilai
Berawa
n
Sum(Nil
ai)
Cuaca
Entropi
Gain
0
0.72192
8095
0.97095
0594
0.285
2103
7
Suhu
Dingin
Panas
4
4
4
2
0
2
Sejuk
0
1
0.91829
5834
0.183
8092
5
Kelemb
apan
Berang
in
Tinggi
Normal
7
7
3
7
4
0
0.98522
8136
0
0.370
5065
01
Salah
Benar
0.81127
8124
0.91829
5834
0.005
9777
11
2. Berdasarkan pembentukkan pohon keputusan node 1 (root node), node 1.1 akan
dianalisis lebih lanjut. Untuk mempermudah maka pada table awal akan diambil data
yang memiliki kelembapan = tinggi.
no
1
2
3
4
Cuaca
Cerah
Cerah
Berawan
Hujan
suhu
Kelemabapa
Berangin
Main
Panas
Panas
Panas
Sejuk
n
Tinggi
Tinggi
Tinggi
Tinggi
Salah
Benar
Salah
Salah
Tidak
Tidak
Ya
Ya
5
6
7
Cerah
Berawan
Hujan
Sejuk
Sejuk
Sejuk
Tinggi
Tinggi
Tinggi
Salah
Benar
Benar
Tidak
Ya
Tidak
Kemudian akan dianalisis lagi entropi dan gain dari atribut kelembapan tinggi.
3
3
4
4
log
+
log
(
)
(
)
(
)
(
( 7 7 ) ( 7 7 ))=0.985228136
Entropi ( Kelembapan )=
atribut
nilai
1.1
cuaca
berawa
n
hujan
cerah
Sum(va
r)
2
Sum(Ya)
2
Sum(Tid Entropi
)
0
0
2
3
1
0
1
3
Gain
1
0
0.699
5138
5
Suhu
dingin
panas
0
3
0
1
0
2
sejuk
0
0.91829
5834
1
0.020
2442
07
Berangi
n
Salah
Benar
4
3
2
2
2
1
1
0.91829
5834
0.020
2442
07
Berdasarkan hasil tersebut, gain tertinggi adalah atribut cuaca. Maka atribut
cuaca dapat menjadi node cabang dari atribut kelembapan tinggi.
Terdapat 3 nilai atribut dari cuaca yaitu berawan, hujan, dan cerah. Dari ketiga
nilai atribut tersebut nilai atribut berawan sudah mengklasifikasikan kasus
menjadi 1 yaitu keputusan Ya dan nilai atribut cerah sudah mengklasifikasikan
kasus menjadi satu dengan keputusan Tidak. Sehingga tidak perlu dilakukan
perhitungan lebih lanjut, tetapi untuk nilai atribut hujan masih perlu dilakukan
perhitungan lagi.
Pohon keputusan yang terbentuk sampai saat ini adalah sebagai berikut :
3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak, dan entropi dari semua kasus dan kasus yang dibagi berdasarkan
atribut Suhu dan Berangin yang dapat menjadi node cabang dari nilai atribut Hujan.
Setelah itu lakukan perhitungan gain untuk masing-masing atribut.
No
1
2
node
Cuaca
Hujan
Hujan
Atribut
Nilai
Suhu
Sejuk
Sejuk
Kelembapan
Tinggi
Tinggi
Berangin
Salah
Benar
Sum(Var
Sum(ya)
Sum(tid)
Entropi
)
2
0
0
2
1
0
0
1
1
0
0
1
1
0
0
1
Main
Ya
Tidak
Gain
0
Berangi
n
Salah
Benar
1
1
1
0
0
1
0
0
1
Berdasarkan hasil tersebut diketahui bahwa atribut yang memiliki gain tertinggi
adalah Berangin yaitu sebesar 1. Dengan demikian Berangin dapat menjadi node
cabang dari nilai Hujan. Terdapat 2 nilai atribut dari Berangin yaitu False dan True.
Dari kedua nilai atribut tersebut, nilai atribut False sudah mengklasifikasikan kasus
menjadi 1 yaitu keputusannya Ya dan nilai atribut Tidak mengklasifikasikan kasus
menjadi 1 yaitu keputusannya Tidak. Sehingga tidak perlu lagi dilakukan perhitungan
lebih lanjut untuk atribut ini.
Pohon keputusan yang terbentuk sampai pada tahap ini adalah sebagai berikut :
Dengan memperhatikan pohon keputusan diatas, diketahui bahwa semua kasus sudah masuk
kedalam kelas. Dengan demikian, pohon keputusan tersebut merupakan pohon keputusan
terkahir yang terbentuk.
Sumber :
https://www.academia.edu/6065920/Belajar_Mudah_Algoritma_Data_Minin
g_C4.5 (diakses pada tanggal 26 Maret 2015)
http://download.portalgaruda.org/article.php?
article=161148&val=5450&title=PERBANDINGAN%20PERFORMANSI
%20ALGORITMA%20C4.5%20DAN%20CART%20DALAM%20%20KLASIFIKSI
%20DATA%20NILAI%20MAHASISWA%20PRODI%20TEKNIK%20KOMPUTER
%20%20POLITEKNIK%20NEGERI%20PADANG ( diakses pada tanggal 26
Maret 2015)
http://elearning.amikom.ac.id/index.php/download/materi/190302125-ST07827/2012/10/20121008_C4.5.pdf. (diakses pada tanggal 26 Maret 2015)
http://computerforhumanity.blogspot.com/2008/09/algoritma-c45.html (diakses pada tanggal
26 Maret 2015)