Anda di halaman 1dari 9

Algoritma C4.

5 merupakan pengembangan dari algoritma ID3 yang juga merupakan


algoritma untuk membangun sebuah pohon keputusan. Algoritma C4.5 secara rekursif
mengunjungi tiap simpul keputusan, memilih percabangan optimal sampai tidak ada cabang
lagi yang mungkin dihasilkan.
Algoritma C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi
atau segmentasi atau pengelompokkan dan bersifat prediktif. Dasar algoritma C4.5 adalah
pembentukkan pohom keputusan (decision tree). Cabang-cabang pohon keputusan
merupakan pertanyaan klasifikasi dan daun-daunnya merupakan kelas-kelas atau segmensegmen.
Dengan algoritma ini, mesin (komputer) akan diberikan sekelompok data untuk dipelajari
yang dissebut learning dataset. Kemudian hasil dari pembelajaran selanjutnya akan
digunakan untuk mengolah data-data yang baru yang disebut test dataset. Karena algoritma
C4.5 digunakan untuk melakukan klasifikasi, jadi hasil dari pengolahan test dataset berupa
pengelompokkan data ke dalam kelas-kelasnya.
Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih
percabangan yang optimal. Misalkan terdapat sebuah variabel X dimana memiliki sejumlah k
nilai yang mungkin dengan probabilitas p1, p2, , pk. Entropy menggambarkan
keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan
menggunakan persamaan dibawah ini :
k

Entropi ( S )= Pj log 2 Pj
j=1

Misalkan terdapat sebuah kandidat simpul yang akan dikembangkan (S), yang membagi data
T ke dalam sejumlah subset T1, T2, , Tk. Dengan menggunakan persamaan entropy diatas,
nilai entropy tiap subset dihitung (HS(Ti)). Kemudian total bobot subset simpul S dihitung
dengan menggunakan persamaan dibawah ini :

dimana Pi merupakan proporsi record pada subset i. Semakin seragam sebuah subset
terhadap kelas-kelas pembaginya, maka semakin kecil nilai entropy. Nilai entropy paling

kecil adalah 0, yang dicapai ketika record subset berada pada satu kelas yang sama.
Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi
sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.
Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui
persamaan berikut :
Si

Entropi(Si)
S

Gain ( S , A ) =Entropi ( S )
i=1

Pada algoritma C4.5, nilai information gain dihitung untuk seluruh simpul yang mungkin
dikembangkan. Simpul yang dikembangkan adalah simpul yang memiliki nilai information
gain yang paling besar
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut :
a. Pilih atribut sebagai akar
Pemilihan atribut sebagai akar didasarkan pada nilai gain tertinggi dari atribut-atribut
yang ada.
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang
memiliki kelas yang sama.

Contoh :

1. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan
atribut Cuaca, Suhu, Kelembapan dan Berangin. Setelah itu lakukan penghitungan
Gain untuk masing masing atribut.

Hitung entropi dengan rumus :


k

Entropi ( S )= Pj log 2 Pj
j=1

Keterangan :
S
: Himpunan (dataset) kasus
k
: Jumlah partisi S
pi
: probabilitas yang didapat dari Sum (Ya) dibagi total kasus.
Jadi Entropi total adalah :

(( )

Entropi ( S )=

( )) ( ( )

( ))

10
10
4
4
log 2
+
log2
=0.863120569
14
14
14
14

Kemudian lakukan analisis pada setiap atribut dan nilai-nilainya dan hitung
nilai entropinya.

Selain itu kita juga menghitung gain setiap atribut dengan rumus :
Si Entropi(Si)
S

Gain ( S , A ) =Entropi ( S )
i=1

Keterangan :
S
: himpunan (dataset) kasus
A
: atribut
k
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke i
|S|
: jumlah kasus dalam S

Maka perhitungannya sebagai berikut :


4
5
5
Gain (Cuaca ) =0.863120569
0+
0.721928095+
0.970950594 =0.2585
14
14
14

(( ) ( )

4
4
6
0+
1+
0.918295834 =0.183850925
14
14
14

(( ) ( ) ( )

Gain ( Suhu ) =0.863120569

( )

(( 147 ) 0.985228136+( 147 ) 0)=0.370506501

Gain (CKelembapan )=0.863120569

Gain ( Berangin )=0.863120569

8
6
0.811278124 +
0.918295834 =0.005977711
14
14

(( )

( )

Berikut ini ditampilkan dalam bentuk table :


Node
1

Atribut

Sum(Y
A)

Sum(Tida
k)

Hujan

Cerah

Nilai
Berawa
n

Sum(Nil
ai)

Cuaca

Entropi

Gain

0
0.72192
8095
0.97095
0594
0.285
2103
7

Suhu

Dingin
Panas

4
4

4
2

0
2

Sejuk

0
1
0.91829
5834
0.183
8092

5
Kelemb
apan

Berang
in

Tinggi
Normal

7
7

3
7

4
0

0.98522
8136
0
0.370
5065
01

Salah

Benar

0.81127
8124
0.91829
5834
0.005
9777
11

Karena nilai gain terbesar adalah gain (kelembapan), maka kelembapan


menjadi node akar (root node). Terdapat 2 nilai atribut Kelembapan yaitu
Tinggi dan Normal. Dari kedua nilai atribut tersebut, nilai atribut Normal
sedah mengklasifikasikan kasus menjadi 1 yaitu keputusannya Ya, dengan
demikian kelembapan normal menjadi daun atau leaf. Sehingga tidak perlu
lagi dilakukan perhitungan lebih lanjut. Tetapi untuk nilai atribut Tinggi masih
perlu dilakukan perhitungan lagi.
Pohon keputusan yang terbentuk pada tahap ini adalah sebagai beikut :

2. Berdasarkan pembentukkan pohon keputusan node 1 (root node), node 1.1 akan
dianalisis lebih lanjut. Untuk mempermudah maka pada table awal akan diambil data
yang memiliki kelembapan = tinggi.
no
1
2
3
4

Cuaca
Cerah
Cerah
Berawan
Hujan

suhu

Kelemabapa

Berangin

Main

Panas
Panas
Panas
Sejuk

n
Tinggi
Tinggi
Tinggi
Tinggi

Salah
Benar
Salah
Salah

Tidak
Tidak
Ya
Ya

5
6
7

Cerah
Berawan
Hujan

Sejuk
Sejuk
Sejuk

Tinggi
Tinggi
Tinggi

Salah
Benar
Benar

Tidak
Ya
Tidak

Kemudian akan dianalisis lagi entropi dan gain dari atribut kelembapan tinggi.
3
3
4
4
log
+

log
(
)
(
)
(
)
(
( 7 7 ) ( 7 7 ))=0.985228136

Entropi ( Kelembapan )=

Sehingga didapat hasil seperti pada table dibawah ini :


node

atribut

nilai

1.1

cuaca

berawa
n
hujan
cerah

Sum(va
r)
2

Sum(Ya)
2

Sum(Tid Entropi
)
0
0

2
3

1
0

1
3

Gain

1
0
0.699
5138
5

Suhu

dingin
panas

0
3

0
1

0
2

sejuk

0
0.91829
5834
1
0.020
2442
07

Berangi
n

Salah
Benar

4
3

2
2

2
1

1
0.91829
5834
0.020
2442
07

Berdasarkan hasil tersebut, gain tertinggi adalah atribut cuaca. Maka atribut
cuaca dapat menjadi node cabang dari atribut kelembapan tinggi.
Terdapat 3 nilai atribut dari cuaca yaitu berawan, hujan, dan cerah. Dari ketiga
nilai atribut tersebut nilai atribut berawan sudah mengklasifikasikan kasus
menjadi 1 yaitu keputusan Ya dan nilai atribut cerah sudah mengklasifikasikan
kasus menjadi satu dengan keputusan Tidak. Sehingga tidak perlu dilakukan

perhitungan lebih lanjut, tetapi untuk nilai atribut hujan masih perlu dilakukan
perhitungan lagi.
Pohon keputusan yang terbentuk sampai saat ini adalah sebagai berikut :

3. Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus untuk
keputusan Tidak, dan entropi dari semua kasus dan kasus yang dibagi berdasarkan
atribut Suhu dan Berangin yang dapat menjadi node cabang dari nilai atribut Hujan.
Setelah itu lakukan perhitungan gain untuk masing-masing atribut.
No
1
2

node

Cuaca
Hujan
Hujan

Atribut

Nilai

Kelembapan Tinggi & Hujan


1.1.2
Suhu
Dingin
Panas
Sejuk

Suhu
Sejuk
Sejuk

Kelembapan
Tinggi
Tinggi

Berangin
Salah
Benar

Sum(Var

Sum(ya)

Sum(tid)

Entropi

)
2
0
0
2

1
0
0
1

1
0
0
1

1
0
0
1

Main
Ya
Tidak

Gain

0
Berangi
n

Salah
Benar

1
1

1
0

0
1

0
0
1

Berdasarkan hasil tersebut diketahui bahwa atribut yang memiliki gain tertinggi
adalah Berangin yaitu sebesar 1. Dengan demikian Berangin dapat menjadi node
cabang dari nilai Hujan. Terdapat 2 nilai atribut dari Berangin yaitu False dan True.
Dari kedua nilai atribut tersebut, nilai atribut False sudah mengklasifikasikan kasus
menjadi 1 yaitu keputusannya Ya dan nilai atribut Tidak mengklasifikasikan kasus
menjadi 1 yaitu keputusannya Tidak. Sehingga tidak perlu lagi dilakukan perhitungan
lebih lanjut untuk atribut ini.
Pohon keputusan yang terbentuk sampai pada tahap ini adalah sebagai berikut :

Dengan memperhatikan pohon keputusan diatas, diketahui bahwa semua kasus sudah masuk
kedalam kelas. Dengan demikian, pohon keputusan tersebut merupakan pohon keputusan
terkahir yang terbentuk.

Sumber :
https://www.academia.edu/6065920/Belajar_Mudah_Algoritma_Data_Minin
g_C4.5 (diakses pada tanggal 26 Maret 2015)
http://download.portalgaruda.org/article.php?
article=161148&val=5450&title=PERBANDINGAN%20PERFORMANSI
%20ALGORITMA%20C4.5%20DAN%20CART%20DALAM%20%20KLASIFIKSI
%20DATA%20NILAI%20MAHASISWA%20PRODI%20TEKNIK%20KOMPUTER
%20%20POLITEKNIK%20NEGERI%20PADANG ( diakses pada tanggal 26
Maret 2015)
http://elearning.amikom.ac.id/index.php/download/materi/190302125-ST07827/2012/10/20121008_C4.5.pdf. (diakses pada tanggal 26 Maret 2015)
http://computerforhumanity.blogspot.com/2008/09/algoritma-c45.html (diakses pada tanggal
26 Maret 2015)

Anda mungkin juga menyukai