Anda di halaman 1dari 7

2.2.1 Algoritma C4.

5
Decision Tree merupakan sebuah metode pengklasifikasian dengan langkah-
langkah menentukan atribut yang paling tinggi Information Gainnya untuk ditetapkan
sebagai level tertinggi yang mempengaruhi data. Untuk memperoleh nilai Gainnya
akan didapatkan dari pengukuran Entrophy [30]. Entrophy merupakan ukuran
kemurnian suatu atribut. Dalam Decision Tree, model digambarkan dalam bentuk
pohon (tree) [31]. Decission tree adalah model prediksi menggunakan struktur pohon
atau struktur berhirarki. Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan [32].
Algoritma C4.5 merupakan salah satu jenis dari algoritma Decision Tree. C4.5
merupakan pengembangan dari algoritma ID3. Perbedaan yang mencolok adalah
dalam C4.5 dapat menangani atribut bertipe numerik atau kontinu sedangkan ID3 tidak
dapat menangani atribut numerik, serta pemilihan node akar didasarkan pada nilai
Gain Ratio tertinggi bukan pada nilai gain tertinggi seperti ID3 [33]. Untuk atribut
kontinu pada C4.5 data dibagi dengan cara mengurutkan contoh berdasarkan atribut
kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-
contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu
menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas
yang sama [31].
Pada dasarnya algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut [30]:
a. akar diambil dari atribut.
b. masing-masing nilai dibuat dari cabang.
c. cabang dibagi oleh kasus.
d. masing-masing cabang prosesnya diulangi sampai semua kasus pada cabang
memiliki kelas yang sama.

Langkah-langkah algoritma C4.5 [31]:


1. Inputkan sebuah dataset (D)
2. Untuk semua atribut D lakukan :
 Hitung Gain yang didapatkan dari nilai Entropy untuk setiap parameter
atribut D.
 Hitung Abest = yang memiliki Gain tertinggi
3. Abest dijadikan sebagai node akar dari pohon.
4. Dv = induksi sub-dataset dari D berdasarkan Abest
5. Untuk semua atribut Dv lakukan :
 Hitung Gain yang didapatkan dari nilai Entropy untuk setiap parameter
atribut Dv.
 Hitung Treev = yang memiliki Gain tertinggi.
6. Tambahkan Treev ke cabang pohon yang sesuai.
7. Lakukan langkah 4-6 sampai tidak ditemukan percabangan lagi.

Untuk mengukur nilai Gain digunakan rumus [30]:

| |
𝐺𝑎𝑖𝑛 (𝑆𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ | |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 ) … … … (2.1)

Keterangan :
S = Himpunan kasus.
A = atribut.
n = jumlah partisi atribut A.
│sI│ = jumlah kasus padapartisi ke i.
│s│ = jumlah kasus dalam S.

Sebelum menentukan Gain, maka harus dicari Entropy terlebih dahulu, Entropy
dirumuskan sebagai berikut [16]:

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ −P ∗ Log P … … … … … … … … … … … (2.2)


𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = −P ∗ Log P − P ∗ Log P … . . … … … . (2.3)
Keterangan:
S = Himpunan kasus.
A = Fitur.
n = Jumlah partisi S.
P = Proporsi dari Si terhadap S.
Pemilihan node akah didasarkan pada nilai gain ratio yang dirumuska sebagai
berikut [33]:

𝐺𝑎𝑖𝑛(𝑎)
𝐺𝑎𝑖𝑛 𝑅𝑎𝑡𝑖𝑜 (𝑎) = … … … … … … … … … … . . (2.4)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑎)
Dimana Gain(a) merupakan nilai gain dari atribut “a” dan entropy(a)
merupakan nilai entropi dari atribut “a”.

Contoh perhitungan secara matematika dalam model decission tree C4.5


dilakukan sebagai berikut:
Contoh dalam kasus:
Tabel 3.3 Contoh kasus
Kesehatan Kesahatan
No Administrasi Jasmani Psikologi Keputusan
1 2
1 Lengkap Positif Positif BS T TL
2 Lengkap Positif Negatif BS ST TL
Kurang
3 Lengkap Positif Negatif B T TL
4 Lengkap Negatif Negatif BS ST L
5 Lengkap Positif Negatif K T TL
6 Lengkap Negatif Positif BS T TL
Kurang
7 Lengkap Negatif Negatif K ST TL
Kurang
8 Lengkap Positif Positif B SR TL
9 Lengkap Positif Negatif KS ST TL
10 Lengkap Positif Negatif BS R TL

Menghitung jumlah kasus, jumlah kasus untuk keputusan L , jumlah kasus


untuk keputusan TL, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut ADMINISTRASI, KESEHATAN 1, KESEHATAN 2,
JASMANI, PSIKOLOGI. Setelah itu lakukan penghitungan Gain untuk masing-
masing atribut. Perhitungan secara manual hanya dicontohkan satu saja yang lainnya
dihitung menggunakan Exel, adapun contoh hitungan manualnya sebagai berikut :

Entropy (S) =∑ −𝑃 ∗ 𝐿𝑜𝑔 𝑃


Entropy (S) = −𝑃 ∗ 𝐿𝑜𝑔 𝑃 − 𝑃 ∗ 𝐿𝑜𝑔 𝑃

Entropy (Total) = − ∗ 𝐿𝑜𝑔 − ∗ 𝐿𝑜𝑔

=− ∗ 3,3219 − ∗ 0,152

= 0,33219 + 0,1368

= 0,46899

Setelah Entropy di hasilkan maka selanjutnya mencari Gain, sebagai berikut


:

| |
Gain (SA) = Entropy (S) - ∑ | |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 )

Gain (S, Administrasi) = Entropy (S) - | |


∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 ) -

| |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 )

= 0,46899 - ∗ 0,591 - ∗0

= 0,46899 -0,4137 – 0

= 0,05529

Tabel 3.4 perhitungan Node 1


Node Jumlah TL L Entropy Gain
kasus (S1) (S2)
1 Total 10 9 1 0,468995594
Administr Lengkap 7 6 1 0,054824649
asi 0,591672779
Kurang 3 3 0
Lengkap 0
Kes 1 Positif 8 8 0 0 0,075440236
Negatif 3 2 1 0,918295834
Kes 2 Positif 3 3 0 0 0,054824649
Negatif 7 6 1 0,591672779
Jasmani BS 5 4 1 0,721928095 0,108031546
B 2 2 0 0
K 2 2 0 0
KS 1 1 0 0
Psykologi ST 4 3 1 0,811278124 0,144484344
T 4 4 0 0
R 1 1 0 0
RS 1 1 0 0

Dari hasil Tabel diatas diketahui bahwa atribut dengan Gain tertinggi terdapat
pada PsykologiYaitu sebesar 0,144484344. Dengan begitu Psykologi dapat menjadi
node akar. Ada 4 nilai atribut dari Psykologi yaitu ST, T, R, dan SR. Dari keempata
nilai atribut tersebut, nilai atribut STsudah mengklasifikasikan kasus menjadi 1 yaitu
keputusannya L ( Lulus), sehingga tidak perludilakukan perhitungan lebih lanjut,
tetapi untuk nilai atribut ST masih perlu dilakukan perhitungan lagi. Gambar 3.3
merupakan hasil dari perhitungan node diatas.

1
Psikologi
ST
T R SR

1.1
TL TL TL
?

Gambar 3.3 Hasil node 1


Menghitung jumlah kasus, jumlah kasus untuk keputusan L , jumlah kasus
untuk keputusan TL, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut ADMINISTRASI, KESEHAATAN 1 dan KESEHATAN 2, dan
JASMANI yang dapat menjadi node akar dari nilai atribut PSYKOLOGI. Setelah itu
dilakukan penghitungan Gain untuk masing-masing atribut pada tabel 3.5. berikut:
Tabel 3.5 perhitungan node 2
Node Jumlah TL L Entropy Gain
kasus (S1) (S2)
1.1 Psykologi 4 3 1
(ST) 0,811278124
Administrasi Lengkap 3 2 1 0,918295834 0,122556249
Kurang 1 1 0
Lengkap 0
Kes 1 Positif 2 2 0 0 0,144611458
Negatif 2 1 1 1
Kes 2 Positif 0 0 0 0 0
Negatif 4 3 1 0,811278124
Jasmani BS 2 1 1 1 0,311278124
B 0 0 0 0
K 1 1 0 0
KS 1 1 0 0

Dari hasil Tabel diatas diketahui bahwa atribut dengan Gain tertinggi terdapat
pada JASMANI Yaitu sebesar 0,311278124. Dengan begitu JASMANI dapat
menjadi node akar. Ada 3 nilai atribut dari. Ada 4 nilai atribut dari JASMANI yaitu
BS, B, K, dan KS. Dari keempat nilai atribut tersebut, nilai atribut BS sudah
mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya L ( Lulus), sehingga tidak
perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut ST masih perlu
dilakukan perhitungan lagi. Dari hasil tabel node diatas maka didapatkan gambar
pohon yang terlihat pada gambar 3.4.

1
Psikologi
ST
T R SR

1.1
TL TL TL
Jasmani

BS
B K K
1.1.1
TL TL TL
?

Gambar 3.4 Hasil node 2


Menghitung jumlah kasus, jumlah kasus untuk keputusan L , jumlah kasus
untuk keputusan TL, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut ADMINISTRASI, KESEHATAN 1, dan KESEHATAN 2 yang
dapat menjadi node akar dari nilai atribut PSYKOLOGI. Setelah itu dilakukan
penghitungan Gain untuk masing-masing atribut pada tabel 3.6 berikut:
Tabel 3.6 perhitungan node 3
Node Jumlah TL L Entropy Gain
kasus (S1) (S2)
1.1.1 Jasmani (BS) 2 1 1 1
Administrasi Lengkap 2 1 1 1 0
Kurang 0 0 0
Lengkap 0
Kes 1 Positif 1 0 0 0 1
Negatif 1 1 1 0
Kes 2 Positif 0 0 0 0 0
Negatif 2 1 1 1

Kita lihat tabel semuanya mununjukkan 0 dari kolom Gainnya, dengan


demikian tidak perlu diperhitungkan lagi karena sudah ANGKA 1 hanya SATU (
yang menunjukkan Lulus, sehingga gambar pohon yang diperoleh terakhir yaitu pada
gambar 3.5.
1
Psikologi
ST
T R SR

1.1
TL TL TL
Jasmani

BS
B K KS
1.1.1
Kes 1 TL TL TL

Positif Negatif

TL L

Gambar 3.5 Hasil node 3

Anda mungkin juga menyukai