5
Decision Tree merupakan sebuah metode pengklasifikasian dengan langkah-
langkah menentukan atribut yang paling tinggi Information Gainnya untuk ditetapkan
sebagai level tertinggi yang mempengaruhi data. Untuk memperoleh nilai Gainnya
akan didapatkan dari pengukuran Entrophy [30]. Entrophy merupakan ukuran
kemurnian suatu atribut. Dalam Decision Tree, model digambarkan dalam bentuk
pohon (tree) [31]. Decission tree adalah model prediksi menggunakan struktur pohon
atau struktur berhirarki. Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan [32].
Algoritma C4.5 merupakan salah satu jenis dari algoritma Decision Tree. C4.5
merupakan pengembangan dari algoritma ID3. Perbedaan yang mencolok adalah
dalam C4.5 dapat menangani atribut bertipe numerik atau kontinu sedangkan ID3 tidak
dapat menangani atribut numerik, serta pemilihan node akar didasarkan pada nilai
Gain Ratio tertinggi bukan pada nilai gain tertinggi seperti ID3 [33]. Untuk atribut
kontinu pada C4.5 data dibagi dengan cara mengurutkan contoh berdasarkan atribut
kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-
contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu
menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas
yang sama [31].
Pada dasarnya algoritma C4.5 untuk membangun pohon keputusan adalah
sebagai berikut [30]:
a. akar diambil dari atribut.
b. masing-masing nilai dibuat dari cabang.
c. cabang dibagi oleh kasus.
d. masing-masing cabang prosesnya diulangi sampai semua kasus pada cabang
memiliki kelas yang sama.
| |
𝐺𝑎𝑖𝑛 (𝑆𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ | |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 ) … … … (2.1)
Keterangan :
S = Himpunan kasus.
A = atribut.
n = jumlah partisi atribut A.
│sI│ = jumlah kasus padapartisi ke i.
│s│ = jumlah kasus dalam S.
Sebelum menentukan Gain, maka harus dicari Entropy terlebih dahulu, Entropy
dirumuskan sebagai berikut [16]:
𝐺𝑎𝑖𝑛(𝑎)
𝐺𝑎𝑖𝑛 𝑅𝑎𝑡𝑖𝑜 (𝑎) = … … … … … … … … … … . . (2.4)
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑎)
Dimana Gain(a) merupakan nilai gain dari atribut “a” dan entropy(a)
merupakan nilai entropi dari atribut “a”.
=− ∗ 3,3219 − ∗ 0,152
= 0,33219 + 0,1368
= 0,46899
| |
Gain (SA) = Entropy (S) - ∑ | |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 )
| |
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆 )
= 0,46899 - ∗ 0,591 - ∗0
= 0,46899 -0,4137 – 0
= 0,05529
Dari hasil Tabel diatas diketahui bahwa atribut dengan Gain tertinggi terdapat
pada PsykologiYaitu sebesar 0,144484344. Dengan begitu Psykologi dapat menjadi
node akar. Ada 4 nilai atribut dari Psykologi yaitu ST, T, R, dan SR. Dari keempata
nilai atribut tersebut, nilai atribut STsudah mengklasifikasikan kasus menjadi 1 yaitu
keputusannya L ( Lulus), sehingga tidak perludilakukan perhitungan lebih lanjut,
tetapi untuk nilai atribut ST masih perlu dilakukan perhitungan lagi. Gambar 3.3
merupakan hasil dari perhitungan node diatas.
1
Psikologi
ST
T R SR
1.1
TL TL TL
?
Dari hasil Tabel diatas diketahui bahwa atribut dengan Gain tertinggi terdapat
pada JASMANI Yaitu sebesar 0,311278124. Dengan begitu JASMANI dapat
menjadi node akar. Ada 3 nilai atribut dari. Ada 4 nilai atribut dari JASMANI yaitu
BS, B, K, dan KS. Dari keempat nilai atribut tersebut, nilai atribut BS sudah
mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya L ( Lulus), sehingga tidak
perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut ST masih perlu
dilakukan perhitungan lagi. Dari hasil tabel node diatas maka didapatkan gambar
pohon yang terlihat pada gambar 3.4.
1
Psikologi
ST
T R SR
1.1
TL TL TL
Jasmani
BS
B K K
1.1.1
TL TL TL
?
1.1
TL TL TL
Jasmani
BS
B K KS
1.1.1
Kes 1 TL TL TL
Positif Negatif
TL L