Decision Tree
Decision Tree
5 )
Salah satu algoritme induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3)
yang dikembangkan oleh J. Ross Quinlan [50]. Prosedur algoritma ID3, input berupa sampel
training, label training dan atribut. Algoritme C4.5 merupakan pengembangan dari ID3.
Sedangkan pada perangkat lunak open source WEKA dikenal sebagai J48.
Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri
dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk
membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritme C4.5 dapat
menangani data numerik/kontinyu dan diskret. Split untuk atribut numerik yaitu mengurutkan
contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan (threshold)
M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu
menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama.
Split untuk atribut diskret A mempunyai bentuk value (A) ε X dimana X ⊂ domain(A).
Jika suatu set data mempunyai beberapa pengamatan dengan missing values yaitu record
dengan beberapa nilai variabel tidak ada, jika jumlah pengamatan terbatas maka atribut dengan
missing values dapat diganti dengan nilai rata-rata dari variabel yang bersangkutan [50].
Pemisahan obyek (split) dilakukan tes terhadap atribut dengan mengukur tingkat
ketidakmurnian pada sebuah simpul (node).
Pada algoritma C.45 menggunakan rasio perolehan (gain ratio). Sebelum menghitung
rasio perolehan, perlu menghitung dulu nilai informasi dalam satuan bit dari suatu kumpulan
objek. Cara menghitungnya dilakukan dengan menggunakan konsep entropi. Berikut ini contoh
kasus proses penghitungan secara matematis pada algoritme C 4.5 dapat dilihat pada Tabel 2.1.
Kasus pada Tabel 2.1 akan dibuat pohon keputusan untuk menentukan akan bermain
tenis atau tidak dengan kriteria berdasarkan outlook, temperature, humidity dan windy.
Cara kerja algoritme C4.5 dalam membangun pohon keputusan secara umum
menggunakan langkah berikut ini [53].
GainS , A Entropy( S )
n | Si |
* Entropy( Si) (2 - 7)
i 1 | S |
Keterangan:
S = Himpunan kasus
A = Atribut
n = Jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-i
|S| = Jumlah kasus dalam S
Keterangan:
S = Himpunan kasus
n = Jumlah partisi atribut A
pi = Proporsi dari Si terhadap S
Penyelesaian untuk permasalahan pada Tabel 2.1 dapat diuraikan sebagai berikut.
a. Menghitung jumlah kasus untuk keputusan yes dan keputusan no dan menghitung entropi
dari tiap kasus yang dibagi berdasarkan atribut outlook ,temperature, humidity, windy.
Selanjutnya dilakukan perhitungan gain. Jika perbandingan dua kelas, rasionya sama
maka entropi bernilai 1 dan jika satu set hanya terdiri dari satu kelas maka entropi bernilai
0.
= 0,863 bits
Proses perhitungan diatas juga diterapkan untuk atribut temperature, humidity, dan
windy. Secara lengkap hasil untuk proses split pada node 1 tampak pada Tabel 2.2 untuk
dibandingkan nilai gain untuk penentuan node akar.
1
1
High Normal
1 Ye
s
Gambar 2.1 Pohon keputusan hasil perhitungan node 1