Pembentukan Pohon Keputusan Dengan ID3 Dan C4.5

BAB IV
METODE KLASIFIKASI
4.1 Metode Pohon Keputusan (Decision tree method)
Pada bab ini akan dibahas salah satu metode klasifikasi dalam data
mining. Salah satu metode klasifikasi yang menarik melibatkan
pembangunan pohon keputusan, koleksi node keputusan, terhubung oleh
cabang-cabang, memperluas ke bawah dari simpul akar sampai berakhir di
node daun. Pohon Keputusan adalah flowchart yang berbentuk seperti
struktur pohon, dimana setiap simpul internal (node keputusan) menunjukkan
test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul
daun (simpul terminal) adalah merupakan sebuah class. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang
merepresentasikan rule. Secara umum metode membangun pohon keputusan
antara lain menentukan atribut sebagai akar, membuat cabang untuk masingmasing nilai, membagi data dalam cabang dan mengulangi proses untuk
masing-masing cabang sampai semua data pada cabang memiliki kelas yang
sama.
Bagian awal dari pohon keputusan ini adalah akar (root) dan setiap cabang
dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan,
dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan.
Pohon keputusan mempunyai 3 tipe simpul yaitu:
1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki
cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali.
Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar
pada suatu kelas tertentu.
2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan
memiliki lebih dari 1 cabang yang keluar.
3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang
masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul
tersebut merupakan label kelas.
Gambar 4.1 Pohon Keputusan untuk konsep pembelian komputer.

(Jiawei Han, 2006)
Pada gambar 4.1 menunjukkan sebuah pohon keputusan dalam membeli

komputer, yaitu memprediksi apakah pelanggan kemungkinan akan membeli
komputer. Node keputusan ditandai dengan persegi panjang, dan node daun
ditandai dengan oval. Simpul akar pada tersebut adalah umur yang memiliki
tepat dua simpul keputusan dibawah nya. Beberapa algoritma pohon
keputusan hanya menghasilkan pohon biner (di mana setiap cabang simpul
keputusan memilik tepat dua simpul daun atau simpul keputusan dibawah
nya), sedangkan yang lain dapat menghasilkan pohon non biner.
Pohon keputusan dengan mudah dapat dikonversi ke aturan
klasifikasi. Pembangunan pengklasifikasi pohon keputusan tidak
memerlukan pengetahuan domain atau pengaturan parameter, dan karena itu
cocok untuk eksplorasi penemuan pengetahuan. Pohon keputusan dapat
menangani data dimensi tinggi. Ketika pohon keputusan dibangun,
banyaknya jumlah cabang dapat mencerminkan noise atau outlier dalam data
pelatihan. Upaya pemangkasan pohon dilakukan untuk mengidentifikasi dan
menghapus cabang dengan tujuan meningkatkan akurasi klasifikasi pada
data. Secara umum, pengklasifikasi pohon keputusan memiliki akurasi yang
baik. Namun, keberhasilan tergantung pada data yang ada. Algoritma induksi
pohon keputusan telah digunakan untuk klasifikasi dalam banyak area
aplikasi, seperti kedokteran, manufaktur dan produksi, analisis keuangan,
astronomi, dan biologi molekuler. Pohon keputusan merupakan dasar dari
beberapa sistem induksi aturan komersial.
4.1.1
ID3
Pada tahun 1970 dan awal 1980, J. Ross Quinlan, seorang peneliti
dalam machine learning mengembangkan algoritma decision tree yang
dikenal sebagai ID3 (Iterative Dichotomiser). Algortima ID3 merupakan
algortima yang sering digunakan karena kemudahan dan kefektifannya.
Algoritma ID3 membentuk decision tree dari beberapa data simbolik yang
bersifat tetap ataupun historikal untuk melakukan pembelajaran
mengklasifikasikan data tersebut dan memprediksi klasifikasi data yang baru.
Data harus memiliki beberapa atribut dengan nilai yang berbeda. Selain itu
data ini juga harus memiliki beragam standar, class yang diskrit (misal:
Yes/No). Decision tree memilih atribut untuk pengambilan keputusan dengan
menggunakan Information Gain. Algoritma ID3 adalah algoritma decision
tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar.
Algoritma ini melakukan pencarian secara rakus/menyeluruh (greedy) pada
semua kemungkinan pohon keputusan.
Struktur dasar dari ID3 adalah iteratif. Sebuah subset dari training set
disebut window, dipilih secara acak dan dibentuk pohon keputusan. Pohon
ini mengklasifikasikan semua objek pada window, kemudian objek-objek lain
pada training set ini kemudian diklasifikasikan menggunakan pohon tersebut.
Jika pohon tersebut memberikan jawaban yang benar untuk semua objek,
maka dinyatakan benar juga untuk seluruh training set dan selanjutnya
seluruh proses dihentikan. Jika tidak, objek terpilih yang belum
terklasifikasikan akan ditambahkan ke window dan proses berlanjut.
Algoritma ini membentuk pohon keputusan dengan cara pembagian
dan menguasai sampel secara rekursif dari atas ke bawah. Algoritma ID3
dimulai dengan semua data yang ada sebagai akar dari pohon keputusan.
Sebuah atribut yang dipilih akan menjadi pembagi dari sampel tersebut.
Untuk setiap atribut dari cabang yang telah dibentuk, semua sampel yang
memiliki nilai yang sama dengan atribut cabang akan masuk dalam
anggotanya dan dinamakan anak cabang.
Tujuan dari pengukuran nilai Information Gain adalah untuk memilih atribut
yang akan dijadikan cabang pada pembentukan pohon keputusan. Atribut
yang memiliki nilai Information Gain yang tertinggi akan dipilih menjadi
atribut uji untuk dijadikan cabang pohon.
ENTROPY & INFORMATION GAIN

Metode dasar ID3 adalah memilih atribut-atribut untuk klasifikasi
dengan menggunakan metode statistik dimulai dari tree bagian atas. Cara
memilih atribut adalah dengan menggunakan properti statistikal yang disebut
dengan Information Gain, yang didefinisikan untuk menentukan ukuran nilai
dari suatu atribut. Sebelumnya sebuah objek yang diklasifikasikan dalam
pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi
yang dapat mengetahui karakteristik dari impurity dan homogenity dari
kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai
Information Gain (IG) masing-masing atribut. Nilai entropy didefinisikan
sebagai berikut:
() = log 2 ( )
Dimana Pi adalah rasio dari class Ci didalam set data sampel

S = {x1,x2,... xk}
=
Sebagai contoh, set sampel S mempunyai 14 members, dimana didalamnya

ada 9 sampel positif dan 5 sampel negatif. Entropy dari S adalah :
(9 + ,5 ) = (
9
9
5
5
) log 2 ( ) ( ) log 2 ( ) = 0.940
14
14
14
14
Pada beberapa kasus, jika semua member dari set sampel S memiliki
nilai yang sama, maka nilai entropy adalah nol. Hal itu berarti tidak ada
klasifikasi yang mempunyai ketidakpastian (uncertainty). Namun jika jumlah
sampel positif sama dengan jumlah sampel negatif, maka entropy bernilai 1,
berarti ketidakpastian bernilai maksimum. Ini berarti set sampel tidak
mempunyai ketidakpastian (keputusan dari decision tree sudah jelas). Jika
jumlah sampel positif tidak sama dengan jumlah sampel negatif, maka nilai
entropy akan berada diantara 0 dan 1.
Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy
(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada suatu ruang sampel S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai entropy maka semakin baik digunakan dalam
mengekstraksi suatu kelas. Setelah mendapat nilai entropy untuk suatu
kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam
mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain.
Secara matematis, infomation gain dari suatu atribut A,dituliskan sebagai
berikut :
(, ) = ()
()
| |
( )
||
Dimana :
bobot W_i=|S_v |/|S|
set sampel
merupakan rasio dari data dengan atribut v didalam
A : atribut
V : suatu nilai yang mungkin untuk atribut A
Values (A) : himpunan yang mungkin untuk atribut A
|Sv| : jumlah sampel untuk nilai v
|S| : jumlah seluruh sampel data
E(Sv) : entropy untuk sampel-sampel yang memilki nilai v
Contoh Penerapan Algoritma ID3

Sebagai contoh penerapan algortima ID3 akan digunakan contoh data sebagai
berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada seluruh
karyawannya. Untuk memberikan bonus ini, departemen kepegawaian
perusahaan ini melakukan pembagian karyawan ke dalam tiga buah golongan
yaitu, Golongan A, Golongan B, dan Golongan C. Berikut adalah bonus yang
diperoleh oleh masing-masing golongan karyawan.
Golongan
Bonus Tahunan
Rp 10.000.000,00
Rp 5.000.000,00
Rp 2.500.000,00
Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini,

departemen kepegawaian menggunakan lima buah parameter, yaitu:
1. Tingkat kehadiran karyawan (Tinggi, Sedang, Rendah)
2. Prestasi karyawan (Tinggi, Rendah)
3. Lama karyawan bekerja di perusahaan ini (Lama, Baru)
4. Jumlah tanggungan karyawan (Banyak, Menengah, Sedikit, Tidak

Ada)
5. Pendidikan karyawan (Tinggi, Sedang, Rendah).
Berikut ini adalah data arsip karyawan yang sudah terklasifikasi secara valid.
Kehadiran
Prestasi
Tinggi
Sedang
Rendah
Tinggi
Sedang
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Rendah
TInggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Lama
Baru
Baru
Baru
Lama
Lama
Baru
Lama
Lama
Lama
Lama
Baru
Baru
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Sedikit
Menengah
Banyak
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Tidak Ada
Menengah
Menengah
Menengah
Menengah
Menengah
Tinggi
Sedang
Rendah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Sedang
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Rendah
Tinggi
Sedang
A
C
B
C
B
B
C
A
B
C
A
A
B
C
B
C
C
B
A
A
Pembentukan Akar
Langkah pertama dalam algortima ini adalah pembentukan akar dengan
memilih atribut dengan nilai gain tertinggi. Sebelum melakukan hal tersebut,
harus dilakukan perhitungan jumlah objek data sampel dengan golongan
(kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran, prestasi,
lama bekerja, tanggungan, dan pendidikan. Tabel berikut menggambarkan
hasil penghitungan jumlah objek data sampel tersebut.
Atribut
Jumlah Kasus
Total
20
A
6
Golongan
B
7
C
7
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
9
6
5
13
7
11
9
4
1
9
6
8
5
7
3
0
3
6
0
6
0
2
0
2
2
4
2
0
3
3
1
7
0
2
5
1
0
4
2
1
1
5
3
3
1
0
7
3
4
1
1
3
2
3
2
2
Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

data. Berikut perhitungannya:
Entropi Total :
6
6
7
7
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
20
20
20
20
20
20
= 1,581
Entropi Kehadiran :
3
3
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,585
0
0
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
3
3
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,371
Entropi Prestasi :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
0
0
0
0
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,000
Entropi Lama Bekerja :

6
6
2
2
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
11
11
11
11
11
11
= 1,435
0
0
5
5
4
4
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 0,991
Entropi Tanggungan :
2
2
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,500
0
0
0
0
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
4
4
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,530
2
2
2
2
2
2
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,585
Entropi Pendidikan :
4
4
1
1
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 1,406
2
2
1
1
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,522
0
0
5
5
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,863
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
9
6
5
(, ) = 1,581 (( ) 1,585 + ( ) 1,000 + ( ) 1,371)
20
20
20
= 0,225
13
7
(, ) = 1,581 (( ) 0,996 + ( ) 0,000)
20
20
= 0,934
11
9
(, ) = 1,581 (( ) 1,435 + ( ) 0,991)
20
20
= 0,346
4
1
( ) 1,500 + ( ) 0,000
20
(, ) = 1,581 ( 20
)
9
6
+ ( ) 1,530 + ( ) 1,585
20
20
= 0,117
(, )
8
5
7
= 1,581 (( ) 1,406 + ( ) 1,522 + ( ) 0,863)
20
20
20
= 0,336
Hasil perhitungan entropi dan gain dapat dilihat pada tabel berikut:
Atribut
Entropi
Gain
Total
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
1.581
1.585
1.000
1.371
0.996
0.000
1.435
0.991
1.500
0.000
1.530
1.585
1.406
1.522
0.863
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
0.225
0.934
0.346
0.117
0.336
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Prestasi, yaitu sebesar 0,934. Oleh karena itu atribut Prestasi
dijadikan sebagai akar.
Ada dua nilai atribut ini, yaitu Tinggi dan Rendah yang dijadikan sebagai
cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah seperti
tabel berikut.
Tabel Data Prestasi Tinggi
Kehadiran
Prestasi
Tinggi
Rendah
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tabel Data Prestasi Rendah
Lama
Bekerja
Lama
Lama
Baru
Baru
Lama
Baru
Lama
Lama
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Menengah
Menengah
Menengah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Sedang
A
B
B
B
A
B
A
A
B
B
B
A
A
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
Pendidikan
Gol
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Baru
Baru
Lama
Lama
Baru
Lama
Baru
Sedikit
Banyak
Menengah
Tidak Ada
Tidak Ada
Menengah
Menengah
Sedang
Tinggi
Rendah
Sedang
Tinggi
Tinggi
Rendah
C
C
C
C
C
C
C
Prestasi
Rendah
GOL C
Tinggi
1.1
?
Pembentukan Node Keputusan 1.1

Berikutnya adalah pembentukan node keputusan 1.1 dengan memilih atribut
dengan nilai gain tertinggi, selain atribut Prestasi. Sama seperti langkah
sebelumnya, harus dilakukan perhitungan jumlah objek data sampel dengan
golongan (kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran,
lama bekerja, tanggungan, dan pendidikan. Selain itu, jumlah objek data yang
dihitung merupakan data dengan atribut Prestasi bernilai Tinggi. Tabel
berikut menggambarkan hasil penghitungan jumlah objek data sampel
dengan atribut prestasi bernilai tinggi.
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
13
6
3
4
8
5
3
0
6
4
5
3
5
A
6
3
0
3
6
0
2
0
2
2
4
2
0
Golongan
B
7
3
3
1
2
5
1
0
4
2
1
1
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0

Entropi Total :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
Entropi Kehadiran :
3
3
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
0
0
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811

6
6
2
2
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 0,811
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
4
4
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 0,918
2
2
2
2
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,000
4
4
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,722
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
6
3
4
(, ) = 0,996 (( ) 1,000 + ( ) 0,000 + ( ) 0,811)
13
13
13
= 0,285
8
5
(, ) = 0,996 (( ) 0,811 + ( ) 0,000)
13
13
= 0,496
3
0
( ) 0,918 + ( ) 0,000
13
(, ) = 0,996 ( 13
)
6
4
+ ( ) 0,918 + ( ) 1,000
13
13
= 0,052
(, )
5
3
5
= 0,996 (( ) 0,722 + ( ) 0,918 + ( ) 0,000)
13
13
13
= 0,506
Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Atribut
Total
Entropi
0.996
1.000
0.000
0.811
0.811
0.000
0.918
0.000
0.918
1.000
0.722
0.918
0.000
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Gain
0.285
0.496
0.052
0.506
tertinggi adalah Pendidikan, yaitu sebesar 0,506. Oleh karena itu atribut
Pendidikan dijadikan sebagai node keputusan 1.1. Ada tiga nilai atribut ini,
yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node
keputusan Pendidikan. Data dari atribut pendidikan dipisah seperti berikut.
Tabel Data Prestasi Tinggi dan Pendidikan Tinggi
Kehadiran
Prestasi
Tinggi
Rendah
Sedang
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Menengah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
A
A
B
A
A
Tanggungan
Pendidikan
Gol
Banyak
Tidak Ada
Menengah
Sedang
Sedang
Sedang
A
B
A
Tabel Data Prestasi Tinggi dan Pendidikan Sedang
Kehadiran
Prestasi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Lama
Tabel Data Prestasi Tinggi dan Pendidikan Rendah
Kehadiran
Prestasi
Rendah
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Baru
Lama
Baru
Tanggungan
Pendidikan
Gol
Menengah
Menengah
Menengah
Banyak
Menengah
Rendah
Rendah
Rendah
Rendah
Rendah
B
B
B
B
B
Cabang Tinggi dan Sedang masih perlu dilakukan perhitungan lebih lanjut
lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama.
Cabang Rendah sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Berikut
adalah gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
Sedang
GOL B
1.1.2
?
1.1.1
?
Pembentukan Node keputusan 1.1.1

Berikutnya adalah pembentukan node keputusan 1.1.1 dengan memilih
atribut dengan nilai gain tertinggi, selain atribut Prestasi dan Pendidikan.
Sama seperti langkah sebelumnya, harus dilakukan perhitungan jumlah objek
data sampel dengan golongan (kelas data) A, B, dan C serta dibagi
berdasarkan atribut kehadiran, lama bekerja, tanggungan, dan pendidikan.
Selain itu, jumlah objek data yang dihitung merupakan data dengan atribut
Prestasi bernilai Tinggi dan atribut Pendidikan bernilai Tinggi. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel dengan atribut
Pendidikan Tinggi.
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Jumlah
Kasus
5
2
1
2
4
1
1
0
1
3
A
4
2
0
2
4
0
1
0
1
2
Golongan
B
1
0
1
0
0
1
0
0
0
1
C
0
0
0
0
0
0
0
0
0
0

Entropi Total :
4
4
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,722
Entropi Kehadiran :
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
0
0
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000

4
4
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,000
0
0
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
1
1
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
2
1
2
(, ) = 0,722 (( ) 0,000 + ( ) 0,000 + ( ) 0,000)
5
5
5
= 0,722
4
1
(, ) = 0,722 (( ) 0,000 + ( ) 0,000)
5
5
= 0,722
1
0
( ) 0,000 + ( ) 0,000
5
(, ) = 0,722 ( 5
)
1
3
+ ( ) 0,000 + ( ) 0,918
5
5
= 0,171

Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Entropi
0.722
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.918
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Gain
0.722
0.722
0.171
tertinggi adalah Kehadiran dan Lama Bekerja, yaitu sebesar 0,722. Oleh
karena itu dipilih salah satu dari atribut tesebut. Missal dipilih atribut
Kehadiran dijadikan sebagai node keputusan 1.1.1. Ada tiga nilai atribut ini,
yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node
keputusan Kehadiran.
Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Tinggi
Kehadiran
Prestasi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
A
A
Tanggungan
Pendidikan
Gol
Tidak Ada
Tinggi
Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Sedang
Kehadiran
Prestasi
Sedang
Tinggi
Lama
Bekerja
Baru
Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Rendah
Kehadiran
Prestasi
Rendah
Rendah
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Tinggi
Tinggi
A
A
Cabang Tinggi, Sedang, dan Rendah sudah tidak perlu dilakukan perhitungan
lebih lanjut lagi, karena seluruh data sampel sudah terkumpul di satu kelas
yang sama. Cabang Tinggi sudah dapat mengklasifikasikan objek data ke
dalam Golongan A, karena seluruh data sampel sudah terkumpul di kelas A.
Cabang Sedang sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan A,
karena seluruh data sampel sudah terkumpul di kelas A. Berikut adalah
gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
GOL B
Sedang
1.1.2
?
1.1.1
Kehadiran
Rendah
GOL A
Sedang
GOL B
Tinggi
GOL A

atribut dengan nilai gain tertinggi, selain atribut Prestasi dan Pendidikan.
berdasarkan atribut kehadiran, lama bekerja, tanggungan, dan pendidikan.
Selain itu, jumlah objek data yang dihitung merupakan data dengan atribut
Prestasi bernilai Tinggi dan atribut Pendidikan bernilai Sedang. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel tersebut.
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Jumlah
Kasus
3
2
0
1
2
1
1
0
1
1
A
2
1
0
1
2
0
1
0
1
0
Golongan
B
1
1
0
0
0
1
0
0
0
1
C
0
0
0
0
0
0
0
0
0
0

Entropi Total :
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
Entropi Kehadiran :
1
1
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 1,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000

2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
0
0
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
1
1
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
0
1
(, ) = 0,918 (( ) 1,000 + ( ) 0,000 + ( ) 0,000)
3
3
3
= 0,252
2
1
(, ) = 0,918 (( ) 0,000 + ( ) 0,000)
3
3
= 0,918
1
0
( ) 0,000 + ( ) 0,000
3
(, ) = 0,918 ( 3
)
1
1
+ ( ) 0,000 + ( ) 0,000
3
3
= 0,918

Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Entropi
0.918
1.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
Gain
0.252
0.918
0.918
tertinggi adalah Lama Bekerja dan Tanggungan, yaitu sebesar 0,918. Oleh
karena itu dipilih salah satu dari atribut tersebut. Misal dipilih atribut Lama
Bekerja dijadikan sebagai node keputusan 1.1.2.
Tabel Data Prestasi Tinggi, Pendidikan Sedang dan Lama Bekerja Lama
Kehadiran
Prestasi
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Banyak
Menengah
Sedang
Sedang
A
A
Tabel Data Prestasi Tinggi, Pendidikan Sedang dan Lama Bekerja Baru
Kehadiran
Prestasi
Tinggi
Tinggi
Lama
Bekerja
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Sedang
Ada dua nilai atribut ini, yaitu Lama dan Baru yang dijadikan sebagai cabang
dari node keputusan Lama Bekerja. Cabang Lama dan Baru sudah tidak perlu
dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel sudah
terkumpul di satu kelas yang sama. Cabang Lama sudah dapat
mengklasifikasikan objek data ke dalam Golongan A, karena seluruh data
sampel sudah terkumpul di kelas A. Cabang Baru sudah dapat
mengklasifikasikan objek data ke dalam Golongan B, karena seluruh data
sampel sudah terkumpul di kelas B. Berikut adalah gambaran decision tree
yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
Sedang
1.1.2
Lama Bekerja
GOL B
Lama
GOL A
1.1.1
Kehadiran
Baru
Rendah
GOL B
GOL A
Sedang
GOL B
Tinggi
GOL A
Proses pembentukan pohon keputusan sudah berakhir, karena sudah tidak ada
cabang yang perlu dilakukan perhitungan lebih lanjut lagi. Pada perhitungan
setiap cabang, seluruh objek data sampel sudah berkumpul di satu kelas yang
sama.
Berikut adalah contoh data baru. Data ini akan diklasifikasikan ke dalam
Golongan Karyawan A, B, atau C. dengan menggunakan decision tree di atas:
No
Kehadiran
Prestasi
1
2
Rendah
Sedang
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
?
?
Untuk data no 1 diketahui data baru dengan atribut kehadiran bernilai rendah,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Lama, atribut
tanggungan bernilai Tidak Ada, dan atribut pendidikan bernilai Tinggi.
Aturan yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^
(Kehadiran = Rendah) THEN (Gol = Gol A)
Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut

diklasifikasi sebagai karyawan dengan Golongan A
Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut
tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan
yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^
(Kehadiran = Rendah) THEN (Gol = Gol B)

diklasifikasi sebagai karyawan dengan Golongan B
4.1.2
C4.5
Metode klasifikasi berikutnya yang cukup popular adalah algoritma

C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3. Konsep
dasar algoritma C4.5 memiliki kesamaan dengan IDE. Perbedaan utama C4.5
dari ID3 adalah:
- C4.5 dapat menangani atribut kontinyu dan diskrit.
- C4.5 dapat menangani training data dengan missing value.
- Hasil pohon keputusan C4.5 akan dipangkas setelah dibentuk.
- Pemilihan atribut yang dilakukan dengan menggunakan Gain ratio.
Gain ratio
Informasi gain pada ID3 lebih memilih atribut yang memiliki data
yang besar. Sebagai contoh, mempertimbangkan atribut yang berfungsi
sebagai unique identifier, seperti product_ID akan menghasilkan keluaran
dalam jumlah yang banyak, di mana setiap keluaran hanya terdiri dari satu
tuple. Karena setiap partisi murni, informasi yang diperlukan untuk
mengklasifikasikan data set D berdasarkan partisi ini akan menjadi
Infoproduct ID (D) = 0. Sebagai akibatnya, informasi yang diperoleh oleh
partisi pada atribut ini adalah maksimal. Padahal, jelas sekali terlihat bahwa
partisi semacam ini tidaklah berguna.
C4.5 sebagai penerus dari ID3 menggunakan ekstensi untuk informasi
gain yang dikenal sebagai gain ratio untuk mengatasi bias yang terjadi pada
ID3. Ini semacam bentuk normalisasi untuk mendapatkan informasi
menggunakan split informasi yang dapat didefinisikan seperti berikut.
() =
=0
||
||
2 (
)
||
||
Dimana:
D = ruang (data) sample yang digunakan untuk training.
Dj = jumlah sample untuk atribut i
Nilai ini merupakan informasi yang potensial yang dihasilkan dengan
memisahkan set data pelatihan, D, menjadi partisi v, sesuai dengan hasil v
dari tes pada atribut A. Untuk mecari nilai gain ratio didefinisikan seperti
berikut.
() =
Contoh Penerapan Algoritma C4.5
()
()
Sebagai contoh penerapan algortima C4.5 akan digunakan contoh data

sebagai berikut. Sebuah perusahaan akan memberikan bonus tahunan kepada
seluruh karyawannya. Untuk memberikan bonus ini, departemen
kepegawaian perusahaan ini melakukan pembagian karyawan ke dalam tiga
buah golongan yaitu, Golongan A, Golongan B, dan Golongan C. Berikut
adalah bonus yang diperoleh oleh masing-masing golongan karyawan.
Golongan
Bonus Tahunan
Rp 10.000.000,00
Rp 5.000.000,00
Rp 2.500.000,00
Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini,

departemen kepegawaian menggunakan lima buah parameter, yaitu:
1.
2.
3.
4.
Tingkat kehadiran karyawan (Tinggi, Sedang, Rendah)

Prestasi karyawan (Tinggi, Rendah)
Lama karyawan bekerja di perusahaan ini (Lama, Baru)
Jumlah tanggungan karyawan (Banyak, Menengah, Sedikit, Tidak
Ada)
5. Pendidikan karyawan (Tinggi, Sedang, Rendah).
Berikut ini adalah data arsip karyawan yang sudah terklasifikasi secara valid.
No
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
Pendidikan
Gol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tinggi
Sedang
Rendah
Tinggi
Sedang
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Rendah
Tinggi
Tinggi
Tinggi
Lama
Baru
Lama
Baru
Baru
Baru
Lama
Lama
Baru
Lama
Lama
Lama
Lama
Baru
Baru
Lama
Baru
Baru
Lama
Lama
Tidak Ada
Sedikit
Menengah
Banyak
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Tidak Ada
Menengah
Menengah
Menengah
Menengah
Menengah
Tinggi
Sedang
Rendah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Sedang
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Rendah
Tinggi
Sedang
A
C
B
C
B
B
C
A
B
C
A
A
B
C
B
C
C
B
A
A
Pembentukan Akar
Langkah pertama dalam algortima ini adalah pembentukan akar dengan
memilih atribut dengan nilai gain ratio tertinggi. Sebelum melakukan hal
tersebut, harus dilakukan perhitungan jumlah objek data sampel dengan
prestasi, lama bekerja, tanggungan, dan pendidikan. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel tersebut.
Atribut
Jumlah Kasus
Total
20
A
6
Golongan
B
7
C
7
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
9
6
5
13
7
11
9
4
1
9
6
8
5
7
3
0
3
6
0
6
0
2
0
2
2
4
2
0
3
3
1
7
0
2
5
1
0
4
2
1
1
5
3
3
1
0
7
3
4
1
1
3
2
3
2
2

Entropi Total :
6
6
7
7
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
20
20
20
20
20
20
= 1,581
Entropi Kehadiran :
3
3
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,585
0
0
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
3
3
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,371
Entropi Prestasi :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
0
0
0
0
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,000

6
6
2
2
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
11
11
11
11
11
11
= 1,435
0
0
5
5
4
4
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 0,991
2
2
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,500
0
0
0
0
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
4
4
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,530
2
2
2
2
2
2
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,585
4
4
1
1
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 1,406
2
2
1
1
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,522
0
0
5
5
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,863
9
6
5
(, ) = 1,581 (( ) 1,585 + ( ) 1,000 + ( ) 1,371)
20
20
20
= 0,225
13
7
(, ) = 1,581 (( ) 0,996 + ( ) 0,000)
20
20
= 0,934
11
9
(, ) = 1,581 (( ) 1,435 + ( ) 0,991)
20
20
= 0,346
4
1
( ) 1,500 + ( ) 0,000
20
(, ) = 1,581 ( 20
)
9
6
+ ( ) 1,530 + ( ) 1,585
20
20
= 0,117
(, )
8
5
7
= 1,581 (( ) 1,406 + ( ) 1,522 + ( ) 0,863)
20
20
20
= 0,336
Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

9
9
6
6
5
5
() = ( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
= 1.539
() = (
13
13
7
7
) log 2
( ) log 2
20
20
20
20
= 0.934
( ) = (
11
11
9
9
) log 2
( ) log 2
20
20
20
20
= 0.993
()
4
4
1
1
9
9
6
6
= ( ) log 2
( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
20
20
= 1.720
8
8
5
5
7
7
() = ( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
= 1.559
Selanjutnya adalah melakukan perhitungan nilai Gain ratio dari seluruh

atribut data. Berikut perhitungannya:
() = 0.225 / 1.539 = 0.146

() = 0.934 / 0.934 = 1
( ) = 0.346 / 0.993 = 0.348
() = 0.117 / 1.720 = 0.068
() = 0.336 / 1.559 = 0.216
Hasil perhitungan entropi, gain, splitinfo dan gain ratio dapat dilihat pada
tabel berikut:
Atribut
Entropi
Total
1.581
1.585
1.000
1.371
0.996
0.000
1.435
0.991
1.500
0.000
1.530
1.585
1.406
1.522
0.863
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.225
1.539
0.146
0.934
0.934
0.346
0.993
0.348
0.117
1.720
0.068
0.336
1.559
0.216
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio
tertinggi adalah Prestasi, yaitu sebesar 1. Oleh karena itu atribut Prestasi
dijadikan sebagai akar.
Ada dua nilai atribut Prestasi, yaitu Tinggi dan Rendah yang dijadikan
sebagai cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah
seperti tabel berikut.
Tabel Data Prestasi Tinggi
No
Kehadiran
Prestasi
1
3
5
6
8
9
11
12
13
15
18
19
20
Tinggi
Rendah
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Baru
Baru
Lama
Baru
Lama
Lama
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Menengah
Menengah
Menengah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Sedang
A
B
B
B
A
B
A
A
B
B
B
A
A
Tanggungan
Pendidikan
Gol
Sedikit
Banyak
Menengah
Tidak Ada
Tidak Ada
Menengah
Menengah
Sedang
Tinggi
Rendah
Sedang
Tinggi
Tinggi
Rendah
C
C
C
C
C
C
C
Tabel Data Prestasi Rendah
No
Kehadiran
Prestasi
2
4
7
10
14
16
17
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Lama
Bekerja
Baru
Baru
Lama
Lama
Baru
Lama
Baru
Cabang Tinggi masih perlu dilakukan perhitungan lebih lanjut lagi, karena
seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan C,
karena seluruh data sampel sudah terkumpul di kelas C. Berikut adalah
Prestasi
Tinggi
Rendah
GOL C
1.1
?
Pembentukan Node keputusan 1.1

Berikutnya adalah pembentukan node keputusan 1.1 dengan memilih atribut
dengan nilai gain ratio tertinggi, selain atribut Prestasi. Sama seperti langkah
sebelumnya, harus dilakukan perhitungan jumlah objek data sampel dengan
lama bekerja, tanggungan, dan pendidikan. Selain itu, jumlah objek data yang
dihitung merupakan data dengan atribut Prestasi bernilai Tinggi. Tabel
berikut menggambarkan hasil penghitungan jumlah objek data sampel
dengan atribut prestasi bernilai tinggi.
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
13
6
3
4
8
5
3
0
6
4
5
3
5
A
6
3
0
3
6
0
2
0
2
2
4
2
0
Golongan
B
7
3
3
1
2
5
1
0
4
2
1
1
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0

data kecuali atribut prestasi. Berikut perhitungannya:
Entropi Total :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
Entropi Kehadiran :
3
3
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
0
0
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811

6
6
2
2
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 0,811
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
4
4
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 0,918
2
2
2
2
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,000
4
4
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,722
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data
kecuali atribut prestasi. Berikut perhitungannya:
6
3
4
(, ) = 0,996 (( ) 1,000 + ( ) 0,000 + ( ) 0,811)
13
13
13
= 0,285
8
5
(, ) = 0,996 (( ) 0,811 + ( ) 0,000)
13
13
= 0,496
3
0
( ) 0,918 + ( ) 0,000
13
(, ) = 0,996 ( 13
)
6
4
+ ( ) 0,918 + ( ) 1,000
13
13
= 0,052
(, )
5
3
5
= 0,996 (( ) 0,722 + ( ) 0,918 + ( ) 0,000)
13
13
13
= 0,506

6
6
3
3
4
4
() = ( ) log 2
( ) log 2
( ) log 2
13
13
13
13
13
13
= 1.526
( ) = (
8
8
5
5
) log 2
( ) log 2
13
13
13
13
= 0.961
()
3
3
0
0
6
6
4
4
= ( ) log 2
( ) log 2
( ) log 2
( ) log 2
13
13
13
13
13
13
13
13
=~
5
5
3
3
5
5
() = ( ) log 2
( ) log 2
( ) log 2
13
13
13
13
13
13
= 1.549

() = 0.285 / 1.526 = 0.186
( ) = 0.496 / 0.961 = 0.517
() = 0.052 / ~ = ~
() = 0.506/ 1.549 = 0.327

Atribut
Entropi
Total
0.996
1.000
0.000
0.811
0.811
0.000
0.918
0.000
0.918
1.000
0.722
0.918
0.000
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.285
1.526
0.186
0.496
0.961
0.517
0.052
0.506
1.549
0.327
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio
tertinggi adalah Lama Bekerja, yaitu sebesar 0,517. Oleh karena itu atribut
Lama Bekerja dijadikan sebagai node keputusan 1.1. Ada dua nilai atribut ini,
yaitu Lama dan Baru yang dijadikan sebagai cabang dari node keputusan
Lama Bekerja. Data dari atribut Lama Bekerja dipisah seperti berikut.
Tabel Data Prestasi Tinggi dan Lama Bekerja Baru
No
Kehadiran
Prestasi
5
6
9
15
18
Sedang
Tinggi
Sedang
Tinggi
Sedang
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Baru
Baru
Baru
Baru
Baru
Tabel Data Prestasi Tinggi dan Lama Bekerja Lama
Tanggungan
Pendidikan
Gol
Menengah
Menengah
Tidak Ada
Tidak Ada
Menengah
Rendah
Rendah
Tinggi
Sedang
Rendah
B
B
B
B
B
No
Kehadiran
Prestasi
1
3
8
11
12
13
19
20
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Lama
Lama
Lama
Lama
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Tidak Ada
Banyak
Banyak
Banyak
Menengah
Menengah
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Tinggi
Sedang
A
B
A
A
A
B
A
A
Data Lama Bekerja = Lama masih perlu dilakukan perhitungan lebih lanjut
lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama.
Cabang Lama Bekerja = Baru sudah dapat mengklasifikasikan objek data ke
dalam Golongan B, karena seluruh data sampel sudah terkumpul di kelas B.
Berikut adalah gambaran pohon keputusan yang sudah terbentuk pada
tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Lama Bekerja
Baru
GOL B
Lama
1.1.1
?

atribut dengan nilai gain tertinggi, selain atribut Prestasi dan Lama Bekerja.
berdasarkan atribut kehadiran, tanggungan, dan pendidikan. Selain itu,
jumlah objek data yang dihitung merupakan data dengan atribut Prestasi
bernilai Tinggi dan atribut Lama Bekerja = Lama. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel dengan atribut
Prestasi bernilai Tinggi dan atribut Lama Bekerja = Lama.
Atribut
Total
Kehadiran
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
8
4
0
4
3
0
3
2
4
2
2
A
6
3
0
3
2
0
2
2
4
2
0
Golongan
B
2
1
0
1
1
0
1
0
0
0
2
C
0
0
0
0
0
0
0
0
0
0
0

data Kehadiran, Tanggungan dan Pendidikan. Berikut perhitungannya:
Entropi Total :
6
6
2
2
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 0,811
Entropi Kehadiran :
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
2
2
0
0
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
4
4
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,000
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
0
0
2
2
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data
Kehadiran, Tanggungan dan Pendidikan. Berikut perhitungannya:
4
0
4
(, ) = 0,811 (( ) 0,811 + ( ) 0,000 + ( ) 0,811)
8
8
8
= 0,000
3
0
( ) 0,918 + ( ) 0,000
8
(, ) = 0,811 ( 8
)
3
2
+ ( ) 0,918 + ( ) 0,000
8
8
= 0,123
4
2
2
(, ) = 0,811 (( ) 0,000 + ( ) 0,000 + ( ) 0,000)
8
8
8
= 0,811

4
4
0
0
4
4
() = ( ) log 2 ( ) log 2 ( ) log 2
8
8
8
8
8
8
=~
()
3
3
0
0
3
3
2
2
= ( ) log 2 ( ) log 2 ( ) log 2 ( ) log 2
8
8
8
8
8
8
8
8
=~
4
4
2
2
2
2
() = ( ) log 2 ( ) log 2 ( ) log 2
8
8
8
8
8
8
= 1.500

() = 0.000 / ~ = ~
() = 0.123 / ~ = ~
() = 0.811/ 1.500 = 0.541
Atribut
Entropi
Total
0.811
0.811
0.000
0.811
0.344
0.000
0.344
0.000
0.000
0.000
0.000
Kehadiran
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.000
0.123
0.811
1.500
0.541
tertinggi adalah Pendidikan, yaitu sebesar 0,541. Oleh karena Pendidikan
dijadikan sebagai node keputusan 1.1.1 Ada tiga nilai atribut ini, yaitu Tinggi,
Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan
Pendidikan.
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Tinggi
No
Kehadiran
Prestasi
1
8
12
19
Tinggi
Rendah
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Tidak Ada
Banyak
Menengah
Tinggi
Tinggi
Tinggi
Tinggi
A
A
A
A
Tanggungan
Pendidikan
Gol
Banyak
Menengah
Sedang
Sedang
A
A
Pendidikan
Gol
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Sedang
No
Kehadiran
Prestasi
11
20
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Rendah
No
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
3
13
Rendah
Tinggi
Tinggi
Tinggi
Lama
Lama
Menengah
Banyak
Rendah
Rendah
B
B
Cabang Tinggi, Sedang, dan Rendah sudah tidak perlu dilakukan perhitungan
lebih lanjut lagi, karena seluruh data sampel sudah terkumpul di satu kelas
yang sama. Cabang Tinggi sudah dapat mengklasifikasikan objek data ke
dalam Golongan A, karena seluruh data sampel sudah terkumpul di kelas A.
Cabang Sedang sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan B,
karena seluruh data sampel sudah terkumpul di kelas B. Berikut adalah
Prestasi
Tinggi
Rendah
GOL C
1.1
Lama Bekerja
Baru
Lama
GOL B
1.1.1
Pendidikan
Rendah
Tinggi
Sedang
GOL A
GOL A
GOL B
Berikut adalah contoh data baru. Data ini akan diklasifikasikan ke dalam
Golongan Karyawan A, B, atau C. dengan menggunakan decision tree di atas:
No
Kehadiran
Prestasi
1
2
Rendah
Sedang
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
?
?
Untuk data no 1 diketahui data baru dengan atribut kehadiran bernilai rendah,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Lama, atribut
tanggungan bernilai Tidak Ada, dan atribut pendidikan bernilai Tinggi.
Aturan yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Lama Bekerja = Lama) ^
(Pendidikan = Tinggi) THEN (Gol = Gol A)

diklasifikasi sebagai karyawan dengan Golongan A
Untuk data no 2 diketahui data baru dengan atribut kehadiran bernilai sedang,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Baru, atribut
tanggungan bernilai Banyak, dan atribut pendidikan bernilai Tinggi. Aturan
yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Lama Bekerja = Baru)
THEN (Gol = Gol B)

diklasifikasi sebagai karyawan dengan Golongan B
Pada data no 2 terlihat lebih cepat ditemukan nya hasil dibandingkan dengan
data no 1. Bila dibandingkan dengan algoritmaa ID3 sebelumnya, untuk
data no 2 juga lebih cepat ditemukan hasil dengan menggunakan algoritma
C4.5. Ini merupakan pengaruh dari penggunaan gain ratio pada algoritma
C4.5.
DAFTAR PUSTAKA
Quinlan, J. R. Induction of Decision trees. Machine Learning, vol. 1, pp. 81106, 1986
Han, J., Kamber, M. Data Mining: Concepts and Techniques. Morgan
Kaufmann, 2000
Larose, D.T. Discovering Knowledge in data An introduction to data
mining. John Wiley & Sons, 2005
http://nugikkool.blogspot.com/2012/08/pohon-keputusan-id3-dan-c45menggunakan.html

Pembentukan Pohon Keputusan Dengan ID3 Dan C4.5

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pembentukan Pohon Keputusan Dengan ID3 Dan C4.5

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB IV

Gambar 4.1 Pohon Keputusan untuk konsep pembelian komputer.

Pada gambar 4.1 menunjukkan sebuah pohon keputusan dalam membeli

ENTROPY & INFORMATION GAIN

Dimana Pi adalah rasio dari class Ci didalam set data sampel

Sebagai contoh, set sampel S mempunyai 14 members, dimana didalamnya

merupakan rasio dari data dengan atribut v didalam

Contoh Penerapan Algoritma ID3

Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini,

4. Jumlah tanggungan karyawan (Banyak, Menengah, Sedikit, Tidak

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Tabel Data Prestasi Rendah

Pembentukan Node Keputusan 1.1

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Tabel Data Prestasi Tinggi dan Pendidikan Sedang

Tabel Data Prestasi Tinggi dan Pendidikan Rendah

Pembentukan Node keputusan 1.1.1

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Sedang

Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Rendah

Pembentukan Node keputusan 1.1.2

Berikutnya adalah pembentukan node keputusan 1.1.2 dengan memilih

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut

Metode klasifikasi berikutnya yang cukup popular adalah algoritma

Contoh Penerapan Algoritma C4.5

Sebagai contoh penerapan algortima C4.5 akan digunakan contoh data

Dalam melakukan klasifikasi karyawan ke dalam tiga golongan ini,

Tingkat kehadiran karyawan (Tinggi, Sedang, Rendah)

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

Selanjutnya adalah melakukan perhitungan nilai Gain ratio dari seluruh

() = 0.225 / 1.539 = 0.146

Tabel Data Prestasi Tinggi

Tabel Data Prestasi Rendah

Pembentukan Node keputusan 1.1

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Entropi Lama Bekerja :

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Tabel Data Prestasi Tinggi dan Lama Bekerja Lama

Pembentukan Node keputusan 1.1.1

Berikutnya adalah pembentukan node keputusan 1.1.1 dengan memilih

Selanjutnya adalah melakukan perhitungan entropi dari seluruh partisi atribut

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

Selanjutnya adalah melakukan perhitungan nilai Splitinfo dari seluruh atribut

Hasil perhitungan di atas dapat dilihat pada tabel berikut:

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut

Dari penelusuran di atas, diketahui bahwa data baru karyawan tersebut

Anda mungkin juga menyukai