METODE KLASIFIKASI
4.1 Metode Pohon Keputusan (Decision tree method)
Pada bab ini akan dibahas salah satu metode klasifikasi dalam data
mining. Salah satu metode klasifikasi yang menarik melibatkan
pembangunan pohon keputusan, koleksi node keputusan, terhubung oleh
cabang-cabang, memperluas ke bawah dari simpul akar sampai berakhir di
node daun. Pohon Keputusan adalah flowchart yang berbentuk seperti
struktur pohon, dimana setiap simpul internal (node keputusan) menunjukkan
test pada atribut, setiap cabang merupakan keluaran dari test dan setiap simpul
daun (simpul terminal) adalah merupakan sebuah class. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang
merepresentasikan rule. Secara umum metode membangun pohon keputusan
antara lain menentukan atribut sebagai akar, membuat cabang untuk masingmasing nilai, membagi data dalam cabang dan mengulangi proses untuk
masing-masing cabang sampai semua data pada cabang memiliki kelas yang
sama.
Bagian awal dari pohon keputusan ini adalah akar (root) dan setiap cabang
dari pohon keputusan merupakan pembagian berdasarkan hasil perhitungan,
dan titik akhir (leaf) merupakan pembagian kelas yang dihasilkan.
Pohon keputusan mempunyai 3 tipe simpul yaitu:
1. Simpul akar, dimana tidak memiliki cabang yang masuk dan memiliki
cabang keluar lebih dari satu, terkadang tidak memiliki cabang sama sekali.
Simpul ini biasanya berupa atribut yang paling memiliki pengaruh terbesar
pada suatu kelas tertentu.
2. Simpul keputusan, dimana hanya memiliki 1 cabang yang masuk, dan
memiliki lebih dari 1 cabang yang keluar.
3. Simpul daun, atau simpul akhir dimana hanya memiliki 1 cabang yang
masuk, dan tidak memiliki cabang sama sekali dan menandai bahwa simpul
tersebut merupakan label kelas.
ID3
Pada tahun 1970 dan awal 1980, J. Ross Quinlan, seorang peneliti
dalam machine learning mengembangkan algoritma decision tree yang
dikenal sebagai ID3 (Iterative Dichotomiser). Algortima ID3 merupakan
algortima yang sering digunakan karena kemudahan dan kefektifannya.
Algoritma ID3 membentuk decision tree dari beberapa data simbolik yang
bersifat tetap ataupun historikal untuk melakukan pembelajaran
mengklasifikasikan data tersebut dan memprediksi klasifikasi data yang baru.
Data harus memiliki beberapa atribut dengan nilai yang berbeda. Selain itu
data ini juga harus memiliki beragam standar, class yang diskrit (misal:
Yes/No). Decision tree memilih atribut untuk pengambilan keputusan dengan
menggunakan Information Gain. Algoritma ID3 adalah algoritma decision
tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar.
Algoritma ini melakukan pencarian secara rakus/menyeluruh (greedy) pada
semua kemungkinan pohon keputusan.
Struktur dasar dari ID3 adalah iteratif. Sebuah subset dari training set
disebut window, dipilih secara acak dan dibentuk pohon keputusan. Pohon
ini mengklasifikasikan semua objek pada window, kemudian objek-objek lain
pada training set ini kemudian diklasifikasikan menggunakan pohon tersebut.
Jika pohon tersebut memberikan jawaban yang benar untuk semua objek,
maka dinyatakan benar juga untuk seluruh training set dan selanjutnya
seluruh proses dihentikan. Jika tidak, objek terpilih yang belum
terklasifikasikan akan ditambahkan ke window dan proses berlanjut.
Algoritma ini membentuk pohon keputusan dengan cara pembagian
dan menguasai sampel secara rekursif dari atas ke bawah. Algoritma ID3
dimulai dengan semua data yang ada sebagai akar dari pohon keputusan.
Sebuah atribut yang dipilih akan menjadi pembagi dari sampel tersebut.
Untuk setiap atribut dari cabang yang telah dibentuk, semua sampel yang
memiliki nilai yang sama dengan atribut cabang akan masuk dalam
anggotanya dan dinamakan anak cabang.
Tujuan dari pengukuran nilai Information Gain adalah untuk memilih atribut
yang akan dijadikan cabang pada pembentukan pohon keputusan. Atribut
yang memiliki nilai Information Gain yang tertinggi akan dipilih menjadi
atribut uji untuk dijadikan cabang pohon.
pohon harus dites nilai entropinya. Entropy adalah ukuran dari teori informasi
yang dapat mengetahui karakteristik dari impurity dan homogenity dari
kumpulan data. Dari nilai entropy tersebut kemudian dihitung nilai
Information Gain (IG) masing-masing atribut. Nilai entropy didefinisikan
sebagai berikut:
() = log 2 ( )
(9 + ,5 ) = (
9
9
5
5
) log 2 ( ) ( ) log 2 ( ) = 0.940
14
14
14
14
Pada beberapa kasus, jika semua member dari set sampel S memiliki
nilai yang sama, maka nilai entropy adalah nol. Hal itu berarti tidak ada
klasifikasi yang mempunyai ketidakpastian (uncertainty). Namun jika jumlah
sampel positif sama dengan jumlah sampel negatif, maka entropy bernilai 1,
berarti ketidakpastian bernilai maksimum. Ini berarti set sampel tidak
mempunyai ketidakpastian (keputusan dari decision tree sudah jelas). Jika
jumlah sampel positif tidak sama dengan jumlah sampel negatif, maka nilai
entropy akan berada diantara 0 dan 1.
Dari rumus entropy diatas dapat disimpulkan bahwa definisi entropy
(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada suatu ruang sampel S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai entropy maka semakin baik digunakan dalam
mengekstraksi suatu kelas. Setelah mendapat nilai entropy untuk suatu
kumpulan data, maka kita dapat mengukur efektivitas suatu atribut dalam
mengklasifikasikan data. Ukuran efektifitas ini disebut Information Gain.
Secara matematis, infomation gain dari suatu atribut A,dituliskan sebagai
berikut :
(, ) = ()
()
| |
( )
||
Dimana :
bobot W_i=|S_v |/|S|
set sampel
A : atribut
V : suatu nilai yang mungkin untuk atribut A
Values (A) : himpunan yang mungkin untuk atribut A
|Sv| : jumlah sampel untuk nilai v
|S| : jumlah seluruh sampel data
E(Sv) : entropy untuk sampel-sampel yang memilki nilai v
Bonus Tahunan
Rp 10.000.000,00
Rp 5.000.000,00
Rp 2.500.000,00
Prestasi
Tinggi
Sedang
Rendah
Tinggi
Sedang
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Rendah
TInggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Lama
Baru
Baru
Baru
Lama
Lama
Baru
Lama
Lama
Lama
Lama
Baru
Baru
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Sedikit
Menengah
Banyak
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Tidak Ada
Menengah
Menengah
Menengah
Menengah
Menengah
Tinggi
Sedang
Rendah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Sedang
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Rendah
Tinggi
Sedang
A
C
B
C
B
B
C
A
B
C
A
A
B
C
B
C
C
B
A
A
Pembentukan Akar
Langkah pertama dalam algortima ini adalah pembentukan akar dengan
memilih atribut dengan nilai gain tertinggi. Sebelum melakukan hal tersebut,
harus dilakukan perhitungan jumlah objek data sampel dengan golongan
(kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran, prestasi,
lama bekerja, tanggungan, dan pendidikan. Tabel berikut menggambarkan
hasil penghitungan jumlah objek data sampel tersebut.
Atribut
Jumlah Kasus
Total
20
A
6
Golongan
B
7
C
7
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
9
6
5
13
7
11
9
4
1
9
6
8
5
7
3
0
3
6
0
6
0
2
0
2
2
4
2
0
3
3
1
7
0
2
5
1
0
4
2
1
1
5
3
3
1
0
7
3
4
1
1
3
2
3
2
2
Entropi Kehadiran :
3
3
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,585
0
0
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
3
3
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,371
Entropi Prestasi :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
0
0
0
0
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,000
Entropi Tanggungan :
2
2
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,500
0
0
0
0
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
4
4
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,530
2
2
2
2
2
2
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,585
Entropi Pendidikan :
4
4
1
1
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 1,406
2
2
1
1
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,522
0
0
5
5
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,863
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
9
6
5
(, ) = 1,581 (( ) 1,585 + ( ) 1,000 + ( ) 1,371)
20
20
20
= 0,225
13
7
(, ) = 1,581 (( ) 0,996 + ( ) 0,000)
20
20
= 0,934
11
9
(, ) = 1,581 (( ) 1,435 + ( ) 0,991)
20
20
= 0,346
4
1
( ) 1,500 + ( ) 0,000
20
(, ) = 1,581 ( 20
)
9
6
+ ( ) 1,530 + ( ) 1,585
20
20
= 0,117
(, )
8
5
7
= 1,581 (( ) 1,406 + ( ) 1,522 + ( ) 0,863)
20
20
20
= 0,336
Hasil perhitungan entropi dan gain dapat dilihat pada tabel berikut:
Atribut
Entropi
Gain
Total
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
1.581
1.585
1.000
1.371
0.996
0.000
1.435
0.991
1.500
0.000
1.530
1.585
1.406
1.522
0.863
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
0.225
0.934
0.346
0.117
0.336
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Prestasi, yaitu sebesar 0,934. Oleh karena itu atribut Prestasi
dijadikan sebagai akar.
Ada dua nilai atribut ini, yaitu Tinggi dan Rendah yang dijadikan sebagai
cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah seperti
tabel berikut.
Tabel Data Prestasi Tinggi
Kehadiran
Prestasi
Tinggi
Rendah
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Baru
Baru
Lama
Baru
Lama
Lama
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Menengah
Menengah
Menengah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Sedang
A
B
B
B
A
B
A
A
B
B
B
A
A
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
Pendidikan
Gol
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Baru
Baru
Lama
Lama
Baru
Lama
Baru
Sedikit
Banyak
Menengah
Tidak Ada
Tidak Ada
Menengah
Menengah
Sedang
Tinggi
Rendah
Sedang
Tinggi
Tinggi
Rendah
C
C
C
C
C
C
C
Prestasi
Rendah
GOL C
Tinggi
1.1
?
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
13
6
3
4
8
5
3
0
6
4
5
3
5
A
6
3
0
3
6
0
2
0
2
2
4
2
0
Golongan
B
7
3
3
1
2
5
1
0
4
2
1
1
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0
Entropi Kehadiran :
3
3
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
0
0
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
Entropi Tanggungan :
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
4
4
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 0,918
2
2
2
2
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,000
Entropi Pendidikan :
4
4
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,722
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
6
3
4
(, ) = 0,996 (( ) 1,000 + ( ) 0,000 + ( ) 0,811)
13
13
13
= 0,285
8
5
(, ) = 0,996 (( ) 0,811 + ( ) 0,000)
13
13
= 0,496
3
0
( ) 0,918 + ( ) 0,000
13
(, ) = 0,996 ( 13
)
6
4
+ ( ) 0,918 + ( ) 1,000
13
13
= 0,052
(, )
5
3
5
= 0,996 (( ) 0,722 + ( ) 0,918 + ( ) 0,000)
13
13
13
= 0,506
Entropi
0.996
1.000
0.000
0.811
0.811
0.000
0.918
0.000
0.918
1.000
0.722
0.918
0.000
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Gain
0.285
0.496
0.052
0.506
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Pendidikan, yaitu sebesar 0,506. Oleh karena itu atribut
Pendidikan dijadikan sebagai node keputusan 1.1. Ada tiga nilai atribut ini,
yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node
keputusan Pendidikan. Data dari atribut pendidikan dipisah seperti berikut.
Tabel Data Prestasi Tinggi dan Pendidikan Tinggi
Kehadiran
Prestasi
Tinggi
Rendah
Sedang
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Menengah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
A
A
B
A
A
Tanggungan
Pendidikan
Gol
Banyak
Tidak Ada
Menengah
Sedang
Sedang
Sedang
A
B
A
Kehadiran
Prestasi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Lama
Kehadiran
Prestasi
Rendah
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Baru
Lama
Baru
Tanggungan
Pendidikan
Gol
Menengah
Menengah
Menengah
Banyak
Menengah
Rendah
Rendah
Rendah
Rendah
Rendah
B
B
B
B
B
Cabang Tinggi dan Sedang masih perlu dilakukan perhitungan lebih lanjut
lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama.
Cabang Rendah sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Berikut
adalah gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
Sedang
GOL B
1.1.2
?
1.1.1
?
Selain itu, jumlah objek data yang dihitung merupakan data dengan atribut
Prestasi bernilai Tinggi dan atribut Pendidikan bernilai Tinggi. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel dengan atribut
Pendidikan Tinggi.
Atribut
Total
Kehadiran
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Jumlah
Kasus
5
2
1
2
4
1
1
0
1
3
A
4
2
0
2
4
0
1
0
1
2
Golongan
B
1
0
1
0
0
1
0
0
0
1
C
0
0
0
0
0
0
0
0
0
0
Entropi Kehadiran :
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
0
0
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
Entropi Tanggungan :
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
1
1
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
2
1
2
(, ) = 0,722 (( ) 0,000 + ( ) 0,000 + ( ) 0,000)
5
5
5
= 0,722
4
1
(, ) = 0,722 (( ) 0,000 + ( ) 0,000)
5
5
= 0,722
1
0
( ) 0,000 + ( ) 0,000
5
(, ) = 0,722 ( 5
)
1
3
+ ( ) 0,000 + ( ) 0,918
5
5
= 0,171
Lama Bekerja
Tanggungan
Entropi
0.722
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.918
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Gain
0.722
0.722
0.171
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Kehadiran dan Lama Bekerja, yaitu sebesar 0,722. Oleh
karena itu dipilih salah satu dari atribut tesebut. Missal dipilih atribut
Kehadiran dijadikan sebagai node keputusan 1.1.1. Ada tiga nilai atribut ini,
yaitu Tinggi, Sedang, dan Rendah yang dijadikan sebagai cabang dari node
keputusan Kehadiran.
Tabel Data Prestasi Tinggi, Pendidikan Tinggi dan Kehadiran Tinggi
Kehadiran
Prestasi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
A
A
Tanggungan
Pendidikan
Gol
Tidak Ada
Tinggi
Kehadiran
Prestasi
Sedang
Tinggi
Lama
Bekerja
Baru
Kehadiran
Prestasi
Rendah
Rendah
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Tinggi
Tinggi
A
A
Cabang Tinggi, Sedang, dan Rendah sudah tidak perlu dilakukan perhitungan
lebih lanjut lagi, karena seluruh data sampel sudah terkumpul di satu kelas
yang sama. Cabang Tinggi sudah dapat mengklasifikasikan objek data ke
dalam Golongan A, karena seluruh data sampel sudah terkumpul di kelas A.
Cabang Sedang sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan A,
karena seluruh data sampel sudah terkumpul di kelas A. Berikut adalah
gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
GOL B
Sedang
1.1.2
?
1.1.1
Kehadiran
Rendah
GOL A
Sedang
GOL B
Tinggi
GOL A
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Jumlah
Kasus
3
2
0
1
2
1
1
0
1
1
A
2
1
0
1
2
0
1
0
1
0
Golongan
B
1
1
0
0
0
1
0
0
0
1
C
0
0
0
0
0
0
0
0
0
0
Entropi Kehadiran :
1
1
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 1,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
Entropi Tanggungan :
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
1
1
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
0
0
1
1
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
2
0
1
(, ) = 0,918 (( ) 1,000 + ( ) 0,000 + ( ) 0,000)
3
3
3
= 0,252
2
1
(, ) = 0,918 (( ) 0,000 + ( ) 0,000)
3
3
= 0,918
1
0
( ) 0,000 + ( ) 0,000
3
(, ) = 0,918 ( 3
)
1
1
+ ( ) 0,000 + ( ) 0,000
3
3
= 0,918
Lama Bekerja
Tanggungan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Entropi
0.918
1.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
0.000
Gain
0.252
0.918
0.918
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Lama Bekerja dan Tanggungan, yaitu sebesar 0,918. Oleh
karena itu dipilih salah satu dari atribut tersebut. Misal dipilih atribut Lama
Bekerja dijadikan sebagai node keputusan 1.1.2.
Tabel Data Prestasi Tinggi, Pendidikan Sedang dan Lama Bekerja Lama
Kehadiran
Prestasi
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tanggungan
Pendidikan
Gol
Banyak
Menengah
Sedang
Sedang
A
A
Tabel Data Prestasi Tinggi, Pendidikan Sedang dan Lama Bekerja Baru
Kehadiran
Prestasi
Tinggi
Tinggi
Lama
Bekerja
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Sedang
Ada dua nilai atribut ini, yaitu Lama dan Baru yang dijadikan sebagai cabang
dari node keputusan Lama Bekerja. Cabang Lama dan Baru sudah tidak perlu
dilakukan perhitungan lebih lanjut lagi, karena seluruh data sampel sudah
terkumpul di satu kelas yang sama. Cabang Lama sudah dapat
mengklasifikasikan objek data ke dalam Golongan A, karena seluruh data
sampel sudah terkumpul di kelas A. Cabang Baru sudah dapat
mengklasifikasikan objek data ke dalam Golongan B, karena seluruh data
sampel sudah terkumpul di kelas B. Berikut adalah gambaran decision tree
yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Pendidikan
Tinggi
Rendah
Sedang
1.1.2
Lama Bekerja
GOL B
Lama
GOL A
1.1.1
Kehadiran
Baru
Rendah
GOL B
GOL A
Sedang
GOL B
Tinggi
GOL A
Proses pembentukan pohon keputusan sudah berakhir, karena sudah tidak ada
cabang yang perlu dilakukan perhitungan lebih lanjut lagi. Pada perhitungan
setiap cabang, seluruh objek data sampel sudah berkumpul di satu kelas yang
sama.
Berikut adalah contoh data baru. Data ini akan diklasifikasikan ke dalam
Golongan Karyawan A, B, atau C. dengan menggunakan decision tree di atas:
No
Kehadiran
Prestasi
1
2
Rendah
Sedang
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
?
?
Untuk data no 1 diketahui data baru dengan atribut kehadiran bernilai rendah,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Lama, atribut
tanggungan bernilai Tidak Ada, dan atribut pendidikan bernilai Tinggi.
Aturan yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Pendidikan = Tinggi) ^
(Kehadiran = Rendah) THEN (Gol = Gol A)
4.1.2
C4.5
() =
=0
||
||
2 (
)
||
||
Dimana:
D = ruang (data) sample yang digunakan untuk training.
Dj = jumlah sample untuk atribut i
Nilai ini merupakan informasi yang potensial yang dihasilkan dengan
memisahkan set data pelatihan, D, menjadi partisi v, sesuai dengan hasil v
dari tes pada atribut A. Untuk mecari nilai gain ratio didefinisikan seperti
berikut.
() =
()
()
Bonus Tahunan
Rp 10.000.000,00
Rp 5.000.000,00
Rp 2.500.000,00
No
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
Pendidikan
Gol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tinggi
Sedang
Rendah
Tinggi
Sedang
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Rendah
Sedang
Sedang
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Rendah
Tinggi
Rendah
Rendah
Tinggi
Tinggi
Tinggi
Lama
Baru
Lama
Baru
Baru
Baru
Lama
Lama
Baru
Lama
Lama
Lama
Lama
Baru
Baru
Lama
Baru
Baru
Lama
Lama
Tidak Ada
Sedikit
Menengah
Banyak
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Tidak Ada
Menengah
Menengah
Menengah
Menengah
Menengah
Tinggi
Sedang
Rendah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Sedang
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Rendah
Tinggi
Sedang
A
C
B
C
B
B
C
A
B
C
A
A
B
C
B
C
C
B
A
A
Pembentukan Akar
Langkah pertama dalam algortima ini adalah pembentukan akar dengan
memilih atribut dengan nilai gain ratio tertinggi. Sebelum melakukan hal
tersebut, harus dilakukan perhitungan jumlah objek data sampel dengan
golongan (kelas data) A, B, dan C serta dibagi berdasarkan atribut kehadiran,
prestasi, lama bekerja, tanggungan, dan pendidikan. Tabel berikut
menggambarkan hasil penghitungan jumlah objek data sampel tersebut.
Atribut
Jumlah Kasus
Total
20
A
6
Golongan
B
7
C
7
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
9
6
5
13
7
11
9
4
1
9
6
8
5
7
3
0
3
6
0
6
0
2
0
2
2
4
2
0
3
3
1
7
0
2
5
1
0
4
2
1
1
5
3
3
1
0
7
3
4
1
1
3
2
3
2
2
Entropi Kehadiran :
3
3
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,585
0
0
3
3
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
3
3
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,371
Entropi Prestasi :
6
6
7
7
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
13
13
13
13
13
13
= 0,996
0
0
0
0
7
7
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,000
Entropi Tanggungan :
2
2
1
1
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,500
0
0
0
0
1
1
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
1
1
1
1
1
1
= 0,000
2
2
4
4
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
9
9
9
9
9
9
= 1,530
2
2
2
2
2
2
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,585
Entropi Pendidikan :
4
4
1
1
3
3
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
8
8
8
8
8
8
= 1,406
2
2
1
1
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 1,522
0
0
5
5
2
2
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
7
7
7
7
7
7
= 0,863
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data.
Berikut perhitungannya:
9
6
5
(, ) = 1,581 (( ) 1,585 + ( ) 1,000 + ( ) 1,371)
20
20
20
= 0,225
13
7
(, ) = 1,581 (( ) 0,996 + ( ) 0,000)
20
20
= 0,934
11
9
(, ) = 1,581 (( ) 1,435 + ( ) 0,991)
20
20
= 0,346
4
1
( ) 1,500 + ( ) 0,000
20
(, ) = 1,581 ( 20
)
9
6
+ ( ) 1,530 + ( ) 1,585
20
20
= 0,117
(, )
8
5
7
= 1,581 (( ) 1,406 + ( ) 1,522 + ( ) 0,863)
20
20
20
= 0,336
9
9
6
6
5
5
() = ( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
= 1.539
() = (
13
13
7
7
) log 2
( ) log 2
20
20
20
20
= 0.934
( ) = (
11
11
9
9
) log 2
( ) log 2
20
20
20
20
= 0.993
()
4
4
1
1
9
9
6
6
= ( ) log 2
( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
20
20
= 1.720
8
8
5
5
7
7
() = ( ) log 2
( ) log 2
( ) log 2
20
20
20
20
20
20
= 1.559
Hasil perhitungan entropi, gain, splitinfo dan gain ratio dapat dilihat pada
tabel berikut:
Atribut
Entropi
Total
1.581
1.585
1.000
1.371
0.996
0.000
1.435
0.991
1.500
0.000
1.530
1.585
1.406
1.522
0.863
Kehadiran
Prestasi
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Tinggi
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.225
1.539
0.146
0.934
0.934
0.346
0.993
0.348
0.117
1.720
0.068
0.336
1.559
0.216
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio
tertinggi adalah Prestasi, yaitu sebesar 1. Oleh karena itu atribut Prestasi
dijadikan sebagai akar.
Ada dua nilai atribut Prestasi, yaitu Tinggi dan Rendah yang dijadikan
sebagai cabang dari akar Prestasi. Data dari prestasi tinggi dan rendah dipisah
seperti tabel berikut.
No
Kehadiran
Prestasi
1
3
5
6
8
9
11
12
13
15
18
19
20
Tinggi
Rendah
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Sedang
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Baru
Baru
Lama
Baru
Lama
Lama
Lama
Baru
Baru
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Menengah
Menengah
Tidak Ada
Tidak Ada
Banyak
Banyak
Banyak
Tidak Ada
Menengah
Menengah
Menengah
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Tinggi
Sedang
A
B
B
B
A
B
A
A
B
B
B
A
A
Tanggungan
Pendidikan
Gol
Sedikit
Banyak
Menengah
Tidak Ada
Tidak Ada
Menengah
Menengah
Sedang
Tinggi
Rendah
Sedang
Tinggi
Tinggi
Rendah
C
C
C
C
C
C
C
No
Kehadiran
Prestasi
2
4
7
10
14
16
17
Sedang
Tinggi
Tinggi
Sedang
Tinggi
Rendah
Sedang
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Rendah
Lama
Bekerja
Baru
Baru
Lama
Lama
Baru
Lama
Baru
Cabang Tinggi masih perlu dilakukan perhitungan lebih lanjut lagi, karena
seluruh data sampel belum terkumpul di satu kelas yang sama. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan C,
karena seluruh data sampel sudah terkumpul di kelas C. Berikut adalah
gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
?
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
13
6
3
4
8
5
3
0
6
4
5
3
5
A
6
3
0
3
6
0
2
0
2
2
4
2
0
Golongan
B
7
3
3
1
2
5
1
0
4
2
1
1
5
C
0
0
0
0
0
0
0
0
0
0
0
0
0
Entropi Kehadiran :
3
3
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 1,000
0
0
3
3
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
Entropi Tanggungan :
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
4
4
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
6
6
6
6
6
6
= 0,918
2
2
2
2
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 1,000
Entropi Pendidikan :
4
4
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,722
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
5
5
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
5
5
5
5
5
5
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data
kecuali atribut prestasi. Berikut perhitungannya:
6
3
4
(, ) = 0,996 (( ) 1,000 + ( ) 0,000 + ( ) 0,811)
13
13
13
= 0,285
8
5
(, ) = 0,996 (( ) 0,811 + ( ) 0,000)
13
13
= 0,496
3
0
( ) 0,918 + ( ) 0,000
13
(, ) = 0,996 ( 13
)
6
4
+ ( ) 0,918 + ( ) 1,000
13
13
= 0,052
(, )
5
3
5
= 0,996 (( ) 0,722 + ( ) 0,918 + ( ) 0,000)
13
13
13
= 0,506
8
8
5
5
) log 2
( ) log 2
13
13
13
13
= 0.961
()
3
3
0
0
6
6
4
4
= ( ) log 2
( ) log 2
( ) log 2
( ) log 2
13
13
13
13
13
13
13
13
=~
5
5
3
3
5
5
() = ( ) log 2
( ) log 2
( ) log 2
13
13
13
13
13
13
= 1.549
Entropi
Total
0.996
1.000
0.000
0.811
0.811
0.000
0.918
0.000
0.918
1.000
0.722
0.918
0.000
Kehadiran
Lama Bekerja
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Lama
Baru
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.285
1.526
0.186
0.496
0.961
0.517
0.052
0.506
1.549
0.327
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain ratio
tertinggi adalah Lama Bekerja, yaitu sebesar 0,517. Oleh karena itu atribut
Lama Bekerja dijadikan sebagai node keputusan 1.1. Ada dua nilai atribut ini,
yaitu Lama dan Baru yang dijadikan sebagai cabang dari node keputusan
Lama Bekerja. Data dari atribut Lama Bekerja dipisah seperti berikut.
Tabel Data Prestasi Tinggi dan Lama Bekerja Baru
No
Kehadiran
Prestasi
5
6
9
15
18
Sedang
Tinggi
Sedang
Tinggi
Sedang
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Baru
Baru
Baru
Baru
Baru
Tanggungan
Pendidikan
Gol
Menengah
Menengah
Tidak Ada
Tidak Ada
Menengah
Rendah
Rendah
Tinggi
Sedang
Rendah
B
B
B
B
B
No
Kehadiran
Prestasi
1
3
8
11
12
13
19
20
Tinggi
Rendah
Rendah
Rendah
Tinggi
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Lama
Lama
Lama
Lama
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Menengah
Tidak Ada
Banyak
Banyak
Banyak
Menengah
Menengah
Tinggi
Rendah
Tinggi
Sedang
Tinggi
Rendah
Tinggi
Sedang
A
B
A
A
A
B
A
A
Data Lama Bekerja = Lama masih perlu dilakukan perhitungan lebih lanjut
lagi, karena seluruh data sampel belum terkumpul di satu kelas yang sama.
Cabang Lama Bekerja = Baru sudah dapat mengklasifikasikan objek data ke
dalam Golongan B, karena seluruh data sampel sudah terkumpul di kelas B.
Berikut adalah gambaran pohon keputusan yang sudah terbentuk pada
tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Lama Bekerja
Baru
GOL B
Lama
1.1.1
?
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Jumlah
Kasus
8
4
0
4
3
0
3
2
4
2
2
A
6
3
0
3
2
0
2
2
4
2
0
Golongan
B
2
1
0
1
1
0
1
0
0
0
2
C
0
0
0
0
0
0
0
0
0
0
0
Entropi Kehadiran :
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
3
3
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,811
Entropi Tanggungan :
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
0
0
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
0
0
0
0
0
0
= 0,000
2
2
1
1
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
3
3
3
3
3
3
= 0,918
2
2
0
0
0
0
( ) = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
Entropi Pendidikan :
4
4
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
4
4
4
4
4
4
= 0,000
2
2
0
0
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
0
0
2
2
0
0
() = (( ) log 2 ) + (( ) log 2 ) + (( ) log 2 )
2
2
2
2
2
2
= 0,000
Selanjutnya adalah melakukan perhitungan nilai gain dari seluruh atribut data
Kehadiran, Tanggungan dan Pendidikan. Berikut perhitungannya:
4
0
4
(, ) = 0,811 (( ) 0,811 + ( ) 0,000 + ( ) 0,811)
8
8
8
= 0,000
3
0
( ) 0,918 + ( ) 0,000
8
(, ) = 0,811 ( 8
)
3
2
+ ( ) 0,918 + ( ) 0,000
8
8
= 0,123
4
2
2
(, ) = 0,811 (( ) 0,000 + ( ) 0,000 + ( ) 0,000)
8
8
8
= 0,811
Atribut
Entropi
Total
0.811
0.811
0.000
0.811
0.344
0.000
0.344
0.000
0.000
0.000
0.000
Kehadiran
Tanggungan
Pendidikan
Tinggi
Sedang
Rendah
Banyak
Sedikit
Menengah
Tidak Ada
Tinggi
Sedang
Rendah
Gain
Split
Info
Ratio
Gain
0.000
0.123
0.811
1.500
0.541
Dari hasil perhitungan di atas, tampak bahwa atribut dengan nilai gain
tertinggi adalah Pendidikan, yaitu sebesar 0,541. Oleh karena Pendidikan
dijadikan sebagai node keputusan 1.1.1 Ada tiga nilai atribut ini, yaitu Tinggi,
Sedang, dan Rendah yang dijadikan sebagai cabang dari node keputusan
Pendidikan.
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Tinggi
No
Kehadiran
Prestasi
1
8
12
19
Tinggi
Rendah
Tinggi
Rendah
Tinggi
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Lama
Lama
Tanggungan
Pendidikan
Gol
Tidak Ada
Tidak Ada
Banyak
Menengah
Tinggi
Tinggi
Tinggi
Tinggi
A
A
A
A
Tanggungan
Pendidikan
Gol
Banyak
Menengah
Sedang
Sedang
A
A
Pendidikan
Gol
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Sedang
No
Kehadiran
Prestasi
11
20
Rendah
Tinggi
Tinggi
Tinggi
Lama
Bekerja
Lama
Lama
Tabel Data Prestasi Tinggi, Lama Bekerja Lama dan Pendidikan Rendah
No
Kehadiran
Prestasi
Lama
Bekerja
Tanggungan
3
13
Rendah
Tinggi
Tinggi
Tinggi
Lama
Lama
Menengah
Banyak
Rendah
Rendah
B
B
Cabang Tinggi, Sedang, dan Rendah sudah tidak perlu dilakukan perhitungan
lebih lanjut lagi, karena seluruh data sampel sudah terkumpul di satu kelas
yang sama. Cabang Tinggi sudah dapat mengklasifikasikan objek data ke
dalam Golongan A, karena seluruh data sampel sudah terkumpul di kelas A.
Cabang Sedang sudah dapat mengklasifikasikan objek data ke dalam
Golongan B, karena seluruh data sampel sudah terkumpul di kelas B. Cabang
Rendah sudah dapat mengklasifikasikan objek data ke dalam Golongan B,
karena seluruh data sampel sudah terkumpul di kelas B. Berikut adalah
gambaran decision tree yang sudah terbentuk pada tahapan ini.
Prestasi
Tinggi
Rendah
GOL C
1.1
Lama Bekerja
Baru
Lama
GOL B
1.1.1
Pendidikan
Rendah
Tinggi
Sedang
GOL A
GOL A
GOL B
Berikut adalah contoh data baru. Data ini akan diklasifikasikan ke dalam
Golongan Karyawan A, B, atau C. dengan menggunakan decision tree di atas:
No
Kehadiran
Prestasi
1
2
Rendah
Sedang
Tinggi
Tinggi
Lama
Bekerja
Lama
Baru
Tanggungan
Pendidikan
Gol
Tidak Ada
Banyak
Tinggi
Tinggi
?
?
Untuk data no 1 diketahui data baru dengan atribut kehadiran bernilai rendah,
atribut pretasi bernilai Tinggi, atribut lama bekerja bernilai Lama, atribut
tanggungan bernilai Tidak Ada, dan atribut pendidikan bernilai Tinggi.
Aturan yang terjadi sesuai dengan data baru tersebut adalah
IF (Prestasi = Tinggi) ^ (Lama Bekerja = Lama) ^
(Pendidikan = Tinggi) THEN (Gol = Gol A)
DAFTAR PUSTAKA
Quinlan, J. R. Induction of Decision trees. Machine Learning, vol. 1, pp. 81106, 1986
Han, J., Kamber, M. Data Mining: Concepts and Techniques. Morgan
Kaufmann, 2000
Larose, D.T. Discovering Knowledge in data An introduction to data
mining. John Wiley & Sons, 2005
http://nugikkool.blogspot.com/2012/08/pohon-keputusan-id3-dan-c45menggunakan.html