Jelajahi eBook
Kategori
Jelajahi Buku audio
Kategori
Jelajahi Majalah
Kategori
Jelajahi Dokumen
Kategori
POHON KEPUTUSAN
Oleh :
Novita (12111001)
Joko Trisusilo (12111987)
Miftahur Rohman (12110992)
Muhammad Ikrimashabri (12110999)
Yovi Citra Nengsih (12111022)
Alhamdulillah, segala puji hanyala milik Allah, yang selalu melimpahkan rahmat dan
hidayah-nya, sehingga penyusun dapat menyelesaikan penulisan makalah yang berjudul
Pohon Keputusan. Penulisan makalah ini disusun untuk melengkapi atau salah satu tugas
dari matakuliah Sistem Pakar. Dalam penulisan makalah ini penyusun akan menjelaskan
tentang Pohon Keputusan.
Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat
dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi
pohon keputusan yang sangat merepresentasikan aturan. Aturan dapat dengan mudah
dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk
bahasa basis data seperti Structured Query language untuk mencari record pada
kategori tertentu.
Pohon keputusan adalah salah satu metode klasifikasi yang paling populer
karena mudah untuk diinterpretasi oleh manusia. Pohon keputusan adalah model
prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep dari pohon
keputusan adalah mengubah data menjadi pohon keputusan dan aturan-aturan
keputusan.
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat global, dapat
diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika
menggunakan metode pohon keputusan maka sample diuji hanya berdasarkan
kriteria atau kelas tertentu.
Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang terpilih
akan membedakan suatu kriteria dibandingkan kriteria yang lain dalam node yang
sama. Kefleksibelan metode pohon keputusan ini meningkatkan kualitas keputusan
yang dihasilkan jika dibandingkan ketika menggunakan metode penghitungan satu
tahap yang lebih konvensional
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya sangat banyak,
seorang penguji biasanya perlu untuk mengestimasikan baik itu distribusi dimensi
tinggi ataupun parameter tertentu dari distribusi kelas tersebut. Metode pohon
keputusan dapat menghindari munculnya permasalahan ini dengan menggunakan
criteria yang jumlahnya lebih sedikit pada setiap node internal tanpa banyak
mengurangi kualitas keputusan yang dihasilkan.
Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan jumlahnya
sangat banyak. Hal tersebut juga dapat menyebabkan meningkatnya waktu
pengambilan keputusan dan jumlah memori yang diperlukan.
Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon keputusan
yang besar.
Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian
terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang
digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam
split. Algoritma C4.5 dapat menangani data numerik (kontinyu) dan diskret. Split
untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A,
kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang
ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan
partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split
untuk atribut diskret A mempunyai bentuk value (A) X dimana X domain(A).
Jika suatu set data mempunyai beberapa pengamatan dengan missing value
yaitu record dengan beberapa nilai variabel tidak ada, Jika jumlah pengamatan
terbatas maka atribut dengan missing value dapat diganti dengan nilai rata-rata dari
variabel yang bersangkutan.[Santosa,2007] Untuk melakukan pemisahan obyek
(split) dilakukan tes terhadap atribut dengan mengukur tingkat ketidakmurnian pada
sebuah simpul (node). Pada algoritma C.45 menggunakan rasio perolehan (gain
ratio). Sebelum menghitung rasio perolehan, perlu menghitung dulu nilai informasi
dalam satuan bits dari suatu kumpulan objek. Cara menghitungnya dilakukan dengan
menggunakan konsep entropi.
Keterangan
p+ = jumlah yang bersolusi positif atau mendukung pada data sampel untuk
kriteria tertentu
p- = jumlah yang bersolusi negatif atau tidak mendukung pada data sampel untuk
kriteria tertentu
(S) = ntropi sama dengan 0 jika semua contoh pada S berada dalam kelas yang
sama.
(S) = Entropi sama dengan 1, jika jumlah contoh positif dan negative dalam S
adalah sama.
(S) = Entropi lebih dari 0 tetapi kurang dari 1, jika jumlah contoh positif dan
negative dalam S tidak sama [Mitchell,1997].
nilai (A) adalah semua nilai yang mungkin dari atribut A, dan yc adalah
subset dari y dimana A mempunyai nilai c. Term pertama dalam persamaan
diatas adalah entropy total y dan term kedua adalah entropy sesudah dilakukan
pemisahan data berdasarkan atribut A. Untuk menghitung rasio perolehan
perlu diketahui suatu term baru yang disebut pemisahan informasi (SplitInfo).
Pemisahan informasi dihitung dengan cara :
Contoh Aplikasi
Credit Risk
Berikut ini merupakan contoh dari salah satu kasus resiko kredit (credit risk)
yang menggunakan decision tree untuk menentukan apakah seorang potential
customer dengan karakteristik saving, asset dan income tertentu memiliki good
credit risk atau bad credit risk.
Dapat dilihat pada gambar tersebut, bahwa target variable dari decision tree
tersebut atau variable yang akan diprediksi adalah credit risk dengan menggunakan
predictor variable : saving, asset, dan income. Setiap nilai atribut dari predictor
variable akan memiliki cabang menuju predictor variable selanjutnya, dan seterusnya
hingga tidak dapat dipecah dan menuju pada target variable. Penentuan apakah
diteruskan menuju predictor variable (decision node) atau menuju target variable (leaf
node) tergantung pada keyakinan (knowledge) apakah potential customer dengan nilai
atribut variable keputusan tertentu memiliki keakuratan nilai target variable 100%
atau tidak. Misalnya pada kasus di atas untuk saving medium, ternyata knowledge
yang dimiliki bahwa untuk seluruh potential customer dengan saving medium
memiliki credit risk yang baik dengan keakuratan 100%. Sedangkan untuk nilai low
asset terdapat kemungkinan good credit risk dan bad credit risk. Jika tidak terdapat
pemisahan lagi yang mungkin dilakukan, maka algoritma decision tree akan berhenti
membentuk decision node yang baru. Seharusnya setiap branches diakhiri dengan
pure leaf node, yaitu leaf node dengan target variable yang bersifat unary untuk
setiap records pada node tersebut, di mana untuk setiap nilai predictor variable yang
sama akan memiliki nilai target variable yang sama. Tetapi, terdapat kemungkinan
decision node memiliki diverse atributes, yaitu bersifat nonunary untuk nilai target
variablenya, di mana untuk setiap record dengan nilai predictor variable yang sama
ternyata memiliki nilai target variable yang berbeda. Kondisi tersebut menyebabkan
tidak dapat dilakukan pencabangan lagi berdasarkan nilai predictor variable.
Sehingga solusinya adalah membentuk leaf node yang disebut diverse leaf
node, dengan menyatakan level kepercayaan dari diverse leaf node tersebut. Misalnya
untuk contoh data berikut ini :
Dari training data tersebut kemudian disusunlah alternatif untuk candidate split,
sehingga setiap nilai untuk predictor variable di atas hanya membentuk 2 cabang, yaitu
sebagai berikut:
,di mana
Adapun contoh hasil perhitungannya adalah sebagai berikut :
Dapat dilihat dari contoh perhitungan di atas, bahwa yang memiliki nilai goodness of split *
(s/t) + yang terbesar, yaitu split 4 dengan nilai 0.64275. Oleh karena itu split 4 lah yang
akan digunakan pada root node, yaitu split dengan : assets = low dengan assets = {medium,
high}.
Untuk penentuan pencabangan, dapat dilihat bahwa dengan assets=low maka didapatkan pure
node leaf, yaitu bad risk (untuk record 2 dan 7). Sedangkan untuk assets = {medium, high}
masih terdapat 2 nilai, yaitu good credit risk dan bad credit risk. Sehingga pencabangan untuk
assets = {medium, high} memiliki decision node baru. Adapun pemilihan split yang akan
digunakan, yaitu dengan menyusun perhitungan nilai (s/t) yang baru tanpa melihat split 4,
record 2 dan 7.
Demikian seterusnya hingga akhirnya dibentuk leaf node dan membentuk decision tree yang
utuh (fully grown form) seperti di bawah ini :
Proses akuisisi pengetahuan yang secara biasanya dalam sistem pakar dilakukan
oleh sistem pakar, dalam sistem ini akan dillakukan dengan urutan proses ditunjukkan
pada gambar berikut:
Hasil pembentukan pohon keputusan bisa seperti pohon keputusan yang tampak pada
gambar:
Lambang bulat pada pohon keputusan melambangkan sebagai node akar atau cabang
(bukan daun) sedangkan kotak melambangkan node daun. Jika pengetahuan yang terbentuk
beruka kaidah produksi dengan format: Jika Premis Maka Konklusi Node-node akar akan
menjadi Premis dari aturan sedangkan node daun akan menjadi bagian konklusinya. Dari
gambar pohon keputusan pada gambar 4, dapat dibentuk aturan sebagai berikut:
http://bungsu-tabalagan.blogspot.com/2012/10/pengertian-dan-tujuan-sistem-pakar_27.html
http://siprianusaralta.blogspot.com/2013/11/pohon-keputusan-dan-tabel-keputusan.html
http://fairuzelsaid.wordpress.com/2009/11/24/data-mining-konsep-pohon-keputusan/