Anda di halaman 1dari 16

Pohon Keputusan (Decision Tree)

Windy Gambetta
Departemen Teknik Informatika Institut Teknologi Bandung
Page 1

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pendahuluan
Representasi Pohon Keputusan Algoritma ID3 Entropy, Information Gain Overfitting Atribut dan Penanganannya

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 2

Contoh Kasus Pembelajaran

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 3

Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 4

Pendahuluan
Simpul internal menguji suatu atribut Cabang internal berkaitan dengan nilai atribut Simpul daun memberikan klasifikasi / kelas Bagaimana untuk:

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 5

Induksi Atas-Bawah (Top-Down Induction)


A = atribut terbaik untuk dipilih sbg simpul berikut A dijadikan atribut untuk simpul kini Utk tiap nilai A, buat simpul turunan Distribusikan kasus berdasar nilai atribut A-nya Jika kasus berada dalam satu klasifikasi STOP jika tidak iterasi untuk simpul daun Mana yang terbaik?
IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan Page 6

Entropy
S = sampel kasus pelatihan P+ = proporsi kasus positif di S P- = proporsi kasus negatif di S Entropy mengukur ketidakmurnian S Entropy(S) =

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 7

Entropy
Entropy(S) - jumlah bit diperlukan utk mengkodekan kelas (+ atau -) dari anggota S yang diambil acak (dengan kode terpendek) Mengapa?
Teori Informasi: Aturan pengkodean optimal akan membutuhkan -log2 pbit utk pesan dengan probabilitas p Jadi, utk mengkodekan anggota + dan - dari S:

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 8

Information Gain
Gain(S,A) - reduksi entropy jika diurut berdasar A

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 9

CONTOH

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 10

Pemilihan Atribut Akar

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 11

Pemilihan Atribut Akar

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 12

Pemilihan Atribut Berikutnya

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 13

Pohon Hasil

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 14

Pencarian Ruang Hipotesa (ID3)

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 15

Pencarian Ruang Hipotesa


Ruang Hipotesa Lengkap!
Fungsi Target tersedia (tapi dapatkah ditemukan?)

Menghasilkan satu hipotesa Tidak ada backtracking


Kemungkinan maksimal lokal

Pilihan pencarian berbasis statistik


Tahan terhadap data kotor

Inductive bias: Pohon kecil yang dipilih!

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 16

Inductive Bias
Ruang Hipotesa H adalah power set dari instans X Unbiased?
Memilih pohon kecil dengan atribut yang mempunyai information gain dekat akar (Pada beberapa hipotesa) Bias adalah preferensi bukan batasan Occams razor: Lebih suka hipotesa terpendek yang cocok dengan data

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 17

Occams Razor
Mengapa memilih hipotesa pendek? +
Hipotesa pendek lebih sedikit dibanding yang panjang Hipotesa pendek yang cocok dengan data kecil kemungkinannya karena kebetulan Hipotesa panjang kemungkinan kebetulannya lebih besar

Ada berbagai cara untuk mendefinisikan hipotesa pendek Apa yang spesial mengenai kumpulan kecil berdasar ukuran?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 18

Overfitting pada Pohon Keputusan


Misalkan ditambahkan kasus pelatihan yang salah: <Green, SUV,2, Blackwell> +
Pengaruh pd pohon?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 19

Overfitting
Perhatikan galat hipotesa h pada
Data Pelatihan: errortrain(h) Seluruh distribusi data D:errorD(h)

Hipotesa h H terlalu pas (overfit) pada kasus pelatihan jikaterdapat hipotesa lain h H sehingga
errortrain(h) errortrain(h) dan errorD(h) errorD(h)

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 20

10

Overfitting

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 21

Menghindari Overfitting
Berhenti mengembangkan simpul baru ketika data statistik tidak signifikan, atau Kembangkan pohon hingga lengkap dan lakukan pemotongan (pruning) Memilih pohon terbaik?
Ukur performansi pada kasus pelatihan Ukur performansi pada kasus uji (validasi) Minimalkan ukuran(pohon) +ukuran(misclassification(pohon))

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 22

11

Pemangkasan untuk Mengurangi Galat


Bagi dua data menjadi data pelatihan dan data validasi Lakukan hingga pemangkasan tidak perlu
Evaluasi efek setiap pemangkasan pada data validasi Hapuskan yang paling mempengaruhi ketepatan pada data validasi

Bagaimana jika data sedikit?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 23

Efek Pemangkasan thd Galat

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 24

12

Post-Pruning
Metoda Standard pada C4.5, C5.0 Bentuk Pohon Lengkap
Hitung pengaruh tiap simpul pada keakuratan pohon Pangkas simpul yang kurang berpengaruh

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 25

Rule Post-Pruning
Ubah pohon menjadi kumpulan kaidah Pangkas tiap kaidah sendiri-sendiri Urutkan jaidah sisa

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 26

13

Konversi Pohon ke Kaidah

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 27

Atribut Bernilai Kontinyu


Atribut harus diubah menjadi diskrit
(EngineSize = 325) = true or false (EngineSize <= 330) = t or f (330 titik potong)

Bagaimana memilih titik potong?


Urutkan atribut kontinyu pada data Lihat dua nilai berurutan yang mempunyai kelas berbeda Pilih titik potong yang terbaik Mengapa?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 28

14

Atribut Bernilai Banyak


Atribut bernilai banyak akan dipilih karena memberi Gain besar.
Misalkan data kendaraan mempunyai TanggalBeli maka kemungkinan besar bernilai berbeda

Pendekatan: GainRatio(S,A)

dengan

dan menentukan bobot biaya


IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan Page 29

Nilai Atribut Tak Diketahui


Bagaimana jika kasus pada atribut A tidak berisi data (unknown)
? pada C4.5

Tetap pergunakan data tsb!


Jika dilakukan pengujian atribut A pada simpul n, beri nilai yang paling sering muncul pada kasus yang termasuk simpul n Beri nilai yang paling sering muncul pada kasus kasus dengan target sama Beri nilai probabilitas pi untuk setiap nilai vi dari A
Untuk simpul berikutnya beri bagian dari pi

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 30

15

Atribut dengan Biaya


Misalkan
BloodTest pada diagnosa medis membutuhkan Rp. 1.500.000 Width_from_1ft membutuhkan 23 detik pada robot

Bagaimana pohon konsisten dengan biaya termurah? Pendekatan: Ganti Gain dengan

dengan Si subset S dgn nilai atribut A vi

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Page 31

16

Anda mungkin juga menyukai