Pohon

Pohon Keputusan (Decision Tree)
Windy Gambetta
Departemen Teknik Informatika Institut Teknologi Bandung
Page 1
IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan
Pendahuluan
Representasi Pohon Keputusan Algoritma ID3 Entropy, Information Gain Overfitting Atribut dan Penanganannya
Page 2
Contoh Kasus Pembelajaran
Page 3
Pohon Keputusan
Page 4
Pendahuluan
Simpul internal menguji suatu atribut Cabang internal berkaitan dengan nilai atribut Simpul daun memberikan klasifikasi / kelas Bagaimana untuk:
Page 5
Induksi Atas-Bawah (Top-Down Induction)

A = atribut terbaik untuk dipilih sbg simpul berikut A dijadikan atribut untuk simpul kini Utk tiap nilai A, buat simpul turunan Distribusikan kasus berdasar nilai atribut A-nya Jika kasus berada dalam satu klasifikasi STOP jika tidak iterasi untuk simpul daun Mana yang terbaik?
IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan Page 6
Entropy
S = sampel kasus pelatihan P+ = proporsi kasus positif di S P- = proporsi kasus negatif di S Entropy mengukur ketidakmurnian S Entropy(S) =
Page 7
Entropy
Entropy(S) - jumlah bit diperlukan utk mengkodekan kelas (+ atau -) dari anggota S yang diambil acak (dengan kode terpendek) Mengapa?
Teori Informasi: Aturan pengkodean optimal akan membutuhkan -log2 pbit utk pesan dengan probabilitas p Jadi, utk mengkodekan anggota + dan - dari S:
Page 8
Information Gain
Gain(S,A) - reduksi entropy jika diurut berdasar A
Page 9
CONTOH
Page 10
Pemilihan Atribut Akar
Page 11
Pemilihan Atribut Akar
Page 12
Pemilihan Atribut Berikutnya
Page 13
Pohon Hasil
Page 14
Pencarian Ruang Hipotesa (ID3)
Page 15
Pencarian Ruang Hipotesa

Ruang Hipotesa Lengkap!
Fungsi Target tersedia (tapi dapatkah ditemukan?)
Menghasilkan satu hipotesa Tidak ada backtracking

Kemungkinan maksimal lokal
Pilihan pencarian berbasis statistik

Tahan terhadap data kotor
Inductive bias: Pohon kecil yang dipilih!
Page 16
Inductive Bias
Ruang Hipotesa H adalah power set dari instans X Unbiased?
Memilih pohon kecil dengan atribut yang mempunyai information gain dekat akar (Pada beberapa hipotesa) Bias adalah preferensi bukan batasan Occams razor: Lebih suka hipotesa terpendek yang cocok dengan data
Page 17
Occams Razor
Mengapa memilih hipotesa pendek? +
Hipotesa pendek lebih sedikit dibanding yang panjang Hipotesa pendek yang cocok dengan data kecil kemungkinannya karena kebetulan Hipotesa panjang kemungkinan kebetulannya lebih besar
Ada berbagai cara untuk mendefinisikan hipotesa pendek Apa yang spesial mengenai kumpulan kecil berdasar ukuran?
Page 18
Overfitting pada Pohon Keputusan

Misalkan ditambahkan kasus pelatihan yang salah: <Green, SUV,2, Blackwell> +
Pengaruh pd pohon?
Page 19
Overfitting
Perhatikan galat hipotesa h pada
Data Pelatihan: errortrain(h) Seluruh distribusi data D:errorD(h)
Hipotesa h H terlalu pas (overfit) pada kasus pelatihan jikaterdapat hipotesa lain h H sehingga
errortrain(h) errortrain(h) dan errorD(h) errorD(h)
Page 20
10
Overfitting
Page 21
Menghindari Overfitting
Berhenti mengembangkan simpul baru ketika data statistik tidak signifikan, atau Kembangkan pohon hingga lengkap dan lakukan pemotongan (pruning) Memilih pohon terbaik?
Ukur performansi pada kasus pelatihan Ukur performansi pada kasus uji (validasi) Minimalkan ukuran(pohon) +ukuran(misclassification(pohon))
Page 22
11
Pemangkasan untuk Mengurangi Galat

Bagi dua data menjadi data pelatihan dan data validasi Lakukan hingga pemangkasan tidak perlu
Evaluasi efek setiap pemangkasan pada data validasi Hapuskan yang paling mempengaruhi ketepatan pada data validasi
Bagaimana jika data sedikit?
Page 23
Efek Pemangkasan thd Galat
Page 24
12
Post-Pruning
Metoda Standard pada C4.5, C5.0 Bentuk Pohon Lengkap
Hitung pengaruh tiap simpul pada keakuratan pohon Pangkas simpul yang kurang berpengaruh
Page 25
Rule Post-Pruning
Ubah pohon menjadi kumpulan kaidah Pangkas tiap kaidah sendiri-sendiri Urutkan jaidah sisa
Page 26
13
Konversi Pohon ke Kaidah
Page 27
Atribut Bernilai Kontinyu

Atribut harus diubah menjadi diskrit
(EngineSize = 325) = true or false (EngineSize <= 330) = t or f (330 titik potong)
Bagaimana memilih titik potong?

Urutkan atribut kontinyu pada data Lihat dua nilai berurutan yang mempunyai kelas berbeda Pilih titik potong yang terbaik Mengapa?
Page 28
14
Atribut Bernilai Banyak

Atribut bernilai banyak akan dipilih karena memberi Gain besar.
Misalkan data kendaraan mempunyai TanggalBeli maka kemungkinan besar bernilai berbeda
Pendekatan: GainRatio(S,A)
dengan
dan menentukan bobot biaya

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan Page 29
Nilai Atribut Tak Diketahui

Bagaimana jika kasus pada atribut A tidak berisi data (unknown)
? pada C4.5
Tetap pergunakan data tsb!

Jika dilakukan pengujian atribut A pada simpul n, beri nilai yang paling sering muncul pada kasus yang termasuk simpul n Beri nilai yang paling sering muncul pada kasus kasus dengan target sama Beri nilai probabilitas pi untuk setiap nilai vi dari A
Untuk simpul berikutnya beri bagian dari pi
Page 30
15
Atribut dengan Biaya

Misalkan
BloodTest pada diagnosa medis membutuhkan Rp. 1.500.000 Width_from_1ft membutuhkan 23 detik pada robot
Bagaimana pohon konsisten dengan biaya termurah? Pendekatan: Ganti Gain dengan
dengan Si subset S dgn nilai atribut A vi
Page 31
16

Pohon

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pohon

Diunggah oleh

Hak Cipta:

Format Tersedia

Pohon Keputusan (Decision Tree)

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Contoh Kasus Pembelajaran

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Induksi Atas-Bawah (Top-Down Induction)

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pemilihan Atribut Akar

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pemilihan Atribut Akar

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pemilihan Atribut Berikutnya

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pencarian Ruang Hipotesa (ID3)

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pencarian Ruang Hipotesa

Menghasilkan satu hipotesa Tidak ada backtracking

Pilihan pencarian berbasis statistik

Inductive bias: Pohon kecil yang dipilih!

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Overfitting pada Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Pemangkasan untuk Mengurangi Galat

Bagaimana jika data sedikit?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Efek Pemangkasan thd Galat

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Konversi Pohon ke Kaidah

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Atribut Bernilai Kontinyu

Bagaimana memilih titik potong?

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Atribut Bernilai Banyak

dan menentukan bobot biaya

Nilai Atribut Tak Diketahui

Tetap pergunakan data tsb!

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Atribut dengan Biaya

dengan Si subset S dgn nilai atribut A vi

IF-ITB/WG/12-08-03 IF5032 - Pohon Keputusan

Anda mungkin juga menyukai