Windy Gambetta
Departemen Teknik Informatika Institut Teknologi Bandung
Page 1
Pendahuluan
Representasi Pohon Keputusan Algoritma ID3 Entropy, Information Gain Overfitting Atribut dan Penanganannya
Page 2
Page 3
Pohon Keputusan
Page 4
Pendahuluan
Simpul internal menguji suatu atribut Cabang internal berkaitan dengan nilai atribut Simpul daun memberikan klasifikasi / kelas Bagaimana untuk:
Page 5
Entropy
S = sampel kasus pelatihan P+ = proporsi kasus positif di S P- = proporsi kasus negatif di S Entropy mengukur ketidakmurnian S Entropy(S) =
Page 7
Entropy
Entropy(S) - jumlah bit diperlukan utk mengkodekan kelas (+ atau -) dari anggota S yang diambil acak (dengan kode terpendek) Mengapa?
Teori Informasi: Aturan pengkodean optimal akan membutuhkan -log2 pbit utk pesan dengan probabilitas p Jadi, utk mengkodekan anggota + dan - dari S:
Page 8
Information Gain
Gain(S,A) - reduksi entropy jika diurut berdasar A
Page 9
CONTOH
Page 10
Page 11
Page 12
Page 13
Pohon Hasil
Page 14
Page 15
Page 16
Inductive Bias
Ruang Hipotesa H adalah power set dari instans X Unbiased?
Memilih pohon kecil dengan atribut yang mempunyai information gain dekat akar (Pada beberapa hipotesa) Bias adalah preferensi bukan batasan Occams razor: Lebih suka hipotesa terpendek yang cocok dengan data
Page 17
Occams Razor
Mengapa memilih hipotesa pendek? +
Hipotesa pendek lebih sedikit dibanding yang panjang Hipotesa pendek yang cocok dengan data kecil kemungkinannya karena kebetulan Hipotesa panjang kemungkinan kebetulannya lebih besar
Ada berbagai cara untuk mendefinisikan hipotesa pendek Apa yang spesial mengenai kumpulan kecil berdasar ukuran?
Page 18
Page 19
Overfitting
Perhatikan galat hipotesa h pada
Data Pelatihan: errortrain(h) Seluruh distribusi data D:errorD(h)
Hipotesa h H terlalu pas (overfit) pada kasus pelatihan jikaterdapat hipotesa lain h H sehingga
errortrain(h) errortrain(h) dan errorD(h) errorD(h)
Page 20
10
Overfitting
Page 21
Menghindari Overfitting
Berhenti mengembangkan simpul baru ketika data statistik tidak signifikan, atau Kembangkan pohon hingga lengkap dan lakukan pemotongan (pruning) Memilih pohon terbaik?
Ukur performansi pada kasus pelatihan Ukur performansi pada kasus uji (validasi) Minimalkan ukuran(pohon) +ukuran(misclassification(pohon))
Page 22
11
Page 23
Page 24
12
Post-Pruning
Metoda Standard pada C4.5, C5.0 Bentuk Pohon Lengkap
Hitung pengaruh tiap simpul pada keakuratan pohon Pangkas simpul yang kurang berpengaruh
Page 25
Rule Post-Pruning
Ubah pohon menjadi kumpulan kaidah Pangkas tiap kaidah sendiri-sendiri Urutkan jaidah sisa
Page 26
13
Page 27
Page 28
14
Pendekatan: GainRatio(S,A)
dengan
Page 30
15
Bagaimana pohon konsisten dengan biaya termurah? Pendekatan: Ganti Gain dengan
Page 31
16