• Atribut Kategori
Atribut Nilai
Main Ya, Tidak
tinggi normal
Cuaca Ya
Berawan Cerah
Ya Hujan
Tidak
Berangin
Cuaca Suhu Kelembaban Berangin Main
Cerah DIngin Tinggi Benar ???
Salah Benar
Ya Tidak
Sekolah Tinggi Ilmu Statistik Jakarta 5
Mengapa decision tree?
• Decision tree merupakan metode klasifikasi
yang paling populer
• Interpretasi mudah
• Konsep dasar: dari data yang ada menjadi
pohon keputusan dan aturan-aturan
keputusan (rule)
Sekolah Tinggi Ilmu Statistik Jakarta 6
Konsep Algoritma ID3
• Dalam decision tree, tiap node berisi atribut non-
kategorik dan setiap arc berisi nilai yang mungkin
untuk atribut tersebut.
• Dalam decision tree, setiap node harus berasosiasi
dengan atribut non-kategorik yang paling informatif
• Entropy digunakan untuk mengukur seberapa
informatif suatu node
Sekolah Tinggi Ilmu Statistik Jakarta 7
Konsep
• Jika terdapat sejumlah n pesan yang mungkin,
maka peluang p untuk setiap pesan adalah 1/n dan
nilai informasi yang dapat disampaikan oleh pesan
adalah –log(p) = log(n). [log berbasis 2]
• Jika terdapat 16 pesan, maka log(16) = 4
• Maka kita membutuhkan 4 bit untuk
mengidentifikasi setiap pesan
Sekolah Tinggi Ilmu Statistik Jakarta 8
• Jika kita memiliki suatu distribusi probabilitas
P = (p1, p2, ..., pn) maka maka nilai informasi
yang disampaikan oleh distribusi ini (yang
disebut juga dengan Entropy dari P) adalah:
• Entropy (P) = -(p1*log(p1) + p2*log(p2) + ... + pn*log(pn)) Total Kasus Sum(Ya) Sum(Tidak) Entropi
Total
• Entropy(P) = -(10/14*log 10/14 + 4/14 * log 4/14) = 0,863
14 10 4 0,863
1
Kelembaban
tinggi normal
1.1 Cuaca Ya
Berawan Cerah
Ya Hujan
Tidak
1.1.2
? Sekolah Tinggi Ilmu Statistik Jakarta 29
• Filter tabel
Analisis Node 1.1.2
No Cuaca Suhu Kelembaban Berangin Main
1 Hujan Sejuk Tinggi Salah Ya
2 Hujan Sejuk Tinggi Benar Tidak
• Entropy
Kelembaban Tinggi & Hujan Sum(Ya) Sum(Tidak) Entropi
2 1 1 1
1.1 Cuaca Ya
Berawan Cerah
Ya Hujan
Tidak
1.1.2
Berangin