Anda di halaman 1dari 9

Teknik Decision Tree Learning C4.

Definisi

Ada tiga kemungkinan untuk isi dari set training samples T di node tertentu pada decision tree: T berisi satu atau lebih sampel, semua milik satu kelas Cj. Decision tree untuk T adalah leaf yang mengidentifikasikan kelas Cj. T tidak mengandung sampel. Decision tree adalah leaf yang kelasnya dihubungkan harus ditentukan dari informasi selain T, seperti keseluruhan kelas mayoritas T. Algoritma C4.5 digunakan sebagai kriteria kelas yang paling sering pada parent node. T mengandung sampel yang termasuk campuran kelas. Dalam situasi ini, idenya adalah untuk memperbaiki T ke bagian dari sampel yang menuju koleksi single-class sampel.

Test - entropi: Jika S merupakan setiap set sampel, biarkan freq (Ci, S) berdiri untuk jumlah sampel dalam S yang merupakan milik kelas Ci (diluar kemungkinan kelas k), dan S menunjukkan jumlah sampel di set S. kemudian entropi set S:

Setelah set T telah dipartisi sesuai dengan hasil n dari satu atribut uji X:

Kriteria: pilih atribut dengan nilai Gain tertinggi.

Teknik
C4.5 membuat decision tree dari satu set training data dalam cara yang sama seperti ID3, menggunakan konsep informasi entropi. Training data yang digunakan adalah satu set S = {s_1, s_2, ...} sampel yang sudah diklasifikasikan. Setiap sampel s_i terdiri dari vektor p-dimensi (x_{1, i}, {x_2, i}, ..., x_{p, i}), dimana x_j mewakili atribut atau fitur dari sampel, serta kelas dimana s_i berada. Pada setiap node dari tree, C4.5 memilih atribut dari data yang paling efektif membagi set sampel dalam subset diperkaya dalam satu kelas atau yang lain. Kriteria pembelahannya adalah information gain yang ternormalisasi (perbedaan entropi). Atribut dengan information gain ternormalisasi tertinggi dipilih untuk membuat keputusan.

Algoritma
1. Build the decision tree form the training set (conventional ID3). 2. Convert the resulting tree into an equivalent set of rules. The number of rules is equivalent to the number of possible paths from the root to a leaf node. 3. Prune (generalize) each rule by removing preconditions that increase classification accuracy. 4. Sort pruned rules by their accuracy, and use them in this order when classifying future test examples.

Contoh

Contoh

Anda mungkin juga menyukai