ID3 dan J48 Algoritma Decision Tree

Algoritma Iterative Dichotomiser 3 (ID3) dan
Algoritma J48
Andre Hody Setiawan (000000008757)
Algoritma Iterative Dichotomiser 3 (ID3)

Algoritma Iterative Dichotomiser 3 (ID3) adalah algoritma yang digunakan untuk
melakukan analisa data mining yang akan membentuk sebuah decision tree yang akan
memberikan sebuah pertimbangan keputusan yang akan diambil (Kristanto, 2013).
Fitur-fitur yang ditawarkan algoritma ID3 antara lain:
 Menghasilkan pohon keputusan yang simple dan spesifik

 Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena dengan
menggunakan konsep pohon keputusan maka sampel yang diuji hanya berdasarkan
kriteria atau kelas tertentu
Metode/cara kerja yang digunakan algoritma ID3 adalah mengambil konsep Entropy
informasi. Pemilihan atribut data menggunakan Information Gain. Gain mengukur
seberapa baik suatu atribut dengan memisahkan training example ke dalam kelas target.
Atribut dengan informasi tertinggi akan dipilih (Kristanto, 2013)
Untuk menentukan sebuah Gain makan digunakanlah sebuat teori konsep Entropy.
Rumus dari Entropy Informasi untuk mengukur Informasi yang ada pada ID3 yaitu:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = −𝑃 + 𝑙𝑜𝑔2𝑃 + −𝑃_𝑙𝑜𝑔2𝑃_

Penjelasan:
S adalah ruang (data) sample yang digunakan untuk training.
P+ adalah jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria
tertentu.
P_ adalah jumlah yang bersolusi negative (tidak mendukung) pada data sample untuk kriteria
tertentu.
Semakin kecil nilai Entropy maka semakin baik digunakan dalam mengekstrasi suatu kelas.
Untuk mencari/menghitung Information Gain memiliki rumus sebagai berikut:
|𝑆𝑣|
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑣)
|𝑆|
𝑉𝑒𝑁𝑖𝑙𝑎𝑖(𝐴)
Penjelasan:
A adalah Atribut
V adalah suatu nilai yang mungkin untuk atribut A
Value(A) adalah himpunan yang mungkin untuk atribut A
|Sv| adalah Jumlah sampel untuk nilai V
|S| adalah jumlah seluruh sampel data
Entropy(Sv) adalah Entropy untuk sampel-sampel yang memiliki nilai v
Atribut yang memiliki nilai information gain terbesar harus dipilih. Proses perhitungan
Information gain akan terus dilakukan sampai semua data telah masuk ke dalam kelas yang sama.
Algoritma J48
Algoritma J48 adalah salah satu bentuk pengembangan algoritma Decision Tree yaitu
algoritma yang digunakan untuk analisa data dengan mencari jalan bagaimana sebuat atribut
bereaksi terhadap beberapa model atau kondisi. Metode ini juga berkerja untuk menghasilkan
rule yang digunakan sebagai dasar untuk melakukan sebuah prediksi terhadap target variabel.
Secara garis besar, metode J48 memiliki metode atau cara kerja yang hampir mirip dengan
metode ID3 dan dapat dikatakan sebagai bentuk lanjutan dari metode algoritma ID3.
Fitur-fitur tambahan pada metode J48 yang tidak ada pada ID3 adalah:
 Melakukan proses Accounting terhadap missing values
 Decision Trees Prunning
 Attribute Range Values yang berkelanjutan
 Penurunan Rule
 dll.
Objek utama algoritma J48 adalah secara progresif melakukan generalisai sebuah decision tree
hingga mendapatkan Equilibrium dari Flexibility dan juga Akurasi.
Langkah sederhana cara kerja metode algoritma J48 yaitu:
1. Apabila sebuah model/sampling bergantung pada Class yang sama pada tree yang
mewakili leaf maka leaf tersebut dikembalikan ke class dengan label yang sama
2. Informasi yang potensial/penting dikalkulasikan di setiap Atribut dan juga dilakukan
test pada setiap atribut-nya. Hasil gain di dalam informasi yang didapat dikalkulasi
kembali yang didapat ketika melakukan test di dalam atribut
3. Atribut terbaik ditemuka berdasarkan seleksi kriteria dan dipilih untuk branching.
Algoritma J48 akan menghasilkan rules yang digunakan untuk keperluan prediksi target
variabel data dan juga mampu menghasilkan sebuah decision tree yang mudah dipahami
berdasarkan data yang ada. Kelebihan J48 adalah mampu mengatasi values yang missing di
dalam data training. Layak-nya metode algoritma ID3, Algoritma J48 juga memanfaatkan
konsep Entropy layaknya algoritma ID untuk mendapatkan Information Gain (Kaur &
Chhabra, 2014).
Rumus dari Entropy Informasi untuk mengukur Informasi yang ada pada J48 yaitu:
𝑛
|𝑦𝑖 | |𝑦𝑖 |
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑦) = − ∑ log( )
|𝑦| |𝑦|
𝑗=1
|𝑦𝑖 | |𝑦𝑖|
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑗|𝑦) = log( )
|𝑦| |𝑦|
Untuk mencari/menghitung Information Gain memiliki rumus sebagai berikut:
𝐺𝑎𝑖𝑛(𝑦|𝑗) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑦 − 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑗|𝑦))

Penjelasan:
n adalah Jumlah Atribut
j adalah suatu nilai value yang digunakan
|yi| adalah Jumlah sampel untuk nilai i
|y| adalah jumlah seluruh sampel data
|yj| adalah Jumlah sampel untuk nilai j
|y| adalah jumlah seluruh sampel data
Pruning
Permasalah yang sering ditemui adalah terdapat beberapa data set yang digunakan tidak
mampu untuk didefinisikan secara baik dan tidak mampu untuk dibedakan dari
model/sampling lainnya di dalam satu kesatuan program. Untuk menjawab permasalahan
tersebut maka dilakukanlah sebuah klasifikasi pada model/sampling dari training set dan
tree yang telah terbentuk. Metode yang digunakan agar proses klasifikasi berjalan dengan
baik adalah Pruning. Tujuan utama dilakukannya Pruning adalah untuk mengurangi
kesalahan ketika melakukan klasifikasi dimana didapat ketika melakukan spesialisasi di
dalam training set. Pruning dilakukan untuk mengeneralisasi tree.
Hasil yang didapat dari fitur-fitur kunci yang ada di dalam algoritma J48 adalah:
 Antara atribut discrete dan continuous dapat ditangani dengan algoritma ini. Fitur
ini membagi data list ke atribut mereka masing masing di bawah ambang batas
yang ditentukan oleh C4.5 dan memiliki nilai yang lebih atau sama dengannya
 Algoritma ini juga dapat menangani missing values apabila terdapat di dalam
training data
 Setelah Tree telah sepenuhnya terbentuk, algoritma J48 akan melakukan proses
Pruning seperti yang dijelaskan sebelumnya.
Performance Evaluation
Untuk mengukur buruk atau baiknya sebuah data yang dihasilkan, maka setiap aspek data
yang telah dihasilkan oleh algoritma yang ditentukan dapat dilakakuan evaluasi dengan
mengecek tingkat akurasi dari data tersebut.
Untuk mengukur tingkat akurasi data yang dihasilkan dapat menggunakan Rumus sebagai
berikut:
(TP + TN)
𝑇𝐴 =
TP + TN + FP + FN
Penjelasan:
TA adalah Total Akurasi
TP adalah nilai True Positive
TN adalah nilai True Negative
FP adalah nilai False Negative
FN adalah nilai False Negative
Semakin tinggi angka akurasi yang dihasilkan maka semakin baik juga hasil kualitas dari
algoritma yang digunakan.
REFERENSI:
Kaur, G., & Chhabra, A. (2014). Improved J48 Classification Algorithm for Prediction of Diabetes.
Kristanto, O. (2013). Penerapan Algoritma Klasifikasi Data Mining ID3 Untuk Menentukan Penjurusan
Siswa SMAN 6 Semarang.

ID3 dan J48 Algoritma Decision Tree

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ID3 dan J48 Algoritma Decision Tree

Diunggah oleh

Hak Cipta:

Format Tersedia

Algoritma Iterative Dichotomiser 3 (ID3) dan

Algoritma Iterative Dichotomiser 3 (ID3)

Fitur-fitur yang ditawarkan algoritma ID3 antara lain:

 Menghasilkan pohon keputusan yang simple dan spesifik

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = −𝑃 + 𝑙𝑜𝑔2𝑃 + −𝑃_𝑙𝑜𝑔2𝑃_

S adalah ruang (data) sample yang digunakan untuk training.

V adalah suatu nilai yang mungkin untuk atribut A

Value(A) adalah himpunan yang mungkin untuk atribut A

|Sv| adalah Jumlah sampel untuk nilai V

|S| adalah jumlah seluruh sampel data

Entropy(Sv) adalah Entropy untuk sampel-sampel yang memiliki nilai v

Langkah sederhana cara kerja metode algoritma J48 yaitu:

𝐺𝑎𝑖𝑛(𝑦|𝑗) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑦 − 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑗|𝑦))

n adalah Jumlah Atribut

j adalah suatu nilai value yang digunakan

|yi| adalah Jumlah sampel untuk nilai i

|y| adalah jumlah seluruh sampel data

|yj| adalah Jumlah sampel untuk nilai j

|y| adalah jumlah seluruh sampel data

TA adalah Total Akurasi

TP adalah nilai True Positive

TN adalah nilai True Negative

FP adalah nilai False Negative

FN adalah nilai False Negative

Anda mungkin juga menyukai