C4.5
Kelompok 6 :
1) 1220279 - Ajeng Nirwantari
2) 1220283 - Deby Julia Sari
3) 3220267 - Detri Romadhaniati
4) 3220285 Revi Antika Sri Anggraeni
5) 1220315 - Riska Zafira
PENGERTIAN KLASIFIKASI & ALGORITMA C.45
a) Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau
kelas (class). Klasifikasi data mining menjadi salah satu metode yang paling umum untuk digunakan. Metode ini
dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang labelnya belum diketahui.
b) Banyak algoritma yang dapat dipakaidalam pembentukan pohon keputusan, antaralain ID3, CART, dan C.45. Algoritma
C.45merupakan pengembangan dari algoritma ID3(Larose, 2005). Secara umum algoritma C4.5digunakan untuk
membangun pohon keputusanadalah sebagai berikut (Kusrini, 2009) :a. Pilih atribut sebagai akarb. Buat cabang untuk
tiap-tiap nilaic. Bagi kasus dalam cabangd. Ulangi proses untuk setiap cabangsampai semua kasus pada cabang
memilikikelas yang samaUntuk memilih atribut sebagai akar,didasarkan pada nilai Gain tertinggi dariatribut- atribut
yang ada. Untuk menghitungGain digunakan rumus seperti tertera dalampersamaan berikut :Keterangan :S : himpunan
kasusA : atributn : jumlah partisi atribut A|Si| : jumlah kasus pada partisi ke-i|S| : jumlah kasus dalam SSetelah
mendapatkan nilai Gain, adasatu hal lagi yang perlu dilakukan perhitunganyaitu mencari nilai Entropy.
Entropydigunakan untuk menentukan seberapainformatif sebuah input atribut untukmenghasilkan output atribut.Rumus
dasar dari Entropy tersebutadalah sebagai berikut :Keterangan :S : himpunan kasusn : jumlah partisi Spi : proporsi dari
Si terhadap S
TUJUAN KLASIFIKASI & ALGORITMA
A) Metode klasifikasi dilakukan bertujuan untuk memperkirakan
kelas dari suatu objek yang labelnya belum diketahui.
A. A ------ atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
B. Atribut keputusan untuk simpul akar ----- A
C. Untuk setiap nilai, vi, yang mungkin untuk A
a. Tambahkan cabang di bawah akar yang berhubungan dengan A= v i
b. Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
c. Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training
ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-
[A])
D. Berhenti
A. Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin
dapat dibangun dari root sampai leaf node.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Craw 2005).
a. Pilih atribut sebagai akar
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.