Anda di halaman 1dari 8

KLASIFIKASI & ALGORITMA

C4.5
Kelompok 6 :
1) 1220279 - Ajeng Nirwantari
2) 1220283 - Deby Julia Sari
3) 3220267 - Detri Romadhaniati
4) 3220285 Revi Antika Sri Anggraeni
5) 1220315 - Riska Zafira
PENGERTIAN KLASIFIKASI & ALGORITMA C.45
a) Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau
kelas (class). Klasifikasi data mining menjadi salah satu metode yang paling umum untuk digunakan. Metode ini
dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang labelnya belum diketahui.

b) Banyak algoritma yang dapat dipakaidalam pembentukan pohon keputusan, antaralain ID3, CART, dan C.45. Algoritma
C.45merupakan pengembangan dari algoritma ID3(Larose, 2005). Secara umum algoritma C4.5digunakan untuk
membangun pohon keputusanadalah sebagai berikut (Kusrini, 2009) :a. Pilih atribut sebagai akarb. Buat cabang untuk
tiap-tiap nilaic. Bagi kasus dalam cabangd. Ulangi proses untuk setiap cabangsampai semua kasus pada cabang
memilikikelas yang samaUntuk memilih atribut sebagai akar,didasarkan pada nilai Gain tertinggi dariatribut- atribut
yang ada. Untuk menghitungGain digunakan rumus seperti tertera dalampersamaan berikut :Keterangan :S : himpunan
kasusA : atributn : jumlah partisi atribut A|Si| : jumlah kasus pada partisi ke-i|S| : jumlah kasus dalam SSetelah
mendapatkan nilai Gain, adasatu hal lagi yang perlu dilakukan perhitunganyaitu mencari nilai Entropy.
Entropydigunakan untuk menentukan seberapainformatif sebuah input atribut untukmenghasilkan output atribut.Rumus
dasar dari Entropy tersebutadalah sebagai berikut :Keterangan :S : himpunan kasusn : jumlah partisi Spi : proporsi dari
Si terhadap S
TUJUAN KLASIFIKASI & ALGORITMA
A) Metode klasifikasi dilakukan bertujuan untuk memperkirakan
kelas dari suatu objek yang labelnya belum diketahui.

Tujuan dari algoritme C4.5 adalah untuk melakukanklasifikasi


B) sehingga hasil dari pengolahan dataset berupa pengelompokan
data ke dalam kelas-kelastertentu. Pohon keputusan berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi
antarasejumlah calon variabel input dengan sebuah variabel target.
Dengan demikian, manfaat utamapenggunaan pohon keputusan
adalah kemampuannya untuk membuat proses pengambilan
keputusanyang kompleks menjadi lebih sederhana sehingga
pengambil keputusan akan lebih menginterpretasikansolusi dari
permasalahan.
METODE KLASIFIKASI

Dalam melakukan metode klasifikasi, ada proses


estimasi yang bernama simple/single split yaitu memisahkan
data untuk training (70%) dan testing (30%). Hal ini
digunakan untuk melihat prediksi dari akurasi metode
klasifikasi tersebut.
Data mining metode klasifikasi melakukan prosesnya dengan
belajar dengan data yang sudah ada, kemudian melakukan klasifikasi
untuk data baru, hasil dari metode klasifikasi adalah categorical
(nominal atau ordinal). Dalam melihat apakan estimasi akurasi yang
diberikan oleh model klasifikasi benar, maka ada yang dinamakan
confusion matrix. Dari matrix tersebut para miner dapat melakukan
estimasi akurasi dari proses yang sudah dijalankan.
KELEBIHAN & KELEMAHAN ALGORITMA C4.5

Kelebihan Algoritma C4.5 :


A) 1. 1. C4.5 mampu menangani atribut yang kosong (Missing Value).
2. 2. C4.5 mampu menangani atribut dengan kontinu.
3. 3. C4.5 memangkas pohon keputusan untuk mengatasi overfitting.

Kekurangan Algoritma C4.5 :


B) 1. Algoritma C4.5 hanya dapat digunakan untuk
menangani sampel-sampel yang dapat disimpan
secara keseluruhan dan pada waktu yang bersamaan
di memori.
CONTOH PENERAPAN
Berikut ini algoritma dasar dari C4.5:
Input : sampel training, label training, atribut
Output : pohon keputusan

1. Membuat simpul akar untuk pohon yang dibuat


2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label
training
5. Untuk yang lain, Mulai

A. A ------ atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
B. Atribut keputusan untuk simpul akar ----- A
C. Untuk setiap nilai, vi, yang mungkin untuk A
a. Tambahkan cabang di bawah akar yang berhubungan dengan A= v i
b. Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
c. Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training
ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-
[A])
D. Berhenti
A. Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin
dapat dibangun dari root sampai leaf node.
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut (Craw 2005).
a. Pilih atribut sebagai akar
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

Anda mungkin juga menyukai