Algoritma C45
Algoritma C45
ARITA WITANTI
DEFINISI
• Algoritma C.45 adalah salah satu metode algoritma klasifikasi atau
pengelompokan pada dataset. Dasar dari algoritma C4.5 adalah
pembentukan pohon keputusan (Decision Tree).
• Berguna untuk mengeksplorasi data, menentukan hubungan tersembunyi
antara sejumlah variable input dan variable target
• Merupakan pengembagan dari algoritma ID3, mengubah data tabel
menjadi data pohon dan rule yang sederhana
Sederhanakan
Data Model pohon Rule
rule
KELEBIHAN C45
• Mampu menangani atribut dengan tipe diskrit dan kontinyu
• Mampu menghandle missing value / atribut yang kosong
• Melakukan pemangkasan pohon keputusan sehingga lebih mudah
diklasifikasi
• Termasuk supervised learning – artinya atribut tujuan sudah ditentukan
diawal
TAHAPAN ALGORITMA C45
7. ULANGI PROSES
6. MEMBUAT
1. MENYIAPKAN SETIAP CABANG
CABANG UNTUK
DATA SET HINGGA SEMUA
TIAP NILAI
NODE TERPARTISI
2.MENGHITUNG 5. MENGHITUNG
NILAI ENTROPHY NILAI GAIN RATIO
3. MENGHITUNG 4. MENGHITUNG
NILAI GAIN NILAI SPLIT INFO
MENGHITUNG NILAI ENTROPHY
Keterangan:
S = himpunan kasus (data set)
n = jumlah partisi S
pi = proporsi dari Si terhadap S
LANGKAH LANGKAH C45
Langkah-langkah secara umum:
1. Pilih atribut sebagai akar (root)
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang (langkah 1, 2, dan 3) sampai semua
kasus pada cabang memiliki kelas yang sama.
7
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
8
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
9
PENYELESAIAN
1. Tentukan mana variabel tujuan, mana variabel input.
2. Lakukan tahap-tahap algoritma C4.5 pada variabel input untuk
menentukan variabel tujuan.
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
10
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
11
Keterangan:
S = himpunan kasus
A = atribut
n = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-1
|S| = jumlah kasus dalam S
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
12
Keterangan:
S = himpunan kasus
n = jumlah partisi S
pi = proporsi dari Si terhadap S
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
13
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
14
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
15
Keterangan:
Pengisian cabang
berdasar pada
nilai yang ada di
kolom humidity,
yaitu high dan
normal (lihat soal).
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
16
Keterangan:
Humidity memiliki dua nilai, high dan normal. Pada perhitungan node 1,
untuk nilai normal menghasilkan 7 keputusan yes dan 0 keputusan no.
Artinya untuk semua nilai humidity normal keputusannya adalah yes,
maka anak cabang dari normal adalah yes.
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
18
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
19
Keterangan:
Outlook memiliki tiga nilai yaitu: sunny, cloudy, dan rainny. Pada
perhitungan node 2, dapat dilihat untuk semua nilai outlook sunny
keputusannya adalah no. Untuk semua nilai cloudy keputusannya adalah
yes.
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
21
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
22
Keterangan:
Windy memiliki dua nilai yaitu: true dan false. Pada perhitungan node 3,
dapat dilihat untuk semua nilai windy true keputusannya adalah no. Untuk
semua nilai false keputusannya adalah yes.
Karena pada kondisi ini semua anak cabang telah jelas, maka
perhitungan berhenti.
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
23
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
24
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
REFERENSI
• Data Preparation for Data Mining, Pyle, Dorian,Morgan Kaufmann Publisher,
Inc, 1999
• Data mining , Basuki dan syarif
• Data mining , AFR