Anda di halaman 1dari 25

ALGORITMA C45

ARITA WITANTI
DEFINISI
• Algoritma C.45 adalah salah satu metode algoritma klasifikasi atau
pengelompokan pada dataset. Dasar dari algoritma C4.5 adalah
pembentukan pohon keputusan (Decision Tree).
• Berguna untuk mengeksplorasi data, menentukan hubungan tersembunyi
antara sejumlah variable input dan variable target
• Merupakan pengembagan dari algoritma ID3, mengubah data tabel
menjadi data pohon dan rule yang sederhana

Sederhanakan
Data Model pohon Rule
rule
KELEBIHAN C45
• Mampu menangani atribut dengan tipe diskrit dan kontinyu
• Mampu menghandle missing value / atribut yang kosong
• Melakukan pemangkasan pohon keputusan sehingga lebih mudah
diklasifikasi
• Termasuk supervised learning – artinya atribut tujuan sudah ditentukan
diawal
TAHAPAN ALGORITMA C45
7. ULANGI PROSES
6. MEMBUAT
1. MENYIAPKAN SETIAP CABANG
CABANG UNTUK
DATA SET HINGGA SEMUA
TIAP NILAI
NODE TERPARTISI

2.MENGHITUNG 5. MENGHITUNG
NILAI ENTROPHY NILAI GAIN RATIO

3. MENGHITUNG 4. MENGHITUNG
NILAI GAIN NILAI SPLIT INFO
MENGHITUNG NILAI ENTROPHY

Keterangan:
S = himpunan kasus (data set)
n = jumlah partisi S
pi = proporsi dari Si terhadap S
LANGKAH LANGKAH C45
Langkah-langkah secara umum:
1. Pilih atribut sebagai akar (root)
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang (langkah 1, 2, dan 3) sampai semua
kasus pada cabang memiliki kelas yang sama.
7

CONTOH KASUS (1)


• Diberikan beberapa data tentang keputusan bermain tenis.
• Buatlah pohon keputusan dengan algoritma c4.5 agar kelak kita dapat
memutuskan bermain atau tidak jika diketahui informasi lainnya.

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
8

CONTOH KASUS (2)

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
9

PENYELESAIAN
1. Tentukan mana variabel tujuan, mana variabel input.
2. Lakukan tahap-tahap algoritma C4.5 pada variabel input untuk
menentukan variabel tujuan.

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
10

PENENTUAN VARIABEL TUJUAN DAN


VARIABEL INPUT
• Berdasar tabel dan pertanyaan, maka dapat dituliskan bahwa:
• Variabel tujuan adalah kolom “play”
• Variabel input adalah kolom “outlook”, “temperature”, “humidity”, “windy”

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
11

LANGKAH 1: PILIH ATRIBUT SEBAGAI


AKAR (1)
• Untuk memilih atribut sebagai akar, didasarkan pada nilai gain
tertinggi dari variabel input. Rumusnya:

Keterangan:
S = himpunan kasus
A = atribut
n = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-1
|S| = jumlah kasus dalam S

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
12

LANGKAH 1: PILIH ATRIBUT SEBAGAI


AKAR (2)
• Sedangkan untuk mencari nilai entrophy, digunakan rumus berikut
ini:

Keterangan:
S = himpunan kasus
n = jumlah partisi S
pi = proporsi dari Si terhadap S

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
13

LANGKAH 1: PILIH ATRIBUT SEBAGAI


AKAR (3)
• Hasil perhitungan gain pada masing-masing atribut adalah seperti tertera pada
tabel perhitungan node 1 berikut ini:

Tips mengitung nilai entrophy:

Jika salah satu nilai dari kolom


“ya” dan “tidak” ada yang
nilainya “0”, maka dipastikan
nilai entrophy juga “0”

Jika nilai kolom “ya” dan “tidak”


bernilai sama, maka entrophy
bernilai “1’

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
14

LANGKAH 1: PILIH ATRIBUT SEBAGAI


AKAR (4)
• Pada tabel tersebut dapat dilihat bahwa nilai gain tertinggi adalah
pada artibut “humidity”, yaitu 0,3705065.
• Maka atribut “humidity” ini adalah akar dari pohon keputusan.

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
15

LANGKAH 2: BUAT CABANG UNTUK


MASING-MASING NILAI

Keterangan:
Pengisian cabang
berdasar pada
nilai yang ada di
kolom humidity,
yaitu high dan
normal (lihat soal).

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
16

LANGKAH 3: BAGI KASUS DALAM


CABANG

Keterangan:
Humidity memiliki dua nilai, high dan normal. Pada perhitungan node 1,
untuk nilai normal menghasilkan 7 keputusan yes dan 0 keputusan no.
Artinya untuk semua nilai humidity normal keputusannya adalah yes,
maka anak cabang dari normal adalah yes.

Sedangkan untuk high, terdapat 3 keputusan yes dan 4 keputusan no.


Artinya untuk nilai high belum jelas keputusannya, maka anak cabang
dari high perlu dicari kembali (perhitungan node 2)
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
17

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI
(1).

• Penentuan anak cabang untuk humidity “high”

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
18

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI (2)
• Pada tabel tersebut dapat dilihat bahwa nilai gain tertinggi adalah
pada artibut “outlook”, yaitu 0,69951385.
• Maka atribut “outlook” ini adalah anak cabang dari humidity
“high”.

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
19

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI (3)

Keterangan:
Outlook memiliki tiga nilai yaitu: sunny, cloudy, dan rainny. Pada
perhitungan node 2, dapat dilihat untuk semua nilai outlook sunny
keputusannya adalah no. Untuk semua nilai cloudy keputusannya adalah
yes.

Sedangkan untuk rainny belum jelas keputusannya, maka anak cabang


dari rainny perlu dicari kembali (perhitungan node 3)
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
20

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI
(4).
• Penentuan node untuk outlook “rainny”

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
21

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI (5)
• Pada tabel tersebut dapat dilihat bahwa nilai gain tertinggi adalah pada artibut
“windy”, yaitu 1.
• Maka atribut “windy” ini adalah anak cabang dari outlook “rainny”.

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
22

LANGKAH 4: ULANGI LANGKAH 1, 2, DAN 3


SAMPAI TIDAK ADA PERCABANGAN LAGI (6)

Keterangan:
Windy memiliki dua nilai yaitu: true dan false. Pada perhitungan node 3,
dapat dilihat untuk semua nilai windy true keputusannya adalah no. Untuk
semua nilai false keputusannya adalah yes.

Karena pada kondisi ini semua anak cabang telah jelas, maka
perhitungan berhenti.
Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
23

HASIL AKHIR KLASIFIKASI (1)

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
24

HASIL AKHIR KLASIFIKASI (2)


• Dari pohon keputusan tersebut dapat dibuat suatu rumusan:
• Humidity: Normal → main tenis
• Humidity: High, Outlook: Cloudy → main tenis
• Humidity: High, Outlook: Sunny → tidak main tenis
• Humidity: High, Outlook: Rainny, Windy: false → main tenis
• Humidity: High, Outlook: Rainny, Windy: true→ tidak main tenis

Data Mining dan Data Warehouse Universitas Mercu Buana Yogyakarta 12/20/2022
REFERENSI
• Data Preparation for Data Mining, Pyle, Dorian,Morgan Kaufmann Publisher,
Inc, 1999
• Data mining , Basuki dan syarif
• Data mining , AFR

Anda mungkin juga menyukai