Anda di halaman 1dari 21

DATA MINING

“ALGORITMA C4.5
DISUSUN OLEH :
Dandhy Chrismana Y. [NPM : 16183207064]
Aris Nurbatnirizal [NPM : 16183207004]
Zainul Asyhar [NPM : 16183207069]
Muh. Yoga Darussalam [NPM : 16183207059]
Ahmad Saifudin [NPM : 16183207023]
Pengertian

Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk
melakukan klasifikasi atau segmentasi atau pengelompokan dan bersifat prediktif. Klasifikasi
merupakan salah satu proses pada data mining yang bertujuan untuk menemukan pola yang
berharga dari data yang berukuran relatif besar hingga sangat besar. Algortima C4.5 sendiri
merupakan pengembangan dari algortima ID3. Algoritma c4.5 menggunakan pohon keputusan
untuk untuk memprediksi atau mengklasifikasi suatu kejadian. Algoritma C4.5 merupakan
kelompok algoritma decision tree. Algoritma ini mempunyai input berupa training samples dan
samples. Training samples merupakan data contoh yang digunakan untuk membangun sebuah
tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang
digunakan sebagai parameter dalam klasifikasi data.
Alur Proses Algoritma C4.5

• Secara umum alur proses algoritma C4.5 untuk membangun pohon keputusan
dalam data mining adalah sebagai berikut :
• Pilih atribut sebagai akar
• Buat cabang untuk tiap-tiap nilai
• Bagi kasus dalam cabang.
• Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama.
Information gain adalah atribut selection measure yang digunakan untuk
memilih test attribut tiap node dalam tree. Pemilihan atribut sebagai simpul,
baik simpul akar (root) atau simpul internal didasarkan pada nilai gain tertinggi
dari atribut-atribut yang ada. Perhitungan nilai gain digunakan rumus sebagai
berikut :
Keterangan :
• S : himpunan kasus
• A : atribut
• N : jumlah partisi atribut A
• [Si] : jumlah kasus pada partisi ke-i
• [S] : jumlah kasus pada S

•Untuk
  menghitung Entropy menggunakan rumus :

Keterangan :
• S : himpunan kasus
• A : fitur
• N : jumlah partisi S
• pi : proporsi dari Si terhadap S
Contoh Penggunaan Algoritma C4.5

BERMAIN
NO CUACA TEMPERATUR KELEMBAPAN BERANGIN
TENIS
1 Cerah Panas Tinggi False Tidak
2 Cerah Panas Tinggi True Tidak
3 Berawan Panas Tinggi False Ya
4 Hujan Sejuk Tinggi False Ya
5 Hujan Dingin Normal False Ya
6 Hujan Dingin Normal True Ya
7 Berawan Dingin Normal True Ya
8 Cerah Sejuk Tinggi False Tidak
9 Cerah Dingin Normal False Ya
10 Hujan Sejuk Normal False Ya
11 Cerah Sejuk Normal True Ya
12 Berawan Sejuk Tinggi True Ya
13 Berawan Panas Normal False Ya
14 Hujan Sejuk Tinggi True Tidak
LANGKAH 1
• Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut Cuaca, Temperatur, Kelembapan, Berangin.
• Lakukan perhitungan Gain untuk setiap atribut. Hasil perhitungan ada di
tabel dibawah ini.
Jumlah Kasus Tidak Ya
    Entropy Gain
(S) (S1) (S2)
total   14 4 10 0.8631205  
CUACA           0.8631205
  Berawan 4 0 4    
  Hujan 5 1 4 0.721928  
  Cerah 5 3 2 0.970950  
Tabel Perhitungan Node 1
TEMPERATUR           0.1838509
  Dingin 4 0 4 0  
  Panas 4 2 2 1  
  Sejuk 6 2 4 0.9182958  
KELEMBAPAN           0.3705065
  Tinggi 7 4 3 0.9852281  
  Normal 7 0 7 0  
BERANGIN           0.0059777
  False 8 2 6 0.8112781  
  True 6 4 2 0.9182958  
Baris total kolom Entropy pada table node 1 dihitung dengan persamaan berikut:
0.863120569

•Nilai
 
Gain pada baris CUACA dihitung dengan persamaan berikut:
Dari tabel perhitungan node 1 dapat diketahui bahwa atribut dengan Gain
tertinggi adalah KELEMBAPAN, yaitu sebesar 0.37. Jadi KELEMBAPAN yang
menjadi node akar. Ada dua nilai atribut dari KELEMBAPAN, yaitu Tinggi dan
Normal. Dari kedua atribut, nilai atribut Normal adalah 1, yaitu keputusan Ya,
sehingga tidak perlu perhitungan lebih lanjut, tetapi untuk Tinggi masih perlu
dilakukan perhitungan lagi. Dari hasil tersebut dapat digambarkan pohon
keputusan sementara seperti gambar dibawah ini.
1
KELEMBAPAN
 

Tinggi
Normal

1.1
Ya
?
 
LANGKAH 2
• Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak.
• Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut CUACA,
TEMPERATUR dan BERANGIN, yang dapat menjadi node akar dari nilai
atribut tinggi.
• Setelah itu lakukan perhitungan Gain, untuk tiap-tiap atribut.
Tabel Perhitungan Node 1.1

Jumlah
Tidak Ya
    Kasus Entropy Gain
(S1) (S2)
(S)
total   7 4 3 0.8631205  
CUACA           0.69951385

  Berawan 2 0 2 0  

  Hujan 2 1 1 1  
  Cerah 3 3 0 0  
TEMPERATUR           0.02024420
  Dingin 0 0 0 0  
  Panas 4 2 1 0.9182958  
  Sejuk 3 2 2 1  
BERANGIN           0.02024420
  False 4 2 2 1  
  True 3 2 1 0.9182958  
Dari hasil tabel perhitungan node 1.1 dapat diketahui bahwa atribut
dengan Gain tertinggi adalah CUACA, yaitu sebesar 0.67. Jadi CUACA dapat
menjadi node cabang dari nilai atribut Tinggi. Ada tiga nilai atribut dati
CUACA, yaitu Berawan, Hujan dan Cerah. Dari ketiga nilai atribut tersebut,
nilai atribut Berawan adalah 1, yaitu keputusannya Ya dan nilai atribut Cerah
menjadi keputusan Tidak, sehingga tidak perlu dilakukan perhitungan lebih
lanjut, tetapi nilai atribut Hujan masih perlu dilakukan perhitungan lagi
1
KELEMBAPAN
 

Tinggi Normal

1.1
CUACA Ya
 

Berawan Cerah

Hujan

1.1.2
Ya ? Tidak
 
Menghitung jumlah kasus, jumlah kasus untuk keputusan Ya, jumlah kasus
untuk keputusan Tidak, dan Entropy dari semua kasus dan kasus yang dibagi
berdasarkan atribut TEMPERATUR dan BERANGIN yang dapat menjadi node
cabang dari nilai atribut Hujan. Kemudian lakukan perhitungan Gain untuk
tiap-tiap atribut. Hasil perhitungan seperti yang terdapat pada tabel dibawah
ini.
Tabel Perhitungan Node 1.1.2

Jumlah
Tidak Ya
    Kasus Entropy Gain
(S1) (S2)
(S)
KELEMBAPAN –
Tinggi
  2 1 1 1  
dan
CUACA - Hujan
TEMPERATUR           0
  Dingin 0 0 0 0  
  Panas 0 0 0 0  
  Sejuk 2 1 1 1  
BERANGIN           1
  False 1 0 1 0  
  True 1 1 0 0  
Dari hasil tabel perhitungan node 1.1.2 dapat diketahui bahwa atribut
dengan Gain tertinggi adalah BERANGIN, yaitu sebesar 1. Jadi BERANGIN
dapat menjadi node cabang dari nilai atribut Hujan. Ada dua nilai atribut dari
BERANGIN, yaitu False dan True. Dari kedua nilai atribut tersebut, nilai atribut
False adalah 1, yaitu keputusannya Ya dan nilai atribut True menjadi keputusan
Tidak, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai
atribut ini.
1
KELEMBAPAN
 

Tinggi Normal

1.1
CUACA Ya
 

Berawan Cerah
Hujan

1.1.2
Ya BERANGIN Tidak
 

True False

Ya Tidak
Gambar diatas merupakan gambar akhir dari proses Data Mining menggunakan
algoritma C4.5 pada contoh kasus keputusan bermain tenis. Berdasarkan gambar di atas
dapat ditarik kesimpulan bahwa jika KELEMBAPAN-Normal maka keputusannya adalah
Ya, jika KELEMBAPAN adalah Tinggi, CUACA adalah berawan maka keputusannya
adalah bermain (ya), selanjutnya jika KELEMBAPAN adalah Tinggi, CUACA adalah
Hunjan dan BERANGIN adalah True, maka keputusannya adalah bermain (ya). Dan jika
KELEMBAPAN adalah Tinggi, CUACA adalah Hujan dan BERANGIN adalah False, maka
keputusannya adalah tidak bermain (tidak). Terakhit jika KELEMBAPAN adalah Tinggi,
CUACA adalah Tidak, maka keputusannya adalah tidak bermain (Tidak).
Sekian dan Terima Kasih
Jika Ada Pertanyaan Kami akan Menjawab
Jika Tidak, Usahakan Bertanya
Karena Kita Tau Bahwasannya ini sulit

Anda mungkin juga menyukai