Anda di halaman 1dari 11

BAB I

PENDAHULUAN

1.1 Latar Belakang

Data mining merupakan serangkaian proses untuk mendapatkan informasi

yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan

sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang

membantu dalam pengambilan keputusan. Universitas Muhammadiyah Yogyakarta

menyimpan begitu banyak data di data server, mulai data mahasiswa, alumni dan

data karyawan dan Dosen. Jika data ini dimanfaatkan dengan mencari informasi

tersembunyi dari data tersebut mungkin bisa memberikan informasi penting bagi

Universitas Muhammadiyah Yogyakarta. Di Universitas Muhammadiyah

Yogyakarta khususnya yang belum menerapkan metode data mining dalam

penggalian informasi, ini merupakan langkah awal yang besar dan tidak menutup

kemungkinan banyak Perguruan Tinggi mengikuti langkah ini dalam penggalian

informasi.

Banyak metode dan teknik yang sudah dilakukan dalam model prediksi,

teknik klasifikasi misalnya, teknik klasifikasi adalah sebuah metode dari data

mining yang digunakan untuk memprediksi kategori atau kelas dari suatu data

1
instance berdasarkan sekumpulan atribut-atribut dari data tersebut dan algoritma

C.45 sebagai pembangun decision tree. Decision tree adalah model prediksi yang

biasanya digunakan dalam penelitian, konsep dari decision tree adalah mengubah

data menjadi pohon keputusan dan aturan - aturan keputusan.

1.2 Rumusan Masalah

Bagaimana menyelesaikan masalah menggunakan data buys computer yang


akan diselesaikan dengan algoritma decision tree C4.5?

1.3 Tujuan Penelitian

Mengetahui bagaimana penyelesaian dari data buys computer menggunakan


algoritma C4.5.

2
BAB II

PEMBAHASAN

3.1 Pengertian Klasifikasi

Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang


mendeskripsikan dan membedakan data ke dalam kelas-kelas. Klasifikasi melibatkan
proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah
satu kelas yang sudah didefinisikan sebelumnya.

3.2 Algoritma C4.5

Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk


pohon keputusan (Decision Tree). Pohon keputusan merupakan metode klasifikasi
dan prediksi yang terkenal. Pohon keputusan berguna untuk mengekspolari data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target. Banyak algoritma yang dapat dipakai dalam pembentukan
pohon keputusan, antara lain : ID3, CART, dan C4.5. Algoritma C4.5 merupakan
pengembangan dari algoritma ID3, Proses pada pohon keputusan adalah mengubah
bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan
menyederhanakan rule.

3
Berikut contoh kasus menggunakan data buys computer dengan menggunakan
algoritma C4.5.

ID Age Income Student Credit_Raiting Class


1 <=30 High No Fair No
2 <=30 High No Excellent No
3 31-40 High No Fair Yes
4 >40 Medium No Fair Yes
5 >40 Low Yes Fair Yes
6 >40 Low Yes Excellent No
7 31-40 Low Yes Excellent Yes
8 <=30 Medium No Fair No
9 <=30 Low Yes Fair Yes
10 >40 Medium Yes Fair Yes
11 <=30 Medium Yes Excellent Yes
12 31-40 Medium No Excellent Yes
13 31-40 High Yes Fair Yes
14 >40 Medium No Excellent No

Atribut-atributnya adalah Age, Income, Student, Credit_Rating, setiap atribut


memiliki nilai masing-masing sedangkan kelasnya ada pada kolom class, yaitu kelas
Yes dan No. kemudian data tersebut memiliki 14 total sampel terdiri dari 9 yes dan 5
no pada kolom class.

4
 Langkah 1, menghitung entropy total dari masing-masing nilai kelas dengan
persamaan :

Entropy Total(9yes , 5no) = (-9/14 * log2(9/14)) + (-5/14 * log2(5/14))

= 0.40977638 + 0.53050958

= 0.940285959

 Langkah 2 , menghitung Entropy dari atribut Age dengan persamaan (1) :


Entropy Age <=30 ( 2yes,3no) = (-2/5 * log2(2/5)) + (-3/5 * log2(3/5))
= 0.528771238 + 0.442179356
= 0.97095059
Entropy Age 31-40 (4yes,0no) = (-4/4 * log2(4/4)) + ( 0 ))
=0+0
=0
Entropy Age >40 (3yes,2no) = (-3/5 * log2(3/5)) + (-2/5 * log2(2/5))
= 0.442179356 + 0.528771238
= 0.97095059
Entropy Total (Age) = 5/14 * (0.97095059) + 0 + 5/14 * (0.97095059)
= 0.346768069 + 0.346768069
= 0.693536139
 Langkah 3, menghitung Information gain untuk atribut Age dengan
persamaan (2) :

Gain(Total,Age) = 0.940285959 - 0.693536139

= 0.24674982

5
 Langkah 4, menghitung Split information untuk atribut Age dengan
persamaan (4) :

SplitInfo(Total,Age) = (-5/14 * log2(5/14)) + (-4/14 * log2(4/14)) + (-5/14 * log2(5/14))

= 1.577406283

 Langkah 5, menghitung Gain ratio untuk atribut Age dengan persamaan (3) :

Gain ratio (Total,Age) = 0.24674982/1.577406283

= 0.156427563

 Ulangi Langkah 2 , menghitung Entropy dari atribut Income dengan


persamaan (1) :

Entropy Income low ( 3yes,1no) = (-3/4 * log2(3/4)) + (-1/4 * log2(1/4))

= 0.311278124 + 0.5

= 0.81127812

Entropy Income medium (4yes,2no) = (-4/6 * log2(4/6)) + (-2/6 * log2(2/6))

= 0.389975 + 0.528320834

= 0.91829583

Entropy Income high (2yes,2no) = (-2/4 * log2(2/4)) + (-2/4 * log2(2/4))

= 0.5 + 0.5

=1

6
Entropy Total (Income) = 4/14 * (0.81127812) + 6/14 * (0.91829583) + 4/14 * (1)

= 0.23179375 + 0.39355536 + 0.28571429

= 0.9110634

 Ulangi Langkah 3, menghitung Information gain untuk atribut Income dengan

persamaan (2):

Gain(Total,Income) = 0.940285959 - 0.9110634

= 0.029222559

 Ulangi Langkah 4, menghitung Split information untuk atribut Income dengan

persamaan (4) :

SplitInfo(Total,Income) = (-4/14 * log2(4/14)) + (-6/14 * log2(6/14)) + (-4/14 * log2(4/14))

= 1.556656707

 Ulangi Langkah 5, menghitung Gain ratio untuk atribut Income dengan


persamaan (3) :

Gain ratio (Total,Income) = 0.029222559/1.556656707

= 0.018772642

 Ulangi Langkah 2 , menghitung Entropy dari atribut Student dengan


persamaan (1) :

Entropy Student yes ( 6yes,1no) = (-6/7 * log2(6/7)) + (-1/7 * log2(1/7))

= 0.190622075 + 0.401050703

= 0.591672779

7
Entropy Student no (3yes,4no) = (-3/7 * log2(3/7)) + (-4/7 * log2(4/7))

= 0.523882466 + 0.46134567

= 0.985228136

Entropy Total (Student) = 7/14 * (0.591672779) + 7/14 * (0.985228136)

= 0.29583639 + 0.492614068

= 0.788450458

 Ulangi Langkah 3,menghitung Information gain untuk atribut Student dengan


persamaan (2) :

Gain(Total,Student) = 0.940285959 - 0.788450458

= 0.151835501

 Ulangi Langkah 3,menghitung Information gain untuk atribut Student dengan


persamaan (2) :

Gain(Total,Student) = 0.940285959 - 0.788450458

= 0.151835501

 Ulangi Langkah 4, menghitung Split information untuk atribut Student dengan


persamaan (4) :

SplitInfo(Total,Student) = (-7/14 * log2(7/14)) + (-7/14 * log2(7/14))

= 0.5 + 0.5

=1

8
 Ulangi Langkah 5, menghitung Gain ratio untuk atribut Student dengan
persamaan (3) :

Gain ratio (Total,Student) = 0.151835501/1

= 0.151835501

 Ulangi Langkah 2 , menghitung Entropy dari atribut Credit_Rating dengan


persamaan (1):

Entropy Credit_Rating fair ( 6yes,2no) = (-6/8 * log2(6/8)) + (-2/8 * log2(2/8))

= 0.311278124 + 0.5

= 0.811278124

Entropy Credit_Rating excellent (3yes,3no) = (-3/6 * log2(3/6)) + (-3/6 * log2(3/6))

= 0.5 + 0.5

=1

Entropy Total (Credit_Rating) = 8/14 * (0.811278124) + 6/14 * (1)

= 0.463587499 + 0.428571429

= 0.892158928

 Ulangi Langkah 3,menghitung Information gain untuk atribut Credit_Rating


dengan persamaan (2) :

Gain(Total,Credit_Rating) = 0.940285959 - 0.892158928

= 0.048127031

9
 Ulangi Langkah 4, menghitung Split information untuk atribut Credit_Rating
dengan persamaan (4) :

SplitInfo(Total,Credit_Rating) = (-8/14 * log2(8/14)) + (-6/14 * log2(6/14))

= 0.46134567 + 0.523882466

= 0.985228136

 Ulangi Langkah 5, menghitung Gain ratio untuk atribut Credit_Rating dengan

persamaan (3) :

Gain ratio (Total,Credit_Rating) = 0.048127031/0.985228136

= 0.048848616

Age

<=30 >40

31-40

Student Credit_rating
Yes
Yes No Fair Excellent

Yes No Yes No

10
BAB III

KESIMPULAN DAN SARAN

3.1 Kesimpulan

Berdasarkan kasus yang ada dapat di simpulkan bahwa dalam kasus buys
computer yang diselesaikan menggunakan algoritma C4.5 di hasilkan decision tree
yang menghasilkan beberapa rule.

3.2 Saran

Berdasarkan hasil penelitian kami menyarankan kepada pembaca penelitian


ini agar bisa menguji secara langsung terhadap hasil penelitian yang kami lakukan.
Kami sadar bahawa penelitian kami ini jauh dari kesempurnaan, maka dari itu kami
mengharapkan ada pengembangan baik dari penelitian yang kami lakukan.

11

Anda mungkin juga menyukai