Anda di halaman 1dari 10

TUGAS KELOMPOK

MATA KULIAH DATA MINING

IMPLEMENTASI POHON KEPUTUSAN


DENGAN MENGGUNAKAN ALGORITMA C4.5

OLEH :

 Putu Eka Parianthana (1729101071)


 Dewa Ayu Putu Putri Sanjani (1729101072)
 Kadek Enny Rusmala Dewi (1729101075)
 I Wayan Yudik Pradnyana (1729101076)

PROGRAM STUDI ILMU KOMPUTER PASCA SARJANA


UNIVERSITAS PENDIDIKAN GANESHA
DENPASAR 2018
1. Pendahuluan
Perkembangan teknologi informasi yang begitu maju saat ini, menyebabkan tingkat
akurasi suatu data sangat dibutuhkan dalam kehidupan sehari-hari. Setiap informasi yang
ada menjadi suatu hal penting untuk menentukan setiap keputusan dalam situasi tertentu.
Hal ini menyebabkan penyediaan informasi menjadi sarana untuk dianalisa dan diringkas
menjadi suatu pengetahuan dari data yang bermanfaat ketika pengambilan suatu
keputusan dilakukan.
Pengetahuan dari data pada suatu informasi saja tidak cukup untuk mengambil suatu
keputusan. Diperlukan juga suatu Analisa dari setiap data yang ada untuk mendapatkan
bahan pertimbangan dari informasi yang tersedia. Dengan menggunakan data mining,
setiap kumpulan atau gudang data dapat memberikan pengetahuan penting yang menjadi
informasi yang sangat berharga bagi peneliti. Pada saat melakukan penelitian, suatu sistem
informasi dapat digunakan untuk memperoleh informasi yang menunjang setiap kegiatan
pada pengambilan suatu keputusan. Data mining algoritma C4.5 dapat digunakan untuk
menyusun sistem yang mempunyai kemampuan untuk melihat pola suatu penelitian.
Algoritma C4.5 merupakan algoritma klasifikasi pohon keputusan yang banyak
digunakan karena memiliki kelebihan utama dari algoritma yang lainnya. Kelebihan
algoritma C4.5 dapat menghasilkan pohon keputusan yang mudah diinterprestasikan,
memiliki tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe
diskret dan dapat menangani atribut bertipe diskret dan numerik. Dalam mengkonstruksi
pohon, algoritma C4.5 membaca seluruh sampel data training dari storage dan
memuatnya ke memori. Hal inilah yang menjadi salah satu kelemahan algoritma C4.5
dalam kategori “skalabilitas” adalah algoritma ini hanya dapat digunakan jika data training
dapat disimpan secara keseluruhan dan pada waktu yang bersamaan di memori.

2. Data Mining
Data mining adalah salah satu cabang ilmu komputer yang banyak menarik perhatian
masyarakat. Data mining adalah tumpukan data yang sudah tersimpan selama bertahun-
tahun yang dimasukkan kedalam database tetapi tidak digunakan kembali atau disebut “data
sampah”. Data mining digunakan untuk menggali dan mendapatkan informasi dari data
dengan jumlah besar(Gorunescu, 2011) dalam Amalia,2013). Salah satu metode yang
digunakan dalam data mining adalah pengklasifikasian data, yaitu kegiatan mengekstrak
dan memprediksi label kategori untuk masingmasing data.
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek
dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dahulu. Berawal dari
beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional
sehingga bisa menangani:
1. Jumlah data yang sangat besar
2. Dimensi data yang tinggi
3. Data yang heterogen dan berbeda sifat
Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam
jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan dua
metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk
pemilih data.

3. Pohon Keputusan (Decision Tree)


Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat terkenal.
Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan
yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa
alami, juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query
Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna
untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon
variabel input dengan sebuah variabel target. Karena pohon keputusan memadukan
antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai langkah
awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa
teknik lain.

4. Algoritma C4.5
Algoritma C4.5 merupakan hasil dari pengembangan algoritma ID3 (Iterative
Dichotomiser) yang dikembangkan oleh Quinlan(Han & Kamber, 2006). Algoritma C4.5
atau pohon keputusan mirip sebuah pohon dimana terdapat node internal (bukan daun)
yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil dari atribut
yang diuji, dan setiap daun menggambarkan kelas. Pohon keputusan dengan mudah dapat
dikonversi ke aturan klasifikasi. Secara umum keputusan pengklasifikasi pohon memiliki
akurasi yang baik, namun keberhasilan penggunaan tergantung pada data yang akan
diolah.
Adapun tahapan yang digunakan dalam membuat sebuah pohon keputusan
menggunakan algoritma C4.5 yang ada di penelitian ini(Gorunescu, 2011) yaitu:

1. Mempersiapkan data training, dapat diambil dari data histori yang pernah terjadi
sebelumnya dan sudah dikelompokan dalam kelas-kelas tertentu.

2. Menentukan akar dari pohon dengan menghitung nilai gain yang tertinggi dari
masing-masing atribut atau berdasarkan nilai index entropy terendah. Sebelumnya
dihitung terlebih dahulu nilai index entropy, dengan rumus:
Keterangan:
i = himpunan kasus
m = jumlah partisi i
f(i,j) = proposi j terhadap i

3. Hitung nilai gain dengan rumus:

Keterangan:
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S

4. Ulangi langkah ke-2 hingga semua record terpartisi Proses partisi pohon keputusan
akan berhenti disaat:
a. Semua tupel dalam record dalam simpul m mendapat kelas yang sama
b. Tidak ada atribut dalam record yang dipartisi lagi
c. Tidak ada record didalam cabang yang kosong. (Amalia,2013)
5. Contoh Kasus Algoritma C4.5
Untuk memudahkan penjelasan mengenai algoritma C4.5 berikut ini disertakan contoh
kasus yang dituangkan dalam Tabel 1

Dalam kasus yang tertera pada Tabel 1, akan dibuat pohon keputusan untuk menentukan
main tenis atau tidak dengan melihat keadaan cuaca (outlook), temperatur, kelembaban
(humidity) dan keadaan angin (windy).

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut:
1. Pilih atribut sebagai akar
2. Buat cabang untuk masing-masing nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang
memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut
yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus 1.

Keterangan:
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S

Sedangkan perhitungan nilai entropy dapat dilihat pada rumus 2 berikut:

Keterangan:
i = himpunan kasus
m = jumlah partisi i
f(i,j) = proposi j terhadap i

Berikut ini adalah penjelasan lebih rinci mengenai masing-masing langkah dalam
pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan
permasalahan.

a. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan
No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut OUTLOOK,
TEMPERATURE, HUMIDITY dan WINDY. Setelah itu lakukan penghitungan Gain untuk
masingmasing atribut. Hasil perhitungan ditunjukkan oleh Tabel 2.
Baris TOTAL kolom Entropy pada Tabel 2 dihitung dengan rumus 2, sebagai berikut:

Sedangkan nilai Gain pada baris OUTLOOK dihitung dengan menggunakan rumus 1, sebagai
berikut:

Sehingga didapat Gain(Total, Outlook) = 0.258521037 Dari hasil pada Tabel 2 dapat diketahui
bahwa atribut dengan Gain tertinggi adalah HUMIDITY yaitu sebesar 0.37. Dengan demikian
HUMIDITY dapat menjadi node akar. Ada 2 nilai atribut dari HUMIDITY yaitu HIGH dan
NORMAL.

Dari kedua nilai atribut tersebut, nilai atribut NORMAL sudah mengklasifikasikan kasus
menjadi 1 yaitu keputusan-nya Yes, sehingga tidak perlu dilakukan perhitungan lebih lanjut,
tetapi untuk nilai atribut HIGH masih perlu dilakukan perhitungan lagi.

Dari hasil tersebut dapat digambarkan pohon keputusan sementara seperti Gambar 1.

Gambar 1. Pohon Keputusan Hasil Perhitungan Node 1

b. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk
keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan
atribut OUTLOOK, TEMPERATURE dan WINDY yang dapat menjadi node akar dari
nilai atribut HIGH. Setelah itu lakukan penghitungan Gain untuk masing-masing
atribut. Hasil perhitungan ditunjukkan oleh Tabel 3.
Dari hasil pada Tabel 3 dapat diketahui bahwa atribut dengan Gain tertinggi adalah
OUTLOOK yaitu sebesar 0.67. Dengan demikian OUTLOOK dapat menjadi node cabang dari
nilai atribut HIGH. Ada 3 nilai atribut dari OUTLOOK yaitu CLOUDY, RAINY dan SUNNY. Dari
ketiga nilai atribut tersebut, nilai atribut CLOUDY sudah mengklasifikasikan kasus menjadi 1
yaitu keputusan-nya Yes dan nilai atribut SUNNY sudah mengklasifikasikan kasus menjadi
satu dengan keputusan No, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi
untuk nilai atribut RAINY masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada gambar 2.

Gambar 2. Pohon Keputusan Hasil Perhitungan Node 1.1


c. Menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk
keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan
atribut TEMPERATURE dan WINDY yang dapat menjadi node cabang dari nilai atribut
RAINY. Setelah itu lakukan penghitungan Gain untuk masing-masing atribut. Hasil
perhitungan ditunjukkan oleh Tabel 4.
Tabel 4. Perhitungan Node 1.1.2

Dari hasil pada tabel 4 dapat diketahui bahwa atribut dengan Gain tertinggi adalah WINDY
yaitu sebesar 1. Dengan demikian WINDY dapat menjadi node cabang dari nilai atribut
RAINY. Ada 2 nilai atribut dari WINDY yaitu FALSE dan TRUE. Dari kedua nilai atribut
tersebut, nilai atribut FALSE sudah mengklasifikasikan kasus menjadi 1 yaitu keputusan-nya
Yes dan nilai atribut TRUE sudah mengklasifikasikan kasus menjadi satu dengan keputusan
No, sehingga tidak perlu dilakukan perhitungan lebih lanjut untuk nilai atribut ini.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 3.

Gambar 4. Pohon Keputusan Hasil Perhitungan Node 1.1.2


Dengan memperhatikan pohon keputusan pada Gambar 4, diketahui bahwa semua kasus
sudah masuk dalam kelas. Dengan demikian, pohon keputusan pada Gambar 4 merupakan
pohon keputusan terakhir yang terbentuk.

Referensi:

Pramudiono, Iko. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung


Data. http://www.ilmukomputer.com
Amalia,Hilda dan Evicienna. 2013. Algoritma C4.5 untuk Prediksi Hasil Pemilihan
Legislatif DPRD DKI Jakarta:Techno Nusa Mandiri Vol. IX No.1, Maret 2013.

Anda mungkin juga menyukai