Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma
Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma
1
,
2
, ,
=1
log
2
(3)
S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya, Ci (for i= 1,,m), si adalah jumlah sampel pada S
dalam class Ci. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3. Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si /s. Atribut A memiliki nilai tertentu {a1, a2,, av}. Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
digunakan pada partisi S ke dalam v subset, {S1, S2, , Sv}, dimana Sj berisi sample pada S yang
bernilai aj pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split),
maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj. Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula,
=
1
+...+
(
1
, ,
=1
(4)
1
+...+
adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, maka untuk
mendapatkan nilai gain, selanjutnya digunakan formula,
=
1
,
2
, ,
(5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training. Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child. Setelah parent dan child diketahui
kemudian dihitung nilai errornya, jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi, tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti. Untuk menghitung nilai error digunakan rumus dibawah ini.
Rumus pre pruning :
(6)
Dimana:
r = nilai perbandingan error rate
n = total sample
c z
1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh.
Reduced Error Pruning merupakan salah satu algoritma postpruning. Algoritma ini membagi data
menjadi dua, yaitu training data dan test data. Training data adalah data yang digunakan untuk
membentuk pohon keputusan, sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas.
n
z
n
z
n
r
n
r
z
n
z
r
e
2
2
2 2 2
1
4 2
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas. Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul. Setelah itu test data diproses menggunakan rule hasil
pemangkasan, kemudian dihitung nilai error ratenya. Test data juga diproses dengan rule awal,
yaitu rule yang terbentuk sebelum pohon dipangkas, kemudian dihitung nilai error ratenya.
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil, maka pemangkasan
dilakukan.
Rancangan Sistem
Gambar 1. Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 2011/2012
yang diperoleh dari SMAN 2 Bangkalan. Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips. Dalam implementasinya, data diujicoba
menjadi 3 skenario. Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training, data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan &
Rule ID3
Mining C5.0
Pohon Keputusan
& Rule C5.0
Penilaian Kinerja
ID3 & C5.0
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C5.0
8 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
pruning, skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma. Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan, data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C5.0 pre pruning. Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing. Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing, yaitu:
Berikut keterangan dari jumlah populasi data, yaitu :
Tabel 1. Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning. Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training, data testing dan data test
pruning. Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi, yaitu:
partisi 50:100 adalah 50 data training, 100 data test pruning, partisi 75:75 adalah 75 data training,
75 data test pruning dan partisi 100:50 adalah 100 data training, 50 data test pruning. Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing. Berikut keterangan jumlah populasi data :
Tabel 2. Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3, C5.0 pre pruning dan C5.0 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut.
Berikut keterangan dari jumlah populasi data, yaitu :
ID3
C5.0
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C5.0 Post Pruning
50:100 75:75 100:50
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA 9
Tabel 3. Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk, selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing, data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C5.0 yang telah dibentuk. Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya.
Setelah proses klasifikasi, kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi, error rate, precision dan recall. Berikut tabel kinerja perbandingan :
Tabel 4. Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
150:50
C5.0 Pre
Pruning
150:50
C5.0
Post
Pruning
50:100
C5.0
Post
Pruning
75:75
C5.0
Post
Pruning
100:50
ID3
100:100
C5.0 Pre
Pruning
100:100
C5.0 Post
Pruning
100:100
Akurasi 86% 94% 94% 94% 90% 93% 93% 95%
Error Rate 14% 6% 6% 6% 10% 7% 7% 5%
Precision 89,74% 94,87% 94,87% 94,87% 90,24% 93,42% 92,31% 94,74%
Recall 92,11% 97,37% 97,37% 97,37% 97,37% 97,26% 98,63% 98,63%
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning. Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing. Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna mengetahui algoritma
mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94% sedangkan ID3 sebesar 86%.
ID3
C5.0
prepruning
C5.0 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut:
Gambar 2. Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C5.0 post pruning. Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing. Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50:100 adalah 50 training dan 100 test pruning , 75:75
adalah 75 training dan 75 test pruning, 100:50 adalah 100 training dan 50 test pruning.
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi,
guna mengetahui algoritma mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja
diketahui algoritma C5.0 post pruning 50:100 dan 75:75 memiliki akurasi yang sama dan lebih
baik dari pada C5.0 post pruning 100:50. Ini terlihat dari nilai akurasi C5.0 post pruning 50:100
dan 75:75 sebesar 93,88% sedangkan C5.0 post pruning 100:50 sebesar 90%.
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C5.0 post pruning dapat
digambarkan pada grafik berikut:
Gambar 3. Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3, C50 pre pruning dan C5.0 post
pruning. Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing.
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut. Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0%
20%
40%
60%
80%
100%
120%
ID3 150:50 C5.0 prepruning
150:50
Precision
Recall
Akurasi
Error Rate
0%
20%
40%
60%
80%
100%
120%
C5.0 post
pruning
50:100
C5.0 post
pruning
75:75
C5.0 post
pruning
100:50
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 post pruning sebesar 95%
sedangkan ID3 sebesar 93%.
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut:
Gambar 4. Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah :
1. Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan, dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95% pada algoritma C5.0 post pruning 100:100.
2. Algoritma pohon keputusan yang terbaik adalah algoritma C5.0 karena memiliki kinerja
(precision, recall, accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3. Ini
terlihat dari nilai akurasi C5.0 post pruning 100:100 sebesar 95% sedangkan untuk ID3
100:100 sebesar 93%.
3. Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan. Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86% dan C5.0 post
pruning sebesar 90%. Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93% dan C5.0 post pruning sebesar 95%.
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut:
1. Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi.
2. Algoritma C5.0 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value, sehingga dapat lebih disempurnakan lagi.
3. Tampilan dari aplikasi ini masih terlihat kaku, sehingga dapat dibuat lebih menarik lagi.
0%
20%
40%
60%
80%
100%
120%
ID3
100:100
C5.0 pre
pruning
100:100
C5.0 post
pruning
100:100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung
Data. 2003 <URL:http://ikc.dinus.ac.id/umum/iko/iko-datamining.zip> diakses
tanggal 17 Oktober 2012.
[2] Nugroho, Fanuel., Kristanto, Harianto., dan Oslan, Yetli. Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3. Jurnal Informatika, Volume 3
Nomor 2 April 2007. 1: 2. 2007.
[3] Hardikar S, Shrivastava A, Choudhary V. Comparison between ID3 and C4.5 in
Contrast to IDS. VSRD-IJCSIT. Vol. 2 (7). 659-667. 2012.
[4] Humairah, N. Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C5.0
[Skripsi]. UPN Veteran. Jakarta. 2009.
[5] Nugroho M.W. Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi]. Universitas
Trunojoyo. Bangkalan. 2012.
[6] Wahyudin. Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru.
Tanpa Tahun. <URL:http://file.upi.edu/Direktori/FPMIPA/PRODI._ILMU_
KOMPUTER/WAHYUDIN/metode_ID3_untuk_mhsbaru.pdf> diakses tanggal 17 Oktober
2012.
[7] Defianti, S dan Pardede, D. L. C. Perbandingan Kinerja Algoritma ID3 dan C4.5 dalam
Klasifikasi SpamMail. 2008. <URL:http://openstorage.gunadarma.ac.id/
~mwiryana/KOMMIT/per-artikel/03-02-004-Perbandingan%5BSofi%5D.pdf>, diakses
tanggal 5 Oktober 2012.
[8] Ernawati, I. Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C5.0 dan K-
Nearest Neighbor [Tesis]. Institut Pertanian Bogor. Bogor. 2008.
[9] Tanpa Nama. Constructing Decision Trees. Tanpa Tahun. <URL:http://notes-
store.com/Notes/Decision-Tree.10.11.ppt> diakses tanggal 3 Oktober 2012.