Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

1
PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM

INDENTIFIKASI PENJURUSAN SISWA SMA

*Holisatul Munawaroh, **Bain Khusnul K,S.T.,M.Kom
***Yeni Kustiyahningsih,S.Kom.,M.Kom
Program Studi Teknik Informatika, Universitas Trunojoyo
Jl. Raya Telang, PO BOX 2, Kamal, Bangkalan
E-mail: *holisatul@gmail.com, ** bainkk@gmail.com, *** ykustiyahningsih@yahoo.com

ABSTRAK
Selama ini pemilihan jurusan di SMA Negeri 2 Bangkalan merupakan masalah yang selalu dihadapi oleh
guru. Masalah yang sering terjadi adalah keterlambatan nilai siswa dari wali kelas dan banyaknya jumlah
siswa kelas X sehingga proses penjurusannya kurang tepat. Oleh karenanya diperlukan suatu sistem yang
terkomputerisasi yang dapat menangani masalah diatas. Pada penelitian ini dibangun aplikasi untuk
mengidentifikasi penjurusan siswa SMA. Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan
C5.0 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi
yang tinggi dalam menentukan keputusan. Namun, belum diketahui algoritma mana diantara keduanya yang
lebih unggul kinerjanya. Oleh karena itu algoritma ini perlu dibandingkan. Penelitian ini membandingkan
kinerja dari algoritma ID3 dan C5.0 dalam melakukan identifikasi penjurusan siswa SMA. Penelitian ini
menggunakan 200 data siswa kelas X tahun ajaran 2011/2012, data tersebut dipecah menjadi 2 yaitu 150 data
training dan 50 data testing. Hasil dari penelitian yang dilakukan, diketahui nilai precision terbesar dicapai
oleh algoritma C5.0 pre pruning dengan nilai sebesar 94,87 %. Nilai recall terbesar dicapai oleh algoritma
C5.0 pre pruning dengan nilai sebesar 97,37 %. Nilai accuracy terbesar dicapai oleh algoritma C5.0 pre
pruning dengan nilai sebesar 94 %. Nilai error rate terkecil dicapai oleh algoritma C5.0 pre pruning dengan
nilai sebesar 6%. Hasil akhir dari penelitian ini adalah algoritma C5.0 lebih baik dari pada algoritma ID3
karena memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3.

Kata Kunci: Pohon Keputusan, ID3, C5.0, IPA, IPS.

ABSTRACT
All this time election majors at high school 2 Bangkalan is a problem that has always faced by teachers. The
problem that often occurs is the delay value of homeroom students and the large number of students of class
X so that the process majoring is less precise. Therefore we need a computerized system that can handle the
above problems. In this research, built applications for identify majors high school students. This application
uses algorithms ID3 and C5.0 that is decision tree algorithm often used because it has a high degree of
accuracy in determining the decision. However, the algorithm is not yet known which of the two is superior
performance. Therefore these algorithms need to be compared. This study compared the performance of ID3
and C5.0 algorithms in identifying majors of students in high school. This study uses 200 data class X
students of the school year 2011/2012, the data is broken down into 2 that is 150 training data and 50 testing
data. Results of research conducted, the largest known value of precision is achieved by pre-pruning
algorithm C5.0 with a value of 94.87%. Biggest recall value achieved by pre pruning algorithm C5.0 with a
value of 97.37%. Greatest accuracy values achieved by pre-pruning algorithm C5.0 with a value of 94%.
Value of the smallest error rate achieved by pre pruning algorithm C5.0 a value of 6%. The end result of this
research is the C5.0 algorithm is better than the ID3 algorithm because it has a higher level of accuracy than
the ID3 algorithm.

Keywords: Decision Tree, ID3, C5.0, Science, Social Studies.

2 Jurnal Sarjana Teknik Informatika Vol. 1, No. 1, Juni 2013, hlm 1-12
PENDAHULUAN
Sekolah Menengah Atas (disingkat SMA), adalah jenjang pendidikan menengah pada
pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat). Sekolah
Menengah Atas ditempuh dalam kurun waktu 3 tahun, mulai dari kelas X sampai kelas XII. Pada
tahun kedua (yakni kelas XI), siswa SMA dapat memilih jurusan yang ada. Idealnya, pemilihan
jurusan itu berdasarkan minat, bakat, dan kemampuan siswa, sehingga dengan itu mereka
diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan
pendidikan ke jenjang yang lebih tinggi.
Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan
akan naik ke kelas XI. Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan
memutuskan apakah siswa tersebut naik atau tidak. Jika siswa tersebut dinyatakan naik maka
selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah
Bidang Kurikulum, Guru Bimbingan Konseling, Wali Kelas X dan Guru Mata Pelajaran yang
berkaitan dengan penjurusan. Masalah yang sering terjadi dalam proses penjurusan adalah
keterlambatan nilai siswa dari para wali kelas, akibatnya pada akhir proses penjurusan para tim
penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat, ditambah lagi dengan
banyaknya jumlah siswa kelas X. Tahun ajaran 2011/2012 tercatat siswa kelas X sejumlah 320
orang.
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA
dan IPS. Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa, minat
siswa dan bakat siswa yang dilihat dari hasil psikotest. Pada penelitian ini dibangun aplikasi untuk
mengidentifikasi penjurusan siswa SMA. Aplikasi penjurusan SMA ini menggunakan algoritma
ID3 dan C5.0 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki
tingkat akurasi yang tinggi dalam menentukan keputusan.
Dalam studi kasus yang lain, penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C4.5 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul
perbandingan kinerja algoritma ID3 dan C4.5 dalam klasifikasi spam-mail membuktikan bahwa
pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma
C4.5 dalam mengklasifikasikan data spam email. Berikutnya penelitian tentang prediksi
keaktifan studi mahasiswa dengan algoritma C5.0 dan K-Nearest Neighbor yang melakukan
prediksi untuk mengetahui keaktifan seorang mahasiswa. Dalam penelitian ini proses klasifikasi
yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang
menentukan status studi mahasiswa. Hasil penelitian ini memberikan informasi bahwa Algoritma
C5.0 lebih baik dibandingkan algoritma K-Nearest Neighbor.
Berdasarkan kedua penelitian tersebut, dapat dilihat bahwa kedua algoritma, ID3 dan C5.0
mempunyai kinerja yang baik dalam pengidentifikasiannya. Namun, belum diketahui algoritma
Holisatul Munawaroh. Perbandingan ID3 dan C5.0 dalam Identifikasi Penjurusan SMA 3
mana diantara keduanya yang lebih unggul kinerjanya. Oleh karena itu algoritma ini perlu
dibandingkan. Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C5.0 dalam
melakukan identifikasi penjurusan siswa SMA. Hasil akhir dari penelitian ini diharapkan dapat
mengetahui algoritma mana yang memiliki akurasi yang paling tinggi. Rule yang dihasilkan juga
akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau
IPS.

TINJAUAN PUSTAKA
Profil SMA
SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan
kota Bangkalan yang berada di Jl. Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan.
SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah
yaitu A pada tahun 2005. Jumlah siswa kelas X tahun ajaran 2011/2012 adalah 320 siswa.
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan
IPS. Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa, minat siswa
dan bakat siswa yang dilihat dari hasil psikotest.
Data Mining
Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan
akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan
pertumbuhan teknologi informasi. Definisi umum dari Data Mining itu sendiri adalah serangkaian
proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data [1].
Pohon Keputusan
Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah
untuk diinterpretasi oleh manusia. Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan.
Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai
studi kasus. Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh.
Nugroho W (2012) dengan judul Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam
identifikasi kelayakan kredit sepeda motor. Penelitian tersebut dilakukan untuk
mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C4.5 serta
untuk mengukur kinerja algoritma ID3 dan C4.5 dari sisi keakuratan hasil prediksi. Pengukuran
kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision,
recall dan accuracy. Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C4.5
memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3. [3]
Dalam studi kasus yang lain, penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C4.5 pernah dilakukan Surbhi Hardikar, Ankur Shrivastava dan Vijay Choudhary
(2012) dengan judul Comparison between ID3 and C4.5 in Contrast to IDS Pada penelitian
ini, analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi, penggunaan
memory, model build time, search time dan error rate. Hasil dari penelitian ini menunjukkan
bahwa algoritma C4.5 memiliki tingkat akurasi yang sama dengan algoritma ID3. [4]
Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan
algoritma C5.0 pada tahun 2009 yang menghasilkan dua kelas jamur, yaitu jamur yang dapat
dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ). Dalam penelitian ini
metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling
banyak digunakan dengan algoritma C5.0. Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu
2 bagian untuk data training dan 1 bagian untuk data testing. Hasil klasifikasi menunjukkan bahwa
presentase nilai akurasi mencapai 100%, yang menunjukkan bahwa algoritma yang digunakan
sangat cocok dengan data yang diolah [5].
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan
dengan pemilihan sebuah atribut, formulasi sebuah logical test pada atribut tersebut dan
pencabangan pada setiap hasil dari test. Langkah ini terus bergerak ke subset ke contoh yang
memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada
setiap simpul anak cabang. Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree
memiliki contoh dari satu kelas tertentu. Beberapa model decision tree yang sudah dikembangkan
antara lain adalah IDS, ID3, C4.5, C5.0, CHAID dan CART.

METODE PENELITIAN
ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang
digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J. Ross Quinlan sejak
tahun 1986. Algoritma pada metode ini menggunakan konsep dari entropy informasi. Algoritma
ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri).
[6].
Secara ringkas, langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]:
1. Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus:

P P P P = S Entropy
2 2
log log ) ( (1)
Dimana:
S = ruang (data) sample yang digunakan untuk training.
P
+
= jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu.
GainS, A = EntropyS
S
v
S
Entropy(Sv) (2)
Dimana:
S = ruang (data) sample yang digunakan untuk training.
A = atribut.
V = suatu nilai yang mungkin untuk atribut A.
Nilai(A) = himpunan yang mungkin untuk atribut A.
|S
v
| = jumlah sample untuk nilai V.
|S| = jumlah seluruh sample data.
Entropy(S
v
) = entropy untuk sample-sample yang memiliki nilai V.
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan.
2. Pilih atribut yang memiliki nilai information gain terbesar.
3. Bentuk simpul yang berisi atribut tersebut.
4. Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama. Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain.

C5.0
Algoritma C5.0 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987, yaitu algoritma ID3 dan C4.5.
Perbedaan utama C5.0 dari ID3 adalah:
- C5.0 dapat menangani atribut kontinyu dan diskrit. Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien.
- Hasil pohon keputusan C5.0 dapat dipangkas atau terdapat pruning (pemangkasan).
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya. Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah. Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut.
1
,
2
, ,
=1
log
2
(3)
S adalah sebuah himpunan yang terdiri dari s data sampel. Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya, Ci (for i= 1,,m), si adalah jumlah sampel pada S
dalam class Ci. untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3. Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si /s. Atribut A memiliki nilai tertentu {a1, a2,, av}. Atribut A dapat
digunakan pada partisi S ke dalam v subset, {S1, S2, , Sv}, dimana Sj berisi sample pada S yang
bernilai aj pada A. Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split),
maka subset ini akan berhubungan pada cabang dari node himpunan S. Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj. Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula,
=
1
+...+
(
1
, ,
=1
(4)
1
+...+
adalah jumlah subset j yang dibagi dengan jumlah sampel pada S, maka untuk
mendapatkan nilai gain, selanjutnya digunakan formula,
=
1
,
2
, ,
(5)

Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training. Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child. Setelah parent dan child diketahui
kemudian dihitung nilai errornya, jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi, tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti. Untuk menghitung nilai error digunakan rumus dibawah ini.
Rumus pre pruning :

(6)

Dimana:
r = nilai perbandingan error rate
n = total sample
c z
1

c = confidence level

Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh.
Reduced Error Pruning merupakan salah satu algoritma postpruning. Algoritma ini membagi data
menjadi dua, yaitu training data dan test data. Training data adalah data yang digunakan untuk
membentuk pohon keputusan, sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas.
n
z
n
z
n
r
n
r
z
n
z
r
e
2
2
2 2 2
1
4 2
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas. Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul. Setelah itu test data diproses menggunakan rule hasil
pemangkasan, kemudian dihitung nilai error ratenya. Test data juga diproses dengan rule awal,
yaitu rule yang terbentuk sebelum pohon dipangkas, kemudian dihitung nilai error ratenya.
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil, maka pemangkasan
dilakukan.

Rancangan Sistem

Gambar 1. Flowchart Sistem

HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 2011/2012
yang diperoleh dari SMAN 2 Bangkalan. Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips. Dalam implementasinya, data diujicoba
menjadi 3 skenario. Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training, data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan &
Rule ID3
Mining C5.0
Pohon Keputusan
& Rule C5.0
Penilaian Kinerja
ID3 & C5.0
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C5.0
pruning, skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma. Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan, data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon

Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C5.0 pre pruning. Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing. Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing, yaitu:
Berikut keterangan dari jumlah populasi data, yaitu :
Tabel 1. Data Skenario 1

Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning. Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training, data testing dan data test
pruning. Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi, yaitu:
partisi 50:100 adalah 50 data training, 100 data test pruning, partisi 75:75 adalah 75 data training,
75 data test pruning dan partisi 100:50 adalah 100 data training, 50 data test pruning. Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing. Berikut keterangan jumlah populasi data :

Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3, C5.0 pre pruning dan C5.0 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut.
Berikut keterangan dari jumlah populasi data, yaitu :

ID3
C5.0
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200

C5.0 Post Pruning
50:100 75:75 100:50
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200


Analisa Perbandingan Algoritma
Setelah pohon dibentuk, selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing, data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C5.0 yang telah dibentuk. Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya.
Setelah proses klasifikasi, kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi, error rate, precision dan recall. Berikut tabel kinerja perbandingan :
Tabel 4. Kinerja Perbandingan Algoritma

Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
150:50
C5.0 Pre
Pruning
150:50
C5.0
Post
Pruning
50:100
C5.0
Post
Pruning
75:75
C5.0
Post
Pruning
100:50
ID3
100:100
C5.0 Pre
Pruning
100:100
C5.0 Post
Pruning
100:100
Akurasi 86% 94% 94% 94% 90% 93% 93% 95%
Error Rate 14% 6% 6% 6% 10% 7% 7% 5%
Precision 89,74% 94,87% 94,87% 94,87% 90,24% 93,42% 92,31% 94,74%
Recall 92,11% 97,37% 97,37% 97,37% 97,37% 97,26% 98,63% 98,63%

Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning. Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing. Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna mengetahui algoritma
mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94% sedangkan ID3 sebesar 86%.

ID3
C5.0
prepruning
C5.0 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut:

Gambar 2. Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C5.0 post pruning. Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing. Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50:100 adalah 50 training dan 100 test pruning , 75:75
adalah 75 training dan 75 test pruning, 100:50 adalah 100 training dan 50 test pruning.
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi,
guna mengetahui algoritma mana yang paling bagus kinerjanya. Dari Hasil penilaian kinerja
diketahui algoritma C5.0 post pruning 50:100 dan 75:75 memiliki akurasi yang sama dan lebih
baik dari pada C5.0 post pruning 100:50. Ini terlihat dari nilai akurasi C5.0 post pruning 50:100
dan 75:75 sebesar 93,88% sedangkan C5.0 post pruning 100:50 sebesar 90%.
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C5.0 post pruning dapat
digambarkan pada grafik berikut:


Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3, C50 pre pruning dan C5.0 post
pruning. Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing.
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma, guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut. Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0%
20%
40%
60%
80%
100%
120%
ID3 150:50 C5.0 prepruning
150:50
Precision
Recall
Akurasi
Error Rate
0%
20%
40%
60%
80%
100%
120%
C5.0 post
pruning
50:100
C5.0 post
pruning
75:75
C5.0 post
pruning
100:50
Precision
Recall
Akurasi
Error Rate
akurasi yang lebih baik dari pada ID3. Ini terlihat dari nilai akurasi C50 post pruning sebesar 95%
sedangkan ID3 sebesar 93%.
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut:


KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah :
1. Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan, dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95% pada algoritma C5.0 post pruning 100:100.
2. Algoritma pohon keputusan yang terbaik adalah algoritma C5.0 karena memiliki kinerja
(precision, recall, accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3. Ini
terlihat dari nilai akurasi C5.0 post pruning 100:100 sebesar 95% sedangkan untuk ID3
100:100 sebesar 93%.
3. Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan. Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86% dan C5.0 post
pruning sebesar 90%. Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93% dan C5.0 post pruning sebesar 95%.

Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut:
1. Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi.
2. Algoritma C5.0 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value, sehingga dapat lebih disempurnakan lagi.
3. Tampilan dari aplikasi ini masih terlihat kaku, sehingga dapat dibuat lebih menarik lagi.
0%
20%
40%
60%
80%
100%
120%
ID3
100:100
C5.0 pre
pruning
100:100
C5.0 post
pruning
100:100
Precision
Recall
Akurasi
Error Rate
DAFTAR PUSTAKA
[1] Pramudiono I. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung
Data. 2003 <URL:http://ikc.dinus.ac.id/umum/iko/iko-datamining.zip> diakses
tanggal 17 Oktober 2012.
[2] Nugroho, Fanuel., Kristanto, Harianto., dan Oslan, Yetli. Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3. Jurnal Informatika, Volume 3
Nomor 2 April 2007. 1: 2. 2007.
[3] Hardikar S, Shrivastava A, Choudhary V. Comparison between ID3 and C4.5 in
Contrast to IDS. VSRD-IJCSIT. Vol. 2 (7). 659-667. 2012.
[4] Humairah, N. Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C5.0
[Skripsi]. UPN Veteran. Jakarta. 2009.
[5] Nugroho M.W. Perbandingan kinerja pohon keputusan ID3 dan C4.5 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi]. Universitas
Trunojoyo. Bangkalan. 2012.
[6] Wahyudin. Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru.
Tanpa Tahun. <URL:http://file.upi.edu/Direktori/FPMIPA/PRODI._ILMU_
KOMPUTER/WAHYUDIN/metode_ID3_untuk_mhsbaru.pdf> diakses tanggal 17 Oktober
2012.
[7] Defianti, S dan Pardede, D. L. C. Perbandingan Kinerja Algoritma ID3 dan C4.5 dalam
Klasifikasi SpamMail. 2008. <URL:http://openstorage.gunadarma.ac.id/
~mwiryana/KOMMIT/per-artikel/03-02-004-Perbandingan%5BSofi%5D.pdf>, diakses
tanggal 5 Oktober 2012.
[8] Ernawati, I. Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C5.0 dan K-
Nearest Neighbor [Tesis]. Institut Pertanian Bogor. Bogor. 2008.
[9] Tanpa Nama. Constructing Decision Trees. Tanpa Tahun. <URL:http://notes-
store.com/Notes/Decision-Tree.10.11.ppt> diakses tanggal 3 Oktober 2012.

Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perbandingan Algoritma Id3 Dan c5.0 Dalam Indentifikasi Penjurusan Siswa Sma

Diunggah oleh

Hak Cipta:

Format Tersedia

1

PERBANDINGAN ALGORITMA ID3 DAN C5.0 DALAM

Anda mungkin juga menyukai