1, Februari 2017 50
ISSN 1858-4853
ABSTRAK
Klasifikasi merupakan pengelompokkan sampel berdasarkan ciri-ciri persamaan dan perbedaan dengan
menggunakan variabel target sebagai kategori. Pohon Keputusan adalah pohon klasifikasi yang digunakan
sebagai prosedur penalaran untuk mendapatkan jawaban dari masalah yang dimasukkan. Penelitian ini
membahas tentang pohon keputusan yang dibentuk menggunakan Algoritma C4.5 untuk mengklasifikasi masa
studi mahasiswa FMIPA UNMUL angkatan 2008. Algoritma C4.5 merupakan pohon klasifikasi non biner di
mana cabang pohon bisa lebih dari dua. Dalam Algoritma C4.5, pohon keputusan dibentuk berdasarkan kriteria
entropy. Berdasarkan hasil penelitian dalam klasifikasi masa studi mahasiswa FMIPA UNMUL angkatan 2008
(102 data) diperoleh 16 aturan yang terbentuk. Dari hasil klasifikasi yang telah dilakukan diperoleh ketepatan
akurasi untuk data training (75 data) adalah 100 % dan untuk data testing (27 data) adalah 72,4 %.
Kata Kunci : algoritma C4.5, entropy, klasifikasi, masa studi, pohon keputusan
metode penginduksi pohon keputusan dan studi 4. Node internal, setiap node yang bukan daun
kasus. (non terminal) yang mempunyai tepat satu
Berdasarkan pengantar di atas, maka Penulis input arm dan dua atau lebih output arm, node
tertarik untuk membuat penelitian ilmiah dengan ini menyatakan pengujian yang didasarkan
judul “Aplikasi Klasifikasi Algoritma C4.5 (Studi pada nilai fitur.
kasus: Masa Studi Mahasiswa Fakultas Matematika 5. Node daun (terminal) adalah node yang
dan Ilmu Pengetahuan Alam Universitas mempunyai tepat satu input arm dan tidak
Mulawarman Angkatan 2008)”. mempunyai output arm. Node ini menyatakan
label kelas (keputusan).
2. TINJAUAN PUSTAKA Banyak algoritma yang dapat dipakai dalam
2.1. Data Mining pembentukan pohon keputusan, antara lain ID3,
Data mining adalah suatu proses menemukan CART, dan C4.5. Algoritma C4.5 merupakan
hubungan yang berarti, pola, dan kecenderungan pengembangan dari algoritma ID3 [5].
dengan memeriksa dalam sekumpulan besar data
yang tersimpan dalam penyimpanan dengan 2.5. Algoritma C4.5
menggunakan teknik pengenalan pola seperti teknik Algoritma C4.5 diperkenalkan oleh Quinlan
statistik dan matematika [5]. pada Tahun 1996 sebagai versi perbaikan dari ID3.
Dalam ID3, induksi Decision tree hanya bisa
2.2. Klasifikasi dilakukan pada fitur bertipe kategorikal (nominal
Dalam pengklasifikasian Peneliti atau ordinal), sedangkan tipe numerik (interval atau
mengelompokkan sampel berdasarkan ciri-ciri rasio) tidak dapat digunakan. Perbaikannya yaitu
persamaan dan perbedaan dengan menggunakan tidak hanya dapat menangani fitur bertipe
variabel target sebagai kategori. Sebagai contoh, kategorikal, tetapi juga dapat menangani fitur
penggolongan masa studi dapat dipisahkan dalam dengan tipe numerik, serta juga dapat melakukan
dua kategori, yaitu kurang dari sama dengan 5 pemotongan (pruning) decision tree, dan penurunan
tahun dan lebih dari 5 tahun. Beberapa metode atau (deriving) rule set. Algoritma C4.5 juga
teknik yang digunakan dalam klasifikasi dan menggunakan kriteria gain dalam menentukan fitur
estimasi dapat juga digunakan (untuk keadaan yang yang menjadi pemecah node pada pohon yang
tepat) untuk memprediksi. diinduksi.
Secara umum Algoritma C4.5 untuk
2.3. Decision Tree membangun pohon keputusan adalah sebagai
Decision Tree (Pohon Keputusan) adalah berikut [4]:
pohon klasifikasi yang digunakan sebagai prosedur 1. Pemilihan variabel akar
penalaran untuk mendapatkan jawaban dari masalah Untuk memilih variabel sebagai akar,
yang dimasukkan. Pohon yang dibentuk tidak selalu didasarkan pada nilai gain tertinggi dari variabel-
berupa pohon biner. Jika semua fitur dalam data variabel yang ada. Berikut adalah cara untuk
menggunakan dua macam nilai kategorik maka menghitung nilai gain:
bentuk pohon yang didapatkan berupa pohon biner
namun jika dalam fitur berisi lebih dari dua macam Gain(S,A) = Entropy(S) - × Entropy(Si) (1)
nilai kategorikal atau menggunakan tipe numerik
maka bentuk pohon yang didapatkan biasanya tidak dengan:
berupa pohon biner [6]. S : Himpunan kasus
Si : Himpunan kasus pada partisi ke i
2.4. Kriteria Entropy A : Variabel
Kriteria entropy banyak digunakan dalam n : Jumlah partisi atribut A
algoritma ID3, C4.5, dan C5.0 yang didasarkan |Si| : Jumlah kasus pada partisi ke i
pada pemilihan titik pemecahan yang |S| : Jumlah kasus dalam S
memaksimalkan informasi gain (pengurangan Sebelum mendapatkan nilai Gain, dicari
entropy maksimal). Nilai minimal nol ketika semua terlebih dahulu nilai Entropy. Entropy adalah
data pada node tersebut dimiliki oleh suatu kelas informasi mengenai proporsi pembagian kelas, nilai
yang mengimplikasikan paling informatif [6]. entropy berkisar mulai dari 0 sampai dengan 1, jika
Karakteristik dari decision tree, dibentuk nilai entropy = 0, maka menandakan jumlah sampel
sejumlah elemen sebagai berikut [8]: hanya berada di salah satu kelas, sedangkan jika
1. Node, yang menyatakan variabel. Node bisa nilai entropy = 1, maka menandakan jumlah sampel
berupa variabel akar, variabel cabang, dan berada di masing-masing kelas dengan jumlah yang
kelas. sama. Adapun rumus dasar dari perhitungan
2. Arm, setiap cabang menyatakan nilai hasil Entropy adalah sebagai berikut:
pengujian di node bukan daun.
3. Node akar, tidak mempunyai input arm yaitu Entropy(S) = (2)
lengan masukan dan mempunyai nol atau
lebih output arm yaitu lengan keluar.
52 Vol. 12, No. 1, Februari 2017 Jurnal Informatika Mulawarman
ISSN 1858-4853
3.2. Pembentukan Pohon Klasifikasi Dengan digunakan untuk proses pembentukan pohon
Menggunakan Algoritma C4.5 klasifikasi ada 75 sampel, sedangkan 27 sampel
Dalam proses pembentukan pohon klasifikasi, sisanya untuk data testing pohon klasifikasi yang
terhadap empat alur yaitu pemilihan variabel akar, terbentuk.
penentuan cabang, kasus dibagi dalam cabang dan Tahap pertama dalam pembentukan pohon
proses diulang sampai setiap cabang memiliki kelas klasifikasi adalah pemilihan node akar. Perhitungan
yang sama. Pohon klasifikasi yang telah terbentuk untuk menentukan node akar menggunakan
akan memunculkan beberapa aturan (rule) Persamaan (1) untuk menentukan nilai Gain dan
sebanyak kelas yang terbentuk. Adapun data yang Persamaan (2) untuk menentukan nilai Entropy.
Perhitungan entropy dan gain dilakukan terus sampai setiap cabang memiliki kelasnya masing-masing.
Maka terbentuk pohon klasifikasi sebagai berikut:
Adapun bentuk aturan If dan Then untuk Daerah = Luar Samarinda maka Masa
decision tree sebagai berikut: Studi ≤ 4,8 tahun
a. Jika Program Studi = Statistika dan i. Jika Program Studi = Statistika dan
Pekerjaan Orang Tua = PNS dan Asal Pekerjaan Orang Tua = Lainnya maka Masa
Daerah = Samarinda maka Masa Studi ≤ 4,8 tahun
Studi ≤ 4,8 tahun j. Jika Program Studi = Kimia maka Masa
b. Jika Program Studi = Statistika dan Studi ≤ 4,8 tahun
Pekerjaan Orang Tua = PNS dan Asal k. Jika Program Studi = Fisika dan Pekerjaan
Daerah = Luar Samarinda dan IPK Kelulusan Orang Tua = PNS dan IPK
≥3,50 maka Masa Studi ≤ 4,8 tahun Kelulusan ≥ 3,50 maka Masa
c. Jika Program Studi = Statistika dan Studi > 4,8 tahun
Pekerjaan Orang Tua = PNS dan Asal l. Jika Program Studi = Fisika dan Pekerjaan
Daerah = Luar Samarinda dan IPK Orang Tua = PNS dan IPK
Kelulusan 3,00≤IPK<3,50 maka Masa Kelulusan 3,00≤IPK<3,50 maka Masa
Studi > 4,8 tahun Studi ≤ 4,8 tahun
d. Jika Program Studi = Statistika dan m. Jika Program Studi = Fisika dan Pekerjaan
Pekerjaan Orang Tua = Pegawai Swasta dan Orang Tua = Pegawai Swasta maka Masa
IPK Kelulusan ≥3,50 maka Masa Studi > 4,8 tahun
Studi ≤ 4,8 tahun n. Jika Program Studi = Fisika dan Pekerjaan
e. Jika Program Studi = Statistika dan Orang Tua = WiraSwasta maka Masa
Pekerjaan Orang Tua = Pegawai Swasta dan Studi ≤ 4,8 tahun
IPK Kelulusan 3,00≤IPK<3,50 dan Asal o. Jika Program Studi = Fisika dan Pekerjaan
Daerah = Samarinda maka Masa Orang Tua = Lainnya maka Masa Studi
Studi > 4,8 tahun > 4,8 tahun
f. Jika Program Studi = Statistika dan p. Jika Program Studi = Biologi maka Masa
Pekerjaan Orang Tua = Pegawai Swasta dan Studi >4,8 tahun
IPK Kelulusan 3,00≤IPK<3,50 dan Asal
Daerah = Luar Samarinda maka Masa 3.3. Uji akurasi Algoritma C4.5
Studi ≤ 4,8 tahun Untuk mendapatkan tingkat akurasi aplikasi
g. Jika Program Studi = Statistika dan dari hasil prediksi maka digunakan Persamaan (3).
Pekerjaan Orang Tua = Wiraswasta dan Asal Setelah diperoleh hasil akurasi untuk jumlah data
Daerah = Samarinda maka Masa training 75, dilakukan juga perhitungan analisis
Studi > 4,8 tahun untuk jumlah data training 50 dan 25, sehingga
h. Jika Program Studi = Statistika dan diperoleh hasil seperti pada Tabel 8.
Pekerjaan Orang Tua = Wiraswasta dan Asal
Berdasarkan Tabel 4.14 menunjukkan bahwa [6]. Prasetyo, E., 2012. Data Mining : Konsep dan
untuk setiap data training pada setiap percobaan Aplikasi menggunakan Matlab. Yogyakarta :
data memiliki tingkat akurasi 100 persen. Andi Offset.
[7]. Quinlan J., 1986. “Introduction of Decision
Sementara itu untuk data testing yang memiliki
Tree”, Machine Learning, vol. 1, pp. 81-106.
tingkat akurasi tertinggi ada pada percobaan 1 [8]. Tan, P. N., M. Steinbach., dan V. Kumar,
dengan jumlah data testing 27 data yaitu 77,7 2006. Introduction to Data Mining. New York
persen, sedangkan untuk data testing yang memiliki : Pearson Education.
tingkat akurasi terendah ada pada percobaan 2
dengan jumlah data testing 52 data yaitu 73 persen.
4. KESIMPULAN
5. DAFTAR PUSTAKA