Anda di halaman 1dari 9

Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705

Volume 10, Nomor 1, Juni 2020 : 36 – 44 E-ISSN : 2621-5608

IMPLEMENTASI ALGORITMA C4.5 UNTUK MEMPREDIKSI


KETERLAMBATAN PEMBAYARAN SUMBANGAN PEMBANGUNAN
PENDIDIKAN SEKOLAH MENGGUNAKAN PYTHON

Victor Saputra Ginting1, Kusrini2, Emha Taufiq3


Magister Teknik Informatika, Universitas Amikom Yogyakarta
Email : victor.ginting@students.amikom.ac.id1, kusrini@amikom.ac.id2,
emhataufiqluthfi@amikom.ac.id3

ABSTRAK
Sumbangan Pembangunan Pendidikan (SPP) Sekolah merupakan salah satu komponen yang
penting dalam melaksanakan pendidikan, karena SPP Sekolah adalah salah satu syarat dalam
mencapai tujuan pendidikan. Penelitian yang dilakukan oleh Muqorobin, 2019 dengan judul
“Optimasi Metode Naive Bayes Dengan Feature Selection Gain Untuk Memprediksi
Keterlambatan Pembayaran SPP Sekolah” dengan Objek Penelitian yang dilakukan di SMK
Al-Islam Surakarta menghasilkan tingkat akurasi sebesar 90%. Penelitian tersebut dilakukan
dengan menggunakan beberapa variabel seperti jumlah pendapatan, tanggungan keluarga,
latar belakang pendidikan orang tua dan usia orang tua. Penelitian yang akan dilakukan
nantinya akan memprediksi keterlambatan pembayaran SPP Sekolah dengan menggunakan
Dataset dari penelitian yang sudah dilakukan oleh Muqorobin, 2019 dan diimplementasikan
kedalam bentuk pemrograman menggunakan bahasa pemrograman python untuk
menghasilkan keterangan hasil prediksi. Hasil penelitian yang didapatkan mendapatkan
tingkat akurasi sebesar 73%.

Kata Kunci: Algoritma C4.5, Prediksi, Python, Confusion Matrix

ABSTRACT

The Donation of Educational Development (SPP) School is one of the important components
in implementing education, because School SPP is one of the requirements in achieving
educational goals. Research conducted by Muqorobin, 2019 with the title "Optimization of
the Naive Bayes Method with Feature Selection Gain for Predicting Late School Fee
Payments" with Object Research conducted at SMK Al-Islam Surakarta resulted in an
accuracy rate of 90%. The research was conducted by using several variables such as the
amount of income, family dependents, parents 'educational background and parents' age. The
research that will be carried out later will predict the late payment of School Fees by using
the Dataset from the research conducted by Muqorobin, 2019 and implemented into the form
of programming using the python programming language to produce prediction results. The
research results obtained get an accuracy rate of 73%.

Keywords: Algorithm C4.5, Prediction, Python, Confusion Matrix

36
36
Ginting, Implementasi Algoritma C4.5 Untuk Memprediksi Keterlambatan Pembayaran Sumbangan
Pembangunan Pendidikan Sekolah Menggunakan Python

1. PENDAHULUAN Penelitian dengan judul “Penerapan


Pendidikan merupakan salah satu hal yang Algoritma C4.5 Untuk Memprediksi Nilai
penting bagi setiap orang. Salah satu Kelulusan Siswa Sekolah Menengah
kewajiban untuk mendapatkan pendidikan Berdasarkan Faktor Eksternal” (Pambudi
di sekolah adalah melakukan pembayaran et al., 2018) dengan pengujian data latih
Sumbangan Pembangunan Pendidikan dengan variabel yang berbeda
(SPP) Sekolah. Tidak dapat dipungkiri, menghasilkan tingkat akurasi sebesar 50%
SPP Sekolah merupakan salah satu faktor Penelitian dengan judul “Komparasi
penting yang digunakan untuk mealokasi Kinerja Algoritma C4.5 Dan Naive Bayes
biaya pembangunan sekolah, biaya untuk Untuk Prediksi Kegiatan Penerimaan
guru, karyawan, dan lain-lain. Biaya SPP Mahasiswa Baru Studi Kasus Universitas
Sekolah ini umumnya diterapkan oleh STIKUBANK Semarang” (Yahya &
sekolah swasta yang dibebankan kepada Jananto, 2019) menghasilkan tingkat
siswanya, berbeda dengan sekolah negeri, akurasi sebesar 87,5% menggunakan
yang biaya pengelolaan sekolah masih ada Algoritma C4.5 dan 86.6% menggunakan
bantuan dari biaya pemerintah. Namun metode Naive Bayes.
akan menjadi masalah yang cukup besar Penelitian yang berjudul “Optimasi
bagi instansi sekolah apabila Metode Naive Bayes Dengan Feature
keterlambatan pembayaran SPP Sekolah Selection Information Gain untuk Prediksi
dilakukan oleh murid. Hal ini akan Keterlambatan Pembayaran SPP Sekolah”
menjadi penghambat dalam mendapatkan dengan objek penelitian di SMK Al-Islam
pendidikan, khususnya di instansi sekolah Surakarta menghasilkan keterangan
swasta. Berdasarkan pemaparan diatas, prediksi yang didapatkan melalui metode
perlu adanya sebuah penelitian untuk naive bayes, kemudian keterangan hasil
memprediksi keterlambatan pembayaran dan keterangan hasil prediksi dilakukan
SPP Sekolah yang dilakukan murid. perbandingan dan menghasilkan tingkat
Penelitian yang berjudul “Analisis akurasi sebesar 90%. Penelitian yang akan
Algoritma C4.5 Untuk Memprediksi dilakukan akan coba mengambil dataset
Penjualan Motor Pada PT. Capella dari penelitian oleh (Muqorobin et al.,
Dinamik Nusantara Cabang Muka 2019) sebanyak 30 data, dengan variabel
Kuning” (Azwanti, 2018) dimana dalam yang digunakan antara lain, penghasilan
penelitian tersebut menghasilkan rules orang tua, tanggungan keluarga,
yang didapat dari tiap-tiap atribut pendidikan ayah, umur ayah, pendidikan
didalamnya menggunakan tools weka. ibu, umur ibu dan keterangan sebagai
Penelitian dengan judul “Penerapan class, kemudian diimplementasikan
Algoritma C4.5 Pada Aplikasi Prediksi kedalam sebuah pemrograman dengan
Kelulusan Mahasiswa Prodi Informatika” menggunakan python untuk menghasilkan
(Putri & Waspada, 2018) dimana keterangan hasil prediksi. setelah
penelitian tersebut menggunakan atribut didapatkan keterangan hasil prediksi,
seperti asal daerah, IPK, TOEFL, dan kemudian dilakukan perbandingan dengan
Lama Studi menghasilkan tingkat presisi keterangan hasil dengan menggunakan
sebesar 63.93%, recall 60.73%, dan confusion matrix untuk mendapatkan
akurasi sebesar 60.52%. tingkat akurasinya.

37
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 1, Juni 2020 : 36 – 44 E-ISSN : 2621-5608

2. LANDASAN TEORI pengumpulan dan penggantian konsep


2.1. Prediksi level rendah(seperti nilai numerik untuk
Prediksi merupakan sebuah proses dimana usia) dengan konsep level lebih tinggi
memperkirakan tentang sesuatu yang (seperti muda, middle-aged, manula, dan
paling mungkin akan terjadi di masa yang lain-lain)
akan datang berdasarkan informasi- d. Data Mining
informasi pada masa lalu atau sekarang Data Mining merupakan proses mencari
yang dimiliki, agar kesalahan (selisih pola atau informasi menarik dalam data
antara sesuatu yang telah terjadi dengan terpilih dengan menggunakan metode
hasil perkiraan) dapat diperkecil. tertentu, dalam penelitian ini yakni
(Herdianto, 2013) menggunakan algoritma C4.5. Pemilihan
algoritma bergantung pada tujuan dan
proses KDD secara keseluruhan
2.2. Data Mining
e. Evaluation
Data Mining merupakan suatu proses
Setelah mendapatkan keterangan hasil
dimana kecerdasan buatan, matematika,
prediksi dari pemrograman python, maka
teknik statistik dan machine learning
dilakukan pengujian atau evaluation untuk
digunakan untuk mengekstrasi dan
mengukur perbandingan tingkat akurasi
mengidentifikasi informasi yang dapat
dari keterangan hasil dan keterangan hasil
bermanfaat dan pengetahuan yang terkait
prediksi. jika tidak mendapatkan hasil
dari berbagai database besar (Turban,
yang sesuai target, maka perlu dilakukan
2005). Proses Data Mining sendiri adalah
uji coba evaluasi kembali. Proses dari Data
sebagai berikut:
Mining dapat dilihat pada Gambar 1.
a. Data Selection
pemilihan data dari kumpulan data
operasional yang dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai.
Hasil dari seleksi data tersebut kemudian
diproses, disimpan kedalam berkas
terpisah dari basis data operasional
b. Pre-processing/cleaning data
Proses data mining dapat dilaksanakan,
perlu dilakukan cleaning data. Proses
cleaning data yakni dengan cara
membuang duplikasi data, memeriksa data
yang inkonsisten (missing value), dan
memperbaiki kesalahan data
c. Transformation/Diskritisasi Data
Proses transformation yakni
mensinambungkan atribut/variabel yang
nantinya digunakan untuk memprediksi.
Diskritisasi sendiri memiliki konsep
hierarki, yakni mengurangi data melalui Gambar 1. Proses Data Mining

38
Ginting, Implementasi Algoritma C4.5 Untuk Memprediksi Keterlambatan Pembayaran Sumbangan
Pembangunan Pendidikan Sekolah Menggunakan Python

2.3. Algoritma C4.5 4. Ulangi langkah hingga semua record


Algoritma Algoritma C4.5 ialah algoritma mendapat kelas yang sama
yang kegunaannya untuk membentuk
pohon keputusan (Decision Tree). Pohon 2.4. Python
Keputusan sendiri merupakan metode Python merupakan sebuah bahasa
klasifikasi dan prediksi yang cukup pemrograman yang cukup terkenal yang
terkenal dan digunakan oleh banyak orang. memiliki banyak manfaat untuk
Pohon Keputusan berguna untuk mendukung pemrograman yang
mengeksplor data dan menemukan berorientasi objek dan dapat berjalan
hubungan yang tersembunyi dari variabel diberbagai macam platform sistem operasi
atau atribut yang digunakan, dan sebuah seperti PCs, Macintosh, UNIX. Beberapa
variabel target yang biasa disebut kelebihan dari bahasa pemrograman
class/label. Algoritma yang sering dipakai python diantara lain :
dalam membuat pohon keputusan, yakni a. Pengembangan program dilakukan
ID3, C4.5 dan CART. Algoritma C4.5 dengan cepat dan coding yang
sendiri merupakan algoritma yang sudah lebih sedikit
dikembangkan dari algoritma ID3, dimana b. Mendukung multi platform
proses pada pohon keputusan ialah c. Python mudah dipelajari
mengubah bentuk data menjadi sebuah d. Memiliki sistem pengelolaan
model pohon, mengubah model pohon memory yang otomatis
menjadi sebuah rules, kemudian e. Python bersifat Object Oriented
menyederhanakan rules itu sendiri. Programming
Pembuatan Decision Tree dengan
Algoritma C4.5 digunakan untuk 2.5. Confusin Matriks
membangun sebuah pohon keputusan yang Confusion Matrix adalah sebuah
dimulai dari pemilihan variabel atau metode yang kegunaannya untuk
atribut sebagai akar, membangun cabang melakukan perhitungan akurasi pada
untuk tiap nilai, membagi kasus dalam konsep dalam Data Mining. Evaluasi
cabang kemudian melakukan pengulangan dengan menggunakan metode confusion
proses untuk setiap cabang sampai seluruh matrix menghasilkan nilai akurasi, presisi
dan recall. Akurasi dalam klasifikasi dalam
kasus pada cabang mempunyai kelas yang Data Mining merupakan persentase
sama. Beberapa tahapan dalam Algoritma ketepatan pada record data yang telah
C4.5 adalah : diklasifikasikan secara benar dan
1. Menyiapkan data untuk dikelompokkan dilakukan pengujian pada hasil klasifikasi
kedalam kelas tertentu. (Han et al., 2012). Presisi atau confidence
2. Menentukan akar untuk dibentuk dalam merupakan proporsi pada kasus yang
diprediksi positif, dimana data yang
pohon keputusan. Akar diambil dari
sebenarnya juga positif. Recall atau
variabel yang dipilih dengan cara sensitivity adalah proporsi kasus positif
menghitung Gain dari tiap-tiap atribut. yang diprediksi dengan benar (Abdullah et
3. Kemudian setelah mendapatkan nilai al., 2019). Pengukuran akurasi dilakukan
Gain dari masing-masing variabel, dengan metode pengujian confusion matrix
maka dipilih atribut dengan nilai Gain dapat dilihat dalam Tabel 1.
tertinggi.

39
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 1, Juni 2020 : 36 – 44 E-ISSN : 2621-5608

Tabel 1. Confusion Matrix


Correct Classification
Classification Positif Negatif
Positif TP TN
Negatif FP FN
Accuracy = x 100%

Precision = x 100%

Recall = x 100%

3. METODE PENELITIAN
Penelitian yang akan diusulkan
berjenis eksperimen. Penelitian dilakukan
menggunakan dataset dari penelitian
sebelumnya yang berjudul “Optimasi
Metode Naive Bayes Dengan Feature
Selection Gain Untuk Memprediksi
Keterlambatan Pembayaran SPP Sekolah”
dengan objek penelitian yang dilakukan di Gambar 2. Diagram Alur Penelitian
SMK Al-Islam Surakarta, dimana dataset
yang akan digunakan berjumlah 30.
Penelitian ini terbagi menjadi beberapa 4. HASIL DAN PEMBAHASAN
bagian, yaitu Pengumpulan Data, Muqorobin menyediakan dataset yang
Preprocessing. Preprocessing data dapat digunakan untuk tujuan penelitian
dilakukan untuk mengambil data yang dan pengembangan dengan topik
dibutuhkan dalam penelitian yang memprediksi keterlambatan pembayaran
diusulkan. Penelitian nantinya akan SPP Sekolah. Data yang digunakan berupa
diimplementasikan kedalam bentuk tabel dan data didapat dari bagian
pemrograman menggunakan bahasa administrasi di SMK Al-Islam dengan
pemrograman python untuk mendapatkan menggunakan atribut Penghasilan
keterangan hasil prediksi. pengujian Orangtua, Tanggungan Keuarga,
dilakukan dengan menghitung nilai akurasi Pendidikan Ayah, Umur Ayah, Pendidikan
yang akan dihasilkan dari pemrograman, Ibu, Umur Ibu, dan Keterangan sebagai
kemudian dibandingan dengan keterangan class/label. Untuk dataset dapat dilihat
hasil dataset yang didapat. Alur penelitian pada Tabel 2.
dapat dilihat pada Gambar 2.

40
Ginting, Implementasi Algoritma C4.5 Untuk Memprediksi Keterlambatan Pembayaran Sumbangan
Pembangunan Pendidikan Sekolah Menggunakan Python

Tabel 2.
No Nama Penghasil Tanggung Pendidi Umur Pendidik Umur Ket
an Orang an kan Ayah an Ibu Ibu
Tua Keluarga Ayah
1 Abdullah 2 - 4 Juta Cukup SD Lansia SMP Dewasa Tepat
Awal Awal
2 Abu Musa < 1 Juta Banyak SD Lansia SMP Lansia Terla
Awal Awal mbat
3 Achmad 1 – 2 Juta Sedikit S1 Lansia D3 Lansia Tepat
Awal Awal
4 Adi Sadewo < 1 Juta Cukup SMP Lansia SD Lansia Terla
Akhir Akhir mbat
5 Afifah 1 – 2 Juta Sedikit SMA Dewasa SMP Dewasa Terla
Luthfitah Awal Akhir mbat
6 Afilia Nur < 1 Juta Banyak SMA Lansia SD Manula Tepat
Akhir
7 Agal Febri 1 – 2 Juta Sedikit D3 Dewasa SMA Dewasa Tepat
Awal Akhir
8 Ahmad Jadid 2- 4 Juta Cukup SD Lansia D3 Lansia Terla
Akhir Awal mbat
9 Ahmad Latif 1 – 2 Juta Sedikit SMP Manula SD Manula Terla
mbat
10 Ahmad < 1 Juta Cukup SD Manula SMA Lansia Tepat
Migdad Akhir
...

30 Amelia Duwi >4 Juta Banyak S1 Dewasa D3 Dewasa Tepat


Awal Akhir

41
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 1, Juni 2020 : 36 – 44 E-ISSN : 2621-5608

Dataset yang terkumpul kemudian


diimpelementasikan kedalam bentuk
pemrograman menggunakan Python.
Dataset yang disimpan kedalam bentul
excel, kemudian diubah kedalam format
CSV(Comma delimeted) agar dapat
diimplementasikan kedalam pemrograman.
Python yang digunakan penulis adalah
Python dengan versi Python 3.8.1 dengan
Framework Jupyter. Selanjutnya import
library yang dibutuhkan dalam
pemrograman python seperti numpy,
pandas, Chefboost dan sklearn. Untuk
proses coding dengan bahasa
pemrograman python dapat dilihat pada Gambar 4. Hasil Impelementasi Algoritma
Gambar 3. C4.5 Menggunakan Python

Untuk perbandingan keterangan hasil dan


keterangan hasil prediksi dari dataset yang
berjumlah 30, dapat dilihat pada Tabel 3.

Tabel 3. Perbandingan Keterangan Hasil


dan Prediksi
No Keterangan Keterangan
Hasil Dataset Hasil Prediksi
Python
1 Tepat Tepat
2 Terlambat Terlambat
3 Tepat Terlambat
4 Terlambat Terlambat
5 Terlambat Terlambat
6 Tepat Terlambat
7 Tepat Tepat
8 Terlambat Tepat
9 Terlambat Terlambat
10 Tepat Terlambat
Gambar 3. Impelementasi python ...
Proses dataset yang telah di import ke 30 Tepat Tepat
dalam Framework, langkah selanjutnya Confusion Matrix
kemudian menginputkan persamaan Confusion matrix digunakan untuk
Algoritma C4.5. kemudian ketika program melakukan pengukuran tingkat akurasi dari
di run, keterangan hasil prediski dari keterangan hasil dan keterangan hasil
pemrograman didapatkan. Hasil prediksi yang didapat. untuk confusion
keterangan prediksi dapat dilihat pada matrix dapat dilihat pada persamaan 1
Tabel Confusion Matrix dapat dilihat pada
Gambar 4.
Tabel 4.

42
Ginting, Implementasi Algoritma C4.5 Untuk Memprediksi Keterlambatan Pembayaran Sumbangan
Pembangunan Pendidikan Sekolah Menggunakan Python

Tabel 4. Pengujian Confusion Matrix DAFTAR PUSTAKA

Correct Classification Abdullah, R. W., Kusrini, K., & Luthfi, E.


Classification Positif Negatif T. (2019). Prediksi Keterlambatan
Positif 10 4 Pembayaran Spp Sekolah Dengan
Metode K-Nearest Neighbor (Studi
Negatif 4 12 Kasus Smk Al-Islam Surakarta).
Pemodelan Arsitektur Sistem
Keterangan : Informasi Perizinan Menggunakan
1. Classification Positif – Positif = 10 Kerangka Kerja Togaf Adm.
karena jumlah data positif yang Azwanti, N. (2018). Analisa Algoritma
terklasifikasi dengan benar oleh sistem C4.5 Untuk Memprediksi Penjualan
2. Classification Negatif – Positif = 4 Motor Pada Pt. Capella Dinamik
Nusantara Cabang Muka Kuning.
karena jumlah data positif yang
Informatika Mulawarman : Jurnal
terklasifikasi dengan benar oleh sistem Ilmiah Ilmu Komputer.
3. Classification Positif – Negatif = 4 https://doi.org/10.30872/jim.v13i1.62
karena jumlah data positif yang 9
terklasifikasi dengan benar oleh sistem Han, J., Kamber, M., & Pei, J. (2012).
4. Classification Negatif - Negatif = 12 Data Cube Technology. In Data
Mining. https://doi.org/10.1016/b978-
karena jumlah data positif yang
0-12-381479-1.00005-8
terklasifikasi dengan benar oleh sistem Herdianto. (2013). Prediksi Kerusakan
Motor Induksi Menggunakan Metode
Hasil Pengujian : Jaringan Saraf Tiruan
Akurasi = 10+12/(10+4+4+12) * 100% = Backpropagation. Tesis, Fakultas
73% Teknik, Universitas Sumatera Utara.
Presisi = 10/(10+4) * 100% = 71% Muqorobin, M., Kusrini, K., & Luthfi, E.
T. (2019). Optimasi Metode Naive
Recall = 10/(10+4) * 100% = 71%
Bayes Dengan Feature Selection
Information Gain Untuk Prediksi
Keterlambatan Pembayaran Spp
5. SIMPULAN DAN SARAN Sekolah. Jurnal Ilmiah SINUS, 17(1),
Berdasarkan hasil yang didapatkan 1.
dari keterangan hasil dan hasil prediksi https://doi.org/10.30646/sinus.v17i1.3
dengan Algoritma C4.5, maka nilai 78
akurasi, precision, dan recall sebesar 73%, Pambudi, R. H., Setiawan, B. D., &
Indriati. (2018). Penerapan Algoritma
71%, dan 71%.
C4 . 5 Untuk Memprediksi Nilai
Saran yang dapat diberikan untuk Kelulusan Siswa Sekolah Menengah
penelitian selanjutnya agar dapat dilakukan Berdasarkan Faktor Eksternal. Jurnal
Pengembangan Teknologi Informasi
dengan menggunakan metode klasifikasi
Dan Ilmu Komputer.
lain untuk menghasilkan tingkat akurasi Putri, R. P. S., & Waspada, I. (2018).
yang lebih baik, melakukan perbandingan Penerapan Algoritma C4.5 pada
dengan metode Data Mining lainnya dan Aplikasi Prediksi Kelulusan
penelitian lebih lanjut mengenai atribut- Mahasiswa Prodi Informatika.
atribut yang nantinya akan dipilih. Khazanah Informatika: Jurnal Ilmu
Komputer Dan Informatika.

43
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 1, Juni 2020 : 36 – 44 E-ISSN : 2621-5608

https://doi.org/10.23917/khif.v4i1.59
75
Turban. (2005). Mechine Learning untuk
Mengesktraksi dan Mengidentifikasi
Informasi yang bermanfaat. Mechine
Learning.
Yahya, N., & Jananto, A. (2019).
Komparasi Kinerja Algoritma C.45
Dan Naive Bayes Untuk Prediksi
Kegiatan Penerimaanm Mahasiswa
Baru (studi kasus : Universitas
Stikubank Semarang). Prosiding
SENDI.

44

Anda mungkin juga menyukai