Abstrak
Kedisiplinan terutama dalam hal waktu kehadiran seorang karyawan merupakan poin penting bagi suatu
instansi, sehingga evaluasi atau pemantauan terhadap ketepatan waktu kehadiran karyawan menjadi
sangat vital dan menjadi kewajiban bagi semua elemen di institusi untuk meningkatkan kinerja karyawan.
Berdasarkan teori kinerja Gibson, ada beberapa faktor yang mempengaruhi tingkat disiplin waktu kerja
karyawan berdasarkan faktor internal dan eksternal. Penelitian ini dilakukan untuk mengetahui hasil kinerja
model prediksi ketepatan waktu karyawan dengan menerapkan teknik klasifikasi Decision Tree C4.5 yang
dikenal mampu mengolah data untuk menemukan pola tersembunyi dari suatu data. Sebagai bagian dari
penelitian, kinerja model klasifikasi membandingkan kinerja model klasifikasi dengan beberapa skenario
yang melibatkan preprocessing data, yaitu Synthetic Minority Over-Sampling Technique (SMOTE) dan
Discretize. Skenario metode Decision Tree dengan menggabungkan metode SMOTE dan Discretize
menghasilkan kinerja terbaik dalam mengklasifikasikan ketepatan waktu karyawan dengan nilai akurasi
91,05%, presisi 86,99%, dan recall 96,67%.
Kata Kunci
Ketepatan Hadir, Klasifikasi, Decision Tree C4.5
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
1
TEKNO Jurnal Teknologi Elektro dan Kejuruan
1. Pendahuluan
Keberhasilan suatu institusi ditentukan oleh dua faktor, yaitu sumber daya manusia atau
tenaga kerja dan sarana prasarana pendukung atau fasilitas kerja. Sebagai salah satu tolak ukur
dalam menentukan kinerja pegawai tidak lepas dari pelaksanaan kedisiplinan, lingkungan, dan
sanksi (Amin et al., 2019). Berdasarkan hal terse but maka dapat disimpulkan bahwa kedisiplinan
sumber daya manusia adalah faktor utama yang memiliki peran penting dalam upaya memenuhi
tujuan organisasi. Dengan beragam sifat, watak atau karakter dan kebiasaan yang dimiliki setiap
pegawai, maka sikap disiplin yang merupakan sikap kesediaan dan kerelaan dalam mematuhi
dan mentaati norma-norma dan peraturan yang berlaku disekitarnya sangat diperlukan oleh
setiap organisasi (Esa and Prawitasari, 2012). Menurut teori kinerja Gibson terdapat beberapa
faktor yang mempengaruhi disiplin waktu kerja pegawai antara lain usia, jenis kelamin, masa
kerja, jarak tinggal, kepemimpinan, supervisi, sumber daya, imbalan, dan sanksi (Sukma, 2014).
Pada penelitian terkait penerapan algoritma C4.5 untuk deteksi dini gangguan autisme pada
anak oleh Sugara, dkk (Sugara et al., 2018), mengemukakan bahwa penelitian ini membuat
sebuah model prediksi dengan menerapkan algoritma C4.5 dengan menggunakan dataset
peluang gangguan autisme. Dataset yang digunakan memiliki sebanyak 24 atribut gejala dan
atribut ‘Gangguan Yang Dialami’ sebagai label dengan 3 kelas yaitu “Gangguan Interaksi Sosial”,
“Gangguan Komunikasi”, dan “Gangguan Perilaku”. Model yang telah dibentuk kemudian
dilakukan pengujian untuk mengukur tingkat akurasi dengan menggunakan cross validation untuk
membentuk confusion matrix dan menghasilkan nilai akurasi, nilai class presisi, dan nilai class
recall. Dengan demikian dari hasil pengujian diperoleh nilai akurasi sebesar 72%.
Berdasarkan penelitian analisis faktor yang berhubungan dengan kedisiplinan, dilakukan
analisis univariat dan analisis bivariat untuk mengetahui gambaran frekuensi masing-masing
variabel pada dataset pegawai non medis dengan menggunakan uji chi square. Dari hasil analisis
diketahui bahwa faktor internal yang mempengaruhi kedisiplinan ialah status perkawinan dan
jarak tempat tinggal dari rumah sakit (Hm and Sjaaf, 2013).
Penelitian ini bertujuan membangun suatu model prediksi ketepatan waktu hadir calon
pegawai Universitas Negeri Malang. Penelitian ini menggunakan data pegawai dan data absensi
tenaga kependidikan Universitas Negeri Malang dalam rentang 1 bulan. Penelitian ini
menggunakan algoritma C4.5 dalam mengolah data dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Algoritma C4.5 lebih efektif dalam
menghasilkan ketepatan prediksi dan nilai kesalahan (error rate). Sekelompok data uji digunakan
dalam pengukuran kinerja untuk mengetahui presentase precision, recall, dan accuracy yang
menunjukkan bahwa algoritma C4.5 memiliki tingkat akurasi yang tinggi. Dengan membangun
sebuah model prediksi untuk mendeteksi ketepatapan waktu hadir pegawai merupakan suatu
upaya untuk meminimalisir ketidaktahuan (Rahmawati, 2015).
2. Metode
Data mining merupakan proses untuk mengumpulkan atau menggali informasi penting dari
sejumlah dataset yang tersimpan dalam basis data, gudang data, atau penyimpanan lainnya.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
2
TEKNO Jurnal Teknologi Elektro dan Kejuruan
Data mining melakukan proses pencarian pola atau hubungan yang tersembunyi antar sejumlah
dataset yang bertujuan untuk dilakukannya klasifikasi, prediksi, estimasi, clustering, association
rule, deskripsi, serta visualisasi. Data mining juga merupakan serangkaian proses untuk menggali
nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu
kumpulan data. Data mining melakukan proses penggalian informasi tersembunyi pada sebuah
data yang besar dalam suatu basis data yang proses penggaliannya dilakukan secara otomatis
menggunakan teknik pengenalan pola seperti teknik statistik dan matematika(Astika and Nurdin,
2015).
Sebagai upaya untuk menggali informasi dari suatu dataset, maka dengan membangun
suatu model prediksi menggunakan penerapan algortima yang tepat sangat diperlukan untuk
membantu proses klasifikasi. Klasifikasi adalah sebuah metode pengelompokan data yang
ditentukan berdasarkan kelasnya (Pujianto et al., 2019). Pada penelitian ini proses klasifikasi
menggunakan algoritma Pohon Keputusan C4.5 untuk mengklasifikasi permasalahan dengan
mengkombinasikan SMOTE dan Discretize.
1) Dataset
Data yang digunakan pada penelitian ini merupakan data pegawai Universitas Negeri Malang
dan data absensi pegawai Universitas Negeri Malang selama 1 bulan yaitu pada bulan Agustus
2019. Dataset yang digunakan memiliki sebanyak 343 isntance berupa informasi pegawai
Universitas Negeri Malang beserta keterangan kehadiran dengan 2 kelas label yaitu “Tepat” berisi
302 instance dan “Telat” berisi 41 instance. Berdasarkan penelitian (Sukma, 2014), terdapat
beberapa atribut yang mempengaruhi kedisiplinan diantaranya jenis kelamin, usia, status
kepegawaian, masa kerja, dsb. Data yang berhasil dikumpulkan pada penelitian ini meliputi nama
lengkap, NIP baru, subag, jenis kelamin, Pendidikan akhir, umur, alamat, jarak tempat tinggal
dengan kantor (km), dan kategori seperti yang ditunjukan pada tabel 1.
Tabel 1. Daftar atribut pada dataset
Data
Atribut Name Attribtes Description
Type
Nama Lengkap Nominal Nama pegawai
NIP Baru Numerical Nomor Induk Pegawai
Values: Subag Akuntasi dan Pelaporan, Subag
Subag Nominal
Akademik dan Kemahasiswaan, dst
Jenis Kelamin Nominal Values: Laki-laki dan Perempuan
Pendidikan Akhir Nominal Values: SD, SLTP, SLTA, dst
Usia Numerical Values: dari 30 sampai 58 tahun
Alamat Nominal Alamat tempat tinggal pegawai
Jarak tempat tinggal dengan kantor
Numerical Nilai dalam KM
(KM)
Kategori Nominal Kelas: Tepat dan Telat.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
3
TEKNO Jurnal Teknologi Elektro dan Kejuruan
2) Preprocessing
Sebelum memasuki tahap proses peembentukan model klasifikasi dengan algoritma Pohon
Keputusan C4.5, diperlukan preprocessing data. Data Preprocessing adalah proses pengolahan
untuk menyiapkan data agar data siap digunakan dengan cara meningkatkan kualitas data.
Kualitas suatu data dapat dinilai berdasarkan kelengkapan, konsistensi, timeliness, tingkat
kepercayaan pengguna terhadap data, tingkat kemudahan data untuk dipahami serta tingkat
akurasi. Data Preprocessing mentransformasikan data dengan berbagai cara, seperti reduksi
ukuran dataset atau mengubah tipe atribut yang asalnya string menjadi nominal (Crone et al.,
2006).
Dengan melakukan beberapa uji skenario, berguna untuk menemukan kombinasi teknik
preprocessing yang mampu menghasilkan nilai akurasi terbaik (Pujianto et al., 2019). Skenario
yang diuji adalah kombinasi Decision Tree C4.5 dengan dua teknik preprocessing yaitu SMOTE
dan Discretize. Pengujian pada penelitian ini dilakukkan menggunakan metode 10-fold cross
validation dengan Pohon Keputusan C4.5. Beberapa tahap preprocessing dibandingkan terhadap
4 skenario preprocessing yang berbeda.
a) Data Cleaning
Proses data cleaning dilakukan dengan tujuan agar data yang digunakan valid dan
memenuhi kebutuhan, sehingga menghasilkan evaluasi yang baik. Pada tahap ini proses
data cleaning dilakukan untuk menghilangkan missing value pada beberapa atribut, serta
menghilangkan sejumlah atribut karena dependensi antar atribut yang dihilangkan sebagai
identifier instance dengan value yang yang berbeda.
b) Diskritisasi Data
Proses ini dilakukan untuk menyederhanakan data asli dengan mengubah sejumlah nilai
atribut kontinu dengan sejumlah kecil label interval. Diskritisasi menghilangkan detail dari
dataset, tetapi dataset yang telah digeneralisasi menjadi lebih sederhana dan lebih mudah
untuk ditafsirkan serta proses data mining menjadi lebih efisien juga menyederhanakan
model pohon keputusan. Pada penelitian ini metode diskritisasi diterapkan untuk membagi
kelas pada atribut “jarak tempat tinggal dengan kantor (KM)” dan atribut “Age” kedalam
beberapa kategori interval.
c) Penyeimbangan Data
Kelas data yang tidak seimbang sangat berpengaruh terhadap tingkat akurasi klasifikasi,
terutama pada hasil precision dan recall yang tidak memperhitungkan nilai true negative.
Pertama kali diusulkan oleh (Chawla et al., 2002) dengan tujuan untuk mengatasi
permasalahan yang terjadi pada kelas minor (over-sampling), SMOTE bekerja dengan
menciptakan data sintetis diantara dua data terdekat. Dalam menentukan dua data terdekat
ini menggunakan pengukuran yang bernama euclidean distance. Kelas data dengan objek
yang lebih banyak disebut sebagai kelas mayor sedangkan lainnya disebut kelas minor
(Barro et al., 2013). Ilustrasi SMOTE ditunjukkan pada gambar 1.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
4
TEKNO Jurnal Teknologi Elektro dan Kejuruan
Pada penelitian ini, kelas “Telat” merupakan kelas minoritas dengan jumlah 41 instance
yang jelas jauh lebih sedikit dibandingkan kelas “Tepat” yang memiliki sebanyak 302
instance. Maka untuk mengatasi ketidakseimbangan kelas pada atribut “Kategori” pada
dataset yang digunakan kemudian diterapkan metode SMOTE.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
5
TEKNO Jurnal Teknologi Elektro dan Kejuruan
semakin sering digunakan untuk mengekstrak suatu kelas. Penggunaan entropy ialah untuk
mengukur ketidakaslian S.
Dalam menghitung entropy dapat dilakukan dengan rumus:
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = 𝛴𝑖=1 − 𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖 Pers. (1)
Keterangan:
S = Himpunan kasus
N = Jumlah partisi S
Pi = Proporsi Si terhadap S
b) Konsep Gain
Gain merupakan informasi yang dihasilkan dari perubahan entropy pada suatu kumpulan
data, baik melalui observasi atau disimpulkan dengan cara melakukan partisi terhadap suatu
set data.
Dalam menghitung gain dapat dilakukan dengan rumus:
𝑛 |𝑠𝑖|
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) − 𝛴𝑖=1 |𝑠|
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) Pers. (2)
Keterangan:
S = Himpunan kasus
A = Fitur
n = Jumlah posisi atribut A
|Si| = Proporsi Si terhadap S
S = Jumlah kasus dalam S
4) Evaluasi
Dalam klasifikasi, nilai akurasi yang baik merupakan fokus utama. Namun, identifikasi atribut
(atau fitur yang memiliki kekuatan besar dan juga menarik (Visa et al., 2011). Setelah proses
klasifikasi, hasil yang diperoleh akan dievaluasi dengan menggunakan 10-fold cross validation
dan Confusion Matrix. Pada 10-fold cross validation, data akan dipartisi secara acak menjadi k
bagian yang bersifat mutually exclusive; kemudian, secara iteratif sebagian dari data digunakan
untuk mempelajari model, semmentara yang lain untuk menilai kinerjanya. Kemudia sebuah
matrix yang dihasilkan dari hasil prediksi akan dibandingkan dengan kelas asli yang berasal dari
input atau dengan kata lain berisi informasi nilai aktual dan prediksi pada klasifikasi.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
6
TEKNO Jurnal Teknologi Elektro dan Kejuruan
dengan nilai interval. Dengan menerapkan discretize by frequency dan menggunakan variasi nilai
bin sebesar 31 pada atribut ‘jarak’ dan bin sebesar 2 pada atribut ‘usia’, maka dihasilkan kelas
interval sebanyak 31 kelas pada atribut ‘jarak’ dan 2 kelas pada atribut ‘usia’ seperti ditunjukkan
pada tabel 2.
Tabel 2. Tabel Hasil Diskritisasi
Atribut Value Interval
0.4
… Range1
0.6
0.65
… Range2
0.8
0.85
Jarak tempat tinggal dengan … Range3
kantor (KM) 1.1
⋮ ⋮
20.8
… Range30
23
23.4
… Range31
50
30
… Range1
47
Age
48
… Range2
58
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
7
TEKNO Jurnal Teknologi Elektro dan Kejuruan
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
8
TEKNO Jurnal Teknologi Elektro dan Kejuruan
sebesar 86.00%, presisi sebesar 57.02%, recall sebesar 63.18%, dan error rate sebesar
14.00%. Dengan besarnya selisih ketidakseimbangan kelas label maka berpengaruh pada
hasil prediksi serta nilai presisi, recall dan juga error rate yang cukup besar seperti
ditunjukkan dalam confusion matrix pada pada gambar 2.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
9
TEKNO Jurnal Teknologi Elektro dan Kejuruan
4. Kesimpulan
Berdasarkan hasil uji coba model prediksi ketepatan waktu hadir calon pegawai
menggunakan Decision Tree C4.5 dengan menerapkan diskritisasi data dan juga SMOTE,
menunjukan performa terbaik diantara skenario lainnya dengan nilai akurasi sebesar 91.05%,
presisi sebesar 91.04%, recall sebesar 91.66%, dan error rate sebesar 8.95%. dengan nilai
akurasi sebesar 91.05%, maka dapat disimpulkan bahwa model prediksi ini sudah cukup baik
untuk digunakan dalam memprediksi ketepatan waktu hadir calon pegawai.
Kelemahan dari penelitian ini adalah variabel dataset yang digunakan masih terbatas.
Dengan kemungkinan jika ditambahkan variabel baru yang mendukung atau mempengaruhi
keterlambatan pegawai maka nilai akurasi, presisi, dan recall akan lebih baik. Sehingga
diharapkan pada penelitian selanjutnya dapat memperbaiki kelemahan yang ada.
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
10
TEKNO Jurnal Teknologi Elektro dan Kejuruan
Daftar Rujukan
Amin, M., Sari, S.P., Rachman, A., 2019. Faktor-Faktor yang Mempengaruhi Disiplin Kerja Karyawan
Penunjang Medis dan Non Medis. JKA 1, 35–44. https://doi.org/10.31539/jka.v1i1.519
Astika, D., Nurdin, N., 2015. PENERAPAN DATA MINING UNTUK MENGANALISIS PENJUALAN
BARANG DENGAN MENGGUNAKAN METODE APRIORI PADA SUPERMARKET SEJAHTERA
LHOKSEUMAWE 6, 23.
Barro, R.A., Sulvianti, I.D., Afendi, F.M., 2013. PENERAPAN SYNTHETIC MINORITY OVERSAMPLING
TECHNIQUE (SMOTE) TERHADAP DATA TIDAK SEIMBANG PADA PEMBUATAN MODEL
KOMPOSISI JAMU 6.
Chawla, N.V., Bowyer, K.W., Hall, L.O., Kegelmeyer, W.P., 2002. SMOTE: Synthetic Minority Over-
sampling Technique. jair 16, 321–357. https://doi.org/10.1613/jair.953
Crone, S.F., Lessmann, S., Stahlbock, R., 2006. The impact of preprocessing on data mining: An evaluation
of classifier sensitivity in direct marketing. European Journal of Operational Research 173, 781–
800. https://doi.org/10.1016/j.ejor.2005.07.023
Esa, K.W., Prawitasari, D., 2012. PENGARUH MOTIVASI, KEMAMPUAN DAN DISIPLIN TERHADAP
KINERJA KARYAWAN PADA PT. SAMUDERA INDONESIA DI SEMARANG 11.
Fernandez, A., Garcia, S., Herrera, F., Chawla, N.V., 2018. SMOTE for Learning from Imbalanced Data:
Progress and Challenges, Marking the 15-year Anniversary. jair 61, 863–905.
https://doi.org/10.1613/jair.1.11192
Harryanto, F.F., Hansun, S., 2017. Penerapan Algoritma C4.5 untuk Memprediksi Penerimaan Calon
Pegawai Baru di PT WISE 3, 9.
Hm, A., Sjaaf, A.C., 2013. ANALISIS FAKTOR YANG BERHUBUNGAN DENGAN KEDISIPLINAN WAKTU
KERJA KARYAWAN NON MEDIS DI RUMAH SAKIT BOGOR MEDICAL CENTER TAHUN 2013
18.
Mashlahah, S., 2013. Prediksi Kelulusan Mahasiswa Menggunakan Metode Decision Tree dengan
Penerapan Algoritma C4.5 118.
Pujianto, U., Setiawan, A.L., Rosyid, H.A., Salah, A.M.M., 2019. Comparison of Naïve Bayes Algorithm and
Decision Tree C4.5 for Hospital Readmission Diabetes Patients using HbA1c Measurement. Kno.
Eng. Da. Sc. 2, 58. https://doi.org/10.17977/um018v2i22019p58-71
Rahmawati, E., 2015. ANALISA KOMPARASI ALGORITMA NAIVE BAYES DAN C4.5 UNTUK PREDIKSI
PENYAKIT LIVER 12.
Song, Y., Lu, Y., 2015. Decision tree methods: applications for classification and prediction 27, 7.
Sugara, B., Widyatmoko, D., Prakoso, B.S., Saputro, D.M., 2018. PENERAPAN ALGORITMA C4.5 UNTUK
DETEKSI DINI GANGGUAN AUTISME PADA ANAK 10.
Sukma, M.S., 2014. Hubungan Motivasi Kerja dan Karakteristik Individu Dengan Disiplin Kerja perawat di
Ruang Rawat Inap Kelas III RSUD Pasar Rebo Tahun 2014.pdf.
Visa, S., Ramsay, B., Ralescu, A., Knaap, E. van der, 2011. Confusion Matrix-based Feature Selection.pdf.
Wajhillah, R., Yulianti, I., 2017. PENERAPAN ALGORITMA C4.5 UNTUK PREDIKSI PENGGUNAAN
JENIS KONTRASEPSI BERBASIS WEB. klik 4, 160. https://doi.org/10.20527/klik.v4i2.98
TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…
11