Anda di halaman 1dari 11

TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Prediksi Ketepatan Hadir Calon Pegawai Menggunakan


Metode Decision Tree Dengan Penerapan Algoritma C4.5
(Studi Kasus: Tenaga Kerja Universitas Negeri Malang)
Utomo Pujianto 1, Muhammad Iqbal Akbar 2, Yoga Martafian 3
1. Universitas Negeri Malang, Indonesia | utomo.pujianto.ft@um.ac.id
2. Universitas Negeri Malang, Indonesia | iqbal.akbar.ft@um.ac.id
3. Universitas Negeri Malang, Indonesia | yoga.martafian.1605356@students.um.ac.id

Abstrak
Kedisiplinan terutama dalam hal waktu kehadiran seorang karyawan merupakan poin penting bagi suatu
instansi, sehingga evaluasi atau pemantauan terhadap ketepatan waktu kehadiran karyawan menjadi
sangat vital dan menjadi kewajiban bagi semua elemen di institusi untuk meningkatkan kinerja karyawan.
Berdasarkan teori kinerja Gibson, ada beberapa faktor yang mempengaruhi tingkat disiplin waktu kerja
karyawan berdasarkan faktor internal dan eksternal. Penelitian ini dilakukan untuk mengetahui hasil kinerja
model prediksi ketepatan waktu karyawan dengan menerapkan teknik klasifikasi Decision Tree C4.5 yang
dikenal mampu mengolah data untuk menemukan pola tersembunyi dari suatu data. Sebagai bagian dari
penelitian, kinerja model klasifikasi membandingkan kinerja model klasifikasi dengan beberapa skenario
yang melibatkan preprocessing data, yaitu Synthetic Minority Over-Sampling Technique (SMOTE) dan
Discretize. Skenario metode Decision Tree dengan menggabungkan metode SMOTE dan Discretize
menghasilkan kinerja terbaik dalam mengklasifikasikan ketepatan waktu karyawan dengan nilai akurasi
91,05%, presisi 86,99%, dan recall 96,67%.

Kata Kunci
Ketepatan Hadir, Klasifikasi, Decision Tree C4.5

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

1
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

1. Pendahuluan
Keberhasilan suatu institusi ditentukan oleh dua faktor, yaitu sumber daya manusia atau
tenaga kerja dan sarana prasarana pendukung atau fasilitas kerja. Sebagai salah satu tolak ukur
dalam menentukan kinerja pegawai tidak lepas dari pelaksanaan kedisiplinan, lingkungan, dan
sanksi (Amin et al., 2019). Berdasarkan hal terse but maka dapat disimpulkan bahwa kedisiplinan
sumber daya manusia adalah faktor utama yang memiliki peran penting dalam upaya memenuhi
tujuan organisasi. Dengan beragam sifat, watak atau karakter dan kebiasaan yang dimiliki setiap
pegawai, maka sikap disiplin yang merupakan sikap kesediaan dan kerelaan dalam mematuhi
dan mentaati norma-norma dan peraturan yang berlaku disekitarnya sangat diperlukan oleh
setiap organisasi (Esa and Prawitasari, 2012). Menurut teori kinerja Gibson terdapat beberapa
faktor yang mempengaruhi disiplin waktu kerja pegawai antara lain usia, jenis kelamin, masa
kerja, jarak tinggal, kepemimpinan, supervisi, sumber daya, imbalan, dan sanksi (Sukma, 2014).
Pada penelitian terkait penerapan algoritma C4.5 untuk deteksi dini gangguan autisme pada
anak oleh Sugara, dkk (Sugara et al., 2018), mengemukakan bahwa penelitian ini membuat
sebuah model prediksi dengan menerapkan algoritma C4.5 dengan menggunakan dataset
peluang gangguan autisme. Dataset yang digunakan memiliki sebanyak 24 atribut gejala dan
atribut ‘Gangguan Yang Dialami’ sebagai label dengan 3 kelas yaitu “Gangguan Interaksi Sosial”,
“Gangguan Komunikasi”, dan “Gangguan Perilaku”. Model yang telah dibentuk kemudian
dilakukan pengujian untuk mengukur tingkat akurasi dengan menggunakan cross validation untuk
membentuk confusion matrix dan menghasilkan nilai akurasi, nilai class presisi, dan nilai class
recall. Dengan demikian dari hasil pengujian diperoleh nilai akurasi sebesar 72%.
Berdasarkan penelitian analisis faktor yang berhubungan dengan kedisiplinan, dilakukan
analisis univariat dan analisis bivariat untuk mengetahui gambaran frekuensi masing-masing
variabel pada dataset pegawai non medis dengan menggunakan uji chi square. Dari hasil analisis
diketahui bahwa faktor internal yang mempengaruhi kedisiplinan ialah status perkawinan dan
jarak tempat tinggal dari rumah sakit (Hm and Sjaaf, 2013).
Penelitian ini bertujuan membangun suatu model prediksi ketepatan waktu hadir calon
pegawai Universitas Negeri Malang. Penelitian ini menggunakan data pegawai dan data absensi
tenaga kependidikan Universitas Negeri Malang dalam rentang 1 bulan. Penelitian ini
menggunakan algoritma C4.5 dalam mengolah data dengan tujuan untuk dapat memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Algoritma C4.5 lebih efektif dalam
menghasilkan ketepatan prediksi dan nilai kesalahan (error rate). Sekelompok data uji digunakan
dalam pengukuran kinerja untuk mengetahui presentase precision, recall, dan accuracy yang
menunjukkan bahwa algoritma C4.5 memiliki tingkat akurasi yang tinggi. Dengan membangun
sebuah model prediksi untuk mendeteksi ketepatapan waktu hadir pegawai merupakan suatu
upaya untuk meminimalisir ketidaktahuan (Rahmawati, 2015).
2. Metode
Data mining merupakan proses untuk mengumpulkan atau menggali informasi penting dari
sejumlah dataset yang tersimpan dalam basis data, gudang data, atau penyimpanan lainnya.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

2
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Data mining melakukan proses pencarian pola atau hubungan yang tersembunyi antar sejumlah
dataset yang bertujuan untuk dilakukannya klasifikasi, prediksi, estimasi, clustering, association
rule, deskripsi, serta visualisasi. Data mining juga merupakan serangkaian proses untuk menggali
nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu
kumpulan data. Data mining melakukan proses penggalian informasi tersembunyi pada sebuah
data yang besar dalam suatu basis data yang proses penggaliannya dilakukan secara otomatis
menggunakan teknik pengenalan pola seperti teknik statistik dan matematika(Astika and Nurdin,
2015).
Sebagai upaya untuk menggali informasi dari suatu dataset, maka dengan membangun
suatu model prediksi menggunakan penerapan algortima yang tepat sangat diperlukan untuk
membantu proses klasifikasi. Klasifikasi adalah sebuah metode pengelompokan data yang
ditentukan berdasarkan kelasnya (Pujianto et al., 2019). Pada penelitian ini proses klasifikasi
menggunakan algoritma Pohon Keputusan C4.5 untuk mengklasifikasi permasalahan dengan
mengkombinasikan SMOTE dan Discretize.

1) Dataset
Data yang digunakan pada penelitian ini merupakan data pegawai Universitas Negeri Malang
dan data absensi pegawai Universitas Negeri Malang selama 1 bulan yaitu pada bulan Agustus
2019. Dataset yang digunakan memiliki sebanyak 343 isntance berupa informasi pegawai
Universitas Negeri Malang beserta keterangan kehadiran dengan 2 kelas label yaitu “Tepat” berisi
302 instance dan “Telat” berisi 41 instance. Berdasarkan penelitian (Sukma, 2014), terdapat
beberapa atribut yang mempengaruhi kedisiplinan diantaranya jenis kelamin, usia, status
kepegawaian, masa kerja, dsb. Data yang berhasil dikumpulkan pada penelitian ini meliputi nama
lengkap, NIP baru, subag, jenis kelamin, Pendidikan akhir, umur, alamat, jarak tempat tinggal
dengan kantor (km), dan kategori seperti yang ditunjukan pada tabel 1.
Tabel 1. Daftar atribut pada dataset
Data
Atribut Name Attribtes Description
Type
Nama Lengkap Nominal Nama pegawai
NIP Baru Numerical Nomor Induk Pegawai
Values: Subag Akuntasi dan Pelaporan, Subag
Subag Nominal
Akademik dan Kemahasiswaan, dst
Jenis Kelamin Nominal Values: Laki-laki dan Perempuan
Pendidikan Akhir Nominal Values: SD, SLTP, SLTA, dst
Usia Numerical Values: dari 30 sampai 58 tahun
Alamat Nominal Alamat tempat tinggal pegawai
Jarak tempat tinggal dengan kantor
Numerical Nilai dalam KM
(KM)
Kategori Nominal Kelas: Tepat dan Telat.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

3
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

2) Preprocessing
Sebelum memasuki tahap proses peembentukan model klasifikasi dengan algoritma Pohon
Keputusan C4.5, diperlukan preprocessing data. Data Preprocessing adalah proses pengolahan
untuk menyiapkan data agar data siap digunakan dengan cara meningkatkan kualitas data.
Kualitas suatu data dapat dinilai berdasarkan kelengkapan, konsistensi, timeliness, tingkat
kepercayaan pengguna terhadap data, tingkat kemudahan data untuk dipahami serta tingkat
akurasi. Data Preprocessing mentransformasikan data dengan berbagai cara, seperti reduksi
ukuran dataset atau mengubah tipe atribut yang asalnya string menjadi nominal (Crone et al.,
2006).
Dengan melakukan beberapa uji skenario, berguna untuk menemukan kombinasi teknik
preprocessing yang mampu menghasilkan nilai akurasi terbaik (Pujianto et al., 2019). Skenario
yang diuji adalah kombinasi Decision Tree C4.5 dengan dua teknik preprocessing yaitu SMOTE
dan Discretize. Pengujian pada penelitian ini dilakukkan menggunakan metode 10-fold cross
validation dengan Pohon Keputusan C4.5. Beberapa tahap preprocessing dibandingkan terhadap
4 skenario preprocessing yang berbeda.
a) Data Cleaning
Proses data cleaning dilakukan dengan tujuan agar data yang digunakan valid dan
memenuhi kebutuhan, sehingga menghasilkan evaluasi yang baik. Pada tahap ini proses
data cleaning dilakukan untuk menghilangkan missing value pada beberapa atribut, serta
menghilangkan sejumlah atribut karena dependensi antar atribut yang dihilangkan sebagai
identifier instance dengan value yang yang berbeda.
b) Diskritisasi Data
Proses ini dilakukan untuk menyederhanakan data asli dengan mengubah sejumlah nilai
atribut kontinu dengan sejumlah kecil label interval. Diskritisasi menghilangkan detail dari
dataset, tetapi dataset yang telah digeneralisasi menjadi lebih sederhana dan lebih mudah
untuk ditafsirkan serta proses data mining menjadi lebih efisien juga menyederhanakan
model pohon keputusan. Pada penelitian ini metode diskritisasi diterapkan untuk membagi
kelas pada atribut “jarak tempat tinggal dengan kantor (KM)” dan atribut “Age” kedalam
beberapa kategori interval.
c) Penyeimbangan Data
Kelas data yang tidak seimbang sangat berpengaruh terhadap tingkat akurasi klasifikasi,
terutama pada hasil precision dan recall yang tidak memperhitungkan nilai true negative.
Pertama kali diusulkan oleh (Chawla et al., 2002) dengan tujuan untuk mengatasi
permasalahan yang terjadi pada kelas minor (over-sampling), SMOTE bekerja dengan
menciptakan data sintetis diantara dua data terdekat. Dalam menentukan dua data terdekat
ini menggunakan pengukuran yang bernama euclidean distance. Kelas data dengan objek
yang lebih banyak disebut sebagai kelas mayor sedangkan lainnya disebut kelas minor
(Barro et al., 2013). Ilustrasi SMOTE ditunjukkan pada gambar 1.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

4
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Gambar 1. Ilustrasi Algoritma SMOTE


(Fernandez et al., 2018)

Pada penelitian ini, kelas “Telat” merupakan kelas minoritas dengan jumlah 41 instance
yang jelas jauh lebih sedikit dibandingkan kelas “Tepat” yang memiliki sebanyak 302
instance. Maka untuk mengatasi ketidakseimbangan kelas pada atribut “Kategori” pada
dataset yang digunakan kemudian diterapkan metode SMOTE.

3) Algortima Decision Tree C4.5


Metode decision tree merupakan suatu alat klasifikasi, prediksi, interpretasi dan manipulasi
data yang kuat dan memiliki banyak potensi untuk diimplementasikan dalam berbagai bidang
penelitian (Song and Lu, 2015). Metode ini mengubah informasi dari suatu data kedalam bentuk
pohon keputusan yang merepresentasikan aturan (rule), dimana aturan tersebut dapat dengan
mudah diinterpretasikan oleh manusia (Wajhillah and Yulianti, 2017). Pohon keputusan dapat
mengeksplorasi sebuah data untuk menemukan hubungan tersembunyi antara sejumlah variabel
input dengan sebuah variabel target (Harryanto and Hansun, 2017).
Untuk membangun sebuah pohon keputusan serta memodelkan himpunan data yang belum
terklasifikasi kelasnya dapat dilakukan dengan menerapkan salah satu algoritma pohon
keputusan (Mashlahah, 2013).
Seperti decision tree pada umumnya, pembuatan pohon keputusan pada algoritma ini
berdasarkan pada pemilihan atribut yang memiliki prioritas tertinggi atau memiliki nilai gain
tertinggi berdasarkan nilai entropy atribut tersebut sebagai poros atribut klasifikasi.
Terdapat empat langkah dalam proses pembuatan pohon keputusan pada algoritma C4.5
(Harryanto and Hansun, 2017), yaitu:
a. Memilih atribut sebagai akar;
b. Membuat cabang untuk masing-masing nilai;
c. Membagi setiap kasus dalam cabang;
d. Mengulangi proses dalam setiap cabang sehingga semua kasus dalam cabang
memiliki kelas yang sama.
a) Konsep Entropi
Entropy(S) merupakan jumlah data yang tidak relevan terhadap informasi dari suatu
kumpulan data. Nilai entropy yang semakin kecil akan menyebabkan entropy tersebut

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

5
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

semakin sering digunakan untuk mengekstrak suatu kelas. Penggunaan entropy ialah untuk
mengukur ketidakaslian S.
Dalam menghitung entropy dapat dilakukan dengan rumus:
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = 𝛴𝑖=1 − 𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖 Pers. (1)
Keterangan:
S = Himpunan kasus
N = Jumlah partisi S
Pi = Proporsi Si terhadap S
b) Konsep Gain
Gain merupakan informasi yang dihasilkan dari perubahan entropy pada suatu kumpulan
data, baik melalui observasi atau disimpulkan dengan cara melakukan partisi terhadap suatu
set data.
Dalam menghitung gain dapat dilakukan dengan rumus:
𝑛 |𝑠𝑖|
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠) − 𝛴𝑖=1 |𝑠|
∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) Pers. (2)
Keterangan:
S = Himpunan kasus
A = Fitur
n = Jumlah posisi atribut A
|Si| = Proporsi Si terhadap S
S = Jumlah kasus dalam S

4) Evaluasi
Dalam klasifikasi, nilai akurasi yang baik merupakan fokus utama. Namun, identifikasi atribut
(atau fitur yang memiliki kekuatan besar dan juga menarik (Visa et al., 2011). Setelah proses
klasifikasi, hasil yang diperoleh akan dievaluasi dengan menggunakan 10-fold cross validation
dan Confusion Matrix. Pada 10-fold cross validation, data akan dipartisi secara acak menjadi k
bagian yang bersifat mutually exclusive; kemudian, secara iteratif sebagian dari data digunakan
untuk mempelajari model, semmentara yang lain untuk menilai kinerjanya. Kemudia sebuah
matrix yang dihasilkan dari hasil prediksi akan dibandingkan dengan kelas asli yang berasal dari
input atau dengan kata lain berisi informasi nilai aktual dan prediksi pada klasifikasi.

3. Hasil dan Pembahasan


Pengembangan model prediksi dibangun dengan menerapkan tahap preprocessing dan
algoritma decision tree C4.5 menggunakan bantuan tools open-source RapidMiner dengan versi
9.4.001.
1) Diskritisasi Data
Diskritisasi data diterapkan untuk mengelompokan 2 atribut dengan data bernilai kontinu
yaitu atribut ‘jarak tempat tinggal dengan kantor (KM)’ dan “usia’ dengan mengubah value asli

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

6
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

dengan nilai interval. Dengan menerapkan discretize by frequency dan menggunakan variasi nilai
bin sebesar 31 pada atribut ‘jarak’ dan bin sebesar 2 pada atribut ‘usia’, maka dihasilkan kelas
interval sebanyak 31 kelas pada atribut ‘jarak’ dan 2 kelas pada atribut ‘usia’ seperti ditunjukkan
pada tabel 2.
Tabel 2. Tabel Hasil Diskritisasi
Atribut Value Interval
0.4
… Range1
0.6
0.65
… Range2
0.8
0.85
Jarak tempat tinggal dengan … Range3
kantor (KM) 1.1
⋮ ⋮
20.8
… Range30
23
23.4
… Range31
50
30
… Range1
47
Age
48
… Range2
58

2) Hasil Penyeimbangan Data


Untuk mengatasi ketidakseimbangan kelas label pada dataset yang digunakan, maka
diterapkan metode Synthetic Minority Over-sampling Technique (SMOTE) pada model prediksi
yang dibangun. Untuk menyeimbangkan kelas minoritas yaitu kelas ‘Telat’ dengan 41 instance,
digunakan Number of Neighbors sebesar 1. Hasil penerapan SMOTE mengubah jumlah instance
dataset yang awalnya sebanyak 343 instance menjadi 604 instance seperti yang ditunjukkan
pada tabel 3.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

7
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Tabel 3. Hasil Penerapan Metode SMOTE pada Data

Sebelum SMOTE Setelah SMOTE


TEPAT TELAT TEPAT TELAT
302 41 302 302

3) Hasil Implementasi Metode Decision Tree C4.5


Berdasarkan hasil perhitungan entropi dan gain terhadap setiap atribut dihasilkan nilai gain
terbesar pada atribut ‘jarak tempat tinggal dengan kantor (KM)’, sehingga dapat disimpulkan
bahwa atribut jarak merupakan node akar (node pertama) dari pohon keputusan. perlu diketahui,
bahwa pada pembuatan pohon keputusan tidak seluruh atribut akan digunakan, decision tree
akan secara otomatis memilih atribut yang memiliki relevansi yang lebih tinggi untuk
menghasilkan prediksi berdasarkan nilai gain. Hasil perhitungan entropi dan gain ditunjukkan
pada tabel 4.
Atribut Nilai Total Tepat Telat Entropy Gain
Kategori 343 302 41 0.528018517
Magister 4 4 0 0
Sarjana 70 59 11 0.627430335
Diploma 22 18 4 0.684038436
Pendidikan 0.014539204
SLTA 197 180 17 0.423978593
SLTP 22 19 3 0.574635698
SD 28 22 6 0.749595257
Laki-laki 271 243 28 0.479435476
Gender 0.00621106
Perempuan 72 59 13 0.681290887
Range1 177 153 24 0.572580466
Age 0.001895164
Range2 166 149 17 0.476587758
Range1 –
0.09140162
Jarak tempat tinggal Range15 172 170 2
0.187461425
dengan kantor (KM) Range15 –
0.77463199
Range31 171 132 39

a) Prediksi Decision Tree tanpa Discretize dan SMOTE


Pada skenario pertama, dataset diproses tanpa menerapkan metode diskritisasi maupun
SMOTE untuk mengetahui hasil akurasi dari model prediksi yang dibangun. Dengan
menggunakan algortima decision tree juga menerapkan pruning dengan nilai confidence
sebesar 0.1 dan prepruning dengan minimal gain sebesar 0.01, dihasilkan nilai akurasi

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

8
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

sebesar 86.00%, presisi sebesar 57.02%, recall sebesar 63.18%, dan error rate sebesar
14.00%. Dengan besarnya selisih ketidakseimbangan kelas label maka berpengaruh pada
hasil prediksi serta nilai presisi, recall dan juga error rate yang cukup besar seperti
ditunjukkan dalam confusion matrix pada pada gambar 2.

Gambar 2. Confusion Matric Decision tree tanpa Discretize dan SMOTE

b) Prediksi Decision Tree dengan Discretize


Model skenario kedua dilakukan dengan menambahkan metode discretize pada model
prediksi yang dibangun. Dengan discretize maka dataset yagng semula bernilai kontinu dan
bertipe numerik diubah kedalam bentuk interval. Discretize diterapkan pada atribut ‘jarak
tempat tinggal dengan kantor (KM)’ dan juga atribut ‘Usia’ dengan nilai nilai bin masing-
masing sebesar 31 dan 2. Hasil prediksi decision tree dengan menerapkan discretize by
frequency menghasilkan nilai akurasi sebesar 88.05%, presisi sebesar 60.35%, recall
sebesar 71.87%, dan error rate sebesar 11.95%. Dengan adanya seleisih antar kelas atribut
label yang terpaut jauh seperti yang ditunjukkan pada gambar 3, maka nilai presisi, recall,
dan error rate masih cukup buruk untuk sebuah model prediksi.

Gambar 3. Confusion Matrix Decision Tree dengan Discretize

c) Prediksi Decision Tree dengan SMOTE


Skenario proses ketiga dilakukan dengan menerapkan SMOTE pada dataset untuk
mengatasi ketidakseimbangan kelas label yang sangat signifikan. Setelah dilakukan
beberapa percobaan untuk menemukan hasil paling optimal, maka nilai number of neighbors
yang digunakan adalah sebesar 1. Dengan penerapan SMOTE maka kelas label terdistribusi
dengan lebih baik dan menjadi lebih seimbang, sehingga meningkatkan nilai presisi dan
recall seperti ditunjukkan pada gambar 4. Hasil prediksi dengan menerapkan SMOTE
menghasilkan nilai akurasi sebesar 83.11%, presisi sebesar 83.09%, recall sebesar 84.48%,
dan error rate sebesar 16.89%.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

9
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Gambar 4. Confusion Matrix Decision Tree dengan SMOTE

d) Prediksi Decision Tree dengan Discretize dan SMOTE


Skenario proses yang terakhir adalah dengan mengkombinasikan kedua metode
preprocesing yang telah dilakukan sebelumnya, yaitu diskritisasi data dan juga SMOTE.
Dengan kombinasi kedua metode preprocesing tersebut maka model prediksi yang dibangun
mampu menghasilkan prediksi dengan nilai akurasi yang cukup baik. Dengan diskritisasi data
menggunakan size of bin sebesar 31 dan 2, SMOTE dengan number of neighbors sebesar
1, dan decision tree menggunakan pruning dengan confidence sebesar 0.1 dan prepruning
dengan minimal gain sebesar 0.01, maka dihasilkan nilai akurasi sebesar 91.05%, presisi
sebesar 91.04%, recall sebesar 91.66%, dan error rate sebesar 8.95%. Hasil prediksi
ditunjukkan dalam confusion matrix dapat dilihat pada gambar 5.

Gambar 5. Confusion Matrix Decision Tree dengan Discretize dan SMOTE

4. Kesimpulan
Berdasarkan hasil uji coba model prediksi ketepatan waktu hadir calon pegawai
menggunakan Decision Tree C4.5 dengan menerapkan diskritisasi data dan juga SMOTE,
menunjukan performa terbaik diantara skenario lainnya dengan nilai akurasi sebesar 91.05%,
presisi sebesar 91.04%, recall sebesar 91.66%, dan error rate sebesar 8.95%. dengan nilai
akurasi sebesar 91.05%, maka dapat disimpulkan bahwa model prediksi ini sudah cukup baik
untuk digunakan dalam memprediksi ketepatan waktu hadir calon pegawai.
Kelemahan dari penelitian ini adalah variabel dataset yang digunakan masih terbatas.
Dengan kemungkinan jika ditambahkan variabel baru yang mendukung atau mempengaruhi
keterlambatan pegawai maka nilai akurasi, presisi, dan recall akan lebih baik. Sehingga
diharapkan pada penelitian selanjutnya dapat memperbaiki kelemahan yang ada.

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

10
TEKNO Jurnal Teknologi Elektro dan Kejuruan

http://journal2.um.ac.id/index.php/tekno | ISSN 1693-8739 / 2686-4657

Daftar Rujukan
Amin, M., Sari, S.P., Rachman, A., 2019. Faktor-Faktor yang Mempengaruhi Disiplin Kerja Karyawan
Penunjang Medis dan Non Medis. JKA 1, 35–44. https://doi.org/10.31539/jka.v1i1.519
Astika, D., Nurdin, N., 2015. PENERAPAN DATA MINING UNTUK MENGANALISIS PENJUALAN
BARANG DENGAN MENGGUNAKAN METODE APRIORI PADA SUPERMARKET SEJAHTERA
LHOKSEUMAWE 6, 23.
Barro, R.A., Sulvianti, I.D., Afendi, F.M., 2013. PENERAPAN SYNTHETIC MINORITY OVERSAMPLING
TECHNIQUE (SMOTE) TERHADAP DATA TIDAK SEIMBANG PADA PEMBUATAN MODEL
KOMPOSISI JAMU 6.
Chawla, N.V., Bowyer, K.W., Hall, L.O., Kegelmeyer, W.P., 2002. SMOTE: Synthetic Minority Over-
sampling Technique. jair 16, 321–357. https://doi.org/10.1613/jair.953
Crone, S.F., Lessmann, S., Stahlbock, R., 2006. The impact of preprocessing on data mining: An evaluation
of classifier sensitivity in direct marketing. European Journal of Operational Research 173, 781–
800. https://doi.org/10.1016/j.ejor.2005.07.023
Esa, K.W., Prawitasari, D., 2012. PENGARUH MOTIVASI, KEMAMPUAN DAN DISIPLIN TERHADAP
KINERJA KARYAWAN PADA PT. SAMUDERA INDONESIA DI SEMARANG 11.
Fernandez, A., Garcia, S., Herrera, F., Chawla, N.V., 2018. SMOTE for Learning from Imbalanced Data:
Progress and Challenges, Marking the 15-year Anniversary. jair 61, 863–905.
https://doi.org/10.1613/jair.1.11192
Harryanto, F.F., Hansun, S., 2017. Penerapan Algoritma C4.5 untuk Memprediksi Penerimaan Calon
Pegawai Baru di PT WISE 3, 9.
Hm, A., Sjaaf, A.C., 2013. ANALISIS FAKTOR YANG BERHUBUNGAN DENGAN KEDISIPLINAN WAKTU
KERJA KARYAWAN NON MEDIS DI RUMAH SAKIT BOGOR MEDICAL CENTER TAHUN 2013
18.
Mashlahah, S., 2013. Prediksi Kelulusan Mahasiswa Menggunakan Metode Decision Tree dengan
Penerapan Algoritma C4.5 118.
Pujianto, U., Setiawan, A.L., Rosyid, H.A., Salah, A.M.M., 2019. Comparison of Naïve Bayes Algorithm and
Decision Tree C4.5 for Hospital Readmission Diabetes Patients using HbA1c Measurement. Kno.
Eng. Da. Sc. 2, 58. https://doi.org/10.17977/um018v2i22019p58-71
Rahmawati, E., 2015. ANALISA KOMPARASI ALGORITMA NAIVE BAYES DAN C4.5 UNTUK PREDIKSI
PENYAKIT LIVER 12.
Song, Y., Lu, Y., 2015. Decision tree methods: applications for classification and prediction 27, 7.
Sugara, B., Widyatmoko, D., Prakoso, B.S., Saputro, D.M., 2018. PENERAPAN ALGORITMA C4.5 UNTUK
DETEKSI DINI GANGGUAN AUTISME PADA ANAK 10.
Sukma, M.S., 2014. Hubungan Motivasi Kerja dan Karakteristik Individu Dengan Disiplin Kerja perawat di
Ruang Rawat Inap Kelas III RSUD Pasar Rebo Tahun 2014.pdf.
Visa, S., Ramsay, B., Ralescu, A., Knaap, E. van der, 2011. Confusion Matrix-based Feature Selection.pdf.
Wajhillah, R., Yulianti, I., 2017. PENERAPAN ALGORITMA C4.5 UNTUK PREDIKSI PENGGUNAAN
JENIS KONTRASEPSI BERBASIS WEB. klik 4, 160. https://doi.org/10.20527/klik.v4i2.98

TEKNO Vol. xx Issue x, px-xx | Jurusan Teknik Elektro, Universitas Negeri Malang, Indonesia | Bulan Tahun
Penulis 1, Penulis 2, Penulis 3, Dst | Judul tidak lebih dari satu baris…

11

Anda mungkin juga menyukai