1 - 282 Sabna Ok PDF

JIK.
2022; 11(2) : 62-68
JURNAL ILMU KOMPUTER

(J O U R N A L C O M P U T E R S C I E N C E)
http://jik.htp.ac.id
PENERAPAN KLASIFIKASI DATA MINING UNTUK

PREDIKSI TINGKAT KEMAMPUAN PEMAHAMAN
SKRIPSI MAHASISWA
Rika Melyanti 1, Eka Sabna 2
1
Program Studi Sarjana Sistem Informasi, STMIK Hang Tuah Pekanbaru
2
Program Studi Sarjana Teknik Informatika, STMIK Hang Tuah Pekanbaru
Email :
camelya2105@gmail.com , es3jelita@yahoo.com
Abstract
Thesis made by students is research conducted on a phenomenon or problem in a particular field of science, based on
appropriate theories and disciplines. In the process of compiling a thesis, students often experience obstacles,
including in determining the thesis theme. Students do not understand the research theme that will be compiled. This
obstacle will be an obstacle in the success of students in completing their thesis and the value of their thesis.
This research was conducted by taking data from students who have completed their thesis at the Hang Tuah Faculty
of Computer Science Pekanbaru. This data was analyzed using the Data Mining Classification method with the C4.5
algorithm. The test results used Confusion Matrix, with the Accuracy Algorithm C4.5 value of 71.00%. The application
of data mining by utilizing student thesis data can help the Hang Tuah Computer Science Faculty to predict the value
(Comprehension Ability) of student thesis with the title proposed by students and find data patterns contained in each
of these data.
Keywords: Thesis, Student, C4.5 Algorithm, Data Mining, Classification
Abstrak
Skripsi yang dibuat oleh mahasiswa merupakan penelitian yang dilakukan terhadap suatu fenomena atau
permasalahan dalam bidang ilmu tertentu, berdasarkan teori-teori dan disiplin ilmu yang sesuai. Dalam proses
menyusun skripsi, mahasiswa sering mengalami kendala diantaranya adalah dalam hal menentukan tema skripsi.
Mahasiswa belum paham terhadap tema penelitian yang akan di susun. Kendala ini akan menjadi hambatan dalam
keberhasilan mahasiswa dalam menyelesaikan skripsi dan nilai dari skripsi nya.
Penelitian ini dilakukan dengan mengambil data mahasiswa yang telah menyelesaikan skripsi nya di Fakultas Ilmu
Komputer Hang Tuah Pekanbaru. Data ini dianalisis dengan menggunakan metode Klasifikasi Data Mining dengan
algoritma C4.5. Hasil pengujian digunakan Confusion Matrix, dengan nilai Accuracy Algoritma C4.5 adalah sebesar
71,00%. Penerapana data mining dengan memanfaatkan data skripsi mahasiswa dapat membantu Fakultas Ilmu
Komputer Hang Tuah untuk memprediksi nilai (Kemampuan Pemahaman) skripsi mahasiswa dengan judul yang
diajukan oleh mahasiswa serta menemukan pola-pola data yang terkandung dalam setiap data tersebut.
Keywords: Skripsi, Mahasiswa, Algortma C4.5, Data Mining, Klasifikasi
https://doi.org/10.33060/JIK/2021/Vol11.Iss2.282
E-ISSN : 2579 - 3918 | P-ISSN : 2302 - 710X
Rika Melyanti, et al
Application of Data Mining Classification for Predicting Students' Thesis Comprehension Ability Level
Penerapan Klasifikasi Data Mining Untuk Prediksi Tingkat Kemampuan Pemahaman Skripsi Mahasiswa
63
PENDAHULUAN data dan menggunakan informasi tersebut untuk
Memasuki tahun terakhir perkuliahan membangun model prediktif [3]. Data mining adalah
mahasiswa diharuskan menghadapi tantangan terakhir proses pencarian pola data yang tidak diketahui atau
yaitu menyelesaikan Skripsi atau Tugas Akhir. Skripsi tidak diperkirakan sebelumnya. Konsep data mining
disusun sebagai syarat kelulusan bagi seorang dapat diterapkan dalam berbagai bidang seperti
mahasiswa dan mendapatkan gelar dari jurusan yang pemasaran, pendidikan, kesehatan, pasar saham,
ditekuni. Skripsi merupakan Karangan ilmiah yang customer relationship management (CRM), teknik, dan
wajib ditulis oleh mahasiswa sebagai bagian dari lain sebagainya.
persyaratan akhir pendidikan akademisnya [1].
Penyelesaian sebuah skripsi mahasiswa dibekali Decision tree
dengan ilmu statistika elementer, evaluasi Decision tree adalah salah satu metode klasifikasi yang
pembelajaran, strategi pembelajaran, dan metodologi paling popular karena mudah untuk diinterpretasi oleh
penelitiandan ilmu yang lainya seperti yang tertera manusia. Model klasifikasi ini terdiri dari dua yaitu
dalam buku Panduan Akademik Fakultas Ilmu deskripsi dan prediksi. Algoritma decision tree yang
Komputer Hang Tuah Pekanbaru. Skripsi sebagai suatu paling terkenal adalah C4.5. Algoritma ini termasuk
karya yang melibatkan kemampuan berfikir dan algoritma terbaik dalam data mining dan berada pada
kemampuan menulis. Dalam proses menyusun skripsi, posisi pertama.
mahasiswa sering mengalami berbagai kendala Metode pohon keputusan mengubah fakta yang sangat
diantaranya adalah dalam hal menentukan tema skripsi besar menjadi pohon keputusan yang memprediksikan
. Meskipun mencari dan menentukan judul skripsi aturan. Proses pada pohon keputusan adalah
terlihat mudah, namun pada kenyataannya banyak mengubah bentuk data (tabel) menjadi model pohon,
mahasiswa yang mengeluh kesulitan dalam mengubah model pohon menjadi rule dan
menentukan dan memilih judul skripsi yang akan menyederhanakan rule. Secara umum algoritma C4.5
digunakan. Meskipun mencari dan menentukan judul untuk membangun pohon keputusan adalah sebagai
skripsi terlihat mudah, namun pada kenyataannya berikut :
banyak mahasiswa yang mengeluh dalam menentukan 1. Pilih atribut sebagai akar
dan memilih judul skripsi yang akan digunakan. 2. Buat cabang untuk tiap nilai
Penerapana data mining dengan memanfaatkan 3. Bagi kasus dalam cabang
data skripsi mahasiswa dapat membantu Fakultas Ilmu 4. Ulangi proses untuk setiap cabang sampai semua
Komputer Hang Tuah untuk memprediksi nilai skripsi kasus pada cabang memiliki kelas yang sama.
mahasiswa dengan judul yang diajukan oleh mahasiswa
serta menemukan pola-pola data yang terkandung Rumus Gain dan Entropy
dalam setiap data tersebut. Nilai skripsi mahasiswa
dibagi menjadi dua yaitu Baik dan Kurang. Berdasarkan
uraian sebelumnya, maka akan dilakukan penelitian S = Himpunan kasus
yang berjudul “Penerapan Klasifikasi Data Mining untuk A = Atribut
Prediksi Tingkat Kemampuan Pemahaman Skripsi n = Jumlah partisi atribut A
Mahasiswa ”. |Si|= Jumlah kasus pada partisi ke-i
|S|= Jumlah kasus dalam S
METODE
Data Mining
S=Himpunankasus
Data Mining adalah kegiatan yang meliputi
n = Jumlah partisi S
pengumpulan, pemakaian data historis untuk
A = Fitur
menemukan keteraturan, pola dan hubungan dalam
Pi = Proporsi dari |Si| terhadap S
set data berukuran besar. Kegunaan data mining adalah
untuk menspesifikasi pola yang harus ditemukan dalam
Langkah-langkah Penelitian
tugas Data Mining [2]. Penggalian data (data mining)
Educational Data Mining (EDM) adalah proses
dapat didefinisikan sebagai proses menemukan pola
mengubah data mentah dari sistem akademik menjadi
dan tren yang tidak diketahui sebelumnya dalam basis
JIK, Vol 11, No 02,

2022
64
informasi yang berguna untuk mengambil keputusan merancang model klasifikasi dengan menggunakan
dan menjawab pertanyaan penelitian. EDM fokus pada Algoritma C4.5. Pengolahan data awal dilakukan
metode pengembangan yang menemukan untuk memperoleh data yang bersih yang bebas
pengetahuan pada data yang berasal dari lingkungan dari noise atau outlier. Beberapa tahapan yang
pendidikan. Penelitian menggunakan data mining dilakukan yaitu :
dalam dunia pendidikan telah dilakukan oleh Abeer dan 1. Data validation
Ibrahim [4] untuk melakukan studi prediksi kinerja Data validation dilakukan untuk mengidentifikasi
siswa menggunakan model klasifikasi dengan algoritma adanya data noise atau outlier, data yang tidak
decision tree ID3. Dalam penelitian yang dilakukan oleh lengkap dan data yang tidak konsisten. Berikut
Surjeet dan Saurabh [5] menggunakan program atribut yang digunakan pada dataset.
Rapidminer menerapkan algoritma klasifikasi C4.5, ID3
dan CHART untuk memprediksi kinerja mahasiwa Tabel 1 Atribut dataset Skripsi
teknik. Penelitian ini adalah membandingkan kinerja Atribut Tipe Keterangan
dari ketiga algoritma tersebut. Prodi String Program Studi
Dalam penelitian ini data sumber yang digunakan
adalah data mahasiswa Fakultas Ilmu Komputer Hang Jekel String Jenis Kelamin
Tuah Pekanbaru sebanyak 60 mahasiswa . Data akan
Judul String Judul Skripsi
dibagi menjadi 2 bagian yaitu data training dan data
testing. Metode pada penelitan ini terdiri dari beberapa Kemampuan String Kemampuan
tahapan yaitu tahap Menganalisa Kebutuhan, (Label) penguasaan
Mengembangkan Model dan Menggunakan Model mahasiswa terhadap
yang dihasilkan. Metode pelaksanaan penelitian ini topik skripsi
dapat dilihat pada gambar 1 berikut :
Menganalisa Mengembangkan
Menggunakan 2. Data Transformation
Model yang
Kebutuhan Model
dihasilkan Pada tahap ini data akan diubah ke bentuk yang
dapat diproses pada Data Mining. Dataset ini akan
Gambar 1 Alur Penelitian di simpan dalam format Excel kemudian diubah
menjadi format csv. Dalam penelitian ini terdapat
1. Menganalisa Kebutuhan beberapa data kategorikal, selanjutnya data data ini
a. Menentukan Tujuan di transformasikan kedalam bentuk data numerik.
b. Mengumpulkan Data
Sumber data adalah data mahasiswa yang Tabel 2 Dataset Transformation
mengambil matakuliah Skripsi di Fakultas Ilmu
Komputer Hang Tuah Pekanbaru .
c. Menelaah Data
2. Mengembangkan Model
a. Data Preparation
Pada data mining, data preprocessing merupakan
salah satu langkah penting agar data dapat diolah
sesuai dengan metode dan program yang
digunakan. Pembersihan Data yang dikumpulkan
dilakukan pembersihan agar tidak mengandung
kesalahan, missing value, error, dan data-data yang
b. Modeling
tidak penting lainnya khususnya data primer yang
Penelitian ini dilakukan menggunakan metode Decision
diambil dari internet [6]. Data Preparation
Tree untuk melakukan klasifikasi dan prediksi
merupakan tahapan yang sangat penting untuk
JIK, Vol 11, No 02,

2022
65
kemampuan mahasiswa dalam menguasai skripsi yang ditampilkan dalam bentuk pohon keputusan (Decision
dibuat oleh mahasiswa. Metode Klasifikasi Tree).
membutuhkan model yang dapat menjelaskan bahwa
class attribute adalah fungsi dari input attribute. Model Tabel 3 confusion matrix dengan 4 kombinasi nilai
klasifikasi yang digunakan akan menggunakan atribut prediksi dan nilai aktual yang berbeda
lain untuk menemukan pola berdasarkan class tersebut
[7]. Algoritma yang digunakan adalah Algoritma C4.5.
Berikut tahapan Algoritma C 4.5 secara umum [8] :
- Buat Cabang untuk setiap nilai -Pilih atribut sebagai
root
- Ulangi prosedur untuk setiap cabang sampai semua
kasus di cabang memiliki kelas yang sama.
- Memilih atribut berdasarkan nilai “gain” tertinggi dari
atribut-atribut yang ada.
Perhitungan Gain :
Perhitungan akurasi dengan tabel confusion matrix

adalah sebagai berikut:
Keterangan: Accuracy menggambarkan seberapa akurat model
S : himpunan dapat mengklasifikasikan dengan benar. Maka,
A : atribut accuracy merupakan rasio prediksi benar (positif dan
n : jumlah partisi atribut A negatif) dengan keseluruhan data.
| Si | : jumlah kasus pada partisi ke-i
| S | : jumlah kasus dalam S Akurasi = (TP + TN)/(TP + TN+ FP + FN)
Menghitung Nilai Entropy Tingkat Akurasi di kelompokkan sebagai berikut :

a. Akurasi bernilai 0,90 – 1,00 = excellent classification
b. Akurasi bernilai 0,80 – 0,90 = good classification
c. Akurasi bernilai 0,70 – 0,80 = fair classification
d. Akurasi bernilai 0.60 – 0,70 = poor classification
Keterangan: e. Akurasi bernilai 0.50 – 0.60 = failure
S : himpunan kasus
A : fitur Precision menggambarkan tingkat keakuratan antara
n : jumlah partisi S data yang diminta dengan hasil prediksi yang diberikan
pi : proporsi dari Si terhadap S oleh model [9]. Rumus presisi adalah:
3. Menggunakan model yang dihasilkan. Presisi = TP / (TP + FP)

a. Validasi
Validasi adalah tahapan yang sangat penting b. Deployment
pemodelan, untuk melihat sejauh mana kehandalan Membuat rencana deployment model dan melakukan
model yang akan digunakan dalam hal pengambilan deployment model. Pada tahap ini, pengetahuan atau
keputusan. Untuk evaluasi dan validasi dari hasil informasi yang telah diperoleh akan diatur dan
klasifikasi dilihat dari hasil confusion matrix. Confusion dipresentasikan dalam bentuk khusus sehingga dapat
matrix merupakan salah satu teknik yang dapat digunakan oleh pengguna [10]
digunakan untuk mengukur kinerja suatu model
khusunya kasus klasifikasi (supervised learning) pada
machine learning [9]. Sedangkan untuk hasil prediksi
JIK, Vol 11, No 02,

2022
66
HASIL
Atribut yang digunakan dalam penelitian ini
adalah Program Studi (Prodi), Judul Skripsi, Jenis
Kelamin (Jekel) dan Kemampuan, Memasukan data ke
dataset yang akan digunakan untuk Decision Tree.
Kemudian menampilkan dataset . Data terdiri dari 69
baris dan 4 kolom. Gambar 2 menunjukkan tampilan
dari data:
Memasukan library sklearn.model.selection,

sklearn.metric dan sklearn.tree. Library ini akan di
gunaka untuk melakukan evaluasi.
Gambar 2 Hasil pemanggilan data

Kemudian data di ubah ke dalam bentuk Angka.
Gambar 3 menunjukkan hasil tampilan data :
Kemudian tampilkan data yang telah di ubah kedalam Gambar 4 Algoritma Decision Tree
data angka.
PEMBAHASAN
Algoritma yang digunakan adalah Algoritma C4.5 dan
evaluasi menggunakan Confusion Matrix . Hasil dari
proses menghasilkan nilai akurasi sebesar 71 persen.
Gambar 3 Mengubah data string ke bentuk angka

Mengeluarkan kolom kelas nya yaitu “kemampuan”.
Gambar 5. Evaluasi dengan Confusion Matrix
JIK, Vol 11, No 02,

2022
67
Hasil dari proses Akurasi adalah 71% yang artinya 4. 36 Mahasiswa dengan status bekerja untuk 2
adalah Model yang digunakan memiliki tingkat akurasi Program Studi memiliki kemampuan Baik.
71% (fair classification).
Saran
Koding berikut adalah untuk menampilkan Grafik Dari hasil penelitian dapat diberikan saran kepada
(Decision Tree). Kelas A,B,C adalah untuk tingkatan dari pihak terkait salah satu nya adalah Program Studi yaitu
variabel Kemampuan . :
1. Bagi mahasiswa yang bekerja dapat diberikan
penguatan yang terkait pengetahuan skripsi yang
diajukan agar mahasiswa dapat memiliki nilai
(kemampuan) yang sangat baik.
2. Bagi Program Studi Sistem Informasi dan Teknik
Informatika untuk memberikan pengarahan kepada
mahasiswa agar dapat meningkatkan kemampuan
pemahaman mahasiswa sesuai dengan matakuliah
yang menjadi kompetensi lulusan Program Studi
agar mahasiswa dapat memiliki nilai (kemampuan)
Gambar 6 Logika Pohon Keputusan
yang sangat baik.
Dari logika di atas akan dihasilkan output pohon
keputusan. Hasilnya dapat dilihat pada gambar berikut Daftar Pustaka
: [1] “Arti kata skripsi - Kamus Besar Bahasa Indonesia
(KBBI) Online.” https://kbbi.web.id/skripsi
(accessed Apr. 02, 2022).
[2] P. Jaya Utama, “Patrari Jaya Utama,” 2018.
https://www.patrarijaya.co.id/data-mining/
(accessed Mar. 29, 2022).
[3] N. M. Satvika Iswari, “View of Penggunaan Teknik
Data Mining untuk Manajemen Resiko Sistem
Informasi Rumah Sakit,” 2011.
https://ejournals.umn.ac.id/index.php/TI/article/vi
ew/300/266 (accessed Mar. 29, 2022).
[4] A. Badr El Din Ahmed and I. Sayed Elaraby, “Data
Mining: A prediction for Student’s Performance
Using Classification Method,” World J. Comput.
Gambar 7 Pohon Keputusan
Appl. Technol., vol. 2, no. 2, pp. 43–47, 2014, doi:
10.13189/wjcat.2014.020203.
KESIMPULAN
[5] S. Kumar Yadav, “Data Mining: A Prediction for
1. Terdapat 55 orang mahasiswa dari Program Studi
Performance Improvement of Engineering Students
Sistem Informasi dan Teknik Informatika yang
using Classification Saurabh Pal,” World Comput.
domain penelitian nya Kecerdasan Buatan dan Web
Sci. Inf. Technol. J., vol. 2, no. 2, pp. 51–56, 2012.
memiliki Kemampuan Baik .
[6] “Langkah Awal dalam Pemrosesan Data: Data
2. 13 mahasiswa Progam Studi Sistem Informasi
Preprocessing dalam...”
dengan untuk seluruh domain memiliki
https://www.dqlab.id/langkah-awal-dalam-
Kemampuan Baik.
pemrosesan-data-dalam-data-mining (accessed
3. 10 Mahasiswa Program Studi Sistem Informasi
Apr. 09, 2022).
terdapat 6 orang dengan domain penelitian web,
[7] “Pengertian Data Science, Contoh Penerapannya,
mobile dan kecerdasan buatan memiliki
Dan Bidang Pro...”
kemampuan sangat baik dan terdapat 4 orang
memiliki kemampuan Baik.
JIK, Vol 11, No 02,
2022
68
https://www.dqlab.id/pengertian-data-science-
contoh-dan-profesi (accessed Nov. 23, 2021).
[8] BINUS, “Biometrics Authentication and
Recognition.”
https://socs.binus.ac.id/2018/11/29/biometrics-
authentication-and-recognition/ (accessed Sep. 08,
2021).
[9] K. Setyo Nugroho, “Confusion Matrix untuk Evaluasi
Model pada Supervised Learning | by Kuncahyo
Setyo Nugroho | Medium,” 2019.
https://ksnugroho.medium.com/confusion-matrix-
untuk-evaluasi-model-pada-unsupervised-
machine-learning-bc4b1ae9ae3f (accessed Apr. 09,
2022).
[10] “CRISP-DM - Kuliah Komputer Blogger.”
http://www.kuliahkomputer.com/2018/07/crisp-
dm.html (accessed Apr. 09, 2022).
JIK, Vol 11, No 02,

2022

1 - 282 Sabna Ok PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 - 282 Sabna Ok PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

JIK.

2022; 11(2) : 62-68

JURNAL ILMU KOMPUTER

PENERAPAN KLASIFIKASI DATA MINING UNTUK

JIK, Vol 11, No 02,

JIK, Vol 11, No 02,

Perhitungan akurasi dengan tabel confusion matrix

Menghitung Nilai Entropy Tingkat Akurasi di kelompokkan sebagai berikut :

3. Menggunakan model yang dihasilkan. Presisi = TP / (TP + FP)

JIK, Vol 11, No 02,

Memasukan library sklearn.model.selection,

Gambar 2 Hasil pemanggilan data

Gambar 3 Mengubah data string ke bentuk angka

Gambar 5. Evaluasi dengan Confusion Matrix

JIK, Vol 11, No 02,

JIK, Vol 11, No 02,

Anda mungkin juga menyukai