9
No. 1
(Jurnal Edukasi dan Penelitian Informatika) April 2023
ISSN(e): 2548-9364 / ISSN(p) : 2460-0741
2rinaseptiriana@informatika.untan.ac.id
3tursina@informatika.untan.ac.id
Abstrak— Salah satu cara yang dapat dilakukan untuk berkepribadian, cerdas, berahlak mulia dan terampil untuk
menciptakan proses pembelajaran efektif di kelas adalah dirinya, masyarakat, bangsa dan negara[2]. Proses
dengan cara memprediksi jumlah mahasiswa yang akan manajemen meliputi perencanaan, pengorganisasian,
mengambil suatu mata kuliah. Prediksi merupakan suatu pengarahan, dan pengawasan serta penilaian usaha
proses analisis dengan memanfaatkan informasi atau data
dimasa lalu untuk menghasilkan suatu perkiraan terhadap
pendidikan dalam mencapai tujuan pendidikan yang
suatu kondisi yang akan terjadi di masa mendatang, Proses ditetapkan[3].
prediksi dapat dilakukan dengan berbagai teknik, salah Salah satu dalam proses manajemen Pendidikan yakni
satunya yaitu teknik data mining. Dalam melakukan suatu manajemen kelas, yaitu usaha sadar untuk mengatur
analisis prediksi, tahapan paling utama adalah melakukan kegiatan proses belajar mengajar secara sistematis, dalam
persiapan data mentah menjadi data yang berkualitas serta bentuk pengarahan persiapan bahan ajar, sarana dan
memastikan bahwa data yang diberikan untuk proses seleksi prasarana, pengaturan ruang belajar untuk mewujudkan
dan transformasi telah bersih yang dikenal dengan data suasana pembelajaran efektif[4]. Pembelajaran yang
preparation (preparasi data). Tahapan yang dilakukan efektif akan tercipta oleh strategi pembelajaran yang
dalam melakukan preparasi data meliputi data selection
(seleksi data), data pre-processing serta data cleaning yang
bagus, kesiapan sarana prasarana, suasana kelas yang
terdiri dari penanganan missing data, penghapusan data aman dan nyaman, serta interaksi sosial yang bagus[3].
duplicate dan feature construction. Skema data preparation Pembelajaran efektif dapat dibentuk dengan
diciptakan dan diimplementasikan dengan memanfaatkan melaksanakan manajemen dalam kelas. Salah satunya
Orange Data mining Tools. Hasil dari preparation data yakni mempersiapkan jumlah peserta ajar yang tergabung
diimplementasikan dalam pemodelan analisa prediktif di dalam kelas. Menciptakan jumlah peserta ajar di dalam
jumlah peserta ajar mata kuliah di Jurusan Informatika kelas yang efektif harus mempertimbangkan segala aspek
dengan menggunakan 4 (empat) algoritma data mining yaitu antara lain jumlah mahasiswa, kapasitas ruang kelas,
Naive Bayes, kNN, SVM, dan Neural Network dengan nilai sarana dan prasarana dalam ruang kelas, serta jenis
Accuracy, Precision dan Recall cukup tinggi untuk setiap
algoritma yang diujikan.
perkuliahan (teori atau praktikum).
Di Jurusan Informatika, Fakultas Teknik Universitas
Tanjungpura, salah satu masalah yang terjadi dalam
Kata kunci— data preparation, prediksi, data cleaning, manajemen Pendidikan yakni menciptakan kelas yang
feature construction, data mining efektif. Jumlah peserta mata kuliah terkadang menjadi
tidak berimbang dikarenakan jumlah kelas yang dibuka
I. PENDAHULUAN
terlalu banyak atau terlalu sedikit. Untuk itu diperlukan
Perkuliahan merupakan kegiatan pembelajaran yang suatu cara untuk memprediksi jumlah mahasiswa yang
dilaksanakan oleh dosen dan mahasiswa baik dalam akan mengambil suatu mata kuliah. Proses prediksi dapat
kegiatan tatap muka di kelas, praktikum, penyelenggaraan dilakukan dengan memanfaatkan data berupa kumpulan
percobaan dan pemberian tugas akademik [1] serta teks yang harus diproses agar dapat memiliki makna[5]
pembelajaran jarak jauh (PJJ). Kegiatan pembelajaran ini dimasa lalu untuk menghasilkan suatu perkiraan terhadap
dalam pelaksanaannya memerlukan perencanaan serta suatu kondisi yang akan terjadi di masa mendatang, hal ini
koordinasi yang baik. Hal ini dapat didukung dengan dilakukan agar proses persiapan dapat mencapai kesalahan
pelaksanaan manajemen pada kelas. yang minimum. Proses prediksi dapat dapat dilakukan
Manajemen Pendidikan merupakan ilmu mengelola dengan berbagai teknik, salah satunya yaitu teknik data
sumber daya Pendidikan (suasana dan proses mining.
pembelajaran) agar peserta didik aktif dalam Dalam penelitian ini dilakukan tahap utama dalam
mengembangkan potensi, mengendalikan diri, proses data mining yaitu data preparation untuk
menghasilkan data yang berkualitas atau bebas dari data Kode Deskripsi Scope
tidak lengkap (incomplete), data yang error (noisy), dan SCI – Data preparation structure yang dihasilkan
atau data yang tidak lengkap (incomplete)[6]. Analisa 002 berdasarkan pada data akademik Untan program
terhadap data dan teknik data preparation untuk studi Informatika, meliputi kegiatan berupa
analisis terhadap data akademik mahasiswa
menciptakan sebuah struktur data preparation yang tepat
jurusan Informatika fakultas teknik Untan
serta sesuai dengan karakteristik data hasil analisis serta
SCI – Data preparation structure yang dihasilkan
struktur data preparation akan dihasilkan dan 003 diperuntukkan dalam melakukan analisa prediksi
diimplementasikan serta diuji menggunakan orange data jumlah peserta mata kuliah, untuk menghasilkan
mining tools dalam kasus pemodelan prediktif jumlah struktur data preparation yang sesuai dengan
peserta ajar mata kuliah di Jurusan Informatika Fakultas karakteristik data yang dianalisis untuk kebutuhan
Teknik Universitas Tanjungpura Pontianak dengan teknik pemodelan prediktif
data mining.
C. Analisis Data
II. METODOLOGI Proses analisis data yakni untuk mengidentifikasi
Untuk menghasilkan model data preparation yang kesalahan dan ketidakkonsistenan yang terjadi pada basis
digunakan untuk menghasilkan clean data/data berkualitas data (lihat Tabel II). Fase ini disebut juga fase audit data
dilakukan identifikasi masalah, analisis terhadap data di mana fase ini akan menemukan semua jenis anomali
yang diperoleh di Jurusan Informatika untuk kebutuhan dalam basis data [7]. Selain itu, berdasarkan pada hasil
prediksi serta menghasilkan sebuah struktur data analisis sistem perkuliahan, mahasiswa diharuskan
preparation yang kemudian diimplementasikan dan diuji. mengulang mata kuliah yang tidak lulus dan ini akan
mempengaruhi proses jumlah peserta ajar, mahasiswa
A. Identifikasi Masalah
dapat tidak memilih mata kuliah yang telah disediakan
Identifikasi masalah dilakukan untuk menemukan atau guna mengulang mata kuliah sebelumnya [8].
menangkap permasalahan yang terjadi sehingga solusi Adapun data yang dibutuhkan dalam analisis yakni data
dapat diberikan. Hasil identifikasi masalah pada Jurusan akademik mahasiswa jurusan Informatika Fakultas Teknik
Informatika yang merupakan salah satu program studi Universitas Tanjungpura tahun 2018 hingga 2021. Data
jenjang sarjana (S1) di lingkungan Fakultas Teknik tersebut telah menampilkan seluruh data terkait akademik
Universitas Tanjungpura terkait dengan perlunya mahasiswa mulai dari NIM, nama mahasiswa, ipk, ips,
dilakukan preparasi data untuk pemodelan predikitif kode dan nama mata kuliah yang telah diambil, nilai mata
jumlah peserta mata kuliah yaitu: kuliah meliputi absensi; tugas; uts; uas; nilai total; dan
• Penentuan kapasitas kelas kurang efektif. Belum nilai angka.
mengandalkan data, melainkan pola kebiasaan
TABEL II
dalam penentuannya. HASIL ANALISIS DATA AKADEMIK
• Data pendukung untuk penentuan kapasitas kelas
belum tersedia atau belum siap digunakan. Data Penyimpangan Data Deskripsi
yang tersedía masih dikategorikan kedalam dirty Incomplete/Missing Terdapat missing data pada atribut
data atau data yang belum berkualitas. Data dapat data nilai
saja tidak lengkap (incomplete), data yang error Duplikat Data Terdapat data mahasiswa yang
sama dengan data mata kuliah yang
(noisy), atau data yang duplikat (duplicate data)
sama namun dengan data nilai yang
B. Scope/Ruang Lingkup Masalah berbeda
Pada proses analisis data yang akan dilakukan, kami Data Selection Tidak semua data digunakan dalam
proses prediksi. Tahun ajaran, mata
berfokus pada proses data preparation untuk pemodelan kuliah disatukan dalam satu data
prediktif pada peserta ajar mata kuliah Jurusan akademik
Informatika Fakultas Teknik Universitas Tanjungpura.
Penyesuaian Tipe Terdapat data dengan nilai atau tipe
Seluruh rangkaian proses data preparation kami rangkum Data data yang tidak sesuai (contoh: nilai
ke dalam sejumlah scope item (lihat Tabel I). total, ipk, ips yang bertipe string).
TABEL I Tipe data ini harus diubah menjadi
SCOPE ITEM DATA PREPARATION numerical untuk meningkatkan
performansi algoritma.
Kode Deskripsi Scope
Atribut tidak lengkap Diperlukan penambahan atribut
SCI – Tidak membahas algoritma data mining yang
feature construction untuk
001 digunakan dalam predictive modelling. Hanya
meliputi kajian teknik / algoritma data mining mendukung proses data mining
yang dapat digunakan untuk melakukan Seluruh data yang telah dikoleksi merupakan data
pemodelan prediktif mentah/raw dan belum memenuhi kebutuhan analisa
prediksi. Selain itu diperlukan pertimbangan integritas
dengan data lainnya antara lain data mata kuliah, data
mahasiswa untuk mendukung analisa prediksi. Dengan
menganalisa jumlah kelulusan mahasiswa pada suatu mata universal yang belum memenuhi spesifikasi penelitian
kuliah menggunakan Predictive Modelling, dapat untuk kebutuhan analisa prediksi.
diketahui berapa jumlah kelas yang seharusnya dibuka
dalam satu semester. Model prediksi berkaitan proses B. Pre-processing and Cleaning Data
mengembangkan alat atau model matematika yang Kualitas data adalah hal dihadapi oleh sebagian besar
menghasilkan prediksi yang akurat [9]. organisasi dan muncul karena penanganan yang tidak
tepat dan menghasilkan inkonsistensi dalam basis data
D. Data preparation Structure [10]. Untuk itu, pada tahap ini data yang telah diseleksi
Berdasarkan pada hasil analisa data dan mengacu pada akan ditingkatkan kehandalannya dengan melakukan
proses data preparasi data mining, maka dihasilkan sebuah pembersihan terhadap dirty data (data kotor). Masalah
struktur data preparasi untuk melakukan pemodelan kualitas data adalah salah satu kendala untuk
prediktif terhadap jumlah peserta ajar mata kuliah di menggunakan data secara efektif. meliputi menghapus
Jurusan Informatika Universitas Tanjungpura. Struktur ini data-data yang tidak berkaitan dan memeriksanya kembali
dapat digunakan sebagai acuan dalam melakukan sehingga dapat menyelesaikan permasalahan noise,
preparasi data dengan ciri-ciri data yang mendekati data missing values, dan sebagainya.
akademik dengan jenis masalah maupun anomali yang Tahap pre-processing dan data cleaning dilakukan
serupa. Struktur data preparation yang dibentuk dapat untuk menghasilkan clean data/data berkualitas/ data yang
dilihat pada Gambar 1. bebas dari duplikasi data, data tidak lengkap, data tidak
konsisten, atau adanya penambahan data untuk menunjang
pemodelan prediktif jumlah peserta ajar mata kuliah di
Jurusan Informatika Universitas Tanjungpura. Adapun
preproses data yang dilakukan berdasarkan pada hasil
analisis data yaitu.
1) Missing Data: Proses yang dilakukan untuk
penanganan missing data yaitu dengan “Impute Missing
Value”. Impute adalah penggantian sel kosong atau hilang
dalam kumpulan data dengan nilai actual [11]. Dari 7390
instances dan 15 feature, terdapat sekitar 9,3% missing
Gambar 1. Data preparation Structure untuk pemodelan prediktif jumlah data atau terdapat 1344 kolom data yang hilang atau
peserta ajar mata kuliah missing value. Data yang hilang pada data akademik
meliputi seluruh fitur yang berkaitan dengan nilai yaitu
III. HASIL DAN PEMBAHASAN absen, tugas, uts, nilai total, dan nilai huruf serta terjadi
Struktur data preparation yang telah dihasilkan secara acak. Teknik impute missing valued menggunakan
kemudian diimplementasi dan diuji menggunakan orange metode average/most frequent dan diperoleh 0% missing
data mining tools, yakni sebuah perkakas. Setelah value. Dengan metode ini, nilai yang diinputkan adalah
implementasi dilakukan, maka dilakukan pengujian nilai rata-rata atau nilai yang nilai sering muncul. Hal ini
terhadap struktur data preparation menggunakan dikarenakan data nilai merupakan salah satu variabel
beberapa algortima data mining. pengamatan yang menentukan kelulusan mahasiswa.
threshold yakni 0,0 dan menghasilkan duplikasi Transformation, yaitu mentransformasi atau
sebanyak 2 (dua) data yang duplikasi dari 7390 data. mengkonsolidasi data ke bentuk yang cocok untuk
Sedangkan dengan nilai threshold yakni 0,1 mining[13] untuk meningkatkan akurasi dan efisiensi
terdapat duplikasi data sebanyak dan 0,2 sebanyak algoritma. Adapun teknik yang dilakukan yakni:
1613 duplikasi data. Berdasarkan hasil analisa, • Normalisasi dilakukan untuk menykalakan nilai
ditemukan bahwa semakin tinggi nilai threshold data dalam rentang nilai -1 sampai 1 atau 0 sampai
maka, duplikasi semakin banyak, namun hasilnya 1.
tidak relevan, dikarenakan nama mata kuliah, • Feature Selection adalah memodelkan atau
maupun nilai yang cenderung dapat berulang menganalisa data yang secara umum dilakukan saat
namun mahasiswanya berbeda. Dengan menerapkan pre-processing dan bertujuan untuk memilih sub
nilai threshold yang kecil, maka hasil duplikasi set kecil dari fitur yang relevan dari yang asli
semakin relevan, atau hanya mempertimbangkan dengan menghapus fitur yang tidak relevan,
beberapa feature saja dalam pendeteksian duplikasi. berlebihan, atau noise[14].
D. Pengujian Data dengan Teknik Data mining
Setelah proses data preparasi dilakukan data kemudian
disimpan ke dalam dataset dengan nama “dataset
akademik 2018-2019 (pre-process).tab”. Dataset ini
kemudian dapat digunakan dalam pemodelan analisa
prediksi peserta mata kuliah di Jurusan Informatika
Universitas Tanjungpura.
Selanjutnya untuk melihat apakah data dapat digunakan
dalam kasus pemodelan analisa prediksi peserta ajar mata
kuliah, maka dilakukan pengujian data menggunakan 4
(empat) algoritma yaitu Naïve Bayes, kNN, SVM, dan
Neural Network dengan cross validation, dan evaluasi
menggunakan confusion matrix.
Gambar 2. Hasil Euclidean distance untuk mendeteksi duplikasi data
Analisa data mining dilakukan untuk memprediksi
jumlah mahasiswa yang akan mengulang satu buah mata
Setelah melalui pendeteksian duplikasi, data kemudian
kuliah, sebagai dasar dalam penambahan peserta ajar
dibersihkan dengan mengeliminasi data duplikat dan
kedalam peserta ajar normal (mengambil di semester yang
menghasil 7388 dataset akademik.
seharusnya). Implementasi data mining ini menggunakan
3) Feature Construction: dilakukan untuk melakukan data yang telah dipreparasi untuk melihat jumlah
penambahan data yang dibutuhkan dalam proses mahasiswa yang mengulang pada mata kuliah
penambangan. Adapun atribut baru yang diciptakan untuk “PANCASILA”.
mendukung pemodelan prediksi peserta ajar mata kuliah
yaitu:
• status nilai. Atribut ini merupakan atribut
kategorikal yang memperlihatkan status nilai dari
mahasiswa. Nilai dari atribut ini dikategorikan
sebagai “mengulang” dan “tidak mengulang” jika
nilai C+, C, D, dan E.
• mk_semester. Atribut untuk melihat semester dari
mata kuliah.
• Angkatan. Atribut untuk melihat Angkatan, atau
tahun masuk mahasiswa Gambar 3. Skema pemodelan prediksi peserta mata kuliah menggunakan
• mk_tahun. Atribut untuk melihat tahun ajaran mata Naïve Bayes, kNN, SVM, dan Neural Network
kuliah yang di-generate dari tahun ajaran.
• status_kuliah. Atribut ini memperlihatkan status E. Interpretation/Evaluation
pengambilan mata kuliah yakni berstatus “baru” Pada tahap ini dilakukan interpretation/evaluasi dari
mengambil mata kuliah atau “mengulang mata pola yang dihasilkan berdasarkan pemodelan analisa
kuliah”. Atribut ini diciptakan berdasarkan pada prediksi untuk memprediksi mahasiswa yang mengulang
nim mahasiswa dan tahun ajaran yang ditempuh. mata kuliah “PANCASILA” menggunakan Naïve Bayes,
kNN, SVM, dan Neural Network. Tahap ini mencakup
C. Transformation and Integration Data pemeriksaan apakah pola atau informasi yang ditemukan
Setelah melakukan tahapan Pre-Processing dan bertentangan dengan fakta atau hipotesa yang ada
Cleaning Data dilanjutkan dengan tahapan sebelumnya.