1 PB

JEPIN Vol.
9
No. 1
(Jurnal Edukasi dan Penelitian Informatika) April 2023
ISSN(e): 2548-9364 / ISSN(p) : 2460-0741
Data Preparation Structure untuk Pemodelan Prediktif Jumlah

Peserta Ajar Mata Kuliah
Anggi Perwitasari#1, Rina Septiriana*2, Tursina#3
#
Jurusan Informatika, Fakultas Teknik, Universitas Tanjungpura
Jl. Prof. Dr. Hadari Nawawi, Pontianak, Kalimantan Barat
1anggiperwitasari@informatika.untan.ac.id
2rinaseptiriana@informatika.untan.ac.id
3tursina@informatika.untan.ac.id
Abstrak— Salah satu cara yang dapat dilakukan untuk berkepribadian, cerdas, berahlak mulia dan terampil untuk
menciptakan proses pembelajaran efektif di kelas adalah dirinya, masyarakat, bangsa dan negara[2]. Proses
dengan cara memprediksi jumlah mahasiswa yang akan manajemen meliputi perencanaan, pengorganisasian,
mengambil suatu mata kuliah. Prediksi merupakan suatu pengarahan, dan pengawasan serta penilaian usaha
proses analisis dengan memanfaatkan informasi atau data
dimasa lalu untuk menghasilkan suatu perkiraan terhadap
pendidikan dalam mencapai tujuan pendidikan yang
suatu kondisi yang akan terjadi di masa mendatang, Proses ditetapkan[3].
prediksi dapat dilakukan dengan berbagai teknik, salah Salah satu dalam proses manajemen Pendidikan yakni
satunya yaitu teknik data mining. Dalam melakukan suatu manajemen kelas, yaitu usaha sadar untuk mengatur
analisis prediksi, tahapan paling utama adalah melakukan kegiatan proses belajar mengajar secara sistematis, dalam
persiapan data mentah menjadi data yang berkualitas serta bentuk pengarahan persiapan bahan ajar, sarana dan
memastikan bahwa data yang diberikan untuk proses seleksi prasarana, pengaturan ruang belajar untuk mewujudkan
dan transformasi telah bersih yang dikenal dengan data suasana pembelajaran efektif[4]. Pembelajaran yang
preparation (preparasi data). Tahapan yang dilakukan efektif akan tercipta oleh strategi pembelajaran yang
dalam melakukan preparasi data meliputi data selection
(seleksi data), data pre-processing serta data cleaning yang
bagus, kesiapan sarana prasarana, suasana kelas yang
terdiri dari penanganan missing data, penghapusan data aman dan nyaman, serta interaksi sosial yang bagus[3].
duplicate dan feature construction. Skema data preparation Pembelajaran efektif dapat dibentuk dengan
diciptakan dan diimplementasikan dengan memanfaatkan melaksanakan manajemen dalam kelas. Salah satunya
Orange Data mining Tools. Hasil dari preparation data yakni mempersiapkan jumlah peserta ajar yang tergabung
diimplementasikan dalam pemodelan analisa prediktif di dalam kelas. Menciptakan jumlah peserta ajar di dalam
jumlah peserta ajar mata kuliah di Jurusan Informatika kelas yang efektif harus mempertimbangkan segala aspek
dengan menggunakan 4 (empat) algoritma data mining yaitu antara lain jumlah mahasiswa, kapasitas ruang kelas,
Naive Bayes, kNN, SVM, dan Neural Network dengan nilai sarana dan prasarana dalam ruang kelas, serta jenis
Accuracy, Precision dan Recall cukup tinggi untuk setiap
algoritma yang diujikan.
perkuliahan (teori atau praktikum).
Di Jurusan Informatika, Fakultas Teknik Universitas
Tanjungpura, salah satu masalah yang terjadi dalam
Kata kunci— data preparation, prediksi, data cleaning, manajemen Pendidikan yakni menciptakan kelas yang
feature construction, data mining efektif. Jumlah peserta mata kuliah terkadang menjadi
tidak berimbang dikarenakan jumlah kelas yang dibuka
I. PENDAHULUAN
terlalu banyak atau terlalu sedikit. Untuk itu diperlukan
Perkuliahan merupakan kegiatan pembelajaran yang suatu cara untuk memprediksi jumlah mahasiswa yang
dilaksanakan oleh dosen dan mahasiswa baik dalam akan mengambil suatu mata kuliah. Proses prediksi dapat
kegiatan tatap muka di kelas, praktikum, penyelenggaraan dilakukan dengan memanfaatkan data berupa kumpulan
percobaan dan pemberian tugas akademik [1] serta teks yang harus diproses agar dapat memiliki makna[5]
pembelajaran jarak jauh (PJJ). Kegiatan pembelajaran ini dimasa lalu untuk menghasilkan suatu perkiraan terhadap
dalam pelaksanaannya memerlukan perencanaan serta suatu kondisi yang akan terjadi di masa mendatang, hal ini
koordinasi yang baik. Hal ini dapat didukung dengan dilakukan agar proses persiapan dapat mencapai kesalahan
pelaksanaan manajemen pada kelas. yang minimum. Proses prediksi dapat dapat dilakukan
Manajemen Pendidikan merupakan ilmu mengelola dengan berbagai teknik, salah satunya yaitu teknik data
sumber daya Pendidikan (suasana dan proses mining.
pembelajaran) agar peserta didik aktif dalam Dalam penelitian ini dilakukan tahap utama dalam
mengembangkan potensi, mengendalikan diri, proses data mining yaitu data preparation untuk
Submitted 17-08-2022; Revised 13-12-2022; Accepted 17-12-2022 7

JEPIN (Jurnal Edukasi dan Penelitian Informatika), Vol. 8, No. 3, Desember 2022
menghasilkan data yang berkualitas atau bebas dari data Kode Deskripsi Scope
tidak lengkap (incomplete), data yang error (noisy), dan SCI – Data preparation structure yang dihasilkan
atau data yang tidak lengkap (incomplete)[6]. Analisa 002 berdasarkan pada data akademik Untan program
terhadap data dan teknik data preparation untuk studi Informatika, meliputi kegiatan berupa
analisis terhadap data akademik mahasiswa
menciptakan sebuah struktur data preparation yang tepat
jurusan Informatika fakultas teknik Untan
serta sesuai dengan karakteristik data hasil analisis serta
SCI – Data preparation structure yang dihasilkan
struktur data preparation akan dihasilkan dan 003 diperuntukkan dalam melakukan analisa prediksi
diimplementasikan serta diuji menggunakan orange data jumlah peserta mata kuliah, untuk menghasilkan
mining tools dalam kasus pemodelan prediktif jumlah struktur data preparation yang sesuai dengan
peserta ajar mata kuliah di Jurusan Informatika Fakultas karakteristik data yang dianalisis untuk kebutuhan
Teknik Universitas Tanjungpura Pontianak dengan teknik pemodelan prediktif
data mining.
C. Analisis Data
II. METODOLOGI Proses analisis data yakni untuk mengidentifikasi
Untuk menghasilkan model data preparation yang kesalahan dan ketidakkonsistenan yang terjadi pada basis
digunakan untuk menghasilkan clean data/data berkualitas data (lihat Tabel II). Fase ini disebut juga fase audit data
dilakukan identifikasi masalah, analisis terhadap data di mana fase ini akan menemukan semua jenis anomali
yang diperoleh di Jurusan Informatika untuk kebutuhan dalam basis data [7]. Selain itu, berdasarkan pada hasil
prediksi serta menghasilkan sebuah struktur data analisis sistem perkuliahan, mahasiswa diharuskan
preparation yang kemudian diimplementasikan dan diuji. mengulang mata kuliah yang tidak lulus dan ini akan
mempengaruhi proses jumlah peserta ajar, mahasiswa
A. Identifikasi Masalah
dapat tidak memilih mata kuliah yang telah disediakan
Identifikasi masalah dilakukan untuk menemukan atau guna mengulang mata kuliah sebelumnya [8].
menangkap permasalahan yang terjadi sehingga solusi Adapun data yang dibutuhkan dalam analisis yakni data
dapat diberikan. Hasil identifikasi masalah pada Jurusan akademik mahasiswa jurusan Informatika Fakultas Teknik
Informatika yang merupakan salah satu program studi Universitas Tanjungpura tahun 2018 hingga 2021. Data
jenjang sarjana (S1) di lingkungan Fakultas Teknik tersebut telah menampilkan seluruh data terkait akademik
Universitas Tanjungpura terkait dengan perlunya mahasiswa mulai dari NIM, nama mahasiswa, ipk, ips,
dilakukan preparasi data untuk pemodelan predikitif kode dan nama mata kuliah yang telah diambil, nilai mata
jumlah peserta mata kuliah yaitu: kuliah meliputi absensi; tugas; uts; uas; nilai total; dan
• Penentuan kapasitas kelas kurang efektif. Belum nilai angka.
mengandalkan data, melainkan pola kebiasaan
TABEL II
dalam penentuannya. HASIL ANALISIS DATA AKADEMIK
• Data pendukung untuk penentuan kapasitas kelas
belum tersedia atau belum siap digunakan. Data Penyimpangan Data Deskripsi
yang tersedía masih dikategorikan kedalam dirty Incomplete/Missing Terdapat missing data pada atribut
data atau data yang belum berkualitas. Data dapat data nilai
saja tidak lengkap (incomplete), data yang error Duplikat Data Terdapat data mahasiswa yang
sama dengan data mata kuliah yang
(noisy), atau data yang duplikat (duplicate data)
sama namun dengan data nilai yang
B. Scope/Ruang Lingkup Masalah berbeda
Pada proses analisis data yang akan dilakukan, kami Data Selection Tidak semua data digunakan dalam
proses prediksi. Tahun ajaran, mata
berfokus pada proses data preparation untuk pemodelan kuliah disatukan dalam satu data
prediktif pada peserta ajar mata kuliah Jurusan akademik
Informatika Fakultas Teknik Universitas Tanjungpura.
Penyesuaian Tipe Terdapat data dengan nilai atau tipe
Seluruh rangkaian proses data preparation kami rangkum Data data yang tidak sesuai (contoh: nilai
ke dalam sejumlah scope item (lihat Tabel I). total, ipk, ips yang bertipe string).
TABEL I Tipe data ini harus diubah menjadi
SCOPE ITEM DATA PREPARATION numerical untuk meningkatkan
performansi algoritma.
Kode Deskripsi Scope
Atribut tidak lengkap Diperlukan penambahan atribut
SCI – Tidak membahas algoritma data mining yang
feature construction untuk
001 digunakan dalam predictive modelling. Hanya
meliputi kajian teknik / algoritma data mining mendukung proses data mining
yang dapat digunakan untuk melakukan Seluruh data yang telah dikoleksi merupakan data
pemodelan prediktif mentah/raw dan belum memenuhi kebutuhan analisa
prediksi. Selain itu diperlukan pertimbangan integritas
dengan data lainnya antara lain data mata kuliah, data
mahasiswa untuk mendukung analisa prediksi. Dengan
Korespondensi : Anggi Perwitasari 8

menganalisa jumlah kelulusan mahasiswa pada suatu mata universal yang belum memenuhi spesifikasi penelitian
kuliah menggunakan Predictive Modelling, dapat untuk kebutuhan analisa prediksi.
diketahui berapa jumlah kelas yang seharusnya dibuka
dalam satu semester. Model prediksi berkaitan proses B. Pre-processing and Cleaning Data
mengembangkan alat atau model matematika yang Kualitas data adalah hal dihadapi oleh sebagian besar
menghasilkan prediksi yang akurat [9]. organisasi dan muncul karena penanganan yang tidak
tepat dan menghasilkan inkonsistensi dalam basis data
D. Data preparation Structure [10]. Untuk itu, pada tahap ini data yang telah diseleksi
Berdasarkan pada hasil analisa data dan mengacu pada akan ditingkatkan kehandalannya dengan melakukan
proses data preparasi data mining, maka dihasilkan sebuah pembersihan terhadap dirty data (data kotor). Masalah
struktur data preparasi untuk melakukan pemodelan kualitas data adalah salah satu kendala untuk
prediktif terhadap jumlah peserta ajar mata kuliah di menggunakan data secara efektif. meliputi menghapus
Jurusan Informatika Universitas Tanjungpura. Struktur ini data-data yang tidak berkaitan dan memeriksanya kembali
dapat digunakan sebagai acuan dalam melakukan sehingga dapat menyelesaikan permasalahan noise,
preparasi data dengan ciri-ciri data yang mendekati data missing values, dan sebagainya.
akademik dengan jenis masalah maupun anomali yang Tahap pre-processing dan data cleaning dilakukan
serupa. Struktur data preparation yang dibentuk dapat untuk menghasilkan clean data/data berkualitas/ data yang
dilihat pada Gambar 1. bebas dari duplikasi data, data tidak lengkap, data tidak
konsisten, atau adanya penambahan data untuk menunjang
pemodelan prediktif jumlah peserta ajar mata kuliah di
Jurusan Informatika Universitas Tanjungpura. Adapun
preproses data yang dilakukan berdasarkan pada hasil
analisis data yaitu.
1) Missing Data: Proses yang dilakukan untuk
penanganan missing data yaitu dengan “Impute Missing
Value”. Impute adalah penggantian sel kosong atau hilang
dalam kumpulan data dengan nilai actual [11]. Dari 7390
instances dan 15 feature, terdapat sekitar 9,3% missing
Gambar 1. Data preparation Structure untuk pemodelan prediktif jumlah data atau terdapat 1344 kolom data yang hilang atau
peserta ajar mata kuliah missing value. Data yang hilang pada data akademik
meliputi seluruh fitur yang berkaitan dengan nilai yaitu
III. HASIL DAN PEMBAHASAN absen, tugas, uts, nilai total, dan nilai huruf serta terjadi
Struktur data preparation yang telah dihasilkan secara acak. Teknik impute missing valued menggunakan
kemudian diimplementasi dan diuji menggunakan orange metode average/most frequent dan diperoleh 0% missing
data mining tools, yakni sebuah perkakas. Setelah value. Dengan metode ini, nilai yang diinputkan adalah
implementasi dilakukan, maka dilakukan pengujian nilai rata-rata atau nilai yang nilai sering muncul. Hal ini
terhadap struktur data preparation menggunakan dikarenakan data nilai merupakan salah satu variabel
beberapa algortima data mining. pengamatan yang menentukan kelulusan mahasiswa.
A. Data Selection 2) Duplicate data: Duplikasi data terjadi ketika

entitas dunia nyata memiliki dua atau lebih representasi
Proses seleksi atau pemilihan data yang relevan yang berbeda di dalam atau di seluruh database. Idealnya,
terhadap analisis untuk diterima dari koleksi data yang ada, dalam sistem yang bebas kesalahan dengan data yang
berasal dari basis data Sistem Informasi Akademik sangat bersih, setiap record dalam basis data memiliki
Universitas Tanjungpura dengan spesifikasi program studi pengenal unik[12]. Pada data akademik mahasiswa,
Informatika tahun ajaran 2018 hingga 2021 atau data kemungkinan terjadinya duplikasi data akibat adanya
dalam kurun waktu 3 tahun. Pengumpulan data mahasiswa yang mengulang mata kuliah. Untuk itu,
dilaksanakan secara manual melalui pengambilan data dilakukan pendeteksian data duplikasi melalui dua tahap
pada basis data Sistem Informasi Akademik (SIAKAD) yaitu:
UNTAN yang bertempat di UPT TIK UNTAN data
tabular dengan format xls (Microsoft Excel Sheet). • Euclidean Distances. Data yang telah melewati
Proses pengumpulan data berlangsung selama 7 (tujuh) tahap penanganan tipe dan missing data kemudian
hari dan menghasilkan 7.390 instances yang terdiri dari akan dideteksi kedekatannya menggunakan
data nama mahasiswa, tahun akademik, kode mata kuliah, Euclidean Distances untuk mengukur jarak
nama mata kuliah, kelas, sks, data nilai meliputi absensi, kedekatan antar baris (row).
tugas, uts, uas, nilai total, nilai huruf, nilai mutu data IPK • Duplicate Detection. Dilakukan proses
dan data IPS. Data yang diperoleh merupakan data pendeteksian duplikasi data dengan melihat jarak
kedekatan antara data. Untuk representasi data yang
digunakan dalam penelitian ini, digunakan nilai

threshold yakni 0,0 dan menghasilkan duplikasi Transformation, yaitu mentransformasi atau
sebanyak 2 (dua) data yang duplikasi dari 7390 data. mengkonsolidasi data ke bentuk yang cocok untuk
Sedangkan dengan nilai threshold yakni 0,1 mining[13] untuk meningkatkan akurasi dan efisiensi
terdapat duplikasi data sebanyak dan 0,2 sebanyak algoritma. Adapun teknik yang dilakukan yakni:
1613 duplikasi data. Berdasarkan hasil analisa, • Normalisasi dilakukan untuk menykalakan nilai
ditemukan bahwa semakin tinggi nilai threshold data dalam rentang nilai -1 sampai 1 atau 0 sampai
maka, duplikasi semakin banyak, namun hasilnya 1.
tidak relevan, dikarenakan nama mata kuliah, • Feature Selection adalah memodelkan atau
maupun nilai yang cenderung dapat berulang menganalisa data yang secara umum dilakukan saat
namun mahasiswanya berbeda. Dengan menerapkan pre-processing dan bertujuan untuk memilih sub
nilai threshold yang kecil, maka hasil duplikasi set kecil dari fitur yang relevan dari yang asli
semakin relevan, atau hanya mempertimbangkan dengan menghapus fitur yang tidak relevan,
beberapa feature saja dalam pendeteksian duplikasi. berlebihan, atau noise[14].
D. Pengujian Data dengan Teknik Data mining
Setelah proses data preparasi dilakukan data kemudian
disimpan ke dalam dataset dengan nama “dataset
akademik 2018-2019 (pre-process).tab”. Dataset ini
kemudian dapat digunakan dalam pemodelan analisa
prediksi peserta mata kuliah di Jurusan Informatika
Universitas Tanjungpura.
Selanjutnya untuk melihat apakah data dapat digunakan
dalam kasus pemodelan analisa prediksi peserta ajar mata
kuliah, maka dilakukan pengujian data menggunakan 4
(empat) algoritma yaitu Naïve Bayes, kNN, SVM, dan
Neural Network dengan cross validation, dan evaluasi
menggunakan confusion matrix.
Gambar 2. Hasil Euclidean distance untuk mendeteksi duplikasi data
Analisa data mining dilakukan untuk memprediksi
jumlah mahasiswa yang akan mengulang satu buah mata
Setelah melalui pendeteksian duplikasi, data kemudian
kuliah, sebagai dasar dalam penambahan peserta ajar
dibersihkan dengan mengeliminasi data duplikat dan
kedalam peserta ajar normal (mengambil di semester yang
menghasil 7388 dataset akademik.
seharusnya). Implementasi data mining ini menggunakan
3) Feature Construction: dilakukan untuk melakukan data yang telah dipreparasi untuk melihat jumlah
penambahan data yang dibutuhkan dalam proses mahasiswa yang mengulang pada mata kuliah
penambangan. Adapun atribut baru yang diciptakan untuk “PANCASILA”.
mendukung pemodelan prediksi peserta ajar mata kuliah
yaitu:
• status nilai. Atribut ini merupakan atribut
kategorikal yang memperlihatkan status nilai dari
mahasiswa. Nilai dari atribut ini dikategorikan
sebagai “mengulang” dan “tidak mengulang” jika
nilai C+, C, D, dan E.
• mk_semester. Atribut untuk melihat semester dari
mata kuliah.
• Angkatan. Atribut untuk melihat Angkatan, atau
tahun masuk mahasiswa Gambar 3. Skema pemodelan prediksi peserta mata kuliah menggunakan
• mk_tahun. Atribut untuk melihat tahun ajaran mata Naïve Bayes, kNN, SVM, dan Neural Network
kuliah yang di-generate dari tahun ajaran.
• status_kuliah. Atribut ini memperlihatkan status E. Interpretation/Evaluation
pengambilan mata kuliah yakni berstatus “baru” Pada tahap ini dilakukan interpretation/evaluasi dari
mengambil mata kuliah atau “mengulang mata pola yang dihasilkan berdasarkan pemodelan analisa
kuliah”. Atribut ini diciptakan berdasarkan pada prediksi untuk memprediksi mahasiswa yang mengulang
nim mahasiswa dan tahun ajaran yang ditempuh. mata kuliah “PANCASILA” menggunakan Naïve Bayes,
kNN, SVM, dan Neural Network. Tahap ini mencakup
C. Transformation and Integration Data pemeriksaan apakah pola atau informasi yang ditemukan
Setelah melakukan tahapan Pre-Processing dan bertentangan dengan fakta atau hipotesa yang ada
Cleaning Data dilanjutkan dengan tahapan sebelumnya.

data dari 7390 menjadi 7388, dan feature construction

untuk kebutuhan pemodelan analisa prediktif, serta proses
integrasi dan transformasi data dengan menykalakan nilai
data dalam rentang nilai -1 sampai 1 untuk meningkatkan
akurasi dan efisiensi algoritma.
Hasil preparasi data yang diperoleh merupakan data
akademik tahun ajaran ganjil dan genap 2018 hingga 2021
Gambar 4. Hasil Evaluasi Pemodelan Prediksi dengan Naïve Bayes, yang berhasil diimplementasikan dalam pemodelan
kNN, SVM, dan Neural Network analisa prediktif jumlah peserta ajar mata kuliah di
Jurusan Informatika menggunakan 4 (empat) algoritma
Berdasarkan pada hasil evaluasi diatas, 4 (empat) data mining yaitu Naïve Bayes, kNN, SVM, dan Neural
model data mining yang digunakan yakni Naïve Bayes, Network dengan nilai Accuracy, Precision and Recall
kNN, SVM, dan Neural Network menggunakan data sebesar 1 untuk model kNN dan SVM serta 0.967, 0.985
preparasi berhasil dilakukan dan menghasilkan Accuracy, dan 0.967 untuk Naïve Bayes, 0.996 dan 0.995, 0.996,
Precision and Recall sebesar 1 untuk model kNN dan 0.995 untuk Neural Network. Data ini kemudian dapat
SVM serta 0.967, 0.985 dan 0.967 untuk Naïve Bayes, digunakan untuk kebutuhan analisa prediktif maupun
0.996 dan 0.995, 0.996, 0.995 untuk Neural Network. analisa menggunakan teknik data mining lainnya.
Accuracy Merupakan rasio prediksi Benar (positif dan
negatif) dengan keseluruhan data. Precision Merupakan REFERENSI
rasio prediksi benar positif dibandingkan dengan [1] Universitas Atma Jaya Yogyakarta. N.d., Kegiatan Perkuliahan.
keseluruhan hasil yang diprediksi positif, sedangkan recall [online]. Available:
Merupakan rasio prediksi benar positif dibandingkan http://www.uajy.ac.id/mahasiswa/administrasi-
akademik/perkuliahan/kegiatan-perkuliahan/
dengan keseluruhan data yang benar positif[15]. [2] H. Usman. 2006. Manajemen:Teori, Praktik, dan Riset Pendidikan.
Untuk menentukan jumlah peserta ajar yang akan Jakarta: Bumi Aksara.
mengulang mata kuliah “PANCASILA”, maka pertama- [3] A. Susanto. 2016. Teori Belajar dan Pembelajaran. Jakarta:
tama kita akan merepresentasikan jumlah mahasiswa yang Prenada Media Group
[4] Astuti. 2019. Manajemen Kelas Yang Efektif. Adaara: Jurnal
akan mengulang, berdasarkan hasil pada confusion matrix, Manajemen Pendidikan Islam, 9(2), 892-907.
ditambah dengan jumlah mahasiswa yang belum [5] Cambridge International AS & A Level Information Technology
mengambil mata kuliah PANCASILA. Adapun hasil 9626. 2017. Topic 1.1 Data, Information and Knowledge.
perhitungan jumlah peserta ajar yang diprediksi Cambridge International Examination
[6] H. Jiawei, M. Kamber. 2001. Data mining: concepts and
mengulang yakni 6 mahasiswa, sedangkan mahasiswa techniques. San Francisco: Morgan Kaufmann Publishers.
baru yang akan mengambil mata kuliah sebanyak 54 [7] F. Ridzuan, & W. M. N. Wan Zainon. 2019. A review on data
mahasiswa, dan kapasitas kelas yakni 30 mahasiswa per cleansing methods for big data. Procedia Computer Science, 161,
kelas. Maka, jumlah mahasiswa yang akan mengambil 731–738. https://doi.org/10.1016/j.procs.2019.11.177
[8] A.M. Hilda, I. Rahmadi., A. R. Dzikrillah, & D. Mugisidi. n.d.
mata kuliah PANCASILA yakni sebanyak 60 mahasiswa, Prediksi Jumlah Kelas Perkuliahan Di Fakultas Teknik
dan total kelas yang dapat dibuka sebanyak 2 (dua) yakni UHAMKA Dengan Menggunakan Algoritma Classifier.
kelas A dan B. Berdasarkan pada hasil ini, dapat [9] Kuhn, M., & Johnson, K. n.d. Applied Predictive Modeling.
disimpulkan bahwa hasil preparasi data yang telah Springer New York Heidelberg Dordrecht London.
[10] Cohen, Bevin, D. K. Vawdrey, J. Liu, D. Caplan, E. Yoko Furuya,
dilakukan dapat digunakan untuk melakukan pemodelan and F. W. Mis. 2015. Challenges Associated with Using Large
analisa prediksi jumlah peserta mata kuliah di Jurusan Data Sets for Quality Assessment and Research in Clinical
Informatika Universitas Tanjungpura menggunakan Settings. Policy, Politics & Nursing Practice (16): 117-124.M
algoritma Naïve Bayes, kNN, SVM, dan Neural Network. Metev and V. P. Veiko, Laser Assisted Microtechnology
[11] S.M.J. van Kuijk, F.J.W.M. Dankers, A. Traverso, L. Wee. 2019.
Preparing Data for Predictive Modelling. Cham (CH): Springer;
IV. KESIMPULAN 2019. Chapter 6. PMID: 31314242.
Dalam penelitian ini, sebuah struktur data preparation [12] Y. Huang., & F. Chiang. n.d. Refining Duplicate Detection for
Improved Data Quality. TDDL/MDQual/Futurity@TPDL.
untuk pemodelan analisa prediktif jumlah peserta ajar [13] H. Junaedi., H. Budianto., I. Maryati., Y. Melani. 2011. Data
mata kuliah berhasil diciptakan dan diimplementasikan Transformation Pada Data Mining. Prosiding Konferensi Nasional
kedalam sebuah skema data preparation dengan “Inovasi Dalam Desain Dan Teknologi”-Ideatech 2011.
memanfaatkan Orange Data mining Tools. Dengan [14] S. Wang., J. Tang., & H. Liu. 2016. Feature Selection. In
Encyclopedia of Machine Learning and Data Mining (pp. 1–9).
memanfaatkan data akademik mahasiswa Jurusan Springer US. https://doi.org/10.1007/978-1-4899-7502-7_101-1
Informatika Universitas Tanjungpura. [15] W.I. Rahayu, C. Prianto E. A. Novia. 2021. Perbandingan
Sebanyak 7390 instances telah berhasil dipreparasi Algoritma K-Means Dan Naïve Bayes Untuk Memprediksi
menggunakan struktur dan diimplementasikan dengan Prioritas P Mbayaran Tagihan Rumah Sakit Berdasarkan Tingkat
Kepentingan Pada Pt. Pertamina (Persero). Jurnal Teknik
tahapan meliputi seleksi data akademik tahun 2018-2020, Informatika, Vol. 13, No. 2, April 2021.
data pre-processing dan data cleaning yang terdiri dari
penanganan 1334 missing data, penghapusan duplicate

1 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

JEPIN Vol.

Data Preparation Structure untuk Pemodelan Prediktif Jumlah

Submitted 17-08-2022; Revised 13-12-2022; Accepted 17-12-2022 7

Korespondensi : Anggi Perwitasari 8

A. Data Selection 2) Duplicate data: Duplikasi data terjadi ketika

Korespondensi : Anggi Perwitasari 9

Korespondensi : Anggi Perwitasari 10

data dari 7390 menjadi 7388, dan feature construction

Korespondensi : Anggi Perwitasari 11

Anda mungkin juga menyukai