779-Teks Artikel-4221-1-10-20201210
779-Teks Artikel-4221-1-10-20201210
Abstract—An online learning system is a very crucial thing (MLP), dan Long Short-Term Memory (LSTM). Makalah ini juga
nowadays to prevent the spread of COVID-19 virus. However, this mendiskusikan proses mitigasi dari mahasiswa yang berisiko,
system is very difficult to maintain student motivation and perancangan sistem data yang mendukung analisis pembelajaran,
engagement because there is no direct interaction between teacher dan permasalahan yang sering ditemui pada saat proses
and student. This study reviewed the use of student log data for pemodelan.
the needs of learning analytics to predict student performance or
drop-out trends from a course by looking at the student Kata Kunci— Learning Analytics, MOOCs, Pembelajaran Daring,
interaction log data with the system and student demographic Data Log, Prediksi.
data using open data, namely the Open University Learning
Analytics Dataset (OULAD). From reviews of several research I. PENDAHULUAN
articles that refer to these data, we can see: 1) the common
problems, i.e., prediction of drop-out student, prediction of Perkembangan teknologi informasi memberikan dampak
student performance and engagement; 2) the features used during yang sangat baik terhadap dunia pendidikan dalam upaya
modeling, i.e., demographics and interactions, either summarized membangun sistem pendidikan berkelanjutan. Dengan
daily or weekly with various feature representations; 3) learning penggunaan teknologi, sistem pendidikan dapat diakses tanpa
analysis methods that use machine learning algorithm, i.e., batasan geografis dan waktu untuk semua orang, salah satunya
Decision Tree (DT), Support Vector Machine (SVM), Multi-Layer dengan suatu sistem pembelajaran masif, secara daring, dan
Perceptron (MLP), and Long Short-Term Memory (LSTM). This terbuka, atau yang dikenal dengan Massive Open Online
paper also discusses the risk mitigation process of students, Courses (MOOCs). Saat ini, di tengah pandemi COVID-19,
planning and designing data systems that support learning
hampir semua institusi, terutama institusi pendidikan,
analytics, and problems that are often encountered during the
modeling process. menjalankan sistem pembelajaran daring.
Surat Edaran Kementerian Pendidikan dan Kebudayaan
Indonesia Nomor 15 Tahun 2020 tentang pedoman
Intisari—Pada saat ini, penyelenggaraan sistem pembelajaran
penyelenggaraan belajar dari rumah dalam masa darurat
daring menjadi hal yang penting di tengah pandemi untuk
menekan persebaran virus COVID-19. Namun, sistem ini sangat penyebaran coronavirus disease (COVID-19) mengharuskan
sulit menjaga motivasi dan tingkat keterlibatan mahasiswa para mahasiswa untuk melakukan belajar secara daring dalam
karena tidak ada interaksi langsung antara pengajar dengan upaya menekan angka persebaran COVID-19 ini. Namun, tidak
mahasiswa. Makalah ini meninjau penggunaan data log adanya tatap muka secara langsung menyebabkan sulitnya
mahasiswa untuk kebutuhan analisis pembelajaran guna memonitor kinerja mahasiswa, menjaga motivasi belajar, dan
memprediksi kinerja atau kecenderungan drop-out mahasiswa interaksi antara pengajar dan mahasiswa. Dalam hal ini,
dari suatu mata kuliah dengan melihat pada data log interaksi mahasiswa lebih banyak berhubungan dengan sistem
mahasiswa dengan sistem dan data demografis mahasiswa pengelolaan pembelajaran (e-Learning) daripada dengan
menggunakan suatu data terbuka, yaitu Open University Learning
pengajar.
Analytics Dataset (OULAD). Dari tinjauan beberapa artikel
penelitian yang merujuk pada dataset tersebut, ada beberapa hal Analisis pembelajaran, yang menjadi bagian sistem e-
yang perlu ditinjau: 1) permasalahan yang sering diangkat, yaitu Learning, merupakan suatu metode untuk mencari faktor-
prediksi kecenderungan gagal dari mata kuliah tertentu, prediksi faktor yang berhubungan dengan kinerja belajar mahasiswa,
kinerja, dan prediksi keterlibatan mahasiswa; 2) fitur yang dalam hal ini bisa berupa suatu alat prediksi atau alat analisis
digunakan pada saat pemodelan, yaitu fitur demografis dan faktor. Pentingnya analisis pembelajaran untuk meningkatkan
interaksi, baik yang diringkas secara harian atau mingguan kinerja belajar atau memprediksi kecenderungan gagal (drop-
dengan berbagai representasi fitur; 3) metode analisis out) merupakan hal yang krusial dalam kasus pembelajaran
pembelajaran yang secara khusus menggunakan metode daring. Dalam hal e-Learning, faktor-faktor tersebut hanya bisa
pembelajaran mesin yang sering digunakan, yaitu Decision Tree
didapatkan dari data personal dan aktivitas log mahasiswa
(DT), Support Vector Machine (SVM), Multi-Layer Perceptron
dengan sistem. Data log merupakan suatu data yang diperoleh
dari sistem yang merekam segala aktivitas yang dilakukan oleh
1*, 2 Departemen Teknik Elektro dan Teknologi Informasi Fakultas user. Pada kasus analisis pembelajaran, data interaksi
Teknik Universitas Gadjah Mada, Jl. Grafika No.2, Yogyakarta, mahasiswa dengan sistem mempunyai potensi dimanfaatkan
1*suning@ugm.ac.id,
INDONESIA 55281 (email: untuk mengukur tingkat keterlibatan atau motivasi belajar dari
2syukron@outlook.com)
mahasiswa.
Sri Suning Kusumawardani: Kajian Penggunaan Data Log ... ISSN 2301 - 4156
366 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 4, November 2020
Pada makalah ini, ditinjau beberapa artikel yang meningkatkan kinerja yang seharusnya dilakukan, dan
berhubungan dengan analisis pembelajaran yang secara beberapa permasalahan terhadap model dan data yang sering
spesifik mengolah Open University Learning Analytics Dataset dijumpai pada tahap pemodelan.
(OULAD) [1]. Berbeda dengan penelitian yang membahas
MOOCs secara umum [2], makalah ini fokus pada II. DATA TERBUKA DAN OULAD
perkembangan riset pada OULAD sehingga diharapkan dapat Pada bagian ini dibahas tentang data terbuka (open data)
menjadi rujukan penelitian selanjutnya tentang analisis untuk keperluan analisis pembelajaran, berbagai contoh data
pembelajaran untuk mengangkat permasalahan yang belum terbuka, dan alasan OULA dataset (OULAD) dipilih sebagai
pernah diangkat. OULAD merupakan suatu data terbuka yang bahan penelitian pada makalah ini.
diberikan oleh Open University (OU) dan memiliki
kelengkapan yang cukup komprehensif dengan fitur A. Data Terbuka untuk Analisis Pembelajaran
demografis dan fitur interaksi harian dari 22 modul mata kuliah Data terbuka merupakan suatu basis data yang tersedia untuk
dari Ilmu Sosial, Ilmu Alam, Matematika, dan Teknik, dengan publik sedemikian hingga dapat diolah dan diekstrak informasi
32.593 mahasiswa dan jutaan interaksi (10.644.280 data). dan pengetahuannya. Berbagai data terbuka untuk analisis
Tinjauan ini dimaksudkan untuk menganalisis penggunaan data pembelajaran yang tersedia untuk umum antara lain OULAD,
log mahasiswa untuk kebutuhan analisis pembelajaran, baik HarvardX, MITx, dan Cousera Forum. Dari berbagai data
dari segi permasalahan, fitur-fitur yang digunakan, maupun terbuka tersebut, OULAD memiliki kelengkapan fitur yang
metode yang digunakan. Metode-metode yang ditinjau dan lebih baik dari yang lainnya, yaitu data demografis, data tugas,
dianalisis menggunakan pembelajaran mesin yang sampai saat dan data interaksi harian dengan lingkungan pembelajaran
ini merupakan metode yang sangat sering digunakan, dilihat virtual (Virtual Learning Environment, VLE).
dari kinerja dan tingkat fleksibilitasnya. Dalam hal analisis pembelajaran, data terbuka sangatlah
Pada makalah ini diajukan beberapa pertanyaan penelitian, penting untuk mengetahui perkembangan analisis
antara lain sebagai berikut. pembelajaran, terutama dalam bidang pembelajaran mesin.
P1: Apa saja permasalahan dalam konteks analisis Selain dapat diperuntukkan sebagai standar acuan kinerja
pembelajaran yang diangkat dalam pengolahan OULAD? (benchmarking) dari metode yang digunakan, juga sebagai
P2: Apa saja fitur-fitur yang digunakan pada OULAD untuk panduan desain basis data karena sifatnya yang terbuka (semua
analisis pembelajaran? dapat mengakses dan mengolahnya). Lebih lanjut lagi, struktur
P3: Apa saja metode atau model pembelajaran mesin yang data tersebut dapat diterapkan pada data institusi yang tertutup
digunakan untuk OULAD? dengan menggunakan teknologi analisis pembelajaran yang
sama, seperti halnya yang telah diterapkan pada data terbuka.
Dari pertanyaan tersebut, juga didiskusikan panduan untuk OULAD didesain untuk kebutuhan analisis pembelajaran,
merancang suatu sistem data yang mendukung metode analisis baik dari kelengkapan fiturnya maupun desain basis datanya,
pembelajaran dengan mempertimbangkan hal-hal yang telah
seperti yang diperlihatkan pada Gbr. 1. Dataset lain yang juga
ada pada OULAD, cara mitigasi pembelajaran untuk
ISSN 2301 – 4156 Sri Suning Kusumawardani: Kajian Penggunaan Data Log ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No.4, November 2020 367
Sri Suning Kusumawardani: Kajian Penggunaan Data Log ... ISSN 2301 - 4156
368 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 4, November 2020
ISSN 2301 – 4156 Sri Suning Kusumawardani: Kajian Penggunaan Data Log ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No.4, November 2020 369
yang sama. Dengan demikian, fitur interaksi perlu juga dilihat yang memiliki pengaruh signifikan terhadap kinerja
agar lebih objektif. mahasiswa.
Selanjutnya, mayoritas peneliti menggunakan fitur interaksi Beberapa peneliti mencoba menggunakan panjang fitur yang
dari mahasiswa untuk kebutuhan analisis pembelajaran [5]–[9], berbeda untuk dapat melakukan mitigasi terhadap mahasiswa
[13], [14]. Data aktivitas mahasiswa secara harian ini dapat yang berisiko lebih awal, seperti membagi menjadi beberapa
diproses melalui dua cara, yaitu dijadikan tabel (tabular: 9 dari rentang panjang fitur, yaitu sampai kuartil 1 (25% dari lama
13 artikel, 69%) atau dijadikan data sekuensial (deret waktu: modul dalam hari), kuartil 2 (50%), kuartil 3 (75%), dan kuartil
31%). Terdapat beberapa cara penyajian data dalam bentuk 4 (100%), dengan 54 fitur ringkasan berdasarkan jenis sumber
tabular untuk penggunaan fitur interaksi. Referensi [9] daya yang dijumlah sampai kuartil tertentu [13]. Dengan
menyajikan tabel untuk suatu modul tertentu dengan demikian, mitigasi kegagalan dalam pembelajaran dapat
menjadikannya tabel fitur klik dengan jumlah kolom sebanyak dimitigasi tertentu. Selain itu, ada peneliti membagi rentang
total hari pada modul tersebut, sedemikian hingga atribut waktu dari fitur aktivitas berdasarkan batas akhir setiap tugas,
kolom pertama merupakan ringkasan klik pada hari pertama, dalam hal ini tugas sangat berpengaruh pada hasil akhir
kolom kedua pada hari kedua, dan seterusnya. Beberapa mahasiswa, sehingga kecenderungan mahasiswa untuk undur
metode ringkasan klik harian dengan mengesampingkan jenis diri diprediksi pada setiap submisi tugas berakhir [5], [6].
sumber daya diperkenalkan, antara lain binary (pada hari Selain itu, fitur interaksi juga dapat disajikan dalam bentuk
tertentu ada aktivitas atau tidak), normalize (total klik dibagi sekuensial, seperti halnya deret waktu, sehingga prediksi
maksimal total klik yang ada), dan counts (total klik). Tidak kinerja atau kecenderungan mahasiswa melakukan drop out
hanya itu, berbagai kombinasi fitur juga dilakukan, yaitu dapat dilakukan secara harian atau mingguan. Fitur sekuensial
demografis saja, aktivitas harian saja, atau keduanya dengan yang digunakan dalam beberapa literatur sangat bervariasi,
hasil cukup signifikan (aktivitas harian binary F1 = 90%, yaitu jumlah klik harian dari semua sumber daya VLE [14],
demografis dan aktivitas harian binary F1 = 91%). Ada jumlah klik pada satu sumber daya VLE tertentu (Forum atau
beberapa hal yang perlu diperhatikan, yaitu dengan OUcontent atau resource VLE) [8], dan ringkasan dari semua
menggunakan fitur tabular dengan panjang tetap, dalam hal ini sumber daya VLE (setiap sumber daya VLE memiliki atribut
sampai akhir modul, akan menyebabkan keterlambatan dalam tersendiri) dalam mingguan [7]. Di samping itu, untuk
memprediksi mahasiswa yang gagal karena sudah di akhir meningkatkan kinerja, fitur sekuensial dengan fitur tabel
presentasi modul, sementara sebagian mahasiswa sudah demografis bisa digabungkan [14].
melakukan undur diri di awal atau tengah presentasi modul dan Dari uraian tersebut, dapat disimpulkan bahwa penggunaan
menunjukkan tidak ada aktivitas sampai akhir modul. Namun, fitur yang berbeda menunjukkan fokus permasalahan yang
hal ini dapat dimanfaatkan untuk menginvestigasi fitur-fitur berbeda. Berdasarkan pemanfaatannya, fitur dapat dibagi
Sri Suning Kusumawardani: Kajian Penggunaan Data Log ... ISSN 2301 - 4156
370 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 4, November 2020
menjadi dua, yaitu sebagai analisis faktor risiko dari sistem Component Analysis (PCA) untuk mereduksi fitur sebelum
pembelajaran atau sistem pendeteksian dini pada mahasiswa diproses dengan algoritme pembelajaran mesin [5] dan
yang memiliki kecenderungan gagal dalam suatu mata kuliah. mengombinasikan LSTM dengan Convolutional Neural
Network (CNN) [25], seperti pada [14].
1) Analisis Faktor: Fitur yang digunakan biasanya
Selanjutnya, ditinjau dari jenis fiturnya, algoritme
merupakan fitur dari keseluruhan rentang waktu, yaitu dari
pembelajaran tersebut dapat dibagi menjadi dua kelompok,
suatu mata kuliah dimulai sampai berakhir, baik yang
yaitu algoritme dengan fitur sekuensial atau tabular. Fitur
digunakan untuk permasalahan klasifikasi maupun regresi.
sekuensial erat hubungannya dengan deret waktu (time series),
Fokus utama dari penggunaan keseluruhan rentang waktu dari
baik secara harian ataupun mingguan. Kelompok algoritme ini
fitur bukan terletak pada kinerja yang diperoleh karena
terdiri atas LSTM atau RNN dan TSF. Keuntungannya adalah
tentunya kinerjanya cenderung lebih baik daripada
penggunaan fitur sekuensial prediksi kinerja dapat dilakukan
menggunakan rentang waktu yang sebagian, tetapi yang
sesuai waktu yang tersedia (kapan saja). Namun, perlu dicatat
seharusnya lebih ditekankan adalah faktor yang sangat
bahwa semakin awal prediksi kinerja dilakukan, semakin
memengaruhi mahasiswa menjadi gagal atau berhasil dalam
menurun tingkat keakuratan algoritme, karena tidak cukup tren
suatu mata kuliah. Dengan demikian, dari faktor-faktor
data yang bisa mewakili interaksi mahasiswa pada suatu modul
tersebut, bisa dilakukan intervensi lebih terhadap faktor-faktor
tertentu. Sementara itu, algoritme yang lain masuk ke kategori
yang signifikan untuk meningkatkan tingkat kesuksesan
fitur tabel, yang jauh lebih mudah dan sederhana
mahasiswa. Dengan kata lain, dengan menggunakan analisis
pengolahan/pemrosesan algoritmenya dibandingkan fitur
faktor, perbaikan sistem e-Learning bisa dilakukan dengan
sekuensial.
mempertimbangkan faktor-faktor penting yang telah dianalisis.
Tabel III (di bagian akhir makalah) meringkas artikel-artikel
2) Sistem Pendeteksian Dini: Penggunaan fitur dengan yang menjadi tinjauan utama makalah ini berdasarkan metode
rentang waktu yang lebih pendek akan sangat berguna untuk dan fitur yang digunakan, keluaran tugas, dan lingkup modul
proses mitigasi terhadap mahasiswa yang dianggap berisiko OULAD yang digunakan. Pada tabel tersebut dapat dilihat
dalam pengajaran. Berbeda dengan analisis faktor, semakin penggunaan OULAD untuk berbagai kebutuhan dengan tingkat
kecil rentang waktu yang digunakan, semakin besar kinerja yang beragam berdasarkan metrik akurasi, F1-score,
pemanfaatannya dari sisi mitigasi mahasiswa yang berisiko. dan Area Under the Curve (AUC). Mayoritas permasalahan
Namun, semakin kecil rentang waktu dari fitur yang digunakan yang diangkat adalah tentang undur diri (withdrawn) atau tidak.
akan menyebabkan kinerja dari sistem ini menurun karena tidak D sisi lain, fitur dapat berupa tabular (data demografis,
adanya cukup informasi yang diberikan. Sebagai contoh, interaksi/aktivitas, tugas) atau sekuensial (data
prediksi mahasiswa akan gagal atau tidak dilakukan di awal interaksi/aktivitas dalam bentuk deret waktu).
perkuliahan dimulai. Tentunya hal ini akan sangat sulit
dilakukan untuk mendapatkan tingkat kepercayaan yang tinggi V. DISKUSI
sehingga pada sistem ini kinerja dari suatu model menjadi hal Bagian ini mendiskusikan cara untuk memanfaatkan data-
yang sangat penting untuk menunjukkan tingkat kepercayaan data log pada sebuah e-Learning dengan mempertimbangkan
dari sistem tersebut. Pemilihan rentang waktu bisa dilakukan hal-hal yang telah dilakukan oleh OU. Diskusi mencakup
dengan berbagai cara, seperti sampai pertengahan mata kuliah penyajian arsitektur data sistem pembelajaran daring, mitigasi
atau dibagi menjadi empat rentang waktu yang berbeda [13], pembelajaran, permasalahan terhadap model, dan data.
yaitu kuartil 1 sampai 4 (tentunya kuartil 4 akan memiliki
kinerja yang lebih tinggi, tetapi pemanfaatannya cenderung A. Penyajian Arsitektur Data Sistem Pembelajaran Daring
tidak besar, karena pendeteksian dilakukan di akhir). Desain arsitektur data dari sistem pembelajaran daring untuk
memenuhi kebutuhan analisis pembelajaran seharusnya sudah
C. Model Pembelajaran Mesin atau Metode yang Digunakan dipersiapkan pada tahap perencanaan pembuatan sistem
pada OULAD (P3) sehingga arsitektur data dapat mendukung analisis
Metode pembelajaran mesin yang digunakan untuk pembelajaran. Dalam hal ini, berdasarkan OULAD, data log
melakukan analisis pembelajaran dalam pengolahan OULAD mahasiswa sangatlah penting untuk mengetahui kinerja
sangat bervariasi, antara lain Decision Tree (DT) [5], [9]–[12], mahasiswa. Sistem e-Learning yang ditemui sering kali hanya
[15], [16]; Multilayer Perceptron (MLP)/Artificial Neural menyimpan data personal atau demografis dari mahasiswa,
Network (ANN) [17], seperti pada [10], [13]; Support Vector sedangkan data aktivitas sangat sedikit, hanya terbatas pada
Machine (SVM) [18], seperti pada [5], [9], [10]; Logistic data interaksi dengan tugas tertentu. Dalam hal ini, perlu diukur
Regression (LR) [15], seperti pada [5], [9]; Long Short-Term tingkat keterlibatan mahasiswa dengan menggunakan data log
Memory (LSTM) [19], seperti pada [7], [14]; Gated Recurrent harian sehingga bisa dilakukan mitigasi kemungkinan drop out
Unit (GRU) [20]; Random Forest (RF) [5], [9]; Adaptive RF atau bisa meningkatkan kinerja belajar dengan perlakuan atau
(ARF) [21]; Distributed RF (DRF), Gradient Boosting penyesuaian lingkungan yang berbeda. Pada dasarnya
Machine (GBM), dan Generalized Linear Model (GLM) [22]; perancangan data yang terstruktur menjadi kebutuhan
Gaussian Mixture Models (GMM) [23], seperti pada [6]; dan mendasar pada analisis pembelajaran. Selain itu, semakin
Time Series Forest (TSF) [24], seperti pada [8]. Selain itu, ada banyak data yang disimpan akan lebih baik untuk kebutuhan
juga yang mengombinasikan dengan metode Principal analisis di waktu yang akan datang, meskipun pada saat ini
ISSN 2301 – 4156 Sri Suning Kusumawardani: Kajian Penggunaan Data Log ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No.4, November 2020 371
belum diketahui kebutuhan yang akan menggunakannya. menggunakan pendekatan analisis faktor dengan meningkatkan
Namun, kekurangan dari penyimpanan data yang sangat modul pembelajaran (intervensi pada modul pembelajaran).
banyak adalah dibutuhkannya kapasitas penyimpanan data Sebagai contoh, suatu modul/subbab materi tertentu memiliki
yang lebih besar. pengaruh positif yang signifikan terhadap kecenderungan
Dari uraian tersebut, dengan mempertimbangkan hal yang kesuksesan mahasiswa dalam suatu mata kuliah tertentu.
telah dilakukan di OULAD, entitas basis data untuk kebutuhan Dengan demikian, diperlukan peningkatan pembelajaran pada
sistem daring penuh setidaknya memerlukan tiga hal, yaitu data modul tersebut atau penambahan materi penunjang yang dapat
demografis, data modul/mata kuliah, dan data interaksi dengan dijadikan penjelasan tambahan. Selain itu, bisa juga dilakukan
sistem. Dengan tiga entitas tersebut, sudah bisa dilakukan sistem pendeteksian dini (intervensi pada mahasiswa). Lebih
analisis pembelajaran, baik untuk analisis faktor ataupun untuk lanjut lagi, sistem pendeteksian dini dapat digabungkan dengan
sistem pendeteksian dini. Untuk sistem pendeteksian dini, metodologi Self-Regulated Learning (SRL) [26], tergantung
entitas basis data diharapkan memiliki fitur rentang waktu, pada tingkat kategori risiko dari mahasiswa, yaitu dengan
terutama untuk entitas data interaksi dengan sistem atau tugas memberikan suatu tindakan akademis terhadap mahasiswa-
dari modul tersebut. Selain itu, bisa juga ditambahkan entitas mahasiswa yang berisiko tinggi, baik dengan komunikasi
data untuk menyimpan histori pembelajaran dari mahasiswa langsung meningkatkan keterlibatan dalam suatu kelas tertentu
sehingga dapat digunakan untuk fitur mahasiswa memiliki atau dengan cara yang lainnya sesuai risiko dan budaya pada
pengetahuan sebelumnya atau tidak, sebelum teregistrasi pada suatu institusi tertentu.
modul mata kuliah tertentu. Kelengkapan fitur dari desain basis
data yang dibuat akan memudahkan proses analisis C. Permasalahan terhadap Model dan Data
pembelajaran dan diharapkan dapat meningkatkan kualitas dan Kuantitas data sangat berpengaruh terhadap kinerja model,
capaian pembelajaran. Sebagai contoh, entitas interaksi dapat sedangkan secara umum kualitas data dapat ditinjau dari dua
disiapkan dengan membuat suatu tabel interaksi, seperti halnya hal, yaitu kelengkapan dan cakupan. Kelengkapan data dapat
studentVLE dan studentAssessment yang menyimpan interaksi dilihat dari atribut yang ada. Data yang berkualitas tidak
mahasiswa dengan modul e-learning dan tugas/ujian. Untuk kehilangan atribut yang penting dalam pemodelan sehingga
entitas demografis, pada umumnya semua e-learning kinerja algoritme pembelajaran mesin lebih baik (tingkat
menyimpan entitas ini pada awal pendaftaran, seperti halnya akurasi lebih tinggi). Sementara itu, cakupan data adalah data
tabel studentInfo. Selanjutnya, entitas historis menyimpan data- keberagaman dari contoh (dalam hal ini mahasiswa) sehingga
data mata kuliah yang pernah diambil oleh setiap mahasiswa, mencakup semua tipe contoh. Dengan demikian, model dapat
misalnya dengan membuat suatu tabel studentCourses yang memprediksi berbagai tipe mahasiswa. Solusi dari hal ini
terdiri atas studentId dan courseId. adalah dengan mengumpulkan sebanyak-banyaknya data
Pembahasan desain basis data tersebut berdasar pada sudut sehingga kinerja model dapat lebih dipertanggungjawabkan.
pandang mahasiswa. Untuk melengkapi fitur yang Dengan data yang sedikit, suatu model cenderung overfitting
komprehensif, dibutuhkan tidak hanya data mahasiswa, tetapi karena cakupan data yang kecil sehingga model tidak mampu
juga data pengajar jika kelas tersebut menggunakan pendekatan melakukan generalisasi dan tentunya tingkat akurasinya
kelas berbasis tutorial. Dalam hal ini, faktor yang juga menjadi dipertanyakan. Selain permasalahan yang telah
memengaruhi kinerja dan kelulusan suatu proses pembelajaran, disebutkan, permasalahan yang lain adalah data kategori yang
selain sistem dan mahasiswa, adalah sisi pengajar itu sendiri. tidak imbang (imbalanced data), yang menyebabkan model
Dengan demikian, kebutuhan akan data untuk analisis menjadi bias pada kategori yang paling besar (mayoritas) [10].
pembelajaran, khususnya dengan metode pembelajaran mesin, Hal ini dapat diselesaikan dengan menyeimbangkan kategori
dapat diolah dengan mudah, akurat, dan komprehensif. tersebut dengan menggunakan berbagai macam metode over-
sampling atau under-sampling.
B. Mitigasi Pembelajaran
Semakin awal dilakukannya prediksi kinerja atau VI. KESIMPULAN
kemungkinan untuk drop-out akan semakin baik dan bisa Pengolahan OULAD didasarkan pada dua jenis fitur, yaitu
dilakukan mitigasi atau penyesuaian terhadap kelompok fitur demografis dan fitur aktivitas interaksi mahasiswa dengan
mahasiswa yang berisiko mundur atau gagal pada suatu mata sistem. Dari penjelasan pada bagian-bagian sebelumnya, dapat
kuliah. Mempertimbangkan hal ini, suatu model pembelajaran ditarik kesimpulan sebagai berikut.
mesin yang akan digunakan untuk memprediksi kelompok Mayoritas permasalahan yang diangkat yaitu 61% tentang
berisiko haruslah bisa digunakan sebelum mata kuliah berakhir prediksi mahasiswa berisiko drop out/withdrawn atau tidak,
atau sebelum mahasiswa undur diri dari kelas. Beberapa baik menggunakan fitur interaksi, demografis, atau keduanya.
penelitian melakukan prediksi dengan menggunakan semua Mayoritas peneliti, yaitu sebanyak 92%, menggunakan fitur
fitur aktivitas sampai akhir modul yang tidak terlalu bermanfaat
interaksi, dalam hal ini data log mahasiswa, untuk prediksi
dalam mitigasi mahasiswa. Akan tetapi, prediksi di akhir modul
kinerja atau kecenderungan mahasiswa yang berisiko drop out
dapat digunakan sebagai analisis faktor-faktor yang
(tidak melanjutkan pembelajaran/mundur. Selain itu, ada juga
berpengaruh terhadap kecenderungan mahasiswa gagal atau
mundur dari suatu mata kuliah tertentu. Hal ini sangat peneliti yang menggunakan hanya fitur demografis atau
berhubungan erat dengan hal yang telah dibahas pada bagian keduanya untuk analisis pembelajaran, baik digunakan untuk
IV-B-1 dan IV-B-2. Mitigasi pembelajaran dapat dilakukan analisis faktor maupun pemodelan prediksi.
Sri Suning Kusumawardani: Kajian Penggunaan Data Log ... ISSN 2301 - 4156
372 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 4, November 2020
Berdasarkan penggunaan rentang waktu fiturnya, model [8] L. Haiyang, Z. Wang, P. Benachour, dan P. Tubman, “A Time Series
Classification Method for Behaviour-Based Dropout Prediction,” 2018
yang dibangun dapat dikategorikan menjadi dua, yaitu analisis
IEEE 18th International Conference on Advanced Learning Technologies
faktor untuk mencari faktor yang sangat memengaruhi kinerja (ICALT), 2018, hal. 191–195.
mahasiswa dan sistem pendeteksian dini untuk mendeteksi [9] H. Heuer dan A. Breiter, “Student Success Prediction and the Trade-Off
mahasiswa yang berisiko. Berdasarkan pengolahan fitur untuk between Big Data and Data Minimization,” dalam DeLFI 2018 - Die 16.
pemrosesan pembelajaran mesin, secara umum model dibagi E-Learning Fachtagung Informatik, D. Krömker dan U. Schroeder, Eds.,
Bonn, Germany: Gesellschaft für Informatik e.V., 2018, hal. 219-230.
menjadi dua, yaitu fitur tabular yang umumnya digunakan pada
[10] F. Hlioui, N. Aloui, dan F. Gargouri, “Withdrawal Prediction Framework
mayoritas algoritme pembelajaran dan sekuensial yang berupa in Virtual Learning Environment,” Int. J. Serv. Sci. Manag. Eng.
deret waktu dengan model TSF, LSTM, atau GRU. Technol., Vol. 11, No. 3, hal. 47–64, Jul. 2020.
Beberapa saran telah direkomendasikan, yaitu berkaitan [11] S. Rizvi, B. Rienties, dan S.A. Khoja, “The Role of Demographics in
dengan penyajian data untuk sistem pembelajaran daring, Online Learning: A Decision Tree Based Approach,” Comput. Educ.,
mitigasi pembelajaran, dan permasalahan yang sering muncul Vol. 137, hal. 32–47, Agu. 2019.
pada pemodelan yang dikaitkan dengan kuantitas dan kualitas [12] M. Hussain, W. Zhu, W. Zhang, dan R. Abidi, “Student Engagement
Predictions in an e-Learning System and Their Impact on Student Course
data, yaitu sebagai berikut. Pembangunan sistem data Assessment Scores,” Comput. Intell. Neurosci., Vol. 2018, hal. 1–21, Okt.
setidaknya terdiri atas tiga entitas, yaitu data demografis, data 2018.
modul/mata kuliah, dan data interaksi dengan sistem. Dapat [13] H. Waheed, S.-U. Hassan, N.R. Aljohani, J. Hardman, S. Alelyani, dan
juga ditambahkan data histori atau data pengajaran untuk R. Nawaz, “Predicting Academic Performance of Students from VLE Big
mendukung analisis pembelajaran yang lebih komprehensif. Data Using Deep Learning Models,” Comput. Hum. Behav., Vol. 104, hal.
1-13, Mar. 2020.
Mitigasi pembelajaran dapat dilakukan dengan dua hal, yaitu
[14] X. Song, J. Li, S. Sun, H. Yin, P. Dawson, dan R. Doss, “SEPN: A
menggunakan pendekatan analisis faktor dengan meningkatkan Sequential Engagement Based Academic Performance Prediction
modul pembelajaran (intervensi pada modul pembelajaran) Model,” IEEE Intell. Syst., hal. 1–9, 2020.
atau dengan sistem pendeteksian dini (intervensi pada [15] T. Hastie, R. Tibshirani, dan J. Friedman, The Elements of Statistical
mahasiswa seperti halnya SRL). Permasalahan yang sering Learning: Data Mining, Inference, and Prediction, Second Edition, 2nd
dijumpai pada saat pemodelan antara lain kurangnya ed., New York, USA: Springer, 2016.
[16] S.L. Salzberg, “C4.5: Programs for Machine Learning by J. Ross Quinlan.
kelengkapan dan cakupan data, overfitting, dan jumlah kelas
Morgan Kaufmann Publishers, Inc., 1993,” Mach. Learn., Vol. 16, No. 3,
data yang tidak berimbang (imbalanced dataset). hal. 235–240, Sep. 1994.
Makalah ini dapat digunakan sebagai panduan mengolah [17] D.E. Rumelhart, G.E. Hinton, dan R.J. Williams, “Learning
fitur interaksi dan demografis serta cara pemodelan yang telah Representations by Back-Propagating Errors,” Nature, Vol. 323, hal. 533-
atau banyak digunakan oleh berbagai peneliti sehingga 536, Okt. 1986.
menginspirasi munculnya pemodelan baru atau sistem [18] C. Cortes dan V. Vapnik, “Support-Vector Networks,” Mach. Learn.,
Vol. 20, No. 3, hal. 273–297, Sep. 1995.
penyediaan data untuk keperluan analisis pembelajaran yang
[19] S. Hochreiter dan J. Schmidhuber, “Long Short-Term Memory,” Neural
baru dan efisien, dengan mempertimbangkan kelengkapan dan Comput., Vol. 9, No. 8, hal. 1735–1780, Nov. 1997.
cakupan data, seperti halnya yang ada pada OULAD dan [20] Y. He, R. Chen, X. Li, C. Hao, S. Liu, G. Zhang, dan B. Jiang, “Online
beberapa metode serta pengolahan fitur yang telah dijelaskan. At-Risk Student Identification using RNN-GRU Joint Neural Networks,”
Information, Vol. 11, No. 10, hal. 1-12, Okt. 2020.
REFERENSI [21] G. Casalino, G. Castellano, A. Mannavola, dan G. Vessio, “Educational
[1] J. Kuzilek, M. Hlosta, dan Z. Zdrahal, “Open University Learning Stream Data Analysis: A Case Study,” 2020 IEEE 20th Mediterranean
Analytics Dataset,” Sci. Data, Vol. 4, hal. 1-8, Nov. 2017. Electrotechnical Conference ( MELECON), 2020, hal. 232–237.
[2] P.M. Moreno-Marcos, C. Alario-Hoyos, P.J. Muñoz-Merino, dan C.D. [22] N. Jha, I. Ghergulescu, dan A.-N. Moldovan, “OULAD MOOC Dropout
Kloos, “Prediction in MOOCs: A Review and Future Research and Result Prediction using Ensemble, Deep Learning and Regression
Directions,” IEEE Trans. Learn. Technol., Vol. 12, No. 3, hal. 384–401, Techniques,” 11th International Conference on Computer Supported
Jul. 2019. Education,. 2020, hal. 154–164.
[3] O. Pilli dan W. Admiraal, “Students’ Learning Outcomes in Massive [23] D.A. Reynolds, T.F. Quatieri, dan R.B. Dunn, “Speaker Verification
Open Online Courses (MOOCs): Some Suggestions for Course Design,” Using Adapted Gaussian Mixture Models,” Digit. Signal Process., Vol.
Yükseköğretim Dergisi, Vol. 7, No. 1, hal. 46–71, 2017. 10, No. 1, hal. 19–41, Jan. 2000.
[4] J. Biggs dan C. Tang, Teaching For Quality Learning At University, 4th [24] H. Deng, G. Runger, E. Tuv, dan M. Vladimir, “A Time Series Forest for
ed., Maidenhead, UK: Open University Press, 2011. Classification and Feature Extraction,” Inf. Sci., Vol. 239, hal. 142–153,
Agu. 2013.
[5] E.G. Poitras, R.F. Behnagh, dan F. Bouchet, “A Dimensionality
Reduction Method for Time Series Analysis of Student Behavior to [25] Y. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W.
Predict Dropout in Massive Open Online Courses,” dalam Adoption of Hubbard, dan L.D. Jackel, “Backpropagation Applied to Handwritten Zip
Data Analytics in Higher Education Learning and Teaching, D. Ifenthaler Code Recognition,” Neural Comput., Vol. 1, No. 4, hal. 541–551, Des.
and D. Gibson, Eds., Cham, Switzerland: Springer International 1989.
Publishing, 2020, hal. 391–406. [26] M.E. Alonso-Mencía, C. Alario-Hoyos, J. Maldonado-Mahauad, I.
[6] R. Alshabandar, A. Hussain, R. Keight, A. Laws, dan T. Baker, “The Estévez-Ayres, M. Pérez-Sanagustín, dan C.D. Kloos, “Self-regulated
Application of Gaussian Mixture Models for the Identification of At-Risk Learning in MOOCs: Lessons Learned from a Literature Review,” Educ.
Learners in Massive Open Online Courses,” 2018 IEEE Congress on Rev., Vol. 72, No. 3, hal. 319–345, Mei 2020.
Evolutionary Computation (CEC), Jul. 2018, hal. 1–8.
[7] S.-U. Hassan, H. Waheed, N.R. Aljohani, M. Ali, S. Ventura, dan F.
Herrera, “Virtual Learning Environment to Predict Withdrawal by
Leveraging Deep Learning,” Int. J. Intell. Syst., Vol. 34, No. 8, hal. 1935–
1952, 2019.
ISSN 2301 – 4156 Sri Suning Kusumawardani: Kajian Penggunaan Data Log ...
Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No.4, November 2020 373
TABEL III
RINGKASAN TINJAUAN ARTIKEL-ARTIKEL YANG MENGOLAH OULAD
Sri Suning Kusumawardani: Kajian Penggunaan Data Log ... ISSN 2301 - 4156
374 Jurnal Nasional Teknik Elektro dan Teknologi Informasi | Vol. 9, No. 4, November 2020
ISSN 2301 – 4156 Sri Suning Kusumawardani: Kajian Penggunaan Data Log ...