Anda di halaman 1dari 58

MODEL PREDIKSI KINERJA SISWA BERDASARKAN

ANALISIS LOG AKTIVITAS PADA SOCIAL NETWORK


DAN E-LEARNING

AGUSRIANDI

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2019
PERNYATAAN MENGENAI TESIS DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa tesis berjudul model prediksi kinerja
siswa berdasarkan analisis log aktivitas pada social network dan e-learning adalah
benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam
bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal
atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain
telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir
tesis ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2019

Agusriandi
NIM G651170121
RINGKASAN
AGUSRIANDI. Model Prediksi Kinerja Siswa Berdasarkan Analisis Log Aktivitas
pada Social Network dan E-learning. IMAS SUKAESIH SITANGGANG dan
SONY HARTONO WIJAYA.

Kinerja siswa adalah gambaran seorang siswa sebagai hasil dari kerja yang
dapat diukur dari berbagai aspek. Programme for International Student Assessment
(PISA) pada tahun 2015 mempublikasikan bahwa kinerja siswa Indonesia pada
bidang sains, matematika dan keterampilan membaca masih jauh di bawah rata-rata
yaitu pada posisi 62 dari 70 negara. Padahal, kinerja siswa merupakan bagian
terpenting dari berkembangnya institusi pendidikan. Di sisi lain, 99% institusi
pendidikan tinggi di beberapa negara termasuk Amerika Serikat telah menerapkan
e-learning. Mereka tidak hanya mengimplementasikan e-learning tetapi juga
melibatkan social network atau SN-Learning.
Faktanya, SN-learning (social network dan e-learning) telah digunakan oleh
institusi pendidikan di Indonesia. Namun, social network hanya dimanfaatkan
sebatas menyampaikan informasi atau pengumuman. Sedangkan e-learning telah
dimanfaatkan namun belum masif. Padahal, log aktivitas dalam SN-learning dapat
dimanfaatkan untuk memperoleh pengetahuan strategis dalam rangka memahami
kinerja siswa. Memahami kinerja siswa dapat dilakukan dengan analisis data,
analisis social network, dan analisis log aktivitas. Analisis social network adalah
analisis struktural yang menggunakan teori grafik dan bertujuan mempelajari pola
kolaborasi sosial antaraktor dalam konteks pendidikan seperti siswa, guru, atau
lembaga melalui analisis struktural yang mencerminkan sebuah jaringan.
Sedangkan, e-learning adalah alat untuk melakukan pendidikan jarak jauh. Analisis
log aktivitas dalam e-learning adalah salah satu proses transformasi data mentah
menjadi pengetahuan strategis.
Pemanfaatan SN-learning dalam kegiatan pembelajaran memiliki
keterbatasan yang dapat menimbulkan masalah. Masalah yang sering muncul pada
grup social network adalah siswa tidak memiliki kesempatan yang sama untuk
berkontribusi. Sedangkan dalam e-learning memiliki log aktivitas sebagai
gambaran kondisi nyata siswa yang beraktivitas namun memiliki volume yang
sangat besar sehingga dibutuhkan teknik khusus untuk memperoleh pengetahuan
tentang kinerja siswa.
Penelitian ini memiliki tiga tujuan (1) mengidentifikasi masalah kolaborasi
siswa pada grup social network berdasarkan derajat sentralitas (2) menganalisis
kinerja siswa dalam e-learning menggunakan teknik process mining (3) membuat
model prediksi kinerja siswa dengan algoritme Random Forest atau RF. Hasil dari
penelitian ini menunjukkan bahwa aktivitas siswa pada social network dan e-
learning berkontribusi atau berkorelasi positif terhadap nilai akhir siswa. Oleh
karena itu, penelitian ini merekomendasikan agar pengelola institusi pendidikan
menggunakan social network dan e-learning secara masif.
Kata kunci: e-learning, log aktivitas, kinerja siswa, random forest, social network
SUMMARY

AGUSRIANDI. Student Performance Prediction Model Based Aktivity Log on


Social Network and E-learning. IMAS SUKAESIH SITANGGANG and SONY
HARTONO WIJAYA.

Student performance is a description of a student as a result which can be


measured from various aspects. Programme for International Student Assessment
(PISA) 2015 reports that the performance of Indonesian students in the fields of
science, mathematics and reading skills is still far below the average which is placed
at the 62nd position of 70 countries. In fact, students who have a great achievement
and use technology in education are the most important part of education
development. On the other hand, 99% of higher education institutions in some
countries including the United States have implemented e-learning. They do
implement not only e-learning but also learning technology tools involving social
networking or Social Network-based learning (SN-Learning).
In fact, SN-learning (social network and e-learning) has been used by
educational institutions in Indonesia. However, social networks are used only to
convey information or announcements. Besides, e-learning has been utilized but not
yet massive. Whereas, the activity log in SN-learning can be used to understand
student performance. Understanding student performance can be done with data
analysis social network analysis, and activity log analysis. Social network analysis
(SNA) is a structural analysis which uses the implementation of graph theory. In
this field, SNA aims to study the pattern of social collaboration between actors in
the context of education in the form of student, teacher, or institution through
structural analysis that reflects the network rather than an attribute or actor property.
While e-learning is a tool for conducting distance education, it allows students to
work in e-learning which produces log data in the database. Log activity analysis in
e-learning is one in the processes of transforming the raw data into strategic
knowledge.
The use of SN-learning in learning activity has limitations that can create
problems. Some problems with social networks such as some students dominate in
the group while other students do not have an opportunity to contribute. While log
data in e-learning has a very large volume, so it requires special techniques to obtain
knowledge and data about the behavior of students in doing learning activity is
through the e-learning. One of the ways to identify students in social networks is
using the degree centrality measurement, and analyzing student activities log on e-
learning using process mining technique.
This study has two objectives (1) identifying students dominating the social
network group using centrality values (2) analyzing student performance in e-
learning using process mining technique (3) making prediction model of
performance student using Random Forest algorithm. The results of this study show
that student activities on social networks and e-learning contribute or positively
correlate with students' final grades. Therefore, this study recommends that
managers of educational institutions use social networks and e-learning massively.

Keywords: activity log, e-learning, social network, student performance, random


forest
© Hak Cipta Milik IPB, Tahun 2019
Hak Cipta Dilindungi Undang-Undang
Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau
menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan,
penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau
tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB

Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini
dalam bentuk apa pun tanpa izin IPB
MODEL PREDIKSI KINERJA SISWA BERDASARKAN
ANALISIS LOG AKTIVITAS PADA SOCIAL NETWORK
DAN E-LEARNING

AGUSRIANDI

Tesis
sebagai salah satu syarat untuk memperoleh gelar
Magister Komputer
pada
Program Studi Ilmu Komputer

SEKOLAH PASCASARJANA
INSTITUT PERTANIAN BOGOR
BOGOR
2019
Penguji Luar Komisi pada Ujian Tesis : Dr Eng Annisa, SKom, MKom
Judul Tesis : Model Prediksi Kinerja Siswa Berdasarkan Analisis Log
Aktivitas pada Social Network dan E-learning
Nama : Agusriandi
NIM : G651170121

Disetujui oleh

Komisi Pembimbing

Dr Imas Sukaesih Sitanggang, SSi, MKom Dr Sony Hartono Wijaya, SKom, MKom
Ketua Anggota

Diketahui oleh

Ketua Program Studi Dekan Sekolah Pascasarjana


Ilmu Komputer

Dr Imas Sukaesih Sitanggang, SSi, MKom Prof Dr Ir Anas Miftah Fauzi, MEng

Tanggal Ujian : 08 Juli 2019 Tanggal Lulus :


PRAKATA

Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang
dipilih dalam penelitian yang dilaksanakan sejak bulan November 2018 ini adalah
model prediksi kinerja siswa berdasarkan analisis log aktivitas pada social network
dan e-learning.
Penulisan tesis ini merupakan karya ilmiah dari gelar Master yang dilakukan
oleh penulis sendiri. Banyak tantangan dan kendala dari awal hingga berakhirnya
penelitian ini. Doa, dukungan, dan motivasi dari Ayah Empu Pariwangi dan Ibu
Diana serta istri penulis Fitriani dan ketiga anak kami yaitu Naurah Fathiyyah
Riandi, Nafis Ajwad Riandi, dan si bungsu Rizhan Syauqi Riandi menjadi kekuatan
untuk menyelesaikan penelitian ini. Terima kasih juga penulis sampaikan kepada
Ibu Dr Imas Sukaesih Sitanggang, SSi MKom dan Bapak Dr Sony Hartono Wijaya
SKom MKom selaku komisi pembimbing yang senantiasa mengarahkan,
memberikan solusi ketika terdapat kesulitan, dan ikhlas meluangkan waktu untuk
memberikan bimbingan selama penelitian. Terima kasih kepada LPDP
Kementerian Keuangan RI sebagai sponsor studi ini. Penulis juga menyampaikan
terima kasih kepada:
1 Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku Ketua Program Studi
Magister Ilmu Komputer IPB.
2 Ibu Dr Eng Annisa, SKom MKom selaku penguji luar komisi pembimbing
yang telah memberikan banyak saran dalam penyempurnaan karya ini.
3 Seluruh dosen, staf tata usaha, dan staf pegawai Departemen Ilmu Komputer
dan Sekolah Pascasarjana IPB.
4 Seluruh teman-teman sebimbingan, yaitu Andi Nurkholis, Vega Purwayoga,
Yazid Aufar, Andi Widya Mufila Gaffar dan Elsa Elvira Awal.
5 Teman-teman seperjuangan di Asrama Bendhitos yang senantiasa memotivasi.
6 Seluruh teman-teman Program Pascasarjana Ilmu Komputer IPB angkatan 2017.
Semoga segala kebaikan, perhatian, bimbingan, motivasi, dan dukungan yang
telah diberikan kepada penulis senantiasa dibalas oleh Allah subhanahu wa ta’ala.
Semoga karya ilmiah ini memberikan manfaat dan menambah wawasan bagi
pembaca. Aamiin ya Rabbal Alamin. Jazakamullah khairan katsiran wa
jazakumullah ahsanal jaza.

Bogor, Juli 2019

Agusriandi
DAFTAR ISI

DAFTAR ISI vii


DAFTAR TABEL viii
DAFTAR GAMBAR viii
1 PENDAHULUAN 1
Latar Belakang 1
Rumusan Masalah 2
Tujuan Penelitian 3
Manfaat Penelitian 3
Ruang Lingkup Penelitian 3
2 TINJAUAN PUSTAKA 3
Kinerja Siswa 3
Analisis Pemodelan 4
Analisis Kualitas Data 5
Analisis Deskriptif 5
Analisis Diagnostik 5
Analisis Prediktif 8
Pengukuran Kinerja Prediksi 9
3 METODOLOGI 9
Peralatan Penelitian 9
Pengumpulan Data 9
Kerangka Kerja Penelitian 10
Analisis Kualitas Data 11
Analisis Deskriptif 12
Analisis Diagnostik 12
Analisis Prediksi 16
Evaluasi dan Validasi Kinerja Algoritme RF 17
4 HASIL DAN PEMBAHASAN 18
Kualitas Data 18
Deskripsi Data Siswa 19
Diagnostik Siswa 23
Model Prediksi Kinerja Siswa 29
5 SIMPULAN DAN SARAN 32
Simpulan 32
Saran 32
DAFTAR PUSTAKA 33
RIWAYAT HIDUP 46
DAFTAR TABEL

1 Paradigma dan pendekatan pada analisis pemodelan (Das 2013) 4


2 Matriks adjacency (Smedt et al. 2016) 6
3 Atribut pada social network, e-learning, dan nilai-nilai siswa 10
4 Deskripsi interaksi siswa pada social network 19
5 Rangkuman log aktivitas siswa di e-learning 21
6 Rangkuman aktivitas setiap siswa 21
7 Rangkuman log aktivitas berdasarkan jenis kelas aktivitas 22
8 Rangkuman log aktivitas berdasarkan nama aktivitas dan siklus transisi 22
9 Nilai huruf mutu mata kuliah topik dalam Data Mining Terapan 23
10 Nilai hub dan authority setiap siswa 24
11 Deskripsi interaksi siswa berdasarkan tanggal 25
12 Komponen dataset pada model prediksi 29
13 Confusion matrix sebelum pembuatan model prediksi 30
14 Confusion matrix setelah pembuatan model prediksi 30

DAFTAR GAMBAR

1 Tahapan analisis pemodelan (Brodsky et al. 2016; Hagerty 2016) 5


2 Tahapan dalam teknik process mining 8
3 Kerangka kerja penelitian yang menggambarkan tahapan untuk mencapai
tujuan 1, 2, dan 3 11
4 Tahapan identifikasi siswa mendominasi 13
5 Tahapan analisis proses pada ProM Framework 15
6 Tahapan analisis prediksi digambarkan dalam bentuk flowchart 16
7 Data grup WhatsApp (a) sebelum (b) sesudah analisis kualitas data 18
8 Log aktivitas (a) sebelum (b) sesudah analisis kualitas data 18
9 Sebaran jumlah interaksi siswa pada grup social network 19
10 Frekuensi interaksi siswa pada social network 20
11 Aktivitas siswa berdasarkan jalur dan waktu 23
12 Hasil identifikasi siswa mendominasi (a) hub setiap siswa (b) authority setiap
siswa 24
13 Model workflow siswa yang memperoleh huruf mutu A 26
14 Model workflow siswa yang memperoleh huruf mutu B 27
15 Model workflow siswa yang memperoleh nilai A,AB,dan B 28
16 Kinerja siswa berdasarkan waktu beraktivitas 28
17 Variabel penting (a) rata-rata akurasi (b) rata-rata gini 31
1

1 PENDAHULUAN

Latar Belakang

Kinerja siswa adalah gambaran seorang siswa sebagai hasil dari kerja yang
dapat diukur dari berbagai aspek (Yang dan Li 2018). Programme for
International Student Assessment (PISA) mempublikasikan hasil kinerja siswa
Indonesia pada bidang sains, matematika, dan keterampilan membaca jauh di
bawah rata-rata negara anggota PISA, yaitu berada pada urutan 62 dari 70 negara
(PISA 2015). Berbagai cara telah dilakukan pemerintah Indonesia dalam
meningkatkan kinerja siswa seperti mengganti kurikulum, sertifikasi guru dan
dosen, beasiswa, penerapan teknologi, dan kebijakan lainnya. Namun, peringkat
kinerja siswa Indonesia masih di bawah negara tetangga seperti Singapura.
Padahal, kinerja siswa merupakan bagian terpenting berkembangnya institusi
pendidikan (Koutina dan Kermanidis 2011, Shahiri et al. 2015).
Di sisi lain, negara yang memiliki kinerja pendidikan yang baik telah
memanfaatkan e-learning (Vogt 2016). Khusus di Amerika Serikat, 99% institusi
pendidikan tingginya telah menerapkan e-learning (Dahlstrom et al. 2014, Vogt
2016). Tidak hanya sebatas e-learning, teknologi pembelajaran terus berkembang
dengan melibatkan social network atau Social Network-based learning (SN-
Learning) (Krouska et al. 2018). Faktanya, SN-learning telah digunakan oleh
institusi pendidikan di Indonesia. Namun, social network hanya dimanfaatkan
sebatas menyampaikan informasi atau pengumuman. Sedangkan e-learning telah
dimanfaatkan namun belum masif. Padahal, log aktivitas dalam SN-learning
dapat dimanfaatkan menjadi pengetahuan strategis yang dapat ditindaklanjuti
untuk mendapatkan pengetahuan (Das 2013).
Analisis log aktivitas pada social network bertujuan mempelajari pola
hubungan sosial antara aktor dalam konteks pendidikan berupa siswa, guru, atau
institusi yang melalui analisis struktural yang mencerminkan network bukan
atribut atau properti aktor (Crespo 2013). Penggunaan social network dalam
kolaborasi sering kali menimbulkan masalah sehingga siswa yang lain tidak
berkontribusi sama. Oleh karena itu, mengidentifikasi masalah pada kolaborasi
siswa menjadi bagian penting supaya siswa dapat mencapai tujuan bersama. Siswa
diidentifikasi menggunakan pengukuran derajat centrality. Derajat centrality
diperoleh dengan 2 pendekatan, metode global dan lokal. Metode global
menekankan pada semua aspek interaksi aktor (betweenness centrality),
sedangkan metode lokal fokus pada posisi aktor (degree centrality) (Ahajjam et
al. 2018).
Analisis log aktivitas pada e-learning merupakan salah satu proses
transformasi baris data ke dalam pengetahuan strategis yang dapat ditindaklanjuti
untuk mendapatkan wawasan tentang proses bisnis (Yurek et al. 2018). Salah satu
tujuan analisis log aktivitas adalah conformance checking untuk memperoleh
pengetahuan strategis (Rozinat dan Aalst 2008, Aalst 2011). Cairns et al. (2015)
menggunakan ProM Framework untuk memperoleh pengetahuan dari log
aktivitas. Algoritme terbaru dalam ProM Framework adalah Inductive Miner atau
IM (Bogarin et al. 2018).
2

Hasil analisis log aktivitas pada social network dan e-learning


diintegrasikan menjadi dataset untuk dilanjutkan pada tahap pembuatan model
prediksi kinerja siswa. Model prediksi kinerja siswa telah dilakukan oleh Yadav
dan Pal (2012) dengan membagi tiga kelas pada variabel dependen yaitu pass, fail,
dan promoted yang masing-masing kelas diuji tingkat akurasinya dengan
algoritme seperti C4.5, ID3, dan CART, namun belum melakukan analisis social
network dan e-learning. Arsad et al. (2013) menggunakan artificial neural
network dengan hasil validasi kinerja yang cukup bagus yaitu Mean Squared
Error 0.05 namun input parameternya hanya 5 dan output parameter 1 serta tidak
melakukan analisis social network dan analisis proses.
Cairns et al. (2015) dengan melakukan analisis proses teknik process mining
dengan tingkat akurasi 62% namun tidak menggunakan analisis social network.
Smedt et al. (2016) telah melakukan penggabungan antara analisis social network,
e-learning, dan data nilai dalam memprediksi kinerja siswa dengan algoritme
logistic regression, namun jumlah variabel dan datanya serta algoritme yang
digunakan berbeda pada kasus penelitian ini.
Selain algoritme logistic regression, algoritme lain yang digunakan untuk
melakukan analisis prediktif adalah Random Forest atau RF (Baradwaj dan Pal
2011, Fok et al. 2014, Kaur et al. 2015, Smedt et al. 2016, Kilic et al. 2017, Pojon
2017). RF dalam berbagai penelitian sebelumnya menunjukkan nilai akurasi yang
cukup baik. Seperti penelitian yang dilakukan oleh Mythili dan Shanavas (2014)
menghasilkan nilai akurasi 89.23% dan waktu eksekusi paling singkat dibanding
algoritme ML lainnya. Koutina dan Kermanidis (2011) dengan nilai akurasi
90.90% untuk data sampel, dan Corrales et al. (2018) dengan nilai akurasi di atas
90% untuk dataset yang diujicobakan.
Studi kasus pada penelitian ini adalah mata kuliah topik dalam Data Mining
Terapan yang ditawarkan ke mahasiswa S2 Ilmu Komputer FMIPA IPB karena
mata kuliah tersebut telah menerapkan e-learning. Mata kuliah data mining
terapan mempelajari tentang teknik-teknik yang meliputi pra pengolahan, akses
data berdimensi tinggi, klasifikasi, analisis asosiasi, analisis cluster dan deteksi
anomali, spatial data mining, spatio-temporal data mining; linkage dan stream
data mining, multimedia data mining, text dan web serta streaming mining (IPB
[tahun tidak diketahui]).
Berdasarkan paparan di atas, maka penelitian ini memiliki tiga tujuan (1)
mengidentifikasi masalah kolaborasi siswa pada grup social network berdasarkan
derajat sentralitas (2) menganalisis kinerja siswa dalam e-learning menggunakan
teknik process mining (3) membuat model prediksi kinerja siswa dengan
algoritme Random Forest atau RF.

Rumusan Masalah

Berdasarkan latar belakang masalah, maka rumusan masalah pada


penelitian ini adalah sebagai berikut:
1. Bagaimana mengidentifikasi masalah kolaborasi siswa dalam grup social
network?
2. Bagaimana melakukan analisis kinerja siswa berdasarkan log aktivitas
pada e-learning?
3

3. Bagaimana memodelkan analisis prediksi kinerja siswa dengan


menggabungkan variabel hasil dari analisis social network, analisis e-
learning dan analisis data nilai siswa?

Tujuan Penelitian

Tujuan utama penelitian ini adalah membangun model prediksi kinerja


siswa dengan studi kasus pada mata kuliah Data Mining Terapan yang ditawarkan
ke mahasiswa S2 Ilmu Komputer FMIPA IPB. Tujuan tersebut dicapai dengan
melakukan tujuan khusus seperti berikut ini:
1. Mengidentifikasi masalah kolaborasi siswa dalam grup social network;
2. Menganalisis kinerja siswa berdasarkan log aktivitas pada e-learning
menggunakan teknik proses mining;
3. Memprediksi kinerja siswa berdasarkan penggabungan variabel hasil
analisis log aktivitas pada social network dan e-learning serta data nilai-
nilai pembelajaran siswa menggunakan algoritme Random Forest.

Manfaat Penelitian

Penelitian ini diharapkan dapat mengidentifikasi masalah pada kolaborasi


siswa dalam grup layanan social network, menggambarkan model aktivitas siswa
pada layanan e-learning, dan menginformasikan variabel yang berpengaruh
terhadap model prediksi.

Ruang Lingkup Penelitian

Penelitian ini fokus pada analisis social network untuk mengidentifikasi


masalah kolaborasi siswa yaitu siswa yang mendominasi dan free-rider dengan
pengukuran derajat centrality, conformance checking terhadap log aktivitas pada
e-learning yaitu Learning Management System (LMS) yang beralamat
https://newlms.ipb.ac.id/ dan pembuatan model prediksi menggunakan
pendekatan algoritme Random Forest. Studi kasus pembuatan model yaitu mata
kuliah topik dalam Data Mining Terapan yang ditawarkan kepada mahasiswa S2
Ilmu Komputer FMIPA IPB.

2 TINJAUAN PUSTAKA

Kinerja Siswa

Tujuan utama dari analisis pembelajaran adalah memahami dan


meningkatkan pembelajaran siswa dan institusi pendidikan (Vogt 2016). Berbagai
teknik analisis telah digunakan untuk mengetahui kinerja siswa seperti, analisis e-
learning (Cairns et al. 2015), analisis data (Mythili dan Shanavas 2014, Shahiri et
al. 2015), dan analisis social network (Crespo 2013, Bouhnik dan Deshen 2014,
4

Cetinkaya 2017). Menghasilkan model prediksi merupakan tujuan pokok dari


berbagai teknik analisis yang pada umumnya digunakan untuk klasifikasi kinerja
siswa (Shahiri et al. 2015). Lebih lanjut, Shahiri et al. (2015) menjelaskan bahwa
membangun model prediksi memiliki tugas seperti, klasifikasi, regresi, kategori
dan yang paling umum digunakan adalah memprediksi siswa dengan klasifikasi.

Analisis Pemodelan

Analisis pembelajaran adalah cabang khusus dari analisis akademik yang


berfokus pada pengumpulan data yang dihasilkan siswa dan menggunakan model
prediktif (Barneveld et al. 2012, Vogt 2016). Tujuan utama dari analisis
pembelajaran adalah memahami dan meningkatkan pembelajaran siswa dan
institusi pendidikan (Vogt 2016). Sedangkan menurut Crespo (2013) tujuan
mendasar dalam bidang Educational Data Mining (EDM) adalah memodelkan
siswa. Terdapat empat paradigma model komputasi untuk menganalisis data
seperti statistical, Artificial Intelegence (AI), temporal, dan Machine Learning
(ML) (Baradwaj dan Pal 2011, Das 2013). Penjelasan mengenai pendekatan yang
dapat dilakukan pada masing-masing paradigma seperti pada Tabel 1.
Tabel 1 Paradigma dan pendekatan pada analisis pemodelan (Das 2013)
Paradigma Pendekatan
Statistical Hubungan non-deterministik antara variabel yang dibuat
dalam bentuk persamaan matematika dan distribusi
probabilitas.
AI Sistem pakar memberikan pengetahuan tentang perilaku
sistem, dan membuat model komputasi berdasarkan
ontologi.
Temporal Persamaan linear / non-linear menentukan perilaku proses
stokastik atau sistem dinamis sebagai transisi dan
pengamatan suatu keadaan.
ML Mengamati perilaku input/output sistem dan teknik machine
learning mengekstrak model perilaku sistem.

Fungsi analisis secara umum adalah membuat analisis model, analisis


infrastruktur, dan analisis operasional (Barneveld et al. 2012). Jenis analisis model
yaitu statistik, prediksi, atau model data mining yang secara empiris berasal dari
data menggunakan metode statistik yang dapat diterima secara umum (Grossman
dan Siegel 2014). Pekerjaan menghasilkan model yang baik diperlukan beberapa
strategi analisis yaitu deskriptif, diagnostik, prediktif, dan preskriptif (Brodsky et
al. 2016, Hagerty 2016). Gambaran tahapan analisis pemodelan seperti pada
Gambar 1.
Tingkat difficulty pada Gambar 1 berbanding lurus dengan value yang
dihasilkan dengan informasi dan optimasi. Semakin tinggi analisisnya maka
semakin banyak informasi yang dapat diperoleh serta memerlukan optimasi yang
tinggi. (Brodsky et al. 2016, Hagerty 2016). Pada penelitian ini, pembuatan model
prediksi hanya menggunakan 3 dari 4 tahapan analisis pada Gambar 1, yaitu
tahapan analisis deskriptif, diagnostik, dan prediktif dengan pendekatan ML.
5

Preskriptif

Prediktif
Value

Diagnostik

Deskriptif

Difficulty

Gambar 1 Tahapan analisis pemodelan (Brodsky et al. 2016, Hagerty 2016)

Analisis Kualitas Data

Analisis kualitas data adalah upaya untuk mendapatkan kualitas data dengan
pengukuran secara objektif (Jugulum 2014). Kegagalan dalam menghasilkan
kualitas data yang baik pada tahap praproses akan mengurangi akurasi secara
signifikan dari setiap pekerjaan analisis data (Corrales et al. 2018). Jugulum
(2014) menjelaskan bahwa terdapat 4 dimensi inti dari kualitas data seperti
kelengkapan data, kesesuaian data, validitas data, dan akurasi data. Analisis
kualitas data digunakan pada penelitian ini sebelum melakukan tahapan analisis
deskriptif, diagnostik, dan prediktif.

Analisis Deskriptif

Analisis deskriptif menghasilkan pelaporan bisnis standar atau periodik


sederhana, pelaporan ad-hoc atau on-demand serta pelaporan dinamis atau
interaktif (Delen dan Demirkan 2013). Lebih lanjut, Delen dan Demirkan (2013)
menjelaskan bahwa analisis deskriptif digunakan melihat kinerja organisasi saat
ini dan sebelumnya (historis).

Analisis Diagnostik

Analisis diagnostik adalah ilmu mengidentifikasi hal yang terjadi pada masa
lalu atau yang sedang terjadi saat ini. Analisis diagnostik termasuk memahami
6

dampak dari faktor input dan kebijakan operasional (Shao et al. 2014). Pada
bagian ini dijelaskan 2 jenis pendekatan yang dilakukan dalam diagnostik, yaitu
analisis log aktivitas pada social network dan e-learning.

Social Network
Social network adalah jaringan directed atau undirected dari graf 𝐺 =
(𝑉, 𝐸) dimana 𝑉 merupakan {1,2 … . , 𝑁} (kumpulan vertex) yang
merepresentasikan individu dan 𝐸 (edge) sebagai komunikasi atau interaksi (Chen
et al. 2009, Nikolaev et al. 2015). Setiap vertex dalam 𝐺 merepresentasikan
elemen di dalam dataset (Ahajjam et al. 2018). Informasi nilai interaksi antaraktor
tersimpan pada sebuah matriks yang dinamakan adjacency seperti pada Tabel 2
(Smedt et al. 2016). Nilai 1 pada Tabel 2 merepresentasikan adanya interaksi
antaraktor sedangkan nilai 0 merepresentasikan tidak adanya interaksi antaraktor.
Tabel 2 Matriks adjacency (Smedt et al. 2016)
a b c d
a 0 1 1 0
b 1 0 1 1
c 0 1 0 0
d 0 1 0 0

Teknologi dari layanan social network berkembang pesat dengan


munculnya aplikasi seperti Facebook, Twitter, Telegram, dan terbaru WhatsApp
(Bouhnik dan Deshen 2014). WhatsApp merupakan layanan yang paling banyak
digunakan untuk tujuan pendidikan (Fahd 2017). Berbagai layanan tersebut telah
digunakan berinteraksi siswa dengan siswa maupun siswa dengan pengajar dalam
suatu komunitas online (Bouhnik dan Deshen 2014). Penemuan komunitas
merupakan sebuah masalah fundamental dalam bidang network science, yang
menjadi perhatian serius beberapa tahun ini (Xie et al. 2013, Arruda et al. 2014).
Analisis social network bertujuan mempelajari pola hubungan sosial
antaraktor dalam konteks pendidikan berupa siswa, guru, atau institusi melalui
analisis struktural yang mencerminkan jaringan bukan atribut atau properti aktor
(Crespo 2013). Lebih lanjut, Crespo (2013) menjelaskan bahwa analisis social
network merupakan kategori penelitian terbaru yang muncul oleh pengaruh tren
pada layanan social network dan mengubah paradigma pendidikan menuju
pembelajaran berbasis komunitas online yang lebih menarik dan kolaboratif.
Pengertian kolaboratif menurut beberapa ahli bermakna sama yaitu suatu bentuk
interaksi sosial tertentu yang bertujuan mencapai tujuan bersama dengan saling
membantu dan memahami aktivitas masing-masing (Chan et al. 2012).
Sejumlah penelitian tentang analisis social network telah mengusulkan
berbagai pengukuran untuk discovery komunikasi dan struktur social network.
Salah satu pengukuran yang paling dipelajari adalah centrality (Ortiz-Arroyo
2010). Centrality atau sentralitas berfungsi mengukur tingkat nilai sentral
seseorang dalam network. Pada umumnya pengukuran sentralitas digunakan
7

untuk mengukur degree centrality, closeness centrality, betweenness centrality,


dan eigenvector centrality (Kaati 2014).
Pengukuran sentralitas telah diterapkan dalam berbagai penelitian. Misalnya,
pengukuran sentralitas untuk menyelidiki pengaruh hubungan antarorganisasi,
kekuatan atau kompetensi dalam organisasi, menganalisis struktur network teroris
dan kriminal, menganalisis peluang kerja, dan lainnya (Ortiz-Arroyo 2010). Oleh
karena itu, pengukuran sentralitas digunakan pada penelitian ini untuk
mengidentifikasi masalah kolaborasi siswa yaitu mendominasi dan free-rider.
Dominasi adalah seseorang yang menguasai percakapan atau yang paling
berpengaruh dalam grup. Free-rider adalah seorang yang memperoleh manfaat
dari interaksi dalam suatu grup namun tidak banyak berbagi dengan anggota
grupnya (Prasad dan Kumar 2018). Aktor berpengaruh dianalisis dengan metode
lokal yang fokus pada posisi aktor (degree centrality) (Ahajjam et al. 2018).
Algoritme yang mampu menemukan aktor centrality pada social network
diantaranya adalah Fucherteman-Reingold (Fruchterman dan Reingold 1991),
Kamada-Kawai (Cheong dan Si 2017) dan Graphopt (Nascimento 2014)

Process Mining
Pekerjaan memperoleh pengetahuan dari process yang menawarkan
serangkaian teknik dan alat untuk menemukan pola berurutan yang
direpresentasikan sebagai workflow dari log aktivitas adalah pekerjaan process
mining (Munoz-gama 2014, Emond dan Buffett 2015). Workflow dari process
mining menghasilkan process model yang digunakan sebagai masukan langsung
untuk mengelola, koordinasi, memantau, dan memvalidasi semua aktivitas
(Munoz-gama 2016). Setelah process model ditemukan atau adanya process
model sebagai referensi, langkah berikutnya adalah conformance checking (Aalst
2016).
ProM Framework adalah alat process mining yang paling lengkap dan
mumpuni untuk menganalisis log aktivitas. Data log aktivitas yang masuk ke
dalam ProM memiliki standar yaitu Mining eXtensible Markup Language atau
disingkat MXML (Bhat 2016). Arsitektur ProM bersifat pluggable dan open
source yang digunakan untuk process mining dari semua perspektif (Dongen et al.
2005). Cairns et al. (2015) menggunakan algoritme pada ProM yaitu heurisitk
miner dalam melakukan yang analisis log aktivitas. Selain heuristic miner,
beberapa algoritme yang dapat digunakan seperti alpha miner, evolutionary tree
miner dan yang terbaru inductive miner (Bogarin et al. 2018).
Gambar 2 menunjukkan tahapan teknik process mining dari semua
prespektif pada log aktivitas. Conformance checking bertujuan untuk memantau
penyimpangan antara perilaku yang diamati dalam log aktivitas dan process model
normatif (Rozinat dan Aalst 2008, Aalst 2011). Berdasarkan cara tersebut, maka
penyimpangan perilaku atau tindakan-tindakan yang tidak sesuai dengan process
model dapat diidentifikasi dan dianalisis (Ghazal et al. 2017).
8

Penemuan model
/Model Discovery

Penemuan model
Analisis Kinerja Log
Aktivitas dengan perluasan

Conformance
Checking

Pemasukan model

Gambar 2 Tahapan dalam teknik process mining

Analisis Prediktif

Analisis prediktif adalah penggunaan data, algoritme statistik dan teknik


machine learning untuk mengidentifikasi kemungkinan hasil pada masa
mendatang berdasarkan data historis (Pojon 2017). Analisis prediktif pada
lingkungan pendidikan untuk membuat alat, intervensi, dan visualisasi yang dapat
mempengaruhi hasil siswa (Vogt 2016). Sedangkan menurut Ghatak (2017) dan
Pojon (2017) analisis prediktif digunakan untuk meningkatkan kinerja,
mendorong pengambilan keputusan, mendeteksi kecurangan, dan memprediksi
tren dengan machine learning (ML).
ML adalah sebuah proses otomatisasi penemuan pola dan tren dalam data
yang melewati proses analisis (Ghatak 2017, Pojon 2017). Berdasarkan studi oleh
Gartner, ML menjadi top 10 tren teknologi dan akan menjadi pengendali besar
inovasi berikutnya (Panetta 2016). Pemodelan prediksi dengan algoritme-
algoritme yang digunakan dalam analisis prediktif meliputi random forest (RF),
naive bayes, multilayer perceptron, regresi logistik (Baradwaj dan Pal 2011, Fok
et al. 2014, Kaur et al. 2015, Smedt et al. 2016, Kilic et al. 2017, Pojon 2017). RF
dalam berbagai penelitian sebelumnya menunjukkan nilai akurasi yang cukup
9

baik. Seperti penelitian yang dilakukan oleh Mythili dan Shanavas (2014)
menghasilkan nilai akurasi 89.23% dan waktu eksekusi paling singkat dibanding
algoritme ML lainnya. Koutina dan Kermanidis (2011) dengan nilai akurasi
90.90% untuk data sampel, dan Corrales et al. (2018) dengan nilai akurasi di atas
90% untuk dataset yang diujicobakan.

Pengukuran Kinerja Prediksi

Jenis pengukuran yang umum dan banyak digunakan untuk mengevaluasi


efektivitas dari pendekatan algoritme ML yaitu True Positive (TP) rate, True
Negatif (TN) rate, precision dan Matthews Correlation Coefficient (MCC),
Receiver Operating Characteristic (ROC) Curve, Precision Recall Curve (PRC)
(Kaur et al. 2015, Smedt et al. 2016, Kilic et al. 2017) dan F-measure (Pojon
2017).

3 METODOLOGI

Periode dan Lokasi Riset

Penelitian ini dimulai pada bulan September 2018 sampai dengan Juni 2019
dengan studi kasus pada mata kuliah Data Mining Terapan yang ditawarkan ke
mahasiswa S2 Ilmu Komputer FMIPA IPB. Lokasi riset di Kampus IPB Dramaga
dengan alamat Jalan Raya Dramaga, Babakan, Kecamatan Dramaga, Kabupaten
Bogor, Jawa Barat.

Peralatan Penelitian

Penelitian ini menggunakan komputer dengan processor Core™ i5-3337U,


RAM 4 GB, dengan sistem operasi 64-bit. Sedangkan perangkat lunak terdiri dari
Microsoft Excel untuk analisis kualitas data, program R untuk mengidentifikasi
siswa mendominasi dan pembuatan model prediksi, RapidProM untuk analisis e-
learning.

Pengumpulan Data

Data diperoleh dengan cara memanfaatkan log aktivitas pada grup social
network dan e-learning serta nilai-nilai mata kuliah Data Mining Terapan yang
ditawarkan kepada mahasiswa S2 Ilmu Komputer FMIPA IPB. Periode data yaitu
semester genap tahun akademik 2017/2018. Beberapa atribut yang akan
digunakan pada penelitian ini seperti pada Tabel 3.
10

Tabel 3 Atribut pada social network, e-learning, dan nilai-nilai siswa


Nama atribut Deskripsi Tipe
Id Id, nama, atau nomor handphone pengguna Teks
social network
Pesan Teks, gambar, video, fail yang dikirim atau Teks
diterima pada social network
Tanggal Tanggal mengirim dan menerima pesan Tanggal
Time Tanggal siswa mengakses e-learning IPB Tanggal
User full Nama lengkap siswa dan nomor induk Teks
name
Affected user Nama user Teks
Event context Konteks aktivitas siswa Teks
Component Komponen aktivitas e-learning Kategori
Event name Nama kelas kegiatan/aktivitas Kategori
Deksripsi aktivitas yang dilakukan oleh Teks
Description siswa
Origin Jenis platform yang digunakan berinteraksi Kategori
dengan e-learning
IP address Internet Protokol perangkat computer Numerik
Nilai Presentasi Nilai presentasi siswa Kuantitatif
Nilai Makalah Nilai makalah siswa Kuantitatif
Progres Projek Nilai progress projek tugas akhir Kuantitatif
Tugas Akhir Nilai tugas akhir (proyek akhir) Kuantitatif
P1 Praktikum minggu I Kuantitatif
P2 Praktikum minggu II Kuantitatif
P3 Praktikum minggu III Kuantitatif
P4 Praktikum minggu IV Kuantitatif
P5 Praktikum minggu V Kuantitatif
P6 Praktikum minggu VI Kuantitatif
PR (TJD) Pekerjaan rumah Kuantitatif
Parktikum Nilai praktikum Kuantitatif
Nilai UTS Nilai ujian tengah semester Kuantitatif
Nilai UAS Nilai ujian akhir semester Kuantitatif
Nilai huruf Nilai akhir siswa dalam bentuk huruf mutu Nominal
mutu (A, AB, B, BC, C, D)

Kerangka Kerja Penelitian

Penelitian ini menggunakan 3 dari 4 strategi analisis diantaranya yaitu


analisis deskriptif, analisis diagnostik, dan analisis prediksi. Tahap awal sebelum
melakukan ketiga analisis tersebut adalah dilakukannya analisis kualitas data.
Kerangka kerja penelitian secara keseluruhan seperti ditunjukkan pada Gambar 3.
11

Mulai
Tujuan pertama dan kedua Tujuan ketiga

Analisis kualitas data


log aktivitas social Memodelkan analisis
network dan e-learning prediksi

Analisis deskriptif log


aktivitas social network Mengevaluasi dan
dan e-learning Memvalidasi model
prediksi

Analisis diagnostik 1,
analisis kinerja siswa
pada social network Tidak Apakah rata-rata
akurasi>= 75% ?
Analisis diagnostik 2,
analisis kinerja siswa Ya
pada e-learning
Selesai

Gambar 3 Kerangka kerja penelitian yang menggambarkan tahapan untuk


mencapai tujuan 1, 2, dan 3

Analisis Kualitas Data

Analisis kualitas data atau praproses digunakan untuk memahami data yang
kompleks dan heterogen. Proses yang dilakukan pada praproses yaitu menghapus
data duplikat, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan
dalam data serta menangani missing value.

Praproses pada Social Network


Tahapan ini menangani interaksi antara satu siswa dengan lainnya yang
disimpan dalam 3 kolom. Kolom pertama merepresentasikan tanggal siswa
berinteraksi, kolom kedua merepresentasikan id siswa 𝑥𝑖 dan kolom ketiga
merepresentasikan id siswa 𝑦𝑖 atau lawan interaksi dari id siswa 𝑥𝑖 . Langkah-
langkah yang dilakukan pada praproses data social network adalah sebagai berikut,
1 Memasukkan data interaksi social network ke dalam aplikasi
spreadsheet
2 Mengkonversi text ke kolom dengan delimiters spasi ditambah tanda –
(strip) ditambah spasi
3 Menghapus baris yang mengandung hanya terdapat kata created, added,
<media omitted>, simbol seperti 😕, dan baris tanpa tanggal dan id
siswa
12

4 Mengganti isi pesan dengan id siswa dengan syarat siswa berinteraksi


dengan menggunakan simbol @, nama panggilan, atau
menanggapi/membalas pesan.
5 Konversi fail dari format TXT ke CSV (Comma-separated values).

Praroses pada E-learning


Praproses log aktivitas pada e-learning dilakukan untuk menghilangkan
atribut yang tidak sesuai dengan ProM Framework. Pembagian dataset juga
dilakukan pada tahapan ini, membagi dataset siswa yang memperoleh nilai huruf
A, AB, dan B. Tujuan dari pembagian ini adalah untuk memahami fakta-fakta
yang terjadi pada siswa yang memperoleh nilai A, AB, dan B. Langkah-langkah
praproses pada log aktivitas e-learning adalah sebagai berikut,
1 Memasukkan log aktivitas ke dalam aplikasi spreadsheet
2 Konversi text ke kolom dengan delimiters tanda koma
3 Menghapus kolom hingga menyisahkan time, user, event name, dimana
time merepresentasikan waktu siswa beraktivitas, user sebagai nama
siswa yang dilengkapi nomor induk, dan event name sebagai
representasi aktivitas siswa pada e-learning.
4 Menghapus user yang tidak mengikuti kelas topik dalam Data Mining
Terapan yang ditawarkan kepada mahasiswa S2 Ilmu Komputer FMIPA
IPB tahun akademik 2017/2018
5 Membagi dataset menjadi 3, dataset 1 siswa yang memperoleh nilai
huruf mutu A, dataset 2 siswa memperoleh nilai huruf mutu B, dan
dataset 3 siswa memperoleh nilai huruf mutu A, AB, dan B.
6 Konversi fail dari format CSV ke XES (eXtensible Event Stream)

Praproses pada Model Prediksi


Praproses pada pembuatan model prediksi bertujuan menyiapkan dataset
yang baik agar diperoleh nilai akurasi yang tinggi dan proses komputasi yang
singkat. Kesalahan dalam praproses akan berdampak buruk pada keseluruhan
proses pembuatan model maupun proses pengujian. Oleh karena itu, praproses
data pada tahapan ini dimulai dengan menyiapkan seluruh data yaitu hasil analisis
social network dan analisis proses serta nilai-nilai siswa. Hasil penggabungan
distandarisasi dengan menggunakan dua angka di belakang koma.

Analisis Deskriptif

Setelah melalui tahap analisis kualitas data, data diproses sedemikian


sehingga dapat disajikan dalam bentuk tabel, grafik, dan histogram. Pada studi ini,
bentuk tersebut dapat memberikan informasi tentang interaksi siswa pada social
network dan e-learning dan sebaran nilai ujian siswa.

Analisis Diagnostik

Analisis diagnostik pada siswa dilakukan untuk mengetahui penyebab sesuai


terjadi pada siswa berkaitan dengan aktivitas pada grup social network dan e-
13

learning. Analisis diagnostik pada penelitian ini memiliki 2 tujuan yaitu


mengidentifikasi siswa mendominasi dan melakukan conformance analysis
terhadap log aktivitas pada e-learning.

Identifikasi Siswa yang Mendominasi dan Free-rider


Derajat centrality digunakan untuk mengidentifikasi siswa yang
mendominasi dan free-rider yang merupakan tujuan 1 dari penelitian ini. Nilai
centrality digunakan karena merepresentasikan dari interaksi siswa. Interaksi
siswa pada grup social network merepresentasikan nilai centrality. Gambar 4
menunjukkan tahapan mengidentifikasi siswa yang mendominasi dan free-rider
pada grup social network.

Start

Fail data Pembentukan Pengukuran


CSV network network

Nilai Penerapan algoritme


End
Centrality Kamada Kawai

Gambar 4 Tahapan identifikasi siswa yang mendominasi dan free-rider


Pembentukan Network
Setelah melakukan praproses data, tahapan selanjutnya adalah membuat
network pada program R dengan Igraph package yang merupakan sebuah library
untuk analisis network. Terdapat dua argumen yang penting pada pembuatan
network dengan Igraph yaitu data frame dan directed. Data frame berisikan daftar
symbolic edge yang disimpan dalam dua kolom. Argumen directed berisikan nilai
skala logika (true atau false) untuk membuat graph terarah, jika nilainya false
maka membentuk graph tidak terarah.
Pengukuran Network
Pengukuran network yang dinotasikan sebagai graph 𝐺 = (𝑉, 𝐸), dimana
V merupakan vertex dan E (edge) penghubung antara vertex 𝑥𝑖 berinteraksi vertex
𝑦𝑖 dengan menerapkan fungsi degree (Krebs 2008). Degree dari vertex adalah
properti struktural yang terbagi menjadi 3 jenis yaitu out-degree (hub), in-degree
(authority), dan all-degree. Pada penelitian ini, vertex merupakan siswa dimana
setiap siswa ke- 𝑖 di dalam network memiliki 2 nilai yang non-negative yaitu nilai
authority 𝑥𝑖 dan nilai hub 𝑦𝑖 . Nilai yang diberikan pertama kali pada 𝑥𝑖 dan 𝑦𝑖
tidak bernilai nol. Nilai hub dan authority dari sekumpulan vertex I seperti pada
Algoritme 1.
Algoritme HITS atau kepanjangan dari Hyperlink-Induced Topic Search
dan dikenal pula dengan nama algoritme hubs dan authorities pertama kali
diperkenalkan oleh Kleinberg (1999). Algoritme HITS telah digunakan pada
analisis social network seperti menemukan pengguna yang sering berkicau atau
membagi informasi pada aplikasi sosial media (Cheong dan Cheong 2011).
14

Algoritme 1 HITS (Hung et al. 2010)


1 Setiap vertex, 𝑖 ∈ I, 𝑎𝑖 dan ℎ𝑖 diberi nilai awal 1.
2 Mengulang perhitungan di bawah ini sampai 𝑎𝑖 dan ℎ𝑖 untuk setiap vertex i
∈ I tidak berubah lagi.
 Setiap vertex i ∈ I,

𝑎𝑖 = ∑ ℎ𝑖 ′ , ℎ𝑖 = ∑ 𝑎𝑖 ′ , (1)
𝑖 ′ ∈𝑂 𝑖 ′ ∈𝑇

dimana O adalah kumpulan vertex yang berada pada kumpulan I dan


berinteraksi ke vertex lain, i dan T kumpulan vertex yang di dalam
kumpulan I dan terinteraksi dari vertex i.
 𝑎𝑖 dan ℎ𝑖 dinormalisasi seperti berikut

∑ 𝑎𝑖 = ∑ ℎ𝑖 = 1 (2)
𝑖∈𝐼 𝑖∈𝐼

Penerapan Algoritme Kamada Kawai


Algoritme Kamada Kawai (KK) digunakan untuk hinglighting degree dan
layout agar memudahkan identifikasi siswa yang mendominasi. Layout yang
dihasilkan akan tampak perbedaan masing-masing siswa dalam berinteraksi di
social network. Psoudecode algoritme KK yang digunakan pada penelitian ini
seperti pada Algoritme 2.

Algoritme 2 Kamada Kawai (Cheong dan Si 2017)


1 Input : topologi network G = (V, E)
2 Output : Gambaran visual dari network G
3 Menghitung jarak sesuai teori graph 𝑑_(𝑖, 𝑗) for 1 ≤ 𝑖 ≠ 𝑗 ≤ 𝑛;
4 Menghitung jarak ideal 𝑙_(𝑖, 𝑗) 𝑓𝑜𝑟 1 ≤ 𝑖 ≠ 𝑗 ≤ 𝑛;
5 Menghitung tingginya 𝑘_(𝑖, 𝑗) 𝑓𝑜𝑟 1 ≤ 𝑖 ≠ 𝑗 ≤ 𝑛;
6 Inisialisasi posisi untuk titik 1,2,…n;
7 While 𝑚𝑎𝑥𝑖 ∆𝑖 > ԑ 𝒅𝒐 {
8 Misalkan titik 𝑚 adalah titik terbaik ∆𝑚 = 𝑚𝑎𝑥𝑖 ∆𝑖 ;
9 While ∆𝑚 > ԑ 𝒅𝒐 {
Menghitung δx dan δy untuk 𝑡𝑖𝑡𝑖𝑘𝑚 ;
𝑥𝑚 = 𝑥𝑚 + 𝛿𝑥; /*mengubah posisi x dari titik 𝑥𝑚 */
𝑦𝑚 = 𝑦𝑚 + 𝛿𝑦; /* mengubah posisi y dari titik 𝑥𝑚 */
10 }
11 }

Conformance Checking
ProM Framework digunakan pada penelitian ini untuk melakukan seluruh
tahapan analisis proses pada e-learning. Tahapan secara keseluruhan analisis
proses pada ProM Framework seperti pada Gambar 5. Gambar 5 menampilkan
tahapan untuk mengerjakan tujuan 2 pada penelitian ini.
15

Start

Fail log Penemuan Hasil Process


XES Process Model Model

End Nilai fitness Conformance


checking

Gambar 5 Tahapan analisis proses pada ProM Framework

Penemuan Process Model


Penemuan model dari proses atau process discovery berfungsi untuk
menggambarkan perilaku yang terjadi di masa lalu (histori) yang bersumber dari
log aktivitas dalam bentuk model proses. Model proses direpresentasikan dalam
bentuk notasi yang terdapat pada ProM Framework seperti notasi jaringan Petri
(Aalst 2011). Jaringan Petri adalah sebuah bahasa proses, alur kerja dan rantai
proses berdasarkan pada aktivitas dengan melibatkan algoritme (Aalst 2016).
Model yang ditemukan oleh algoritme alpha adalah jaringan yang merupakan
siklus yang ditampilkan dalam bentuk grafik sebagai wakil dari perilaku paling
umum (Aalst 2011). Pelabelan jaringan Petri (N) mengacu pada persamaan 3
(Dongen et al. 2016).

𝑁 = (𝑃, 𝑇, Ƒ, 𝑚𝑜 , 𝑚𝑓 , 𝜆) (3)

dimana 𝑃 merupakan kumpulan dari places (halaman e-learning), 𝑇 kumpulan


aktivitas (𝑃 ∩ 𝑇=Ø), Ƒ: (𝑃 x 𝑇) ⋃ (𝑇 x 𝑃) → {0,1} diagram relasi, 𝑚𝑜 penanda
awal, 𝑚𝑓 penanda akhir (final), dan 𝜆 adalah label kelas aktivitas. Otomatisasi
model proses ke dalam jaringan Petri dengan algoritme α (alpha). Algoritme α
digunakan dalam process mining yang bertujuan merekonstruksi kausalitas dari
serangkaian aktivitas (Weerapong et al. 2012). Algoritme ini pertama kali
diperkenalkan oleh Aalst et al. (2004) yang terdiri dari 3 fase yaitu pra-
pemprosesan (menyimpulkan hubungan antara transisi), pengolahan
(mengeksekusi algoritme alpha), dan pasca pemprosesan.

Conformance Checking
Setelah process discovery yang menghasilkan model proses dalam bentuk
notasi Petri net, langkah berikutnya yaitu melakukan analisis dengan conformance
checking. Conformance checking bertujuan untuk memantau penyimpangan
antara perilaku yang diamati dalam log aktivitas dan model proses normatif (hasil
discovery) (Rozinat dan Aalst 2008, Aalst 2011). Berdasarkan cara tersebut, maka
penyimpangan perilaku atau tindakan-tindakan yang tidak sesuai dengan proses
model dapat diidentifikasi (Ghazal et al. 2017). Dimensi utama dalam mengukur
kualitas hasil conformance checking yaitu seperti pada persamaan 4 (Aalst 2016).
16

1 𝑚 𝑟
𝑓𝑖𝑡𝑛𝑒𝑠𝑠 (𝜎, 𝑁) = (1 − ) + (1 − ) (4)
2 𝑐 𝑝

dimana 𝜎 pada penelitian ini adalah trace (jalur) yang dilalui oleh aktivitas siswa.
Ada empat jenis perhitungan: p (token yang diproduksi), c (token yang digunakan),
m (token yang bermasalah), dan r (token yang tersisa). Token melambangkan suatu
bahan yang akan diolah dan disertai dengan aktivitasnya. Nilai fitness berada pada
rentang 0 - 1, dimana 0 berarti sangat buruk dan 1 berarti sempurna atau jawaban
dari log aktivitas tidak terdapat masalah. Sebagai contoh, jika nilai fitness (Lfull,
N1) = 0.90 berarti 90% dari aktivitas di dalam (Lfull) dapat diperiksa oleh sistem
secara benar. Sebuah model yang mempunyai nilai fitness yang baik dapat
mengulang lebih banyak traces (Aalst 2011).

Analisis Prediksi

Tahapan pada pemodelan prediksi secara umum yaitu membuat training


dataset dan testing dataset, menerapkan dan mengevaluasi masing-masing
algoritme (Kilic et al. 2017). Tahapan analisis yang diperkenalkan oleh Kilic et.al.
(2017) tersebut digunakan pada penelitian ini yang merupakan tujuan 3 seperti
pada Gambar 6.

Mulai

Pembagian dataset
Fail data Penerapan
training dan
CSV Algoritme RF
dataset testing

Tidak

Rata-rata
Selesai akurasi ≥ 75%? Evaluasi dan validasi
kinerja algoritme RF
Ya

Gambar 6 Tahapan analisis prediksi digambarkan dalam bentuk flowchart

Pembagian Dataset Training dan Dataset Testing


Pada tahapan ini, klasifikasi dilakukan berdasarkan variabel dependent.
Sistem dilatih menggunakan set training dan evaluasi kinerja dilakukan
menggunakan set testing. Pembagian proporsi dataset menggunakan Leave One
Out Cross Validation (LOOCV) dengan K = N. LOOCV adalah jenis dari K-fold
validation untuk menangani data khusus dan dataset yang sedikit dengan K = N
(Cheng et al. 2017).

Penerapan Algoritme RF
Algoritme ML diterapkan dalam pembuatan model prediksi bertujuan untuk
mencari model yang akurasinya tinggi dan nilai error-nya rendah. Salah satu
17

algoritme ML yaitu RF atau random decision forest (Ho 1995). Algoritme RF


memungkinkan untuk klasifikasi multi-class (Liaw dan Wiener 2002) seperti pada
Algoritme 3.

Algoritme 3 Random Forest (Liaw dan Wiener 2002)


1 Membuat sampel 𝑛𝑡𝑟𝑒𝑒 Bootstrap dari data asli.
2 Untuk setiap sampel Bootstrap, tumbuhkan tree klasifikasi yang tidak
dipangkas dengan modifikasi hal berikut:
 Pada setiap node, pilih split terbaik di antara semua prediktor,
 Ambil secara acak sampel 𝑚𝑡𝑟𝑦 dari prediktor dan pilih split terbaik
diantara variabel-variabel tersebut.
3 Memprediksi data baru dengan menggabungkan prediksi 𝑛𝑡𝑟𝑒𝑒

Pada penelitian ini pembuatan sampel dengan metode LOOCV karena baris
data yang digunakan sedikit. Modifikasi Algoritme 3 dengan menggunakan
LOOCV ditunjukkan pada Algoritme 4.

Algoritme 4 Random Forest


1 Membuat sampel 𝑛𝑡𝑟𝑒𝑒 LOOCV dari data asli.
2 Untuk setiap sampel LOOCV, tumbuhkan tree klasifikasi yang tidak
dipangkas dengan modifikasi hal berikut:
 Pada setiap node, pilih split terbaik di antara semua prediktor,
 Ambil sampel 𝑚𝑡𝑟𝑦 dari prediktor dan pilih split terbaik diantara
variabel-variabel tersebut.
3 Memprediksi data baru dengan menggabungkan prediksi 𝑛𝑡𝑟𝑒𝑒

Evaluasi dan Validasi Kinerja Algoritme RF

Evaluasi dan validasi terhadap kinerja algoritme ML terdiri atas 4 metode


yaitu metode Hold out, K-Fold CV, Leave one out CV, dan metode Bootstrap
(Schneider 1997). Algoritme klasifikasi untuk binary class berkinerja terbaik
didasarkan pada jumlah rata-rata dari uji analisis statistik seperti TP (True Positif)
Rate, TN (True Negatif) Rate, precision, (Kilic et al. 2017). Pada klasifikasi multi-
class, pengukuran tetap didasarkan pada klasifikasi binary class dengan dibagi 𝑙
dimana 𝑙 sebagai kelas yang non-overlapping dan i merupakan item dari kelas
yang akan diuji. Berikut ini persamaan-persamaan pada multi-class, persamaan 5
untuk rata-rata akurasi, persamaan 6 untuk nilai error (Sokolova dan Lapalme
2009).
𝑡𝑝𝑖 +𝑡𝑛𝑖
∑𝑙𝑖=1
𝑡𝑝𝑖 +𝑓𝑛𝑖 +𝑓𝑝𝑖 +𝑡𝑛𝑖
Rata-rata akurasi = (5)
𝑙

𝑓𝑝𝑖 +𝑓𝑛𝑖
∑𝑙𝑖=1
Nilai error = 𝑡𝑝𝑖 +𝑓𝑛𝑖 +𝑓𝑝𝑖 +𝑡𝑛𝑖 (6)
𝑙
18

4 HASIL DAN PEMBAHASAN

Kualitas Data

Kualitas Data Social Network


Analisis kualitas data social network merupakan tahapan praproses data
interaksi siswa pada grup WhatsApp. Grup WhatsApp menyimpan data
percakapan yang direpresentasikan sebagai log aktivitas social network pada
penelitian ini. Contoh log aktivitas pada grup Whatsapp ditunjukkan pada Gambar
7(a) dengan jumlah baris sebanyak 1,734. Setelah melalui tahapan praproses maka
jumlah data menjadi 691 baris yang terdiri atas tiga kolom yaitu tanggal, id siswa
𝑥𝑖 , dan id siswa 𝑦𝑖 . Contoh log aktivitas yang telah melalui tahap praproses
ditunjukkan pada Gambar 7(b).

(a) (b)
Gambar 7 Data grup WhatsApp (a) sebelum (b) sesudah analisis kualitas data

Kualitas Data E-learning


Analisis kualitas data log aktivitas merupakan tahapan praproses data log
siswa pada e-learning. Pada penelitian ini, log aktivitas pada e-learning berjumlah
18,386 baris dan terdiri dari 9 kolom yaitu time, user full name, affected user,
event context, component, event name, description,origin, IP address. Contoh
baris data log aktivitas sebelum praproses ditunjukkan pada Gambar 8(a). Setelah
melalui proses data cleaning, jumlah data menjadi 2,235 baris dan 3 kolom yaitu
time, user, dan event name. Gambar 8(b) menunjukkan data log aktivitas setelah
analisis kualitas data. Pada tahapan ini, dilakukan pula insialisasi user guna
menjaga privasi siswa tersebut.

(a) (b)
Gambar 8 Log aktivitas (a) sebelum (b) sesudah analisis kualitas data
19

Deskripsi Data Siswa

Deskriptif Siswa pada Social Network


Nilai interaksi siswa pada social network dapat ditampilkan dalam bentuk
histogram seperti pada Gambar 9. Gambar 9 menunjukkan bahwa sebagian besar
siswa berinteraksi pada grup social network berada pada rentang 0 – 50 kali.
Sedangkan siswa yang frekuensi interaksinya pada rentang 250 – 300 hanya satu
siswa.
Histogram interaksi siswa
Frekuensi
wa

Interaksi
Jumlah interaksi

Gambar 9 Sebaran jumlah interaksi siswa pada grup social network


Deskripsi secara lengkap dari interaksi siswa dalam grup social network
menggunakan library Pastecs pada bahasa R seperti Tabel 4. Total interaksi pada
Tabel 4 sebanyak 1,382 merupakan representasi dari dua kolom, kolom pertama
adalah id siswa 𝑥𝑖 dan kolom kedua adalah id siswa 𝑦𝑖 yang berinteraksi dengan
id siswa 𝑥𝑖 .
Tabel 4 Deskripsi interaksi siswa pada social network
Deksripsi Nilai
Jumlah siswa 14
Jumlah null a
0
Jumlah na b
0
Minimal interaksi 2
Maksimal interaksi 283
Total interaksi 1,382
Median 64
Mean 98
a
Kata kunci khusus yang berarti tidak memiliki nilai. bNilai na
merepresentasikan adanya nilai yang salah atau tidak dikenali oleh
sistem komputer.

Siswa yang mengirim pesan pada grup social network disertai dengan
tanggal. Interaksi siswa berlangsung selama satu semester yang dimulai pada
tanggal 06 Februari 2018 sampai dengan 20 Juli 2018. Puncak interaksi siswa
20

terjadi pada rentang tanggal 06 sampai dengan 17 Februari 2018. Deskripsi secara
lengkap dari interaksi siswa berdasarkan pada tanggal seperti Gambar 10.

Interaksi siswa tanggal 06 Februari sd 20 Juli 2018


Frekuensi

Tanggal

Gambar 10 Interaksi siswa pada social network

Karakteristik Mata Kuliah Topik dalam Data Mining Terapan (KOM631)


Mata kuliah KOM631 terdiri atas 3 SKS, 2 SKS teori dan 1 SKS praktikum.
Pengajar berjumlah 3 orang yang terdiri atas dosen dengan kode ISS, TDJ, dan
ANN. Perkuliahan dengan kode dosen ISS berlangsung secara tatap muka di kelas
untuk materi teori dan online melalui LMS IPB untuk materi praktikum. Jumlah
pertemuan dosen ISS berjumlah lima kali yang disertai dengan tugas akhir pada
akhir perkuliahan.
Alur kerja dari pembelajaran online dari sisi mahasiswa adalah sebagai
berikut,
1 Mahasiswa login ke LMS yang beralamat pada http://newlms/ipb.ac.id sesuai
dengan akun masing-masing,
2 Mahasiswa berada pada halaman utama LMS dan memilih mata kuliah Topik
dalam Data Mining Terapan (KOM631),
3 Mahasiswa memilih topik sesuai dengan pertemuan yang sedang berlangsung,
4 Mahasiswa membuka materi kuliah dalam format pdf, mengunduh latihan
praktikum dalam format fail R, materi praktikum, dan dataset praktikum.
5 Mahasiswa mengumpulkan tugas sesuai dengan batas waktu yang telah
ditentukan oleh dosen.

Deksriptif Siswa pada E-Learning


Langkah pertama dalam melakukan analisis log aktivitas adalah
memasukkan data log yang berformat XES (eXtensible Event Stream) ke dalam
aplikasi RapidProM. Pada penelitian ini terdapat jumlah siswa sebanyak 14 orang
21

yang aktivitasnya dimulai pada tanggal 23 Januari 2018 sampai dengan 15 Juli
2018. Rangkuman log aktivitas siswa pada e-learning seperti pada Tabel 5.
Tabel 5 Rangkuman log aktivitas siswa di e-learning
Deksripsi Nilai
Jumlah siswa 14
Jumlah aktivitas 2,235
Jumlah kelas aktivitas 16
Aktivitas siswa per kelas
Minimal 4
Maksimal 261
Rata-rata 160
Kelas aktivitas per siswa
Minimal 4
Maksimal 11
Rata-rata 9

Deskripsi aliran log aktivitas setiap siswa dalam e-learning ditunjukkan


pada Tabel 6. ID siswa 34340 pada Tabel 6 menunjukkan jumlah aktivitas paling
tinggi yang berarti bahwa kinerja siswa tersebut pada e-learning merupakan
kinerja paling tinggi dibanding siswa yang lain. Sedangkan siswa dengan kinerja
paling rendah yaitu dengan ID 34078.
Tabel 6 Rangkuman aktivitas setiap siswa
ID Siswa Jumlah aktivitas dalam
e-learning
34340 261
34986 198
34140 196
34107 194
34404 191
34085 187
34156 174
34075 173
34073 169
34092 164
34070 161
34074 148
34078 15

Informasi yang dapat diperoleh dari log aktivitas pada ProM Framework
salah satunya adalah rangkuman log. Rangkuman log berisi informasi tentang
aktivitas setiap kelas yang didefinisikan menjadi event name, event name AND
lifecycle transition, dan jalur berdasarkan tanggal siswa beraktivitas pada e-
learning. Pada bagian event name ditampilkan jumlah aktivitas dan persentasenya
dari seluruh kelas aktivitas seperti Tabel 7.
22

Tabel 7 Rangkuman log aktivitas berdasarkan jenis kelas aktivitas


Jumlah
Jenis kelas aktivitas Persentase (%)
aktivitas
Course viewed 868 38.83
Course module viewed 625 27.96
The status of the submission has been 351 15.70
viewed
Submission form viewed 93 4.16
A file has been uploaded 87 3.89
A submission has been submitted. 84 3.75
Submission created. 72 3.22
Lainnya 55 2.46

Tabel 8 menunjukkan log aktivitas pada e-learning setelah dilakukan proses


discovery. Jenis kelas aktivitas yang memiliki keterangan complete berarti kelas
aktivitas tersebut dikenali oleh algoritme discovery pada ProM Framework.
Jumlah persentase log aktivitas pada Tabel 7 dan Tabel 8 memiliki kesamaan. Hal
ini dapat dipahami bahwa algoritme discovery mampu mengenali dengan benar
sebagian besar kelas aktivitas.
Tabel 8 Rangkuman log aktivitas berdasarkan nama aktivitas dan siklus transisi
Jumlah
Jenis kelas aktivitas Persentase (%)
aktivitas
Course viewed+complete 868 38.83
Course module viewed+complete 625 27.96
The status of the submission has been 351 15.70
viewed+complete
Submission form viewed+complete 93 4.16
A file has been uploaded+complete 87 3.89
A submission has been submitted. +complite 84 3.75
Submission created. +complete 72 3.22
Lainnya 55 2.46

Rangkuman log dari setiap kelas aktivitas yang digambarkan dalam bentuk
jalur terhubung dari waktu ke waktu seperti pada Gambar 11. Grafik pada Gambar
11 menunjukkan aktivitas yang paling banyak dilakukan oleh siswa yaitu pada
rentang bulan Februari sampai dengan Maret 2018. Siswa cenderung sepi
beraktivitas pada rentang pada bulan April sampai pertengahan Juni 2018. Pada
akhir bulan Juni 2018 siswa beraktivitas namun hanya terjadi sesaat.
23

Gambar 11 Aktivitas siswa berdasarkan jalur dan waktu dalam e-learning

Diagnostik Siswa

Pada bagian ini akan dibahas tentang analisis diagnostik. Analisis diagnostik
digunakan untuk mengetahui “why did happened ?” pada hasil analisis deskriptif
interaksi siswa pada grup social network dan e-learning yang dihubungkan
dengan nilai akhir siswa. Nilai akhir siswa ditunjukkan seperti pada Tabel 9.
Tabel 9 Nilai huruf mutu mata kuliah topik dalam Data Mining Terapan
ID siswa Nilai huruf mutu
34140 A
34340 AB
34074 AB
34086 A
34092 B
34107 AB
34073 B
34404 A
34070 B
34085 B
34156 AB
34075 B

Diagnostik 1: Identifikasi Siswa yang Mendominasi


Hasil penelitian mengidentifikasi siswa mendominasi didasarkan pada nilai
hub dan authority interaksi siswa. Nilai hub dan authority diperoleh dengan
menggunakan fungsi hub.score dan authority.score pada library Igraph yang
24

merupakan interpretasi dari persamaan 1 dan 2 di dalam algoritme 1. Sourcecode


untuk identifikasi siswa yang mendominasi disediakan pada Lampiran 1. Hasil
identifikasi ditampilkan dalam bentuk highlighting degree dan layout dengan
menerapkan algoritme 2 yang hasilnya seperti Gambar 12(a) dan Gambar 12(b).

Mendominasi

Free-rider

(a) (b)

Gambar 12 Hasil identifikasi siswa mendominasi (a) hub setiap siswa (b)
authority setiap siswa
Gambar 12 menunjukkan siswa mendominasi dengan ID 34140 yang berarti
bahwa interaksi siswa tersebut lebih berpengaruh atau dominan daripada siswa
yang lain dalam grup social network. Selanjutnya, keputusan bahwa siswa
dominan terhadap siswa lain berdasarkan pada rataan nilai hubs dan authority.
Urutan hasil rataan nilai hubs dan authority interaksi siswa secara keseluruhan
ditunjukkan pada Tabel 10.
Tabel 10 Nilai hub dan authority setiap siswa
Id siswa Nilai huba Nilai authorityb Rata-rata nilai hub dan authority
34140 1.00 1.00 1.00
34340 0.73 0.84 0.78
34074 0.70 0.76 0.73
34086 0.63 0.82 0.72
34092 0.59 0.58 0.59
34107 0.76 0.39 0.57
34073 0.28 0.42 0.35
34404 0.21 0.23 0.22
34070 0.17 0.13 0.15
34085 0.10 0.16 0.13
34156 0.06 0.11 0.08
34075 0.02 0.03 0.03
a
Nilai hub adalah nilai interaksi siswa ketika berinteraksi keluar (out-degree) dengan siswa lain.
b
Nilai authoritie adalah nilai interaksi siswa ketika terdapat interaksi masuk (in-degree) dari siswa
lain.
25

ID siswa mendominasi dan memperoleh nilai A pada Tabel 10 diduga terjadi


karena siswa tersebut mengerti tentang tugas yang diberikan kepadanya dan
membagikan solusi atau menjawab pertanyaan dari anggota grup. Di samping itu,
terdapat siswa id 34404 menunjukkan nilai interaksi social network hanya 0.22
dan memperoleh nilai A. Siswa id 34404 tersebut diduga sebagai free-rider.
Diagnosa banyaknya interaksi yang terjadi pada rentang tanggal 6 sampai
dengan 22 bulan Februari 2018 karena rentang tersebut merupakan awal
perkuliahan dan pertama kali siswa mengerjakan tugas. Siswa berinteraksi selain
untuk berkenalan diduga siswa belum mengerti instruksi tentang tugas dan cara
mengerjakannya. Diagnosa tersebut didasarkan pada puncak dari siswa
berinteraksi yang terjadi pada tanggal 16 Februari yaitu sebanyak 90 kali interaksi
seperti pada Tabel 11 yang merupakan hari terakhir pengumpulan tugas pertama.
Tabel 11 Deskripsi interaksi siswa berdasarkan tanggal
Tanggal Jumlah interaksia
16 Februari 2018 90
24 Februari 2018 55
08 Februari 2018 43
02 Mei 2018 39
25 April 2018 34
20 Juli 2018 33
a
Jumlah interaksi 6 teratas

Jumlah interaksi siswa pada Tabel 11 menunjukkan bahwa meningkatnya


interaksi siswa hanya terjadi pada tanggal-tanggal tertentu. Hal ini dapat dipahami
bahwa siswa hanya berinteraksi pada saat akan mengumpulkan tugas (mendekati
deadline), sedangkan interaksi pada tanggal yang jumlah intensitasnya menurun,
siswa hanya sebatas mengirim informasi atau sekedar menanyakan kabar.
Berdasarkan pemaparan di atas, maka simpulan tujuan 1 penelitian ini
adalah siswa mendominasi pada grup social network dapat diidentifikasi
berdasarkan pada nilai tertinggi dari hub dan authority. Di samping itu, penelitian
ini mengidentifikasi siswa yang free-rider. Adanya siswa mendominasi dan free-
rider menjadikan siswa dalam grup tidak berkontribusi sama sehingga
rekomendasi dari hasil identifikasi ini adalah perlu adanya perlakuan di awal
perkuliahan bahwa interaksi siswa pada social network menjadi salah satu bagian
penilaian. Perlakuan di awal perkuliahan diharapkan menjadi pengendali bagi
siswa mendominasi untuk mengurangi dominasinya dan menjadi motivasi bagi
siswa free-rider untuk aktif berbagi dengan anggota grup.

Diagnostik 2: Kinerja Siswa pada E-learning


Data yang digunakan pada bagian ini adalah data siswa yang memperoleh
nilai huruf A, AB, dan B dengan jumlah 12 siswa dan data log 2,216 baris.
Discovery data log dilakukan dengan menerapkan algoritme IM yang terdapat
dalam extensions RapidProM yang hasilnya ditampilkan dalam bentuk jaringan
Petri. Model dalam bentuk jaringan Petri merupakan siklus yang ditampilkan
26

dalam bentuk grafik yang mewakili perilaku paling umum dari siswa yang
beraktivitas pada e-learning.
Parameter yang digunakan pada algoritme IM ada 3 yaitu event classifier,
variation, dan noise threshold. Nilai untuk parameter event classifier yaitu event
name AND lifecycle transition, Inductive Miner untuk nilai dari variation, dan
noise threshold = 0.2. Pengaturan parameter algoritme IM pada aplikasi
RapidProM ditunjukkan pada Lampiran 2. Hasil discovery secara umum dari
seluruh siswa ditampilkan dalam bentuk jaringan Petri seperti pada Lampiran 3.
Siklus pada Lampiran 3 meskipun bermanfaat, hanya merupakan pendekatan
tingkat permulaan untuk analisis discovery knowledge (Romero et al. 2016). Hal
tersebut dapat dipahami sebab jaringan yang terbentuk menunjukkan perilaku
umum semua siswa sehingga banyak hubungan/ketergantungan antara aktivitas
yang membuat model lebih sulit ditafsirkan.
Setelah mendapatkan discovery, langkah selanjutnya adalah melakukan
conformance checking terhadap model yang telah dihasilkan dalam bentuk
jaringan Petri seperti pada Lampiran 4. Syarat utama dalam melakukan
conformance checking adalah sebuah jaringan Petri dan data log. Terdapat 4
parameter yang menyertainya yaitu event classifier, Replay Algorithm, Max
Explored States, Timeout, dan Number of Threads. Pengaturan parameter
conformance checking pada aplikasi RapidProM ditunjukkan pada Lampiran 5.
Pada jaringan yang terbentuk tanda segiempat mewakili aktivitas siswa ketika
berinteraksi dengan antarmuka e-learning, dan busur/tautan mewakili
ketergantungan/hubungan antara aktivitas.

Zoom in

Course
module
viewed+compl
ete (177/0)

Course
viewed+comp
lete (214/0)

Gambar 13 Model workflow siswa yang memperoleh huruf mutu A


Analisis diagnostik pada bagian ini dibagi menjadi 3 dan menggunakan
analisis perbandingan workflow (alur kerja) antara siswa yang memperoleh huruf
mutu A (Gambar 13) dengan siswa yang memperoleh huruf mutu B (Gambar 14)
dan gabungan seluruh siswa yang memperoleh nilai huruf mutu A, AB, dan B
(Gambar 15). Jumlah masing-masing log aktivitas yaitu 587 baris untuk huruf
27

mutu A, 524 baris untuk huruf mutu B, dan 2,216 baris untuk siswa yang
memperoleh nilai huruf mutu A, AB, dan B.
Gambar 13 menunjukkan subnet (aktivitas) frekuensi hubungan relatif
tinggi dan saling berdekatan antara dua subnet yaitu curse course viewed dan
module viewed dan relatif sedikit pada subnet yang lain. Berdasarkan pola siswa
tersebut, maka dapat dipahami bahwa tipe siswa yang memperoleh huruf mutu A
lebih mementingkan aktivitas course module dan course module viewed dibanding
aktivitas lain. Dengan demikian, dapat diperoleh pengetahuan bahwa siswa yang
memperoleh huruf mutu A, di mana huruf mutu A merupakan nilai tertinggi,
beraktivitas lebih fokus pada membaca modul (materi kuliah) sebelum melakukan
aktivitas lain.

Zoom in
The status of the
submission has
been viewed +
complited

Submission form
viewed + complete
42/0

Course module
viewed+complete
(226/0)

Gambar 14 Model workflow siswa yang memperoleh huruf mutu B


Gambar 14 menunjukkan aktivitas siswa cenderung mementingkan aktivitas
the status of submission has been viewed dan hampir sama dengan aktivitas course
module viewed dan viewed course. Bahkan, terdapat aktivitas siswa ketika selesai
login ke dalam e-learning yang pertama dilakukannya adalah aktivitas the status
of submission has been viewed atau submission form viewed. Dengan demikian,
siswa yang memperoleh huruf mutu B kurang menganggap penting aktivitas
course module viewed yang berisi modul (materi kuliah). Hal ini dapat dipahami
bahwa siswa tersebut tidak membaca modul tetapi langsung pada form untuk
mengirim tugas atau siswa mendapat modul dari siswa lain yang telah mengambil
(download) materi terlebih dahulu.
Gambar 15 menunjukkan hasil conformance checking untuk siswa yang
memperoleh huruf mutu A, AB, dan B. Frekuensi aktivitas dari seluruh siswa yang
tinggi adalah course module viewed dan course viewed seperti Gambar 15. Di
samping itu, Gambar 15 menunjukkan adanya aktivitas yang sinkron (serentak)
yaitu The status of the submission has been viewed dengan rasio 351/28.
Terjadinya aktivitas yang sinkron diduga karena siswa mengumpulkan tugas
hampir pada waktu yang bersamaan (mendekati deadline). Pada penelitian ini,
28

nilai fitness untuk keseluruhan data log menunjukkan angka 0.94 yang berarti 94%
aktivitas di dalam model proses dapat dikenali dengan benar oleh ProM
Framework.

Zoom in

The status of the


Course module submission has been Course
viewed +complete viewed +complete viewed+complete
(623/0) (351/28) (835/0)

Gambar 15 Model workflow siswa yang memperoleh huruf mutu A,AB,dan B


Analisis selanjutnya adalah analisis kinerja berdasarkan waktu siswa
beraktivitas pada e-learning. Tujuan analisis pada bagian ini adalah mengetahui
kinerja properti masing-masing aktivitas siswa. Parameter dalam menggambarkan
pola aktivitas siswa yang didasarkan waktu seperti pada Lampiran 6.

Zoom in

Gambar 16 Kinerja siswa berdasarkan waktu beraktivitas


29

Properti aktivitas terdiri atas tiga yaitu througput time, waiting time, dan
sojourn time. Gambar 16 menunjukkan kinerja seluruh siswa berdasarkan waktu.
Aktivitas siswa bernilai rendah berarti siswa tidak membutuhkan waktu lama
untuk berpindah dari halaman e-learning tersebut. Sedangkan aktivitas yang nilai
propertinya tinggi seperti course searched pada Gambar 16 menunjukkan bahwa
siswa membutuhkan waktu yang lama untuk berpindah dari halaman tersebut.
Waktu yang lama untuk berpindah dari halaman web dapat didiagnosa sebagai
aktivitas yang mengalami bottleneck.
Berdasarkan paparan sebelumnya, maka simpulan tujuan 2 penelitian ini
adalah aktivitas siswa pada e-learning yang paling banyak berdasarkan hasil
conformance checking yaitu course module viewed dan course viewed. Informasi
tersebut dapat menjadi bahan pertimbangan untuk evaluasi kinerja siswa pada e-
learning bahwa layanan e-learning menyediakan banyak fasilitas tidak hanya
course module viewed dan course viewed. Hasil penelitian ini dapat pula menjadi
bahan evaluasi bagi pengelola LMS mata kuliah topik dalam Data Mining Terapan
untuk menyederhanakan layanan karena perilaku siswa hanya terfokus pada dua
aktivitas tersebut.

Model Prediksi Kinerja Siswa

Hasil analisis social network dan log aktivitas digabungkan menjadi satu
dataset. Variabel class menjadi variabel prediktor yang terdiri dari 3 label yaitu
grade A, AB, dan B yang kemudian ditransformasi menjadi A = 1, AB = 2, dan B
= 3. Deskripsi lengkap dari dataset seperti pada Tabel 12.
Tabel 12 Komponen dataset pada model prediksi
Variabel Deskripsi Tipe
Trace fitness Nilai trace fitness setiap siswa numerik
Move-log fitness Nilai move-log fitness setiap siswa numerik
Move-model fitness Nilai move-model fitness setiap siswa numerik
social_network_as Nilai authority setiap siswa numerik
social_network_hub Nilai hub setiap siswa numerik
Nilai Presentasi Sudah jelas numerik
Nilai Makalah Sudah jelas numerik
Progres Projek Sudah jelas numerik
Tugas Akhir Sudah jelas numerik
P1 Nilai Praktikum 1 pada e-learning numerik
P2 Nilai Praktikum 2 pada e-learning numerik
P3 Nilai Praktikum 3 pada e-learning numerik
P4 Nilai Praktikum 4 pada e-learning numerik
P5 Nilai Praktikum 5 pada e-learning numerik
P6 Nilai Praktikum 6 pada e-learning numerik
PR Tugas PR dosen inisial TJD numerik
Praktikum Nilai praktikum numerik
UTS Nilai ujian tengah semester numerik
UAS 1 Nilai ujian akhir semester dosen 1 numerik
UAS 2 Nilai ujian akhir semester dosen 2 numerik
Nilai huruf Nilai akhir siswa A=1, AB =2 B =3 integer
30

Dataset pada penelitian ini tidak dipartisi dengan probabolitas 80:20 atau
70:30 untuk data train dan test karena menggunakan Leave One Out Cross
Validation (LOOCV). Langkah selanjutnya adalah melakukan pengujian terhadap
data train dengan menggunakan library randomForest dengan parameter number
of tree (ntree) = 100, mtry = 7, importance = TRUE, proximity = TRUE.
Sourcecode penerapan algoritme Random Forest (RF) seperti pada Lampiran 7
dan hasilnya ditampilkan dalam bentuk confusion matrix pada Tabel 13.
Tabel 13 Confusion matrix sebelum pembuatan model prediksi
Kelas A Kelas AB Kelas B
Kelas A 3 0 0
Kelas AB 2 1 1
Kelas B 0 2 3

Pengujian dengan nilai parameter ntree = 100 dan mtry 7 ternyata


menghasilkan nilai class error yang tinggi yaitu 41.67%. Nilai error class
diperoleh sesuai dengan persamaan 6. Angka error yang tinggi tersebut
mengindikasikan model yang dibuat harus di-tuning terlebih dahulu untuk
mendapatkan ntree dan mtry yang nilai rata-rata error-nya paling sedikit.
Dari proses tune pada algoritme RF, hasil estimasi error yang paling sedikit
yaitu pada angka 20 untuk ntree dan 7 untuk mtry. Angka-angka ntree dan mtry
pada penelitian ini berarti jumlah tree yang ditumbuhkan sebanyak 20 tree,
kemudian jumlah variabel yang dicoba tiap percabangan yaitu 7 variabel. Setelah
angka tersebut diperoleh, tahap selanjutnya adalah membuat model prediksi
menggunakan library caret pada R. Hasil model prediksi ditampilkan dengan
confusion matrix seperti pada Tabel 14.
Tabel 14 Confusion matrix setelah pembuatan model prediksi
Kelas A Kelas AB Kelas B
Kelas A 3 0 0
Kelas AB 0 4 0
Kelas B 0 0 5

Selain confusion matrix, deksripsi statistik pada model prediksi di atas


menunjukkan angka yang sangat baik. Nilai akurasi untuk data training mencapai
100% yang berarti bahwa seluruh data bernilai true positif atau seluruh data
terklasifikasi dengan benar oleh sistem. Tahapan selanjutnya setelah prediksi
terbentuk adalah tahap pengujian. Pengujian dilakukan dengan melibatkan data
testing yang telah dibuat pada tahap partisi data. Jumlah variabel sebanyak 21 dan
terdapat 10 variabel yang penting berdasarkan perhitungan rata-rata akurasi dan
gini dengan menggunakan fungsi varImpPlot pada library randomForest. Hasil
dari fungsi tersebut yang ditunjukkan pada Gambar 17 menghasilkan variabel
trace fitness dan social network hub berkontribusi terhadap nilai akhir siswa.
31

10 Variabel Penting
UTS
Tugas Akhir
UAS ANN
Tugas.Praktikum.ANN
social_network_as
Trace.fitness
Nilai.Presentasi
Nilai.Makalah
UAS..TDJ.
PR..TJD.
0 0.5 1 1.5 2 2.5
Mean Deacrease Accuracy

(a)

10 Variabel Penting

Tugas Akhir
Tugas.Praktikum.ANN
Nilai.Presentasi
UTS
UAS ANN
Nilai.Makalah
social_network_hub
UAS..TDJ.
Trace.fitness
social_network_as
0 0.5 1 1.5 2
Mean Decrease Gini

(b)
Gambar 17 Daftar 10 variabel penting (a) mean decrease accuracy (b)
mean decrease gini
Gambar 17 menunjukkan variabel UTS sebagai variabel terpenting. Jika
ingin memprediksi nilai siswa yang akan datang, maka hal yang dapat dilakukan
yaitu memprioritaskan pada nilai UTS. Aturan yang dapat diperoleh dari model
prediksi ini adalah jika nilai UTS siswa tinggi maka dapat diprediksi siswa akan
memperoleh nilai huruf yang baik.
Berdasarkan paparan sebelumnya, maka simpulan tujuan 3 pada penelitian
ini memberikan informasi bahwa interaksi siswa pada social network dan e-
learning berkontribusi terhadap nilai akhir siswa. Adanya kontribusi tersebut
sehingga direkomendasikan untuk menyertakan interaksi siswa pada social
32

network dan e-learning sebagai salah satu item penilaian dalam menentukan nilai
akhir siswa. Informasi tersebut dapat juga menjadi bahan pertimbangan bagi
pengelola untuk mendorong penggunaan e-learning secara masif dan menjadikan
grup social network sebagai layanan diskusi alternatif selain ruang diskusi yang
telah disediakan.

5 SIMPULAN DAN SARAN

Simpulan

Siswa yang mendominasi pada grup social network dapat diidentifikasi


berdasarkan pada nilai tertinggi dari hub dan authority. Penelitian ini
menghasilkan pula siswa yang free-rider. Terdapatnya siswa mendominasi dan
free-rider menjadikan siswa dalam grup tidak berkontribusi sama sehingga
rekomendasi dari hasil identifikasi ini adalah perlu adanya perlakuan di awal
perkuliahan bahwa interaksi siswa pada social network menjadi salah satu bagian
penilaian. Perlakuan di awal perkuliahan diharapkan menjadi pengendali bagi
siswa mendominasi untuk mengurangi dominasinya dan menjadi motivasi bagi
siswa free-rider untuk aktif berbagi dengan anggota grup.
Aktivitas siswa pada e-learning yang paling banyak berdasarkan hasil
conformance checking yaitu course module viewed dan course viewed. Informasi
tersebut dapat menjadi bahan pertimbangan untuk evaluasi kinerja siswa pada e-
learning bahwa layanan e-learning menyediakan banyak fasilitas tidak hanya
course module viewed dan course viewed. Hasil penelitian ini dapat pula menjadi
bahan evaluasi bagi pengelola LMS mata kuliah topik dalam Data Mining Terapan
untuk menyederhanakan layanan karena perilaku siswa hanya terfokus pada dua
aktivitas tersebut.
Analisis prediksi memberikan informasi bahwa interaksi siswa pada social
network dan e-learning berkontribusi terhadap nilai akhir siswa. Sehingga
direkomendasikan untuk menyertakan interaksi siswa pada social network dan e-
learning sebagai salah satu item penilaian dalam menentukan nilai akhir siswa.
Informasi tersebut dapat juga menjadi bahan pertimbangan bagi pengelola untuk
mendorong penggunaan e-learning secara masif dan menjadikan grup social
network sebagai layanan diskusi alternatif selain ruang diskusi yang telah
disediakan.

Saran

Penelitian ini masih memerlukan analisis lebih lanjut terhadap perilaku


interaksi siswa selain mendominasi dan free-rider. Selain itu, tampilan diagnosa
siswa yang mendominasi dan free-rider masih dalam bentuk back end, penelitian
selanjutnya dapat membuat aplikasi yang front-end. Penelitian selanjutnya dapat
pula membangun plugin analisis pada aplikasi e-learning. Nilai evaluasi prediksi
memiliki bias cukup tinggi sehingga menarik untuk diteliti lebih lanjut dengan
menambah data dalam membangun model prediksi.
33

DAFTAR PUSTAKA

Aalst WMP Van der. 2011. Process Discovery: An Introduction. Di dalam:


Process Mining. Ed ke-1 London: Springer. hlm. 125–156.
Aalst WMP Van der. 2016. Process mining: data science in action. Ed ke-2.
London: Springer.
Aalst WMP Van der, Weijters A, Maruster L. 2004. Workflow mining:
Discovering process models from event logs. IEEE Trans. Knowl. Data Eng.
16(9):1128–1142.doi:10.1109/TKDE.2004.47.
Ahajjam S, Haddad M El, Badir H. 2018. A new scalable leader-community
detection approach for community detection in social networks. Soc.
Networks. 54:41–49.doi:10.1016/j.socnet.2017.11.004.
Arruda GF De, Barbieri AL, Rodríguez PM, Rodrigues FA, Moreno Y, Costa L
da F. 2014. Role of centrality for the identification of influential spreaders
in complex networks. Phys. Rev. E. 90(3):32812.
Arsad PM, Buniyamin N, Manan JA. 2013. A Neural Network Students ’
Performance Prediction Model ( NNSPPM ). Di dalam: IEEE International
Conference on Smart Instrumentation, Measurement and Applications
(ICSIMA). Kuala Lumpur, Malaysia.
Baradwaj BK, Pal S. 2011. Mining Educational Data to Analyze Students‟
Performance. IJACSA. 2:63–69.doi:10.1177/039463200201500108.
Barneveld A Van, Arnold KE, Campbell JP. 2012. Analytics in higher education:
Establishing a common language. Volume ke-1.
Bhat UA. 2016. Runtime Monitoring of Data-Aware business rules with Integer
Linear Programming [tesis]. Tartu (EE): University of Tartu.
Bogarin A, Cerezo R, Romero C. 2018. Discovering learning processes using
Inductive Miner : A case study with Learning Management Systems
( LMSs ). Psicothema. 30(3):322–329.doi:10.7334/psicothema2018.116.
Bouhnik D, Deshen M. 2014. WhatsApp Goes to School : Mobile Instant
Messaging between Teachers and Students. JITE. 13:217–
231.doi:10.28945/2051.
Brodsky A, Shao G, Krishnamoorthy M, Narayanan A, Menascé D, Ak R. 2016.
Analysis and optimization based on reusable knowledge base of process
performance models. Int. J. Adv. Manuf. Technol. 88(1–4):337–
357.doi:10.1007/s00170-016-8761-7.
Cairns AH, Gueni B, Assu J, Joubert C, Khelifa N. 2015. Analyzing and
Improving Educational Process Models using Process Mining Techniques.
Di dalam: IMMM 2015 : The Fifth International Conference on Advances
in Information Mining and Management Analyzing. Vélizy-Villacoublay,
France. hlm. 17–22.
Cetinkaya L. 2017. The Impact of Whatsapp Use on Success in Education Process.
Int. Rev. Res. Open Distrib. Learn. 18(7):60–74.doi:10.28945/2051.
Chan FTS, Chong AY-L, Zhou L. 2012. An empirical investigation of factors
affecting e-collaboration diffusion in SMEs. Int. J. Prod. Econ. 138(2):329–
344.
Chen W, Wang Y, Yang S. 2009. Efficient influence maximization in social
networks. Di dalam: Proceedings of the 15th ACM SIGKDD international
34

conference on Knowledge discovery and data mining. Paris, France: ACM.


hlm. 199–208.
Cheng H, Garrick DJ, Fernando RL. 2017. Efficient strategies for leave-one-out
cross validation for genomic best linear unbiased prediction. J. Anim. Sci.
Biotechnol. 8(1):38.
Cheong F, Cheong C. 2011. Social Media Data Mining_ A Social Network
Analysis Of Tweets Dur. Di dalam: Pacific Asia Conference on Information
Systems (PACIS). hlm. 1–16.
Cheong S-H, Si Y-W. 2017. Accelerating the Kamada-Kawai algorithm for
boundary detection in a mobile ad hoc network. ACM Trans. Sens. Networks.
13(1):3.
Corrales DC, Ledezma A, Corrales JC. 2018. From Theory to Practice : A Data
Quality Framework for Classification Tasks. Symmetry (Basel). 10:1–
29.doi:10.3390/sym10070248.
Crespo PMT. 2013. Social networks exploration for educational data mining
[tesis]. Lisboa (PT): Instituto Superior Técnico.
Dahlstrom E, Brooks DC, Bichsel J. 2014. The current ecosystem of learning
management systems in higher education: Student, faculty, and IT
perspectives. Washington, DC: Educause.
Das S. 2013. Computational business analytics. Ed ke-1. Belmont, Massachusetts,
USA: CRC Press.
Delen D, Demirkan H. 2013. Data, information and analytics as services. Decis.
Support Syst. 55(1):359–363.doi:2012.05.044.
Dongen B Van, Carmona J, Chatain T. 2016. A Unified Approach for Measuring
Precision and Generalization Based on Anti-alignments. Di dalam: 14th
International Conference on Business Process Man- agement (BPM’16).
Rio de Janeiro, Brazil. hlm. 39–56.
Dongen BF Van, Medeiros AKA de, Verbeek HMW, Weijters A, Aalst WMP Van
Der. 2005. The ProM framework: A new era in process mining tool support.
Di dalam: International conference on application and theory of petri nets.
Springer. hlm. 444–454.
Emond B, Buffett S. 2015. Analyzing student inquiry data using process discovery
and sequence classification. Di dalam: International Conference on
Educational Data Mining. Canada. hlm. 412–415.
Fahd A. 2017. Social networking in higher education: academics’ attitudes, uses,
motivations and concerns [disertasi]. Sheffield (UK): Sheffield Hallam
University.
Fok WWT, Chen H, Yi J, Li S, Yeung HHA, Ying W, Fang L. 2014. Data mining
application of decision trees for student profiling at the open university of
China. Di dalam: Proceedings - 2014 IEEE 13th International Conference
on Trust, Security and Privacy in Computing and Communications,
TrustCom 2014. hlm. 732–738.
Ghatak A. 2017. Machine Learning with R. Ed ke-1. India: Springer.
Ghazal MA, Ibrahim O, Salama MA. 2017. Educational Process Mining: A
Systematic Literature Review. Di dalam: 2017 European Conference on
Electrical Engineering and Computer Science (EECS). Bern, Switzerland:
IEEE. hlm. 198–203.
Grossman RL, Siegel KP. 2014. Organizational models for big data and analytics.
35

J. Organ. Des. 3(1):20–25.doi:10.7146/jod.9799.


Hagerty J. 2016. 2017 Planning Guide for Data and Analytics. Gartner.:1–27.
[diunduh 2018 Okt 10]. Tersedia pada:
https://www.gartner.com/binaries/content/assets/events/keywords/catalyst/
catus8/2017_planning_guide_for_data_analytics.pdf
Ho TK. 1995. Random Decision Forest. Di dalam: Proceedings of 3rd
international conference on document analysis and recognition. Vol. 1. hlm.
278–282.
Hung BQ, Otsubo M, Hijikata Y, Nishida S. 2010. HITS algorithm improvement
using semantic text portion. Web Intell. Agent Syst. 8(2):149–
164.doi:10.3233/WIA-2010-0184.
[IPB] Institut Pertanian Bogor. [tahun tidak diketahui]. Topik dalam Data Mining
Terapan. [diunduh 2019 Mar 17]. Tersedia pada:
https://cs.ipb.ac.id/course/topik-dalam-data-mining-terapan/
Jugulum R. 2014. Competing with High Quality Data: Concepts, Tools, and
Techniques for Building a Successful Approach to Data Quality. Ed ke-10.
New Jersey: John Wiley & Sons, Inc.
Jugulum R. 2016. Importance of Data Quality for Analytics. Di dalam: Quality in
the 21st Century. Springer. hlm. 23–31.
Kaati L. 2014. Analysis and Mining of Tags,(Micro) Blogs, and Virtual
Communities. Di dalam: Alhajj R, Rokne J, editor. Encyclopedia of Social
Network Analysis and Mining. Ed ke-1 New York: Springer. hlm. 19–25.
Kaur P, Singh M, Josan GS. 2015. Classification and Prediction Based Data
Mining Algorithms to Predict Slow Learners in Education Sector. Di dalam:
3rd International Conference on Recent Trends in Computing 2015(ICRTC-
2015). Vol. 57. India: Elsevier Masson SAS. hlm. 500–508.
Kilic SD, Askin ÖE, Oz E. 2017. Identifying the classification performances of
educational data mining methods: A case study for TIMSS. Kuram ve
Uygulamada Egit. Bilim. 17(5):1605–1623.doi:10.12738/estp.2017.5.0634.
Kleinberg JM. 1999. Hubs, authorities, and communities. ACM Comput. Surv.
31(Des):5.
Koutina M, Kermanidis K. 2011. Predicting Postgraduate Students ’ Performance
Using Machine Learning Techniques. Di dalam: 12th Engineering
Applications of Neural Networks (EANN 2011). Greece: Springer. hlm.
159–168.
Krebs V. 2008. Social network analysis, a brief introduction. Retrieved March. 27.
Krouska A, Troussas C, Virvou M. 2018. SN ‐ Learning : An exploratory study
beyond e ‐ learning and evaluation of its applications using EV ‐ SNL
framework. J Comput Assist Learn. 35(October 2018):168–
177.doi:10.1111/jcal.12330.
Liaw A, Wiener M. 2002. Classification and regression by randomForest. R news.
2(3):18–22.
Munoz-gama J. 2014. Conformance Checking and Diagnosis in Process Mining
[disertasi]. Barcelona (ES): Universitat Politecnica de Catalunya.
Munoz-gama J. 2016. Conformance Checking and Diagnosis in Process Mining,
Comparing Observed and Modeled Processes. Ed ke-1 Aalst WMP Van Der,
Mylopoulos J, Rosemann M, Shaw MJ, Szyperski C, editor. Chile: Springer.
Mythili MS, Shanavas ARM. 2014. An Analysis of students ’ performance using
36

classification algorithms. IOSR J. Comput. Eng. 16(1):63–


69.doi:10.9790/0661-16136369.
Nascimento MC V. 2014. Community detection in networks via a spectral
heuristic based on the clustering coefficient. Discret. Appl. Math. 176:89–
99.doi:https://doi.org/10.1016/j.dam.2013.09.017.
Nikolaev AG, Razib R, Kucheriya A. 2015. On efficient use of entropy centrality
for social network analysis and community detection. Soc. Networks.
40:154–162.doi:10.1016/j.socnet.2014.10.002.
Ortiz-Arroyo D. 2010. Discovering sets of key players in social networks. Di
dalam: Computational social network analysis. Ed ke-1 Denmark: Springer.
hlm. 27–47.
Panetta K. 2016. Gartners Top 10 Technology Trends 2017. Gartner, Inc.
[diunduh 2018 Nov 6]. Tersedia pada:
http://www.gartner.com/smarterwithgartner/gartners-top-10-technology-
trends-2017/
[PISA] Programme for International Student Assessment. 2015. Pisa Results in
Focus. PISA. [diunduh 2018 Okt 12]. Tersedia pada:
https://www.oecd.org/pisa/pisa-2015-results-in-focus.pdf
Pojon M. 2017. Using Machine Learning to Predict Student Performance [tesis].
Tempere (FI): University of Tampere.
Prasad N, Kumar N. 2018. Fair Grade Allocation to Unfair Students : An
Application of the Shapley Value to Solve the Free-Rider Problem. e-
Journal Bus. Educ. Scholarsh. Teach. 12(1):102–111.
Romero C, Cerezo R, Bogarín A, Sánchez-Santillán M. 2016. Educational process
mining: A tutorial and case study using moodle data sets. Di dalam:
ELATIA S, IPPERCIEL D, ZAÏANE OR, editor. Data Mining and
Learning Analytics: Applications in Educational Research. Vol. 1. Kanada:
John Wiley & Sons Hoboken, NJ. hlm. 3–28.
Rozinat A, Aalst WMP Van der. 2008. Conformance checking of processes based
on monitoring real behavior. Inf. Syst. 33(1):64–
95.doi:10.1016/j.is.2007.07.001.
Schneider J. 1997. Cross Validation. Carnegie Mellon Univ. [diunduh 2019 Jun
20]. Tersedia pada: https://www.cs.cmu.edu/~schneide/tut5/node42.html
Shahiri AM, Husain W, Rashid NA. 2015. A Review on Predicting Student’s
Performance Using Data Mining Techniques. Procedia Comput. Sci.
72:414–422.doi:10.1016/j.procs.2015.12.157.
Shao G, Shin S-J, Jain S. 2014. Data analytics using simulation for smart
manufacturing. Di dalam: Proceedings of the 2014 Winter Simulation
Conference. IEEE Press. hlm. 2192–2203.
Smedt J De, Broucke Seppe K.L.M. vanden, Vanthienen J, Witte K De. 2016.
Improved Student Feedback with Process and Data Analytics. Di dalam:
Vanthienen J, Witte KDW, editor. Data Analytics Applications in Education.
Ed ke-1 London: CRC Press. hlm. 12–36.
Sokolova M, Lapalme G. 2009. A systematic analysis of performance measures
for classification tasks. Inf. Process. Manag. 45(4):427–
437.doi:10.1016/j.ipm.2009.03.002.
Vogt KL. 2016. Measuring Student Engagement Using Learning Management
Systems [disertasi]. Toronto (CA): University of Toronto.
37

Weerapong S, Porouhan P, Premchaiswadi W. 2012. Process mining using α-


algorithm as a tool (A case study of student registration). Di dalam: 2012
Tenth International Conference on ICT and Knowledge Engineering. IEEE.
hlm. 213–220.
Xie J, Kelley S, Szymanski BK. 2013. Overlapping community detection in
networks: the State of the Art and Comparative Study. Acm Comput. Surv.
45(4):43.
Yadav SK, Pal S. 2012. Data Mining : A Prediction for Performance Improvement
of Engineering Students using Classification. WCSIT. 2(2):51–56.
Yang F, Li FWB. 2018. Computers & Education Study on student performance
estimation , student progress analysis , and student potential prediction
based on data mining. Comput. Educ. 123(October 2017):97–
108.doi:10.1016/j.compedu.2018.04.006.
Yurek I, Birant D, Birant KU. 2018. Interactive process miner : a new approach
for process mining. Turk J Elec Eng Comp Sci. 26:1314–
1328.doi:10.3906/elk-1708-112.
LAMPIRAN
39

Lampiran 1 Sourcecode identifikasi siswa yang mendominasi dan free-rider

#read data file


data <- read.csv("nama_file.csv",header = T)
y <- data.frame(data$fist,data$second)
y
library(igraph)
net <- graph.data.frame(y,directed = T)
V(net)
E(net)
V(net)$label <- V(net)$name
degree(net)
V(net)$degree <- degree(net)
degree(net,mode='all')
degree(net,mode='in')
degree(net,mode='out')
###ANALISIS DESKRIPTIF###
hist(V(net)$degree,
col = 'green',
main = 'Histogram of node Degree',
ylab = 'Frequency of Vertices',
xlab = 'Degree of Vertices')
mean(degree(net))
max(degree(net))
min(degree(net))
library(pastecs)
stat.desc(degree(net))
z <- data.frame(data$tanggal)
z
summary(z)
plot(z,
col = 'green',
main = 'Frekuensi interaksi siswa pada social network
tanggal 06 Februari sd 20 Juli 2018',
ylab = 'Frekuensi',
xlab = 'Tanggal (format bulan-tanggal)')
###ANALISIS DIAGNOSTIK###
set.seed(123)
plot(net,
vertex.size=hs*30,
main = 'Hubs',
vertex.color = 'green',#rainbow(52),
edge.arrow.size=0.1,
layout = layout.kamada.kawai)
set.seed(123)
plot(net,
vertex.size=as*30,
main = 'Authorities',
vertex.color = 'green',#rainbow(52),
edge.arrow.size=0.1,
layout = layout.kamada.kawai)
par(mfrow=c(1,1))
40

Lampiran 2 Parameter pada algoritme IM

Keterangan parameter:
 Event classifier adalah parameter yang menentukan cara mengidentifikasi
aktivitas dalam log aktivitas, seperti yang didefinisikan dalam
http://www.xes-standard.org/.
 Variation adalah variasi dari jenis algoritme dengan nilai default inductive
miner.
 Noise Threshold adalah nilai ambang batas yang merepresentasikan
persentase noisy dari jejak yang difilter. Jejak yang tersisa digunakan untuk
menemukan model.
41

Lampiran 3 Model proses hasil discovery


The status of the A submission has User profile viewed Course viewed
Course module viewed
submission has been been submitted complite
viewed
Course searched
Compelte User list viewed
Submission created
+
Role Assigned
User enrolled in Course
Submission A file has been
created uploaded
42

Lampiran 4 Model proses conformance checking

Submission Course searched Course viewed


Course module viewed created Compelte
User enrolled in Course
User proile viewed

User list viewed


Role Assigned

The status of the A file has been Submission A submission has


submission has been uploaded created been submitted
viewed
43

Lampiran 5 Parameter pada conformance checking

Keterangan parameter:
 Event classifier adalah parameter yang menentukan cara mengidentifikasi
aktivitas dalam log aktivitas, seperti yang didefinisikan dalam
http://www.xes-standard.org/
 Replay Algorithm adalah Jaringan petri yang akan digunakan untuk
menghitung kesesuaian.
 Max Explored States (in Thousand) adalah jumlah maksimum bagian yang
akan ditelusuri jejak aktivitasnya.
 Timeout (sec) adalah jumlah detik yang akan dijalankan operator ini sebelum
mengembalikan apa pun yang dapat dihitungnya (atau nol jika tidak).
 Number of Threads adalah menentukan jumlah thread yang digunakan untuk
menghitung pekerjaan secara paralel. Setiap tambahan thread maka memori
yang digunakan lebih banyak tetapi waktu cpu yang diperlukan lebih sedikit.
44

Lampiran 6 Parameter pada analisis kinerja

Keterangan parameter:
 Event classifier adalah parameter yang menentukan cara mengidentifikasi
aktivitas dalam log aktivitas, seperti yang didefinisikan dalam
http://www.xes-standard.org/
 Replay Algorithm adalah Jaringan petri yang akan digunakan untuk
menghitung kesesuaian.
 Max Explored States (in Thousand) adalah jumlah maksimum bagian yang
akan ditelusuri jejak aktivitasnya.
 Timeout (sec) adalah jumlah detik yang akan dijalankan operator ini sebelum
mengembalikan apa pun yang dapat dihitungnya (atau nol jika tidak).
 Number of Threads adalah menentukan jumlah thread yang digunakan untuk
menghitung pekerjaan secara paralel. Setiap tambahan thread maka memori
yang digunakan lebih banyak tetapi waktu cpu yang diperlukan lebih sedikit.
45

Lampiran 7 Sourcecode model prediksi

data <- read.csv("nama_file.csv", header = TRUE)


str(data)
data$class <- as.factor(data$class)
table(data$class)

# Data Partition
set.seed(123)
ind <- sample(2, nrow(data), replace = TRUE, prob = c(0.8, 0.2))
train <- data[ind==1,]
test <- data[ind==2,]

# Random Forest
library(randomForest)
set.seed(222)
rf <- randomForest(class~., data=train,
ntree = 20,
mtry = 7,
importance = TRUE,
proximity = TRUE)
print(rf)
attributes(rf)
p1 <- predict(rf, train)
confusionMatrix(p1, train$class)
# # Prediction & Confusion Matrix - test data
p2 <- predict(rf, test)
confusionMatrix(p2, test$class)
# Error rate of Random Forest
plot(rf)
# Tune mtry
t <- tuneRF(train[,-20], train[,20],
stepFactor = 0.5,
plot = TRUE,
ntreeTry = 20,
trace = TRUE,
improve = 0.05)

# No. of nodes for the trees


hist(treesize(rf),
main = "No. of Nodes for the Trees",
col = "green")
# Variable Importance
varImpPlot(rf,
sort = T,
n.var = 10,
main = "Top 10 - Variable Importance")
importance(rf)
varUsed(rf)
partialPlot(rf, train, Rataan.UAS, "2")
# Extract Single Tree
getTree(rf, 1, labelVar = TRUE)
# Multi-dimensional Scaling Plot of Proximity Matrix
MDSplot(rf, train$class)
46

RIWAYAT HIDUP

Penulis dilahirkan di Maroangin Kabupaten Enrekang Provinsi Sulawesi


Selatan pada tanggal 16 Agustus 1987. Penulis adalah anak kedua dari 5
bersaudara, anak dari pasangan Empu Pariwangi dan Diana.
Penulis menempuh pendidikan Sekolah Menengah Atas di SMK Latanro
Enrekang pada tahun 2002 hingga 2005. Kemudian penulis melanjutkan
pendidikan Diploma di Universitas Negeri Yogyakarta dan menyelesaikan
pendidikan Sarjana di Universitas Teknologi Yogyakarta pada tahun 2010. Pada
tahun yang sama, penulis bekerja sebagai tenaga pengajar di SMA
Muhammadiyah Enrekang Sulawesi Selatan sampai tahun 2013. Penulis
berpengalaman menjadi pengajar Pemrograman Web, Desain Web, Jaringan
Komputer, dan Administrasi Jaringan. Selain itu, penulis juga aktif menulis buku
dan modul, salah satu buku penulis yang telah terbit yaitu Dasar-Dasar
Penguasaan Pemrograman Web.
Pertengahan 2013 penulis mengikuti program pembukaan perguruan tinggi
baru di bawah binaan Politeknik Negeri Ujung Pandang di Manokwari sampai
tahun 2017. Akhir tahun 2017, penulis melanjutkan studi jenjang magister di
Departemen Ilmu Komputer FMIPA IPB. Sebagian isi dari penelitian ini dalam
proses publikasi pada International Journal on Advanced Science, Engineering
and Information Technology dengan judul Student Performance Analysis Based
Activity Log on Social Network and E-learning.

Anda mungkin juga menyukai