Anda di halaman 1dari 5

Algoritma Klasifikasi ​Random Forest​ ​untuk

Memprediksi Performa Siswa

Leon Agnatio Hadiwinoto#ketuakelas


Universitas Multimedia Nusantara,Sistem Informasi,Fakultas Teknik Informatika,Tangerang,Indonesia

leon.hadiwinotod@student.umn.ac.id

Diterima dd mmmmm yyyy


Disetujui 26-09-2000

​ This student data set is obtained from a


Abstract— dengan bidang psikologi kita dapat mengembangkan
learning management system (LMS) which functions as pendidikan dari si individu.
a tracking device for student activities through the
internet. This data also has numeric and categorical Peneliti menggunakan algoritma ​Random Forest
variables, so it uses the right algorithm to accurately karena memiliki landasan teori yang dapat dianalisa
classify data and validate data. With this dataset dengan jelas, lalu ​Random Forest dapat di
researchers want to find the most influential factors in implementasikan dengan mudah.
students' academic achievement levels. With the aim to
be able to develop the education of these students. In Permasalahan yang ingin dibahas dalam laporan
this study, we tested using the random forest algorithm, ini adalah mencari solusi untuk meningkatkan prestasi
where data were divided into 2 namely training models siswa.
and test models with 75% and 25% percentages. Then
obtained an accuracy of 71.83%. Manfaat penelitian ini bertujuan untuk
memprediksi prestasi siswa di dalam pendidikan.
Index Terms-- ​Performa siswa, Algoritma random
forest,​ ​ Klasifikasi data

I. PENDAHULUAN II. LANDASAN TEORI


Pendidikan memiliki peran yang cukup penting di A. Tentang Algoritma Random Forest
dalam kehidupan seseorang. Pendidikan sangat
membantu dalam pengembangan individu. Ada ​ Random Forest​ ​merupakan sebuah algoritma
beberapa cara belajar yang dapat membantu yang digunakan untuk klasifikasi data dalam
mengembangkan pendidikan seperti bermusyawarah, jumlah besar. Algoritma ini digunakan melalui
analisi, bimbingan dan lain-lain. Ukuran keberhasilan penggabungan pohon melalu sampel yang
seorang siswa dalam pendidikan dapat dilihat dari dimiliki.
nilai dan ujian masuk dalam universitas memberikan B. Sejarah Algoritma Random Forest
ukuran dalam keberhasilan karir mereka.
Algoritma ​Random Forest ​pertama kali di
Faktor dari individu memiliki pengaruh dalam cetuskan oleh Tin Kam Ho, yang menetapkan
pendidikan. Karena sikap dan kebiasa dari individu pohon-pohon keputusan di ​Random Forest ​dengan
tersebut mempengaruhi di dalam bidang pendidikan. gagasan utama yang miring, maka dapat memperoleh
Seperti terdapat individu yang rajin dan yang malas. akurasi yang cukup baik apabila terlalu banyaknya
keputusan yang ada.
Menurut peneliti Itir Burman Algoritma memiliki
model pembelajaran, teknik yang diawasi, digunakan
untuk analisis klasifikasi data. Dengan memiliki
tujuan dengan menemukan inti dari pembelajaran dan
memperluas batas antara dua set kelas.
Menurut analisis yang dilakukan pada studi kasus
di India menggunakan Regresi Logistik menunjukkan
bahwa korelasi non akademik berpengaruh pada
psikologi peserta didik. Psikologi adalah bidang yang
berhubungan dengan perilaku dan pikiran. Sehingga
C. Kegunaan Algoritma Random Forest C. Framework
Kegunaan algoritma ​Random Forest​ ini adalah untuk
mencari ​klasifikasi data dalam jumlah yang besar,
penentuan ​ random forest d​ iambil berdasarkan
hasil voting tree yang terbentuk. Tree tersebut
diambil melalui voting terbanyak.
D. Kelebihan dan Kelemahan Algoritma Random
Forest
Random Forest​ memiliki kelebihan yaitu bahwa
algoritma ini dapat digunakan dalam jumlah data
yang besar dan sangat cocok dalam
pengklasifikasian dan juga mampu melakukan
pengklasifikasian atribut yang tidak lengkap.
Kekurangan ​Random Forest ​adalah a​ lgoritma ini
tidak cocok dalam hal regresi.

III. METODOLOGY
A. Object Penelitian
Dataset yang digunakan peneliti di dalam
penelitian ini adalah dari data siswa yang memiliki
beberapa kategori dengan nilai akhir siswa. Kategori
pertama ada tingkah laku siswa, seperti seberapa aktif
siswa tersebut di dalam kelas. Kategori kedua yaitu
demografis terkait dengan jenis kelamin. Kategori
ketiga ada latar belakang akademik terkait dengan
tingkatan pendidikan.
Di dalam penelitian ini, peneliti menggunakan
faktor perilaku siswa yang digunakan untuk
mengukur prestasi siswa tersebut atau nilai akhir
siswa tersebut, yang sering digunakan untuk
mengukur tingginya nilai pada siswa tersebut.
B. Pengumpulan data
Bentuk data yang digunakan peneliti di dalam
penelitian ini adalah numerik dalam faktor keaktifan
siswa di sekolah. Sedangkan faktor absensi ini adalah
kategorikal yang dibagi menjadi 2 kategori yaitu lebih
D. Retrive or Achive Data
dari 7 kali dan kurang dari 7 kali. Lalu untuk data
prestasti atau nilai akhir siswa dalam bentuk Proses ini, memerlukan dataset yang di input
kategorikal juga dimana dibagi menjadi 3 kategori kedalam RStudio. Lalu RStudio sendiri mampu
yaitu ada ​high-level ​dengan interval nilai 90 sampai menginput data yang dinginkan melalu import.
dengan 100, ​mid-level dengan interval nilai 70 sampai Dimana nanti akan muncul 6 pilihan jenis file yang
dengan 89, dan ​low-level dengan interval nilai 0 sesuai dengan dataset yang dimiliki oleh peneliti.
sampai dengan 69. Lalu, peneliti hanya perlu memasukan dataset yang
akan digunakan, Output dari proses ini adalah dataset
Teknik yang digunakan untuk pengumpulan data yang digunakan dalam aplikasi RStudio ini.
yang peneliti gunakan adalah dengan teknik observasi
data dimana data dikumpulkan melalu ​learning E. Split or Clasify Data
management system ​(LMS) yang berfungsi sebagai Proses ini, input yang diperlukan adalah dataset di
alat pelacak aktivitas pelajar melalui koneksi dari dalam RStudio yang merupakan output dari “retrive
internet. Data ini diperoleh pada tahun 2016 yang lalu data”. Data tersebut akan di bagi 2 menjadi ​data
oleh seorang profesor dari sebuah universitas di training dan ​data testing,​ dimana ​data training akan
Amman yaitu ​“ The University of Jordan”,​ dimana digunakan sebagai membangun model. Lalu, sebelum
data ini merupakan data dari siswa di universitas data dibagi menjadi ​data training dan ​data testing​,
tersebut. syntax ​“set seed”​ diperlukan untuk nilai akan selalu
tetap pada saat membagi data. Di dalam penelitian di
bagi menjadi ​data training 75% lalu untuk data Syntax yang peneliti gunakan adalah sebagai
testing 25%. Output yang dihasilkan dari proses ini berikut :
adalah ​data training​ dan data testing.
pred = predict(model,test)
Syntax yang peneliti gunakan adalah :
Syntax diatas digunakan untuk memprediksi ​data
set.seed(777) testing dari model yang telah dibuat dari ​data
Angka “777” tersebut bisa berapapun sesuai dengan training.
keinginan peneliti.
table(pred,test$Class)
databagi ← sample(1:nrow(data),360)
Syntax diatas digunakan untuk memunculkan
Angka 360 merupakan suatu hasil presentase 75% tabel perbandingan hasil dari prediksi dan ​data
dari total sebanyak 480 yang akan dijadikan sebagai testing​ yang sebenarnnya.
data training​.
train ← data[databagi,]
H. Validasi Hasil
Data testing yang digunakan akan menampung
Metode yang peneliti gunakan untuk mengvalidasi
kebalikkannya hasil nama yang diatas.
dari hasil metode ​split data dimana data dibagi
menjadi 2 yaitu ​data testing sebesar 25% dan ​data
training​ sebesar 75%.
F. Train Model
Di dalam proses ini, input yang peneliti perlukan
adalah data yang telah dibagi 2 menjadi ​data training IV. HASIL DAN PEMBAHASAN
dan ​data testing yang merupakan hasil dari proses
“split data”​, dan juga package random forest yang A. Retrive or Achive Data
peneliti gunakan untuk membangung model random Melalui program RStudio yang peneliti gunakan
forest. Output dari proses ini sendiri merupakan untuk menginput dataset sehingga dapat memprediksi
akurasinya. performa siswa melalui beberapa faktor. Output yang
ditampilkan data ini berupa dataset yang digunakan
Syntax yang penliti gunakan adalah sebagai
peneliti di dalam program RStudio seperti berikut :
berikut :
install.packages(“randomForest)
Syntax diatas digunakan untuk menginstall package
random forest.
require(randomForest)
Syntax diatas digunakan untuk menggunakan ​package
random forest.
model ← randomForest(rumus,data = train)
Syntax diatas digunakan peneliti untuk membuat
model dari ​random forest.​
Gambar 1 (​Retrive or Achive Data​)
print(model)
Syntax diatas digunakan untuk memperlihatkan
semua ​error rate. B. Split or Clasify Data
Setelah penliti memasukan dataset pada program
RStudio, peneliti akan membagi data menjadi 2 yaitu
G. Test Model data training dan ​data test​. Lalu syntax nya sebagai
Di dalam proses ini input yang dibutuhkan berikut :
merupakan model dari ​data training yang
merupakan ​output dari proses yang sebelumnya.
Proses menguji pada model dari ​data training
tersebut untuk data testing tersebut. Lalu hasil dari
prediksi ini akan menghasilkan akurasi dari model
algoritma​ random forest​ ini pada dataset tersebut. Gambar 2 ( ​Split or Clasify Data)​
Lalu output atau hasil yang ditampilkan dari syntax di
atas adalah sebagai berikut :

Gambar 3 ( ​Data Training)​

Gambar 7 (Plot)

Gambar 8 ( print model)


Lalu output yang ditampilkan sebagai berikut :

Gambar 9 (Output Print Model)


Gambar 4 (​Data Testing)​

C. Train Model Gambar 10 ( Print Importance)


Lalu setelah peneliti membagi dataset tersebut
menjadi 2 yaitu ​data train dan ​data test, p​ eneliti Lalu dengan syntax diatas akan menghasilkan
mampu menganalisa data dengan algoritma r​andom output, variabel mana yang memiliki pengaruh paling
forest . ​Dengan syntax seperti berikut : besar terhadap penelitian tersebut, seperti berikut :

Gambar 5 (Syntax Model)


Lalu dengan syntax di atas peneliti dapat
melanjutkan algoritma ​random forest dan dapat
menampilkan kemungkinan error yang terjadi pada
model yang peneliti gunakan dan juga dapatg Gambar 11 (Output Print Importance)
menampilkan ​plot,​ dengan syntax sebagai berikut :

D. Validasi Hasil
Gambar 6 (Syntax Plot) Setelah model dibuat ,maka peneliti dapat
melakukan testing terhadap model tersebut. Untuk
menguji model tersebut, maka digunakan syntax
sebagai berikut :
V. KESIMPULAN
A. Kesimpulan
Kesimpulan yang dapat peneliti peroleh dari
Gambar 12 (Predict) penelitian ini adalah penggunaan pada algoritma
random forest ini. Cukuplah efektif untuk digunakan
Syntax di atas mengahasilkan suatu prediksi sebagai alat prediksi prestasi akademik siswa, dimana
sesuai dengan test model tersebut. Setelah prediksi, diperoleh akurasi sebesar 71,83%.
maka peneliti dapat membuat ​confused matrix dari
prediksi tersebut. Melalui ​confused matrix peneliti Kesimpulan yang peneliti peroleh dari algoritma
dapat mengetahui tingkat akurasi pada model tersebut random forest ini adalah seorang siswa sangat perlu
terhadapat test model. Untuk menampilkan ​confused untuk aktif di dalam kelas dengan selalu mengerjakan
matrix​ dapat menggunakan syntax : soal dari guru dan juga selalu bertanya kepada guru
agar dapat menambah pengetahuan siswa
tersebut.Lalu Belajar mandiri diluar lingkungan
sekolah seperti mengikuti bimbel dan belajar dirumah
Gambar 13 (Syntax Confused Matrix) memiliki pengaruh yang cukup besar terhadap
Peneliti menggunakan syntax di atas untuk prestasi akademik seorang siswa. Namun, ada juga
menampilkan ​confused matrix​, sebagai berikut : siswa yang tidak aktif di kelas dan juga jarang
ataupun tidak pernah belajar mandiri dirumah.
Dengan penelitian ini telah membuktikan bahwa
sebagian besar dengan belajar mandiri di luar
lingkungan sekolah dapat meningkatkan prestasi
akademik seorang siswa.
B. Saran
Gambar 14 (Confused Matrix)
Untuk peneliti yang ingin melakukan
Lalu, dari ​confused matrix diatas maka peneliti pengklasifikasian data dalam jumlah yang besar dapat
akan memperoleh akurasi sebesar 71,83%. menggunakan algoritma ​random forest,​ karena dapat
menemukan hasil dengan mudah dan juga cukup
mudah untuk dimengerti.
E. Diskusi
C. Limitasi
Berdasarkan hasil test dari model yang peneliti
peroleh dari ​training model,​ akurasi yang diperoleh Limitasi pada penelitian ini adalah bahwa
mencapai 71,83% untuk prediksi performa prestasi penelitian ini tidak melakukan perbandingan terhadap
atau nilai akademik siswa dari faktor keaktifan siswa algoritma lainnya, dimana akan mendapatkan
baik di dalam lingkungan sekolah, kelas ataupun di informasi yang lebih memuaskan apabila dengan
lingkungan di luar sekolah, seperti keluarga dan algoritma yang berbeda-beda dan juga dengan
pergaulan . Yang mencakup tingkat keaktifan siswa di variabel yang berbeda-beda.
kelas dalam menjawab pertanyaan guru, berpartisipasi DAFTAR PUSTAKA
dalam organisasi , perlombaan. Lalu inisiatif siswa
[1] N.S Ahmed, and M. Hikmat Sadiq.2018. “Clarify of the
untuk mengikuti les atau bimbel, belajar dirumah dan Random Forest Algorithm in an Educational Field” .Iraq :
juga absensi dari siswa tersebut pada test model. Directorate of General Registration Duhok Polytechnic
University .
Hasil modeling yang didapatkan peneliti dari
[2] http://machinelearning.mipa.ugm.ac.id/2018/07/28/random-fo
training model memperlihatkan faktor-faktor yang rest/​.[Accessed : 23-Sep-2019].
mempengaruhi terhadap prestasi akademik siswa. [3] https://www.datacareer.ch/blog/random-forest-in-r-an-exampl
Faktor yang paling mempengaruhi siswa adalah e/​.[Accessed : 24-Sep-2019].
inisiatif seorang siswa yang belajar di luar lingkungan
sekolah, seperti ikut bimbel dan belajar dirumah.
Siswa yang tidak memiliki inisiatif untuk belajar
diluar lingkungan sekolah cenderung memiliki sifat
yang pemalas. Yang dimana dapat mempengaruhi
tingkat prestasi akademik seorang siswa. Karena
dengan belajar mandiri dapat meningkatkan prestasi
akademik siswa.

Anda mungkin juga menyukai