Anda di halaman 1dari 8

Nama : Syarafina Putri Fitharti

NPM : 1306393042

Prediction the Loyal Student Using Decision Tree Algorithms

(Saeide kakavand, Taha Mokfi, Mohammad Jafar Tarokh)

Abstrak

Salah satu tantangan paling penting yang dihadapi sistem pendidikan saat ini adalah
menyediakan lebih efektif, efisien dan kualitas pelayanan pendidikan tinggi kepada siswa,
dan memprediksi pola murid yang loyal. Karena Universitas mencoba untuk meningkatkan
kualitas pendidikan, menerapkan data mining di pendidikan yang tinggi membantu manajer,
dosen dan mahasiswa untuk membuat kinerja yang lebih tinggi. Tujuan dari jurnal penelitian
ini adalah untuk memahami faktor-faktor eksternal yang dapat menyebabkan loyalitas
mahasiswa. Dengan melakukan itu, Universitas dapat mengidentifikasi siswa yang telah
memutuskan untuk melanjutkan proses belajar, sehingga dapat berinvestasi pada mereka, dan
dengan demikian meningkatkan kualitas pendidikan. Salah satu cara terbaik untuk mencapai
hal ini adalah dengan menggunakan pengelolaan dan pengolahan database siswa.

Dalam studi ini, menggunakan dataset dari Universitas pribadi dan menerapkan teknik
data mining, mengklasifikasikan Mahasiswa S2 berdasarkan karakteristik input dan akhirnya
pola siswa yang setia (siswa yang telah memutuskan untuk melanjutkan belajar) diambil.
Siswa diklasifikasikan berdasarkan informasi pribadi dari siswa, status akademik siswa, jenis
pervious university (Universitas pribadi atau negara), keuangan, dan status pekerjaan mereka,
dan status pendidikan orang tua mereka. Untuk mengelompokkan siswa, proses generasi
diatur berdasarkan pada algoritma pohon keputusan seperti C.5, CART dan CHAID. Hasilnya
menunjukkan bahwa algoritma pohon keputusan CART terbaik dengan akurasi 94% pada
evaluasi sampel.

Kata kunci: komponen; data mining, algoritma pohon keputusan, murid yang loyal,
pendidikan tinggi, kinerja siswa

1. Pendahuluan

Saat ini, sistem pendidikan tinggi dan jumlah data pendidikan yang digunakan dalam
pengambilan keputusan proses telah berevolusi. Oleh karena itu, organisasi pendidikan mulai
mengembangkan dan meningkatkan sistem pendidikan. Keputusan terbaik yang dapat
dilakukan dengan menggunakan teknik-teknik baru seperti metode data mining. Data mining
adalah proses ekstraksi pengetahuan yang berguna dari jumlah data yang dikumpulkan dalam
database. Mempertimbangkan bahwa di sebagian besar Universitas menyiapkan database
spesifikasi siswa yang dapat mencakup informasi dan model yang berharga. Informasi ini
berisi siswa dan karakteristik keluarga mereka, latar belakang pendidikan dan akademis.
Mempelajari pola tersembunyi dan pengetahuan tentang informasi ini dapat membantu bagi
para pengambil keputusan dalam sistem pendidikan yang lebih tinggi untuk meningkatkan
proses pendidikan di berbagai bidang seperti penjadwalan, mendaftar, evaluasi dan konseling.
Nama : Syarafina Putri Fitharti
NPM : 1306393042

Data mining tentang database pendidikan ini dapat dimengerti, berguna, dan inovatif.
Proses pendaftaran siswa dalam sistem pendidikan atau menemukan faktor-faktor yang
mengarah ke keberhasilan siswa adalah keprihatinan besar bagi manajer pendidikan yang
tinggi, karena itu teknik data mining seperti pengelompokan atau klasifikasi dapat digunakan
dalam mencari pola-pola yang berharga dan spesifik bagi siswa yang loyal dan sukses.

Akibatnya, para peneliti mencoba untuk menentukan variabel-variabel yang terkait


dengan prestasi akademik siswa dan dapat mempengaruhi proses pendaftaran. Oleh karena
itu, salah satu tantangan paling penting yang dihadapi pendidikan tinggi adalah mengenali
pola murid yang loyal (siswa yang telah memutuskan untuk melanjutkan belajar di tingkat
PhD).

Makalah penelitian ini merupakan upaya untuk menggunakan proses data mining,
terutama algoritma pohon keputusan untuk menentukan pola murid yang loyal dan karena itu
meningkatkan kualitas sistem pendidikan yang lebih tinggi. Tujuan utama dari makalah ini
adalah untuk menyediakan model yang akurat, praktis dan dapat diandalkan yang dapat
memenuhi persyaratan mendasar Universitas. Diperkirakan bahwa faktor-faktor yang
mempengaruhi prestasi bisa berguna untuk mahasiswa, instruktur, dan administrator yang
tertarik dalam mencapai kesuksesan. Karya ini disajikan sebagai berikut; di bagian
mendatang (Bagian 2) dijelaskan kajian pustaka yang menerapkan data mining di pendidikan
tinggi. Dalam bagian 3 metodologi penelitian diberikan, dimana data, analisis, dan
pemodelan dijelaskan secara rinci. Di bagian 4, analisis komparatif model dan hasil analisis
model yang disajikan, dan akhirnya, kesimpulan diberikan dalam bagian terakhir (Bagian 5).

2. Kajian Pustaka

Data mining diterapkan dalam berbagai penelitian di berbagai bidang pendidikan.


Menentukan faktor-faktor yang mempengaruhi prestasi siswa di akademik adalah masukan
penting untuk memperbaiki sistem pendidikan. Mereka mencoba untuk mengumpulkan data,
biasanya dari jenis survei, untuk mengetahui korelasi antara faktor dan dampaknya terhadap
prestasi akademik. Selain itu, meneliti pada retensi siswa (misalnya, survei sekelompok
mahasiswa dan menentukan apakah mereka melanjutkan pendidikan mereka atau tidak).
Misalnya beberapa peneliti berfokus pada pendidikan , beberapa orang belajar korelasi antara
prestasi akademik dan orangtua, yang lain menyelidiki retensi siswa.

Salah satu karya pertama yang digunakan data mining untuk memprediksi
pendaftaran siswa telah ditulis oleh Song, et al 1993. Mereka memperkirakan pendaftaran
siswa dengan Fuzzy Time Series. Untuk mengevaluasi model peramalan, mereka
menggunakan metode regresi linear, dan memperkirakan nilai-nilai yang diperoleh dari fuzzy
dan dibandingkan dengan hasil aktual. Jing Luan bisa memprediksi menggunakan dua
langkah clustering algoritma, algoritma pohon keputusan dan neural networks pada data dari
15000 siswa. Dia mengidentifikasi faktor-faktor yang mempengaruhi retensi siswa dan
performa akademis. Dia menggunakan data mining untuk menemukan pola profil siswa. Ia
menemukan atribut utama yang mungkin terkait dengan putus sekolah dengan menggunakan
Nama : Syarafina Putri Fitharti
NPM : 1306393042

fitur pilihan dan asosiasi aturan, juga dia mengidentifikasi potensi "riskan" siswa dengan
memanfaatkan klasifikasi dan pengelompokan.

Sebagian besar peneliti berusaha untuk memprediksi kinerja siswa. Sebagai contoh,
Menzel dan Bekele menggunakan jaringan Bayesian untuk memprediksi kinerja mahasiswa,
berdasarkan beberapa atribut yang diidentifikasi. Penelitian ini secara khusus berfokus pada
fitur-fitur pribadi, sosial dan budaya yang dapat digunakan dalam prediksi otomatis dari
kinerja. Unsur-unsur yang terlibat dalam tujuan pendidikan meliputi: mengajar strategi
pembelajaran, orang tua, guru dan siswa.

Selain itu, Superby dan Vendome menemukan faktor yang mempengaruhi pencapaian
siswa tahun pertama di Universitas dengan menggunakan metode Data Mining. Mereka
menyediakan variabel paling penting berkaitan dengan keberhasilan akademis antara seluruh
kuesioner yang diminta 533 mahasiswa. Akhirnya, mereka menyampaikan hasil dari
penerapan diskriminan analisis, neural networks, dan pohon keputusan yang bertujuan untuk
memprediksi keberhasilan akademis siswa tersebut. Beberapa peneliti mengklaim untuk
menemukan korelasi yang kuat antara keberhasilan siswa dan pendapatan keluarga. Hasilnya
menunjukkan bahwa jumlah pendapatan memiliki efek positif pada keberhasilan dan prestasi
akademik. Mereka menunjukkan bahwa anak-anak yang dilahirkan dari orang tua yang
berpendidikan untuk memiliki lebih banyak kesempatan daripada orang-orang yang lahir dari
orangtua kurang berpendidikan.

Beberapa peneliti lain menyelidiki efek dukungan guru berdasarkan prestasi


akademik, sementara orang lain terfokus pada pentingnya sekolah yang berbeda jenis. Selain
itu, para peneliti lain menggunakan data mining dalam sistem pendidikan yang tinggi.

Oleh karena itu, dengan bantuan ahli dan menurut studi di bidang pendidikan adalah
tentang memprediksi kinerja siswa atau mengidentifikasi pola-pola pendaftaran mahasiswa
yang menggunakan teknik data mining.

3. Bahan dan Metode

Dalam penelitian ini, kami mengikuti metodologi data mining yang populer dan
terkenal bernama CRISP-DM (Cross Industry Standard Process for Data Mining).

A. Data

Data adalah subjek utama penemuan pengetahuan. Pemilihan atribut dan jenis
memiliki efek yang kuat pada ketepatan model. Data yang digunakan dalam penelitian ini
dikumpulkan dari siswa S2. Atribut adalah informasi umum tentang demografis karakteristik
siswa (jenis kelamin, usia, status perkawinan, kota, dll) dengan status pekerjaan, latar
belakang pendidikan (jenis Universitas sebelumnya, rata-rata, dll), pendidikan, orangtua dan
keuangan. Data yang diambil berisi 14 atribut dengan informasi demografis dan akademik
siswa. Daftar lengkap dari atribut yang diperoleh diberikan dalam "Tabel 1".
Nama : Syarafina Putri Fitharti
NPM : 1306393042

Tabel I: Variable mahasiswa

I. Pre-proccesing data

Proses persiapan data termasuk analisis variabel yang komprehensif dan nilai-nilai
untuk mengurangi atau menghapus data (misalnya, hilang, berisik, outlier atau nilai-nilai
yang tidak lengkap. Kadang-kadang beberapa nilai atribut hilang, jadi ada dua solusi dasar:
kita dapat menghapus seluruh atribut yang memiliki sejumlah besar nilai yang hilang atau
mengganti nilai hilang dengan konstan. Dalam penelitian ini, karena beberapa nilai atribut
hilang, jadi kita telah menggantikan pendapatan rata-rata untuk setiap kelompok yang
berbeda dari pekerjaan (pengangguran, karyawan, wiraswasta). Setelah menyelesaikan
cleaning data, atribut yang akan dikonversi ke bentuk representasi yang tepat untuk algoritma
data mining. Pada tahap transformasi data, variabel output (yaitu, Umur dan rata-rata) juga
berubah menjadi empat tingkat variable.

II. EDA (Exploratory Data Analysis)

Domain pendidikan, pilihan fitur yang penting. Ini adalah metode untuk
mengidentifikasi fitur-fitur yang relevan. Atribut yang tidak relevan dapat memiliki dampak
pada keakuratan prediksi.

Dalam studi ini, fitur yang penting adalah peringkat berdasarkan Pearson Chi-
kuadrat. Ini diukur dari target dan peramal tanpa menunjukkan kekuatan hubungan yang ada;
"Table.2" menyajikan atribut yang paling penting dan relevan. Selain itu, hubungan antara
pendidikan dan kinerja siswa diindikasikan dalam "Gambar. 1".
Nama : Syarafina Putri Fitharti
NPM : 1306393042

Tabel II: Fitur yang paling penting

Gambar I: Hubungan antara pendidikan dan kinerja siswa

B. Memilih teknik klasifikasi yang paling tepat

Teknik klasifikasi yang paling tepat harus dipilih dalam langkah pertama proses
pemodelan. Dengan kata lain, klasifikasi terdiri dari memeriksa karakteristik objek baru dan
menetapkan ke salah satu kelas standar. Dalam proses klasifikasi mahasiswa, setiap siswa
akan ditetapkan ke grup yang ditentukan menurut karakteristiknya. Dalam studi ini,
mahasiswa diklasifikasikan sesuai dengan karakteristiknya dan algoritma pohon keputusan
lebih disukai karena mereka menyediakan bantuan praktis untuk hasil yang lebih dapat
dimengerti (dan dibandingkan dengan satu sama lain): CART, C.5 dan CHAID. Metode
prediksi ini dipilih karena antara metode prediksi lain, pohon keputusan memiliki beberapa
keuntungan yang cukup besar: yang diperoleh model sederhana dan mudah untuk memahami,
dan proses dapat dilakukan bahkan dengan sedikit usaha dari pengguna untuk persiapan data.
Oleh karena itu, pohon-pohon keputusan dapat dengan mudah diintegrasikan dengan
teknologi informasi. Berikut ini adalah penjelasan yang ringkas tentang pohon keputusan dan
algoritma yang digunakan dalam studi ini:

Belajar pohon keputusan adalah metode yang populer digunakan di data mining,
karena struktur pohon keputusan memerlukan pengetahuan domain atau menetapkan
parameter; oleh karena itu, sangat cocok untuk pengetahuan investigasi. Tujuannya adalah
Nama : Syarafina Putri Fitharti
NPM : 1306393042

untuk menghasilkan model yang memperkirakan nilai dari target variabel yang didasarkan
pada beberapa variabel input. Dengan kata lain, pohon keputusan dianggap sebagai model
yang mudah dimengerti karena ada suatu proses untuk kesimpulan masing-masing. Sebuah
pohon keputusan dapat dikonversi langsung ke dalam satu set aturan jika-maka yang adalah
salah satu bentuk pengetahuan representasi yang populer. Dengan demikian, C4.5 dan
algoritma CART tidak rumit untuk dipahami dan ditafsirkan.

I. Algoritma pohon keputusan

C4.5 adalah algoritma yang digunakan untuk membangun sebuah pohon keputusan
yang dikembangkan oleh Ross Quinlan. Penelitian menunjukkan bahwa C4.5 untuk membuat
klasifikasi baik akurasi dan tercepat diantara algoritma lainnya. Dalam studi ini, algoritma C5
diterapkan, yang merupakan versi perbaikan dari C4.5. Klasifikasi dan regresi pohon (CART)
adalah metode nonparametric dan tidak memerlukan variabel yang harus dipilih terlebih
dahulu.

Algoritma CHAID adalah salah satu metode klasifikasi pohon tertua yang awalnya
diperkenalkan oleh Kass (1980). CHAID (Chi-squared Automatic Interaction Detector)
melakukan tingkat perpecahan ketika komputasi klasifikasi pohon. CHAID dapat digunakan
untuk prediksi serta klasifikasi, dan untuk deteksi interaksi antara variabel. CHAID dan
algoritma CART dapat diterapkan untuk menganalisis masalah jenis regresi atau tipe
klasifikasi.

C. Classifier Accuracy Measures

Seperti halnya prediktif akurasi yang bersangkutan, sangat sulit untuk mendapatkan
saran umum. Sebagai masalah praktis, ini dapat menjadi ide yang baik untuk menggunakan
algoritma yang berbeda dan memutuskan pada model paling masuk akal dan melakukan
berdasarkan kesalahan prediksi. Untuk membandingkan keakuratan prediksi model, kami
menerapkan kriteria kinerja: keakuratan prediksi diklasifikasikan oleh classifier.

Jadi, cara lain untuk memeriksa kinerja kelompok adalah dengan menggunakan
sebuah Confusion Matrix "Gambar. 2".

Gambar 2: Confusion Matrix

4. HASIL DAN DISKUSI

Hasil Prediksi pohon keputusan tiga pemodelan metode ditunjukkan dalam "Table.3".
Karena target variabel memiliki dua nilai nominal, Confusion Matrix menunjukkan matriks
kuadrat 2*2 dimana prediksi diletakkan di diagonal dari kiri atas untuk menurunkan sudut
kanan. Keseluruhan keakuratan model ditempatkan di bagian bawah kolom kanan.
Nama : Syarafina Putri Fitharti
NPM : 1306393042

Table III: Confusion Matrix of Prediction Results for all Classification Models

Sebagai hasil antara jenis tiga model, algoritma pohon keputusan CART
menghasilkan hasil prediksi yang terbaik dengan 91.42 keseluruhan keakuratan pada validasi.
Pohon keputusan CART diikuti oleh pohon keputusan C.5 dengan akurasi prediksi
keseluruhan 88.57%, dari jenis tiga model yang digunakan; algoritma CHAID menghasilkan
keakuratan prediksi terendah dengan nilai keseluruhan 80.95%.

Selain memperkirakan keakuratan prediksi untuk setiap model, langkah berikutnya


adalah untuk melakukan analisis sensitivitas, untuk mengakui pentingnya relatif variabel
independen. Setiap jenis model menghasilkan peringkat sensitivitas variabel independen yang
berbeda.

Semua tiga set nomor sensitivitas dikumpulkan dan kemudian nomor sensitivitas
dikumpulkan menjadi satu "Tabel. 4". Hasil analisis sensitivitas tersirat bahwa variabel
prediktor yang paling penting yang terkait adalah latar belakang pendidikan (Universitas
sebelumnya) dan pendidikan orang tua. Seperti yang Anda lihat, pendidikan memiliki efek
Nama : Syarafina Putri Fitharti
NPM : 1306393042

yang nyata pada kinerja siswa. Beberapa dari demografis atribut seperti, pekerjaan, umur, dan
status perkawinan tidak sama pentingnya dengan variabel independen lain.

Tabel IV: Kumpulan hasil analisis sensitivitas

4. KESIMPULAN

Salah satu tantangan paling penting yang dihadapi pendidikan tinggi hari ini adalah
mengenali siswa. Data mining adalah sebuah teknologi baru yang kuat untuk berbagai
masalah di dunia nyata dan industri dimana sejumlah data telah dikumpulkan. Menurut data
mining dalam sistem pendidikan, yang merupakan bidang penelitian yang sama sekali baru,
hal ini diperlukan untuk mengembangkan metodologi ini untuk berbagai tujuan pendidikan.
Seperti yang ditunjukkan studi ini, teknik data mining dapat secara akurat memprediksi siswa
yang loyal (sukses), dan karena itu temuannya memungkinkan peneliti untuk melakukan
tambahan untuk analisis dan identifikasi. Hasil menunjukkan bahwa, metode data mining
mampu memprediksi akurasi mahasiswa kurang lebih 90% melalui data dengan fitur yang
tepat. Antara tiga individu model prediksi yang digunakan, pohon keputusan algoritma
CART dilakukan yang diikuti oleh pohon keputusan C.5. Dari jenis tiga model yang
digunakan, algoritma CHAID menghasilkan keakuratan prediksi terendah.

Anda mungkin juga menyukai