Anda di halaman 1dari 10

222 – Jurnal Pendidikan Vokasi

DATA MINING UNTUK MEMPREDIKSI PRESTASI SISWA


BERDASARKAN SOSIAL EKONOMI, MOTIVASI, KEDISIPLINAN
DAN PRESTASI MASA LALU
Heri Susanto
SMK Negeri 4 Surakarta
heri.smk4@gmail.com
Sudiyatno
Universitas Negeri Yogyakarta
sudiyatno@uny.ac.id
Abstrak
Penelitian ini bertujuan untuk membuat prediksi prestasi belajar siswa berdasarkan status sosial
ekonomi orang tua, motivasi, kedisiplinan siswa dan prestasi masa lalu menggunakan metode
data mining dengan algoritma J48. Sebagai perbandingan, data penelitian dianalisis juga dengan
CHAID (Chi Squared Automatic Interaction Detection) dan regresi ganda. Pendekatan penelitian
yang digunakan adalah kuantitatif. Subyek penelitian ini adalah siswa tingkat X SMK Negeri 4
Surakarta berjumlah 416 siswa. Teknik pengumpulan data yang digunakan adalah dokumentasi dan
angket. Hasil penelitian menunjukkan bahwa analisis prediksi menggunakan decision tree algoritma
J48 memiliki akurasi sebesar 95,7%, sedangkan analisis prediksi menggunakan CHAID memiliki
tingat akurasi 82,1% dan analisis regresi ganda menghasilkan tingkat signifikansi sebesar 90,6%.
Berdasarkan hasil tersebut bisa disimpulkan bahwa metode J48 lebih baik dibandingkan dengan
metode CHAID dan regresi ganda.
Kata kunci: data mining

DATA MINING TO PREDICT STUDENT’S ACHIEVEMENT BASED


ON SOCIO-ECONOMIC, MOTIVATION, DISCIPLINE AND
ACHIEVEMENT OF THE PAST
Abstract
This study aims to make student achievement prediction based on socio-economic status of parents,
motivation, discipline students and past achievements using data mining methods with the J48
algorithm. For comparison, the data were analyzed also with CHAID (Chi Squared Automatic
Interaction Detection) and multiple regression. The research approach is quantitative. The subjects
of this study were student-first level at SMK Negeri 4 Surakarta totaled 416 students. Data collection
techniques used are documentation and questionnaires. The results showed that the predictive
analysis using J48 decision tree algorithm has an accuracy of 95.7%, while the predictive analysis
using CHAID has the rank of an accuracy of 82.1% and a multiple regression analysis resulted in a
significance level of 90.6%. Based on these results it can be concluded that the J48 method is better
than the CHAID and multiple regression methods.
Keywords: data mining

Jurnal Pendidikan Vokasi, Vol 4, Nomor 2, Juni 2014


Jurnal Pendidikan Vokasi – 223

PENDAHULUAN Usaha untuk meningkatkan kualitas lu-


Pendidikan merupakan salah satu faktor lusan SMK, dibutuhkan kerjasama dan sink-
kemajuan dan kemandirian bangsa. Semakin ronisasi yang baik antara pemerintah, manaje-
maju pendidikan suatu bangsa, maka akan se- men sekolah, kemitraan dengan dunia industri,
makin maju dan mandiri bangsa tersebut. Me- kompetensi guru, orang tua dan siswa sendiri.
lalui pendidikan para generasi penerus bangsa Beberapa elemen tersebut sangat berpengaruh
dibentuk kualitasnya. Pendidikan nasional baik secara langsung maupun tidak langsung
berfungsi mengembangkan kemampuan dan terhadap peningkatan mutu siswa, yang pada
membentuk watak serta peradaban bangsa akhirnya akan berimbas pada peningkatan
yang bermartabat dalam rangka mencerdaskan kualitas pendidikan. Prestasi belajar siswa di-
kehidupan bangsa, bertujuan untuk mengem- pengaruhi oleh banyak faktor. Salah satu faktor
bangkan potensi peserta didik agar menjadi penting dalam pendidikan agar prestasi belajar
manusia yang beriman dan bertakwa kepada siswa meningkat adalah manajemen pembe-
Tuhan Yang Maha Esa, berakhlaq mulia, sehat, lajaran di sekolah. Semakin baik manajemen
berilmu, cakap, kreatif, mandiri dan menjadi pembelajaran yang ditawarkan sekolah kepa-
warga negara yang demokratis serta bertang- da siswa semakin besar pula kemungkinanan
gungjawab (Depdiknas, 2003, p.4). Berdasar- prestasi belajar siswa akan baik.
kan tujuan pendidikan tersebut maka kualitas Satu permasalahan yang sering muncul
dan manajemen pembelajaran di sekolah atau di kalangan peserta didik SMK adalah masih
lembaga pendidikan perlu ditingkatkan. Salah banyak yang mementingkan kompetensi mata
satu indikator kualitas dan manajemen seko- pelajaran produktif daripada mata pelajaran
lah atau lembaga pendidikan dapat dilihat dari adaptif dan normatif. Banyak peserta didik
prestasi belajar siswa. SMK yang piawai menghasilkan karya sesuai
Sekolah Menengah Kejuruan (SMK) dengan kompetensi kejuruannya tetapi mereka
merupakan salah satu lembaga pendidikan lemah dalam mata pelajaran adaptif dan nor-
yang berupaya menciptakan sumber daya ma- matif. Contohnya adalah banyak peserta didik
nusia yang memiliki kemampuan, keterampi- jurusan Tata Busana mampu membuat dan
lan, dan keahlian sehingga lulusannya dapat mendesain busana yang bagus tapi dia lemah
mengembangkan keterampilannya agar dapat pada mata pelajaran Matematika yang menjadi
terjun dalam dunia kerja maupun untuk salah satu syarat kelulusannya. Oleh karena
melanjutkan ke jenjang pendidikan yang lebih itu, sangat diperlukan perhatian oleh satuan
tinggi. Menurut Peraturan Pemerintah No. 29 pendidikan untuk mampu menyelenggarakan
Tahun 1990 pasal 2 ayat (1) menyebutkan bah- pembelajaran yang bisa mengatasi masalah
wa sekolah kejuruan bertujuan untuk mening- tersebut.
katkan pengetahuan siswa dalam pengemban-
Menyadari pentingnya kualitas pembela-
gan diri dan untuk meningkatkan kemampuan
jaran dalam rangka mencerdaskan kehidupan
siswa sebagai anggota masyarakat. Menurut
bangsa, maka pemerintah bersama kalangan
Peraturan Pemerintah No. 29 Tahun 1990 pasal
swasta sama-sama telah dan terus berupaya
3 ayat (2) disebutkan bahwa sekolah kejuru-
mewujudkan amanat tersebut melalui berbagai
an bertujuan untuk menyiapkan siswa dalam
memenuhi lapangan kerja, menyiapkan siswa usaha pembangunan pendidikan yang lebih
agar mampu memiliki karir, dan menyiapkan berkualitas antara lain melalui pengembangan
tamatan agar menjadi warga Negara yang dan perbaikan kurikulum dan sistem evaluasi,
produktif, adaptif, dan normatif. perbaikan sarana pendidikan, pengembangan
dan pengadaan materi ajar, serta pelatihan
Secara garis besar tujuan diselenggarakan
bagi guru dan tenaga kependidikan lainnya.
sekolah kejuruan adalah untuk membekali lu-
Tetapi pada kenyataannya upaya pemerintah
lusan dengan kompetensi yang berguna bagi
tersebut belum cukup berarti dalam mening-
diri sendiri dalam karir dan kehidupan berma-
katkan kuailtas pendidikan. (Umaedi, 2001,
syarakat. Tujuan sekolah menengah kejuruan
p.3). Proses belajar mengajar merupakan salah
akan lebih terarah jika kurikulum yang digu-
satu faktor penentu keberhasilan pendidikan di
nakan tepat dan dilaksanakan dengan baik.

Data Mining untuk Memprediksi Prestasi Siswa


224 – Jurnal Pendidikan Vokasi

sekolah. Rendahnya mutu pendidikan meru- prestasi belajar siswa. Dengan kemampuan
pakan akibat dari rendahnya kualitas proses finansial orang tua, tentunya akan mempen-
pembelajaran yang dilakukan di sekolah. garuhi fasilitas belajar yang disediakan oleh
Satu hal yang belum banyak dilakukan orang tua terhadap sarana dan prasarana yang
oleh lembaga-lembaga pendidikan atau seko- dibutuhkan oleh seorang siswa untuk mening-
lah kejuruan adalah melakukan antisipasi terh- katkan prestasi belajarnya.
adap peserta didik yang berpotensi mengalami Berdasarkan Undang-Undang Sistem Pen-
hambatan atau kurang berprestasi dalam be- didikan Nasional No. 20 Tahun 2003 Bab III 
lajarnya. Hal ini dianggap penting karena se- Pasal 45 tentang sarana dan prasarana pendidi-
makin awal lembaga-lembaga pendidikan atau kan, dinyatakan bahwa (1) setiap satuan pendi-
sekolah kejuruan mengetahui adanya potensi dikan formal maupun  non formal meyediakan
siswa yang kemungkinan akan mengalami sarana dan prasarana yang memenuhi keperlu-
hambatan dalam belajarnya, maka lembaga- an pendidikan sesuai dengan pertumbuhan dan
lembaga pendidikan atau sekolah bisa melaku- perkembangan secara fisik, kecerdasan intelek-
kan langkah-langkah antisipatif. tual sosial, emosional, dan kejiwaan peserta di-
Dampak dari kurangnya antisipasi atau dik; (2) ketentuan mengenai penyediaan sarana
pencegahan sejak dini terhadap siswa atau dan prasarana pendidikan pada semua satuan
calon siswa yang berpotensi mengalami ham- pendidikan sebagaimana dimaksud pada ayat
batan dalam belajarnya atau kurang berprestasi (1) diatur lebih lanjut dengan peraturan pemer-
adalah fakta masih banyak siswa yang tidak intah.
naik kelas karena terhambat prestasinya bah- Dari kedua ayat di atas dimaksudkan agar
kan ada yang dikeluarkan dari sekolah. Kedua tiap-tiap sekolah menyediakan sarana dan
hal tersebut sering kita dengar dan pasti diala- prasarana pembelajaran yang memadai semua
mi oleh semua sekolah. keperluan pendidikan agar siswa dapat meman-
Berdasarkan uraian di atas, maka peneli- faatkannya sebagai penunjang belajar siswa.
tian ini bertujuan untuk membuat prediksi se- Tulus (2004, pp.81-83) mengungkapkan
jak dini terhadap siswa yang berpotensi tidak bahwa sarana belajar biasanya menjadi penun-
berprestasi atau mengalami hambatan dalam jang prestasi belajar, namun demikian bila
belajarnya, sehingga dapat dilakukan langkah- kelengkapan fasilitas belajar sebagai sarana
langkah antisipatif dari sekolah untuk meng- penunjang belajar di sekolah memadai, seba-
hindarkan diri dari kemungkinan tidak naik liknya dapat menjadi faktor penghambat apa-
kelas bahkan dikeluarkannya siswa dari seko- bila kelengkapan fasilitas belajar di sekolah
lah. Langkah yang bisa diambil sekolah setelah kurang memadai.
mengetahui adanya siswa yang berpotensi ti- Sekolah Menengah Kejuruan hendaknya
dak berprestasi adalah dengan melakukan menyediakan sarana dan prasarana sesuai den-
pendampingan khusus terhadap siswa tersebut. gan kebutuhan dan perkembangan siswa agar
Harapan akhirnya adalah semua siswa dari dapat menumbuhkan, mengembangkan dirinya
berbagai latar belakang faktor masing-masing sesuai dengan bakat dan kemampuan sebagai
dapat maksimal dalam prestasi belajar siswanya. manusia seutuhnya. Dengan adanya fasilitas
Beberapa faktor yang mempengaruhi belajar yang lengkap, akan menumbuhkan rasa
prestasi belajar siswa Sekolah Menengah Ke- bangga dan rasa memiliki. Pemeliharaan fasili-
juruan antara lain sosial ekonomi orang tua, tas belajar di sekolah merupakan tanggung
fasilitas belajar sekolah, motivasi, kedisiplinan jawab semua pihak yang bersangkutan. Hal ini
siswa dan prestasi masa lalu siswa. Hal terse- bertujuan agar fasilitas belajar dapat diman-
but dibuktikan dengan banyaknya penelitian faatkan sesuai fungsinya dan dapat bertahan 
yang telah dilakukan sebelumnya. dengan jangka waktu yang lama. Pengadaan
Faktor status sosial ekonomi orang tua fasilitas belajar sangat penting bagi siswa dan
yang mewujudkan pada kemampuan finansial- kurikulum pada saat itu.
nya. Kemampuan finansial yang berbeda-beda Belajar sudah menjadi kewajiban yang
sedikit banyak akan berpengaruh terhadap harus di lakukan oleh seorang siswa. Kadang,

Jurnal Pendidikan Vokasi, Vol 4, Nomor 2, Juni 2014


Jurnal Pendidikan Vokasi – 225

siswa jenuh dan akhirnya memilih untuk tidak kuat mengalami hambatan dalam prestasi bela-
belajar. Untuk itulah mereka perlu diberi do- jarnya bisa dilakukan langkah-langkah antisi-
rongan baik dari segala pihak. Pengaruh mo- pasi sejak dini terhadap siswa tersebut.
tivasi terhadap prestasi belajar siswa sangat Penelitian-penelitian tentang faktor-faktor
besar karena itu orang – orang di sekitar hen- yang mempengaruhi prestasi belajar siswa
daknya memberi motivasi yang tepat. sebelumnya, banyak yang menggunakan pen-
Faktor kedisiplinan dalam pengelolaan golahan data statisika. Pada penelitian ini,
pengajaran merupakan suatu hal yang sangat peneliti menggunakan data mining. Data min-
penting. Tanpa adanya kesadaran akan keha- ing merupakan cabang ilmu baru di bidang
rusan melaksanakan aturan yang sudah diten- komputer, cukup banyak penerapan yang dapat
tukan sebelumnya pengajaran tidak mungkin dilakukannya. Hal itu ditunjang kekayaan dan
mencapai target yang maksimal. Seorang siswa keanekaragaman berbagai bidang ilmu (arti-
perlu memiliki sikap disiplin dengan melaku- ficial intelligence, database, statistik, pemod-
kan latihan yang memperkuat dirinya sendiri elan matematika dan pengolahan citra) mem-
untuk selalu terbiasa patuh dan mempertinggi buat penerapan data mining menjadi makin
daya kendali diri. Sikap disiplin yang timbul luas. Alasan utama mengapa data mining san-
dari kesadarannya sendiri akan dapat lebih gat menarik perhatian industri informasi dalam
memacu dan tahan lama dibandingkan dengan beberapa tahun belakangan ini adalah karena
sikap disiplin yang timbul karena adanya pen- tersedianya data dalam jumlah yang besar dan
gawasan dari orang lain. semakin besarnya kebutuhan untuk mengubah
Disiplin dapat tumbuh dan dibina melalui data tersebut menjadi informasi dan pengeta-
latihan, pendidikan atau penanaman kebiasaan huan yang berguna. Data mining adalah keg-
yang harus dimulai sejak dalam lingkungan ke- iatan mengekstraksi atau menambang penge-
luarga, mulai pada masa kanak-kanak dan terus tahuan dari data yang berukuran/berjumlah
tumbuh berkembang sehingga menjadi disiplin besar, informasi inilah yang nantinya sangat
yang semakin kuat. Seperti halnya disebutkan berguna untuk pengembangan.
oleh Tulus (2004, p.37) bahwa dengan disiplin Definisi sederhana dari data mining adalah
yang muncul karena kesadaran diri, siswa ber- ekstraksi informasi atau pola yang penting atau
hasil dalam belajarnya, tanpa disiplin yang baik menarik dari data yang ada di database yang
suasana sekolah dan juga kelas menjadi kurang besar. Dalam jurnal ilmiah, data mining juga
kondusif bagi kegiatan pembelajaran secara dikenal dengan nama Knowledge Discovery in
positif disiplin memberi dukungan lingkungan Databases (KDD).
yang tenang dan tertib bagi proses pembelaja- Banyak perusahaan, lembaga atau instansi
ran, disiplin merupakan jalan bagi siswa untuk yang menggunakan hasil penelitian menggu-
sukses dalam belajar dan kelak ketika bekerja nakan data mining untuk mendukung tujuan-
karena kesadaran pentingnya norma, aturan, nya. Beberapa penelitian yang telah meng-
kepatuhan dan ketaatan merupakan kesuksesan gunakan data mining dalam berbagai bidang
seseorang. antara lain : (1) penelitian tentang peramalan
Berdasarkan uraian mengenai faktor-fak- cuaca menggunakan data mining yang bisa di-
tor yang mempengaruhi prestasi belajar siswa gunakan oleh BMG (Badan Meteorologi dan
di atas, maka penelitian ini dilakukan dengan Geofisika). Judul penelitian “Peramalan Cua-
tujuan untuk mengetahui seberapa besar kon- ca Menggunakan Data Mining”, Fandianto &
tribusi dari berbagai faktor tersebut terhadap Helmy (2009), berdasarkan hasil penelitian,
prestasi belajar siswa dan faktor-faktor mana dapat disimpulkan bahwa SVM dengan fungsi
yang paling dominan kontribusinya terha- kernel polynomial adalah metode data mining
dap prestasi belajar siswa. Harapan dari hasil terbaik untuk peramalan cuaca interval satu
penelitian ini adalah adanya hasil rumusan jam dengan tingkat kesalahan yang rendah
faktor-faktor yang mempengaruhi prestasi be- dan akurat; (2) Judul penelitian “Menerapkan
lajar siswa. Berdasarkan faktor-faktor tersebut, Pendekatan Data Mining Penelitian Tanah di
siswa yang diprediksi memiliki faktor-faktor Indonesia” oleh Balai Besar Penelitian dan

Data Mining untuk Memprediksi Prestasi Siswa


226 – Jurnal Pendidikan Vokasi

Pengembangan Sumber Daya Lahan Pertanian, akan dibiarkan menggunung, tidak berguna lalu
Yiyi Sulaeman dan Rizatus Shofiyati (2008), dibuang, ataukah kita dapat me-‘nambang’-nya
berdasarkan penelitian ini, data mining mem- untuk mencari ‘emas’, ‘berlian’ yaitu informa-
bantu peneliti tanah untuk mengembangkan si yang berguna untuk meningkatkan prestasi
model (seperti persamaan, aturan, dan deci- anak didik kita. Banyak di antara kita yang ke-
sion tree) dan untuk menggali dan menemukan banjiran data tapi miskin informasi.
pola data. Selain itu, model dan pola data dapat Lembaga pendidikan pada umumnya
digunakan untuk memformulasikan hipotesis dan Sekolah Menengah Kejuruan khususnya
yang mudah dimengerti untuk penelitian tanah adalah institusi yang memiliki data explosion
dan untuk membangun perangkat (expert sys- yang belum dimanfaatkan dengan baik untuk
tems dan decision support system) untuk pen- sesuatu yang berguna. Data yang biasa dimil-
gelolaan lahan dan tanah. Framework untuk iki sekolah dalam jumlah besar dan akan selalu
mengaplikasikan data mining pada penelitian bertambah setiap tahunnya antara lain daftar
tanah nasional diusulkan meliputi pengemban- hadir siswa, data nilai calon siswa pada saat
gan database tanah, seleksi dataset, aplikasi al- penerimaan siswa baru dan data status sosial
goritma, dan penyajian dan interpretasi hasil; ekonomi orang tua yang biasa diinput pada saat
(3) Judul penelitian “Prediksi Status Keaktifan penerimaan siswa baru juga atau bisa juga dari
Studi Mahasiswa dengan algoritma C5.0 dan data yang dimiliki BP/BK di sekolah.
K-Nearest Neighbor”, Iin Ernawati (2008), ber-
Data - data tersebut belum termanfaatkan
dasarkan penelitian ini disimpulkan bahwa Ra-
dengan baik sebagai bahan pertimbangan, ka-
ta-rata keberhasilan algoritma C5.0 dan KNN
jian dan penelitian untuk membuat suatu infor-
dalam melakukan klasifikasi data mencapai
masi yang berguna bagi sekolah. Oleh karena
akurasi di atas 90%. Hal ini menunjukkan bah-
itu, dengan adanya data mining bisa menjadi
wa keduanya memiliki performa yang handal
salah satu solusi untuk menambang tumpu-
dalam melakukan klasifikasi. Algoritma C5.0
kan data-data tersebut untuk membuat nilai
tetap dianggap sebagai algoritma yang sangat
atau informasi yang lebih berguna. Berdasar-
membantu dalam melakukan klasifikasi data
kan uraian di atas, penelitian ini menggunakan
karena karakteristik data yang diklasifikasi
metode data mining untuk membuat suatu pre-
dapat diperoleh dengan jelas baik dalam ben-
diksi tentang prestasi belajar siswa dengan me-
tuk struktur pohon keputusan maupun aturan if-
manfaatkan tumpukan data yang telah dimiliki
then, sehingga memudahkan pengguna dalam
sekolah tersebut.
melakukan penggalian informasi terhadap data
yang bersangkutan. Berdasarkan ketiga contoh
penelitian menggunakan data mining di atas, METODE PENELITIAN
dapat disimpulkan bahwa penggunaan metode Penelitian ini menggunakan pendekatan
data mining sangat layak dan terpercaya untuk kuantitatif. Tempat Penelitian ini adalah SMK
digunakan dalam penelitian khususnya dalam Negeri 4 Surakarta yang beralamat di Jalan LU
membuat suatu prediksi. Adi Sucipto No. 40 Surakarta. Waktu pene-
Kehadiran data mining dilatar belakangi litian dan pengambilan data pada bulan Juni
dengan problema data explosion yang dialami 2013 sampai Desember 2013.
akhir-akhir ini dimana banyak organisasi telah Target/subjek penelitian adalah siswa
mengumpulkan data sekian tahun lamanya. tingkat X SMK Negeri 4 Surakarta Tahun Pe-
Kaitannya dengan penelitian ini adalah adanya lajaran 2013/2014 sejumlah 416 siswa.
penumpukan data seperti data sosial ekonomi
Prosedur penelitian menggunakan taha-
orang tua, kehadiran siswa (disiplin), data nilai
pan-tahapan KDD (Knowledge Data Discov-
siswa, prestasi masa lalu siswa dan lain-lain.
ery). Tahapan-tahapannya adalah: (1) Data
Data-data tersebut biasa didapat oleh sekolah
Selection, yaitu tahapan ini dilakukan untuk
pada saat PPDB (Penerimaan Peserta Didik
memilih data yang sesuai dengan variabel yang
Baru). Betapa besarnya ukuran data tersebut
dibutuhkan dalam penelitian; (2) Pre-process-
jika nanti telah berjalan beberapa tahun. Per-
ing/Cleaning, sebelum proses data mining
tanyaannya sekarang, apakah data tersebut

Jurnal Pendidikan Vokasi, Vol 4, Nomor 2, Juni 2014


Jurnal Pendidikan Vokasi – 227

Gambar 1. Kerangka pikir penelitian

dapat dilaksanakan, perlu dilakukan proses ekonomi orang tua, motivasi, kedisiplinan dan
cleaning pada data yang menjadi fokus KDD. prestasi masa lalu.
Proses cleaning mencakup antara lain mem-
buang duplikasi data, memeriksa data yang Decision Tree
inkonsisten, dan memperbaiki kesalahan pada Decision Tree akan memperlihatkan
data, seperti kesalahan cetak (tipografi); (3) faktor-faktor kemungkinan (probabilitas)
Transformation, coding adalah proses trans- yang akan mempengaruhi alternatif-alternatif
formasi pada data yang telah dipilih, sehingga prestasi belajar siswa, disertai dengan prediksi
data tersebut sesuai untuk proses data mining; hasil akhir yang akan didapat bila faktor-faktor
(4) Analisis data; (5) Pattern Evaluation, meru- dalam Decision Tree terpenuhi. Decision Tree
pakan tahapan evaluasi untuk mengidentifikasi akan mengubah data kedalam bentuk visual
pola yang benar-benar menarik yang mewakili berupa diagram pohon dan aturan-aturan kepu-
pengetahuan berdasarkan sumber data yang tusan.
ada. Kerangka pikir yang digunakan dalam  Data dalam Decision Tree dinyatakan
penelitian ini dapat dilihat pada gambar 1. dalam bentuk tabel dengan atribut dan record.
Penelitian ini memperoleh data dari ang- Atribut menyatakan suatu parameter yang
ket dan dokumentasi. Teknik dokumentasi di- dibuat sebagai kriteria dalam pembentukan
gunakan untuk mengambil data status sosial tree. Salah satu atribut yang merupakan atribut
ekonomi orang tua, kedisiplinan, dan prestasi yang menyatakan data solusi per-item data
masa lalu, sedangkan data motivasi siswa di- yang disebut dengan target atribut. Atribut me-
peroleh melalui angket. miliki nilai-nilai yang dinamakan dengan in-
stance.
Teknik Analisis Data
Alur proses analisis dalam decision tree
Penelitian ini mengunakan teknik Deci- adalah mengubah bentuk data (table) menjadi
sion Tree, CHAID dan regresi ganda untuk model tree, mengubah model tree menjadi rule
melakukan prediksi prestasi belajar siswa dan menyederhanakan rule (pruning). Data
SMK Negeri 4 Surakarta berdasarkan status yang diambil dalam penelitian ini adalah popu-

Data Mining untuk Memprediksi Prestasi Siswa


228 – Jurnal Pendidikan Vokasi

lasi sejumlah 416 siswa akan digunakan untuk Hasil akhir dari penyusunan node root dan
membuat model prediksi Decision Tree. Model leaf node tersebut adalah sebuah pohon kepu-
yang telah dibuat kemudian akan dihitung tusan dengan setiap cabangnya menunjukkan
tingkat akurasi prediksinya. kemungkinan skenario dari keputusan yang di-
Ada banyak metodologi Data Mining, ambil serta hasilnya. Konsep pohon keputusan
salah satu yang populer adalah Pohon Kepu- adalah mengubah data menjadi sebuah pohon
tusan (Decision Tree). Pohon keputusan meru- keputusan (decision tree) dan aturan-aturan
pakan salah satu metode klasifikasi yang san- keputusan (rule).
gat menarik yang melibatkan konstruksi po-
hon keputusan yang terdiri dari node keputu-
san yang di hubungkan dengan cabang-cabang
dari simpul akar sampai ke node daun (akhir). Gambar 2. Alur decision tree
Pada node keputusan attribut akan diuji, dan
setiap hasil akan menghasilkan cabang. Setiap CHAID
cabang akan diarahkan ke node lain atau ke Tujuan dari metode ini adalah untuk me-
node akhir untuk menghasilkan suatu keputu- misahkan data secara berurutan dengan pem-
san (Larose, 2005, p.107). bagian biner menjadi beberapa subgrup. Pada
tiap tahap, pembagian sebuah grup menjadi
Menurut Maimon (2005, p.8), pohon
dua bagian didefinisikan oleh salah satu varia-
keputusan adalah salah satu metode klasifikasi
bel prediktor, sebuah himpunan bagian dari
yang dinyatakan sebagai partisi rekursif. Po-
kategori-kategorinya mendefinisikan salah satu
hon keputusan terdiri dari node yang memben-
bagian, dan sisa kategori lainnya mendefinisi-
tuk pohon yang berakar, semua node memiliki
kan bagian yang lain. Pada AID, prediktornya
satu masukan. Node yang keluar disebut node
memiliki dua tipe utama, yaitu monotonik dan
tes. Node yang lain disebut node keputusan
bebas. (Kass, 1980, p.241).
atau sering disebut node daun. Setiap simpul
internal membagi dua atau lebih sub-ruang ses- Alur proses analisis data dengan CHAID
uai dengan kategori attribut dan akan dipartisi adalah memeriksa tiap variabel independen
sesuai dengan nilai kategori kasus. Kasus-ka- menggunakan uji chi-square, menentukan
sus tersebut membentuk pohon keputusan yang variabel independen mana yang paling sig-
menghasilkan problem solving. nifikan, membagi data menggunakan kategori
variabel independen tersebut dengan peringkat
Klasifikasi data mining adalah penempa- yang paling signifikan, mengulangi langkah
tan objek-objek ke salah satu dari beberapa ke-4 untuk semua subgrup sampai teridenti-
kategori yang telah ditetapkan sebelumnya. fikasi semua pembagian yang secara statistik
Klasifiksi banyak digunakan untuk mempre- telah signifikan.
diksi kelas pada suatu label tertentu, yaitu den-
gan mengklasifikasi data (membangun model) Regresi
berdasarkan training set dan nilai-nilai (label Regresi linier adalah metode statistika
kelas) dalam mengklasifikasikan atribut terten- yang digunakan untuk membentuk model
tu dan menggunakannya dalam mengklasifika- hubungan antara variabel terikat (dependen)
sikan data yang baru. dengan satu atau lebih variabel bebas (inde-
Pohon keputusan biasanya digunakan un- penden). Apabila banyaknya variabel bebas
tuk mendapatkan informasi untuk tujuan pen- hanya ada satu, disebut sebagai regresi linier
gambilan sebuah keputusan. Pohon keputusan sederhana, sedangkan apabila terdapat lebih
dimulai dengan sebuah root node (titik awal) dari 1 variabel bebas, disebut sebagai regresi
yang digunakan oleh user untuk mengam- linier berganda. Hal ini sesuai dengan defini-
bil tindakan. Berdasarkan node root ini, user si tentang regresi linier menurut Xin Yan dan
memecahkan leaf node sesuai dengan algorit- Xiao Gang Su (2009:2) sebagai berikut:
ma decision tree.

Jurnal Pendidikan Vokasi, Vol 4, Nomor 2, Juni 2014


Jurnal Pendidikan Vokasi – 229

Tabel 1. Detailed accuracy by class

Total Number of Instances


Deailed Accuracy By Class
TP Rate Class FP Rate Precision Recall F-Measure ROC Area
0.933 0.004 0.99 0.933 0.961 0.984 C
0.979 0.012 0.969 0.979 0.974 0.991 B
1 0.043 0.917 1 0.957 0.984 D
0.864 0.003 0.95 0.864 0.905 0.981 A
0.727 0 1 0.727 0.842 0.997 E
W.Avg.0.957 0.018 0.959 0.957 0.956 0.986

Regression analysis is the method to dis- HASIL PENELITIAN DAN


cover the relationship between one or more PEMBAHASAN
response variables (also called dependent vari- Hasil penelitian berdasarkan tahapan-
ables, explained variables, predicted variables, tahapan proses dalam KDD (Knowledge Data
or regressands, usually denoted by y) and the Discovery) sebagai berikut: (1) Data Selection,
predictors (also called independent variables, tahapan ini dilakukan untuk memilih data yang
explanatory variables, control variables, or re- sesuai dengan variabel yang dibutuhkan dalam
gressors, usually denoted by x1; x2; ¢ ¢ ¢ ; xp). penelitian. Caranya adalah dengan memilih
Menurut Deny Kurniawan (2008, p.1) atau menentukan atribut-atribut data mana
analisis regresi setidak-tidaknya memiliki 3 yang akan digunakan dalam penelitian dari
kegunaan, yaitu untuk tujuan deskripsi dari sekelompok data operasional yang ada. Salah
fenomena data atau kasus yang sedang diteliti, satunya adalah menentukan atribut-atribut un-
untuk tujuan kontrol, serta untuk tujuan predik- tuk variabel Sosial Ekonomi Orang Tua yang
si. Regresi mampu mendeskripsikan fenom- diambil dari data operasional yaitu Data Priba-
ena data melalui terbentuknya suatu model di Siswa yang ada di BP/BK sekolah; (2) Pre-
hubungan yang bersifatnya numerik. Regresi processing/Cleaning, proses cleaning tersebut
juga dapat digunakan untuk melakukan pen- dilakukan terhadap keseluruhan data yang
gendalian (kontrol) terhadap suatu kasus atau diteliti yang berjumlah 416 siswa. Setelah di-
hal-hal yang sedang diamati melalui penggu- lakukan proses cleaning data sejumlah 416, di-
naan model regresi yang diperoleh. Selain itu, hasilkan data bersih sebanyak 346 record data
model regresi juga dapat dimanfaatkan untuk yang digunakan untuk proses analisis berikut-
melakukan prediksi untuk variabel terikat. nya; (3) Transformation, tahap ini menghasil-
Namun yang perlu diingat, prediksi di dalam kan satu recordset data yang siap untuk analisis
konsep regresi hanya boleh dilakukan di dalam data; (4) Analisis data.
rentang data dari variabel-variabel bebas yang Analisis data yang pertama adalah dengan
digunakan untuk membentuk model regresi menggunakan teknik decision tree algoritma
tersebut. J48. Software yang digunakan adalah WEKA
3.6.9. Hasil yang diperoleh adalah tingkat
Alur proses dalam regresi ganda adalah
akurasi prediksi sebesar 95,7%, seperti tampak
menghitung mean, menghitung standard de-
pada tabel 1.
viasi, menghitung kuadrat varian, menghitung
korelasi product Moment, menghitung nilai Analisis yang kedua menggunakan
beta, menghitung nilai b1, b2, dan a, membuat CHAID (Chi Squared Automatic Interaction
persamaan garis regresi, menghitung sumban- Detection). Analisis ini menggunakan software
gan relatif dari kedua prediktor (R2), menghi- SPSS 16.0. Hasil yang diperoleh adalah tingkat
tung nilai signifikansi (F) dan menghitung sig- akurasi prediksi sebesar 82,1%, seperti tampak
nifikansi tiap-tiap prediktor (t). pada tabel 2.

Data Mining untuk Memprediksi Prestasi Siswa


230 – Jurnal Pendidikan Vokasi

Tabel 2. CHAID Classification


Predicted
Observed
A B C D E F
A 0 22 0 0 0 0%
B 0 83 14 0 0 85.6%
C 0 0 90 15 0 85.7%
D 0 0 0 111 0 100%
E 0 0 0 11 0 0%
Overall Percentage 0% 30.3% 30.1% 39.6% 0% 82.1%
Growing Method: CHAID
Dependent Variable: nilai_uts

Analisis yang ketiga menggunakan regresi prestasi belajar siswa berdasarkan status sos-
ganda. Analisis ini menggunakan software ial ekonomi orang tua, motivasi, kedisiplinan
SPSS 16.0. Hasil yang diperoleh adalah tingkat siswa dan prestasi masa lalu menggunakan
signifikansi seluruh variabel independen terha- metode data mining diperoleh hasil sebagai
dap variabel dependen sebesar 90,6%. berikut : (1) variabel motivasi adalah variabel
yang menentukan potensi seorang siswa berha-
Perbandingan Hasil Akurasi Prediksi antara sil atau tidak prestasi belajarnya di waktu yang
Metode J48, CHAID dan Regresi Ganda akan datang. Hal ini dibuktikan dengan adan-
Perbandingan akurasi klasifikasi antara ya variabel motivasi yang menjadi root node
metode J48, CHAID dan regresi ganda untuk dalam decision tree yang terbentuk. Variabel
class nilai UTS sebagai target adalah sebagai prestasi masa lalu merupakan variabel kedua
berikut: yang penting dalam keberhasilan siswa men-
empuh studinya. Hal ini menunjukkan bahwa
Tingkat akurasi atau signifikansi variabel
aspek knowledge atau kecerdasan siswa san-
prediktor terhadap prestasi belajar siswa den-
gat berpengaruh terhadap keberhasilan bela-
gan menggunakan metode J48 sebesar 95,7%.
jarnya. Sebaliknya, walaupun siswa terpre-
Tingkat akurasi atau signifikansi variabel pre-
diksi secara knowledge kurang tetapi dengan
diktor terhadap prestasi belajar siswa dengan
motivasi tinggi tetap bisa berprestasi minimal
menggunakan metode CHAID sebesar 82,1%.
pada kategori B atau C. Rata-rata keberhasi-
Tingkat akurasi atau signifikansi variabel pre-
lan algoritma J48 dalam melakukan klasifi-
diktor terhadap prestasi belajar siswa dengan kasi data mencapai akurasi di 95,7%. Hal ini
menggunakan regresi ganda sebesar 90,1%. menunjukkan bahwa algoritma ini memiliki
Berdasarkan hasil tersebut terlihat bahwa performa yang handal dalam melakukan kla-
penggunaan metode J48 lebih baik dari metode sifikasi; (2) Hasil akurasi klasifikasi menggu-
CHAID dan regresi ganda. Hal terlihat seperti nakan metode CHAID dengan data yang sama
pada tabel di bawah ini. memperoleh hasil rata-rata prediksi 82,1. Hal
Tabel 3. Perbandingan Hasil Prediksi J48, ini menunjukkan bahwa berdasarkan hasil kla-
CHAID dan Regresi Ganda sifikasi menggunakan metode CHAID tersebut
memiliki tingkat akurasi yang tergolong baik,
Observed J48 CHAID Regresi yaitu lebih dari 80%; (3) Berdasarkan tabel di
Rata-rata 95.7% 82.1% 90,1 atas angka R Square adalah 0,906 untuk pre-
dictor Motivasi dan Prestasi_ml. Hasil tersebut
adalah hasil kuadrat korelasi. Standar Error of
SIMPULAN DAN SARAN the Estimate adalah 0,30477, perhatikan pada
analisis deskriptif statistik bahwa standar de-
Simpulan viasi nilai uts adalah 0,99246 yang jauh lebih
Berdasarkan analisis data menggunakan besar dari dari standar error, oleh karena lebih
decision tree data mining untuk memprediksi besar daripada standar deviasi nilai uts maka

Jurnal Pendidikan Vokasi, Vol 4, Nomor 2, Juni 2014


Jurnal Pendidikan Vokasi – 231

model regresi ini bagus dalam bertindak seb- DAFTAR PUSTAKA


agai predictor nilai uts.
Kurniawan, Deny. (2008). Regresi linier (lin-
Berdasarkan ketiga hasil analisis di atas ear regression). Vienna, Austria: R
dapat diketahui bahwa akurasi prediksi presta- Foundation for Statistical Computing
si belajar menggunakan metode J48 adalah
sebesar 95,7%, sedangkan metode CHAID Depdiknas. (2003). Undang-Undang Republik
mempunyai akurasi prediksi sebesar 82,1% Indonesia Nomor 20 Tahun 2003, ten-
dan analisis regresi ganda mempunyai tingkat tang Sistem Pendidikan Nasional
signifikansi 90,6%. Berdasarkan data tersebut
dapat disimpulkan bahwa penggunaan metode Depdiknas. (1990). Peraturan Pemerintah RI
data mining dengan algoritma decision tree No. 29, Tahun 1990, tentang Pendidikan
(J48) memiliki tingkat akurasi yang lebih baik Menengah
dari 2 (dua) metode lain yaitu CHAID dan re- Kass G.V. (1980). An exploratory technique
gresi ganda. for investigating large quantities of cat-
egorical data. Appl. Statist. 29 No.2. pp
Saran
119-127
Berdasarkan simpulan di atas, penulis
menyarankan beberapa hal, yaitu: (1) Keterba- Larose, & Daniel T. (2005). Discovering
tasan data yang cukup beserta informasi pendu- knowledge in data: an introduction to
kungnya yang dimiliki oleh sekolah. Keterse- data mining. USA: John Wiley and Sons
diaan data yang dimiliki sangat mempengaruhi
Lior Rokach, & Oded Maimon. (2005). Data
tingkat akurasi data dalam melakukan predik-
mining with decision tree. World Sci-
si. Salah satu diantaranya adalah data tentang
entific Publishing Co. Pte. Ltd. Series
kedisiplinan yang tidak hanya menggunakan
in Machine Perception Artificial Intel-
rekap absensi siswa; (2) Perlunya untuk meny-
ligence Volume 69
impan data yang disimpan untuk jangka waktu
yang lama, sehingga menjamin ketersediaan Umaedi. (2001). Manajemen peningkatan mutu
data tersebut jika dibutuhkan sewaktu-waktu. berbasis sekolah. Jakarta: Departemen
3) Diperlukan kebijakan yang jelas dan tepat Pendidikan Nasional Direktorat Jendral
sasaran untuk mengatasi siswa yang berpotensi Pendidikan Dasar dan Menengah Direk-
kesulitan dalam hal prestasi belajarnya. Misal- torat Sekolah Lanjutan Tingkat Pertama
nya dengan melakukan pendampingan siswa
tersebut. Tulus. (2004). Peran disiplin pada perilaku
dan prestasi siswa. Jakarta: Grasindo

Xin Yan, & Xiao Gang Su. (2009). Linear re-


gression analysis. London: World Sci-
entific Publishing Co. Pte. Ltd., Covent
Garden

Data Mining untuk Memprediksi Prestasi Siswa

Anda mungkin juga menyukai