Anda di halaman 1dari 20

Reimplementasi Jurnal

Judul Jurnal :
Mining Educational Data to Analyze Students Performance
(IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 2, No. 6, 2011 AUTHORS Brijesh Kumar Baradwaj Research Scholor, Singhaniya University, Rajasthan, India Saurabh Pal Sr. Lecturer, Dept. of MCA, VBS Purvanchal University, Jaunpur-222001, India

Nama Kelompok
A.A

.A. JacquelineWidari Putu Asry Yundari Retno Fitria Inlani

0908605033 0908605041 0908605057

Pendahuluan..

Pada jurnal ini membahas tentang bagaimana cara menganalisis prestasi siswa. Penilaian untuk prestasi siswa ditentukan oleh penilaian internal dan nilai ujian akhir semester. Penilaian internal berdasarkan proses pembelajaran didalam kelas seperti

Dan ujian akhir semester adalah salah satu nilai yang harus dimiliki oleh setiap siswa pada setiap semester.

class test, seminar, tugas, general proficiency, praktikum kehadiran.

Proses Data Mining


Data

Preparations Data Selection dan Transformation Decision Tree Measuring Impurity Splitting Area Pembahasan

Data Preprarations
Dataset

yang digunakan dalam penelitian ini diperoleh dari VBS Vurvanchal University, Jaunpur (Uttar Pradesh) pada departement application computer dari tahun 2007-2010 jumlah data set yang digunakan adalah 50 sample. Data set

Data Selection & Transformation

Dari dataset yang ada kemudian dipilih variabel atau atribut yaitu : PSM yaitu nilai semester sebelumnya PSM {First, second, third, fail} CTG yaitu Class test Grade CTG {good, average, poor} SEM yaitu seminar performance CTG {good, average, poor} ASS yaitu Tugas ASS {yes, no} GP yaitu General Proficiency GP {yes, no} ATT yaitu kehadiran ATT {good, second, third, poor} LW yaitu Praktikum LW {yes, no}

Decision Tree
Decision

Tree Learning adalah salah satu metode yg sangat populer dan banyak digunakan secara praktis Jenis Decision Tree yg cukup populer antara lain : ID3 ( Iterative Dychotomizer version 3 ) ASSISTANT C4.5

Algoritma ID3
ID3

adalah algoritma paling dasar dalam decision tree learning. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pd semua kemungkinan tree.

Cont

Measuring Impurity
Tabel

data yang terdiri ari atribut dan kelas atribut kita dapat mengukur hogeneity dari tabel data berdasarkan kelasnya. Pengukuran ini meliputi Entropy, Gini Index, dan classification error.

Entropy

Gini Index

Classification Error

Splitting Area
Untuk

membanding atribut yang paling baik digunakan sebagai particular node dapat dilakukan menggunkan perhitungan information Gain.

Pembahasan

Langkah 1

Pada tahap ini, harus ditentukan dulu atribut root. Kandidatnya ada 7, yaitu PSM, CTG, SEM, ASS, GP, ATT, atau LW Kandidat yg terpilih adalah yang memiliki Information Gain paling besar Setelah dilakukan penghitungan, didapatkan Information Gain untuk tiap atribut adalah : Gain (S, PSM) Gain (S, CTG) Gain (S, SEM) Gain (S, ASS) Gain (S, GP) Gain (S, ATT) Gain (S, LW) = 0.577036 = 0.515173 = 0.365881 = 0.218628 = 0.043936 = 0.451942 = 0.453513

Karena Information Gain dari atribut PSM memiliki nilai paling besar, maka atribut ini dipilih sebagai root

Cont.
Langkah

1
PSM fail first third second ? ? ?

Cont..
Langkah 2 Pada tahap ini, dilakukan pengecekan terhadap semua nilai pada atribut root, yaitu first,second,third dan fail Dimulai dari first terlebih dahulu Karena di table, nilai first memiliki 10 sample, berarti nilai first tidak kosong Samplefirst = [8(first),1(second),1(third), 0(fail)] Karena nilainya tidak ada yang sama maka dilakukan pengecekan untuk menentukan node selanjutnya dari atribut yang lain yaitu {PSMfirst CTG, PSMfirst SEM, PSMfirst ASS, PSMfirst GP, PSMfirst ATT,atau PSMfirst LW}

Cont.
Sample

Samplefirst sehingga didapatkan : CTG Value CTG {Good, Average, Poor} S = Samplefirst = [8(first),1(second),1(third), 0(fail)]
Entropy (S) = 0.9215
Good first second third fail 3 0 0 0 Average 4 0 0 0 Poor 1 1 1 0

S yang digunakan sekarang |S|=

Entropy (SGood) = 0 Entropy (Saverage) = 0 Entropy (Spoor) = 1.58496


Entropy (CTG) = 0,47543 Gain (S, CTG) = 0.44607

Cont..

Dengan cara yang sama maka didapatkan nilai Information Gainnya yaitu :

Gain (S, CTG) Gain (S, SEM) Gain (S, ASS) Gain (S, GP) Gain (S, ATT) Gain (S, LW)

= 0.44607 = 0.28481 = 0.17052 = 0.17052 = 0.7215 = 0.20697

Karena Information Gain dari atribut ATT memiliki nilai paling besar, maka atribut ini dipilih sebagai leaf node

Cont..

PSM fail first ATT ? third second ? ?

Cont.

Dari proses pencarian tersebut maka diperoleh hasil yaitu :


IF PSM = First AND ATT = Good AND CTG = Good or Average THEN ESM = First IF PSM = First AND CTG = Good AND ATT = Good OR Average THEN ESM = First IF PSM = Second AND ATT = Good AND ASS = Yes THEN ESM = First IF PSM = Second AND CTG = Average AND LW = Yes THEN ESM = Second IF PSM = Third AND CTG = Good OR Average AND ATT = Good OR Average THEN ESM = Second IF PSM = Third AND ASS = No AND ATT = Average THEN ESM = Third IF PSM = Fail AND CTG = Poor AND ATT = Poor THEN ESM = Fail

Ada yang bertanya????

Anda mungkin juga menyukai