Judul Jurnal :
Mining Educational Data to Analyze Students Performance
(IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 2, No. 6, 2011 AUTHORS Brijesh Kumar Baradwaj Research Scholor, Singhaniya University, Rajasthan, India Saurabh Pal Sr. Lecturer, Dept. of MCA, VBS Purvanchal University, Jaunpur-222001, India
Nama Kelompok
A.A
Pendahuluan..
Pada jurnal ini membahas tentang bagaimana cara menganalisis prestasi siswa. Penilaian untuk prestasi siswa ditentukan oleh penilaian internal dan nilai ujian akhir semester. Penilaian internal berdasarkan proses pembelajaran didalam kelas seperti
Dan ujian akhir semester adalah salah satu nilai yang harus dimiliki oleh setiap siswa pada setiap semester.
Preparations Data Selection dan Transformation Decision Tree Measuring Impurity Splitting Area Pembahasan
Data Preprarations
Dataset
yang digunakan dalam penelitian ini diperoleh dari VBS Vurvanchal University, Jaunpur (Uttar Pradesh) pada departement application computer dari tahun 2007-2010 jumlah data set yang digunakan adalah 50 sample. Data set
Dari dataset yang ada kemudian dipilih variabel atau atribut yaitu : PSM yaitu nilai semester sebelumnya PSM {First, second, third, fail} CTG yaitu Class test Grade CTG {good, average, poor} SEM yaitu seminar performance CTG {good, average, poor} ASS yaitu Tugas ASS {yes, no} GP yaitu General Proficiency GP {yes, no} ATT yaitu kehadiran ATT {good, second, third, poor} LW yaitu Praktikum LW {yes, no}
Decision Tree
Decision
Tree Learning adalah salah satu metode yg sangat populer dan banyak digunakan secara praktis Jenis Decision Tree yg cukup populer antara lain : ID3 ( Iterative Dychotomizer version 3 ) ASSISTANT C4.5
Algoritma ID3
ID3
adalah algoritma paling dasar dalam decision tree learning. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pd semua kemungkinan tree.
Cont
Measuring Impurity
Tabel
data yang terdiri ari atribut dan kelas atribut kita dapat mengukur hogeneity dari tabel data berdasarkan kelasnya. Pengukuran ini meliputi Entropy, Gini Index, dan classification error.
Entropy
Gini Index
Classification Error
Splitting Area
Untuk
membanding atribut yang paling baik digunakan sebagai particular node dapat dilakukan menggunkan perhitungan information Gain.
Pembahasan
Langkah 1
Pada tahap ini, harus ditentukan dulu atribut root. Kandidatnya ada 7, yaitu PSM, CTG, SEM, ASS, GP, ATT, atau LW Kandidat yg terpilih adalah yang memiliki Information Gain paling besar Setelah dilakukan penghitungan, didapatkan Information Gain untuk tiap atribut adalah : Gain (S, PSM) Gain (S, CTG) Gain (S, SEM) Gain (S, ASS) Gain (S, GP) Gain (S, ATT) Gain (S, LW) = 0.577036 = 0.515173 = 0.365881 = 0.218628 = 0.043936 = 0.451942 = 0.453513
Karena Information Gain dari atribut PSM memiliki nilai paling besar, maka atribut ini dipilih sebagai root
Cont.
Langkah
1
PSM fail first third second ? ? ?
Cont..
Langkah 2 Pada tahap ini, dilakukan pengecekan terhadap semua nilai pada atribut root, yaitu first,second,third dan fail Dimulai dari first terlebih dahulu Karena di table, nilai first memiliki 10 sample, berarti nilai first tidak kosong Samplefirst = [8(first),1(second),1(third), 0(fail)] Karena nilainya tidak ada yang sama maka dilakukan pengecekan untuk menentukan node selanjutnya dari atribut yang lain yaitu {PSMfirst CTG, PSMfirst SEM, PSMfirst ASS, PSMfirst GP, PSMfirst ATT,atau PSMfirst LW}
Cont.
Sample
Samplefirst sehingga didapatkan : CTG Value CTG {Good, Average, Poor} S = Samplefirst = [8(first),1(second),1(third), 0(fail)]
Entropy (S) = 0.9215
Good first second third fail 3 0 0 0 Average 4 0 0 0 Poor 1 1 1 0
Cont..
Dengan cara yang sama maka didapatkan nilai Information Gainnya yaitu :
Gain (S, CTG) Gain (S, SEM) Gain (S, ASS) Gain (S, GP) Gain (S, ATT) Gain (S, LW)
Karena Information Gain dari atribut ATT memiliki nilai paling besar, maka atribut ini dipilih sebagai leaf node
Cont..
Cont.
IF PSM = First AND ATT = Good AND CTG = Good or Average THEN ESM = First IF PSM = First AND CTG = Good AND ATT = Good OR Average THEN ESM = First IF PSM = Second AND ATT = Good AND ASS = Yes THEN ESM = First IF PSM = Second AND CTG = Average AND LW = Yes THEN ESM = Second IF PSM = Third AND CTG = Good OR Average AND ATT = Good OR Average THEN ESM = Second IF PSM = Third AND ASS = No AND ATT = Average THEN ESM = Third IF PSM = Fail AND CTG = Poor AND ATT = Poor THEN ESM = Fail