DESSY SANTI
PROGRAM PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2013
i
ANALISIS HASIL UJIAN NASIONAL BERDASARKAN
KARAKTERISTIK SEKOLAH DENGAN
ALGORITMA KNNC4.5
DESSY SANTI
PROGRAM PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2013
i
ii
PERNYATAAN KEASLIAN TESIS
Menyatakan dengan sebenarnya bahwa tesis yang saya tulis ini benar-benar
pemikiran orang lain. Apabila dikemudian hari terbukti atau dapat dibuktikan bahwa
sebagian atau keseluruhan tesis ini hasil karya orang lain, saya bersedia menerima
Yang menyatakan,
Dessy Santi
iv
KATA PENGANTAR
Puji Syukur kepada ALLAH Bapa yang Maha Kuasa, Putranya Yesus
Kristus dan Roh Kudus serta Bunda Maria yang telah memberikan
berbagai pihak baik secara moril maupun materil. Karena itu dalam
1. Kedua orang tua tercinta, bapak Prof. Dr. Maxinus Jaeng, M.Pd,
tesis ini.
atas bantuan dan bimbingan yang telah diberikan mulai dari proposal
v
3. Tim Penguji Dr .Ir. Zahir Zainuddin,M.Sc, Drs. Suarga,
tugas akhir.
terlupakan.
Dessy Santi
vi
vii
Abstrak
Dessy Santi, Analisis Hasil Ujian Nasional Berdasarkan Karakteristik Sekolah dengan
Algoritma KNNC4.5, dibimbing oleh : Nadjamuddin Harun dan Adnan
The government's policy for giving out aid to schools is influential on the national
graduation rate of each school examination results, the government needs to provide the
appropriate assistance to high schools / private schools in need of improvement characteristics.
This study aims to (1) determine the classification description based karakteristim school
graduation rates (2) Test the accuracy of the algorithm KNNC4.5 many test data and training
data. This study is a historical research that is applicable to do with library research methods,
data collection methods and the creation of applications based on the analysis of the KNNC4.5
method, dividing the attributes based on characteristics of the school that is valuable
quantitative data calculated by the KNN algorithm and qualitative data calculated by C4.5
algorithms then combine the results of these two algorithms into algorithms KNNC4.
The Study will generate Combine of KNN algorithm and C4.5 algorithm to become
KNNC4.5 algorithm and generate predictions graduation rate of 100% and <100%, and the
factors that influence graduation rates that have value 81% accuracy with input values of k
greater the accuracy will not get better and graduation rule based decision tree of the C4 .5.
eventually be able to contribute to the success of the government for the national exam and thus
increase the quality, the quality of education.
halaman
HALAMAN PERNYATAAN……………………………………………… iv
KATA PENGANTAR……………………………………………………... v
C. Tujuan Penelitian..................................................................... 3
D. Manfaat Penelitian................................................................... 4
E. Data ........................................................................................ 10
F. Klasifikasi ............................................................................... 11
BAB V. PENUTUP
A. Kesimpulan ............................................................................. 85
B. Saran....................................................................................... 86
Daftar Pustaka
Lampiran
DAFTAR GAMBAR
halaman
halaman
PENDAHULUAN
A. Latar Belakang
peraturan pemerintah No. 19 tahun 2005. Ps. 68, hasil ujian negara
memberikan rasa aman kepada para peserta didik, bahwa mereka bisa
lulus Ujian Nasional. Hal ini bisa diwujudkan, dengan membuat semua
sekolah di negeri ini menjadi layak pakai dan memenuhi standar sebagai
1
yang baik dalam Ujian Nasional, bila pemerintah sendiri belum
memberikan kualitas pendidikan yang layak. Hal ini mulai dari sarana
Selama ini, selalu terjadi kesenjangan. Masih banyak sekolah yang belum
ada sekitar 161 ribu sekolah rusak, 45% dari gedung sekolah rusak
untuk mencari solusi kasus baru dengan menirukan solusi yang diambil
2
Dengan demikian diharapkan hasil penelitian ini bisa menjadi salah
B. Rumusan Masalah
C. Tujuan Penelitian
yang cepat.
3
D. Manfaat Penelitian
pendidikan.
E. Batasan Masalah
Sulawesi Tengah.
4
5
6
BAB II
TINJAUAN PUSTAKA
berkesinambungan.[1]
standar.
5
peningkatan mutu pendidikan, yang dimaksud dengan penentuan standar
berupa nilai batas antara peserta didik yang sudah menguasai kompetensi
Bila itu terjadi pada ujian nasional atau sekolah maka nilai batas berfungsi
untuk memisahkan antara peserta didik yang lulus dan tidak lulus disebut
setting.
B. Karakteristik Sekolah
bahwa karakteristik merupakan sinonim dari kata karakter, watak, dan sifat
2. Suatu kualitas dan sifat yang tetap terus-menerus dan kekal yang dapat
suatu kejadian.
6
3. Kepribadian seeorang, dipertimbangkan dari titik pandangan etis atau
moral.
adalah suatu sifat yang khas, yang melekat pada seseorang atau suatu
kelas 12. Pada tahun kedua (di kelas 11), siswa Sekolah Menengah Atas,
wajib memilih jurusan yang ada, yaitu Sains, Sosial, atau Bahasa. Pada
akhir tahun ketiga (di kelas 12), siswa diwajibkan mengikuti Ujian Nasional
7
tanggung jawab pemerintah daerah kabupaten/kota. Sedangkan
khususnya Menengah Umum adalah suatu sifat yang khas suatu dan
sifat yang melekat yang dapat dijadikan ciri untuk mengidentifikasi sesuatu
yang terdapat dalam sekolah, status, jumlah siswa, jumlah rombel, jumlah
diketahui dari data yang berskala besar. Peran utama dalam data mining
(Kursini, 2009)[2].
8
Metode yang digunakan dalam data mining berupa metode
D. Algoritma
yang disusun secara sistematis dan logis. Penemu kata Algoritma sendiri
9
E. Data
Murdick, dkk (1984) merumuskan bahwa data adalah fakta yang tidak
pengambilan keputusan.
dimana pola yang ditemukan bersifat sah, baru dapat bermanfaat dan
dari KDD.
10
F. Klasifikasi
data. Klasifikasi bertujuan untuk memprediksi kelas dari suatu objek yang
klasifikasi pada data baru dengan memanipulasi data yang ada yang telah
1. Pembangunan model
11
2. Penerapan model
3. Evaluasi
tree, Bayesian, fuzzy, neural network, support vector machine (SVM) dan
Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan
klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titik
jarak Euclidian[2]
12
1. Proses K-Nearest Neighbor (K-NN)
1. Tentukan K (misalnya k = 3)
minimal
𝑝 2
de = 1−𝑖 (𝑥 2𝑖 − 𝑥1𝑖 ) … (2.1)
Dimana:
X2 : data uji
De : jarak
P : dimensi data
13
2. Proses Modified K-Nearest Neighbor
untuk semua data pada data training. Setelah dihitung validitas tiap
digunakan dari setiap titik pada data training adalah seperti pada
persamaan berikut :
1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x))) … (2.2)
𝑘
Dimana :
14
Fungsi S digunakan untuk menghitung kesamaan antara titik
1 𝑎=𝑏
S(a,b) = {0 𝑎≠𝑏 … (2.3)
15
1
W(i) = Validitas(i) x … (2.4)
de +0.5
Dimana:
W(i) : Perhitungan Weight voting
Validitas(i) : Nilai Validitas
De : jarak Eucledian
masalah outlier.
sebagai berikut:
16
H. Algoritma C4.5
klsifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon
(tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan
Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi
17
𝑛
|Si |
Gain(S,A) = Entropy(S) - ∗ Entropy(Si) …(2.5)
𝑖=1 |S|
Keterangan :
S : himpunan kasus
A : Atribut
N : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke i
|S| : jumlah kasus dalam S
2.6 .
𝑛
Entropy(S) = 𝑖=1 − pi ∗ 𝑙𝑜𝑔2 pi … (2.6)
Keterangan :
S : himpunan kasus
A : fitur
N : jumlah
Pi : proporsi dari Si terhadap S
18
Pseudocode C4.5
Form Tree(T)
(1) ComputeClassFrequency(T);
(2) If OneClass or FewCases
Return a leaf;
Create a decision node N;
(3) ForEach Attribute A
ComputeGain(A);
(4) N.test = AttributeWithBestGain;
(5) If N.test is continuous
Find Threshold;
(6) ForEach T’ in the spiltting of T
(7) If T’ is empty
Child of N is a leaf
Else
(8) Child of N = FormTree(T’)
(9) Compute Errors of N;
Return N
19
I. Perhitungan Akurasi
dari hasil klasifikasi, dengan cara menghitung jumlah record unji yang
berikut.
Jumlah prediksi benar adalah jumlah record data uji yang diprediksi
yang tinggi ketika model tersebut diterapkan pada data uji. (sarkar dan
Leong. 2000)[9].
20
aktif pada sebuah fakultas di sebuah perguruan tinggi swasta di
metode tersebut.[10]
21
klasifikasi dan tingkat akurasi dari algortima k-nearest Neighbor dan
Yogyakarta.[12]
tetangga.[13].
22
K. Kerangka Pikir
2. Kebijakan dan bantuan pemerintah yang tidak tepat pada sekolah yang
membutuhkan dan tidak berdasarkan hasil ujian nasional
Hipotesa : Jika pemerintah dapat dengan tepat menentukan kebijakan dan bantuan
kepada sekolah yang tingkat kelulusan rendah maka angka kelulusan ujian
nasional di tahun berikutnya akan meningkat.
Solusi :Mengumpulkan data tingkat kelulusan ujian nasional pada seluruh SMA
Negeri/Swasta di propinsi Sulawesi Tengah 3-5 tahun
Model klasifikasi sekola dan prediksi kelulusan dengan Algoritma K-NN untuk
data kuantitatif dan data kualitatif dengan algoritma C4.5
Implementasi Sistem
.
23
24
BAB III
METODOLOGI PENELITIAN
B. Jenis Penelitian
1. Spesifikasi Hardware
24
b. Mouse
c. Keyboard
2. Spesifikasi Software
a. Microsoft Windows 7
c. MySQL
d. Star UML
Tingkat Implementasi
kelulusan sistem
25
1. Analisis Kebutuhan Sistem
2. Perancangan Sistem
Pada penelitian ini, UML terdiri dari diagram use case, Activity Diagram
26
input data training (data set sekolah)
Proses C4.5
Deskripsi :
Nama Use Case Diagram : Use Case Diagram Prediksi
Kelulusan
Nama Acktor : Admin dan Pimpinan
Use Case
(1) Input Data training, yaitu menginput, menambah, merubah dan
27
(3). Input Data testing , yaitu proses menginput data testing berupa
b. Activity Diagram
28
1. Activity Diagram Input Data Sekolah
User Sistem
Menu Utama
simpan data
Pada saat pertama kali membuka aplikasi maka user akan langsung
29
2. Activity Diagram Proses Algoritma KNN
Sistem User
Hasil KNN
30
3. Activity Diagram Proses Mining Algoritma C4.5
Sistem User
proses C4.5
Rule C4.5
pendukung keputusan.
31
c. Class Diagram
lain.
atribut
+id_atribut data_training
+nam_atribut
+id_sekolah
+Save() +nm_sekolah
+jml_sekolah
+f_lab
+f_ruang_praktek
+f_perpus
+kelulusan
nilai_knn
-function_knn()
+id_sekolah -function_C4.5()
+kelulusan
+funtion_knn()
+nilai_k()
Testing_sekolah
+id_sekolah
+nm_sekolah
Nilai_C4.5 +jml_rombel
+jml_siswa
+akar +jml_guru
+atribut_akar +f_lab
+sub_akar +f_ruang_praktek
+atribut_sub +f_perpus
+sub_akar1 +kelulusan
+atribut_sub1
+kelulusan +save()
+edit()
+function_C4.5()
+Function_gain()
+function_entropy()
32
3. Deskripsi Data
Deskripsi data yang digunakan oleh data training adalah data set
169 data sekolah yaitu data SMA Negeri/Swasta tahun 2010 se Provinsi
Sulawesi Tengah.
1. Nama Sekolah
2. Status Sekolah
3. Jumlah siswa
4. Jumlah rombel
5. Jumlah guru
6. Laboratorium
7. Ruang Praktek
8. Perpustakaan
kelas yang terdiri dari kelas tingkat kelulusan 100% dan kelas tingkat
kelulusan < 100% dari tiap sekolah. Data karakteristik dari 7 parameter ini
akan dibagi menjadi dua bagian, yaitu data kuantitatif dan data kualitatif.
33
Data kuantitatif merupakan data training dari karalteristik sekolah
1. Jumlah siswa
2. Jumlah rombel
3. Jumlah guru
1. Status
2. Laboratorium
3. Ruang Praktek
4. Perpustakaan
kelas yaitu kelas tingkat kelulusan 100% dan kelas kelulusan < 100%.
Data pada sistem ini terdiri dari tiga macam data, yaitu data training,
data testing (data uji) dan data klasifikasi. Data training merupakan data
34
4. Perancangan Proses
Pada proses ini sistem akan melakukan klassifikasi pada data training
(1) Proses global adalah sebuah proses yang mencakup alur dari
Menghitung Validitas
Menghitung Euclidean
Menghitung Weight voting
(5) Proses Algoritma C4.5, terdiri dari :
35
Menghitung Jumlah kasus
Menghitung Entropy
Menghitung Gain dan menentukan Gain tertinggi
Membuat pohon keputusan sementara
b. Flowchart Sistem
system keseluruhan
Mulai
Proses Klasifikasi
Data Kuantitatif
dengan KNN
Proses Klasifikasi
Data Kualitatif dengan
C4.5
Proses perhitungan
Algoritma KNNC4.5
End
36
Dari gambar 3.7 yaitu flowchart system keseluruhan dapat dilihat
kelulusan.
dataset sekolah.
37
Untuk lebih jelasnya dapat dilihat pada gambar 3.8. Flowchart
proses klasifikasi
Mulai
Hitung Validitas
Hitung Euclidean
Output
Return
sesuai persamaan 2.1 yang mencari jarak terdekat antara data yang
38
didapat nilai weight votingnya maka akan didapatkan output data kelas
Gambar 3.8 yaitu flowchart Proses Klasifikasi KNN yang terdiri dari
sebagai berikut:
1. Menghitung Validitas
menghitung Validitas.
39
Mulai
Inisialisai
Total=0
For x = 0 to k-1
For i=x+1 to k
Y[x]==Y[i]
Ya
Tidak Total=Total+1
aak
V[X]=Total/k
V[x]
Return
40
Pada alur Flowchart perhitungan Validitas pada Gambar 3.9
data yang telah diinputkan. Maka akan didapatkan output data nilai
2. Menghitung Euclidean
41
Mulai
Data sekolah
Inisialisai Total=0
For x = to n
For y = to m
Total=Total+(Att[x]-Att[y][x]^2)
Distance=SQRT(total)
Distance
Return
terdiri dari beberapa tahapan antara lain input data sekolah dan
sebanyak data maka akan didapatkan output nilai euclidean tiap data
42
3. Menghitung Weight voting
Mulai
For i = 0 to m
1
W(i) = V[x] x (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 +0.5)
Type equation here.
W(i)
Return
43
output data nilai weight voting tiap data uji pada proses klasifikasi
algortima KNN.
Pada proses ini sistem akan melakukan klasifikasi pada data training
setiap atribut.
membentuk pohon.
kelas tingkat kelulusan 100% atau < 100% sehingga tidak perlu
sementara.
44
Kemudian dilakukan perhitungan lagi seperti pada langkah 1
masuk dalam satu salah satu kelas dan akan terbentuk pohon
Mulai
Masukkan Data
Training
Y
Tidak
a
Lakukan pemangkasan
pohon
Generate aturan
keputusan
Selesai
untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-
keakuratan dari system dan hasil prediksi yang dihasilkan dengan data
yang sesungguhnya.
46
BAB IV
Sistem
pendukung
Data keputusan Tingkat
Karakteristik Sistem
database dengan kelulusan
Sekolah Algortima Sekolah
data
Input Mining Output
Proses
sekolah merupakan data utama yang digunakan dalam penelitiatn ini yang
dari nama sekolah, status, jumlah rombel, jumlah siswa, jumlah guru,
47
laboratorium, ruang praktek, perpustakaan. Data Karakteristik sekolah
yang sudah diinput akan menjadi data training yang akan dimasukkan ke
48
Pada gambar 4.2. ditunjukkan proses klasifikasi data
algoritma C4.5 untuk data yang bernilai kualitatif, hasil dari kedua
B. Simulasi Algoritma
algoritma C4.5 dan algoritma KNNC4.5. Data yang digunakan adalah data
14 sekolah yang berada pada kota Palu berdasarkan sumber data dari
algoritma KNNC4.5.
49
Data testing dan Data Training pada data karakteristik sekolah
Pada contoh perhitungan kali ini digunakan satu data testing dan
menggunakan lima data training. Data training dan data testing yang
training dari data karakteristik sekolah yang bersifat kuantitatif, yaitu tabel
50
Langkah 2 Menghitung Validitas data training
1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x)))…. 2.2
𝑘
Dimana :
kelasnya <100%.
Lbl(Ni(x=2)), Label kelas titik terdekat (x=1), yaitu data training yang
kedua (x=2) dengan kelasnya <100%. Label kelas titik terdekat sebanyak
Nama Tingkat
No
Sekolah kelulusan
Data Testing :
1 SMAN 2 ?
Data Training : X=1
1 SMAN 4 < 100% x=1
k=1
2 SMAN 6 < 100% x=2 a=b
k=2
3 SMAN 8 < 100% x=3
k=3
4 SMAN 1 100% x=4
. . . .
. . . .
. . . .
14 SMAN 6 <100% x=14
51
Dari Tabel 4.2, bandingkan setiap kelas dengan kelas tetangga.
untuk menghitung kesamaan antara titik x dan data ke-i dari tetangga
pada data training sama dengan kelas tetangganya maka nilanya 1 dan
jika kelas pada data training tidak sama dengan kelas pada tetangganya
𝟏 𝒌
Validitas (x=1) = 𝑰=𝟏 S(lbl(x), (lbl(Ni(x)))
𝒌
𝟏 𝟑
= 𝑰=𝟏 S(lbl(x=1), (lbl(Ni(x=2)))
𝟑
𝟏
= 𝒙(𝟏 + 𝟏 + 𝟎)
𝟑
𝟐
=
𝟑
= 0.66667
Lakukan perhitungan yang sama untuk semua data training pada tabel
Tabel 4.3.
52
Tabel 4.3. Tabel Hasil Perhitungan Validitas
Sum
K=1 K=2 K=3 Validitas
S(a,b)
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 0 0 0
1 1 1 3 1
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 1 2 0,6666667
0 1 0 1 0,3333333
0 0 1 1 0,3333333
𝒑 𝟐
𝒅𝒆 = 𝟏−𝒊 (𝒙 𝟐𝒊 − 𝒙𝟏𝒊 )
Dimana : x2i adalah data uji dan x1i adalah data training sebanyak p
(atribut, yaitu: jumlah siswa, jumlah rombel dan jumlah guru), beradsarkan
= 𝟐𝟓𝟔𝟎𝟑
= 160.0094
53
Lakukan perhitungan yang sama untuk semua data training pada tabel
4.1. Hasil perhitungan Euclidean untuk semua data training seperti yang
Sum
No Euclidean
Euclidean
1 25609 160,0281225
2 916490 957,3348422
3 1454690 1206,105302
4 919910 959,1193878
5 650036 806,2481008
6 1246659 1116,538848
7 1688840 1299,55377
8 425336 652,1778898
9 753426 868,0011521
10 1468931 1211,994637
11 1490409 1220,823083
12 1715860 1309,908394
13 1747586 1321,962934
17473 132.1854758
14
𝟏
W(i) = Validitas(i) x 𝐝𝐞(𝟏)+𝟎.𝟓
𝟐 𝟏
= 𝟑 x 𝐝𝐞(𝟏)+𝟎.𝟓
𝟐 𝟏
= 𝟑 x 𝟏𝟔𝟎.𝟎𝟎𝟗𝟒 + 𝟎.𝟓
= 0.004153
54
Lakukan perhitungan yang sama untuk semua data training pada
tabel 4.1. Hasil perhitungan weight voting untuk semua data training
Weight Voting
0,004152959
0,000348007
0
0,00104208
0,000826363
0,000298408
0,0002564
0,000510716
0,000383803
0,000274915
0,000272928
0,000508747
0,000252055
0.002512207
maka dilakukan pencarian nilai weight voting yang terbesar sebanyak nilai
k yang telah ditentukan. Untuk lebih jelasnya dapat dilihat pada tabel 4.6.
55
Tabel. 4.6. Tabel Penentuan Kelas Berdasarkan Weight Voting
Tingkat Weight
No Nama Sekolah
kelulusan Voting
Data Testing :
1 SMAN 2 Palu ?
Data Training:
1 SMAN 4 < 100% 0.004091698
2 SMAN 1 Bolano < 100% 0.000347671
3 SMAN 8 < 100% 0
4 SMAN 1 100% 0.001042434
5 SMAN 5 100% 0.000825333
6 SMA KATOLIK 100% 0.000298184
7 SMA KARDIP 100% 0.000256239
8 SMAN 3 <100% 0.000510761
9 SMAN 6 <100% 0.000383377
10 SMAN MADANI 100% 0.000274731
11 SMAN 9 100% 0.000272743
12 SMA SWADAYA <100% 0.000508433
13 SMA GPID <100% 0.000251898
14 SMAN 7 100% 0.002512207
100%. Kelas yang lebih banyak adalah lulus 100%. Maka dapat
jumlah siswa, jumlah guru seperti ditunjukkan pada tabel 4.1 yang
56
2. Algoritma C4.5
Keterangan :
G : Gabung N : Negeri
L : Lengkap S : Swasta
MS : Memenuhi Syarat A : Ada
TMS : Tidak Memenuhi Syarat TA : Tidak Ada
57
Pada kasus yang tertera pada tabel 4.7 akan dibuat pohon
berboder tebal seperti yang terlihat pada tabel 4.7. Berikut langkah-
Entropy dari semua kasus dan menghitung entropy dari kasus yang
58
Tabel 4.8 Tabel Perhitungan Level 0
Jumlah
100% < 100
Level kasus Entropy GAIN
(Si) % (S2)
(S)
1 TOTAL 14 6 8 0,985228136
LAB
GABUNG 9 3 6 0,918295834 0,394895
LENGKAP 3 3 0 0
TIDAK ADA 2 0 2 0
STATUS
NEGERI 9 3 6 0.91829583
0.048126886
SWASTA 5 3 2 0.970951
RUANG
PRAKTEK
LENGKAP 4 3 1 0,811278124 0,268698
ADA 4 2 2 1
TIDAK ADA 6 1 5 0,464385619
PERPUS
MS 9 4 5 0,99107606 0,00134
TMS 5 2 3 0,970950594
Baris Total kolom Entropy pada tabel 4.8 dihitung dengan persamaan 2.6
sebagai berikut :
𝟔 𝟔 𝟖 𝟖
Entropy(Total) = (− ∗ 𝒍𝒐𝒈𝟐 ( )) + (− ∗ 𝐥𝐨𝐠𝟐 ( ))
𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒
Entropy(Total) = 0,985228136
Sementara itu, nilai gain pada baris LAB dihitung dengan persamaan 2.5
sebagai berikut :
𝒏
|𝐋𝐀𝐁|
Gain(Total,LAB) = Entropy(Total) - ∗ Entropy(LAB)
𝒊=𝟏 |𝐓𝐎𝐓𝐀𝐋|
𝟗 𝟑 𝟐
= 0,985228136–(( 𝟏𝟒 ∗ 𝟎, 𝟗𝟏𝟖𝟐𝟗𝟓𝟖𝟑𝟒) + 𝟏𝟒
∗𝟎 + (𝟏𝟒 ∗ 𝟎))
= 0,394895
59
Lakukan perhitungan gain dan entropy untuk atribut yang lain sehingga
didapatkan hasil seperti yang tertera pada Tabel 4.8. Dari hasil yang
ditunjukkan pada tabel 4.8. dapat diketahui bahwa atribut dengan Gain
demikian LABORATORIUM dapat menjadi level akar. Ada tiga nilai atribut
Lab
Gambar
? 4.3. Pohon Keputusan Hasil Perhitungan Level 0
60
Langkah 3. Perhitungan level 1
Entropy dari semua kasus dan menghitung entropy dari kasus yang
Jumlah
100% < 100 %
Level kasus Entropy Gain
(Si) (S2)
(S)
1 LAB-
9 3 6 0,918229583
GABUNG
RUANG
PRAKTEK 0,113217084
LENGKAP 1 0 1 0
ADA 4 2 2 1
TIDAK ADA 4 1 3 0,811278124
STATUS
NEGERI 8 3 5 0.954435 0.069843806
SWASTA 1 0 1 0
PERPUS
MS 6 2 4 0,918229583 0
TMS 3 1 2 0,918229583
Dari hasil tabel 4.9 dapat diketahui bahwa atribut dengan Gain tertinggi
demikian RUANG PRAKTEK dapat menjadi level cabang dari nilai atribut
GABUNG. Ada tiga nilai atribut dari RUANG PRAKTEK, yaitu LENGKAP,
61
ADA dan TIDAK ADA. Dari ketiga atribut tersebut, nilai atribut LENGKAP
sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai
atribut ADA dan TIDAK ADA masih perlu dilakukan perhitungan lagi.
Lab
?
Lengkap Ada Tidak ada
<100% 1.3
1.2
? ?
? ?
Gambar 4.4. Pohon Keputusan Hasil Perhitungan Level 1
62
Entropy dari semua kasus dan menghitung entropy dari kasus yang
menjadi level cabang dari nilai atribut-atribut Ada dan tidak ada, setelah itu
LAB-(G) DAN
4 2 2 1
R.PRAKTEK-(A)
STATUS
N 4 2 2 1
0
S 0 0 0 0
PERPUS
MS 4 2 2 1 0
TMS 0 0 0 0
Level 1.3
LAB-(G) DAN
4 1 3 0,811278124
R.PRKATEK-(TA)
STATUS
N 3 1 2 0,918295834 0,122556249
S 1 0 1
PERPUS MS 1 0 1 0 0,122556249
TMS 3 1 2 0,918295834
Pada tabel 4.10, hasil perhitungan level 1.1.2 dan level 1.1.3, dapat
63
demikian RUANG PRAKTEK–TIDAK ADA dapat menjadi level cabang dari
level cabang dari nilai atribut TIDAK ADA. Ada dua nilai atribut dari
<100% dan dua nilai atribut dari STATUS yaitu NEGERI dan SWASTA,
lagi.
Dari tabel 4.10, dapat dilihat bahwa atribut dari STATUS dan
keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 4.5
berikut.
64
1
Lab
Lengkap ?
Ada Tidak ada
<100%
1.2 1.3 1.4 1.5
Perpus- Perpus-
Status takaan Status
takaan
? ?
?
Negeri Memenuhi Memenuhi Tidak Memenuhi
Negeri Swasta
Syarat Syarat Syarat
100% 100% < 100% < 100% < 100% < 100%
Gambar 4.5. Pohon Keputusan Hasil Perhitungan Level 1.1.2 dan Level 1.1.3
pada gambar 4.5. Dari pohon keputusan tersebut, diketahui bahwa semua
keputusan dapat dibuat aturan atau rule dari algoritma C4.5, yaitu :
65
1. Laboratorium Lengkap maka tingkat kelulusan adalah 100%
100%.
Ruang Praktek Tidak ada – Status Negeri maka lulus < 100%.
jumlah kasus salah satu kelas lebih besar dari yang lain maka kelas
nilai yang sama maka kelas yang diambil adalah kelas dengan tingkat
kelulusan 100%.
terakhir, maka dapat disimpulkan bahwa data testing pada SMA Negeri 2
66
palu dengan karakteristik sekolah adalah Laboratorium gabung, Ruang
3. Algoritma KNNC4.5
KNN dan algoritma C4.5 pada data testing yang sama yaitu SMA Negeri 2
Palu dan data training .yang sama yaitu 14 data training bahwa kedua
Hasil prediksi dari kedua algoritma KNN dan C4.5 dapat berbeda-
1. Jika hasil kedua algoritma sama, maka hasil prediksi adalah hasil
adalah hasil dari algoritma KNN, karena atribut pada algoritma KNN
67
dengan algoritm C4.5 merupakan atribut pendukung, sehingga
kelulusan.
Hasil Prediksi
No Output
KNN C4.5
1. Lulus 100%.
Lulus Lulus
1 2. Semua Karakteristik sekolah menunjang tinkat
100% 100%
kelulusan.
1. Lulus 100%.
2. Jumlah guru dan ruangan memenuhi syarat
kelulusan .
Lulus Tidak 3. Fasilitas sekolah yaitu Lab, R. Praktek dan
2
100% 100% Perpustakaan tidak mendukung kelulusan.
Misalnya, Lab tidak ada, atau ruang praktek tidak
ada dan atau perpustakaan tidak memenuhi
syarat.
1. Kelulusan tidak 100%.
Tidak Lulus
3 2. Jumlah ruangan/rombel dan jumlah guru tidak
100% 100%
memenuhi syarat kelulusan.
1. Kelulusan tidak 100%.
Tidak Tidak
4 2. Jumlah ruangan, jumlah guru dan fasilitas
100% 100%
sekolah tidak mendukung tingkat kelulusan.
Untuk hasil simulasi dari data testing SMA Negeri 2 palu dan 16
68
hasilnya dapat dilihat pada table 4.12. berikut, tabel hasil prediksi
69
C. Implementasi Sistem
dan sistem, user dalam hal ini adalah admin dan pimpinan. Berikut adalah
user interface mulai dari halaman utama, input, proses mining algoritma
dan output.
1. Halaman Utama
sekolah.
70
2. Penginputan Data
71
Gambar 4.8. Form Input Data Testing
Algoritma KNNC4.5
a. Proses KNN
72
b. Proses C4.5
kelulusan.
73
Gambar 4.11. Form proses KNNC4.5
gambar 4.12.
74
D. Pengujian Sistem
untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-
keakuratan dari system dan hasil prediksi yang dihasilkan dengan data
yang sesungguhnya.
75
Tabel 4.13. Tabel Pengujian Black Box
Nama
Skenario Hasil yang Hasil
No form
Pengujian diharapkan pengujian
yang diuji
Ketika memasukkan
data training berupa
isian pada text box
dari karakteristik
Form
Tombol sekolah kemudian [ ] Diterima
Input Data
simpan menekan tombol [ ] Ditolak
Training
simpan, maka data
tersebut akan
tersimpan dalam
database.
Screen Shoot
Setelah menekan tombol simpan
1.
76
Ketika tombol
proses dan
inputkan nilai k dan
mengklik tombol
proses maka akan
Form
Tombol ditampilkan form [ ] Diterima
2. Proses
Proses proses knn dan [ ] Ditolak
KNN
kemudian disimpan
dan akan
dilanjutkan untuk
proses gabungan
KNNC4.5
Screen Shoot
77
Ketika menekan
tombol Proses C4.5,
maka ditampilkan
akar dan sub akar
Form Tombol
dari data testing [ ] Diterima
Proses Proses
yang kemudian [ ] Ditolak
C4.5 C4.5
akan disimpan
didatabase untuk
menghasilkan
output dari c4.5
Screen Shoot
3.
78
2. Pengujian Akurasi
146 record. Data yang digunakan dalam system yaitu data sekolah
yaitu kelas kelulusan 100% dan kelulusan <100%. Pada data ini
perpustakaan.
tingkat akurasi.
141 record/data training yaitu Nilai k dimulai dari k=1, k=3, dan
79
Tabel 4.14. Tabel Hasil Pengujian Terhadap Nilai k
dengan data asli adalah ditandai dengan font lebih tebal atau bold,
80
tidak sama dengan data asli, k=3 ada 4 sekolah dan k=7 ada 5
Untuk data yang berdekatan lebih sering memiliki kelas yang sama,
81
b. Pengujian untuk mengetahui pengaruh jumlah data latih
pengujiannya diambil dari record 50, 70 dan 141 dengan input k=1.
tingkat akurasi
100
Akurasi %
50 tingkat
akurasi
0
50 70 100 141
Jumlah record
82
Pengujian akurasi merupakan pengujian keakuratan dari
dengan 16 data testing dan pada record 141 data training. Untuk
Prediksi
No Data Asli Prediksi benar
(k=1)
1 100% <100% 0
2 <100% <100% 1
3 <100% <100% 1
4 <100% <100% 1
5 <100% <100% 1
6 100% 100% 1
7 100% 100% 1
8 <100% <100% 1
9 100% 100% 1
10 <100% <100% 1
11 100% <100% 0
12 100% 100% 1
13 100% 100% 1
14 <100% 100% 0
15 <100% <100% 1
16 100% 100% 1
Jumlah prediksi benar 13
asli atau salah maka nilainya adalah 0. Dari tabel 4.14 dapat
83
dihitung tingkat akurasi dari algoritma KNNC4.5 sehingga
= 0.81 x 100%
= 81 %
adalah 3 dengan jumlah record atau data training yaitu 141 maka
84
BAB V
PENUTUP
A. KESIMPULAN
data latih. Nilai k yang terlalu besar menghasilkan akurasi yang kurang
baik karena berpengaruh terjadinya noise dan jumlah data latih yang
besar menghasilkan nilai akurasi yang tinggi. Jumlah dan nilai atribut
sekolah.
85
B. SARAN
penulis adalah diharapkan pada data training menggunakan variasi data yang
86
DAFTAR PUSTAKA
[3] Budi Santosa, “Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis”. Penerbit 2007.
87
[11] Imron Rosyidi, Mochammad Hariadi, I Ketut Eddy Purnama. “Data
Mining Kemampuan Siswa berbasis NeuroFuzzy”. Jurnal Teknik Elektro,
FTI, Institut Teknologi Sepuluh November Surabaya.
88