Analisis Hasil Ujian Nasional Berdasarkan

ANALISIS HASIL UJIAN NASIONAL BERDASARKAN
KARAKTERISTIK SEKOLAH DENGAN

ALGORITMA KNNC4.5
ANALYSIS OF NATIONAL EXAMINATION RESULTS

BASED ON SCHOOL CHARACTERISTICS
WITH KNNC4.5 ALGORITHM
DESSY SANTI
PROGRAM PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2013
i
ANALISIS HASIL UJIAN NASIONAL BERDASARKAN
KARAKTERISTIK SEKOLAH DENGAN
ALGORITMA KNNC4.5
ANALYSIS OF NATIONAL EXAMINATION RESULTS

BASED ON SCHOOL CHARACTERISTICS
WITH KNNC4.5 ALGORITHM
DESSY SANTI
PROGRAM PASCASARJANA
UNIVERSITAS HASANUDDIN
MAKASSAR
2013
i
ii
PERNYATAAN KEASLIAN TESIS
Yang bertanda tangan di bawah ini :
Nama : Dessy Santi
Nomor Pokok : P2700211458
Program Studi : Teknik Elektro
Konsentrasi : Teknik Informatika
Menyatakan dengan sebenarnya bahwa tesis yang saya tulis ini benar-benar
merupakan hasil karya sendiri, bukan merupakan pengambilalihan tulisan atau
pemikiran orang lain. Apabila dikemudian hari terbukti atau dapat dibuktikan bahwa
sebagian atau keseluruhan tesis ini hasil karya orang lain, saya bersedia menerima
sanksi atas perbuatan tersebut.
Makassar, Juli 2013
Yang menyatakan,
Dessy Santi
iv
KATA PENGANTAR
Puji Syukur kepada ALLAH Bapa yang Maha Kuasa, Putranya Yesus
Kristus dan Roh Kudus serta Bunda Maria yang telah memberikan
rahmatnya sehingga penulis dapat menyelesaikan Tesis dengan judul,
“ANALISIS HASIL UJIAN NASIONAL BERDASARKAN
KARAKTERISTIK SEKOLAH DENGAN ALGORITMA KNNC4.5 ”.
Penulis menyadari banyaknya kendala dalam penyusunan tesis ini,
namun demikian penulis dapat menyelesaikannya berkat bantuan dari
berbagai pihak baik secara moril maupun materil. Karena itu dalam
kesempatan ini perkenankan penulis menyampaikan ucapan terima kasih
dan penghargaan setinggi - tingginya kepada :
1. Kedua orang tua tercinta, bapak Prof. Dr. Maxinus Jaeng, M.Pd,
Mama Josina Bugid yang membesarkan dan mendidik penulis serta
senantiasa mendoakan dengan tulus ikhlas dan senantiasa
mendukung sehingga. Serta tak lupa kepada saudaraku Sylviana
jaeng dan Theresia sestiawati Jaeng, Yanto dan ponakanku tercinta
Aldo yang menjadi salah satu motivasi penulis dalam menyelesaikan
tesis ini.
2. Prof.Dr.Ir.H. Nadjamuddin Harun, MS, sebagai Ketua Komisi
Penasihat dan Dr.Adnan,ST.,MT sebagai anggota Komisi Penasihat
atas bantuan dan bimbingan yang telah diberikan mulai dari proposal
dan pelaksanaan penelitian hingga penulisan tesis
v
3. Tim Penguji Dr .Ir. Zahir Zainuddin,M.Sc, Drs. Suarga,
M.Sc.,M.Math., Ph.D, dan Dr. Armin Lawi, S.Si., M.Eng yang
telah memberikan saran, kritik dan pertimbangan dalam
penyempurnaan Tesis ini.
4. Prof.Dr.Ir.Salama Manjang,MT selaku ketua Program Studi S2
Teknik Elektro Universitas Hasanuddin.
5. Kepada Neneku tercinta yang selalu perhatian serta medoakan
penulis dan semua keluarga dan teman-teman serta kerabat di
Makassar dan Palu yang penulis tidak dapat menyebutkan satu-
persatu yang selalu membantu dan mendukung dalam masa
pendidikan dan penyelesaian Tesis.
6. Kepada semua dosen-dosen Universitas Hasanuddin, yang telah
memberikan Ilmunya kepada penulis tanpa pamrih, serta staf pegawai
yang sudah banyak membantu secara adminitrasi hingga selesainya
tugas akhir.
7. Teman-teman PascaMelekIT 2011 something special dalam pencarian
tuntutan keilmuan di tengah kebersamaan yang tak terhingga dan tak
terlupakan.
Makassar, Juli 2013
Dessy Santi
vi
vii
Abstrak
Dessy Santi, Analisis Hasil Ujian Nasional Berdasarkan Karakteristik Sekolah dengan
Algoritma KNNC4.5, dibimbing oleh : Nadjamuddin Harun dan Adnan
Kebijakan pemerintah untuk memeberikan bantuan kepada sekolah sangat berpengaruh

terhadap tingkat kelulusan hasil ujian nasional setiap sekolah maka pemerintah perlu
memberikan bantuan dengan tepat bagi SMA Negeri/Swasta yang membutuhkan perbaikan
karakteristik sekolah.
Penelitian ini bertujuan (1) mengetahui gambaran klasifikasi tingkat kelulusan
berdasarkan karakteristim sekolah (2) Menguji akurasi algoritma KNNC4.5 terhadap banyak
data tes dan data training. Penelitian ini merupakan penelitan historis yang bersifat aplikatif
sehingga dilakukan dengan metode studi pustaka, metode pengumpulan data dan pembuatan
aplikasi berdasarkan hasil analisa dari metode KNNC4.5 dengan ,membagi atribut berdasarkan
karakteristik sekolah yaitu data yang bernilai kuantitatif diproses dengan algoritma KNN dan
data kualitatif diproses dengan algoritma C4.5 kemudian hasil kedua algoritma dikombinasi
menjadi algoritma KNNC4.
Penelitian ini menghasilkan Kombinasi algoritma KNN dan algoritma C4.5 menjadi
algoritma KNNC4.5 yang menghasilkan prediksi tingkat kelulusan dengan kelas 100% dan
<100% dan factor-faktor apa saja yang mempengaruhi tingkat kelulusan yang mempunyai nilai
akurasi 81% dengan inputan nilai k untuk proses KNN untuk nilai k yang semakin besar maka
akurasi akan menurun begitu pula sebaliknya. Aturan kelulusan berdasarkan pohon keputusan
dari proses C4.5. Pada akhirnya hasil penelitian ini mampu memberikan kontribusi pada
pemerintah untuk kesuksesan ujian nasional sehingga meningkatnya mutu dan, kualitas
pendidikan.
Kata Kunci : karakteristik, klasifikasi Nearest Neighbor (KNN), algoritma C4.5

Abstract
Dessy Santi, Analysis Of The Results Of National Examinations Algorithm Based On

Characteristics Of School With KnnC4.5, Author by : Nadjamuddin Harun and Adnan
The government's policy for giving out aid to schools is influential on the national
graduation rate of each school examination results, the government needs to provide the
appropriate assistance to high schools / private schools in need of improvement characteristics.
This study aims to (1) determine the classification description based karakteristim school
graduation rates (2) Test the accuracy of the algorithm KNNC4.5 many test data and training
data. This study is a historical research that is applicable to do with library research methods,
data collection methods and the creation of applications based on the analysis of the KNNC4.5
method, dividing the attributes based on characteristics of the school that is valuable
quantitative data calculated by the KNN algorithm and qualitative data calculated by C4.5
algorithms then combine the results of these two algorithms into algorithms KNNC4.
The Study will generate Combine of KNN algorithm and C4.5 algorithm to become
KNNC4.5 algorithm and generate predictions graduation rate of 100% and <100%, and the
factors that influence graduation rates that have value 81% accuracy with input values of k
greater the accuracy will not get better and graduation rule based decision tree of the C4 .5.
eventually be able to contribute to the success of the government for the national exam and thus
increase the quality, the quality of education.
Keywords: Characteristics, Nearest Neighbor Classification (KNN), C4.5 Algorithm

DAFTAR ISI
halaman
HALAMAN JUDUL ............................................................................. i
HALAMAN PENGESAHAN ................................................................ iii
HALAMAN PERNYATAAN……………………………………………… iv
KATA PENGANTAR……………………………………………………... v
ABSTRAK .......................................................................................... vii
ABSTRACT ........................................................................................ viii
DAFTAR ISI ....................................................................................... ix
DAFTAR TABEL ................................................................................ xii
DAFTAR GAMBAR ............................................................................ xiv
Bab I PENDAHULUAN .....................................................................
A. Latar Belakang Masalah .......................................................... 1
B. Rumusan Masalah .................................................................. 3
C. Tujuan Penelitian..................................................................... 3
D. Manfaat Penelitian................................................................... 4
E. Batasan Masalah .................................................................... 4
BAB II. TINJAUAN PUSTAKA
A. Ujian Nasional SMA ................................................................ 5
B. Karakteristik Sekolah …………………………………………… 6
C. Konsep Data Mining ……………………………………………. . 8

D. Algoritma ................................................................................ 9
E. Data ........................................................................................ 10
F. Klasifikasi ............................................................................... 11
G. Klasifikasi Nearest Neighbor (KNN) ....................................... 12
1. Proses K-Nearest Neighbor .............................................. 13
2. Proses Modified KNN ........................................................ 14
H. Algoritma C4.5 ....................................................................... 17
I. Perhitungan Akurasi ................................................................ 20
J. Penelitian Yang Serupa .......................................................... 20
K. Kerangka Pikir ........................................................................ 23
BAB III. METODE PENELITIAN
A. Waktu dan Lokasi Penelitian ................................................... 24
B. Jenis Penelitian ....................................................................... 24
C. Alat dan Bahan ........................................................................ 24
D. Tahapan Rancangan Penelitian ............................................. 25
1. Analisis Kebutuhan Sistem ............................................... 26
2. Perancangan Sistem ......................................................... 26
3. Deskripsi Data ................................................................... 33
4. Perancangan Proses ........................................................ 35
E. Metode Pengujian Sistem ...................................................... 46
BAB IV. HASIL PENELITIAN DAN PEMBAHASAN

A. Gambaran Umum Sistem ....................................................... 47
B. Simulasi Algoritma ................................................................ 49
1. Algoritma K-Nearest Neighbor .......................................... 49
2. Algoritma C4.5 .................................................................. 57
3. Algoritma KNNC4.5 ........................................................... 67
C. Implementasi Sistem .............................................................. 70
D. Pengujian Sistem ................................................................... 75
BAB V. PENUTUP
A. Kesimpulan ............................................................................. 85
B. Saran....................................................................................... 86
Daftar Pustaka
Lampiran
DAFTAR GAMBAR
halaman
GAMBAR 2.1 PROSES KNOWLEDGE DISCOVERY DATA ...................... 10
GAMBAR 3.1 TAHAPAN RANCANGAN PENELITIAN ............................... 25
GAMBAR 3.2. USE CASE DIAGRAM ......................................................... 27
GAMBAR 3.3. ACTIVITY DIAGRAM INPUT DATA SEKOLAH ................... 29
GAMBAR 3.4. ACTIVITY DIAGRAM PROSES ALGORITMA KNN ............. 30
GAMBAR 3.5. ACTIVITY DIAGRAM PROSES C4.5 ................................... 31
GAMBAR 3.6. CLASS DIAGRAM ............................................................... 32
GAMBAR 3.7. FLOWCHART SISTEM KESELURUHAN ............................ 36
GAMBAR 3.8. FLOWCHART PROSES KLASIFIKASI DATA .................... 38
GAMBAR 3.9. FLOWCHART MENGHITUNG VALIDITAS ......................... 40
GAMBAR 3.10. FLOWCHART MENGHITUNG EUCLIDEAN...................... 42
GAMBAR 3.11 FLOWCHART MENGHITUNG WEIGH VOTING ................ 43
GAMBAR 3.12. FLOWCHART KLASIFIKASI ALGORITMA C4.5 .............. 45
GAMBAR 4.1. GAMBARAN UMUM SISTEM .............................................. 47
GAMBAR 4.2. PROSES KLASIFIKASI DATA ............................................. 48
GAMBAR 4.3. P0HON KEPUTUSAN PERHITUNGAN LEVEL 0 ................ 60
GAMBAR 4.6 HALAMAN UTAMA ............................................................... 70
GAMBAR 4.7. FORM INPUT DATA SEKOLAH ......................................... 71

GAMBAR 4.8. FORM INPUT DATA TESTING .......................................... 72
GAMBAR 4.9. FORM PROSES KNN ......................................................... 72
GAMBAR 4.10. FORM PROSES C4.5 ....................................................... 73
GAMBAR 4.11. FORM PROSES KNN C4.5 ............................................... 74
GAMBAR 4.12. FORM OUTPUT TINGKAT KELULUSAN .......................... 74
GAMBAR 4.13. GRAFIK TINGKAT AKURASI ............................................ 82

DAFTAR TABEL
halaman
TABEL 4.1 TABEL DATA TESTING DAN DATA TRAINING ....................... 50
TABEL 4.2 TABEL CARA HITUNG VALIDITAS .......................................... 51
TABEL 4.3. TABEL HASIL PERHITUNGAN VALIDITAS ............................ 53
TABEL 4.4. TABEL HASIL PERHITUNGAN EUCLIDEAN .......................... 54
TABEL 4.5. TABEL HASIL PERHITUNGAN WEIGHT VOTING.................. 55
TABEL 4.6. TABEL PENETUAN KELAS .................................................... 56
TABEL 4.7. TABEL KASUS PENENTUAN KELULUSAN ........................... 57
TABEL 4.8. TABEL PERHITUNGAN LEVEL 0 ........................................... 59
TABEL 4.9. TABEL PERHITUNGAN LEVEL 1 ........................................... 61
TABEL 4.10. TABEL PERHITUNGAN LEVEL 2.......................................... 63
TABEL 4.11 TABEL OUTPUT KOMBINASI ALGORITMA KNNC4.5 ......... 68
TABEL 4.12 TABEL PREDIKSI PADA SMA NEGERI 2 PALU .................... 69
TABEL 4.13. TABEL HASIL PENGUJIAN BALCK BOX .............................. 75
TABEL 4.14. TABEL HASIL PENGUJIAN TEHADAP NILAI K .................... 80
TABEL 4.15. TABEL PENGUJIAN AKURASI ............................................ 83

BAB I
PENDAHULUAN
A. Latar Belakang
Hasil ujian Nasional sebagai peta dan pintu masuk perbaikan
kualitas pendidikan melalui intervensi kebijakan ditingkat satuan
pendidikan. Tidak hanya mata pelajaran yang diujikan. Peta = f
(kewilayahan , mata pelajaran, sumber daya pendidikan). Menurut
peraturan pemerintah No. 19 tahun 2005. Ps. 68, hasil ujian negara
digunakan sebagai salah satu pertimbangan untuk :
1. Pemetaan mutu program dan atau satuan pendidikan.
2. Dasar seleksi masuk jenjang pendidikan berikutnya.
3. Penentuan kelulusan peserta didik dari program/ satuan pendidikan
4. Pembinaan dan pemberi bantuan kepada satuan pendidikan dalam
upaya untu meningkatkan mutu pendidikan[1].
Pemerintah sebagai pengambil kebijakan, harus arif bijaksana serta
memberikan rasa aman kepada para peserta didik, bahwa mereka bisa
lulus Ujian Nasional. Hal ini bisa diwujudkan, dengan membuat semua
sekolah di negeri ini menjadi layak pakai dan memenuhi standar sebagai
sebuah sekolah. Sangat tidak mungkin bila pemerintah mendapatkan hasil
1
yang baik dalam Ujian Nasional, bila pemerintah sendiri belum
memberikan kualitas pendidikan yang layak. Hal ini mulai dari sarana
prasarana hingga pemerataan guru yang berkualitas.
Selama ini, selalu terjadi kesenjangan. Masih banyak sekolah yang belum
bisa disebut sebagai sebuah sekolah. Ini dibuktikan dengan aneka
temuan, bahwa banyak sekolah yang tidak memenuhi standar. Data
Kementerian Pendidikan dan Kebudayaan (Kemendikbud) menyebutkan,
ada sekitar 161 ribu sekolah rusak, 45% dari gedung sekolah rusak
tersebut mengalami rusak berat. Sekolah–sekolah seperti ini, pada
umumnya berada di daerah–daerah terpencil.
Oleh karena kebijakan pemerintah untuk memberikan bantuan
kepada sekolah sangat berpengaruh terhadap tingkat kelulusan maka
pemerintah harus mempunyai acuan dalam memberikan intervensi
kebijakan tersebut. Salah satu cara pemerintah dalam mengambil
keputusan adalah melakukan analisis hasil ujian nasional berdasarkan
karakteristik sekolah dengan menerapkan konsep penalaran berbasis
kasus (case based reasoning). Konsep ini pada dasarnya adalah
membandingkan kasus yang terjadi dengan database kasus yang ada,
untuk mencari solusi kasus baru dengan menirukan solusi yang diambil
dari kasus sebelumnya. Model klasifikasi yang digunakan adalah dengan
menggunakan metode algoritma Klasifikasi-Nearest Neighbor (K-NN) dan
Algoritma C4.5 untuk memperoleh akurasi yang tepat.
2
Dengan demikian diharapkan hasil penelitian ini bisa menjadi salah
satu bahan acuan pemerintah dalam pengambilan keputusan untuk
memberikan kebijkan dan bantuan pada sekolah-sekolah yang tingkat
kelulusannya rendah, dalam rangka memperbaiki mutu dan kwalitas
pendidikan yang berpengaruh pada tingkat kelulusan.
B. Rumusan Masalah
Bagaimana mengetahui gambaran klasifikasi tingkat kelulusan
setiap SMU Negeri/Swasta berdasarkan karakteristik Sekolah.
C. Tujuan Penelitian
1. Untuk mengetahui gambaran klasifikasi tingkat kelulusan setiap
SMU Negeri/Swasta berdasarkan karakteristik Sekolah sehingga
adanya perbaikan pada karakteristik sekolah.
2. Pengujian akurasi algoritma KNN C4.5 terhadap banyak data tes
dan hasil prediksi tingkat kelulusan yang akurat dengan komputasi
yang cepat.
3
D. Manfaat Penelitian
1. Dapat membantu pemerintah menentukan sekolah yang tepat
untuk memperoleh bantuan dan intervensi kebijakan.
2. Meningkatkan mutu dan perbaikan kualitas pendidikan.
3. Metode Algoritma KNN C4.5 dapat digunakan dalam menganalisa
dan memprediksi kasus yang berbeda seperti kesehatan dan
pendidikan.
E. Batasan Masalah
Agar dapat mencapai sasaran dan tujuan yang diharapkan maka
permasalahan dibatasi pada :
1. Prediksi tingkat kelulusan hanya berdasarkan karakteristik sekolah
2. Karakteristik sekolah yang dimaksud adalah seluruh SMA swasta
maupun negeri pada propinsi Sulawesi Tengah.
3. Analisis pola klasifikasi sekolah menggunakan Algoritma KNN
untuk mengetahui tingkat kelulusan di masing-masing SMA di
Sulawesi Tengah.
4. Hasil Klasifikasi tingkat kelulusan berdasarkan karakteristik sekolah
akan menghasilkan prediksi tingkat kelulusan pada setiap sekolah
ditahun berikutnya menggunakan algoritma c4.5.
4
5
6
BAB II
TINJAUAN PUSTAKA
A. Ujian Nasional SMA
Ujian Nasional adalah sistem evaluasi standar pendidikan dasar dan
menengah secara nasional dan persamaan mutu tingkat pendidikan antar
daerah yang dilakukan oleh Pusat Penilaian Pendidikan, Depdiknas
di Indonesia berdasarkan Undang-Undang Republik Indonesia No.20
Tahun 2003 menyatakan bahwa dalam rangka pengendalian mutu
pendidikan secara nasional dilakukan evaluasi sebagai
bentuk akuntabilitas penyelenggara pendidikan kepada pihak-pihak yang
berkepentingan. Lebih lanjut dinyatakan bahwa evaluasi dilakukan oleh
lembaga yang mandiri secara berkala, menyeluruh, transparan,
dan sistematik untuk menilai pencapaian standar nasional pendidikan dan
proses pemantauan evaluasi tersebut harus dilakukan secara
berkesinambungan.[1]
Proses pemantauan evaluasi tersebut dilakukan secara terus menerus
dan berkesinambungan pada akhirnya akan dapat membenahi mutu
pendidikan. Pembenahan mutu pendidikan dimulai dengan penentuan
standar.
Penentuan standar yang terus meningkat diharapkan akan mendorong
5
peningkatan mutu pendidikan, yang dimaksud dengan penentuan standar
pendidikan adalah penentuan nilai batas (cut off score). Seseorang
dikatakan sudah lulus/kompeten bila telah melewati nilai batas tersebut
berupa nilai batas antara peserta didik yang sudah menguasai kompetensi
tertentu dengan peserta didik yang belum menguasai kompetensi tertentu.
Bila itu terjadi pada ujian nasional atau sekolah maka nilai batas berfungsi
untuk memisahkan antara peserta didik yang lulus dan tidak lulus disebut
batas kelulusan, kegiatan penentuan batas kelulusan disebut standard
setting.
B. Karakteristik Sekolah
karakteristik diambil dari bahasa Inggris yakni characteristic, yang
artinya mengandung sifat khas. Ia mengungkapkan sifat-sifat yang khas
dari sesuatu Dalam kamus lengkap psikologi karya Chaplin, dijelaskan
bahwa karakteristik merupakan sinonim dari kata karakter, watak, dan sifat
yang memiliki pengertian diantaranya :
1. Intergrasi atau sintese dari sifat-sifat individual dalam bentuk suatu
untas atau kesatuan
2. Suatu kualitas dan sifat yang tetap terus-menerus dan kekal yang dapat
dijadikan cirri untuk mengidentifikasikan seorang pribadi, suatu objek,
suatu kejadian.
6
3. Kepribadian seeorang, dipertimbangkan dari titik pandangan etis atau
moral.
Jadi di antara pengertian-pengertian di atas sebagaimana yang telah
dikemukakan oleh Chaplin, dapat disimpulkan bahwa karakteristik itu
adalah suatu sifat yang khas, yang melekat pada seseorang atau suatu
objek, dalam hal ini adalah sekolah menengah umum.
Sekolah Menengah Atas dalam pendidikan formal di Indonesia,
merupakan jenjang pendidikan menengah setelah menamatkan Sekolah
Menengah Pertama (SMP) atau yang sederajat. Sekolah Menengah Atas
diselesaikan dalam kurun waktu 3 tahun, yaitu mulai kelas 10 sampai
kelas 12. Pada tahun kedua (di kelas 11), siswa Sekolah Menengah Atas,
wajib memilih jurusan yang ada, yaitu Sains, Sosial, atau Bahasa. Pada
akhir tahun ketiga (di kelas 12), siswa diwajibkan mengikuti Ujian Nasional
yang mempengaruhi kelulusan atau tidaknya siswa. Setelah lulus (tamat)
Sekolah Menengah Atas dapat melanjutkan pendidikan ke perguruan
tinggi. Umumnya pelajar Sekolah Menengah Atas berusia 16-18 tahun.
Sekolah Menengah Atas tidak termasuk program wajib belajar pemerintah
seperti SD 6 tahun serta SMP 3 tahun. Mulai tahun 2005, di beberapa
daerah di Indonesia, Sekolah Menengah Atas telah diikutkan sebagai
program wajib belajar 12 tahun yang diselenggarakan oleh pemerintah
maupun swasta.Pengelolaan Sekolah Menengah Atas negeri di Indonesia
yang sebelumnya berada di bawah Departemen Pendidikan Nasional,
setelah diberlakukannya otonomi daerah pada tahun 2001, kini menjadi
7
tanggung jawab pemerintah daerah kabupaten/kota. Sedangkan
Departemen Pendidikan Nasional hanya berperan sebagai regulator
dalam bidang standar nasional pendidikan. Jadi Karakteristik sekolah
khususnya Menengah Umum adalah suatu sifat yang khas suatu dan
sifat yang melekat yang dapat dijadikan ciri untuk mengidentifikasi sesuatu
yang terdapat dalam sekolah, status, jumlah siswa, jumlah rombel, jumlah
guru, Laboratorium, ruang praktek, perpustakaan.
C. Konsep Data Mining
Data Mining merupakan suatu disiplin ilmu baru dalam teknologi
komputasi dan informatika yang didefinisikan sebagai metode untuk
mengekstrak pengetahuan yang sifatnya implisit dan sebelumnya tidak
diketahui dari data yang berskala besar. Peran utama dalam data mining
adalah estimasi dan prediksi menggunakan algoritma Linear Regression,
Neural Network, support Vector Machine; klasifikasi menggunakan
algoritma Naïve Bayes, k-Nearest Neigbor, C4.5 CART, Linear
Discriminant Analyst; klasterisasi menggunakan algoritma K-Means, K-
Medoids, Self-Organizing Map (SOM), Fuzzy C-Means; dan asosiasi
menggunakan algoritma FP-Growth, A Priori dan Hase Based Assosiation.
(Kursini, 2009)[2].
8
Metode yang digunakan dalam data mining berupa metode
pembelajaran (supervised learning) dan metode tanpa pembelajaran
(UnSupervised learning). Metode pembelajaran meliputi peran estimasi,
prediksi, klasifikasi dan asosiasi sedangkan metode tanpa pembelajaran
meliputi klasterisasi. (Budi Santosa, 2007)[3].
D. Algoritma
Definisi Algoritma adalah langka-langkah logis penyelesaian masalah
yang disusun secara sistematis dan logis. Penemu kata Algoritma sendiri
adalah nama Abu Ja’far Mohammed Ibnu Musa Al Khowarizmi, ilmuan
Persia yang menulis kitab al jabr w’almuqabala sekitar tahun 825 M.
Menurut Donald E. Knuth dalam bukunya yang berjudul “ The Art of
Computer Programming”[4], algoritma memiliki 5 ciri-ciri penting yakni :
1. Algoritma harus berhenti setelah melakukan sejumlah langkah terbatas.
2. Setiap langkah algoritma harus didefinisikan dengan tepat dan tidak
bermakna ganda (ambigous).
3. Algoritma memiliki nol atau lebih masukan (input)
4. Algoritma memiliki satu atau beberapa keluaran (output).
5. Algoritma harus efektif.
9
E. Data
Data sering disebut sebagai bahan mentah informasi. Tapi menurut
Murdick, dkk (1984) merumuskan bahwa data adalah fakta yang tidak
sedang digunakan pada proses keputusan, biasanya dicatat dan
diarsipkan tanpa maksud utnuk segera diambil kembali untuk
pengambilan keputusan.
Knowledge discovery data (KDD) adalah keseluruhan proses non-
trivial untuk mencari dan mengidentifikasikan pola (pattern) dalam data,
dimana pola yang ditemukan bersifat sah, baru dapat bermanfaat dan
dapat dimengerti (Usama Fayyad, 1996). Gambar 1 menunjukkan proses
dari KDD.
Gambar 1. Proses Knowledge discovery in database (KDD)
(Usama Fayyad, 1996)
10
F. Klasifikasi
Klasifikasi merupakan salah satu teknik data mining yang memiliki
kemampuan untuk melakukan proses klasifikasi data. Klasifikasi bisa
digunakan untuk menemukan model atau fungsi yang membedakan kelas
data. Klasifikasi bertujuan untuk memprediksi kelas dari suatu objek yang
labelnya tidak diketahui.
Klasifikasi merupakan suatu teknik dengan melihat kelakuan atribut
dari kelompok yang telah didefinisikan, Teknik ini dapat memberikan
klasifikasi pada data baru dengan memanipulasi data yang ada yang telah
diklasifikasi dan dengan menggunakan hasilnya untuk memberikan
sejumlah aturan. Aturan-aturan tersebut digunakan pada dat-data baru
yang diklasifikasi. Teknik ini menggunakan supervised induction, yang
memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk
menentukan kelas-kelas tambahan(Kusnawi, 2007)[5].
Klasifikasi merupakan proses untuk menyatakan suatu objek ke
dalam salah satu kategori yang sudah didefinisikan sebelumnya. Tujuan
dari klasifikasi ini adalah record-record yang sebelumnya belum termasuk
dalam kategori dapat dinyatakan kelasnya secara akurat. Tahapan-
tahapan klasifikasi terdiri dari :
1. Pembangunan model
Dalam tahapan ini dibuat model untuk menyelesaikan masalah
klasifikasi data, mode ini dibangun berdasarkan training set.
11
2. Penerapan model
Pada tahapan ini model yang sudah dibangun sebelumnya
digunakan untuk menentukan atribut atau class dari sebuah
data yang atribut atau classnya belum diketahui.
3. Evaluasi
Dalam tahapan ini hasil dari tahapan sebelumnya dievaluasi
menggunakan parameter terukur untuk menentukan apakah
model tersebut dapat diterima.
Pada proses klasifikasi terdapat beberapa metode, antara lain decision
tree, Bayesian, fuzzy, neural network, support vector machine (SVM) dan
k-nearest neighbor (Pramudiono, 2003)[6].
G. K-Nearest Neighbor (KNN)
Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran
yang jaraknya paling dekat dengan objek tersebut.
Data pembelajaran diproyeksikan ke ruang dimensi banyak, dimana
masing-masing dimensi merepresentasikan fitur dari data. Ruang ini
dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran.
Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan
klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titik
tersebut. Dekat atau jauhnya tetangga biasanyanya dihitung berdasarkan
jarak Euclidian[2]
12
1. Proses K-Nearest Neighbor (K-NN)
Algoritma K-Nearest Neighbor
1. Tentukan K (misalnya k = 3)
2. Hitung jarak antara data baru ke setiap label data
3. Tentukan k labeled data yang mempunyai jarak yang paling
minimal
4. Klasifikasikan data baru ke dalam data yang mayoritas.
Menurut Agusta, 2007 bahwa prinsip kerja K-Nearest
Neighbor(KNN) adalah mencari jarak terdekat antara data yang
dievaluasi dengan k tetangga terdekatnya dalam data pelatihan.
Persamaan perhitungan untuk mencari eucledian dengan d adalah
jarak p adalah dimensi data dengan persamaan[7].
𝑝 2
de = 1−𝑖 (𝑥 2𝑖 − 𝑥1𝑖 ) … (2.1)
Dimana:
X1 : sample data uji
X2 : data uji
De : jarak
P : dimensi data
13
2. Proses Modified K-Nearest Neighbor
Modified K-Nearest Neighbor adalah menempatkan label kelas data
sesuai dengan k divalidasi poin data yang sudah ditetapkan dengan
perhitungan K-Nearest Neighbor (KNN) tertimbang (Hamid Parvin,
2008)[8], berikut proses dari Modified KNN
a. Validitas Data Training
Dalam algoritma MKNN, setiap data pada data training harus
divalidasi terlebih dahulu pada awalnya. Validitas setiap data
tergantung pada setiap tetangganya. Proses validasi dilakukan
untuk semua data pada data training. Setelah dihitung validitas tiap
data maka nilai validitas tersebut digunakan sebagai informasi lebih
mengenai data tersebut.
Untuk menghitung validitas dari data pada data training
tetangga terdekatnya perlu dipertimbangkan. Diantara tetangga
terdekat data, validitas digunakan untuk menghitung jumlah titik
dengan label yang sama untuk data tersebut. Persamaan yang
digunakan dari setiap titik pada data training adalah seperti pada
persamaan berikut :
1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x))) … (2.2)
𝑘
Dimana :
k : Jumlah titik terdekat

LBL(x) : kelas x
Ni(X) : label kelas titik terdekat x
14
Fungsi S digunakan untuk menghitung kesamaan antara titik
x dan data ke-i dari tetangga terdekat yang dituliskan dalam
persamaan 2.3 didefiniskan fungsi ini.
1 𝑎=𝑏
S(a,b) = {0 𝑎≠𝑏 … (2.3)
Keterangan : a = kelas a pada data training

b = kelas lain selain a pada data training
b. Weight voting KNN
Weight voting KNN adalah salah satu variasi metode KNN
yang menggunakan K tetangga terdekat, terlepas dari kelas data,
tapi menggunakan Weight voting dari masing-masing data pada
data training. Masing-masing data diberikan Weight voting yang
biasanya sama dengan beberapa penurunan fungsi jarak dari data
yang tidak diketahui. Sebagai contoh \, voting diatur sama dengan
1/(de + 1), dimana d e adalah jarak Eucledian. Weight voting ini
kemudian dijumlahkan untuk setiap kelasnya, dan kelas dengan
jumlah terbesar suara yang dipilih.
Dalam metode MKNN, pertama weight masing-masing
tetangga dihitung dengan dengan menggunakan 1/(de + 0,5).
Kemudian, validitas dari tiap data training dikalikan dengan weight
berdasarkan pada jarak Euclidian. Dalam metode MKNN, Weight
voting tiap tetangga seperti persamaan 2.4.
15
1
W(i) = Validitas(i) x … (2.4)
de +0.5
Dimana:
W(i) : Perhitungan Weight voting
Validitas(i) : Nilai Validitas
De : jarak Eucledian
Teknik Weight voting ini mempunyai pengaruh yang lebih
penting terhadap data yang mempunyai nilai validitas lebih tinggi
dan paling dekat dengan data. Selain itu, dengan mengalikan
validitas dengan jarak dapat mengatasi kelemahan dari setiap data
yang mempunyai jarak dengan weight yang memilki banyak
masalah outlier.
Beberapa keuntungan dari metode K-Nearest Neighbor (KNN) adalah
sebagai berikut:
a. Sederhana dalam penggunaannya.
b. Dapat menangani data training yang mengandung noise
c. Efektif jika data training besar.
3. Pseudocode Modified K- Nearest Neighbor (KNN)
Output_label := MKNN (train_set, test_sample)

Begin
For i := 1 to train_size
Validitas(i) := Hitung validitas sampel ke-i;
End for;
Output_label :=Weighted_KNN(Validitas,test_sample);
Return Output_label;
End
16
H. Algoritma C4.5
Algoritma C4.5 merupakan algoritma yang digunakan untuk
membentuk pohon keputusan. Pohon keputusan merupakan metode
klsifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi pohon keputusan
yang merepresentasikan aturan. Pohon keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejunlah
calon variable input dengan sebuah variable target.
Proses pada pohon keputusan adalah mengubah bentuk data
(tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan
menyederhanakan rule (Basuki & Syarif, 2003).
Secara umum akgoritma C4.5 untuk membangun pohon keputusan
adalah sebagai berikut, (Kusirini, 2009) [2]:
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi
dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus
seperti terteraa dalam persamaan 2.5.
17
𝑛
|Si |
Gain(S,A) = Entropy(S) - ∗ Entropy(Si) …(2.5)
𝑖=1 |S|
Keterangan :
S : himpunan kasus
A : Atribut
N : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke i
|S| : jumlah kasus dalam S
Sementara itu, perhitungan nilai entropy dapat dilihat pada persamaam
2.6 .
𝑛
Entropy(S) = 𝑖=1 − pi ∗ 𝑙𝑜𝑔2 pi … (2.6)
Keterangan :
S : himpunan kasus
A : fitur
N : jumlah
Pi : proporsi dari Si terhadap S
18
Pseudocode C4.5
Form Tree(T)
(1) ComputeClassFrequency(T);
(2) If OneClass or FewCases
Return a leaf;
Create a decision node N;
(3) ForEach Attribute A
ComputeGain(A);
(4) N.test = AttributeWithBestGain;
(5) If N.test is continuous
Find Threshold;
(6) ForEach T’ in the spiltting of T
(7) If T’ is empty
Child of N is a leaf
Else
(8) Child of N = FormTree(T’)
(9) Compute Errors of N;
Return N
19
I. Perhitungan Akurasi
Perhitungan akurasi dilakukan untuk mengetahui tingkat akurasi
dari hasil klasifikasi, dengan cara menghitung jumlah record unji yang
kelasnya diprediksi secara tepat. Dapat dilihat pada persamaan 2.7
berikut.
𝑗𝑢𝑚𝑙𝑎 ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟

Akurasi = 𝑥 100% … (2.7)
𝑗𝑢𝑚𝑙𝑎 ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖
Jumlah prediksi benar adalah jumlah record data uji yang diprediksi
kelasnya menggunakan metode klasifikasi dan hasilnya sama dengan
kelas sebenarnya. Sedangkan jumlah total prediksi adalah jumlah
keseluruhan record yang diprediksi kelasnya (seluruh data uji). Metode
klasifikasi berusaha untuk mencari model yang memiliki tingkat akurasi
yang tinggi ketika model tersebut diterapkan pada data uji. (sarkar dan
Leong. 2000)[9].
J. Penelitian yang Serupa
Ada beberapa penelitian terdahulu yang meneliti tentang klasifikasi
rekam medis antara lain :
1. Prediksi Status Keaktifan Studi Mahasiswa dengan algortima
C5.0 dan K-Nearest Neighbor. Oleh Iin Ernawati dari Pascasarjana
Institut Pertanian Bogor, Bogor, 2008. Penelitian ini bertujuan untuk
membantu menemukan karakteristik mahasiswa aktif maupun tidak
20
aktif pada sebuah fakultas di sebuah perguruan tinggi swasta di
Jakarta Selatan sehingga dapat digunakan sebagai prediksi status
studi dimasa datang dengan menggunakan dua metode algoritma K-
Nearest Neighbor dan C5.0 kemudian membandingkan kedua
metode tersebut.[10]
2. Data Mining Kemampuan Siswa berbasis NeuroFuzzy, Oleh
Imron Rosyidi, Mochammad Hariadi, I Ketut Eddy Purnama, Teknik
Elektro, FTI,ITS. Kampus ITS Sukolilo, Surabaya, 2011. Penelitian
ini dilakukan untuk memprediksi nilai UN setiap siswa sebelum UN
berlangsung. Berdasarkan hasil prediksi nilai UN dapat dilakukan
langkah-langkah strategis untuk meminimalisir ketidaklulusan siswa
dalam UN. Proses Komputasi menggunakan algoritma Neuro Fuzzy.
Hasil Prediksi diambil prediksi dengan akurasi paling tinggi dengan
waktu komputasi paling pendek. Hasil penelitian ini adalah Neuro
Fuzzy dapat digunakan untuk memprediksi UN yang sebenarnya per
siswa pada tahun mendatang dengan rata-rata kesalahan 0,568
untuk Bahasa Indonesia, 0,513 untuk matematika, 0,340 untuk
Bahasa Inggris. [11]
3. Perbandingan metode Nearest Neighbor dan algoritma C45
untuk menganalisis kemungkinan pengunduran diri calon
mahasiswa di STIMIK AMIKOM Yogyakarta, oleh Kusrini, Sri
Hartati, Retantyo Wardoyo, Agus Harjoko dari STIMIK AMIKOM
Yogyakarta, 2008. Penelitian ini menitikberatkan perbandingan
21
klasifikasi dan tingkat akurasi dari algortima k-nearest Neighbor dan
algoritma C4.5 untuk pengambilan keputusan dalam proses
penjaringan calon mahasiswa baru di STMIK AMIKOM
Yogyakarta.[12]
4. Penerapan Algoritma Modified K-Nearest Neighbor Mknn Untuk
Mengklasifikasi Letak Protein pada Bakteri E-Coli, 2010.
Penelitian ini menitikberatkan pada penerapan Modified K-Nearest
Neighbor (MKNN) untuk mengklasifikasikan letak protein pada
bakteri E-Coli serta bagaimana pengujian akurasi algoritma Modified
K-Neraest Neighbor (MKNN) terhadap banyak tes dan nilai
tetangga.[13].
22
K. Kerangka Pikir
Masalah : 1. Karakteristik sekolah yang tidak mengalami perbaikan akan

berpengaruh rendahnya tingkat kelulusan ujian nasional ditahun berikutnya.
2. Kebijakan dan bantuan pemerintah yang tidak tepat pada sekolah yang
membutuhkan dan tidak berdasarkan hasil ujian nasional
Hipotesa : Jika pemerintah dapat dengan tepat menentukan kebijakan dan bantuan
kepada sekolah yang tingkat kelulusan rendah maka angka kelulusan ujian
nasional di tahun berikutnya akan meningkat.
Solusi :Mengumpulkan data tingkat kelulusan ujian nasional pada seluruh SMA
Negeri/Swasta di propinsi Sulawesi Tengah 3-5 tahun
Mengklasifikasi sekolah dengan tingkat kelulusan berdasarkan parameter , Nama

Sekolah, Status, jumtah siswa, jumlah rombel, jumlah guru, Laboratorium, ruang
praktek, perpustakaan
Model klasifikasi sekola dan prediksi kelulusan dengan Algoritma K-NN untuk
data kuantitatif dan data kualitatif dengan algoritma C4.5
Analisa dan serta pengujian model
Implementasi Sistem
.
23
24
BAB III
METODOLOGI PENELITIAN
A. Waktu dan Lokasi Penelitian
Penelitian ini dilakukan di laboratorium Teknik Informatika
Universitas Hasanuddin dengan mengambil data sekolah-sekolah SMA
negeri/Swasta seProvinsi Sulawesi Tengah, sumber data dari
KEMEDIKBUD Propinsi Sulawesi Tengah. Penelitian dilakukan selama 4
bulan, dimulai sejak di setujui proposal penelitian ini.
B. Jenis Penelitian
Penelitian ini merupakan penelitian historis yang bersifat aplikatif
sehingga dilakukan dengan metode studi pustaka (library reaserch),
metode pengumpulan data lapangan (field research) dan pembuatan
aplikasi berdasarkan analisis hasil dari metode data mining yakni
algoritma K-Nearest Neigbor dan algoritma C4.5.
C. Alat dan Bahan
Spesifikasi kebutuhan yang digunakan dalam mengimplementasikan
sistem ini adalah sebagai berikut :
1. Spesifikasi Hardware
a. PC / Notebook : Processor Core i3, RAM 4 Gb, Harddisk 500 GB.
24
b. Mouse
c. Keyboard
2. Spesifikasi Software
a. Microsoft Windows 7
b. Microsoft Visual Basic 6.0
c. MySQL
d. Star UML
D. Tahapan Rancangan Penelitian
Analisis data set sekolah

Data set sekolah menggunakan algoritma
data mining
Tingkat Implementasi
kelulusan sistem
Gambar 3.1. Tahapan Rancangan penelitian
Dalam penulisan tugas akhir ini terdiri dari beberapa tahapan
rancangan penelitian yaitu :
25
1. Analisis Kebutuhan Sistem
Analisis kebutuhan meliputi pembuatan klasifikasi tingkat kelulusan
dengn menggunakan data set karakteristik sekolah untuk mengetahui
bagian dari karakteristik mana yang perlu adanya perbaikan dan
pengembangan guna meningkatkan angka kelulusan sekolah dan
mengurangi angka ketidaklulusan
2. Perancangan Sistem
Pada penelitian ini pemodelan perangkat lunak menggunakan
UML (Unified Modelling Language). UML digunakan dalam proses
perancangan aplikasi software untuk membuat alur atau langkah-langkah.
Pada penelitian ini, UML terdiri dari diagram use case, Activity Diagram
dan class diagram.
a. Use Case Diagram
Use Case Diagram adalah suatu bentuk diagram yang menggambarkan
fungsionalitas yang diharapkan dari sebuah sistem dilihat dari
prespektif pengguna diluar sistem.
26
input data training (data set sekolah)
proses K-Nearest Neighbor
Input data testing (data sekolah) Pimpinan

Admin
Proses C4.5
informasi data testing
Gambar 3.2. Use Case Diagram
Deskripsi :
Nama Use Case Diagram : Use Case Diagram Prediksi
Kelulusan
Nama Acktor : Admin dan Pimpinan
Use Case
(1) Input Data training, yaitu menginput, menambah, merubah dan
menghapus data training yang selanjutnya akan ditraining. Data
training yang diinput telah memiliki kelas apakah termasuk kelas
dengan tingkat kelulusan 100% atau <100%.
(2) Proses mining dengan Algoritma KNN, yaitu proses
penambangan informasi dari data training khususnya data
kuantitatif yang telah diinput dengan menggunakan algortima KNN
hingga mendapatkan klasifikasi sebuah kelas tingkat kelulusan.
27
(3). Input Data testing , yaitu proses menginput data testing berupa
data kualitatif dan kuantitatif yang akan diproses pada algoritma
KNNC4.5 sehingga dapat ditentukan kelas tingkat kelulusan.
(4). Proses mining dengan Algoritma C4.5, yaitu proses
penambangan informasi data training khususnya data kualitatif
yang telah diinput dengan menggunakan algoritma C4.5 hingga
membentuk pohon keputusan.
(5) Informasi Data testing, yaitu menampilkan informasi klasifikasi data
testing dan informasi kelas tingkat kelulusan serta faktor-faktor
pendukung dan yang mempengaruhi tingkat kelulusan.
b. Activity Diagram
Activity Diagram merupakan suatu diagram yang dapat menampilkan
secara detail urutan proses dari aplikasi. Perancangan aplikasi dapat
digambarkan dengan menggunakan Activity Diagram sebagai berikut :
28
1. Activity Diagram Input Data Sekolah
User Sistem
Menu Utama
Pilih Menu Data Training
input data sekolah Validasi data
simpan data
Gambar 3.3. Activity Diagram Input Data Sekolah
Pada saat pertama kali membuka aplikasi maka user akan langsung
masuk ke halaman utama. Di halaman utama ini, user dapat memilih
operasi yang diinginkan. Dengan memilih menu data sekolah, user
dapat melakukan manajemen data sekolah yang meliputi input data
sekolah, dan penambahan data dengan memasukkan nilai-nilai
atribut dan kelas pada form input training.
29
2. Activity Diagram Proses Algoritma KNN
Sistem User
menu utama Pilih menu proses
validasi data KNN input data testing
Hasil KNN
Gambar 3.4. Activity Diagram Proses Algoritma KNN
Setelah masuk halaman utama, user memilih menu Proses KNN,
dengan memilih proses mining maka sistem akan memproses data
training dan data testing yang bersifat kuantitatif untuk menentukan
kelas pada data testing menggunakan algoritma KNN, Setelah itu,
sistem akan menampilkan kelas dari data testing.
30
3. Activity Diagram Proses Mining Algoritma C4.5
Sistem User
Menu Utama Proses C4.5
Validasi data C4.5
proses C4.5
Rule C4.5
Gambar 3.5. Activity Diagram Proses Mining Algoritma C4.5
Setelah masuk halaman utama, user memilih menu proses C4.5.
Dengan memilih proses mining, maka sistem akan memproses data
training dan memproses data testing yang telah diinput dengan
menggunakan algoritma C4.5 yang akan membentuk rule dan
keputusan. Setelah itu, sistem akan menampilkan faktor-faktor
pendukung keputusan.
31
c. Class Diagram
Class diagram menggambarkan keadaan (atribut/property) suatu
system sekaligus menawarkan layanan untuk memanipulasi keadaan
metode atau fungsi. Class diagram menggambarkan stuktur dan
deskripsi class, package dan objek beserta hubungan satu sama
lain.
atribut
+id_atribut data_training
+nam_atribut
+id_sekolah
+Save() +nm_sekolah
+jml_sekolah
+f_lab
+f_ruang_praktek
+f_perpus
+kelulusan
nilai_knn
-function_knn()
+id_sekolah -function_C4.5()
+kelulusan
+funtion_knn()
+nilai_k()
Testing_sekolah
+id_sekolah
+nm_sekolah
Nilai_C4.5 +jml_rombel
+jml_siswa
+akar +jml_guru
+atribut_akar +f_lab
+sub_akar +f_ruang_praktek
+atribut_sub +f_perpus
+sub_akar1 +kelulusan
+atribut_sub1
+kelulusan +save()
+edit()
+function_C4.5()
+Function_gain()
+function_entropy()
Gambar 3.6. Class Diagram
32
3. Deskripsi Data
Deskripsi data yang digunakan oleh data training adalah data set
karakteristik sekolah khususnya SMA negeri/swasta yang diperoleh dari
Lembaga Penjamin Mutu Pendidikan (LPMP) dan Kementrian
Pendidikan dan Kebudayaan Provinsi Sulawesi Tengah. Data
karakteristik sekolah kemudian diklasifikasikan berdasarkan tingkat
kelulusan masing-masing sekolah dan data yang digunakan terdiri dari
169 data sekolah yaitu data SMA Negeri/Swasta tahun 2010 se Provinsi
Sulawesi Tengah.
Untuk mengetahui gambaran klasifikasi tingkat kelulusan SMU

Negeri/Swasta sesuai dengan tujuan penelitian ini, maka karakteristik
sekolah yang diambil terdiri dari 8 parameter, yaitu:
1. Nama Sekolah
2. Status Sekolah
3. Jumlah siswa
4. Jumlah rombel
5. Jumlah guru
6. Laboratorium
7. Ruang Praktek
8. Perpustakaan
Dari data karaktristik sekolah tersebut sistem akan menentukan
kelas yang terdiri dari kelas tingkat kelulusan 100% dan kelas tingkat
kelulusan < 100% dari tiap sekolah. Data karakteristik dari 7 parameter ini
akan dibagi menjadi dua bagian, yaitu data kuantitatif dan data kualitatif.
33
Data kuantitatif merupakan data training dari karalteristik sekolah
yang bernilai angka atau kuantiti yang terdiri dari :
1. Jumlah siswa
2. Jumlah rombel
3. Jumlah guru
Data karakteristik sekolah yang nilainya bersifat kuantitatif merupakan
data training yang akan diproses dengan menggunakan algoritma K-
Nearest Neighbor. Sedangkan data training yang bernilai kualitatif akan
diproses dengan menggunakan algoritma C4.5 yang terdiri dari :
1. Status
2. Laboratorium
3. Ruang Praktek
4. Perpustakaan
Kedua algoritma KNN dan Algoritma C 4.5 akan menghasilkan
klasifikasi tingkat kelulusan sekolah berdasarkan karakteristik menjadi dua
kelas yaitu kelas tingkat kelulusan 100% dan kelas kelulusan < 100%.
Data pada sistem ini terdiri dari tiga macam data, yaitu data training,
data testing (data uji) dan data klasifikasi. Data training merupakan data
set yang akan diproses menggunakan Algoritma KNNC4.5, sedangkan
data testing merupakan data yang digunakan untuk mencari dan
menentukan kelas dan data klasifikasi adalah data hasil klasifikasi.
34
4. Perancangan Proses
Pada bab ini akan dijelaskan mengenai proses-proses dalam
membangun sebuah sistem. Dalam memberikan informasi pada user
tentang tingkat kelulusan sistem akan melakukan klasifikasi sesuai
dengan kriteria yang dimasukan, klasifikasi tersebut dilakukan denggan
menggunakan algoritma KNNC4.5.
a. Proses Klasifikasi Algoritma K-NN dan Algoritma C4.5
Pada proses ini sistem akan melakukan klassifikasi pada data training
dengan menggunakan algortima K-Nearest Neighbor untuk data
kuantitatif dan Algoritma C4.5 untuk data kualitatif. Tahapan proses
adalah sebagai berikut:
(1) Proses global adalah sebuah proses yang mencakup alur dari
proses secara garis besar.
(2) Proses request data adalah sebuag proses yang melakukan
pemanggilan data yang disimpan dalam sebuah database.
(3) Proses klasifikasi adalah sebuah proses yang menunjukkan alur
perhitungan dari perhitungan awal sampai ditemukan kelas tingkat
kelulusan dari karakteristik sekolah.
(4) Proses algoritma K-Nearest Neighbor, terdiri dari :
 Menghitung Validitas
 Menghitung Euclidean
 Menghitung Weight voting
(5) Proses Algoritma C4.5, terdiri dari :
35
 Menghitung Jumlah kasus
 Menghitung Entropy
 Menghitung Gain dan menentukan Gain tertinggi
 Membuat pohon keputusan sementara
b. Flowchart Sistem
Langkah-langkah dalam proses ini atara lain yaitu:
(1) Melakukan input data sekolah
(2) Melakukan proses klasifikasi untuk menentukan tingkat kelulusan
(3) Output data sekolah setelah dilakukan proses perhitngan
Untuk lebih jelasnya dapat dilihat pada gambar 3.7. Flowchart
system keseluruhan
Mulai
Input Dataset sekolah
Proses Klasifikasi
Data Kuantitatif
dengan KNN
Proses Klasifikasi
Data Kualitatif dengan
C4.5
Proses perhitungan
Algoritma KNNC4.5
Output data sekolah setelah

diproses
End
Gambar 3.7. Flowchart Sistem Keseluruhan
36
Dari gambar 3.7 yaitu flowchart system keseluruhan dapat dilihat
bahwa sistem akan memproses input dataset karakteristik sekolah
baik data kualitatif maupun data kuantitatif, selanjutnya akan dilakukan
proses klasifikasi data kualitatif menggunakan algoritma KNN dan data
kuantitatf dengan C 4.5 yang didalamnya terdiri dari berbagai proses
untuk menghasilkan klasifikasi sekolah sesuai dengan tingkat
kelulusan.
c. Proses Klasifikasi K-Nearest Neighbor
Langkah-langkah dalam proses ini antara lain yaitu:
(1) Memberikan inputan data kualitatif dataset sekolah.
(2) Melakukan proses perhitungan Validitas dari tiap data pada
dataset sekolah.
(3) Melakukan proses perhitungan jarak Euclidean pada tiap data
pada dataset sekolah.
(4) Melakukan proses perhitungan Weight voting dari data set
sekolah dan mengambil nilai Weight voting yang terbesar
berdasarkan jumlah nilai tetangga yang diinputkan.
(5) Memberikan keluaran data berupa kelas yan menunjukkan
tingkat kelulusan sekolah.
37
proses klasifikasi
Mulai
Dataset kuantitatif sekolah
Hitung Validitas
Hitung Euclidean
Hitung Weight voting
Output
Return
Gambar 3.8. Flowchart Proses Klasifikasi KNN
Pada alur flowchart proses klasifikasi dijelaskan alur tahapan
yang dilakukan setelah input dataset sekolah terdiri dari 3 tahapan
proses yaitu menghitung Validitas sesuai dengan persamaan Validitas
2.2 yang membandingkan kelas pada data trainingnya. Setelah
dilakukan proses Validitas akan dilakukan perhitungan euclidean
sesuai persamaan 2.1 yang mencari jarak terdekat antara data yang
divaluasi dengan k tetangga terdekatnya. Pada proses perhitungan
Euclidean selesai tahapan selanjutnya adalah perhitungan weight
voting sesuai dengan persamaan 2.4. Tahapan terakhir setelah
38
didapat nilai weight votingnya maka akan didapatkan output data kelas
tingkat sekolah pada data testingnya.
Untuk proses Modified KNN seperti yang ditunjukkan pada
Gambar 3.8 yaitu flowchart Proses Klasifikasi KNN yang terdiri dari
beberapa proses. Berikut ini akan dijelaskan dan ditunjukkan flowchart
dari masing-masing proses, mulai dari menghitung validitas,
menghitung Euclidean dan proses menghitung Weight voting.
Tahapan-tahapan proses dan masing-masing flowchart adalah
sebagai berikut:
1. Menghitung Validitas
Langkah-langkah dalam proses menghitung validitas antara lain yaitu:
 Memberikan inputan data kuantitatif sekolah.
 Menentukan nilai k-nya.
 Melakukan perhitungan Validitas sesuai persamaan 2.2.
 Memberikan keluaran berupa hasil Validitas.
menghitung Validitas.
39
Mulai
Data sekolah dan nilai

tetangga (k)
Inisialisai
Total=0
For x = 0 to k-1
For i=x+1 to k
Y[x]==Y[i]
Ya
Tidak Total=Total+1
aak
V[X]=Total/k
V[x]
Return
Gambar 3.9. Flowchart Menghitung Validitas
40
Pada alur Flowchart perhitungan Validitas pada Gambar 3.9
dijelaskan alur tahapan yang terdiri dari beberapa tahapan yaitu
menginputkan nilai k-nya yang dilakukan secara manual dengan
batasan tertentu, lalu menghitung Validitas sesuai dengan persamaan
Validitas 2.2. Pada tahapan perhitungan Validitas ini yang akan
dilakukan adalah melakukan input dataset sekolah dan input nilai k-
nya. Setelah input keduanya dilakukan maka akan dilakukan
perhitungan Validitas dengan membandingkan kelas-kelas pada data
training-nya sesuai dengan ketetapan sebelumnya. Dengan ketentuan
jika kelasnya sama maka V[x]=V[x]+1 nilainya 1 dan jika kelasnya
tidak sama maka V[x]=V[x] nilainya 0 dilakukan perbandingan data
sebanyak k. Kemudian V[x] nya akan dijumlah dan dibagi sebanyak k
data yang telah diinputkan. Maka akan didapatkan output data nilai
Validitas tiap data uji pada proses klasifikasi algortima KNN.
2. Menghitung Euclidean
Langkah-langkah dalam proses ini antara lain yaitu :
 Memberikan inputan data sekolah
 Melakukan peritungan Euclidean seesuai persamaan 2.1
 Mmberikan keluaran berupa nilai Euclidean
Untuk lebih jelasnya dapat dilihat pada Gambar 3.10, Flowchart
hitung Euclidean berikut
41
Mulai
Data sekolah
Inisialisai Total=0
For x = to n
For y = to m
Total=Total+(Att[x]-Att[y][x]^2)
Distance=SQRT(total)
Distance
Return
Gambar 3.10. Flowchart Menghitung Euclidean
Pada alur Flowchart perhitungan Euclidean alur tahapannya
terdiri dari beberapa tahapan antara lain input data sekolah dan
perhitungan Euclidean sesuai dengan persamaan Euclidean 2.1
sebanyak data maka akan didapatkan output nilai euclidean tiap data
uji pada proses klasifikasi algoritma KNN.
42
3. Menghitung Weight voting
Langkah-langkah dalam proses ini antara lain yaitu:
 Memasukkan nilai Euclidean dan nilai Validitasnya
 Melakukan perhitungan weight voting-nya
 Memberikan keluaran berupa nilai weight voting-nya.
Untuk lebih jelasnya dapat dilihat pada gambar 3.11 Flowchart
menghitung weight voting.
Mulai
Distance dan V[x]
For i = 0 to m
1
W(i) = V[x] x (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 +0.5)
Type equation here.
W(i)
Return
Gambar 3.11. Flowchart Menghitung Weight Voting.
Pada alur Flowchart Perhitungan Weight voting dijelaskan alur
tahapan yang terdiri dari 2 tahapan yaitu meenginput nilai Validitas
dan nilai Euclidean, lalu menghitung nilai weight votingnya
berdasarkan persamaan 2.4 sebanyak data uji. Maka akan didapatkan
43
output data nilai weight voting tiap data uji pada proses klasifikasi
algortima KNN.
d. Proses Klasifikasi Algoritma C4.5
Pada proses ini sistem akan melakukan klasifikasi pada data training
untuk data yang bersifat kualitatif dengan menggunakan algoritma
C4.5 tahapan proses hingga terbentuk sebuah pohon keputusan.
 Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusann
rendah, jumlah kelulusan tinggi.
 Menentukan Entropy seusai dengan persamaan 2.6, dari semua
kasus dan kasus yang dibagi berdasarkan atribut LAB, RUANG
PRAKTEK dan PERPUSTAKAAN.
 Setelah itu, lakukan perhitungan Gain sesuai persamaan 2.5 untuk
setiap atribut.
 Dari hasil perhitungan dapat diketahui bahwa atribut dengan Gain
tertinggi yang kemudian akan menjadi node akar yang akan
membentuk pohon.
 Atribut yang sudah mengklasifikasikan kasus menjadi 1 kelas yaitu
kelas tingkat kelulusan 100% atau < 100% sehingga tidak perlu
dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut yang
terklasifikasi 2 kelas maka masih perlu dilakukan perhitungan lagi.
 Dari hasil tersebut dapat digambarkan pohon keputusan
sementara.
44
 Kemudian dilakukan perhitungan lagi seperti pada langkah 1
sampai dengan 5, hingga diketahui bahwa semua kasus sudah
masuk dalam satu salah satu kelas dan akan terbentuk pohon
keputusan yang terakhir.
Untuk lebih jelasnya dapat dilihat pada gambar 3.12 Flowchart
klasifikasi algoritma C4.5.
Mulai
Masukkan Data
Training
Hitung Entropy dan InfGain

dari tiap atribut
Buat simpul Akar Pohon berdasarkan Informasi

Gain terbesar
Hitung Entropy dan information Gain dari tiap Atribut

dengan menghilangkan Atribut yang telah dipilih
sebelumnya
Buat simpul Internal Pohon

Berdasarkan Information Gain
terbesar
Semua Atribut sudah

Masuk Pohon?
Y
Tidak
a
Lakukan pemangkasan
pohon
Generate aturan
keputusan
Selesai
Gambar 3.12. Flowchart Klasifikasi Algoritma C4.5.

45
E. Metode Pengujian Sistem
Metode pengujian yang digunakan pada penelitian ini terdiri dari
Pengujian Black Box dan Pengujian akurasi. Pada pengujian fungsional
akan menggunakan metode pengujian Black box.. Metode pengujian
Black Box memfokuskan pada keperluan fungsional dari perangkat lunak.
Oleh karena itu, pengujian dengan metode Black Box memungkinkan
untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-
syarat fungsional suatu program. Pengujian akurasi merupakan pengujian
keakuratan dari system dan hasil prediksi yang dihasilkan dengan data
yang sesungguhnya.
46
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
A. Gambaran umum sistem
Gambaran umum sistem yang akan dikembangkan pada penelitian
ini dapat dilihat pada gambar 4.1 di bawah ini :
Sistem
pendukung
Data keputusan Tingkat
Karakteristik Sistem
database dengan kelulusan
Sekolah Algortima Sekolah
data
Input Mining Output
Proses
Gambar 4.1 Gambaran umum sistem
Pada gambar 4.1 di atas pada proses input data karakteristik
sekolah merupakan data utama yang digunakan dalam penelitiatn ini yang
berasal dari data sekolah SMU Negeri/Swasta se Sulawesi Tengah
selama 4 tahun seperti yang telah dijelaskan pada bab 3 metodologi
penelitian sub bab tahapan rancangan penelitian bagian deskripsi data.
Data karakteristik sekolah ini terdiri dari 8 parameter yang terdiri
dari nama sekolah, status, jumlah rombel, jumlah siswa, jumlah guru,
47
laboratorium, ruang praktek, perpustakaan. Data Karakteristik sekolah
yang sudah diinput akan menjadi data training yang akan dimasukkan ke
dalam suatu database.
Selanjutnya data tersebut diolah dengan menggunakan algoritma
data mining yaitu algoritma klasifikasi dan pohon keputusan untuk
mendapatkan pengetahuan berupa pola klasifikasi dan senu algoritma
keputusan yang akan digunakan untuk membantu meningkatkan angka
kelulusan dan mengurangi angka ketidaklulusan. Dalam penelitian ini
proses klasifikasi menggunakan algoritma K-Nearest Neighbor, yaitu
klasifikasi dengan menentukan kedekatan kasus atau tetangga terdekat
dan algoritma C4.5 yaitu klasifikasi dengan pohon keputusan dan
kombinasi antara KNN dan C4.5 yaitu Algoritma KNNC4.5. seperti
diperlihatkan pada gambar 4.2.
INPUT PROSES OUTPUT

Proses Data Hasil KKN
Data Tingkat kelulusan
Kuantitatif dan C4.5
karakteristik dengan KNN dan factor-faktor
sekolah : yang
(1) Data Training Proses Data Proses mempengaruhi
(2) Data testing Kualitatif KNNC4.5 tingkat kelulusan
dengan C4.5
Gambar 4.2 Proses Klasifikasi Data
48
Pada gambar 4.2. ditunjukkan proses klasifikasi data
menggunakan algoritma KNN untuk data yang bernilai kuantitatif dan
algoritma C4.5 untuk data yang bernilai kualitatif, hasil dari kedua
algoritma dikombinasikan menjadi algoritma KNNC4.5 untuk
menghasilkan kelas tingkat kelulusan dan factor-faktor yang
mempengaruhi tingkat kelulusan.
B. Simulasi Algoritma
Simulasi algoritma merupakan simulasi dari algoritma yang akan
digunakan dalam penelitian ini yaitu, algoritma K-Nearest Neighbor,
algoritma C4.5 dan algoritma KNNC4.5. Data yang digunakan adalah data
14 sekolah yang berada pada kota Palu berdasarkan sumber data dari
KEMENDIKBUD Provinsi Sulawesi Tengah. Data tersebut akan diproses
secara bertahap mulai dengan algoritma KNN, C4.5 dan kemudian
algoritma KNNC4.5.
1. Algoritma K-Nearest Neighbor
Dalam Algoritma K-Nearest Neighbor (KNN) ini langkah-langkah
dalam perhitungannya antara lain yaitu:
a. Menentukan nilai k atau tetangganya dengan batasan tertentu

b. Menghitung Validitas data training
c. Menghitung jarak Euclidean
d. Menghitung pembobotan (Weight voting)
e. Menentukan kelas dari daa testing
49
Data testing dan Data Training pada data karakteristik sekolah
Pada contoh perhitungan kali ini digunakan satu data testing dan
menggunakan lima data training. Data training dan data testing yang
dipakai seperti yang ditunjukkan pada tabel 4.1.
Tabel 4.1. Tabel Data Testing dan Data Training
Nama Jumlah Jumlah Jumlah Ruang Tingkat

No Status Lab Perpus
Sekolah siswa Rombel Guru Praktek kelulusan
Data Testing :
1 SMAN 2 N 1446 36 71 ?
Data Training :
1 SMAN 4 N 1286 33 71 < 100%
2 SMAN 6 N 579 15 35 < 100%
3 SMAN 8 N 241 9 27 < 100%
4 SMAN 1 N 2404 61 110 100%
5 SMAN 5 N 640 16 71 100%
SMA
6
KATOLIK
S 331 11 18 100%
7 SMA KARDIP S 148 6 15 100%
8 SMAN 3 N 2098 50 65 <100%
9 SMAN 6 N 579 15 35 <100%
SMAN
10
MADANI
S 235 9 30 100%
11 SMAN 9 N 226 8 36 100%

SMA
12
SWADAYA
S 138 6 7 <100%
13 SMA GPID S 126 5 6 <100%
14 SMAN 7 N 37 1317 55 100%
Proses perhitungan dengan algoritma KNN dilakukan untuk data
training dari data karakteristik sekolah yang bersifat kuantitatif, yaitu tabel
yang bergaris tebal seperti terlihat pada tabel 4.1
Langkah 1 Menentukan nilai k atau tetangganya
Pada perhitungan ini ditentukan nilai dari k yaitu 3.
50
Langkah 2 Menghitung Validitas data training
Setelah ditentukaan nilai k-nya makan dihitung nilai validitas dari
data training dengan persamaan 2.2.
1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x)))…. 2.2
𝑘
Dimana :
Tentukan k (jumlah tetangga terdekat) untuk kasus ini gunakan 3
tetangga terdekat, k = 3 yang telah ditentukan pada langkah 1
Lbl(x=1), validasi dimulai dari data training yang pertama dengan
kelasnya <100%.
Lbl(Ni(x=2)), Label kelas titik terdekat (x=1), yaitu data training yang
kedua (x=2) dengan kelasnya <100%. Label kelas titik terdekat sebanyak
nilai k, yaitu 3. Untuk lebih jelasnya perhatikan Tabel 4.2 berikut :
Tabel 4.2. Tabel Cara Hitung Validasi
Nama Tingkat
No
Sekolah kelulusan
Data Testing :
1 SMAN 2 ?
Data Training : X=1
1 SMAN 4 < 100% x=1
k=1
2 SMAN 6 < 100% x=2 a=b
k=2
3 SMAN 8 < 100% x=3
k=3
4 SMAN 1 100% x=4
5 SMAN 5 100% x=5
. . . .
. . . .
. . . .
14 SMAN 6 <100% x=14
51
Dari Tabel 4.2, bandingkan setiap kelas dengan kelas tetangga.
untuk menghitung kesamaan antara titik x dan data ke-i dari tetangga
terdekat gunakan fungsi S, sesuai dengan persamaan 2.3. Jika kelas
pada data training sama dengan kelas tetangganya maka nilanya 1 dan
jika kelas pada data training tidak sama dengan kelas pada tetangganya
maka nilainya adalah 0.
Dari keterangan dan penjelasan sebelumnya maka dapat dilakukan
perhitungan validitas untuk kasus dari tabel 4.1.
𝟏 𝒌
Validitas (x=1) = 𝑰=𝟏 S(lbl(x), (lbl(Ni(x)))
𝒌
𝟏 𝟑
= 𝑰=𝟏 S(lbl(x=1), (lbl(Ni(x=2)))
𝟑
𝟏
= 𝒙(𝟏 + 𝟏 + 𝟎)
𝟑
𝟐
=
𝟑
= 0.66667
Lakukan perhitungan yang sama untuk semua data training pada tabel
4.1. Hasil perhitungan Validitas dari semua data training ditunjukkan
Tabel 4.3.
52
Tabel 4.3. Tabel Hasil Perhitungan Validitas
Sum
K=1 K=2 K=3 Validitas
S(a,b)
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 0 0 0
1 1 1 3 1
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 1 2 0,6666667
0 1 0 1 0,3333333
0 0 1 1 0,3333333
Langkah 3 Menghitung jarak Euclidean
Pada perhitungan mencari nilai Euclidean, gunakan rumus seperti
pada persamaan 2.1, dan memasukkan data pada persamaan tersebut.
𝒑 𝟐
𝒅𝒆 = 𝟏−𝒊 (𝒙 𝟐𝒊 − 𝒙𝟏𝒊 )
Dimana : x2i adalah data uji dan x1i adalah data training sebanyak p
(atribut, yaitu: jumlah siswa, jumlah rombel dan jumlah guru), beradsarkan
data pada tabel 4.1.
De(1) = 𝟏𝟒𝟒𝟔 − 𝟏𝟐𝟖𝟔 𝟐 + 𝟑𝟔 − 𝟑𝟑 𝟐 + (𝟕𝟏 − 𝟕𝟏)^𝟐

= 𝟐𝟓𝟔𝟎𝟎 + 𝟑 + 𝟎
= 𝟐𝟓𝟔𝟎𝟑
= 160.0094
53
Lakukan perhitungan yang sama untuk semua data training pada tabel
4.1. Hasil perhitungan Euclidean untuk semua data training seperti yang
ditunjukkan tabel 4.4.
Tabel 4.4. Tabel Hasil Perhitungan Euclidean
Sum
No Euclidean
Euclidean
1 25609 160,0281225
2 916490 957,3348422
3 1454690 1206,105302
4 919910 959,1193878
5 650036 806,2481008
6 1246659 1116,538848
7 1688840 1299,55377
8 425336 652,1778898
9 753426 868,0011521
10 1468931 1211,994637
11 1490409 1220,823083
12 1715860 1309,908394
13 1747586 1321,962934
17473 132.1854758
14
Langkah 4 Menghitung pembobotan (weight voting)
Pada tahapan menghitung nilai weight voting yang didapat dari
memasukkan nilai Validitas dan nilai Euclidean pada persamaan 2.4.
𝟏
W(i) = Validitas(i) x 𝐝𝐞(𝟏)+𝟎.𝟓
𝟐 𝟏
= 𝟑 x 𝐝𝐞(𝟏)+𝟎.𝟓
𝟐 𝟏
= 𝟑 x 𝟏𝟔𝟎.𝟎𝟎𝟗𝟒 + 𝟎.𝟓
= 0.004153
54
Lakukan perhitungan yang sama untuk semua data training pada
tabel 4.1. Hasil perhitungan weight voting untuk semua data training
ditunjukkan tabel 4.5.
Tabel. 4.5. Tabel Hasil Perhitungan Weight voting
Weight Voting
0,004152959
0,000348007
0
0,00104208
0,000826363
0,000298408
0,0002564
0,000510716
0,000383803
0,000274915
0,000272928
0,000508747
0,000252055
0.002512207
Langkah 5 Menentukan kelas data testing
Setelah didapatkan nilai weight voting dari semua data training
maka dilakukan pencarian nilai weight voting yang terbesar sebanyak nilai
k yang telah ditentukan. Untuk lebih jelasnya dapat dilihat pada tabel 4.6.
55
Tabel. 4.6. Tabel Penentuan Kelas Berdasarkan Weight Voting
Tingkat Weight
No Nama Sekolah
kelulusan Voting
Data Testing :
1 SMAN 2 Palu ?
Data Training:
1 SMAN 4 < 100% 0.004091698
2 SMAN 1 Bolano < 100% 0.000347671
3 SMAN 8 < 100% 0
4 SMAN 1 100% 0.001042434
5 SMAN 5 100% 0.000825333
6 SMA KATOLIK 100% 0.000298184
7 SMA KARDIP 100% 0.000256239
8 SMAN 3 <100% 0.000510761
9 SMAN 6 <100% 0.000383377
10 SMAN MADANI 100% 0.000274731
11 SMAN 9 100% 0.000272743
12 SMA SWADAYA <100% 0.000508433
13 SMA GPID <100% 0.000251898
14 SMAN 7 100% 0.002512207
Dari tabel 4.6 maka didapatkan nilai dengan 3 weight voting
terbesar yaitu 0.004091698 dengan kelasnya lulus <100%, 0.001042434
dengan kelasnya Lulus 100% dan 0.000825333 dengan kelasnya lulus
100%. Kelas yang lebih banyak adalah lulus 100%. Maka dapat
disimpulkan bahwa SMAN 2 Palu dengan karakteristik jumlah rombel,
jumlah siswa, jumlah guru seperti ditunjukkan pada tabel 4.1 yang
diproses dengan algoritma KNN adalah Lulus 100%.
56
2. Algoritma C4.5
Untuk memudahkan penjelasan mengenai algoritma C4.5, berikut
ini dituangkan contoh kasus yaitu 14 SMA Negeri/Swasta di kota Palu
tahun 2010 dan bagaimana simulasi dari algoritma c4.5 terhadap 14
sekolah dengan atrubut status, lab, ruang praktek, perpustakaan, seperti
tertera pada tabel 4.7
Tabel 4.7. Tabel Kasus Data Kualitatif Penentuan Tingkat Kelulusan
Nama Jumlah Jumlah Jumlah Ruang Tingkat

No Status Lab Perpus
Sekolah siswa Rombel Guru Praktek kelulusan
Data testing :
1 SMAN 2 N G L MS ?
Data Trainning :
1 SMAN 4 N G TA MS < 100%
2 SMAN 1 N G TA TMS < 100%
Bolano
3 SMAN 8 N TA TA MS < 100%
4 SMAN 1 N G L MS <100%
5 SMAN 5 N G TA TMS 100%
6 SMA S L L TMS 100%
KATOLIK
7 SMA S L L MS 100%
KARDIP
8 SMAN 3 N G A MS <100%
9 SMAN 6 N G A MS <100%
10 SMAN S L L MS 100%
MADANI
11 SMAN 9 N G A MS 100%
12 SMA S TA TA TMS <100%
SWADAYA
13 SMA GPID S G TA TMS <100%
14 SMAN 7 N G A MS 100%
Keterangan :
G : Gabung N : Negeri
L : Lengkap S : Swasta
MS : Memenuhi Syarat A : Ada
TMS : Tidak Memenuhi Syarat TA : Tidak Ada
57
Pada kasus yang tertera pada tabel 4.7 akan dibuat pohon
keputusan untuk menentukan tingkat kelulusan setiap sekolah
berdasarkan karakteristik pada data training yang bersifat kualitatif yang
berboder tebal seperti yang terlihat pada tabel 4.7. Berikut langkah-
langkah perhitungan dengan algoritma C4.5.
Langkah 1. Memilih Atribut Sebagai Akar
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain
tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan
rumus seperti tertera pada persamaan 2.5 sebelumnya dan perhitungan
nilai Entropy dapat dilihat pada persamaan 2.6.
Langkah 2 Perhitungan Level 1
Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusan
100% dan jumlah kasus untuk tingkat kelulusan <100%. Menghitung
Entropy dari semua kasus dan menghitung entropy dari kasus yang
dibagi berdasarkan atribut STATUS, LAB, RUANG PRAKTEK,
PERPUSTAKAAN. Setelah itu dilakukan perhitungan Gain untuk setiap
atribut. Hasil perhitungan ditunjukkan oleh tabel 4.8.
58
Tabel 4.8 Tabel Perhitungan Level 0
Jumlah
100% < 100
Level kasus Entropy GAIN
(Si) % (S2)
(S)
1 TOTAL 14 6 8 0,985228136
LAB
GABUNG 9 3 6 0,918295834 0,394895
LENGKAP 3 3 0 0
TIDAK ADA 2 0 2 0
STATUS
NEGERI 9 3 6 0.91829583
0.048126886
SWASTA 5 3 2 0.970951
RUANG
PRAKTEK
LENGKAP 4 3 1 0,811278124 0,268698
ADA 4 2 2 1
TIDAK ADA 6 1 5 0,464385619
PERPUS
MS 9 4 5 0,99107606 0,00134
TMS 5 2 3 0,970950594
Baris Total kolom Entropy pada tabel 4.8 dihitung dengan persamaan 2.6
sebagai berikut :
𝟔 𝟔 𝟖 𝟖
Entropy(Total) = (− ∗ 𝒍𝒐𝒈𝟐 ( )) + (− ∗ 𝐥𝐨𝐠𝟐 ( ))
𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒
Entropy(Total) = 0,985228136
Sementara itu, nilai gain pada baris LAB dihitung dengan persamaan 2.5
sebagai berikut :
𝒏
|𝐋𝐀𝐁|
Gain(Total,LAB) = Entropy(Total) - ∗ Entropy(LAB)
𝒊=𝟏 |𝐓𝐎𝐓𝐀𝐋|
𝟗 𝟑 𝟐
= 0,985228136–(( 𝟏𝟒 ∗ 𝟎, 𝟗𝟏𝟖𝟐𝟗𝟓𝟖𝟑𝟒) + 𝟏𝟒
∗𝟎 + (𝟏𝟒 ∗ 𝟎))
= 0,394895
59
Lakukan perhitungan gain dan entropy untuk atribut yang lain sehingga
didapatkan hasil seperti yang tertera pada Tabel 4.8. Dari hasil yang
ditunjukkan pada tabel 4.8. dapat diketahui bahwa atribut dengan Gain
tertinggi adalah LABORATORIUM, yaitu sebesar 0.394895. Dengan
demikian LABORATORIUM dapat menjadi level akar. Ada tiga nilai atribut
dari LABORATORIUM, yaitu GABUNG, LENGKAP dan TIDAK ADA. Dari
ketiga nilai atribut tersebut, nilai atribut LENGKAP sudah
mengklasifikasikan kasus menjadi 1, yaitu kelulusan 100% dan nilai atribut
TIDAK ADA sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan
<100%, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi
untuk nilai atribut GABUNG masih perlu dilakukan perhitungan lagi.
Dari hasil tersebut dapat digambarkan pohon keputusan sementara
seperti tampak pada Gambar 4.3.
Lab
Gabung Lengkap Tidak ada
1 100% < 100%

?
Gambar
? 4.3. Pohon Keputusan Hasil Perhitungan Level 0
60
Langkah 3. Perhitungan level 1
dibagi berdasarkan atribut STATUS, RUANG PRAKTEK DAN
PERPUSTAKAAN yang menjadi level akar dari nilai atribut GABUNG.
Setelah itu perhitungan Gain untuk tiap-tiap atribut. Hasil perhitungan
ditunjukkkan oleh tabel 4.9.
Tabel 4.9. Tabel Perhitungan Level 1
Jumlah
100% < 100 %
Level kasus Entropy Gain
(Si) (S2)
(S)
1 LAB-
9 3 6 0,918229583
GABUNG
RUANG
PRAKTEK 0,113217084
LENGKAP 1 0 1 0
ADA 4 2 2 1
TIDAK ADA 4 1 3 0,811278124
STATUS
NEGERI 8 3 5 0.954435 0.069843806
SWASTA 1 0 1 0
PERPUS
MS 6 2 4 0,918229583 0
TMS 3 1 2 0,918229583
Dari hasil tabel 4.9 dapat diketahui bahwa atribut dengan Gain tertinggi
adalah RUANG PRAKTEK, yaitu sebesar 0.1131217084. Dengan
demikian RUANG PRAKTEK dapat menjadi level cabang dari nilai atribut
GABUNG. Ada tiga nilai atribut dari RUANG PRAKTEK, yaitu LENGKAP,
61
ADA dan TIDAK ADA. Dari ketiga atribut tersebut, nilai atribut LENGKAP
sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan <100%,
sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai
atribut ADA dan TIDAK ADA masih perlu dilakukan perhitungan lagi.
Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada
Gambar 4.4 berikut.
Lab
1 100% < 100%

Ruang
Praktek
?
Lengkap Ada Tidak ada
<100% 1.3
1.2
? ?
? ?
Gambar 4.4. Pohon Keputusan Hasil Perhitungan Level 1
Langkah 3. Perhitungan Level 1.2 dan Level 1.3
62
dibagi berdasarkan atribut STATUS dan PERPUSTAKAAN yang dapat
menjadi level cabang dari nilai atribut-atribut Ada dan tidak ada, setelah itu
lakukan perhitungan Gain untuk tiap-tiap atribut. Hasil perhitungan
ditunjukkan oleh tabel 4.10.
Tabel 4.10. Tabel Perhitungan Level 1.2 dan Level 1.3
Jumlah 100% < 100

Level 1.2 Entropy Gain
kasus (S) (Si) % (S2)
LAB-(G) DAN
4 2 2 1
R.PRAKTEK-(A)
STATUS
N 4 2 2 1
0
S 0 0 0 0
PERPUS
MS 4 2 2 1 0
TMS 0 0 0 0
Level 1.3
LAB-(G) DAN
4 1 3 0,811278124
R.PRKATEK-(TA)
STATUS
N 3 1 2 0,918295834 0,122556249
S 1 0 1
PERPUS MS 1 0 1 0 0,122556249
TMS 3 1 2 0,918295834
Pada tabel 4.10, hasil perhitungan level 1.1.2 dan level 1.1.3, dapat
diketahui bahwa atribut dengan Gain tertinggi adalah RUANG PRAKTEK
dengan nilai atribut TIDAK ADA, yaitu sebesar 0.122556249. Dengan
63
demikian RUANG PRAKTEK–TIDAK ADA dapat menjadi level cabang dari
nilai atribut LAB-GABUNG dan STATUS, PERPUSTAKAAN dapat menjadi
level cabang dari nilai atribut TIDAK ADA. Ada dua nilai atribut dari
PERPUSTAKAAN, yaitu MEMENUHI SYARAT dan TIDAK MEMENUHI
SYARAT, dari kedua nilai atribut tersebut, nilai atribut MEMENUHI
SYARAT sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan
<100% dan dua nilai atribut dari STATUS yaitu NEGERI dan SWASTA,
dari kedua niali atribut tersebut, nilai atribut SWASTA sudah
mengklasifikasikan kasus menjadi 1, yaitu kelulusan <100% sehingga
untuk nilai atribut SWASTA dan MEMENUHI SYARAT tidak perlu
dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut TIDAK
MEMENUHI SYARAT dan NEGERI masih perlu dilakukan perhitungan
lagi.
Dari tabel 4.10, dapat dilihat bahwa atribut dari STATUS dan
PERPUSTAKAAN mempunyai nilai Gain yang sama yaitu 0.122556249
sehingga atribut STATUS dan PERPUSTAKAAN dapat menjadi sub akar
dari RUANG PRAKTEK dengan nilai atribut TIDAK ADA. Pohon
keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 4.5
berikut.
64
1
Lab
1.1 100% < 100%

Ruang
Praktek
Lengkap ?
Ada Tidak ada
<100%
1.2 1.3 1.4 1.5
Perpus- Perpus-
Status takaan Status
takaan
? ?
?
Negeri Memenuhi Memenuhi Tidak Memenuhi
Negeri Swasta
Syarat Syarat Syarat
100% 100% < 100% < 100% < 100% < 100%
Gambar 4.5. Pohon Keputusan Hasil Perhitungan Level 1.1.2 dan Level 1.1.3
Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan
pada gambar 4.5. Dari pohon keputusan tersebut, diketahui bahwa semua
kasus sudah masuk dalam kelas tngkat kelulusan. Gambar 4.5
merupakan pohon keputusan terakhir yang terbentuk, dan dari pohon
keputusan dapat dibuat aturan atau rule dari algoritma C4.5, yaitu :
65
1. Laboratorium Lengkap maka tingkat kelulusan adalah 100%
2. Laboratorium tidak ada maka tingkat kelulusan adalah < 100%
3. Laboratorium Gabung – Ruang Praktek Lengkap maka tingkat
kelulusan adalah < 100%.
4. Laboratorium Gabung – Ruang Praktek Ada - Perpustakaan
Memenuhi syarat atau status Negeri maka tingkat kelulusan adalah
100%.
5. Laboratorium Gabung – Ruang Praktek Tidak ada – Perpustakaan
memenuhi syarat maka lulus < 100%. Atau Laboratorium Gabung –
Ruang Praktek Tidak ada – Status Negeri maka lulus < 100%.
6. Laboratorium Gabung – Ruang Praktek Tidak ada – Perpustakaan
tidak memenuhi syarat atau 5. Laboratorium Gabung – Ruang
Praktek Tidak ada – Status Swasta maka lulus < 100%.
Untuk Atribut yang mempunyai dua kelas maka perlu
memperhatikan besarnya jumlah kasus pada masing-masing kelas, jika
jumlah kasus salah satu kelas lebih besar dari yang lain maka kelas
tersebut merupakan keputusan dari klasifikasi kelas dan jika mempunyai
nilai yang sama maka kelas yang diambil adalah kelas dengan tingkat
kelulusan 100%.
Dari aturan atau rule yang terbentuk pada pohon keputusan
terakhir, maka dapat disimpulkan bahwa data testing pada SMA Negeri 2
66
palu dengan karakteristik sekolah adalah Laboratorium gabung, Ruang
Praktek lengkap dan Perpustakaan Memenuhi syarat terklasifikasi dalam
kelas dengan tingkat kelulusan yaitu Lulus 100%.
3. Algoritma KNNC4.5
Setelah dilakukan perhitungan dengan menggunakan algoritma
KNN dan algoritma C4.5 pada data testing yang sama yaitu SMA Negeri 2
Palu dan data training .yang sama yaitu 14 data training bahwa kedua
algoritma tersebut menghasilkan kelas yang sama yaitu LULUS 100%.
Hasil prediksi dari kedua algoritma KNN dan C4.5 dapat berbeda-
beda, maka hasil prediksi dapat ditentukan sebagai berikut:
1. Jika hasil kedua algoritma sama, maka hasil prediksi adalah hasil
dari salah satu algoritma.
2. Jika Hasil kedua algoritma berbeda, maka hasil yang digunakan
adalah hasil dari algoritma KNN, karena atribut pada algoritma KNN
yaitu jumlah siswa, jumlah guru dan jumlah rombel merupakan
parameter dan factor penting dalam karakteristik sekolah
dibandingkan dengan atribut dari Laboratorium, Ruang Praktek dan
Perpustakaan yang merupakan fasilitas yang pendukung
kesuksesan tingkat kelulusan . Dengan membandingkan masing-
masing atribut berdasarkan standarisasi berdirinya sebuah sekolah
maka atribut dari karakteristik sekolah yang dihitung dengan
algortima KNN merupakan atribut utama dan altribut yang dihitung
67
dengan algoritm C4.5 merupakan atribut pendukung, sehingga
hasil algoritma KNN yang digunakan sebagai penentu tingkat
kelulusan.
3. Hasil kombinasi dari algoritma KNN dan C4.5 seperti ditunjukkan
pada tabel 4.11 berikut.
Tabel 4.11. Tabel Output Kombinasi Algoritma KNNC4.5
Hasil Prediksi
No Output
KNN C4.5
1. Lulus 100%.
Lulus Lulus
1 2. Semua Karakteristik sekolah menunjang tinkat
100% 100%
kelulusan.
1. Lulus 100%.
2. Jumlah guru dan ruangan memenuhi syarat
kelulusan .
Lulus Tidak 3. Fasilitas sekolah yaitu Lab, R. Praktek dan
2
100% 100% Perpustakaan tidak mendukung kelulusan.
Misalnya, Lab tidak ada, atau ruang praktek tidak
ada dan atau perpustakaan tidak memenuhi
syarat.
1. Kelulusan tidak 100%.
Tidak Lulus
3 2. Jumlah ruangan/rombel dan jumlah guru tidak
100% 100%
memenuhi syarat kelulusan.
1. Kelulusan tidak 100%.
Tidak Tidak
4 2. Jumlah ruangan, jumlah guru dan fasilitas
100% 100%
sekolah tidak mendukung tingkat kelulusan.
Untuk hasil simulasi dari data testing SMA Negeri 2 palu dan 16
data training SMA Negeri/Swasta seprovinsi Sulawesi tengah
dengan algoritma KNN,C4.5 dan kombinasi keduanya maka
68
hasilnya dapat dilihat pada table 4.12. berikut, tabel hasil prediksi
untuk data testing SMA Negeri 2 Palu.
Tabel 4.12. Tabel Prediksi pada SMA Negeri 2 Palu dengan 16

Data Training
Nama Jumlah Jumlah Jumlah Proses Ruang Proses Tingkat
No Lab Status Perpus
Sekolah siswa Rombel Guru KNN Praktek C4.5 kelulusan
Data Testing
1 SMAN 2 1446 36 71 100% G N L MS 100% 100%
Data Training
1 SMAN 4 1286 33 71 G N TA MS < 100%
2 SMAN 6 579 15 35 G N TA TMS < 100%
3 SMAN 8 241 9 27 TA N TA MS < 100%
4 SMAN 1 2404 61 110 G N L MS 100%
5 SMAN 5 640 16 71 G N TA TMS 100%
6 SMA 331 11 18 L S L TMS 100%
KATOLIK
7 SMA 148 6 15 L S L MS 100%
KARDIP
8 SMAN 3 2098 50 65 G N A MS <100%
9 SMAN 6 579 15 35 G N A MS <100%
10 SMAN 235 9 30 L S L MS 100%
MADANI
11 SMAN 9 226 8 36 G N A MS 100%
12 SMA 138 6 7 TA S TA TMS <100%
SWADAYA
13 SMA GPID 126 5 6 G S TA TMS <100%
14 SMAN 7 37 1317 55 G N A MS 100%
69
C. Implementasi Sistem
User interface yang digunakan untuk proses interaksi antara user
dan sistem, user dalam hal ini adalah admin dan pimpinan. Berikut adalah
user interface mulai dari halaman utama, input, proses mining algoritma
dan output.
1. Halaman Utama
Gambar 4.6 merupakan tampilan halaman utama dari
aplikasi prediksi tingkat kelulusan berdasarkan karakteristik
sekolah.
Gambar 4.6. Halaman Utama
70
2. Penginputan Data
a. Input Data Training
Penginputan data sekolah dan tingkat kelulusan pada tahun
sebelumnya yang dilakukan oleh admin.
Gambar 4.7. Form Input Data sekolah
b. Input Data Testing
Penginputan data testing, yaitu data karakteristik sekolah
untuk menghasilkan klasifikasi tingkat kelulusan,
penginputan ini dapat dilakukan oleh admin dan pimpinan.
71
Gambar 4.8. Form Input Data Testing
3. Proses Algoritma KNN, ALgoritma C4.5 dan Gabungan
Algoritma KNNC4.5
a. Proses KNN
Merupakan proses menggunakan algortima, khusus untuk
data kuantitatif. Proses menginput nilai k.
Gambar 4.9. Form Proses KNN
72
b. Proses C4.5
Merupakan proses perhitungan dengan algoritma C4.5 untuk
data kualitatif dan membentuk akar dan sub akar yang
membentuk aturan dalam C4.5
Gambar 4.10. Form proses C4.5
c. Proses ALgoritma KNNC4.5
Merupakan proses gabungan dari output yang dihasilkan
dari proses algoritma KNN dan algoritma C4.5 yaitu
klasifikasi tingkat kelulusan dan membentuk aturan yang
akan menghasilkan factor-faktor yang mempengaruhi tingkat
kelulusan.
73
Gambar 4.11. Form proses KNNC4.5
4. Output Tingkat Kelulusan
Output tingkat kelulusan adalah hasil inputan data sekolah
melalui data testing yang dan telah diproses dengan algoritma
KNNC4.5, yaitu tingkat kelulusan dan factor-faktor yang
mempengaruhinya.. Berikut tampilan form ditunjukkan pada
gambar 4.12.
Gambar 4.12. Form Output Tingkat Kelulusan
74
D. Pengujian Sistem
Metode pengujian yang digunakan pada penelitian ini terdiri dari
Pengujian Black Box dan Pengujian akurasi. Pada pengujian fungsional
akan menggunakan metode pengujian Black box.. Metode pengujian
Black Box memfokuskan pada keperluan fungsional dari perangkat lunak.
Oleh karena itu, pengujian dengan metode Black Box memungkinkan
untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-
syarat fungsional suatu program. Pengujian akurasi merupakan pengujian
keakuratan dari system dan hasil prediksi yang dihasilkan dengan data
yang sesungguhnya.
1. Pengujian Black Box
Pada pengujian fungsional ini penulis menggunakan metode
pengujian Black box. Yaitu yang berfokus pada persyaratan atau
kebutuhan fungsional perangkat lunak yang dibuat. Adapun hasil dari
pengujian digambarkan seperti tabel 4.13.
75
Tabel 4.13. Tabel Pengujian Black Box
Nama
Skenario Hasil yang Hasil
No form
Pengujian diharapkan pengujian
yang diuji
Ketika memasukkan
data training berupa
isian pada text box
dari karakteristik
Form
Tombol sekolah kemudian [ ] Diterima
Input Data
simpan menekan tombol [ ] Ditolak
Training
simpan, maka data
tersebut akan
tersimpan dalam
database.
Screen Shoot
Setelah menekan tombol simpan
1.
Hasil penyimpanan pada form informasi data testing
76
Ketika tombol
proses dan
inputkan nilai k dan
mengklik tombol
proses maka akan
Form
Tombol ditampilkan form [ ] Diterima
2. Proses
Proses proses knn dan [ ] Ditolak
KNN
kemudian disimpan
dan akan
dilanjutkan untuk
proses gabungan
KNNC4.5
Screen Shoot
Setelah menekan tombol Proses
Lalu tekan tombol keluar untuk tampilan ouput proses KNN
77
Ketika menekan
tombol Proses C4.5,
maka ditampilkan
akar dan sub akar
Form Tombol
dari data testing [ ] Diterima
Proses Proses
yang kemudian [ ] Ditolak
C4.5 C4.5
akan disimpan
didatabase untuk
menghasilkan
output dari c4.5
Screen Shoot
Sebelum menekan tombol proses
3.
Setelah Menekan tombol proses
78
2. Pengujian Akurasi
Pada Pengujian klasifikasi digunajan data sekokah yang terdiri dari
146 record. Data yang digunakan dalam system yaitu data sekolah
berdasarkan karakteristik sekolah yang dibagi menjadi dua kelas
yaitu kelas kelulusan 100% dan kelulusan <100%. Pada data ini
atribut yang digunakan antara lain yaitu jumlah siswa, jumlah
rombel, jumlah guru, laboratorium, status, ruang praktek dan
perpustakaan.
a. Pengujian untuk mengetahui pengaruh nilai k terhadap
tingkat akurasi.
Pengujian yang pertama dilakukan untuk mengetahui pengatuh
nilai k terhadap tingkat akurasi. Sedangkan pengujian yang kedua
dilakukan untuk mengetahui pengaruh jumlah record terhadap
tingkat akurasi. Pengujian terhadap nilai k, Hasil pengujian
terhadap nilai k, dengan inputan nilai k yang berbeda-beda pada
141 record/data training yaitu Nilai k dimulai dari k=1, k=3, dan
k=7. Untuk lebih jelasnya dapat dilihat pada Tabel 4.13.
79
Tabel 4.14. Tabel Hasil Pengujian Terhadap Nilai k
Prediksi Kelulusan Data Real

No Sekolah
k=1 k=3 k=7 Kelulusan
1 SMAN 2 Dolo 100% 100% 100% <100%

2 SMA ATmajaya <100% <100% 100% <100%
3 SMAN 1 Lore Utara <100% <100% 100% <100%
4 SMAN 1 Palu <100% <100% <100% <100%
5 SMAN 1 Ampana <100% <100% <100% <100%
6 SMAN 1 Menui 100% 100% 100% 100%
7 SMA Berdikari Palu 100% <100% 100% 100%
8 SMAN 4 Palu <100% <100% 100% <100%

9 SMAN 4 Palu 100% 100% 100% 100%
10 SMA 1 Bungku <100% <100% <100% <100%
11 SMAN 2 Poso 100% 100% 100% <100%
12 SMAN 2 Poso 100% 100% 100% 100%
13 SMAN 2 Palu 100% 100% 100% 100%
14 SMA GKST Palu <100% <100% <100% 100%
15 SMAN PGRI 1 <100% <100% <100% <100%
16 SMAN 1 Palolo 100% 100% 100% 100%
Dari tabel 4.14, dapat dilihat bahwa pengujian terhadap nilai k
untuk 16 data training dan data kelulusan sekolah, hasil klasifikasi
kelulusan pada masing-masing nilai k berbeda-beda, hal ini karena
nilai validasi juga berbeda yang akan mempengaruhi nilai ecludian
dan nilai weight voting. nilai k= 1 mempunyai hasil prediksi yang
lebih akurat dengan data asli dibandingkan dengan nilai k = 3 dan
nilai k=7. Perhatikan tingkat kelulusan dari masing-masing sekolah
pada setiap inputan nilai k, tingkat kelulusan yang tidak sesuai
dengan data asli adalah ditandai dengan font lebih tebal atau bold,
perhatikan tabel 4.13 untuk k=1 ada 3 sekolah yang prediksinya
80
tidak sama dengan data asli, k=3 ada 4 sekolah dan k=7 ada 5
sekolah sehingga dapat dikatakan untuk k=1 lebih akurat
dibandingkan yang lain.
Pada tahap pengujian selanjutnya terdapat 3 record yaitu 50,
70 dan 141 dengan k perulangan 1, 3 dan 7. Untuk pengujian
pengaruh nilai k dapat diketahui bahwa akurasi makasimum data
sekolah terdapat pada k =1. Tetapi pada pengaruh k pada akurasi
minimum tidak sama pada tiap recordnya.
Hasil pengujian yang didapat untuk mengetahui pengaruh
nilai k terhadap tingkat akurasi yaitu, semakin bertambahnya
jumlah nilai k maka akurasi yang didapatkan semakin menurun.
Untuk akurasi yang berhubungan dengan jumlah k, dari penelitian
yang ada akurasi maksimumnya cenderung pada k=1, karena nilai
k yang kecil akan mengurangi noise. Hal ini dikarenakan adanya
kelas yang yang mendominasi data set tersebut, sehingga untuk
data yang diambil pada perhitungan memiliki kelas yang sama.
Kemudian akurasi k tertinggi cendurung pada k=1, hal ini
dikarenakan tetangga yang dibandingkan hanya satu tetangga saja.
Untuk data yang berdekatan lebih sering memiliki kelas yang sama,
sehingga mempengaruhi perhitungan validitasnya.
81
b. Pengujian untuk mengetahui pengaruh jumlah data latih
(record) terhadap tingkat akurasi
Untuk pengujian pengaruh jumlah record sendiri
pengujiannya diambil dari record 50, 70 dan 141 dengan input k=1.
Untuk lebih jelasnya dapat pada Gambar 4.13. Pengaruh jumlah
nilai maksimum tiap record terhadap tingkat akurasi.
tingkat akurasi
100
Akurasi %
50 tingkat
akurasi
0
50 70 100 141
Jumlah record
Gambar 4.13. Pengaruh jumlah nilai maksimum tiap record

terhadap tingkat akurasi.
Hasil pengujian jumlah nilai makasimum record terhadap
tingkat akurasi didapatkan hasil berupa kenaikan akurasi pada
pertambahan jumlah record data sekolah. Peningkatan jumlah data
latih turut disetai dengan peningkatan nilai akurasi. Hal ini
dikarenakan dengan meningkatkan jumlah data latih turut disertai
dengan kenaikan tingkat akurasi data, sehingga semakin
banyaknya data latih maka kemungkinan semakin banyaknya jarak
record yang mendekati kelas data prediksi.
82
Pengujian akurasi merupakan pengujian keakuratan dari
system dan hasil prediksi yang dihasilkan dengan data yang
sesungguhnya. Pengujian akurasi dilakukan pada nilai k=1 dan
dengan 16 data testing dan pada record 141 data training. Untuk
lebih jelasnya dapat dilihat pada tabel 4.15
Tabel 4.15. Tabel Pengujian Akurasi untuk k=1
Prediksi
No Data Asli Prediksi benar
(k=1)
1 100% <100% 0
2 <100% <100% 1
3 <100% <100% 1
4 <100% <100% 1
5 <100% <100% 1
6 100% 100% 1
7 100% 100% 1
8 <100% <100% 1
9 100% 100% 1
10 <100% <100% 1
11 100% <100% 0
12 100% 100% 1
13 100% 100% 1
14 <100% 100% 0
15 <100% <100% 1
16 100% 100% 1
Jumlah prediksi benar 13
Dari tabel 4.15, dapat dilihat bahwa jumlah prediksi benar
adalah 13 dari 16 data testing yang diuji dengan inputan nilai
k = 1. Jika prediksi sesuai dengan data asli atau benar maka
nilainya adalah 1 dan jika prediksi tidak sesuai dengan data
asli atau salah maka nilainya adalah 0. Dari tabel 4.14 dapat
83
dihitung tingkat akurasi dari algoritma KNNC4.5 sehingga
dapat digunakan sebagai acuan untuk memprediksi tingkat
kelulusan pada tahun berikutnya. Berikut hasil perhitungan
akurasi berdasarkan persamaan 2.7.
Jumlah prediksi benar

X 100%
Akurasi =
Jumlah total prediksi
13
= x 100%
16
= 0.81 x 100%
= 81 %
Jumlah data yang diuji adalah 16 dengan jumlah kesalahan
adalah 3 dengan jumlah record atau data training yaitu 141 maka
hasil Akurasi yang diperoleh adalah 81% sehingga dapat dikatakan
bahwa algoritma yang digunakan untuk memprediksi tingkat
kelulusan adalah akurat.
84
BAB V
PENUTUP
A. KESIMPULAN
Berdasarkan hasil penelitian yang telah dilakukan, maka dapat ditarik
beberapa kesimpulan sebagai berikut:
1. Algoritma KNNC4.5 dapat diimplementasikan untuk klasifikasi data
sekolah yang menghasilkan prediksi tingkat kelulusan dan factor-faktor
yang mempengaruhi tingkat kelulusan. Tingkat akurasi pada metode
algoritma KNNC4.5 dipengaruhi beberapa factor yaitu nilai k dan jumlah
data latih. Nilai k yang terlalu besar menghasilkan akurasi yang kurang
baik karena berpengaruh terjadinya noise dan jumlah data latih yang
besar menghasilkan nilai akurasi yang tinggi. Jumlah dan nilai atribut
juga akan mempengaruhi tingkat akurasi.
2. Berdasarkan hasil analisa dan pengujian maka data kuantitatif
merupakan factor utama dan data kualitatif merupakan factor pendukung
dalam proses klasifikasi tingkat kelulusan berdasarkan karakteristik
sekolah.
85
B. SARAN
Berdasarkan hasil penelitian yang telah dilakukan, maka dapat
disarankan untuk pengembangan selanjutnya saran yang bisa diberikan
penulis adalah diharapkan pada data training menggunakan variasi data yang
lebih beragam dan tidak dominan di satu kelas.
86
DAFTAR PUSTAKA
[1] Petunjuk Teknis (Juknis) Pelaksanaan Peraturan Pemerintah No. 19

Tahun 2005, Ps. November 2005
[2] Kusrini, Emha T. Luthfi. “Algoritma Data Mining”. Penerbit ANDI, 2009
[3] Budi Santosa, “Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis”. Penerbit 2007.
[4] Donald E. Knuth.1999. “The Art of Computer Programming (TAOCP)”.

Computer Science Department Stanford University.California
[5] Kusnawi, 2007. “Pengantar Solusi Data Mining”. Seminar Nasional

Teknologi 2007 (SNT 2007).Yogyakarta.
[6] Pramudiono, Iko. 2003. “Pengantar Data Mining: Menambang Permata

Pengetahuan di Gunung Data”. Ilmu Komputer.Com.
[7] Y. Agusta (2007), “K-Means – Penerapan, Permasalahan dan Metode

Terkait” (in Indonesian), Jurnal Sistem dan Informatika, Vol. 1 (Pebruari
2007), 47-60.
[8] Hamid Parvin, Hosein Alizadeh and Behrouz Minaei-Bidgoli.2008.

“MKNN: Modified K-Nearest Neighbor”. Proceedings of the World
Congress on Engineering and Computer Science.San Francisco.
[9] Sarkar, Manish dan Leong, Tze-Yun. 2000. “Application of K-Nearest

Neighbors Algorithm on Breast Cancer Diagnosis Problem”. The
National University of Singapore. Singapore.
[10] Iin Ernawati. “Prediksi Status Keaktifan Studi Mahasiswa dengan

algortima C5.0 dan K-Nearest Neighbor”. Pascasarjana Institut
Pertanian Bogor, 2008.
87
[11] Imron Rosyidi, Mochammad Hariadi, I Ketut Eddy Purnama. “Data
Mining Kemampuan Siswa berbasis NeuroFuzzy”. Jurnal Teknik Elektro,
FTI, Institut Teknologi Sepuluh November Surabaya.
[12] Kusrini, Sri Hartati, Retantyo Wardoyo, Agus Harjoko “Perbandingan

metode Nearest Neighbor dan algoritma C45 untuk menganalisis
kemungkinan pengunduran diri calon mahasiswa di STMIK AMIKOM
Yogyakarta”, Yogyakarta, Jurnal DASI Vol. 10 No. 1 Maret 2009, ISSN:
1411-3201
[13] “Penerapan Algoritma Modified K-Nearest Neighbor Mknn Untuk

Mengklasifikasi Letak Protein pada Bakteri E-Coli”, 2010.
[14] Roger S. Pressman. “Rekayasa Perangkat Lunak Pendekatan Praktisi

(buku satu)”. Penerbit Andi Yogyakarta. 2002.
[15] Yuni Sugiarti. “Analisis dan Perancangan UML (Unified Modelling

Language) Generated VB.6”. Penerbit Graha Ilmu Yogyakarta. 2013.
88

Analisis Hasil Ujian Nasional Berdasarkan

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Hasil Ujian Nasional Berdasarkan

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS HASIL UJIAN NASIONAL BERDASARKAN

KARAKTERISTIK SEKOLAH DENGAN

ANALYSIS OF NATIONAL EXAMINATION RESULTS

ANALYSIS OF NATIONAL EXAMINATION RESULTS

Yang bertanda tangan di bawah ini :

Nama : Dessy Santi

Nomor Pokok : P2700211458

Program Studi : Teknik Elektro

Konsentrasi : Teknik Informatika

merupakan hasil karya sendiri, bukan merupakan pengambilalihan tulisan atau

sanksi atas perbuatan tersebut.

Makassar, Juli 2013

rahmatnya sehingga penulis dapat menyelesaikan Tesis dengan judul,

“ANALISIS HASIL UJIAN NASIONAL BERDASARKAN

KARAKTERISTIK SEKOLAH DENGAN ALGORITMA KNNC4.5 ”.

Penulis menyadari banyaknya kendala dalam penyusunan tesis ini,

namun demikian penulis dapat menyelesaikannya berkat bantuan dari

kesempatan ini perkenankan penulis menyampaikan ucapan terima kasih

dan penghargaan setinggi - tingginya kepada :

Mama Josina Bugid yang membesarkan dan mendidik penulis serta

senantiasa mendoakan dengan tulus ikhlas dan senantiasa

mendukung sehingga. Serta tak lupa kepada saudaraku Sylviana

jaeng dan Theresia sestiawati Jaeng, Yanto dan ponakanku tercinta

Aldo yang menjadi salah satu motivasi penulis dalam menyelesaikan

2. Prof.Dr.Ir.H. Nadjamuddin Harun, MS, sebagai Ketua Komisi

Penasihat dan Dr.Adnan,ST.,MT sebagai anggota Komisi Penasihat

dan pelaksanaan penelitian hingga penulisan tesis

M.Sc.,M.Math., Ph.D, dan Dr. Armin Lawi, S.Si., M.Eng yang

telah memberikan saran, kritik dan pertimbangan dalam

penyempurnaan Tesis ini.

4. Prof.Dr.Ir.Salama Manjang,MT selaku ketua Program Studi S2

Teknik Elektro Universitas Hasanuddin.

5. Kepada Neneku tercinta yang selalu perhatian serta medoakan

penulis dan semua keluarga dan teman-teman serta kerabat di

Makassar dan Palu yang penulis tidak dapat menyebutkan satu-

persatu yang selalu membantu dan mendukung dalam masa

pendidikan dan penyelesaian Tesis.

6. Kepada semua dosen-dosen Universitas Hasanuddin, yang telah

memberikan Ilmunya kepada penulis tanpa pamrih, serta staf pegawai

yang sudah banyak membantu secara adminitrasi hingga selesainya

7. Teman-teman PascaMelekIT 2011 something special dalam pencarian

tuntutan keilmuan di tengah kebersamaan yang tak terhingga dan tak

Makassar, Juli 2013

Kebijakan pemerintah untuk memeberikan bantuan kepada sekolah sangat berpengaruh

Kata Kunci : karakteristik, klasifikasi Nearest Neighbor (KNN), algoritma C4.5

Dessy Santi, Analysis Of The Results Of National Examinations Algorithm Based On

Keywords: Characteristics, Nearest Neighbor Classification (KNN), C4.5 Algorithm

HALAMAN JUDUL ............................................................................. i

HALAMAN PENGESAHAN ................................................................ iii

ABSTRAK .......................................................................................... vii

ABSTRACT ........................................................................................ viii

DAFTAR ISI ....................................................................................... ix

DAFTAR TABEL ................................................................................ xii

DAFTAR GAMBAR ............................................................................ xiv

Bab I PENDAHULUAN .....................................................................

A. Latar Belakang Masalah .......................................................... 1

B. Rumusan Masalah .................................................................. 3

E. Batasan Masalah .................................................................... 4

BAB II. TINJAUAN PUSTAKA

A. Ujian Nasional SMA ................................................................ 5

B. Karakteristik Sekolah …………………………………………… 6

C. Konsep Data Mining ……………………………………………. . 8

G. Klasifikasi Nearest Neighbor (KNN) ....................................... 12