Anda di halaman 1dari 107

ANALISIS HASIL UJIAN NASIONAL BERDASARKAN

KARAKTERISTIK SEKOLAH DENGAN


ALGORITMA KNNC4.5

ANALYSIS OF NATIONAL EXAMINATION RESULTS


BASED ON SCHOOL CHARACTERISTICS
WITH KNNC4.5 ALGORITHM

DESSY SANTI

PROGRAM PASCASARJANA

UNIVERSITAS HASANUDDIN

MAKASSAR

2013

i
ANALISIS HASIL UJIAN NASIONAL BERDASARKAN
KARAKTERISTIK SEKOLAH DENGAN
ALGORITMA KNNC4.5

ANALYSIS OF NATIONAL EXAMINATION RESULTS


BASED ON SCHOOL CHARACTERISTICS
WITH KNNC4.5 ALGORITHM

DESSY SANTI

PROGRAM PASCASARJANA

UNIVERSITAS HASANUDDIN

MAKASSAR

2013

i
ii
PERNYATAAN KEASLIAN TESIS

Yang bertanda tangan di bawah ini :

Nama : Dessy Santi

Nomor Pokok : P2700211458

Program Studi : Teknik Elektro

Konsentrasi : Teknik Informatika

Menyatakan dengan sebenarnya bahwa tesis yang saya tulis ini benar-benar

merupakan hasil karya sendiri, bukan merupakan pengambilalihan tulisan atau

pemikiran orang lain. Apabila dikemudian hari terbukti atau dapat dibuktikan bahwa

sebagian atau keseluruhan tesis ini hasil karya orang lain, saya bersedia menerima

sanksi atas perbuatan tersebut.

Makassar, Juli 2013

Yang menyatakan,

Dessy Santi

iv
KATA PENGANTAR

Puji Syukur kepada ALLAH Bapa yang Maha Kuasa, Putranya Yesus

Kristus dan Roh Kudus serta Bunda Maria yang telah memberikan

rahmatnya sehingga penulis dapat menyelesaikan Tesis dengan judul,

“ANALISIS HASIL UJIAN NASIONAL BERDASARKAN

KARAKTERISTIK SEKOLAH DENGAN ALGORITMA KNNC4.5 ”.

Penulis menyadari banyaknya kendala dalam penyusunan tesis ini,

namun demikian penulis dapat menyelesaikannya berkat bantuan dari

berbagai pihak baik secara moril maupun materil. Karena itu dalam

kesempatan ini perkenankan penulis menyampaikan ucapan terima kasih

dan penghargaan setinggi - tingginya kepada :

1. Kedua orang tua tercinta, bapak Prof. Dr. Maxinus Jaeng, M.Pd,

Mama Josina Bugid yang membesarkan dan mendidik penulis serta

senantiasa mendoakan dengan tulus ikhlas dan senantiasa

mendukung sehingga. Serta tak lupa kepada saudaraku Sylviana

jaeng dan Theresia sestiawati Jaeng, Yanto dan ponakanku tercinta

Aldo yang menjadi salah satu motivasi penulis dalam menyelesaikan

tesis ini.

2. Prof.Dr.Ir.H. Nadjamuddin Harun, MS, sebagai Ketua Komisi

Penasihat dan Dr.Adnan,ST.,MT sebagai anggota Komisi Penasihat

atas bantuan dan bimbingan yang telah diberikan mulai dari proposal

dan pelaksanaan penelitian hingga penulisan tesis

v
3. Tim Penguji Dr .Ir. Zahir Zainuddin,M.Sc, Drs. Suarga,

M.Sc.,M.Math., Ph.D, dan Dr. Armin Lawi, S.Si., M.Eng yang

telah memberikan saran, kritik dan pertimbangan dalam

penyempurnaan Tesis ini.

4. Prof.Dr.Ir.Salama Manjang,MT selaku ketua Program Studi S2

Teknik Elektro Universitas Hasanuddin.

5. Kepada Neneku tercinta yang selalu perhatian serta medoakan

penulis dan semua keluarga dan teman-teman serta kerabat di

Makassar dan Palu yang penulis tidak dapat menyebutkan satu-

persatu yang selalu membantu dan mendukung dalam masa

pendidikan dan penyelesaian Tesis.

6. Kepada semua dosen-dosen Universitas Hasanuddin, yang telah

memberikan Ilmunya kepada penulis tanpa pamrih, serta staf pegawai

yang sudah banyak membantu secara adminitrasi hingga selesainya

tugas akhir.

7. Teman-teman PascaMelekIT 2011 something special dalam pencarian

tuntutan keilmuan di tengah kebersamaan yang tak terhingga dan tak

terlupakan.

Makassar, Juli 2013

Dessy Santi

vi
vii
Abstrak

Dessy Santi, Analisis Hasil Ujian Nasional Berdasarkan Karakteristik Sekolah dengan
Algoritma KNNC4.5, dibimbing oleh : Nadjamuddin Harun dan Adnan

Kebijakan pemerintah untuk memeberikan bantuan kepada sekolah sangat berpengaruh


terhadap tingkat kelulusan hasil ujian nasional setiap sekolah maka pemerintah perlu
memberikan bantuan dengan tepat bagi SMA Negeri/Swasta yang membutuhkan perbaikan
karakteristik sekolah.
Penelitian ini bertujuan (1) mengetahui gambaran klasifikasi tingkat kelulusan
berdasarkan karakteristim sekolah (2) Menguji akurasi algoritma KNNC4.5 terhadap banyak
data tes dan data training. Penelitian ini merupakan penelitan historis yang bersifat aplikatif
sehingga dilakukan dengan metode studi pustaka, metode pengumpulan data dan pembuatan
aplikasi berdasarkan hasil analisa dari metode KNNC4.5 dengan ,membagi atribut berdasarkan
karakteristik sekolah yaitu data yang bernilai kuantitatif diproses dengan algoritma KNN dan
data kualitatif diproses dengan algoritma C4.5 kemudian hasil kedua algoritma dikombinasi
menjadi algoritma KNNC4.
Penelitian ini menghasilkan Kombinasi algoritma KNN dan algoritma C4.5 menjadi
algoritma KNNC4.5 yang menghasilkan prediksi tingkat kelulusan dengan kelas 100% dan
<100% dan factor-faktor apa saja yang mempengaruhi tingkat kelulusan yang mempunyai nilai
akurasi 81% dengan inputan nilai k untuk proses KNN untuk nilai k yang semakin besar maka
akurasi akan menurun begitu pula sebaliknya. Aturan kelulusan berdasarkan pohon keputusan
dari proses C4.5. Pada akhirnya hasil penelitian ini mampu memberikan kontribusi pada
pemerintah untuk kesuksesan ujian nasional sehingga meningkatnya mutu dan, kualitas
pendidikan.

Kata Kunci : karakteristik, klasifikasi Nearest Neighbor (KNN), algoritma C4.5


Abstract

Dessy Santi, Analysis Of The Results Of National Examinations Algorithm Based On


Characteristics Of School With KnnC4.5, Author by : Nadjamuddin Harun and Adnan

The government's policy for giving out aid to schools is influential on the national
graduation rate of each school examination results, the government needs to provide the
appropriate assistance to high schools / private schools in need of improvement characteristics.
This study aims to (1) determine the classification description based karakteristim school
graduation rates (2) Test the accuracy of the algorithm KNNC4.5 many test data and training
data. This study is a historical research that is applicable to do with library research methods,
data collection methods and the creation of applications based on the analysis of the KNNC4.5
method, dividing the attributes based on characteristics of the school that is valuable
quantitative data calculated by the KNN algorithm and qualitative data calculated by C4.5
algorithms then combine the results of these two algorithms into algorithms KNNC4.
The Study will generate Combine of KNN algorithm and C4.5 algorithm to become
KNNC4.5 algorithm and generate predictions graduation rate of 100% and <100%, and the
factors that influence graduation rates that have value 81% accuracy with input values of k
greater the accuracy will not get better and graduation rule based decision tree of the C4 .5.
eventually be able to contribute to the success of the government for the national exam and thus
increase the quality, the quality of education.

Keywords: Characteristics, Nearest Neighbor Classification (KNN), C4.5 Algorithm


DAFTAR ISI

halaman

HALAMAN JUDUL ............................................................................. i

HALAMAN PENGESAHAN ................................................................ iii

HALAMAN PERNYATAAN……………………………………………… iv

KATA PENGANTAR……………………………………………………... v

ABSTRAK .......................................................................................... vii

ABSTRACT ........................................................................................ viii

DAFTAR ISI ....................................................................................... ix

DAFTAR TABEL ................................................................................ xii

DAFTAR GAMBAR ............................................................................ xiv

Bab I PENDAHULUAN .....................................................................

A. Latar Belakang Masalah .......................................................... 1

B. Rumusan Masalah .................................................................. 3

C. Tujuan Penelitian..................................................................... 3

D. Manfaat Penelitian................................................................... 4

E. Batasan Masalah .................................................................... 4

BAB II. TINJAUAN PUSTAKA

A. Ujian Nasional SMA ................................................................ 5

B. Karakteristik Sekolah …………………………………………… 6

C. Konsep Data Mining ……………………………………………. . 8


D. Algoritma ................................................................................ 9

E. Data ........................................................................................ 10

F. Klasifikasi ............................................................................... 11

G. Klasifikasi Nearest Neighbor (KNN) ....................................... 12

1. Proses K-Nearest Neighbor .............................................. 13

2. Proses Modified KNN ........................................................ 14

H. Algoritma C4.5 ....................................................................... 17

I. Perhitungan Akurasi ................................................................ 20

J. Penelitian Yang Serupa .......................................................... 20

K. Kerangka Pikir ........................................................................ 23

BAB III. METODE PENELITIAN

A. Waktu dan Lokasi Penelitian ................................................... 24

B. Jenis Penelitian ....................................................................... 24

C. Alat dan Bahan ........................................................................ 24

D. Tahapan Rancangan Penelitian ............................................. 25

1. Analisis Kebutuhan Sistem ............................................... 26

2. Perancangan Sistem ......................................................... 26

3. Deskripsi Data ................................................................... 33

4. Perancangan Proses ........................................................ 35

E. Metode Pengujian Sistem ...................................................... 46

BAB IV. HASIL PENELITIAN DAN PEMBAHASAN


A. Gambaran Umum Sistem ....................................................... 47

B. Simulasi Algoritma ................................................................ 49

1. Algoritma K-Nearest Neighbor .......................................... 49

2. Algoritma C4.5 .................................................................. 57

3. Algoritma KNNC4.5 ........................................................... 67

C. Implementasi Sistem .............................................................. 70

D. Pengujian Sistem ................................................................... 75

BAB V. PENUTUP

A. Kesimpulan ............................................................................. 85

B. Saran....................................................................................... 86

Daftar Pustaka

Lampiran
DAFTAR GAMBAR

halaman

GAMBAR 2.1 PROSES KNOWLEDGE DISCOVERY DATA ...................... 10

GAMBAR 3.1 TAHAPAN RANCANGAN PENELITIAN ............................... 25

GAMBAR 3.2. USE CASE DIAGRAM ......................................................... 27

GAMBAR 3.3. ACTIVITY DIAGRAM INPUT DATA SEKOLAH ................... 29

GAMBAR 3.4. ACTIVITY DIAGRAM PROSES ALGORITMA KNN ............. 30

GAMBAR 3.5. ACTIVITY DIAGRAM PROSES C4.5 ................................... 31

GAMBAR 3.6. CLASS DIAGRAM ............................................................... 32

GAMBAR 3.7. FLOWCHART SISTEM KESELURUHAN ............................ 36

GAMBAR 3.8. FLOWCHART PROSES KLASIFIKASI DATA .................... 38

GAMBAR 3.9. FLOWCHART MENGHITUNG VALIDITAS ......................... 40

GAMBAR 3.10. FLOWCHART MENGHITUNG EUCLIDEAN...................... 42

GAMBAR 3.11 FLOWCHART MENGHITUNG WEIGH VOTING ................ 43

GAMBAR 3.12. FLOWCHART KLASIFIKASI ALGORITMA C4.5 .............. 45

GAMBAR 4.1. GAMBARAN UMUM SISTEM .............................................. 47

GAMBAR 4.2. PROSES KLASIFIKASI DATA ............................................. 48

GAMBAR 4.3. P0HON KEPUTUSAN PERHITUNGAN LEVEL 0 ................ 60

GAMBAR 4.4. P0HON KEPUTUSAN PERHITUNGAN LEVEL 1 ................ 62

GAMBAR 4.5. P0HON KEPUTUSAN PERHITUNGAN LEVEL 1 ................ 65

GAMBAR 4.6 HALAMAN UTAMA ............................................................... 70

GAMBAR 4.7. FORM INPUT DATA SEKOLAH ......................................... 71


GAMBAR 4.8. FORM INPUT DATA TESTING .......................................... 72

GAMBAR 4.9. FORM PROSES KNN ......................................................... 72

GAMBAR 4.10. FORM PROSES C4.5 ....................................................... 73

GAMBAR 4.11. FORM PROSES KNN C4.5 ............................................... 74

GAMBAR 4.12. FORM OUTPUT TINGKAT KELULUSAN .......................... 74

GAMBAR 4.13. GRAFIK TINGKAT AKURASI ............................................ 82


DAFTAR TABEL

halaman

TABEL 4.1 TABEL DATA TESTING DAN DATA TRAINING ....................... 50

TABEL 4.2 TABEL CARA HITUNG VALIDITAS .......................................... 51

TABEL 4.3. TABEL HASIL PERHITUNGAN VALIDITAS ............................ 53

TABEL 4.4. TABEL HASIL PERHITUNGAN EUCLIDEAN .......................... 54

TABEL 4.5. TABEL HASIL PERHITUNGAN WEIGHT VOTING.................. 55

TABEL 4.6. TABEL PENETUAN KELAS .................................................... 56

TABEL 4.7. TABEL KASUS PENENTUAN KELULUSAN ........................... 57

TABEL 4.8. TABEL PERHITUNGAN LEVEL 0 ........................................... 59

TABEL 4.9. TABEL PERHITUNGAN LEVEL 1 ........................................... 61

TABEL 4.10. TABEL PERHITUNGAN LEVEL 2.......................................... 63

TABEL 4.11 TABEL OUTPUT KOMBINASI ALGORITMA KNNC4.5 ......... 68

TABEL 4.12 TABEL PREDIKSI PADA SMA NEGERI 2 PALU .................... 69

TABEL 4.13. TABEL HASIL PENGUJIAN BALCK BOX .............................. 75

TABEL 4.14. TABEL HASIL PENGUJIAN TEHADAP NILAI K .................... 80

TABEL 4.15. TABEL PENGUJIAN AKURASI ............................................ 83


BAB I

PENDAHULUAN

A. Latar Belakang

Hasil ujian Nasional sebagai peta dan pintu masuk perbaikan

kualitas pendidikan melalui intervensi kebijakan ditingkat satuan

pendidikan. Tidak hanya mata pelajaran yang diujikan. Peta = f

(kewilayahan , mata pelajaran, sumber daya pendidikan). Menurut

peraturan pemerintah No. 19 tahun 2005. Ps. 68, hasil ujian negara

digunakan sebagai salah satu pertimbangan untuk :

1. Pemetaan mutu program dan atau satuan pendidikan.

2. Dasar seleksi masuk jenjang pendidikan berikutnya.

3. Penentuan kelulusan peserta didik dari program/ satuan pendidikan

4. Pembinaan dan pemberi bantuan kepada satuan pendidikan dalam

upaya untu meningkatkan mutu pendidikan[1].

Pemerintah sebagai pengambil kebijakan, harus arif bijaksana serta

memberikan rasa aman kepada para peserta didik, bahwa mereka bisa

lulus Ujian Nasional. Hal ini bisa diwujudkan, dengan membuat semua

sekolah di negeri ini menjadi layak pakai dan memenuhi standar sebagai

sebuah sekolah. Sangat tidak mungkin bila pemerintah mendapatkan hasil

1
yang baik dalam Ujian Nasional, bila pemerintah sendiri belum

memberikan kualitas pendidikan yang layak. Hal ini mulai dari sarana

prasarana hingga pemerataan guru yang berkualitas.

Selama ini, selalu terjadi kesenjangan. Masih banyak sekolah yang belum

bisa disebut sebagai sebuah sekolah. Ini dibuktikan dengan aneka

temuan, bahwa banyak sekolah yang tidak memenuhi standar. Data

Kementerian Pendidikan dan Kebudayaan (Kemendikbud) menyebutkan,

ada sekitar 161 ribu sekolah rusak, 45% dari gedung sekolah rusak

tersebut mengalami rusak berat. Sekolah–sekolah seperti ini, pada

umumnya berada di daerah–daerah terpencil.

Oleh karena kebijakan pemerintah untuk memberikan bantuan

kepada sekolah sangat berpengaruh terhadap tingkat kelulusan maka

pemerintah harus mempunyai acuan dalam memberikan intervensi

kebijakan tersebut. Salah satu cara pemerintah dalam mengambil

keputusan adalah melakukan analisis hasil ujian nasional berdasarkan

karakteristik sekolah dengan menerapkan konsep penalaran berbasis

kasus (case based reasoning). Konsep ini pada dasarnya adalah

membandingkan kasus yang terjadi dengan database kasus yang ada,

untuk mencari solusi kasus baru dengan menirukan solusi yang diambil

dari kasus sebelumnya. Model klasifikasi yang digunakan adalah dengan

menggunakan metode algoritma Klasifikasi-Nearest Neighbor (K-NN) dan

Algoritma C4.5 untuk memperoleh akurasi yang tepat.

2
Dengan demikian diharapkan hasil penelitian ini bisa menjadi salah

satu bahan acuan pemerintah dalam pengambilan keputusan untuk

memberikan kebijkan dan bantuan pada sekolah-sekolah yang tingkat

kelulusannya rendah, dalam rangka memperbaiki mutu dan kwalitas

pendidikan yang berpengaruh pada tingkat kelulusan.

B. Rumusan Masalah

Bagaimana mengetahui gambaran klasifikasi tingkat kelulusan

setiap SMU Negeri/Swasta berdasarkan karakteristik Sekolah.

C. Tujuan Penelitian

1. Untuk mengetahui gambaran klasifikasi tingkat kelulusan setiap

SMU Negeri/Swasta berdasarkan karakteristik Sekolah sehingga

adanya perbaikan pada karakteristik sekolah.

2. Pengujian akurasi algoritma KNN C4.5 terhadap banyak data tes

dan hasil prediksi tingkat kelulusan yang akurat dengan komputasi

yang cepat.

3
D. Manfaat Penelitian

1. Dapat membantu pemerintah menentukan sekolah yang tepat

untuk memperoleh bantuan dan intervensi kebijakan.

2. Meningkatkan mutu dan perbaikan kualitas pendidikan.

3. Metode Algoritma KNN C4.5 dapat digunakan dalam menganalisa

dan memprediksi kasus yang berbeda seperti kesehatan dan

pendidikan.

E. Batasan Masalah

Agar dapat mencapai sasaran dan tujuan yang diharapkan maka

permasalahan dibatasi pada :

1. Prediksi tingkat kelulusan hanya berdasarkan karakteristik sekolah

2. Karakteristik sekolah yang dimaksud adalah seluruh SMA swasta

maupun negeri pada propinsi Sulawesi Tengah.

3. Analisis pola klasifikasi sekolah menggunakan Algoritma KNN

untuk mengetahui tingkat kelulusan di masing-masing SMA di

Sulawesi Tengah.

4. Hasil Klasifikasi tingkat kelulusan berdasarkan karakteristik sekolah

akan menghasilkan prediksi tingkat kelulusan pada setiap sekolah

ditahun berikutnya menggunakan algoritma c4.5.

4
5
6
BAB II

TINJAUAN PUSTAKA

A. Ujian Nasional SMA

Ujian Nasional adalah sistem evaluasi standar pendidikan dasar dan

menengah secara nasional dan persamaan mutu tingkat pendidikan antar

daerah yang dilakukan oleh Pusat Penilaian Pendidikan, Depdiknas

di Indonesia berdasarkan Undang-Undang Republik Indonesia No.20

Tahun 2003 menyatakan bahwa dalam rangka pengendalian mutu

pendidikan secara nasional dilakukan evaluasi sebagai

bentuk akuntabilitas penyelenggara pendidikan kepada pihak-pihak yang

berkepentingan. Lebih lanjut dinyatakan bahwa evaluasi dilakukan oleh

lembaga yang mandiri secara berkala, menyeluruh, transparan,

dan sistematik untuk menilai pencapaian standar nasional pendidikan dan

proses pemantauan evaluasi tersebut harus dilakukan secara

berkesinambungan.[1]

Proses pemantauan evaluasi tersebut dilakukan secara terus menerus

dan berkesinambungan pada akhirnya akan dapat membenahi mutu

pendidikan. Pembenahan mutu pendidikan dimulai dengan penentuan

standar.

Penentuan standar yang terus meningkat diharapkan akan mendorong

5
peningkatan mutu pendidikan, yang dimaksud dengan penentuan standar

pendidikan adalah penentuan nilai batas (cut off score). Seseorang

dikatakan sudah lulus/kompeten bila telah melewati nilai batas tersebut

berupa nilai batas antara peserta didik yang sudah menguasai kompetensi

tertentu dengan peserta didik yang belum menguasai kompetensi tertentu.

Bila itu terjadi pada ujian nasional atau sekolah maka nilai batas berfungsi

untuk memisahkan antara peserta didik yang lulus dan tidak lulus disebut

batas kelulusan, kegiatan penentuan batas kelulusan disebut standard

setting.

B. Karakteristik Sekolah

karakteristik diambil dari bahasa Inggris yakni characteristic, yang

artinya mengandung sifat khas. Ia mengungkapkan sifat-sifat yang khas

dari sesuatu Dalam kamus lengkap psikologi karya Chaplin, dijelaskan

bahwa karakteristik merupakan sinonim dari kata karakter, watak, dan sifat

yang memiliki pengertian diantaranya :

1. Intergrasi atau sintese dari sifat-sifat individual dalam bentuk suatu

untas atau kesatuan

2. Suatu kualitas dan sifat yang tetap terus-menerus dan kekal yang dapat

dijadikan cirri untuk mengidentifikasikan seorang pribadi, suatu objek,

suatu kejadian.

6
3. Kepribadian seeorang, dipertimbangkan dari titik pandangan etis atau

moral.

Jadi di antara pengertian-pengertian di atas sebagaimana yang telah

dikemukakan oleh Chaplin, dapat disimpulkan bahwa karakteristik itu

adalah suatu sifat yang khas, yang melekat pada seseorang atau suatu

objek, dalam hal ini adalah sekolah menengah umum.

Sekolah Menengah Atas dalam pendidikan formal di Indonesia,

merupakan jenjang pendidikan menengah setelah menamatkan Sekolah

Menengah Pertama (SMP) atau yang sederajat. Sekolah Menengah Atas

diselesaikan dalam kurun waktu 3 tahun, yaitu mulai kelas 10 sampai

kelas 12. Pada tahun kedua (di kelas 11), siswa Sekolah Menengah Atas,

wajib memilih jurusan yang ada, yaitu Sains, Sosial, atau Bahasa. Pada

akhir tahun ketiga (di kelas 12), siswa diwajibkan mengikuti Ujian Nasional

yang mempengaruhi kelulusan atau tidaknya siswa. Setelah lulus (tamat)

Sekolah Menengah Atas dapat melanjutkan pendidikan ke perguruan

tinggi. Umumnya pelajar Sekolah Menengah Atas berusia 16-18 tahun.

Sekolah Menengah Atas tidak termasuk program wajib belajar pemerintah

seperti SD 6 tahun serta SMP 3 tahun. Mulai tahun 2005, di beberapa

daerah di Indonesia, Sekolah Menengah Atas telah diikutkan sebagai

program wajib belajar 12 tahun yang diselenggarakan oleh pemerintah

maupun swasta.Pengelolaan Sekolah Menengah Atas negeri di Indonesia

yang sebelumnya berada di bawah Departemen Pendidikan Nasional,

setelah diberlakukannya otonomi daerah pada tahun 2001, kini menjadi

7
tanggung jawab pemerintah daerah kabupaten/kota. Sedangkan

Departemen Pendidikan Nasional hanya berperan sebagai regulator

dalam bidang standar nasional pendidikan. Jadi Karakteristik sekolah

khususnya Menengah Umum adalah suatu sifat yang khas suatu dan

sifat yang melekat yang dapat dijadikan ciri untuk mengidentifikasi sesuatu

yang terdapat dalam sekolah, status, jumlah siswa, jumlah rombel, jumlah

guru, Laboratorium, ruang praktek, perpustakaan.

C. Konsep Data Mining

Data Mining merupakan suatu disiplin ilmu baru dalam teknologi

komputasi dan informatika yang didefinisikan sebagai metode untuk

mengekstrak pengetahuan yang sifatnya implisit dan sebelumnya tidak

diketahui dari data yang berskala besar. Peran utama dalam data mining

adalah estimasi dan prediksi menggunakan algoritma Linear Regression,

Neural Network, support Vector Machine; klasifikasi menggunakan

algoritma Naïve Bayes, k-Nearest Neigbor, C4.5 CART, Linear

Discriminant Analyst; klasterisasi menggunakan algoritma K-Means, K-

Medoids, Self-Organizing Map (SOM), Fuzzy C-Means; dan asosiasi

menggunakan algoritma FP-Growth, A Priori dan Hase Based Assosiation.

(Kursini, 2009)[2].

8
Metode yang digunakan dalam data mining berupa metode

pembelajaran (supervised learning) dan metode tanpa pembelajaran

(UnSupervised learning). Metode pembelajaran meliputi peran estimasi,

prediksi, klasifikasi dan asosiasi sedangkan metode tanpa pembelajaran

meliputi klasterisasi. (Budi Santosa, 2007)[3].

D. Algoritma

Definisi Algoritma adalah langka-langkah logis penyelesaian masalah

yang disusun secara sistematis dan logis. Penemu kata Algoritma sendiri

adalah nama Abu Ja’far Mohammed Ibnu Musa Al Khowarizmi, ilmuan

Persia yang menulis kitab al jabr w’almuqabala sekitar tahun 825 M.

Menurut Donald E. Knuth dalam bukunya yang berjudul “ The Art of

Computer Programming”[4], algoritma memiliki 5 ciri-ciri penting yakni :

1. Algoritma harus berhenti setelah melakukan sejumlah langkah terbatas.

2. Setiap langkah algoritma harus didefinisikan dengan tepat dan tidak

bermakna ganda (ambigous).

3. Algoritma memiliki nol atau lebih masukan (input)

4. Algoritma memiliki satu atau beberapa keluaran (output).

5. Algoritma harus efektif.

9
E. Data

Data sering disebut sebagai bahan mentah informasi. Tapi menurut

Murdick, dkk (1984) merumuskan bahwa data adalah fakta yang tidak

sedang digunakan pada proses keputusan, biasanya dicatat dan

diarsipkan tanpa maksud utnuk segera diambil kembali untuk

pengambilan keputusan.

Knowledge discovery data (KDD) adalah keseluruhan proses non-

trivial untuk mencari dan mengidentifikasikan pola (pattern) dalam data,

dimana pola yang ditemukan bersifat sah, baru dapat bermanfaat dan

dapat dimengerti (Usama Fayyad, 1996). Gambar 1 menunjukkan proses

dari KDD.

Gambar 1. Proses Knowledge discovery in database (KDD)

(Usama Fayyad, 1996)

10
F. Klasifikasi

Klasifikasi merupakan salah satu teknik data mining yang memiliki

kemampuan untuk melakukan proses klasifikasi data. Klasifikasi bisa

digunakan untuk menemukan model atau fungsi yang membedakan kelas

data. Klasifikasi bertujuan untuk memprediksi kelas dari suatu objek yang

labelnya tidak diketahui.

Klasifikasi merupakan suatu teknik dengan melihat kelakuan atribut

dari kelompok yang telah didefinisikan, Teknik ini dapat memberikan

klasifikasi pada data baru dengan memanipulasi data yang ada yang telah

diklasifikasi dan dengan menggunakan hasilnya untuk memberikan

sejumlah aturan. Aturan-aturan tersebut digunakan pada dat-data baru

yang diklasifikasi. Teknik ini menggunakan supervised induction, yang

memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk

menentukan kelas-kelas tambahan(Kusnawi, 2007)[5].

Klasifikasi merupakan proses untuk menyatakan suatu objek ke

dalam salah satu kategori yang sudah didefinisikan sebelumnya. Tujuan

dari klasifikasi ini adalah record-record yang sebelumnya belum termasuk

dalam kategori dapat dinyatakan kelasnya secara akurat. Tahapan-

tahapan klasifikasi terdiri dari :

1. Pembangunan model

Dalam tahapan ini dibuat model untuk menyelesaikan masalah

klasifikasi data, mode ini dibangun berdasarkan training set.

11
2. Penerapan model

Pada tahapan ini model yang sudah dibangun sebelumnya

digunakan untuk menentukan atribut atau class dari sebuah

data yang atribut atau classnya belum diketahui.

3. Evaluasi

Dalam tahapan ini hasil dari tahapan sebelumnya dievaluasi

menggunakan parameter terukur untuk menentukan apakah

model tersebut dapat diterima.

Pada proses klasifikasi terdapat beberapa metode, antara lain decision

tree, Bayesian, fuzzy, neural network, support vector machine (SVM) dan

k-nearest neighbor (Pramudiono, 2003)[6].

G. K-Nearest Neighbor (KNN)

Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk

melakukan klasifikasi terhadap objek berdasarkan data pembelajaran

yang jaraknya paling dekat dengan objek tersebut.

Data pembelajaran diproyeksikan ke ruang dimensi banyak, dimana

masing-masing dimensi merepresentasikan fitur dari data. Ruang ini

dibagi menjadi bagian-bagian berdasarkan klasifikasi data pembelajaran.

Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan

klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat titik

tersebut. Dekat atau jauhnya tetangga biasanyanya dihitung berdasarkan

jarak Euclidian[2]

12
1. Proses K-Nearest Neighbor (K-NN)

Algoritma K-Nearest Neighbor

1. Tentukan K (misalnya k = 3)

2. Hitung jarak antara data baru ke setiap label data

3. Tentukan k labeled data yang mempunyai jarak yang paling

minimal

4. Klasifikasikan data baru ke dalam data yang mayoritas.

Menurut Agusta, 2007 bahwa prinsip kerja K-Nearest

Neighbor(KNN) adalah mencari jarak terdekat antara data yang

dievaluasi dengan k tetangga terdekatnya dalam data pelatihan.

Persamaan perhitungan untuk mencari eucledian dengan d adalah

jarak p adalah dimensi data dengan persamaan[7].

𝑝 2
de = 1−𝑖 (𝑥 2𝑖 − 𝑥1𝑖 ) … (2.1)

Dimana:

X1 : sample data uji

X2 : data uji

De : jarak

P : dimensi data

13
2. Proses Modified K-Nearest Neighbor

Modified K-Nearest Neighbor adalah menempatkan label kelas data

sesuai dengan k divalidasi poin data yang sudah ditetapkan dengan

perhitungan K-Nearest Neighbor (KNN) tertimbang (Hamid Parvin,

2008)[8], berikut proses dari Modified KNN

a. Validitas Data Training

Dalam algoritma MKNN, setiap data pada data training harus

divalidasi terlebih dahulu pada awalnya. Validitas setiap data

tergantung pada setiap tetangganya. Proses validasi dilakukan

untuk semua data pada data training. Setelah dihitung validitas tiap

data maka nilai validitas tersebut digunakan sebagai informasi lebih

mengenai data tersebut.

Untuk menghitung validitas dari data pada data training

tetangga terdekatnya perlu dipertimbangkan. Diantara tetangga

terdekat data, validitas digunakan untuk menghitung jumlah titik

dengan label yang sama untuk data tersebut. Persamaan yang

digunakan dari setiap titik pada data training adalah seperti pada

persamaan berikut :

1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x))) … (2.2)
𝑘

Dimana :

k : Jumlah titik terdekat


LBL(x) : kelas x
Ni(X) : label kelas titik terdekat x

14
Fungsi S digunakan untuk menghitung kesamaan antara titik

x dan data ke-i dari tetangga terdekat yang dituliskan dalam

persamaan 2.3 didefiniskan fungsi ini.

1 𝑎=𝑏
S(a,b) = {0 𝑎≠𝑏 … (2.3)

Keterangan : a = kelas a pada data training


b = kelas lain selain a pada data training

b. Weight voting KNN

Weight voting KNN adalah salah satu variasi metode KNN

yang menggunakan K tetangga terdekat, terlepas dari kelas data,

tapi menggunakan Weight voting dari masing-masing data pada

data training. Masing-masing data diberikan Weight voting yang

biasanya sama dengan beberapa penurunan fungsi jarak dari data

yang tidak diketahui. Sebagai contoh \, voting diatur sama dengan

1/(de + 1), dimana d e adalah jarak Eucledian. Weight voting ini

kemudian dijumlahkan untuk setiap kelasnya, dan kelas dengan

jumlah terbesar suara yang dipilih.

Dalam metode MKNN, pertama weight masing-masing

tetangga dihitung dengan dengan menggunakan 1/(de + 0,5).

Kemudian, validitas dari tiap data training dikalikan dengan weight

berdasarkan pada jarak Euclidian. Dalam metode MKNN, Weight

voting tiap tetangga seperti persamaan 2.4.

15
1
W(i) = Validitas(i) x … (2.4)
de +0.5

Dimana:
W(i) : Perhitungan Weight voting
Validitas(i) : Nilai Validitas
De : jarak Eucledian

Teknik Weight voting ini mempunyai pengaruh yang lebih

penting terhadap data yang mempunyai nilai validitas lebih tinggi

dan paling dekat dengan data. Selain itu, dengan mengalikan

validitas dengan jarak dapat mengatasi kelemahan dari setiap data

yang mempunyai jarak dengan weight yang memilki banyak

masalah outlier.

Beberapa keuntungan dari metode K-Nearest Neighbor (KNN) adalah

sebagai berikut:

a. Sederhana dalam penggunaannya.

b. Dapat menangani data training yang mengandung noise

c. Efektif jika data training besar.

3. Pseudocode Modified K- Nearest Neighbor (KNN)

Output_label := MKNN (train_set, test_sample)


Begin
For i := 1 to train_size
Validitas(i) := Hitung validitas sampel ke-i;
End for;
Output_label :=Weighted_KNN(Validitas,test_sample);
Return Output_label;
End

16
H. Algoritma C4.5

Algoritma C4.5 merupakan algoritma yang digunakan untuk

membentuk pohon keputusan. Pohon keputusan merupakan metode

klsifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon

keputusan mengubah fakta yang sangat besar menjadi pohon keputusan

yang merepresentasikan aturan. Pohon keputusan juga berguna untuk

mengeksplorasi data, menemukan hubungan tersembunyi antara sejunlah

calon variable input dengan sebuah variable target.

Proses pada pohon keputusan adalah mengubah bentuk data

(tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan

menyederhanakan rule (Basuki & Syarif, 2003).

Secara umum akgoritma C4.5 untuk membangun pohon keputusan

adalah sebagai berikut, (Kusirini, 2009) [2]:

1. Pilih atribut sebagai akar

2. Buat cabang untuk tiap-tiap nilai

3. Bagi kasus dalam cabang

4. Ulangi proses untuk setiap cabang sampai semua kasus pada

cabang memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai Gain tertinggi

dari atribut-atribut yang ada. Untuk menghitung Gain digunakan rumus

seperti terteraa dalam persamaan 2.5.

17
𝑛
|Si |
Gain(S,A) = Entropy(S) - ∗ Entropy(Si) …(2.5)
𝑖=1 |S|

Keterangan :

S : himpunan kasus
A : Atribut
N : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke i
|S| : jumlah kasus dalam S

Sementara itu, perhitungan nilai entropy dapat dilihat pada persamaam

2.6 .

𝑛
Entropy(S) = 𝑖=1 − pi ∗ 𝑙𝑜𝑔2 pi … (2.6)

Keterangan :

S : himpunan kasus
A : fitur
N : jumlah
Pi : proporsi dari Si terhadap S

18
Pseudocode C4.5
Form Tree(T)
(1) ComputeClassFrequency(T);
(2) If OneClass or FewCases
Return a leaf;
Create a decision node N;
(3) ForEach Attribute A
ComputeGain(A);
(4) N.test = AttributeWithBestGain;
(5) If N.test is continuous
Find Threshold;
(6) ForEach T’ in the spiltting of T
(7) If T’ is empty
Child of N is a leaf
Else
(8) Child of N = FormTree(T’)
(9) Compute Errors of N;
Return N

19
I. Perhitungan Akurasi

Perhitungan akurasi dilakukan untuk mengetahui tingkat akurasi

dari hasil klasifikasi, dengan cara menghitung jumlah record unji yang

kelasnya diprediksi secara tepat. Dapat dilihat pada persamaan 2.7

berikut.

𝑗𝑢𝑚𝑙𝑎 ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑏𝑒𝑛𝑎𝑟


Akurasi = 𝑥 100% … (2.7)
𝑗𝑢𝑚𝑙𝑎 ℎ 𝑡𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖

Jumlah prediksi benar adalah jumlah record data uji yang diprediksi

kelasnya menggunakan metode klasifikasi dan hasilnya sama dengan

kelas sebenarnya. Sedangkan jumlah total prediksi adalah jumlah

keseluruhan record yang diprediksi kelasnya (seluruh data uji). Metode

klasifikasi berusaha untuk mencari model yang memiliki tingkat akurasi

yang tinggi ketika model tersebut diterapkan pada data uji. (sarkar dan

Leong. 2000)[9].

J. Penelitian yang Serupa

Ada beberapa penelitian terdahulu yang meneliti tentang klasifikasi

rekam medis antara lain :

1. Prediksi Status Keaktifan Studi Mahasiswa dengan algortima

C5.0 dan K-Nearest Neighbor. Oleh Iin Ernawati dari Pascasarjana

Institut Pertanian Bogor, Bogor, 2008. Penelitian ini bertujuan untuk

membantu menemukan karakteristik mahasiswa aktif maupun tidak

20
aktif pada sebuah fakultas di sebuah perguruan tinggi swasta di

Jakarta Selatan sehingga dapat digunakan sebagai prediksi status

studi dimasa datang dengan menggunakan dua metode algoritma K-

Nearest Neighbor dan C5.0 kemudian membandingkan kedua

metode tersebut.[10]

2. Data Mining Kemampuan Siswa berbasis NeuroFuzzy, Oleh

Imron Rosyidi, Mochammad Hariadi, I Ketut Eddy Purnama, Teknik

Elektro, FTI,ITS. Kampus ITS Sukolilo, Surabaya, 2011. Penelitian

ini dilakukan untuk memprediksi nilai UN setiap siswa sebelum UN

berlangsung. Berdasarkan hasil prediksi nilai UN dapat dilakukan

langkah-langkah strategis untuk meminimalisir ketidaklulusan siswa

dalam UN. Proses Komputasi menggunakan algoritma Neuro Fuzzy.

Hasil Prediksi diambil prediksi dengan akurasi paling tinggi dengan

waktu komputasi paling pendek. Hasil penelitian ini adalah Neuro

Fuzzy dapat digunakan untuk memprediksi UN yang sebenarnya per

siswa pada tahun mendatang dengan rata-rata kesalahan 0,568

untuk Bahasa Indonesia, 0,513 untuk matematika, 0,340 untuk

Bahasa Inggris. [11]

3. Perbandingan metode Nearest Neighbor dan algoritma C45

untuk menganalisis kemungkinan pengunduran diri calon

mahasiswa di STIMIK AMIKOM Yogyakarta, oleh Kusrini, Sri

Hartati, Retantyo Wardoyo, Agus Harjoko dari STIMIK AMIKOM

Yogyakarta, 2008. Penelitian ini menitikberatkan perbandingan

21
klasifikasi dan tingkat akurasi dari algortima k-nearest Neighbor dan

algoritma C4.5 untuk pengambilan keputusan dalam proses

penjaringan calon mahasiswa baru di STMIK AMIKOM

Yogyakarta.[12]

4. Penerapan Algoritma Modified K-Nearest Neighbor Mknn Untuk

Mengklasifikasi Letak Protein pada Bakteri E-Coli, 2010.

Penelitian ini menitikberatkan pada penerapan Modified K-Nearest

Neighbor (MKNN) untuk mengklasifikasikan letak protein pada

bakteri E-Coli serta bagaimana pengujian akurasi algoritma Modified

K-Neraest Neighbor (MKNN) terhadap banyak tes dan nilai

tetangga.[13].

22
K. Kerangka Pikir

Masalah : 1. Karakteristik sekolah yang tidak mengalami perbaikan akan


berpengaruh rendahnya tingkat kelulusan ujian nasional ditahun berikutnya.

2. Kebijakan dan bantuan pemerintah yang tidak tepat pada sekolah yang
membutuhkan dan tidak berdasarkan hasil ujian nasional

Hipotesa : Jika pemerintah dapat dengan tepat menentukan kebijakan dan bantuan
kepada sekolah yang tingkat kelulusan rendah maka angka kelulusan ujian
nasional di tahun berikutnya akan meningkat.

Solusi :Mengumpulkan data tingkat kelulusan ujian nasional pada seluruh SMA
Negeri/Swasta di propinsi Sulawesi Tengah 3-5 tahun

Mengklasifikasi sekolah dengan tingkat kelulusan berdasarkan parameter , Nama


Sekolah, Status, jumtah siswa, jumlah rombel, jumlah guru, Laboratorium, ruang
praktek, perpustakaan

Model klasifikasi sekola dan prediksi kelulusan dengan Algoritma K-NN untuk
data kuantitatif dan data kualitatif dengan algoritma C4.5

Analisa dan serta pengujian model

Implementasi Sistem
.

23
24
BAB III

METODOLOGI PENELITIAN

A. Waktu dan Lokasi Penelitian

Penelitian ini dilakukan di laboratorium Teknik Informatika

Universitas Hasanuddin dengan mengambil data sekolah-sekolah SMA

negeri/Swasta seProvinsi Sulawesi Tengah, sumber data dari

KEMEDIKBUD Propinsi Sulawesi Tengah. Penelitian dilakukan selama 4

bulan, dimulai sejak di setujui proposal penelitian ini.

B. Jenis Penelitian

Penelitian ini merupakan penelitian historis yang bersifat aplikatif

sehingga dilakukan dengan metode studi pustaka (library reaserch),

metode pengumpulan data lapangan (field research) dan pembuatan

aplikasi berdasarkan analisis hasil dari metode data mining yakni

algoritma K-Nearest Neigbor dan algoritma C4.5.

C. Alat dan Bahan

Spesifikasi kebutuhan yang digunakan dalam mengimplementasikan

sistem ini adalah sebagai berikut :

1. Spesifikasi Hardware

a. PC / Notebook : Processor Core i3, RAM 4 Gb, Harddisk 500 GB.

24
b. Mouse

c. Keyboard

2. Spesifikasi Software

a. Microsoft Windows 7

b. Microsoft Visual Basic 6.0

c. MySQL

d. Star UML

D. Tahapan Rancangan Penelitian

Analisis data set sekolah


Data set sekolah menggunakan algoritma
data mining

Tingkat Implementasi
kelulusan sistem

Gambar 3.1. Tahapan Rancangan penelitian

Dalam penulisan tugas akhir ini terdiri dari beberapa tahapan

rancangan penelitian yaitu :

25
1. Analisis Kebutuhan Sistem

Analisis kebutuhan meliputi pembuatan klasifikasi tingkat kelulusan

dengn menggunakan data set karakteristik sekolah untuk mengetahui

bagian dari karakteristik mana yang perlu adanya perbaikan dan

pengembangan guna meningkatkan angka kelulusan sekolah dan

mengurangi angka ketidaklulusan

2. Perancangan Sistem

Pada penelitian ini pemodelan perangkat lunak menggunakan

UML (Unified Modelling Language). UML digunakan dalam proses

perancangan aplikasi software untuk membuat alur atau langkah-langkah.

Pada penelitian ini, UML terdiri dari diagram use case, Activity Diagram

dan class diagram.

a. Use Case Diagram

Use Case Diagram adalah suatu bentuk diagram yang menggambarkan

fungsionalitas yang diharapkan dari sebuah sistem dilihat dari

prespektif pengguna diluar sistem.

26
input data training (data set sekolah)

proses K-Nearest Neighbor

Input data testing (data sekolah) Pimpinan


Admin

Proses C4.5

informasi data testing

Gambar 3.2. Use Case Diagram

Deskripsi :
Nama Use Case Diagram : Use Case Diagram Prediksi
Kelulusan
Nama Acktor : Admin dan Pimpinan
Use Case
(1) Input Data training, yaitu menginput, menambah, merubah dan

menghapus data training yang selanjutnya akan ditraining. Data

training yang diinput telah memiliki kelas apakah termasuk kelas

dengan tingkat kelulusan 100% atau <100%.

(2) Proses mining dengan Algoritma KNN, yaitu proses

penambangan informasi dari data training khususnya data

kuantitatif yang telah diinput dengan menggunakan algortima KNN

hingga mendapatkan klasifikasi sebuah kelas tingkat kelulusan.

27
(3). Input Data testing , yaitu proses menginput data testing berupa

data kualitatif dan kuantitatif yang akan diproses pada algoritma

KNNC4.5 sehingga dapat ditentukan kelas tingkat kelulusan.

(4). Proses mining dengan Algoritma C4.5, yaitu proses

penambangan informasi data training khususnya data kualitatif

yang telah diinput dengan menggunakan algoritma C4.5 hingga

membentuk pohon keputusan.

(5) Informasi Data testing, yaitu menampilkan informasi klasifikasi data

testing dan informasi kelas tingkat kelulusan serta faktor-faktor

pendukung dan yang mempengaruhi tingkat kelulusan.

b. Activity Diagram

Activity Diagram merupakan suatu diagram yang dapat menampilkan

secara detail urutan proses dari aplikasi. Perancangan aplikasi dapat

digambarkan dengan menggunakan Activity Diagram sebagai berikut :

28
1. Activity Diagram Input Data Sekolah

User Sistem

Menu Utama

Pilih Menu Data Training

input data sekolah Validasi data

simpan data

Gambar 3.3. Activity Diagram Input Data Sekolah

Pada saat pertama kali membuka aplikasi maka user akan langsung

masuk ke halaman utama. Di halaman utama ini, user dapat memilih

operasi yang diinginkan. Dengan memilih menu data sekolah, user

dapat melakukan manajemen data sekolah yang meliputi input data

sekolah, dan penambahan data dengan memasukkan nilai-nilai

atribut dan kelas pada form input training.

29
2. Activity Diagram Proses Algoritma KNN

Sistem User

menu utama Pilih menu proses

validasi data KNN input data testing

Hasil KNN

Gambar 3.4. Activity Diagram Proses Algoritma KNN

Setelah masuk halaman utama, user memilih menu Proses KNN,

dengan memilih proses mining maka sistem akan memproses data

training dan data testing yang bersifat kuantitatif untuk menentukan

kelas pada data testing menggunakan algoritma KNN, Setelah itu,

sistem akan menampilkan kelas dari data testing.

30
3. Activity Diagram Proses Mining Algoritma C4.5

Sistem User

Menu Utama Proses C4.5

Validasi data C4.5

proses C4.5

Rule C4.5

Gambar 3.5. Activity Diagram Proses Mining Algoritma C4.5

Setelah masuk halaman utama, user memilih menu proses C4.5.

Dengan memilih proses mining, maka sistem akan memproses data

training dan memproses data testing yang telah diinput dengan

menggunakan algoritma C4.5 yang akan membentuk rule dan

keputusan. Setelah itu, sistem akan menampilkan faktor-faktor

pendukung keputusan.

31
c. Class Diagram

Class diagram menggambarkan keadaan (atribut/property) suatu

system sekaligus menawarkan layanan untuk memanipulasi keadaan

metode atau fungsi. Class diagram menggambarkan stuktur dan

deskripsi class, package dan objek beserta hubungan satu sama

lain.

atribut
+id_atribut data_training
+nam_atribut
+id_sekolah
+Save() +nm_sekolah
+jml_sekolah
+f_lab
+f_ruang_praktek
+f_perpus
+kelulusan
nilai_knn
-function_knn()
+id_sekolah -function_C4.5()
+kelulusan
+funtion_knn()
+nilai_k()

Testing_sekolah
+id_sekolah
+nm_sekolah
Nilai_C4.5 +jml_rombel
+jml_siswa
+akar +jml_guru
+atribut_akar +f_lab
+sub_akar +f_ruang_praktek
+atribut_sub +f_perpus
+sub_akar1 +kelulusan
+atribut_sub1
+kelulusan +save()
+edit()
+function_C4.5()
+Function_gain()
+function_entropy()

Gambar 3.6. Class Diagram

32
3. Deskripsi Data

Deskripsi data yang digunakan oleh data training adalah data set

karakteristik sekolah khususnya SMA negeri/swasta yang diperoleh dari

Lembaga Penjamin Mutu Pendidikan (LPMP) dan Kementrian

Pendidikan dan Kebudayaan Provinsi Sulawesi Tengah. Data

karakteristik sekolah kemudian diklasifikasikan berdasarkan tingkat

kelulusan masing-masing sekolah dan data yang digunakan terdiri dari

169 data sekolah yaitu data SMA Negeri/Swasta tahun 2010 se Provinsi

Sulawesi Tengah.

Untuk mengetahui gambaran klasifikasi tingkat kelulusan SMU


Negeri/Swasta sesuai dengan tujuan penelitian ini, maka karakteristik
sekolah yang diambil terdiri dari 8 parameter, yaitu:

1. Nama Sekolah
2. Status Sekolah
3. Jumlah siswa
4. Jumlah rombel
5. Jumlah guru
6. Laboratorium
7. Ruang Praktek
8. Perpustakaan

Dari data karaktristik sekolah tersebut sistem akan menentukan

kelas yang terdiri dari kelas tingkat kelulusan 100% dan kelas tingkat

kelulusan < 100% dari tiap sekolah. Data karakteristik dari 7 parameter ini

akan dibagi menjadi dua bagian, yaitu data kuantitatif dan data kualitatif.

33
Data kuantitatif merupakan data training dari karalteristik sekolah

yang bernilai angka atau kuantiti yang terdiri dari :

1. Jumlah siswa

2. Jumlah rombel

3. Jumlah guru

Data karakteristik sekolah yang nilainya bersifat kuantitatif merupakan

data training yang akan diproses dengan menggunakan algoritma K-

Nearest Neighbor. Sedangkan data training yang bernilai kualitatif akan

diproses dengan menggunakan algoritma C4.5 yang terdiri dari :

1. Status

2. Laboratorium

3. Ruang Praktek

4. Perpustakaan

Kedua algoritma KNN dan Algoritma C 4.5 akan menghasilkan

klasifikasi tingkat kelulusan sekolah berdasarkan karakteristik menjadi dua

kelas yaitu kelas tingkat kelulusan 100% dan kelas kelulusan < 100%.

Data pada sistem ini terdiri dari tiga macam data, yaitu data training,

data testing (data uji) dan data klasifikasi. Data training merupakan data

set yang akan diproses menggunakan Algoritma KNNC4.5, sedangkan

data testing merupakan data yang digunakan untuk mencari dan

menentukan kelas dan data klasifikasi adalah data hasil klasifikasi.

34
4. Perancangan Proses

Pada bab ini akan dijelaskan mengenai proses-proses dalam

membangun sebuah sistem. Dalam memberikan informasi pada user

tentang tingkat kelulusan sistem akan melakukan klasifikasi sesuai

dengan kriteria yang dimasukan, klasifikasi tersebut dilakukan denggan

menggunakan algoritma KNNC4.5.

a. Proses Klasifikasi Algoritma K-NN dan Algoritma C4.5

Pada proses ini sistem akan melakukan klassifikasi pada data training

dengan menggunakan algortima K-Nearest Neighbor untuk data

kuantitatif dan Algoritma C4.5 untuk data kualitatif. Tahapan proses

adalah sebagai berikut:

(1) Proses global adalah sebuah proses yang mencakup alur dari

proses secara garis besar.

(2) Proses request data adalah sebuag proses yang melakukan

pemanggilan data yang disimpan dalam sebuah database.

(3) Proses klasifikasi adalah sebuah proses yang menunjukkan alur

perhitungan dari perhitungan awal sampai ditemukan kelas tingkat

kelulusan dari karakteristik sekolah.

(4) Proses algoritma K-Nearest Neighbor, terdiri dari :

 Menghitung Validitas
 Menghitung Euclidean
 Menghitung Weight voting
(5) Proses Algoritma C4.5, terdiri dari :

35
 Menghitung Jumlah kasus
 Menghitung Entropy
 Menghitung Gain dan menentukan Gain tertinggi
 Membuat pohon keputusan sementara
b. Flowchart Sistem

Langkah-langkah dalam proses ini atara lain yaitu:

(1) Melakukan input data sekolah

(2) Melakukan proses klasifikasi untuk menentukan tingkat kelulusan

(3) Output data sekolah setelah dilakukan proses perhitngan

Untuk lebih jelasnya dapat dilihat pada gambar 3.7. Flowchart

system keseluruhan
Mulai

Input Dataset sekolah

Proses Klasifikasi
Data Kuantitatif
dengan KNN

Proses Klasifikasi
Data Kualitatif dengan
C4.5

Proses perhitungan
Algoritma KNNC4.5

Output data sekolah setelah


diproses

End

Gambar 3.7. Flowchart Sistem Keseluruhan

36
Dari gambar 3.7 yaitu flowchart system keseluruhan dapat dilihat

bahwa sistem akan memproses input dataset karakteristik sekolah

baik data kualitatif maupun data kuantitatif, selanjutnya akan dilakukan

proses klasifikasi data kualitatif menggunakan algoritma KNN dan data

kuantitatf dengan C 4.5 yang didalamnya terdiri dari berbagai proses

untuk menghasilkan klasifikasi sekolah sesuai dengan tingkat

kelulusan.

c. Proses Klasifikasi K-Nearest Neighbor

Langkah-langkah dalam proses ini antara lain yaitu:

(1) Memberikan inputan data kualitatif dataset sekolah.

(2) Melakukan proses perhitungan Validitas dari tiap data pada

dataset sekolah.

(3) Melakukan proses perhitungan jarak Euclidean pada tiap data

pada dataset sekolah.

(4) Melakukan proses perhitungan Weight voting dari data set

sekolah dan mengambil nilai Weight voting yang terbesar

berdasarkan jumlah nilai tetangga yang diinputkan.

(5) Memberikan keluaran data berupa kelas yan menunjukkan

tingkat kelulusan sekolah.

37
Untuk lebih jelasnya dapat dilihat pada gambar 3.8. Flowchart

proses klasifikasi

Mulai

Dataset kuantitatif sekolah

Hitung Validitas

Hitung Euclidean

Hitung Weight voting

Output

Return

Gambar 3.8. Flowchart Proses Klasifikasi KNN

Pada alur flowchart proses klasifikasi dijelaskan alur tahapan

yang dilakukan setelah input dataset sekolah terdiri dari 3 tahapan

proses yaitu menghitung Validitas sesuai dengan persamaan Validitas

2.2 yang membandingkan kelas pada data trainingnya. Setelah

dilakukan proses Validitas akan dilakukan perhitungan euclidean

sesuai persamaan 2.1 yang mencari jarak terdekat antara data yang

divaluasi dengan k tetangga terdekatnya. Pada proses perhitungan

Euclidean selesai tahapan selanjutnya adalah perhitungan weight

voting sesuai dengan persamaan 2.4. Tahapan terakhir setelah

38
didapat nilai weight votingnya maka akan didapatkan output data kelas

tingkat sekolah pada data testingnya.

Untuk proses Modified KNN seperti yang ditunjukkan pada

Gambar 3.8 yaitu flowchart Proses Klasifikasi KNN yang terdiri dari

beberapa proses. Berikut ini akan dijelaskan dan ditunjukkan flowchart

dari masing-masing proses, mulai dari menghitung validitas,

menghitung Euclidean dan proses menghitung Weight voting.

Tahapan-tahapan proses dan masing-masing flowchart adalah

sebagai berikut:

1. Menghitung Validitas

Langkah-langkah dalam proses menghitung validitas antara lain yaitu:

 Memberikan inputan data kuantitatif sekolah.

 Menentukan nilai k-nya.

 Melakukan perhitungan Validitas sesuai persamaan 2.2.

 Memberikan keluaran berupa hasil Validitas.

Untuk lebih jelasnya dapat dilihat pada gambar 3.9. Flowchart

menghitung Validitas.

39
Mulai

Data sekolah dan nilai


tetangga (k)

Inisialisai
Total=0

For x = 0 to k-1

For i=x+1 to k

Y[x]==Y[i]

Ya

Tidak Total=Total+1
aak

V[X]=Total/k

V[x]

Return

Gambar 3.9. Flowchart Menghitung Validitas

40
Pada alur Flowchart perhitungan Validitas pada Gambar 3.9

dijelaskan alur tahapan yang terdiri dari beberapa tahapan yaitu

menginputkan nilai k-nya yang dilakukan secara manual dengan

batasan tertentu, lalu menghitung Validitas sesuai dengan persamaan

Validitas 2.2. Pada tahapan perhitungan Validitas ini yang akan

dilakukan adalah melakukan input dataset sekolah dan input nilai k-

nya. Setelah input keduanya dilakukan maka akan dilakukan

perhitungan Validitas dengan membandingkan kelas-kelas pada data

training-nya sesuai dengan ketetapan sebelumnya. Dengan ketentuan

jika kelasnya sama maka V[x]=V[x]+1 nilainya 1 dan jika kelasnya

tidak sama maka V[x]=V[x] nilainya 0 dilakukan perbandingan data

sebanyak k. Kemudian V[x] nya akan dijumlah dan dibagi sebanyak k

data yang telah diinputkan. Maka akan didapatkan output data nilai

Validitas tiap data uji pada proses klasifikasi algortima KNN.

2. Menghitung Euclidean

Langkah-langkah dalam proses ini antara lain yaitu :

 Memberikan inputan data sekolah

 Melakukan peritungan Euclidean seesuai persamaan 2.1

 Mmberikan keluaran berupa nilai Euclidean

Untuk lebih jelasnya dapat dilihat pada Gambar 3.10, Flowchart

hitung Euclidean berikut

41
Mulai

Data sekolah

Inisialisai Total=0

For x = to n

For y = to m

Total=Total+(Att[x]-Att[y][x]^2)

Distance=SQRT(total)

Distance

Return

Gambar 3.10. Flowchart Menghitung Euclidean

Pada alur Flowchart perhitungan Euclidean alur tahapannya

terdiri dari beberapa tahapan antara lain input data sekolah dan

perhitungan Euclidean sesuai dengan persamaan Euclidean 2.1

sebanyak data maka akan didapatkan output nilai euclidean tiap data

uji pada proses klasifikasi algoritma KNN.

42
3. Menghitung Weight voting

Langkah-langkah dalam proses ini antara lain yaitu:

 Memasukkan nilai Euclidean dan nilai Validitasnya

 Melakukan perhitungan weight voting-nya

 Memberikan keluaran berupa nilai weight voting-nya.

Untuk lebih jelasnya dapat dilihat pada gambar 3.11 Flowchart

menghitung weight voting.

Mulai

Distance dan V[x]

For i = 0 to m

1
W(i) = V[x] x (𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 +0.5)
Type equation here.

W(i)

Return

Gambar 3.11. Flowchart Menghitung Weight Voting.

Pada alur Flowchart Perhitungan Weight voting dijelaskan alur

tahapan yang terdiri dari 2 tahapan yaitu meenginput nilai Validitas

dan nilai Euclidean, lalu menghitung nilai weight votingnya

berdasarkan persamaan 2.4 sebanyak data uji. Maka akan didapatkan

43
output data nilai weight voting tiap data uji pada proses klasifikasi

algortima KNN.

d. Proses Klasifikasi Algoritma C4.5

Pada proses ini sistem akan melakukan klasifikasi pada data training

untuk data yang bersifat kualitatif dengan menggunakan algoritma

C4.5 tahapan proses hingga terbentuk sebuah pohon keputusan.

 Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusann

rendah, jumlah kelulusan tinggi.

 Menentukan Entropy seusai dengan persamaan 2.6, dari semua

kasus dan kasus yang dibagi berdasarkan atribut LAB, RUANG

PRAKTEK dan PERPUSTAKAAN.

 Setelah itu, lakukan perhitungan Gain sesuai persamaan 2.5 untuk

setiap atribut.

 Dari hasil perhitungan dapat diketahui bahwa atribut dengan Gain

tertinggi yang kemudian akan menjadi node akar yang akan

membentuk pohon.

 Atribut yang sudah mengklasifikasikan kasus menjadi 1 kelas yaitu

kelas tingkat kelulusan 100% atau < 100% sehingga tidak perlu

dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut yang

terklasifikasi 2 kelas maka masih perlu dilakukan perhitungan lagi.

 Dari hasil tersebut dapat digambarkan pohon keputusan

sementara.

44
 Kemudian dilakukan perhitungan lagi seperti pada langkah 1

sampai dengan 5, hingga diketahui bahwa semua kasus sudah

masuk dalam satu salah satu kelas dan akan terbentuk pohon

keputusan yang terakhir.

Untuk lebih jelasnya dapat dilihat pada gambar 3.12 Flowchart

klasifikasi algoritma C4.5.

Mulai

Masukkan Data
Training

Hitung Entropy dan InfGain


dari tiap atribut

Buat simpul Akar Pohon berdasarkan Informasi


Gain terbesar

Hitung Entropy dan information Gain dari tiap Atribut


dengan menghilangkan Atribut yang telah dipilih
sebelumnya

Buat simpul Internal Pohon


Berdasarkan Information Gain
terbesar

Semua Atribut sudah


Masuk Pohon?

Y
Tidak
a
Lakukan pemangkasan
pohon

Generate aturan
keputusan

Selesai

Gambar 3.12. Flowchart Klasifikasi Algoritma C4.5.


45
E. Metode Pengujian Sistem

Metode pengujian yang digunakan pada penelitian ini terdiri dari

Pengujian Black Box dan Pengujian akurasi. Pada pengujian fungsional

akan menggunakan metode pengujian Black box.. Metode pengujian

Black Box memfokuskan pada keperluan fungsional dari perangkat lunak.

Oleh karena itu, pengujian dengan metode Black Box memungkinkan

untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-

syarat fungsional suatu program. Pengujian akurasi merupakan pengujian

keakuratan dari system dan hasil prediksi yang dihasilkan dengan data

yang sesungguhnya.

46
BAB IV

HASIL PENELITIAN DAN PEMBAHASAN

A. Gambaran umum sistem

Gambaran umum sistem yang akan dikembangkan pada penelitian

ini dapat dilihat pada gambar 4.1 di bawah ini :

Sistem
pendukung
Data keputusan Tingkat
Karakteristik Sistem
database dengan kelulusan
Sekolah Algortima Sekolah
data
Input Mining Output

Proses

Gambar 4.1 Gambaran umum sistem

Pada gambar 4.1 di atas pada proses input data karakteristik

sekolah merupakan data utama yang digunakan dalam penelitiatn ini yang

berasal dari data sekolah SMU Negeri/Swasta se Sulawesi Tengah

selama 4 tahun seperti yang telah dijelaskan pada bab 3 metodologi

penelitian sub bab tahapan rancangan penelitian bagian deskripsi data.

Data karakteristik sekolah ini terdiri dari 8 parameter yang terdiri

dari nama sekolah, status, jumlah rombel, jumlah siswa, jumlah guru,

47
laboratorium, ruang praktek, perpustakaan. Data Karakteristik sekolah

yang sudah diinput akan menjadi data training yang akan dimasukkan ke

dalam suatu database.

Selanjutnya data tersebut diolah dengan menggunakan algoritma

data mining yaitu algoritma klasifikasi dan pohon keputusan untuk

mendapatkan pengetahuan berupa pola klasifikasi dan senu algoritma

keputusan yang akan digunakan untuk membantu meningkatkan angka

kelulusan dan mengurangi angka ketidaklulusan. Dalam penelitian ini

proses klasifikasi menggunakan algoritma K-Nearest Neighbor, yaitu

klasifikasi dengan menentukan kedekatan kasus atau tetangga terdekat

dan algoritma C4.5 yaitu klasifikasi dengan pohon keputusan dan

kombinasi antara KNN dan C4.5 yaitu Algoritma KNNC4.5. seperti

diperlihatkan pada gambar 4.2.

INPUT PROSES OUTPUT


Proses Data Hasil KKN
Data Tingkat kelulusan
Kuantitatif dan C4.5
karakteristik dengan KNN dan factor-faktor
sekolah : yang
(1) Data Training Proses Data Proses mempengaruhi
(2) Data testing Kualitatif KNNC4.5 tingkat kelulusan
dengan C4.5

Gambar 4.2 Proses Klasifikasi Data

48
Pada gambar 4.2. ditunjukkan proses klasifikasi data

menggunakan algoritma KNN untuk data yang bernilai kuantitatif dan

algoritma C4.5 untuk data yang bernilai kualitatif, hasil dari kedua

algoritma dikombinasikan menjadi algoritma KNNC4.5 untuk

menghasilkan kelas tingkat kelulusan dan factor-faktor yang

mempengaruhi tingkat kelulusan.

B. Simulasi Algoritma

Simulasi algoritma merupakan simulasi dari algoritma yang akan

digunakan dalam penelitian ini yaitu, algoritma K-Nearest Neighbor,

algoritma C4.5 dan algoritma KNNC4.5. Data yang digunakan adalah data

14 sekolah yang berada pada kota Palu berdasarkan sumber data dari

KEMENDIKBUD Provinsi Sulawesi Tengah. Data tersebut akan diproses

secara bertahap mulai dengan algoritma KNN, C4.5 dan kemudian

algoritma KNNC4.5.

1. Algoritma K-Nearest Neighbor

Dalam Algoritma K-Nearest Neighbor (KNN) ini langkah-langkah

dalam perhitungannya antara lain yaitu:

a. Menentukan nilai k atau tetangganya dengan batasan tertentu


b. Menghitung Validitas data training
c. Menghitung jarak Euclidean
d. Menghitung pembobotan (Weight voting)
e. Menentukan kelas dari daa testing

49
Data testing dan Data Training pada data karakteristik sekolah

Pada contoh perhitungan kali ini digunakan satu data testing dan

menggunakan lima data training. Data training dan data testing yang

dipakai seperti yang ditunjukkan pada tabel 4.1.

Tabel 4.1. Tabel Data Testing dan Data Training

Nama Jumlah Jumlah Jumlah Ruang Tingkat


No Status Lab Perpus
Sekolah siswa Rombel Guru Praktek kelulusan
Data Testing :
1 SMAN 2 N 1446 36 71 ?
Data Training :
1 SMAN 4 N 1286 33 71 < 100%
2 SMAN 6 N 579 15 35 < 100%
3 SMAN 8 N 241 9 27 < 100%
4 SMAN 1 N 2404 61 110 100%
5 SMAN 5 N 640 16 71 100%
SMA
6
KATOLIK
S 331 11 18 100%
7 SMA KARDIP S 148 6 15 100%
8 SMAN 3 N 2098 50 65 <100%
9 SMAN 6 N 579 15 35 <100%
SMAN
10
MADANI
S 235 9 30 100%

11 SMAN 9 N 226 8 36 100%


SMA
12
SWADAYA
S 138 6 7 <100%
13 SMA GPID S 126 5 6 <100%
14 SMAN 7 N 37 1317 55 100%

Proses perhitungan dengan algoritma KNN dilakukan untuk data

training dari data karakteristik sekolah yang bersifat kuantitatif, yaitu tabel

yang bergaris tebal seperti terlihat pada tabel 4.1

Langkah 1 Menentukan nilai k atau tetangganya

Pada perhitungan ini ditentukan nilai dari k yaitu 3.

50
Langkah 2 Menghitung Validitas data training

Setelah ditentukaan nilai k-nya makan dihitung nilai validitas dari

data training dengan persamaan 2.2.

1 𝑘
Validitas (x) = 𝐼=1 S(lbl(x), (lbl(Ni(x)))…. 2.2
𝑘

Dimana :

Tentukan k (jumlah tetangga terdekat) untuk kasus ini gunakan 3

tetangga terdekat, k = 3 yang telah ditentukan pada langkah 1

Lbl(x=1), validasi dimulai dari data training yang pertama dengan

kelasnya <100%.

Lbl(Ni(x=2)), Label kelas titik terdekat (x=1), yaitu data training yang

kedua (x=2) dengan kelasnya <100%. Label kelas titik terdekat sebanyak

nilai k, yaitu 3. Untuk lebih jelasnya perhatikan Tabel 4.2 berikut :

Tabel 4.2. Tabel Cara Hitung Validasi

Nama Tingkat
No
Sekolah kelulusan
Data Testing :
1 SMAN 2 ?
Data Training : X=1
1 SMAN 4 < 100% x=1
k=1
2 SMAN 6 < 100% x=2 a=b
k=2
3 SMAN 8 < 100% x=3
k=3
4 SMAN 1 100% x=4

5 SMAN 5 100% x=5

. . . .
. . . .
. . . .
14 SMAN 6 <100% x=14

51
Dari Tabel 4.2, bandingkan setiap kelas dengan kelas tetangga.

untuk menghitung kesamaan antara titik x dan data ke-i dari tetangga

terdekat gunakan fungsi S, sesuai dengan persamaan 2.3. Jika kelas

pada data training sama dengan kelas tetangganya maka nilanya 1 dan

jika kelas pada data training tidak sama dengan kelas pada tetangganya

maka nilainya adalah 0.

Dari keterangan dan penjelasan sebelumnya maka dapat dilakukan

perhitungan validitas untuk kasus dari tabel 4.1.

𝟏 𝒌
Validitas (x=1) = 𝑰=𝟏 S(lbl(x), (lbl(Ni(x)))
𝒌

𝟏 𝟑
= 𝑰=𝟏 S(lbl(x=1), (lbl(Ni(x=2)))
𝟑

𝟏
= 𝒙(𝟏 + 𝟏 + 𝟎)
𝟑

𝟐
=
𝟑

= 0.66667

Lakukan perhitungan yang sama untuk semua data training pada tabel

4.1. Hasil perhitungan Validitas dari semua data training ditunjukkan

Tabel 4.3.

52
Tabel 4.3. Tabel Hasil Perhitungan Validitas

Sum
K=1 K=2 K=3 Validitas
S(a,b)
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 0 0 0
1 1 1 3 1
1 1 0 2 0,6666667
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 0 1 0,3333333
0 0 1 1 0,3333333
1 0 1 2 0,6666667
0 1 0 1 0,3333333
0 0 1 1 0,3333333

Langkah 3 Menghitung jarak Euclidean

Pada perhitungan mencari nilai Euclidean, gunakan rumus seperti

pada persamaan 2.1, dan memasukkan data pada persamaan tersebut.

𝒑 𝟐
𝒅𝒆 = 𝟏−𝒊 (𝒙 𝟐𝒊 − 𝒙𝟏𝒊 )

Dimana : x2i adalah data uji dan x1i adalah data training sebanyak p

(atribut, yaitu: jumlah siswa, jumlah rombel dan jumlah guru), beradsarkan

data pada tabel 4.1.

De(1) = 𝟏𝟒𝟒𝟔 − 𝟏𝟐𝟖𝟔 𝟐 + 𝟑𝟔 − 𝟑𝟑 𝟐 + (𝟕𝟏 − 𝟕𝟏)^𝟐


= 𝟐𝟓𝟔𝟎𝟎 + 𝟑 + 𝟎

= 𝟐𝟓𝟔𝟎𝟑

= 160.0094

53
Lakukan perhitungan yang sama untuk semua data training pada tabel

4.1. Hasil perhitungan Euclidean untuk semua data training seperti yang

ditunjukkan tabel 4.4.

Tabel 4.4. Tabel Hasil Perhitungan Euclidean

Sum
No Euclidean
Euclidean
1 25609 160,0281225
2 916490 957,3348422
3 1454690 1206,105302
4 919910 959,1193878
5 650036 806,2481008
6 1246659 1116,538848
7 1688840 1299,55377
8 425336 652,1778898
9 753426 868,0011521
10 1468931 1211,994637
11 1490409 1220,823083
12 1715860 1309,908394
13 1747586 1321,962934
17473 132.1854758
14

Langkah 4 Menghitung pembobotan (weight voting)

Pada tahapan menghitung nilai weight voting yang didapat dari

memasukkan nilai Validitas dan nilai Euclidean pada persamaan 2.4.

𝟏
W(i) = Validitas(i) x 𝐝𝐞(𝟏)+𝟎.𝟓

𝟐 𝟏
= 𝟑 x 𝐝𝐞(𝟏)+𝟎.𝟓

𝟐 𝟏
= 𝟑 x 𝟏𝟔𝟎.𝟎𝟎𝟗𝟒 + 𝟎.𝟓

= 0.004153

54
Lakukan perhitungan yang sama untuk semua data training pada

tabel 4.1. Hasil perhitungan weight voting untuk semua data training

ditunjukkan tabel 4.5.

Tabel. 4.5. Tabel Hasil Perhitungan Weight voting

Weight Voting
0,004152959
0,000348007
0
0,00104208
0,000826363
0,000298408
0,0002564
0,000510716
0,000383803
0,000274915
0,000272928
0,000508747
0,000252055
0.002512207

Langkah 5 Menentukan kelas data testing

Setelah didapatkan nilai weight voting dari semua data training

maka dilakukan pencarian nilai weight voting yang terbesar sebanyak nilai

k yang telah ditentukan. Untuk lebih jelasnya dapat dilihat pada tabel 4.6.

55
Tabel. 4.6. Tabel Penentuan Kelas Berdasarkan Weight Voting

Tingkat Weight
No Nama Sekolah
kelulusan Voting
Data Testing :
1 SMAN 2 Palu ?
Data Training:
1 SMAN 4 < 100% 0.004091698
2 SMAN 1 Bolano < 100% 0.000347671
3 SMAN 8 < 100% 0
4 SMAN 1 100% 0.001042434
5 SMAN 5 100% 0.000825333
6 SMA KATOLIK 100% 0.000298184
7 SMA KARDIP 100% 0.000256239
8 SMAN 3 <100% 0.000510761
9 SMAN 6 <100% 0.000383377
10 SMAN MADANI 100% 0.000274731
11 SMAN 9 100% 0.000272743
12 SMA SWADAYA <100% 0.000508433
13 SMA GPID <100% 0.000251898
14 SMAN 7 100% 0.002512207

Dari tabel 4.6 maka didapatkan nilai dengan 3 weight voting

terbesar yaitu 0.004091698 dengan kelasnya lulus <100%, 0.001042434

dengan kelasnya Lulus 100% dan 0.000825333 dengan kelasnya lulus

100%. Kelas yang lebih banyak adalah lulus 100%. Maka dapat

disimpulkan bahwa SMAN 2 Palu dengan karakteristik jumlah rombel,

jumlah siswa, jumlah guru seperti ditunjukkan pada tabel 4.1 yang

diproses dengan algoritma KNN adalah Lulus 100%.

56
2. Algoritma C4.5

Untuk memudahkan penjelasan mengenai algoritma C4.5, berikut

ini dituangkan contoh kasus yaitu 14 SMA Negeri/Swasta di kota Palu

tahun 2010 dan bagaimana simulasi dari algoritma c4.5 terhadap 14

sekolah dengan atrubut status, lab, ruang praktek, perpustakaan, seperti

tertera pada tabel 4.7

Tabel 4.7. Tabel Kasus Data Kualitatif Penentuan Tingkat Kelulusan

Nama Jumlah Jumlah Jumlah Ruang Tingkat


No Status Lab Perpus
Sekolah siswa Rombel Guru Praktek kelulusan
Data testing :
1 SMAN 2 N G L MS ?
Data Trainning :
1 SMAN 4 N G TA MS < 100%
2 SMAN 1 N G TA TMS < 100%
Bolano
3 SMAN 8 N TA TA MS < 100%
4 SMAN 1 N G L MS <100%
5 SMAN 5 N G TA TMS 100%
6 SMA S L L TMS 100%
KATOLIK
7 SMA S L L MS 100%
KARDIP
8 SMAN 3 N G A MS <100%
9 SMAN 6 N G A MS <100%
10 SMAN S L L MS 100%
MADANI
11 SMAN 9 N G A MS 100%
12 SMA S TA TA TMS <100%
SWADAYA
13 SMA GPID S G TA TMS <100%
14 SMAN 7 N G A MS 100%

Keterangan :

G : Gabung N : Negeri
L : Lengkap S : Swasta
MS : Memenuhi Syarat A : Ada
TMS : Tidak Memenuhi Syarat TA : Tidak Ada

57
Pada kasus yang tertera pada tabel 4.7 akan dibuat pohon

keputusan untuk menentukan tingkat kelulusan setiap sekolah

berdasarkan karakteristik pada data training yang bersifat kualitatif yang

berboder tebal seperti yang terlihat pada tabel 4.7. Berikut langkah-

langkah perhitungan dengan algoritma C4.5.

Langkah 1. Memilih Atribut Sebagai Akar

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain

tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan

rumus seperti tertera pada persamaan 2.5 sebelumnya dan perhitungan

nilai Entropy dapat dilihat pada persamaan 2.6.

Langkah 2 Perhitungan Level 1

Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusan

100% dan jumlah kasus untuk tingkat kelulusan <100%. Menghitung

Entropy dari semua kasus dan menghitung entropy dari kasus yang

dibagi berdasarkan atribut STATUS, LAB, RUANG PRAKTEK,

PERPUSTAKAAN. Setelah itu dilakukan perhitungan Gain untuk setiap

atribut. Hasil perhitungan ditunjukkan oleh tabel 4.8.

58
Tabel 4.8 Tabel Perhitungan Level 0

Jumlah
100% < 100
Level kasus Entropy GAIN
(Si) % (S2)
(S)
1 TOTAL 14 6 8 0,985228136
LAB
GABUNG 9 3 6 0,918295834 0,394895
LENGKAP 3 3 0 0
TIDAK ADA 2 0 2 0
STATUS

NEGERI 9 3 6 0.91829583
0.048126886
SWASTA 5 3 2 0.970951

RUANG
PRAKTEK
LENGKAP 4 3 1 0,811278124 0,268698
ADA 4 2 2 1
TIDAK ADA 6 1 5 0,464385619
PERPUS
MS 9 4 5 0,99107606 0,00134
TMS 5 2 3 0,970950594

Baris Total kolom Entropy pada tabel 4.8 dihitung dengan persamaan 2.6

sebagai berikut :
𝟔 𝟔 𝟖 𝟖
Entropy(Total) = (− ∗ 𝒍𝒐𝒈𝟐 ( )) + (− ∗ 𝐥𝐨𝐠𝟐 ( ))
𝟏𝟒 𝟏𝟒 𝟏𝟒 𝟏𝟒

Entropy(Total) = 0,985228136

Sementara itu, nilai gain pada baris LAB dihitung dengan persamaan 2.5

sebagai berikut :
𝒏
|𝐋𝐀𝐁|
Gain(Total,LAB) = Entropy(Total) - ∗ Entropy(LAB)
𝒊=𝟏 |𝐓𝐎𝐓𝐀𝐋|

𝟗 𝟑 𝟐
= 0,985228136–(( 𝟏𝟒 ∗ 𝟎, 𝟗𝟏𝟖𝟐𝟗𝟓𝟖𝟑𝟒) + 𝟏𝟒
∗𝟎 + (𝟏𝟒 ∗ 𝟎))

= 0,394895

59
Lakukan perhitungan gain dan entropy untuk atribut yang lain sehingga

didapatkan hasil seperti yang tertera pada Tabel 4.8. Dari hasil yang

ditunjukkan pada tabel 4.8. dapat diketahui bahwa atribut dengan Gain

tertinggi adalah LABORATORIUM, yaitu sebesar 0.394895. Dengan

demikian LABORATORIUM dapat menjadi level akar. Ada tiga nilai atribut

dari LABORATORIUM, yaitu GABUNG, LENGKAP dan TIDAK ADA. Dari

ketiga nilai atribut tersebut, nilai atribut LENGKAP sudah

mengklasifikasikan kasus menjadi 1, yaitu kelulusan 100% dan nilai atribut

TIDAK ADA sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan

<100%, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi

untuk nilai atribut GABUNG masih perlu dilakukan perhitungan lagi.

Dari hasil tersebut dapat digambarkan pohon keputusan sementara

seperti tampak pada Gambar 4.3.

Lab

Gabung Lengkap Tidak ada

1 100% < 100%


?

Gambar
? 4.3. Pohon Keputusan Hasil Perhitungan Level 0

60
Langkah 3. Perhitungan level 1

Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusan

100% dan jumlah kasus untuk tingkat kelulusan <100%. Menghitung

Entropy dari semua kasus dan menghitung entropy dari kasus yang

dibagi berdasarkan atribut STATUS, RUANG PRAKTEK DAN

PERPUSTAKAAN yang menjadi level akar dari nilai atribut GABUNG.

Setelah itu perhitungan Gain untuk tiap-tiap atribut. Hasil perhitungan

ditunjukkkan oleh tabel 4.9.

Tabel 4.9. Tabel Perhitungan Level 1

Jumlah
100% < 100 %
Level kasus Entropy Gain
(Si) (S2)
(S)
1 LAB-
9 3 6 0,918229583
GABUNG

RUANG
PRAKTEK 0,113217084
LENGKAP 1 0 1 0
ADA 4 2 2 1
TIDAK ADA 4 1 3 0,811278124
STATUS
NEGERI 8 3 5 0.954435 0.069843806
SWASTA 1 0 1 0
PERPUS
MS 6 2 4 0,918229583 0
TMS 3 1 2 0,918229583

Dari hasil tabel 4.9 dapat diketahui bahwa atribut dengan Gain tertinggi

adalah RUANG PRAKTEK, yaitu sebesar 0.1131217084. Dengan

demikian RUANG PRAKTEK dapat menjadi level cabang dari nilai atribut

GABUNG. Ada tiga nilai atribut dari RUANG PRAKTEK, yaitu LENGKAP,

61
ADA dan TIDAK ADA. Dari ketiga atribut tersebut, nilai atribut LENGKAP

sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan <100%,

sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai

atribut ADA dan TIDAK ADA masih perlu dilakukan perhitungan lagi.

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan pada

Gambar 4.4 berikut.

Lab

Gabung Lengkap Tidak ada

1 100% < 100%


Ruang
Praktek

?
Lengkap Ada Tidak ada

<100% 1.3
1.2
? ?

? ?
Gambar 4.4. Pohon Keputusan Hasil Perhitungan Level 1

Langkah 3. Perhitungan Level 1.2 dan Level 1.3

Menghitung jumlah kasus, jumlah kasus untuk tingkat kelulusan

100% dan jumlah kasus untuk tingkat kelulusan <100%. Menghitung

62
Entropy dari semua kasus dan menghitung entropy dari kasus yang

dibagi berdasarkan atribut STATUS dan PERPUSTAKAAN yang dapat

menjadi level cabang dari nilai atribut-atribut Ada dan tidak ada, setelah itu

lakukan perhitungan Gain untuk tiap-tiap atribut. Hasil perhitungan

ditunjukkan oleh tabel 4.10.

Tabel 4.10. Tabel Perhitungan Level 1.2 dan Level 1.3

Jumlah 100% < 100


Level 1.2 Entropy Gain
kasus (S) (Si) % (S2)

LAB-(G) DAN
4 2 2 1
R.PRAKTEK-(A)

STATUS

N 4 2 2 1
0
S 0 0 0 0

PERPUS

MS 4 2 2 1 0
TMS 0 0 0 0
Level 1.3
LAB-(G) DAN
4 1 3 0,811278124
R.PRKATEK-(TA)

STATUS
N 3 1 2 0,918295834 0,122556249
S 1 0 1

PERPUS MS 1 0 1 0 0,122556249
TMS 3 1 2 0,918295834

Pada tabel 4.10, hasil perhitungan level 1.1.2 dan level 1.1.3, dapat

diketahui bahwa atribut dengan Gain tertinggi adalah RUANG PRAKTEK

dengan nilai atribut TIDAK ADA, yaitu sebesar 0.122556249. Dengan

63
demikian RUANG PRAKTEK–TIDAK ADA dapat menjadi level cabang dari

nilai atribut LAB-GABUNG dan STATUS, PERPUSTAKAAN dapat menjadi

level cabang dari nilai atribut TIDAK ADA. Ada dua nilai atribut dari

PERPUSTAKAAN, yaitu MEMENUHI SYARAT dan TIDAK MEMENUHI

SYARAT, dari kedua nilai atribut tersebut, nilai atribut MEMENUHI

SYARAT sudah mengklasifikasikan kasus menjadi 1, yaitu kelulusan

<100% dan dua nilai atribut dari STATUS yaitu NEGERI dan SWASTA,

dari kedua niali atribut tersebut, nilai atribut SWASTA sudah

mengklasifikasikan kasus menjadi 1, yaitu kelulusan <100% sehingga

untuk nilai atribut SWASTA dan MEMENUHI SYARAT tidak perlu

dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut TIDAK

MEMENUHI SYARAT dan NEGERI masih perlu dilakukan perhitungan

lagi.

Dari tabel 4.10, dapat dilihat bahwa atribut dari STATUS dan

PERPUSTAKAAN mempunyai nilai Gain yang sama yaitu 0.122556249

sehingga atribut STATUS dan PERPUSTAKAAN dapat menjadi sub akar

dari RUANG PRAKTEK dengan nilai atribut TIDAK ADA. Pohon

keputusan yang terbentuk sampai tahap ini ditunjukkan pada Gambar 4.5

berikut.

64
1

Lab

Gabung Lengkap Tidak ada

1.1 100% < 100%


Ruang
Praktek

Lengkap ?
Ada Tidak ada

<100%
1.2 1.3 1.4 1.5
Perpus- Perpus-
Status takaan Status
takaan

? ?
?
Negeri Memenuhi Memenuhi Tidak Memenuhi
Negeri Swasta
Syarat Syarat Syarat

100% 100% < 100% < 100% < 100% < 100%

Gambar 4.5. Pohon Keputusan Hasil Perhitungan Level 1.1.2 dan Level 1.1.3

Pohon keputusan yang terbentuk sampai tahap ini ditunjukkan

pada gambar 4.5. Dari pohon keputusan tersebut, diketahui bahwa semua

kasus sudah masuk dalam kelas tngkat kelulusan. Gambar 4.5

merupakan pohon keputusan terakhir yang terbentuk, dan dari pohon

keputusan dapat dibuat aturan atau rule dari algoritma C4.5, yaitu :

65
1. Laboratorium Lengkap maka tingkat kelulusan adalah 100%

2. Laboratorium tidak ada maka tingkat kelulusan adalah < 100%

3. Laboratorium Gabung – Ruang Praktek Lengkap maka tingkat

kelulusan adalah < 100%.

4. Laboratorium Gabung – Ruang Praktek Ada - Perpustakaan

Memenuhi syarat atau status Negeri maka tingkat kelulusan adalah

100%.

5. Laboratorium Gabung – Ruang Praktek Tidak ada – Perpustakaan

memenuhi syarat maka lulus < 100%. Atau Laboratorium Gabung –

Ruang Praktek Tidak ada – Status Negeri maka lulus < 100%.

6. Laboratorium Gabung – Ruang Praktek Tidak ada – Perpustakaan

tidak memenuhi syarat atau 5. Laboratorium Gabung – Ruang

Praktek Tidak ada – Status Swasta maka lulus < 100%.

Untuk Atribut yang mempunyai dua kelas maka perlu

memperhatikan besarnya jumlah kasus pada masing-masing kelas, jika

jumlah kasus salah satu kelas lebih besar dari yang lain maka kelas

tersebut merupakan keputusan dari klasifikasi kelas dan jika mempunyai

nilai yang sama maka kelas yang diambil adalah kelas dengan tingkat

kelulusan 100%.

Dari aturan atau rule yang terbentuk pada pohon keputusan

terakhir, maka dapat disimpulkan bahwa data testing pada SMA Negeri 2

66
palu dengan karakteristik sekolah adalah Laboratorium gabung, Ruang

Praktek lengkap dan Perpustakaan Memenuhi syarat terklasifikasi dalam

kelas dengan tingkat kelulusan yaitu Lulus 100%.

3. Algoritma KNNC4.5

Setelah dilakukan perhitungan dengan menggunakan algoritma

KNN dan algoritma C4.5 pada data testing yang sama yaitu SMA Negeri 2

Palu dan data training .yang sama yaitu 14 data training bahwa kedua

algoritma tersebut menghasilkan kelas yang sama yaitu LULUS 100%.

Hasil prediksi dari kedua algoritma KNN dan C4.5 dapat berbeda-

beda, maka hasil prediksi dapat ditentukan sebagai berikut:

1. Jika hasil kedua algoritma sama, maka hasil prediksi adalah hasil

dari salah satu algoritma.

2. Jika Hasil kedua algoritma berbeda, maka hasil yang digunakan

adalah hasil dari algoritma KNN, karena atribut pada algoritma KNN

yaitu jumlah siswa, jumlah guru dan jumlah rombel merupakan

parameter dan factor penting dalam karakteristik sekolah

dibandingkan dengan atribut dari Laboratorium, Ruang Praktek dan

Perpustakaan yang merupakan fasilitas yang pendukung

kesuksesan tingkat kelulusan . Dengan membandingkan masing-

masing atribut berdasarkan standarisasi berdirinya sebuah sekolah

maka atribut dari karakteristik sekolah yang dihitung dengan

algortima KNN merupakan atribut utama dan altribut yang dihitung

67
dengan algoritm C4.5 merupakan atribut pendukung, sehingga

hasil algoritma KNN yang digunakan sebagai penentu tingkat

kelulusan.

3. Hasil kombinasi dari algoritma KNN dan C4.5 seperti ditunjukkan

pada tabel 4.11 berikut.

Tabel 4.11. Tabel Output Kombinasi Algoritma KNNC4.5

Hasil Prediksi
No Output
KNN C4.5
1. Lulus 100%.
Lulus Lulus
1 2. Semua Karakteristik sekolah menunjang tinkat
100% 100%
kelulusan.
1. Lulus 100%.
2. Jumlah guru dan ruangan memenuhi syarat
kelulusan .
Lulus Tidak 3. Fasilitas sekolah yaitu Lab, R. Praktek dan
2
100% 100% Perpustakaan tidak mendukung kelulusan.
Misalnya, Lab tidak ada, atau ruang praktek tidak
ada dan atau perpustakaan tidak memenuhi
syarat.
1. Kelulusan tidak 100%.
Tidak Lulus
3 2. Jumlah ruangan/rombel dan jumlah guru tidak
100% 100%
memenuhi syarat kelulusan.
1. Kelulusan tidak 100%.
Tidak Tidak
4 2. Jumlah ruangan, jumlah guru dan fasilitas
100% 100%
sekolah tidak mendukung tingkat kelulusan.

Untuk hasil simulasi dari data testing SMA Negeri 2 palu dan 16

data training SMA Negeri/Swasta seprovinsi Sulawesi tengah

dengan algoritma KNN,C4.5 dan kombinasi keduanya maka

68
hasilnya dapat dilihat pada table 4.12. berikut, tabel hasil prediksi

untuk data testing SMA Negeri 2 Palu.

Tabel 4.12. Tabel Prediksi pada SMA Negeri 2 Palu dengan 16


Data Training
Nama Jumlah Jumlah Jumlah Proses Ruang Proses Tingkat
No Lab Status Perpus
Sekolah siswa Rombel Guru KNN Praktek C4.5 kelulusan
Data Testing
1 SMAN 2 1446 36 71 100% G N L MS 100% 100%
Data Training
1 SMAN 4 1286 33 71 G N TA MS < 100%
2 SMAN 6 579 15 35 G N TA TMS < 100%
3 SMAN 8 241 9 27 TA N TA MS < 100%
4 SMAN 1 2404 61 110 G N L MS 100%
5 SMAN 5 640 16 71 G N TA TMS 100%
6 SMA 331 11 18 L S L TMS 100%
KATOLIK
7 SMA 148 6 15 L S L MS 100%
KARDIP
8 SMAN 3 2098 50 65 G N A MS <100%
9 SMAN 6 579 15 35 G N A MS <100%
10 SMAN 235 9 30 L S L MS 100%
MADANI
11 SMAN 9 226 8 36 G N A MS 100%
12 SMA 138 6 7 TA S TA TMS <100%
SWADAYA
13 SMA GPID 126 5 6 G S TA TMS <100%

14 SMAN 7 37 1317 55 G N A MS 100%

69
C. Implementasi Sistem

User interface yang digunakan untuk proses interaksi antara user

dan sistem, user dalam hal ini adalah admin dan pimpinan. Berikut adalah

user interface mulai dari halaman utama, input, proses mining algoritma

dan output.

1. Halaman Utama

Gambar 4.6 merupakan tampilan halaman utama dari

aplikasi prediksi tingkat kelulusan berdasarkan karakteristik

sekolah.

Gambar 4.6. Halaman Utama

70
2. Penginputan Data

a. Input Data Training

Penginputan data sekolah dan tingkat kelulusan pada tahun

sebelumnya yang dilakukan oleh admin.

Gambar 4.7. Form Input Data sekolah

b. Input Data Testing

Penginputan data testing, yaitu data karakteristik sekolah

untuk menghasilkan klasifikasi tingkat kelulusan,

penginputan ini dapat dilakukan oleh admin dan pimpinan.

71
Gambar 4.8. Form Input Data Testing

3. Proses Algoritma KNN, ALgoritma C4.5 dan Gabungan

Algoritma KNNC4.5

a. Proses KNN

Merupakan proses menggunakan algortima, khusus untuk

data kuantitatif. Proses menginput nilai k.

Gambar 4.9. Form Proses KNN

72
b. Proses C4.5

Merupakan proses perhitungan dengan algoritma C4.5 untuk

data kualitatif dan membentuk akar dan sub akar yang

membentuk aturan dalam C4.5

Gambar 4.10. Form proses C4.5

c. Proses ALgoritma KNNC4.5

Merupakan proses gabungan dari output yang dihasilkan

dari proses algoritma KNN dan algoritma C4.5 yaitu

klasifikasi tingkat kelulusan dan membentuk aturan yang

akan menghasilkan factor-faktor yang mempengaruhi tingkat

kelulusan.

73
Gambar 4.11. Form proses KNNC4.5

4. Output Tingkat Kelulusan

Output tingkat kelulusan adalah hasil inputan data sekolah

melalui data testing yang dan telah diproses dengan algoritma

KNNC4.5, yaitu tingkat kelulusan dan factor-faktor yang

mempengaruhinya.. Berikut tampilan form ditunjukkan pada

gambar 4.12.

Gambar 4.12. Form Output Tingkat Kelulusan

74
D. Pengujian Sistem

Metode pengujian yang digunakan pada penelitian ini terdiri dari

Pengujian Black Box dan Pengujian akurasi. Pada pengujian fungsional

akan menggunakan metode pengujian Black box.. Metode pengujian

Black Box memfokuskan pada keperluan fungsional dari perangkat lunak.

Oleh karena itu, pengujian dengan metode Black Box memungkinkan

untuk membuat himpunan kondisi input yang akan melatih seluruh syarat-

syarat fungsional suatu program. Pengujian akurasi merupakan pengujian

keakuratan dari system dan hasil prediksi yang dihasilkan dengan data

yang sesungguhnya.

1. Pengujian Black Box

Pada pengujian fungsional ini penulis menggunakan metode

pengujian Black box. Yaitu yang berfokus pada persyaratan atau

kebutuhan fungsional perangkat lunak yang dibuat. Adapun hasil dari

pengujian digambarkan seperti tabel 4.13.

75
Tabel 4.13. Tabel Pengujian Black Box

Nama
Skenario Hasil yang Hasil
No form
Pengujian diharapkan pengujian
yang diuji
Ketika memasukkan
data training berupa
isian pada text box
dari karakteristik
Form
Tombol sekolah kemudian [ ] Diterima
Input Data
simpan menekan tombol [ ] Ditolak
Training
simpan, maka data
tersebut akan
tersimpan dalam
database.

Screen Shoot
Setelah menekan tombol simpan

1.

Hasil penyimpanan pada form informasi data testing

76
Ketika tombol
proses dan
inputkan nilai k dan
mengklik tombol
proses maka akan
Form
Tombol ditampilkan form [ ] Diterima
2. Proses
Proses proses knn dan [ ] Ditolak
KNN
kemudian disimpan
dan akan
dilanjutkan untuk
proses gabungan
KNNC4.5

Screen Shoot

Setelah menekan tombol Proses

Lalu tekan tombol keluar untuk tampilan ouput proses KNN

77
Ketika menekan
tombol Proses C4.5,
maka ditampilkan
akar dan sub akar
Form Tombol
dari data testing [ ] Diterima
Proses Proses
yang kemudian [ ] Ditolak
C4.5 C4.5
akan disimpan
didatabase untuk
menghasilkan
output dari c4.5

Screen Shoot

Sebelum menekan tombol proses

3.

Setelah Menekan tombol proses

78
2. Pengujian Akurasi

Pada Pengujian klasifikasi digunajan data sekokah yang terdiri dari

146 record. Data yang digunakan dalam system yaitu data sekolah

berdasarkan karakteristik sekolah yang dibagi menjadi dua kelas

yaitu kelas kelulusan 100% dan kelulusan <100%. Pada data ini

atribut yang digunakan antara lain yaitu jumlah siswa, jumlah

rombel, jumlah guru, laboratorium, status, ruang praktek dan

perpustakaan.

a. Pengujian untuk mengetahui pengaruh nilai k terhadap

tingkat akurasi.

Pengujian yang pertama dilakukan untuk mengetahui pengatuh

nilai k terhadap tingkat akurasi. Sedangkan pengujian yang kedua

dilakukan untuk mengetahui pengaruh jumlah record terhadap

tingkat akurasi. Pengujian terhadap nilai k, Hasil pengujian

terhadap nilai k, dengan inputan nilai k yang berbeda-beda pada

141 record/data training yaitu Nilai k dimulai dari k=1, k=3, dan

k=7. Untuk lebih jelasnya dapat dilihat pada Tabel 4.13.

79
Tabel 4.14. Tabel Hasil Pengujian Terhadap Nilai k

Prediksi Kelulusan Data Real


No Sekolah
k=1 k=3 k=7 Kelulusan

1 SMAN 2 Dolo 100% 100% 100% <100%


2 SMA ATmajaya <100% <100% 100% <100%
3 SMAN 1 Lore Utara <100% <100% 100% <100%
4 SMAN 1 Palu <100% <100% <100% <100%
5 SMAN 1 Ampana <100% <100% <100% <100%
6 SMAN 1 Menui 100% 100% 100% 100%

7 SMA Berdikari Palu 100% <100% 100% 100%

8 SMAN 4 Palu <100% <100% 100% <100%


9 SMAN 4 Palu 100% 100% 100% 100%
10 SMA 1 Bungku <100% <100% <100% <100%
11 SMAN 2 Poso 100% 100% 100% <100%
12 SMAN 2 Poso 100% 100% 100% 100%
13 SMAN 2 Palu 100% 100% 100% 100%
14 SMA GKST Palu <100% <100% <100% 100%
15 SMAN PGRI 1 <100% <100% <100% <100%
16 SMAN 1 Palolo 100% 100% 100% 100%

Dari tabel 4.14, dapat dilihat bahwa pengujian terhadap nilai k

untuk 16 data training dan data kelulusan sekolah, hasil klasifikasi

kelulusan pada masing-masing nilai k berbeda-beda, hal ini karena

nilai validasi juga berbeda yang akan mempengaruhi nilai ecludian

dan nilai weight voting. nilai k= 1 mempunyai hasil prediksi yang

lebih akurat dengan data asli dibandingkan dengan nilai k = 3 dan

nilai k=7. Perhatikan tingkat kelulusan dari masing-masing sekolah

pada setiap inputan nilai k, tingkat kelulusan yang tidak sesuai

dengan data asli adalah ditandai dengan font lebih tebal atau bold,

perhatikan tabel 4.13 untuk k=1 ada 3 sekolah yang prediksinya

80
tidak sama dengan data asli, k=3 ada 4 sekolah dan k=7 ada 5

sekolah sehingga dapat dikatakan untuk k=1 lebih akurat

dibandingkan yang lain.

Pada tahap pengujian selanjutnya terdapat 3 record yaitu 50,

70 dan 141 dengan k perulangan 1, 3 dan 7. Untuk pengujian

pengaruh nilai k dapat diketahui bahwa akurasi makasimum data

sekolah terdapat pada k =1. Tetapi pada pengaruh k pada akurasi

minimum tidak sama pada tiap recordnya.

Hasil pengujian yang didapat untuk mengetahui pengaruh

nilai k terhadap tingkat akurasi yaitu, semakin bertambahnya

jumlah nilai k maka akurasi yang didapatkan semakin menurun.

Untuk akurasi yang berhubungan dengan jumlah k, dari penelitian

yang ada akurasi maksimumnya cenderung pada k=1, karena nilai

k yang kecil akan mengurangi noise. Hal ini dikarenakan adanya

kelas yang yang mendominasi data set tersebut, sehingga untuk

data yang diambil pada perhitungan memiliki kelas yang sama.

Kemudian akurasi k tertinggi cendurung pada k=1, hal ini

dikarenakan tetangga yang dibandingkan hanya satu tetangga saja.

Untuk data yang berdekatan lebih sering memiliki kelas yang sama,

sehingga mempengaruhi perhitungan validitasnya.

81
b. Pengujian untuk mengetahui pengaruh jumlah data latih

(record) terhadap tingkat akurasi

Untuk pengujian pengaruh jumlah record sendiri

pengujiannya diambil dari record 50, 70 dan 141 dengan input k=1.

Untuk lebih jelasnya dapat pada Gambar 4.13. Pengaruh jumlah

nilai maksimum tiap record terhadap tingkat akurasi.

tingkat akurasi
100

Akurasi %
50 tingkat
akurasi
0
50 70 100 141

Jumlah record

Gambar 4.13. Pengaruh jumlah nilai maksimum tiap record


terhadap tingkat akurasi.

Hasil pengujian jumlah nilai makasimum record terhadap

tingkat akurasi didapatkan hasil berupa kenaikan akurasi pada

pertambahan jumlah record data sekolah. Peningkatan jumlah data

latih turut disetai dengan peningkatan nilai akurasi. Hal ini

dikarenakan dengan meningkatkan jumlah data latih turut disertai

dengan kenaikan tingkat akurasi data, sehingga semakin

banyaknya data latih maka kemungkinan semakin banyaknya jarak

record yang mendekati kelas data prediksi.

82
Pengujian akurasi merupakan pengujian keakuratan dari

system dan hasil prediksi yang dihasilkan dengan data yang

sesungguhnya. Pengujian akurasi dilakukan pada nilai k=1 dan

dengan 16 data testing dan pada record 141 data training. Untuk

lebih jelasnya dapat dilihat pada tabel 4.15

Tabel 4.15. Tabel Pengujian Akurasi untuk k=1

Prediksi
No Data Asli Prediksi benar
(k=1)
1 100% <100% 0
2 <100% <100% 1
3 <100% <100% 1
4 <100% <100% 1
5 <100% <100% 1
6 100% 100% 1
7 100% 100% 1
8 <100% <100% 1
9 100% 100% 1
10 <100% <100% 1
11 100% <100% 0
12 100% 100% 1
13 100% 100% 1
14 <100% 100% 0
15 <100% <100% 1
16 100% 100% 1
Jumlah prediksi benar 13

Dari tabel 4.15, dapat dilihat bahwa jumlah prediksi benar

adalah 13 dari 16 data testing yang diuji dengan inputan nilai

k = 1. Jika prediksi sesuai dengan data asli atau benar maka

nilainya adalah 1 dan jika prediksi tidak sesuai dengan data

asli atau salah maka nilainya adalah 0. Dari tabel 4.14 dapat

83
dihitung tingkat akurasi dari algoritma KNNC4.5 sehingga

dapat digunakan sebagai acuan untuk memprediksi tingkat

kelulusan pada tahun berikutnya. Berikut hasil perhitungan

akurasi berdasarkan persamaan 2.7.

Jumlah prediksi benar


X 100%
Akurasi =
Jumlah total prediksi
13
= x 100%
16

= 0.81 x 100%

= 81 %

Jumlah data yang diuji adalah 16 dengan jumlah kesalahan

adalah 3 dengan jumlah record atau data training yaitu 141 maka

hasil Akurasi yang diperoleh adalah 81% sehingga dapat dikatakan

bahwa algoritma yang digunakan untuk memprediksi tingkat

kelulusan adalah akurat.

84
BAB V

PENUTUP

A. KESIMPULAN

Berdasarkan hasil penelitian yang telah dilakukan, maka dapat ditarik

beberapa kesimpulan sebagai berikut:

1. Algoritma KNNC4.5 dapat diimplementasikan untuk klasifikasi data

sekolah yang menghasilkan prediksi tingkat kelulusan dan factor-faktor

yang mempengaruhi tingkat kelulusan. Tingkat akurasi pada metode

algoritma KNNC4.5 dipengaruhi beberapa factor yaitu nilai k dan jumlah

data latih. Nilai k yang terlalu besar menghasilkan akurasi yang kurang

baik karena berpengaruh terjadinya noise dan jumlah data latih yang

besar menghasilkan nilai akurasi yang tinggi. Jumlah dan nilai atribut

juga akan mempengaruhi tingkat akurasi.

2. Berdasarkan hasil analisa dan pengujian maka data kuantitatif

merupakan factor utama dan data kualitatif merupakan factor pendukung

dalam proses klasifikasi tingkat kelulusan berdasarkan karakteristik

sekolah.

85
B. SARAN

Berdasarkan hasil penelitian yang telah dilakukan, maka dapat

disarankan untuk pengembangan selanjutnya saran yang bisa diberikan

penulis adalah diharapkan pada data training menggunakan variasi data yang

lebih beragam dan tidak dominan di satu kelas.

86
DAFTAR PUSTAKA

[1] Petunjuk Teknis (Juknis) Pelaksanaan Peraturan Pemerintah No. 19


Tahun 2005, Ps. November 2005
[2] Kusrini, Emha T. Luthfi. “Algoritma Data Mining”. Penerbit ANDI, 2009

[3] Budi Santosa, “Data Mining Teknik Pemanfaatan Data untuk Keperluan
Bisnis”. Penerbit 2007.

[4] Donald E. Knuth.1999. “The Art of Computer Programming (TAOCP)”.


Computer Science Department Stanford University.California

[5] Kusnawi, 2007. “Pengantar Solusi Data Mining”. Seminar Nasional


Teknologi 2007 (SNT 2007).Yogyakarta.

[6] Pramudiono, Iko. 2003. “Pengantar Data Mining: Menambang Permata


Pengetahuan di Gunung Data”. Ilmu Komputer.Com.

[7] Y. Agusta (2007), “K-Means – Penerapan, Permasalahan dan Metode


Terkait” (in Indonesian), Jurnal Sistem dan Informatika, Vol. 1 (Pebruari
2007), 47-60.

[8] Hamid Parvin, Hosein Alizadeh and Behrouz Minaei-Bidgoli.2008.


“MKNN: Modified K-Nearest Neighbor”. Proceedings of the World
Congress on Engineering and Computer Science.San Francisco.

[9] Sarkar, Manish dan Leong, Tze-Yun. 2000. “Application of K-Nearest


Neighbors Algorithm on Breast Cancer Diagnosis Problem”. The
National University of Singapore. Singapore.

[10] Iin Ernawati. “Prediksi Status Keaktifan Studi Mahasiswa dengan


algortima C5.0 dan K-Nearest Neighbor”. Pascasarjana Institut
Pertanian Bogor, 2008.

87
[11] Imron Rosyidi, Mochammad Hariadi, I Ketut Eddy Purnama. “Data
Mining Kemampuan Siswa berbasis NeuroFuzzy”. Jurnal Teknik Elektro,
FTI, Institut Teknologi Sepuluh November Surabaya.

[12] Kusrini, Sri Hartati, Retantyo Wardoyo, Agus Harjoko “Perbandingan


metode Nearest Neighbor dan algoritma C45 untuk menganalisis
kemungkinan pengunduran diri calon mahasiswa di STMIK AMIKOM
Yogyakarta”, Yogyakarta, Jurnal DASI Vol. 10 No. 1 Maret 2009, ISSN:
1411-3201

[13] “Penerapan Algoritma Modified K-Nearest Neighbor Mknn Untuk


Mengklasifikasi Letak Protein pada Bakteri E-Coli”, 2010.

[14] Roger S. Pressman. “Rekayasa Perangkat Lunak Pendekatan Praktisi


(buku satu)”. Penerbit Andi Yogyakarta. 2002.

[15] Yuni Sugiarti. “Analisis dan Perancangan UML (Unified Modelling


Language) Generated VB.6”. Penerbit Graha Ilmu Yogyakarta. 2013.

88

Anda mungkin juga menyukai