Pendahuluan
Landasan Teori
1.2.1 Klasifikasi
Klasifikasi merupakan supervised learning dan
telah menjadi salah satu peran utama data
mining. Supervised learning atau pembelajaran
dengan menggunakan guru adalah sebuah
proses data mining dengan menggunakan data
lampau. Dalam hal ini dapat juga diartikan
pembelajaran dengan menggunakan guru.
Dalam klasifikasi data lampau yang ada
sebelumnya dianalisa untuk mendapatkan pola
dari data. Selain pola proses klasifikasi juga
dapat mencari aturan ataupun sebuah pohon
keputusan. Salah satu atribut data dalam
sebuah klasifikasi dijadikan sebagai label atau
atribut tujuan. Kemudian jika ada record data
baru yang belum diketahui labelnya maka akan
dihitung dengan menggunakan algoritma
tersebut dan dapat diketahui kemungkinan
labelnya.
Baru
Gambar 1.1 Ilustrasi kedekatan pasien baru dengan kasus lama [12]
Seperti tampak pada gambar 2.11 terdapat tiga
pasien lama yaitu A, B, dan C. Ketika muncul
pasien baru, maka solusi yang akan diambil
adalah solusi dari pasien lama yang memiliki
kedekatan jarak paling dekat dengan pasien
baru. Tentunya pasien A menjadi pasien
terdekat yang nantinya dapat digunakan
sebagai solusi penanganan pasien baru
tersebut. Rumus dasar untuk menghitung
kedekatan antara dua kasus adalah sebagai
berikut:
Keterangan:
T : Kasus baru
S : Kasus yang ada dalam penyimpanan
n : Jumlah atribut dalam setiap kasus
i
2.1 Dataset
Dataset yang digunakan dalam penelitian ini
adalah data PMB STMIK Widya Pratama
Pekalongan tahun 2011. Percobaan dilakukan
beberapa kali dengan menggunakan jumlah
atribut yang berbeda. Percobaan pertama
dilakukan dengan menggunakan 4 atribut yang
sama seperti yang pernah dilakukan oleh
penelitian Sugianti (2012) sebelumnya.
Kemudian
percobaan
kedua
dengan
menggunakan 8 atribut, percobaan ketiga
dengan menggunakan 12 atribut, serta
percobaan keempat dengan menggunakan 16
atribut data. Seluruh atribut yang digunakan
dalam keempat percobaan tersebut dapat
dilihat pada tabel 2.1 berikut.
Atribut
yang
digunakan
Percobaan 1
(4 Atribut)
Percobaan 2
(8 Atribut)
Percobaan 3
(12 Atribut)
Percobaan 4
(16 Atribut)
Kota / kecamatan,
prodi,
status pendaftaran,
geelombang.
Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus.
Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus,
jenis kelamin,
jenjang,
shift kelas,
biaya kuliah.
Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus,
jenis kelamin,
jenjang,
shift kelas,
biaya kuliah,
sesi pendaftaran,
kota sekolah asal,
gelombang grade,
kelas.
2.2 Pengujian
Pengujian dalam penelitian ini adalah
menggunakan cross validation. Dalam
pengujian cross validation sejumlah record
data dijadikan sebagai data uji (data testing)
serta sebagian besar yang lain digunakan
sebagai data pelatihan (data training).
Kemudian hasil klasifikasi dari data uji
tersebut dibandingkan dengan data sebenarnya
untuk mengetahui benar atau salah klasifikasi
yang dilakukan. Proses tersebut diulang
sampai keseluruhan record data mendapatkan
bagian sebagai data uji. Hasil dari semua
pengujian dihitung dan diambil rata-rata untuk
mendapatkan tingkat akurasi dari algoritma.
Tabel 3.1 Tingkat akurasi k-NN untuk data PMB STMIK Widya Pratama Pekalongan
Percobaan 1
Percobaan 2
Percobaan 3
Percobaan 4
(4 atribut)
(8 atribut)
(12 atribut)
(16 atribut)
Akurasi
62,10%
81,38%
83,79%
94,30%
Precission
37,60%
70,33%
71,15
91,43%
recall
54,12%
57,65%
70,59%
87,84%
4 Kesimpulan
Dari hasil penelitian yang telah dilakukan
sebelumnya maka dapat ditarik kesimpulan
bahwa algoritma k-NN akan lebih kuat jika
atribut dalam data yang dipakai berdimensi
tinggi. Terbukti dengan semakin naiknya
tingkat akurasi algoritma ketika atribut yang
digunakan ditambah sesuai dengan skala
tertentu. Semakin banyak atribut yang
mempengaruhi akan meningkatkan performa
k-NN secara keseluruhan [10].
5 Saran dan Penelitian berikutnya
Dalam penelitian ini setiap atributnya belum
diberikan pembobotan untuk membedakan
prioritas dan kepentingan satu atribut dengan
atribut lainnya. Penelitian berikutnya k-NN
dapat ditambahkan dengan pembobotan untuk
setiap atributnya. Serta dalam penelitian ini
atribut yang digunakan dipilih secara manual
dengan melihat pengaruh atribut tersebut
terhadap heregistrasi mahasiswa. Dalam
penelitian berikutnya juga dapat ditambahkan
algoritma seleksi fitur untuk melakukan
pemilihan atribut secara otomatis.
6
[1]
Daftar Pustaka
I. H. Witten, E. Frank, and M. A. Hall,
Data Mining: Practical Machine
Learning Tools and Techniques 3rd
Edition. Elsevier, 2011.
[2]
[3]
[4]
[6]
A. H. M. Ragab, A. Y. Noaman, A. S.
Al-Ghamdi, and A. I. Madbouly, A
Comparative Analysis of Classification
Algorithms for Students College
Enrollment Approval Using Data
Mining, 2014.
[7]
[8]
[9]
[10]
D. R. Amancio, C. H. Comin, D.
Casanova, G. Travieso, O. M. Bruno, F.
A. Rodrigues, and L. da F. Costa, A
Systematic Comparison of Supervised
Classifiers, 2013.
[11]
[12]