Anda di halaman 1dari 4

Peningkatan Performa Algoritma Klasifikasi K-Nearest Neighbour pada

Data Berdimensi Tinggi


Ivandari
Program Studi Teknik Informatika
STMIK Widya Pratama
Jl. Patriot 25 Pekalongan
Telp (0285) 427816
Email: neng.ivan@gmail.com
Abstrak
Klasifikasi merupakan salah satu tugas utama data mining. Salah satu algoritma klasifikasi yang
banyak dipakai dan dikembangkan oleh peneliti adalah k-Nearest Neighbour. Penelitian ini merupakan
sebuah klasifikasi untuk mengetahui kemungkinan heregistrasi mahasiswa dengan menggunakan data
PMB STMIK Widya Pratama Pekalongan tahun 2011. Percobaan dilakukan dengan menggunakan
jumlah atribut yang berbeda. K-NN menunjukkan performa yang lebih baik dengan menggunakan
atribut berdimensi tinggi. Dengan 4 atribut akurasi k-NN hanya 62,10% dan dengan menambahkan 4
atribut menjadi 8 akurasinya naik drastis menjadi 81,38%. Sedangkan dengan menggunakan 12 atribut
akurasinya kembali naik menjadi 83,79%. Dan dengan 16 atribut akurasi k-NN meningkat menjadi
94,30%. Hal ini menguatkan teori bahwa performa k-NN akan naik ketika data yang digunakan
berdimensi tinggi.
Kata kunci: K-NN, Atribut data, Akurasi
1

Pendahuluan

1.1 Latar Belakang


Klasifikasi merupakan salah satu tugas utama
data mining. Dalam klasifikasi terdapat
berbagai
macam
algoritma
dengan
karakteristik serta kemampuan masing-masing
[1] [2]. Salah satu algoritma klasifikasi yang
banyak dipakai dan dikembangkan oleh
peneliti adalah k-Nearest Neighbour [4]. KNearest Neighbour (k-NN) merupakan sebuah
metode untuk mencari kedekatan kasus baru
dengan kasus lama yang sudah tercatat [5].
Banyak penelitian yang dilakukan untuk
meningkatkan performa algoritma k-NN. Salah
satu yang paling menarik adalah dalam proses
pemilihan atribut yang digunakan dalam proses
perhitungan klasifikasi serta pembobotan
atribut dalam data.
STMIK Widya Pratama merupakan salah satu
perguruan tinggi swasta yang ada di Kota
Pekalongan. Setiap tahun STMIK Widya
Pratama melakukan penerimaan mahasiswa
baru dengan dibantu tim marketing beserta
panitia PMB. Untuk sebuah perguruan tinggi
swasta
jumlah
mahasiswa
sangatlah
mempengaruhi
pendapatan
akademik.

Penelitian mengenai prediksi heregistrasi


mahasiswa banyak dilakukan oleh peneliti.
Ragab
(2014)
dalam
penelitiannya
membandingkan beberapa algoritma klasifikasi
data mining [6]. Kemudian Sugianti (2012)
melakukan
prediksi
heregistrasi
calon
mahasiswa STMIK Widya Pratama dengan
menggunakan
algoritma
Bayesian
classification [7]. Dalam penelitian tersebut
algoritma bayessian classification memperoleh
akurasi sebesar 78% dengan menggunakan
data PMB Stmik Widya Pratama tahun 2011.
Atribut yang digunakan dalam penelitian
tersebut antara lain: kota asal, program studi,
status pendaftaran serta gelombang untuk
memprediksi atribut label yaitu registrasi.
Dalam penelitian ini akan digunakan data yang
sama yaitu data PMB STMIK Widya Pratama
Pekalongan tahun 2011. Atribut yang
digunakan dalam penelitian ini adalah atribut
yang
dianggap
dapat
mempengaruhi
heregistrasi calon mahasiswa. Seleksi fitur
dalam penelitian ini dilakukan dengan cara
manual dan belum menggunakan algoritma
seleksi fitur. Berikutnya akan dilakukan
pembuktian apakah dengan banyaknya atribut

dapat mempengaruhi performa dari algoritma


k-NN.
1.2

Landasan Teori

1.2.1 Klasifikasi
Klasifikasi merupakan supervised learning dan
telah menjadi salah satu peran utama data
mining. Supervised learning atau pembelajaran
dengan menggunakan guru adalah sebuah
proses data mining dengan menggunakan data
lampau. Dalam hal ini dapat juga diartikan
pembelajaran dengan menggunakan guru.
Dalam klasifikasi data lampau yang ada
sebelumnya dianalisa untuk mendapatkan pola
dari data. Selain pola proses klasifikasi juga
dapat mencari aturan ataupun sebuah pohon
keputusan. Salah satu atribut data dalam
sebuah klasifikasi dijadikan sebagai label atau
atribut tujuan. Kemudian jika ada record data
baru yang belum diketahui labelnya maka akan
dihitung dengan menggunakan algoritma
tersebut dan dapat diketahui kemungkinan
labelnya.

1.2.2 K-Nearest Neighbour


K-Nearest Neighbour (k-NN) [5] adalah
pendekatan untuk mencari kasus dengan
menghitung kedekatan antara kasus baru
dengan kasus lama, yaitu berdasarkan pada
pencocokan bobot dari sejumlah fitur yang ada
[12]. K didalam k-NN merupakan jumlah
tetangga yang akan diambil untuk menentukan
keputusan.
Misalkan data rumah sakit mencatat banyak
pasien dengan gejala penyakit tertentu dan
penanganan khusus untuk jenis deteksi
penyakit tertentu. Jika terdapat kasus baru
dengan gejala yang menyerupai beberapa
kasus dengan vonis penyakit yang berbeda
maka k-NN dapat digunakan sebagai alat bantu
untuk menentukan jarak kedekatan antara
pasien baru dengan semua pasien lama. Maka
kasus dengan jarak kedekatan yang terbesar
yang akan diambil solusi yang sama untuk
pasien baru tersebut. Contoh secara nyata
kedekatan kasus dalam k-NN dapat dilihat
pada
gambar
2.10
berikut

Baru

Gambar 1.1 Ilustrasi kedekatan pasien baru dengan kasus lama [12]
Seperti tampak pada gambar 2.11 terdapat tiga
pasien lama yaitu A, B, dan C. Ketika muncul
pasien baru, maka solusi yang akan diambil
adalah solusi dari pasien lama yang memiliki
kedekatan jarak paling dekat dengan pasien
baru. Tentunya pasien A menjadi pasien
terdekat yang nantinya dapat digunakan
sebagai solusi penanganan pasien baru
tersebut. Rumus dasar untuk menghitung
kedekatan antara dua kasus adalah sebagai
berikut:

Keterangan:
T : Kasus baru
S : Kasus yang ada dalam penyimpanan
n : Jumlah atribut dalam setiap kasus
i

: Atribut individu antara 1 sampai dengan n

f : Fungsi similarity atribut i antara kasus T


dan kasus S
w : Bobot yang diberikan pada atribut ke i
Perhitungan algoritma k-NN menghitung
kedekatan data baru dengan keseluruhan data

yang ada. Artinya jika data lampau adalah data


dengan record yang besar maka k-NN akan
membutuhkan waktu yang lama dan komputasi
yang mahal untuk menghitung kedekatan
keseluruhan record data lampau dengan data
baru.
2 Metode Penelitian
Penelitian ini dilakukan dengan menggunakan
metode eksperimen dan dengan alat bantu
yaitu rapid miner. Data yang digunakan adalah
data PMB STMIK Widya Pratama Pekalongan
tahun penerimaan 2011. Pengujian dilakukan
dengan menggunakan confusion matrix untuk
mengetahui tingkat akurasi dari algoritma KNN terhadap dataset yang disediakan.

2.1 Dataset
Dataset yang digunakan dalam penelitian ini
adalah data PMB STMIK Widya Pratama
Pekalongan tahun 2011. Percobaan dilakukan
beberapa kali dengan menggunakan jumlah
atribut yang berbeda. Percobaan pertama
dilakukan dengan menggunakan 4 atribut yang
sama seperti yang pernah dilakukan oleh
penelitian Sugianti (2012) sebelumnya.
Kemudian
percobaan
kedua
dengan
menggunakan 8 atribut, percobaan ketiga
dengan menggunakan 12 atribut, serta
percobaan keempat dengan menggunakan 16
atribut data. Seluruh atribut yang digunakan
dalam keempat percobaan tersebut dapat
dilihat pada tabel 2.1 berikut.

Tabel 2.1 Atribut dalam percobaan

Atribut
yang
digunakan

Percobaan 1
(4 Atribut)

Percobaan 2
(8 Atribut)

Percobaan 3
(12 Atribut)

Percobaan 4
(16 Atribut)

Kota / kecamatan,
prodi,
status pendaftaran,
geelombang.

Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus.

Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus,
jenis kelamin,
jenjang,
shift kelas,
biaya kuliah.

Kota / kecamatan,
prodi,
status pendaftaran,
geelombang,
agama,
status pekerjaan,
status sipil,
tahun lulus,
jenis kelamin,
jenjang,
shift kelas,
biaya kuliah,
sesi pendaftaran,
kota sekolah asal,
gelombang grade,
kelas.

2.2 Pengujian
Pengujian dalam penelitian ini adalah
menggunakan cross validation. Dalam
pengujian cross validation sejumlah record
data dijadikan sebagai data uji (data testing)
serta sebagian besar yang lain digunakan
sebagai data pelatihan (data training).
Kemudian hasil klasifikasi dari data uji
tersebut dibandingkan dengan data sebenarnya
untuk mengetahui benar atau salah klasifikasi
yang dilakukan. Proses tersebut diulang
sampai keseluruhan record data mendapatkan
bagian sebagai data uji. Hasil dari semua
pengujian dihitung dan diambil rata-rata untuk
mendapatkan tingkat akurasi dari algoritma.

3 Hasil dan Pembahasan


Dari haasil penelitian diketahui bahwa
algoritma k-NN mengalami peningkatan
akurasi ketika data memiliki dimensi yang
tinggi. Dengan menggunakan 4 atribut k-NN
mendapat tingkat akurasi sebesar 62,10%.
Peningkatan yang cukup signifikan terjadi
ketika atribut yang digunakan berjumlah 8 dan
16. Dengan menggunakan 8 atribut k-NN
mendapat tingkat akurasi sebesar 81,38%.
Sedangkan dengan menggunakan jumlah
atribut 12 k-NN mendapat tingkat akurasi
83,79%, dan 94,30% untuk 16 atribut. Hasil
penelitian secara lebih jelas dapat dilihat pada
tabel 3.1 dibawah.

Tabel 3.1 Tingkat akurasi k-NN untuk data PMB STMIK Widya Pratama Pekalongan
Percobaan 1

Percobaan 2

Percobaan 3

Percobaan 4

(4 atribut)

(8 atribut)

(12 atribut)

(16 atribut)

Akurasi

62,10%

81,38%

83,79%

94,30%

Precission

37,60%

70,33%

71,15

91,43%

recall

54,12%

57,65%

70,59%

87,84%

4 Kesimpulan
Dari hasil penelitian yang telah dilakukan
sebelumnya maka dapat ditarik kesimpulan
bahwa algoritma k-NN akan lebih kuat jika
atribut dalam data yang dipakai berdimensi
tinggi. Terbukti dengan semakin naiknya
tingkat akurasi algoritma ketika atribut yang
digunakan ditambah sesuai dengan skala
tertentu. Semakin banyak atribut yang
mempengaruhi akan meningkatkan performa
k-NN secara keseluruhan [10].
5 Saran dan Penelitian berikutnya
Dalam penelitian ini setiap atributnya belum
diberikan pembobotan untuk membedakan
prioritas dan kepentingan satu atribut dengan
atribut lainnya. Penelitian berikutnya k-NN
dapat ditambahkan dengan pembobotan untuk
setiap atributnya. Serta dalam penelitian ini
atribut yang digunakan dipilih secara manual
dengan melihat pengaruh atribut tersebut
terhadap heregistrasi mahasiswa. Dalam
penelitian berikutnya juga dapat ditambahkan
algoritma seleksi fitur untuk melakukan
pemilihan atribut secara otomatis.
6
[1]

Daftar Pustaka
I. H. Witten, E. Frank, and M. A. Hall,
Data Mining: Practical Machine
Learning Tools and Techniques 3rd
Edition. Elsevier, 2011.

[2]

D. T. Larose, Discovering Knowledge


in Data: an Introduction to Data
Mining. John Wiley & Sons, 2005.

[3]

J. Han and M. Kamber, Data Mining:


Concepts and Techniques Second
Edition. Elsevier, 2006.

[4]

X. Wu, V. Kumar, J. R. Quinlan, J.


Ghosh, Q. Yang, H. Motoda, G. J.

Mclachlan, A. Ng, B. Liu, P. S. Yu, Z.


Z. Michael, S. David, and J. H. Dan,
Top 10 algorithms in data mining.
2007, pp. 137.
[5]

T. M. Cover and P. E. Hart, Nearest


Neighbor Pattern Classification, vol. I,
1967.

[6]

A. H. M. Ragab, A. Y. Noaman, A. S.
Al-Ghamdi, and A. I. Madbouly, A
Comparative Analysis of Classification
Algorithms for Students College
Enrollment Approval Using Data
Mining, 2014.

[7]

D. Sugianti, Algoritma Bayesian


Classification Untuk Memprediksi
Heregistrasi Mahasiswa Baru di
STMIK Widya Pratama, no. 2, pp. 1
5, 2012.

[8]

Maimoon, Data Mining and Knowledge


Discovery Handbook. 2010.

[9]

E. Alpaydin, Introduction to Machine


Learning Second Edition. 2010.

[10]

D. R. Amancio, C. H. Comin, D.
Casanova, G. Travieso, O. M. Bruno, F.
A. Rodrigues, and L. da F. Costa, A
Systematic Comparison of Supervised
Classifiers, 2013.

[11]

A. Ashari, I. Paryudi, and A. M. Tjoa,


Performance Comparison between
Nave Bayes , Decision Tree and kNearest Neighbor in Searching
Alternative Design in an Energy
Simulation Tool, vol. 4, no. 11, pp.
3339, 2013.

[12]

Kusrini and L. E. Taufiq, Algoritma


Data Mining. Yogyakarta: Andi Offset,
2009.

Anda mungkin juga menyukai