Classification of Underdeveloped Areas in Indonesia Using The SVM and K-NN Algorithms
Classification of Underdeveloped Areas in Indonesia Using The SVM and K-NN Algorithms
fungsi dalam SVM yang digunakan untuk SVM dengankernel RBF memprediksi status
karakteristik data yang tidak terindikasi wilayah “Tertinggal” adalah sebanyak 109 kali,
terklasifikasi secara linier. Kernel RBF pada dan memprediksi suatu wilayah kedalam status
SVM memiliki parameter C atau Costdan “Tidak Tertinggal” adalah sebanyak 20 kali.
parameter Gamma (γ). Kernel RBF bekerja Sementara itu 103 daerah secara data aktual
dengan cara mengoptimasi parameter C dan merupakan daerah berstatus tertinggal dan 26
Gammauntuk mendapatkan akurasi klasifikasi daerah lainnya adalah daerah berstatus tidak
terbaik dengan cara melakukan berbagai tertinggal.Berdasarkan Tabel 6 nilai prediksi
kombinasi model atau trial and error.Hasil bernilai 8 merupakan nilai False Positive (FP),
optimasi parameter C dan γ menggunakan artinya nilai tersebut adalah prediksi yang
fungsi kernel RBF adalah sebagai berikut. menetapkan suatu daerah berstatus tertinggal
Tabel 5. Hasil Optimasi Pemilihan Parameter sedangkan secara data aktualnya daerah
Terbaik Kernel RBF tersebut tidak berstatus tertinggal. Selanjutnya
nilai prediksi sebesar 2 merupakan nilai False
Gamma(γ) Negative (FN), artinya nilai tersebut adalah
C
0.01 0.02 0.03 0.04 0.05 prediksi yang menetapkansuatu daerah
10 -3
0.798 0.798 0.798 0.798 0.798 berstatus tidak tertinggal sedangkan secara
-2 aktualnya daerah berstatus tertinggal.
10 0.798 0.798 0.798 0.798 0.798
Berdasarkan hasil confusion matrix, nilai-nilai
10-1 0.837 0.876 0.884 0.868 0.860 yang terdapat didalam confusion matrix pada
1 0.915 0.907 0.922 0.922 0.922* Tabel 6 dapat digunakan untuk menghitung
Ket : *) Parameter terpilih dengan nilai akurasi terbesar
nilai akurasi, nilai ini yang menujukkan
performa dari kernel RBF dalam
Tabel 5 menunjukkan hasil optimasi mengklasifikasikan status ketertinggalan.
parameter C dan γmenggunakan kernel RBF, Berikut merupakan hasil perhitungan akurasi
hasil tersebut didapat menggunakan data menggunakan kernel RBF
training yaitu 75 persen dari dataset.
TP + TN 101+ 18
Berdasarkan hasil optimasi tersebut didapatkan Accuracy= = = 0,922 (2)
nilai akurasi terbaik yaitu 0.922 atau 92.2 TP + TN + FN + FP 101+ 18 + 2 + 8
persen pada parameter C = 1, serta γ = 0.05. Hasil perhitungan akurasi pada persamaan
Hasil optimasi ini akan digunakan untuk (2) menunjukkan bahwa performa klasifikasi
langkah analisis selanjutnya yaitu menyusun menggunakan algoritma SVM dengan kernel
confusion matrix. Berikut merupakan hasil RBF sebesar 0.922 atau setara dengan 92.2%
confusion matrix untuk kernel RBF dengan yaitu mampu dengan tepat mengklasifikasikan
parameter C sebesar 1 serta γ = 0.05. 119 sampel dari total 129 sampel data testing.
Tabel 6. Confusion Matrix Kernel RBF Klasifikasi Daerah Tertinggal
Aktual Menggunakan Polinomial Kernel SVM
Tidak Klasifikasi terakhir untuk algoritma SVM
Prediksi Tertinggal adalah fungsi kernel polinomial. Setiap data
Tertinggal
8 pengamatan tentunya memiliki perbedaan
101 karaktersitik, salah satunya adalah data dengan
Tertinggal False
True Positive (TP)
Positive (FP) karakteristik non linier. Kernel polinomial
18 merupakan fungsi kernel yang memfasiltasi
2
Tidak True untuk jenis data yang non linier. Kernel ini
False Negative
Tertinggal Negative pada SVM memiliki parameter Cost (C) dan
(FN)
(TN) Degree (d). Penentuan parameter terbaik SVM
Tabel 6 merupakan confusion matrix yang menggunakan polinomial kernel dapat
didapat menggunakan data testing yaitu 25 dievaluasi melalui ukuran performa klasifikasi
persen dari dataset. Berdasarkan Tabel 6 dapat yang dapat diukur menggunakan akurasi. Hasil
diketahui jika status ketertinggalan wilayah optimasi parameter C dan dmenggunakan
terbagi menjadi status tertinggal dan status fungsi kernel polinomial adalah sebagai
tidak tertinggal. Terdapat 129 data yang berikut.
termasuk kedalam data testing yang digunakan Tabel 7 menunjukkan hasil optimasi
untuk menyusun confusion matrix. parameter C dan d menggunakan kernel
Berdasarkan confusion matrix dapat diketahui, polinomial. Hasil tersebut didapat
menggunakan data training yaitu 75 persen dari aktualnya daerah tersebut tidak berstatus
dataset. Berdasarkan hasil optimasi tersebut tertinggal. Selanjutnya nilai prediksi sebesar 2
didapatkan nilai akurasi terbaik yaitu 0.907 merupakan nilai False Negative (FN), artinya
atau 90.7 persen pada parameter C = 1, serta d nilai tersebut adalah prediksi yang menetapkan
= 1. suatu daerah berstatus tidak tertinggal
Tabel 7. Hasil Optimasi Pemilihan Parameter sedangkan secara aktualnya daerah berstatus
Terbaik Kernel Polinomial tertinggal. Berdasarkan hasil confusion matrix,
nilai-nilai yang terdapat didalam confusion
Degree(d) matrix pada Tabel 8 dapat digunakan untuk
C 1 2 3 4 5 menghitung nilai akurasi, nilai ini yang
10 -3
0.798 0.798 0.806 0.806 0.822 menujukkan performa dari kernel polinomial
-2
dalam mengklasifikasikan status
10 0.806 0.806 0.837 0.837 0.837 ketertinggalan. Berikut merupakan hasil
-1
10 0.899 0.860 0.868 0.853 0.853 perhitungan akurasi menggunakan kernel
1 0.907 0.884 0.884 0.868 0.868 polynomial.
Ket : *) Parameter terpilih dengan nilai akurasi TP + TN 101+ 16
Accuracy= = = 0,907 (3)
terbesar TP + TN + FN + FP 101+ 16 + 2 + 10
Hasil optimasi ini digunakan untuk langkah
Hasil perhitungan akurasi pada persamaan
analisis selanjutnya yaitu menyusun confusion
(3) menunjukkan bahwa performa klasifikasi
matrix. Berikut merupakan hasil confusion
menggunakan algoritma SVM dengan kernel
matrix untuk kernel polinomial dengan
polinomial sebesar 0.907 atau setara dengan
parameter C sebesar 1 serta d = 1.
90.7% yaitu mampu dengan tepat
Tabel 8. Confusion Matrix Kernel Polinomial mengklasifikasikan 117 sampel dari total 129
Aktual sampel data testing.
Tidak Klasifikasi Daerah Tertinggal
Prediksi Tertinggal
Tertinggal Menggunakan k-Nearset Neighbor (k-NN)
101 10 Selain menggunakan algoritma SVM, pada
Tertinggal True Positive False Positive penelitian ini juga menggunakan algoritma k-
(TP) (FP) Nearset Neighbor (k-NN) yang merupakan
2 16 jenis dari supervised machine learning yang
Tidak
False Negative True Negative
Tertinggal sistem kerja klasifikasinya memperhitingkan
(FN) (TN)
distance atau jarak antar data pengamatan.
Tabel 8 merupakanconfusion matrix yang Sama halnya dengan SVM yang memiliki
didapat menggunakan data testing yaitu 25 parameter untuk melakukan klasifikasi, k-NN
persen dari dataset. Berdasarkan Tabel 8 dapat juga memiliki parameter yang disimbolkan
diketahui jika status ketertinggalan wilayah dengan k yang nantinya dilakukan optimasi
terbagi menjadi status tertinggal dan status untuk menentukan parameter terbaik dengan
tidak tertinggal. Terdapat 129 data yang hasil performa klasifikasi terbaik. Berikut
termasuk kedalam data testing yang digunakan merupakan hasil optimasi parameter k pada
untuk menyusun confusion matrix. algoritma k-NN untuk mengklasifikasikan
Berdasarkan confusion matrix dapat diketahui, status ketertinggalan daerah di Indonesia.
SVM dengankernel polinomial memprediksi Tabel 9 menunjukkan hasil optimasi
status wilayah “Tertinggal” adalah sebanyak parameter k menggunakan algoritma k-NN.
111 kali, dan memprediksi suatu wilayah Hasil tersebut didapat menggunakan data
kedalam status “Tidak Tertinggal” adalah training yaitu 75 persen dari dataset.
sebanyak 18 kali. Sementara itu 103 daerah Berdasarkan hasil optimasi tersebut didapatkan
secara data aktual merupakan daerah berstatus nilai akurasi terbaik yaitu 0.922 atau 92.2
tertinggal dan 26 daerah lainnya adalah daerah persen pada parameter k = 15. Hasil optimasi
berstatus tidak tertinggal.Berdasarkan Tabel 8 ini akan digunakan untuk langkah analisis
nilai prediksi bernilai 10 merupakan nilai False selanjutnya yaitu menyusun confusion matrix.
Positive (FP), artinya nilai tersebut adalah Berikut merupakan hasil confusion matrix
prediksi yang menetapkan suatu daerah untuk algoritma k-NN dengan parameter k
berstatus tertinggal sedangkan secara data sebesar 15.
Jurnal ILMU DASAR, Vol. 22 No. 1, Januari 2021 : 31-38 37
Tabel 9. Hasil Optimasi Pemilihan Parameter Tabel 10 dapat digunakan untuk menghitung
Terbaik k Nearset Neighbor (k-NN) nilai akurasi, nilai ini yang menujukkan
performa dari k-NN dalam mengklasifikasikan
Parameter Akurasi Parameter Akurasi status ketertinggalan. Berikut merupakan hasil
k=1 0.822 k=9 0.892 perhitungan akurasi menggunakan k-NN.
k=2 0.868 k=10 0.892 TP + TN 102+ 17
Accuracy= = = 0,922 (4)
k=3 0.876 k=11 0.899 TP + TN + FN + FP 102+ 17 + 1 + 9
sangat baik. Kedua algoritma tersebut jika logistic regression and Classification and
dibandingkan memiliki nilai akurasi yang sama Regression Tree (CART). In Journal of
baik dan dapat digunakan untuk menentukan Physics: Conference Series. 1217(1):
klasifikasi daerah tertinggal. 012109.
Gunn S. 1998. Support Vector Machine for
KESIMPULAN
Clasification and Regression. Southamton:
Berdasarkan hasil klasifikasi daerah tertinggal University of Southampton Institutional
dengan algoritma SVM fungsi RBF kernel Repository.
memiliki hasil terbaik dengan parameter C=1 Guo G., Wang H., Bell D., Bi Y., Greer K.
serta γ=0.05 yang memiliki performa klafiskasi 2003 KNN Model-Based Approach in
sebesar 92.2%. Sedangkan hasil klasifikasi Classification. In: Meersman R., Tari Z.,
daerah tertinggal dengan algoritmak-NN Schmidt D.C. (eds) On The Move to
diperoleh hasil terbaik dengan k=15 yang Meaningful Internet Systems 2003: CoopIS,
memiliki performa klafiskasi sebesar 92.2%. DOA, and ODBASE. OTM 2003. Lecture
Berdasarkan hasil klasifikasi daerah tertinggal Notes in Computer Science. 2888: 986-996.
dengan algoritmaa SVM dan k-NN termasuk James G, Witten D, Hastie T, Tibshirani R.
dalam performa sangat baik. Kedua metode 2013. An introduction to statistical
tersebut jika dibandingkan memiliki nilai learning: with applications in R. New
akurasi yang sama baik dan dapat digunakan York:Springer.
untuk menentukan klasifikasi daerah tertinggal. Jung M, Niculita O, Skaf Z. 2018. Comparison
of different classification algorithms for
DAFTAR PUSTAKA
fault detection and fault isolation in
Abe S. 2010. Support Vector Machines for complex systems. Procedia
Pattern Classification 2nd Edition. London: Manufacturing.19:111-118.
Springer-Verlag. Kotsiantis SB. 2007. Supervised Machine
Al Azies H. 2017. Analisis Perilaku Hidup Learning: A Review of Classification
Bersih Dan Sehat (PHBS) Rumah Tangga Techniques. Informatica. 31:249-268.
Penderita TB Di Wilayah Pesisir Kota Purwandari T, Hidayat Y. 2017. Pemodelan
Surabaya Menggunakan Pendekatan Ketertinggalan Daerah di Indonesia
Regresi Logistik Biner. [Skripsi, Institut Menggunakan Analisis Diskriminan.
Teknologi Sepuluh Nopember] Prosiding Konferensi Nasional Penelitian
Al Azies H, Trishnanti D, Mustikawati EPH. Matematika dan Pembelajarannya
2019.Comparison of Kernel Support Vector (KNPMP). 2: 194-200.
Machine (SVM) in Classification of Human Puspitasari D A, Rustam Z. 2018. Application
Development Index (HDI), IPTEK Journal of SVM-KNN using SVR as feature
of Proceedings Series. 1:53-57. selection on stock analysis for Indonesia
Aulianita, Rizki. 2016. Komparasi Metode K- stock exchange. In AIP Conference
Nearest Neighbors dan Support Vector Proceedings. 2023:020207.
Machine Pada Sentiment Analysis Review Russel, S. J. dan Norvig, P. (2016), Artificial
Kamera. Journal Speed-Sentra Penelitian intelligence: a modern approach, Malaysia;
Engineering dan Edukasi. 8(3):71-77. Pearson Education Limited
Ayodele, TO. 2010. New Advances in Machine Shalev-Shwartz S, Ben-David S. (2014).
Learning, Yagang Zhang (Ed). London: Understanding Machine Learning From
IntechOpen Limited. Theory to Algorithms.UK: Cambridge
Delgado M, Cernadas E, Barro, S, & University Press.
AmorimD. 2014. Do we need hundreds of Smola A, Vishwanathan SVN. 2008.
classifiers to solve real world classification Introduction to machine learning. UK:
problems?.The Journal of Machine Cambridge University Press.
Learning Research. 15:3133-3181. Tan PN, Steinbach M, Karpatne A, Kumar V.
Deng Z, Zhu X, Cheng D, Zong M, Zhang S. 2019. Introduction to Data Mining, 2nd
2016. Efficient k-NN classification Edition. London: Pearson Education, Inc.
algorithm for big data. Neurocomputing. Vapnik VN. 1995. The Nature of Statistical
195: 143–148. Learning Theory (2nd ed.). Springer
Fernanda, J W, Anuraga G, Fahmi, MA. 2019. Verlag.
Risk factor analysis of hypertension with