Anda di halaman 1dari 8

Jurnal ILMU DASAR, Vol. 22 No.

1, Januari 2021 : 31-38 31

Klasifikasi Daerah Tertinggal di Indonesia


Menggunakan Algoritma SVM dan k-NN
Classification of Underdeveloped Areas in Indonesia
Using the SVM and k-NN Algorithms
Harun Al Azies*), Gangga Anuraga
Department of Statistics, Faculty of Mathematics and Natural Sciences,
PGRI Adi Buana University
*
E-mail: harunalazies@gmail.com
ABSTRACT
The determination or classification of underdeveloped areas essentially consists of classifying
several observations taking into account existing indicators. The classification method used is K-
Nearest Neighbor (k-NN) and Support Vector Machines (SVM). This study aims to analyze the
accuracy of the classification between SVM and k-NN algorithms in the classification of
underdeveloped areas in Indonesia. The data source used in this study is secondary data obtained
from the Central Bureau of Statistics (BPS). The data used are 514 districs and municipalities of
Indonesia. After analysis, the conclusion is that there are 122 districs and municipalities that are
left behind out of a total of 514 districs and municipalities in Indonesia. The most underdeveloped
areas are on the island of Papua, followed by the areas of the islands of Bali and Nusa Tenggara,
and Sulawesi. Based on the results of the classification of underdeveloped areas using the method
SVM with the kernel RBF has the best results with the parameters C = 1 and γ = 0.05 while the
results of the classification of underdeveloped areas using the method k-NN obtains the best results
with k = 15 Based on the results of classification of underdeveloped areas using the SVM and the
k-NN method, including the level of classification is very good. The two methods compared have
the same precision value of 92.2% and can be used to determine the classification of
underdeveloped areas.
Keywords: classification, machine learning, supervised learning, underdeveloped areas.
PENDAHULUAN learning (Smola, 2008). Penelitian ini berfokus
pada salah satu algoritma machine learning
Kesenjangan pembangunan dan perkembangan
yaitu supervised learning. Supervised learning
antara wilayah masih terjadi di Indonesia,
adalah algoritma khusus untuk klasifikasi yang
sehingga masih terdapat wilayah-wilayah yang
(Kotsiantis, 2007), cara kerjanya memetakan
sudah maju dan berkembang pesat, namun
input ke sebuah output yang diinginkan atau
berbanding terbalik dengan wilayah-wilayah
algoritma (Ayodele, 2010).
yang masih kurang berkembang dan bahkan
Algoritma dalam supervised machine
termasuk kedalam wilayah tertinggal.
learning yang menjadi fokus penelitian ini
Penentuan atau pengklasifikasian kabupaten
adalah Support Vector Machines (SVM) dan k-
tertinggal dan tidak tertinggal adalah metode
Nearset Neighbor (k-NN). Support vector
mengelompokkan wilayah berdasarkan
machine adalah metode yang dikenalkan oleh
indikator yang telah ditetapkan (Purwandari,
Vapnik pada tahun 1992 (Gunn, 1998) dengan
2017). Permasalahan ini dapat diselesaikan
cara kerja dasarnya adalah mengklasifikasikan
menggunakan salah satu metode dalam
suatu kasus dengan memaksimalkan batas-
machine learning.
batas hyperplane (Abe, 2010). Pemilihan
Machine Learning (ML) atau pembelajaran
algoritma SVM adalah terkait performanya
mesin merupakan pendekatan dalam Artificial
dalam mengklasifikasikan suatu pattern/pola,
Intelligence (AI) (Russell, 2016). ML menjadi
selain itu kelebihan algoritmaini mencegah
salah satu bidang ilmu komputer yang tumbuh
terjadinya permasalahan dimensionalitas (Tan
paling cepat, dengan aplikasi yang luas
et al., 2019). Sedangkan metode klasifikasi
jangkauannya (Shalev-Shwartz, 2014).
algoritma k-NN dalam penelitian yang
Algoritma machine learning memiliki beberapa
dilakukan oleh (Deng et al., 2016) algoritma
jenis diantaranya supervised learning
k-NN digunakan untuk mengklasifikasikan
algorithms, unsupervised learning algorithms,
setiap sampel pengujian berdasarkan k tetangga
semi-supervised learning dan reinforcement

Journal homepage: https://jurnal.unej.ac.id/index.php/JID


32 Klasifikasi Daerah Tertinggal di … (Azies & Anuraga)

terdekat di cluster data terdekat. Kluster yang METODE


pusatnya memiliki jarak Euclidean minimum
Sumber Data
dari sampel uji adalah yang paling dekat. Sumber data pada penelitian ini didasarkan dari data
Konsep jarak Euclidean ini memperlakukan histori yang merupakan sumber data sekunder
semua variable adalah bebas (tidak berkorelasi) berupa 16 variabel penelitianyang didapatkan
(James et al., 2013). berdasar Perpres Nomor 131 Tahun 2015 dan yang
Penelitian mengenai Machine Learning digunakan digunakan oleh Kementerian Negara
dengan membandingkan algoritma klasifikasi Pembangunan Daerah Tertinggal dan Transmigrasi
semakin banyak dilakukan. (Delgado et al., sebagai indikator penetapan ketertinggalan daerah,
2014) melakukan penelitian dengan data tersebut diperoleh dari Publikasi Badan Pusat
Statistik.
menggunakan 179 jenis klasifier yang
diterapkan pada 121 kumpulan data dari basis Obyek dan Variabel Penelitian
data UCI Machine Learning Repository hasil Obyek pengamatan pada penelitian ini adalah
evaluasi menunjukkan bahwa yang terbaik kabupaten dan kota di Indonesia sebanyak 514.
adalah metode Random Forest (RF) dan SVM Variabel terbagi menjadi satu variabel respon dan
variabel prediktor. Variabel prediktor yang
dengan kernel Gaussian yang. (Guo et al., digunakan sebanyak 15 variabel yang terbagi
2003) dengan menggunakan dataset dari UCI menjadi 6 kriteria. Adapaun variabel yang
Machine Learning Repository melakukan digunakan dijelaskan pada Tabel 1.
penelitian tentang pendekatan berbasis model Tabel 1. Variabel Penelitian
k-NN, hasil percobaan menunjukkan bahwa
model berbasis k-NN merupakan metode yang Variabel Skala
cukup kompetitif untuk klasifikasidapat Y = 1 (Kabupaten/Kota Tertinggal) Nominal
dibandingkan dengan C5.0 dan k-NN standard Y = 0 (Kabupaten/Kota Tidak
dengan hal akurasi klasifikasi yang baik, tetapi Tertinggal)
lebih efisien daripada k-NN standar. Selain itu Indeks Kedalaman Kemiskinan (X1) Rasio
(Jung et al., 2018) juga melakukan evaluasi Indeks Keparahan Kemiskinan (X2) Rasio
kinerja dari tiga pengklasifikasi yaitu SVM, Tingkat Pengangguran Terbuka
Rasio
distance-weighted k-nearest neighbour (TPT) (X3)
(WKNN), dan decision tree (DT) dengan Harapan Lama Sekolah (X4) Rasio
menggunakan data dari solusi set sensor yang Rasio
dioptimalkan dan tidak dioptimalkan. Usia Harapan Hidup (X5)
Banyaknya Desa/Kelurahan
Pada permasalahan di Indonesia (Fernanda
Menurut Ketersediaan Sistem Rasio
et al., 2019) melakukan perbandingan metode Keuangan Desa (X6)
klasifikasi pada permasalahan hipertensi. Banyaknya Desa/Kelurahan
Metode yang digunakan untuk menganalisis Menurut Keberadaan Sarana Rasio
faktor risiko yang signifikan adalah regresi Kesehatan Rumah Sakit(X7)
logistik dan Classification and Regression Tree Banyaknya Desa/Kelurahan Yang
(CART) dengan menggunakan metode yang Mempunyai Sekolah Jenjang Rasio
sama yaitu regresi logistic Al Azies (2017) SMA/SMK (X8)
mendapatkan akurasi 95% untuk meng- Persentase Rumah Tangga Menurut
Rasio
Sumber Air Minum Leding (X9)
klasifikasikan perilaku hidup bersih dan sehat Persentase Rumah Tangga Menurut
(PHBS) Rumah Tangga Penderita TB di Rasio
Dan Sumber Penerangan PLN (X10)
Wilayah Pesisir Kota Surabaya. (Puspitasari, Rata-Rata Jarak Kabupaten/Kota ke
2018) Menerapkan SVM dan k-NN Rasio
Ibukota Provinsi (X11)
menggunakan SVR sebagai fitur seleksi pada Banyaknya Desa/Kelurahan
analisis saham untuk Bursa Efek Indonesia. Menurut Ketersediaan Angkutan Rasio
Demikian pula pada penelitian (Al Azies et al., Umum (X12)
2019) melakukan penelitian untuk Jumlah Desa Yang Mengalami
Rasio
membandingkan kernel pada SVM dalam Banjir (X13)
Jumlah Desa Yang Mengalami
klasifikasi Indeks Pembangunan Manusia, hasil Rasio
Gempa Bumi (X14)
klasifikasi menunjukkan bahwa kernel Radial Jumlah Desa Yang Mengalami
Basis Function (RBF) adalah metode yang Rasio
Tanah Longsor (X15)
sesuai untuk mengklasifikasikan IPM.
Jurnal ILMU DASAR, Vol. 22 No. 1, Januari 2021 : 31-38 33

Langkah-langkah Penelitian Gambar 1 menjelaskan persebaran wilayah


Tahapan analisis yang digunakandalam penelitian tertinggal di Indonesia. Mayoritas kabupaten
ini adalah sebagai berikut. dan kota tertinggal di Indonesia (dilambangkan
1. Menggunakan statistika deskriptif untuk dengan warna kuning) didominasi merupakan
melakukan eksplorasi data sebagai tujuan
mengetahui gambaran umum kondisi persebaran
kabupaten dan kota yang berada di wilayah
ketertinggalan daerah di Indonesia. timur Indonesia.
2. Membagi data menjadi data training dan data
testing. Dataset yang diperoleh dibagi menjadi 2
bagian yaitu data training (75%) dan data
testing (25%). Dengan rincian pada Tabel 2.
Tabel 2. Komposisi Pembagian Dataset
Daerah
Daerah
Tidak Total
Tertinggal
Tertinggal
Data 385
96 289 Gambar 1. Sebaran Ketertinggalan Daerah
Training (75%)
Data 129 Terdapat 103 kabupaten dan kota di
26 103
Testing (25%) wilayah timur Indonesia berstatus sebagai
wilayah tertinggal, sementara itu 19 kabupaten
3. Mengklasifikasi status ketertinggalan wilayah
dengan menggunakan algoritma SVM
dan kota lain merupakan wilayah berstatus
a. Melakukan optimasi parameter pada SVM tertinggal berada dikawasan Indonesia bagian
untuk setiap jenis kernel (kernel linier, RBF barat. Berdasarkan Perpres Nomor 131 tahun
dan Polinomial) 2015 juga dapat diketahui bahwa Provinsi
b. Menyusun confusion matrix. Papua menjadi wilayah dengan jumlah
c. Menghitung nilai akurasi untuk mengukur kabupaten dan kota berstatus tertinggal
performa model. terbanyak di Indonesia, terdapat 26 dari 29
4. Mengklasifikasi status wilayah tertinggal dengan kabupaten dan kota di Provinsi Papua berstatus
menggunakan algoritma k-NN sebagai wilayah tertinggal
a. Melakukan optimasi parameter k
b. Menghitung kuadrat jarak euclid(query Klasifikasi Daerah Tertinggal
instance) masing-masing objek terhadap Menggunakan Algoritma Support Vector
training data yang diberikan, selanjutnya Machine (SVM)
data diurutkan berdasarkan euclidean Support Vector Machine (SVM) merupakan
distance terkecil ke terbesar.
c. Pemeringkatan hasil pengurutan sesuai
salah satu jenis dari supervised machine
dengan nilai k, lalu tentukan learning yang akan menjadi salah satu
d. Pengkategorian atau pelabelan dari data algoritma untuk mengklasifikasikan status
yang telah diperingkatkan tersebut ketertinggalan wilayah di Indonesia. Unit
berdasarkan kategori tetangga terdekat yang observasi pada penelitian ini adalah seluruh
paling banyak kabupaten dan kota di Indonesia yang
5. Melakukan pemilihan algoritma terbaik berjumlah 514. Seperti dijelaskan pada langkah
berdasarkan performa klasifikasi. penelitian poin kedua, bahwa data kabupaten
HASIL DAN PEMBAHASAN dan kota yang berjumlah 514 akan dibagi untuk
dilakukan pemisahan menjadi data training
Gambaran Umum Ketertinggalan Daerah di sebanyak 75% dari keseluruhan 514 kabupaten
Indonesia dan kota, sementara itu sisa data akan
Pemerintah setiap lima tahun sekali didalam digunakan sebagai data testing. Selanjutnya
RPJMN mengeluarkan status terbaru kondisi seperti dijelaskan pada langkah penelitian poin
ketertinggalan wilayah di Indonesia. Indonesia ketiga untuk klasifikasi menggunakan
terdiri dari 34 provinsi dan terbagi menjadi 514 algoritma SVM ini akan menggunakan tiga
kabupaten dan kota. Berdasarkan Peraturan fungsi untuk mendapatkan algoritma terbaik
Presiden yang dikeluarkan pada tahun 2015 berdasarkan akurasi ketepatan klasifikasinya.
Nomor 131 tentang penetapan status kabupaten Tiga fungsi SVM yang digunakan pada
dan kota tertinggal, dari 514 kabupaten dan penelitian ini adalah linier, RBF dan
kota di Indonesia 24 persen atau masih terdapat polynomial.
122 wilayah yang masuk kedalam kategori
wilayah tertinggal. Hasil pemetaan pada

Journal homepage: https://jurnal.unej.ac.id/index.php/JID


34 Klasifikasi Daerah Tertinggal di … (Azies & Anuraga)

Klasifikasi Daerah Tertinggal Tabel 4. Confusion Matrik Kernel Linier


Menggunakan Linear Kernel SVM
Aktual
Klasifikasi pertama yaitu klasifikasi Tidak
menggunakan kernel linier. Kernel linier Prediksi Tertinggal
Tertinggal
adalah salah satu fungsi dalam SVM yang 103 11
digunakan untuk karakteristik data yang Tertinggal True Positive False Positive
terindikasi terklasifikasi secara linier. Setiap (TP) (FP)
kernel dalam SVM memiliki perbedaan, 0 15
Tidak
perbedaan mendasar setiap kernel adalah pada False Negative True Negative
Tertinggal
parameter yang digunakan. Kernel linier pada (FN) (TN)
SVM memiliki parameter C atau Cost. Kernel Terdapat 129 data yang termasuk kedalam
linier bekerja dengan cara mengoptimasi data testing yang digunakan untuk menyusun
parameter Cuntuk mendapatkan akurasi confusion matrix. Berdasarkan confusion
klasifikasi terbaik dengan cara melakukan matrix dapat diketahui, SVM dengan kernel
berbagai kombinasi model atau trial and error. linier memprediksi status wilayah “Tertinggal”
Penentuan parameter terbaik SVM adalah sebanyak 114 kali, dan memprediksi
menggunakan linear kernel dapat dievaluasi suatu wilayah kedalam status “Tidak
melalui ukuran performa klasifikasi yang dapat Tertinggal” adalah sebanyak 15 kali.
diukur menggunakan akurasi. Hasil optimasi Sementara itu 103 daerah secara data aktual
parameter C menggunakan fungsi kernel linier merupakan daerah berstatus tertinggal dan 26
adalah sebagai berikut. daerah lainnya adalah daerah berstatus tidak
Tabel 3. Hasil Optimasi Pemilihan Parameter tertinggal. Berdasarkan Tabel 4 nilai prediksi
Terbaik Kernel Linier bernilai 11 merupakan nilai False Positive
(FP), artinya nilai tersebut adalah prediksi yang
Parameter (C) Akurasi menetapkan suatu daerah berstatus tertinggal
10-4 0.798 sedangkan secara data aktualnya daerah
10-3 0.814 tersebut tidak berstatus tertinggal. Selanjutnya
10-2 0.915* nilai prediksi sebesar 0 merupakan nilai False
10-1 0,891 Negative (FN), artinya nilai tersebut adalah
1 0.899 prediksi yang menetapkansuatu daerah
Ket : *) Parameter terpilih dengan nilai akurasi
berstatus tidak tertinggal sedangkan secara
terbesar
aktualnya daerah berstatus tertinggal.
Tabel 3 menunjukkan hasil optimasi Berdasarkan hasil confusion matrix, nilai-nilai
parameter C menggunakan kernel linier, hasil yang terdapat didalam confusion matrix pada
tersebut didapat menggunakan data training Tabel 4 dapat digunakan untuk menghitung
yaitu 75 persen dari dataset.Berdasarkan hasil nilai akurasi, nilai ini yang menujukkan
optimasi tersebut didapatkan nilai akurasi performa dari kernel linier dalam
terbaik yaitu 0.915 atau 91.5 persen pada mengklasifikasikan status ketertinggalan
parameter C sebesar 0.01. Hasil optimasi ini wilayah. Berikut merupakan hasil perhitungan
akan digunakan untuk langkah analisis akurasi menggunakan kernel linier.
selanjutnya yaitu menyusun confusion matrix. TP + TN 103+ 15
Confusion matrix adalah matriks yang Accuracy= = = 0,915 (1)
TP + TN + FN + FP 103+ 15 + 0 + 11
menunjukkan kinerja algoritma dalam
mengklasifikasi secara visual. Melalui matriks Hasil perhitungan akurasi pada persamaan
ini dapat diketahui perbandingan antara (1) menunjukkan bahwa performa klasifikasi
klasifikasi aktual dengan prediksinya. Berikut menggunakan algoritma SVM dengan kernel
merupakan hasil confusion matrix untuk kernel linier sebesar 0.915 atau setara dengan 91.5%
linier dengan parameter C sebesar 0.01. yaitu mampu dengan tepat mengklasifikasikan
Tabel 4 merupakanconfusion matrix yang 118 sampel dari total 129 sampel data testing.
didapat menggunakan data testing yaitu 25 Klasifikasi Daerah Tertinggal
persen dari dataset. Berdasarkan Tabel 3 dapat Menggunakan Radial Basis Function (RBF)
diketahui jika status ketertinggalan wilayah Kernel SVM
terbagi menjadi status tertinggal dan status Klasifikasi kedua yaitu klasifikasi
tidak tertinggal. menggunakan kernel RBF. Berbeda dengan
kernel linier, kernel RBF adalah salah satu
Jurnal ILMU DASAR, Vol. 22 No. 1, Januari 2021 : 31-38 35

fungsi dalam SVM yang digunakan untuk SVM dengankernel RBF memprediksi status
karakteristik data yang tidak terindikasi wilayah “Tertinggal” adalah sebanyak 109 kali,
terklasifikasi secara linier. Kernel RBF pada dan memprediksi suatu wilayah kedalam status
SVM memiliki parameter C atau Costdan “Tidak Tertinggal” adalah sebanyak 20 kali.
parameter Gamma (γ). Kernel RBF bekerja Sementara itu 103 daerah secara data aktual
dengan cara mengoptimasi parameter C dan merupakan daerah berstatus tertinggal dan 26
Gammauntuk mendapatkan akurasi klasifikasi daerah lainnya adalah daerah berstatus tidak
terbaik dengan cara melakukan berbagai tertinggal.Berdasarkan Tabel 6 nilai prediksi
kombinasi model atau trial and error.Hasil bernilai 8 merupakan nilai False Positive (FP),
optimasi parameter C dan γ menggunakan artinya nilai tersebut adalah prediksi yang
fungsi kernel RBF adalah sebagai berikut. menetapkan suatu daerah berstatus tertinggal
Tabel 5. Hasil Optimasi Pemilihan Parameter sedangkan secara data aktualnya daerah
Terbaik Kernel RBF tersebut tidak berstatus tertinggal. Selanjutnya
nilai prediksi sebesar 2 merupakan nilai False
Gamma(γ) Negative (FN), artinya nilai tersebut adalah
C
0.01 0.02 0.03 0.04 0.05 prediksi yang menetapkansuatu daerah
10 -3
0.798 0.798 0.798 0.798 0.798 berstatus tidak tertinggal sedangkan secara
-2 aktualnya daerah berstatus tertinggal.
10 0.798 0.798 0.798 0.798 0.798
Berdasarkan hasil confusion matrix, nilai-nilai
10-1 0.837 0.876 0.884 0.868 0.860 yang terdapat didalam confusion matrix pada
1 0.915 0.907 0.922 0.922 0.922* Tabel 6 dapat digunakan untuk menghitung
Ket : *) Parameter terpilih dengan nilai akurasi terbesar
nilai akurasi, nilai ini yang menujukkan
performa dari kernel RBF dalam
Tabel 5 menunjukkan hasil optimasi mengklasifikasikan status ketertinggalan.
parameter C dan γmenggunakan kernel RBF, Berikut merupakan hasil perhitungan akurasi
hasil tersebut didapat menggunakan data menggunakan kernel RBF
training yaitu 75 persen dari dataset.
TP + TN 101+ 18
Berdasarkan hasil optimasi tersebut didapatkan Accuracy= = = 0,922 (2)
nilai akurasi terbaik yaitu 0.922 atau 92.2 TP + TN + FN + FP 101+ 18 + 2 + 8
persen pada parameter C = 1, serta γ = 0.05. Hasil perhitungan akurasi pada persamaan
Hasil optimasi ini akan digunakan untuk (2) menunjukkan bahwa performa klasifikasi
langkah analisis selanjutnya yaitu menyusun menggunakan algoritma SVM dengan kernel
confusion matrix. Berikut merupakan hasil RBF sebesar 0.922 atau setara dengan 92.2%
confusion matrix untuk kernel RBF dengan yaitu mampu dengan tepat mengklasifikasikan
parameter C sebesar 1 serta γ = 0.05. 119 sampel dari total 129 sampel data testing.
Tabel 6. Confusion Matrix Kernel RBF Klasifikasi Daerah Tertinggal
Aktual Menggunakan Polinomial Kernel SVM
Tidak Klasifikasi terakhir untuk algoritma SVM
Prediksi Tertinggal adalah fungsi kernel polinomial. Setiap data
Tertinggal
8 pengamatan tentunya memiliki perbedaan
101 karaktersitik, salah satunya adalah data dengan
Tertinggal False
True Positive (TP)
Positive (FP) karakteristik non linier. Kernel polinomial
18 merupakan fungsi kernel yang memfasiltasi
2
Tidak True untuk jenis data yang non linier. Kernel ini
False Negative
Tertinggal Negative pada SVM memiliki parameter Cost (C) dan
(FN)
(TN) Degree (d). Penentuan parameter terbaik SVM
Tabel 6 merupakan confusion matrix yang menggunakan polinomial kernel dapat
didapat menggunakan data testing yaitu 25 dievaluasi melalui ukuran performa klasifikasi
persen dari dataset. Berdasarkan Tabel 6 dapat yang dapat diukur menggunakan akurasi. Hasil
diketahui jika status ketertinggalan wilayah optimasi parameter C dan dmenggunakan
terbagi menjadi status tertinggal dan status fungsi kernel polinomial adalah sebagai
tidak tertinggal. Terdapat 129 data yang berikut.
termasuk kedalam data testing yang digunakan Tabel 7 menunjukkan hasil optimasi
untuk menyusun confusion matrix. parameter C dan d menggunakan kernel
Berdasarkan confusion matrix dapat diketahui, polinomial. Hasil tersebut didapat

Journal homepage: https://jurnal.unej.ac.id/index.php/JID


36 Klasifikasi Daerah Tertinggal di … (Azies & Anuraga)

menggunakan data training yaitu 75 persen dari aktualnya daerah tersebut tidak berstatus
dataset. Berdasarkan hasil optimasi tersebut tertinggal. Selanjutnya nilai prediksi sebesar 2
didapatkan nilai akurasi terbaik yaitu 0.907 merupakan nilai False Negative (FN), artinya
atau 90.7 persen pada parameter C = 1, serta d nilai tersebut adalah prediksi yang menetapkan
= 1. suatu daerah berstatus tidak tertinggal
Tabel 7. Hasil Optimasi Pemilihan Parameter sedangkan secara aktualnya daerah berstatus
Terbaik Kernel Polinomial tertinggal. Berdasarkan hasil confusion matrix,
nilai-nilai yang terdapat didalam confusion
Degree(d) matrix pada Tabel 8 dapat digunakan untuk
C 1 2 3 4 5 menghitung nilai akurasi, nilai ini yang
10 -3
0.798 0.798 0.806 0.806 0.822 menujukkan performa dari kernel polinomial
-2
dalam mengklasifikasikan status
10 0.806 0.806 0.837 0.837 0.837 ketertinggalan. Berikut merupakan hasil
-1
10 0.899 0.860 0.868 0.853 0.853 perhitungan akurasi menggunakan kernel
1 0.907 0.884 0.884 0.868 0.868 polynomial.
Ket : *) Parameter terpilih dengan nilai akurasi TP + TN 101+ 16
Accuracy= = = 0,907 (3)
terbesar TP + TN + FN + FP 101+ 16 + 2 + 10
Hasil optimasi ini digunakan untuk langkah
Hasil perhitungan akurasi pada persamaan
analisis selanjutnya yaitu menyusun confusion
(3) menunjukkan bahwa performa klasifikasi
matrix. Berikut merupakan hasil confusion
menggunakan algoritma SVM dengan kernel
matrix untuk kernel polinomial dengan
polinomial sebesar 0.907 atau setara dengan
parameter C sebesar 1 serta d = 1.
90.7% yaitu mampu dengan tepat
Tabel 8. Confusion Matrix Kernel Polinomial mengklasifikasikan 117 sampel dari total 129
Aktual sampel data testing.
Tidak Klasifikasi Daerah Tertinggal
Prediksi Tertinggal
Tertinggal Menggunakan k-Nearset Neighbor (k-NN)
101 10 Selain menggunakan algoritma SVM, pada
Tertinggal True Positive False Positive penelitian ini juga menggunakan algoritma k-
(TP) (FP) Nearset Neighbor (k-NN) yang merupakan
2 16 jenis dari supervised machine learning yang
Tidak
False Negative True Negative
Tertinggal sistem kerja klasifikasinya memperhitingkan
(FN) (TN)
distance atau jarak antar data pengamatan.
Tabel 8 merupakanconfusion matrix yang Sama halnya dengan SVM yang memiliki
didapat menggunakan data testing yaitu 25 parameter untuk melakukan klasifikasi, k-NN
persen dari dataset. Berdasarkan Tabel 8 dapat juga memiliki parameter yang disimbolkan
diketahui jika status ketertinggalan wilayah dengan k yang nantinya dilakukan optimasi
terbagi menjadi status tertinggal dan status untuk menentukan parameter terbaik dengan
tidak tertinggal. Terdapat 129 data yang hasil performa klasifikasi terbaik. Berikut
termasuk kedalam data testing yang digunakan merupakan hasil optimasi parameter k pada
untuk menyusun confusion matrix. algoritma k-NN untuk mengklasifikasikan
Berdasarkan confusion matrix dapat diketahui, status ketertinggalan daerah di Indonesia.
SVM dengankernel polinomial memprediksi Tabel 9 menunjukkan hasil optimasi
status wilayah “Tertinggal” adalah sebanyak parameter k menggunakan algoritma k-NN.
111 kali, dan memprediksi suatu wilayah Hasil tersebut didapat menggunakan data
kedalam status “Tidak Tertinggal” adalah training yaitu 75 persen dari dataset.
sebanyak 18 kali. Sementara itu 103 daerah Berdasarkan hasil optimasi tersebut didapatkan
secara data aktual merupakan daerah berstatus nilai akurasi terbaik yaitu 0.922 atau 92.2
tertinggal dan 26 daerah lainnya adalah daerah persen pada parameter k = 15. Hasil optimasi
berstatus tidak tertinggal.Berdasarkan Tabel 8 ini akan digunakan untuk langkah analisis
nilai prediksi bernilai 10 merupakan nilai False selanjutnya yaitu menyusun confusion matrix.
Positive (FP), artinya nilai tersebut adalah Berikut merupakan hasil confusion matrix
prediksi yang menetapkan suatu daerah untuk algoritma k-NN dengan parameter k
berstatus tertinggal sedangkan secara data sebesar 15.
Jurnal ILMU DASAR, Vol. 22 No. 1, Januari 2021 : 31-38 37

Tabel 9. Hasil Optimasi Pemilihan Parameter Tabel 10 dapat digunakan untuk menghitung
Terbaik k Nearset Neighbor (k-NN) nilai akurasi, nilai ini yang menujukkan
performa dari k-NN dalam mengklasifikasikan
Parameter Akurasi Parameter Akurasi status ketertinggalan. Berikut merupakan hasil
k=1 0.822 k=9 0.892 perhitungan akurasi menggunakan k-NN.
k=2 0.868 k=10 0.892 TP + TN 102+ 17
Accuracy= = = 0,922 (4)
k=3 0.876 k=11 0.899 TP + TN + FN + FP 102+ 17 + 1 + 9

k=4 0.899 k=12 0.899 Hasil perhitungan akurasi pada persamaan


k=5 0.899 k=13 0.899 (4) menunjukkan bahwa performa klasifikasi
menggunakan algoritma k-NN sebesar 0.922
k=6 0.899 k=14 0.906 atau setara dengan 92.2% yaitu mampu dengan
k=7 0.892 k=15 0.922 tepat mengklasifikasikan 119 sampel dari total
k=8 0.899 129 sampel data testing.
Perbandingan Klasifikasi Daerah Tertinggal
Tabel 10. Confusion Matrix k-NN Menggunakan k-NN dan SVM
Aktual Tujuan dari penelitian ini adalah untuk
Tidak mengetahui hasil ketepatan yang paling baik
Prediksi Tertinggal
Tertinggal diantara algoritma SVM dan k-NN. Oleh
102 9 karena itu tahap selanjutnya adalah
Tertinggal True Positive False Positive membandingan diantara kedua algoritma
(TP) (FP) tersebut berdasarkan performa klasifikasinya.
1 17 Berikut merupakan visualisasi hasil
Tidak
False Negative True Negative
Tertinggal perbandingan performa klasifikasi masing-
(FN) (TN)
masing algoritma.
Tabel 10 merupakan confusion matrix yang
didapat menggunakan data testing yaitu 25
persen dari dataset. Berdasarkan Tabel 10
dapat diketahui jika status ketertinggalan
wilayah terbagi menjadi status tertinggal dan
status tidak tertinggal. Terdapat 129 data yang
termasuk kedalam data testing yang digunakan
untuk menyusun confusion matrix.
Berdasarkan confusion matrix dapat
diketahui, k-NN dengan parameter k sebesar 15
memprediksi status wilayah “Tertinggal”
adalah sebanyak 111 kali, dan memprediksi Gambar 2. Perbandingan Nilai Akurasi k-NN
suatu wilayah kedalam status “Tidak dan SVM
Tertinggal” adalah sebanyak 18 kali.
Sementara itu 103 daerah secara data aktual Performa klasifikasi yaitu nilai akurasi
merupakan daerah berstatus tertinggal dan 26 dikategorikan berdasarkan beberapa kelompok
daerah lainnya adalah daerah berstatus tidak yang disajikan pada Tabel 11.
tertinggal. Berdasarkan Tabel 10 nilai prediksi Tabel 11. Klasifikasi Tingkat Akurasi
bernilai 9 merupakan nilai False Positive (FP), (Aulianita, 2016)
artinya nilai tersebut adalah prediksi yang Akurasi(%) Performa
menetapkan suatu daerah berstatus tertinggal
>90 – 100 Sangat Baik
sedangkan secara data aktualnya daerah
>80 – ≤ 90 Baik
tersebut tidak berstatus tertinggal. Selanjutnya
>70 – ≤ 80 Cukup
nilai prediksi sebesar 1 merupakan nilai False
60 – ≤ 70 Buruk
Negative (FN), artinya nilai tersebut adalah
< 60 Salah
prediksi yang menetapkan suatu daerah
berstatus tidak tertinggal sedangkan secara Berdasarkan Tabel 11 dapat disimpulkan
aktualnya daerah berstatus tertinggal. bahwa hasil klasifikasi daerah tertinggal
Berdasarkan hasil confusion matrix, nilai-nilai dengan algoritma Support Vector Machine
yang terdapat didalam confusion matrix pada (SVM) untuk fungsi kernel RBF dan algoritma
k-NN merupakan algoritma dengan kualifikasi

Journal homepage: https://jurnal.unej.ac.id/index.php/JID


38 Klasifikasi Daerah Tertinggal di … (Azies & Anuraga)

sangat baik. Kedua algoritma tersebut jika logistic regression and Classification and
dibandingkan memiliki nilai akurasi yang sama Regression Tree (CART). In Journal of
baik dan dapat digunakan untuk menentukan Physics: Conference Series. 1217(1):
klasifikasi daerah tertinggal. 012109.
Gunn S. 1998. Support Vector Machine for
KESIMPULAN
Clasification and Regression. Southamton:
Berdasarkan hasil klasifikasi daerah tertinggal University of Southampton Institutional
dengan algoritma SVM fungsi RBF kernel Repository.
memiliki hasil terbaik dengan parameter C=1 Guo G., Wang H., Bell D., Bi Y., Greer K.
serta γ=0.05 yang memiliki performa klafiskasi 2003 KNN Model-Based Approach in
sebesar 92.2%. Sedangkan hasil klasifikasi Classification. In: Meersman R., Tari Z.,
daerah tertinggal dengan algoritmak-NN Schmidt D.C. (eds) On The Move to
diperoleh hasil terbaik dengan k=15 yang Meaningful Internet Systems 2003: CoopIS,
memiliki performa klafiskasi sebesar 92.2%. DOA, and ODBASE. OTM 2003. Lecture
Berdasarkan hasil klasifikasi daerah tertinggal Notes in Computer Science. 2888: 986-996.
dengan algoritmaa SVM dan k-NN termasuk James G, Witten D, Hastie T, Tibshirani R.
dalam performa sangat baik. Kedua metode 2013. An introduction to statistical
tersebut jika dibandingkan memiliki nilai learning: with applications in R. New
akurasi yang sama baik dan dapat digunakan York:Springer.
untuk menentukan klasifikasi daerah tertinggal. Jung M, Niculita O, Skaf Z. 2018. Comparison
of different classification algorithms for
DAFTAR PUSTAKA
fault detection and fault isolation in
Abe S. 2010. Support Vector Machines for complex systems. Procedia
Pattern Classification 2nd Edition. London: Manufacturing.19:111-118.
Springer-Verlag. Kotsiantis SB. 2007. Supervised Machine
Al Azies H. 2017. Analisis Perilaku Hidup Learning: A Review of Classification
Bersih Dan Sehat (PHBS) Rumah Tangga Techniques. Informatica. 31:249-268.
Penderita TB Di Wilayah Pesisir Kota Purwandari T, Hidayat Y. 2017. Pemodelan
Surabaya Menggunakan Pendekatan Ketertinggalan Daerah di Indonesia
Regresi Logistik Biner. [Skripsi, Institut Menggunakan Analisis Diskriminan.
Teknologi Sepuluh Nopember] Prosiding Konferensi Nasional Penelitian
Al Azies H, Trishnanti D, Mustikawati EPH. Matematika dan Pembelajarannya
2019.Comparison of Kernel Support Vector (KNPMP). 2: 194-200.
Machine (SVM) in Classification of Human Puspitasari D A, Rustam Z. 2018. Application
Development Index (HDI), IPTEK Journal of SVM-KNN using SVR as feature
of Proceedings Series. 1:53-57. selection on stock analysis for Indonesia
Aulianita, Rizki. 2016. Komparasi Metode K- stock exchange. In AIP Conference
Nearest Neighbors dan Support Vector Proceedings. 2023:020207.
Machine Pada Sentiment Analysis Review Russel, S. J. dan Norvig, P. (2016), Artificial
Kamera. Journal Speed-Sentra Penelitian intelligence: a modern approach, Malaysia;
Engineering dan Edukasi. 8(3):71-77. Pearson Education Limited
Ayodele, TO. 2010. New Advances in Machine Shalev-Shwartz S, Ben-David S. (2014).
Learning, Yagang Zhang (Ed). London: Understanding Machine Learning From
IntechOpen Limited. Theory to Algorithms.UK: Cambridge
Delgado M, Cernadas E, Barro, S, & University Press.
AmorimD. 2014. Do we need hundreds of Smola A, Vishwanathan SVN. 2008.
classifiers to solve real world classification Introduction to machine learning. UK:
problems?.The Journal of Machine Cambridge University Press.
Learning Research. 15:3133-3181. Tan PN, Steinbach M, Karpatne A, Kumar V.
Deng Z, Zhu X, Cheng D, Zong M, Zhang S. 2019. Introduction to Data Mining, 2nd
2016. Efficient k-NN classification Edition. London: Pearson Education, Inc.
algorithm for big data. Neurocomputing. Vapnik VN. 1995. The Nature of Statistical
195: 143–148. Learning Theory (2nd ed.). Springer
Fernanda, J W, Anuraga G, Fahmi, MA. 2019. Verlag.
Risk factor analysis of hypertension with

Anda mungkin juga menyukai