Komparasi Metode K-Nearest Neighbors (K-NN) Dengan Support Vector

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X
Vol. 4, No. 1, Januari 2020, hlm. 312-319 http://j-ptiik.ub.ac.id
Komparasi Metode K-Nearest Neighbors (K-NN) Dengan Support Vector

Machine (SVM) Untuk Klasifikasi Status Kualitas Air
Icha Gusti Vidiastanta1, Nurul Hidayat2, Ratih Kartika Dewi3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: 1ichatanta@gmail.com, 2ntayadih@ub.ac.id, 3ratihkartikad@ub.ac.id
Abstrak
Klasifikasi status kualitas air untuk masyarakat dibagi menjadi 2 kelas yaitu yang memenuhi
standar dan tidak memenuhi standar untuk dikonsumsi. Bidang penelitian klasifikasi objek
telah banyak dilakukan, sehingga memungkinkan diciptakan teknologi dalam bidang
klasifikasi objek dengan akurasi tinggi. Terdapat banyak metode klasifikasi, dalam penelitian
ini membahas komparasi antara algoritme K-Nearest-Neighbors (KNN) dengan Support
vector machine (SVM). Dilakukan penelitian terhadap variabel - variabel dalam algoritme
knn dan svm untuk menentukan variabel terbaik dalam melakukan klasifikasi. Pengujian
dilakukan dengan metode K-Fold dengan nilai K = 5 terhadap sebuah dataset status kualitas
air. Pengujian yang dilakukan mendapatkan nilai parameter optimal KNN dengan K = 7 dan
SVM dengan nilai iterasi maksimal = 300, nilai 𝜀 = 10−12 , nilai 𝜎 = 0.07, nilai 𝜆 = 3, nilai
𝛾 = 1.7, dan nilai 𝐶 = 1. Penelitian ini menghasilkan hasil akurasi KNN sebesar 88,94% dan
SVM sebesar 87,71%. Diamati bahwa algoritme K-Nearest-Neighbors (KNN) memiliki
akurasi lebih tinggi daripada algoritme Support vector machine (SVM).
Kata kunci: Pembelajaran Mesin, K-Nearest-Neighbors, Support Vector Machine
Abstract
Water quality status classification for the community is divided into 2 classes namely those
that meet the standards and do not meet the standards for consumption. The field of object
classification research has been carried out, making it possible to create technology in the
field of object classification with high accuracy. There are many classification methods, in
this study discussing the comparison between K-Nearest-Neighbors (KNN) algorithm and
Support vector machine (SVM). Research on the variables in the KNN and SVM algorithm to
determine the best variable in classification. Testing is done by the K-Fold method with a
value of K = 5 on a dataset of water quality status. Tests carried out to get the optimal
parameter value KNN with K = 7 and SVM with value of the maximum iteration value =
300, 𝜀 = 10−12, 𝜎 = 0.07, 𝜆 = 3, 𝛾 = 1.7, and 𝐶 = 1. This research resulted in an
accuracy of KNN of 88.94% and SVM of 87.71%. It was observed that the K-Nearest-
Neighbors (KNN) algorithm had higher accuracy than the Support vector machine (SVM)
algorithm.`
Keywords: Machine Learning, K-Nearest-Neighbors, Support Vector Machine
baku air minum PDAM. Sebagian besar air

1. PENDAHULUAN yang dikonsumsi manusia adalah air yang
Pembuangan sampah yang mengandung sudah dimurnikan. Air yang dikonsumsi oleh
berbagai macam bakteri menjadi ancaman nyata manusia banyak yang bersumber dari air dalam
bagi kehidupan masyarakat karena sebagian ledeng dan air dalam kemasan botol. Oleh
besar masyarakat bergantung pada air sungai karena itu diperlukan pengukuran kualitas air
ketika air sungainya digunakan untuk bahan untuk menentukan kondisi air yang akan
Fakultas Ilmu Komputer

Universitas Brawijaya 312
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 313
dikonsumsi. Beberapa metode Indeks Kualitas kesamaannya dengan pelatihan yang disimpan
Air (IKA) yang digunakan di Indonesia untuk pada tuple (Han, et al., 2012).
melakukan penentuan status kualitas air adalah
2.1.1 Algoritme K-Nearest Neighbors (K-NN)
metode PI (Pollution Index), metode CCME
(Canadian Council of Ministers of the Algoritma k-nearest neighbors pertama
Environment), dan metode STORET yang kali ditemukan pada awal tahun 1950-an. K-
melakukan perbandingan data status kualitas air nearest neighbors didasarkan pada
dengan baku mutu yang disesuaikan dengan pembelajaran dengan analogi, yaitu dengan
indeksnya. Oleh karena itu, dilakukan membandingkan tuple tes yang diberikan
penelitian untuk melakukan komparasi metode dengan tuple pelatihan yang serupa dengannya.
K-Nearest Neighbors dengan metode Support Tuple pelatihan dijelaskan oleh n atribut (Han,
Vector Machines dalam mengklasifikasikan et al., 2012).
status kualitas air. Setiap tuple mewakili titik dalam ruang
Penelitian tentang komparasi antar metode n-dimensi. Dengan cara ini, semua tuple
sudah sering dilakukan dalam beberapa waktu pelatihan disimpan dalam ruang pola n-dimensi.
ini seperti pada penelitian sebelumnya yang Saat diberikan sebuah tuple yang tidak dikenal,
dilakukan oleh M. Sakizadeh dan R. Mirzaei sebuah k-terdekat-tetangga pengklasifikasi
yang melakukan kopmparasi metode K-Nearest mencari ruang pola untuk k tuple pelatihan yang
Neighbors dan Support Vector Machines paling dekat dengan tuple yang tidak dikenal.
mendapatkan hasil akurasi sebanyak 93% dan Pelatihan k adalah k "Tetangga terdekat" dari
94%. Penelitian lain yang telah dilakukan oleh tuple yang tidak dikenal (Han, et al., 2012).
Pathanjali C, Vimuktha E. Slis, Jalaja G., dan "Kedekatan" didefinisikan dalam hal
Latha A. yang mengkomparasi metode Support metrik jarak, seperti jarak Euclidean. Jarak
Vector Machines dengan K-Nearest Neighbors Euclidean antara dua titik atau tuple,
didapatkan kesimpulan hasil akurasi masing – katakanlah, 𝑋1 = (𝑥11 , 𝑥12 , … . , 𝑥1𝑛 ) dan 𝑋2 =
masing sebesar 68,8383% dan 68.16%. (𝑥21 , 𝑥22 , … . , 𝑥2𝑛 ), adalah (Han, et al., 2012):
Penelitian lain yang dilakukan oleh Shiela 𝑛
Novelia Dharma Pratiwi dan Brodjol Sutijo 𝑑𝑖𝑠𝑡(𝑋1 , 𝑋2 ) = √∑(𝑥1𝑖 − 𝑥2𝑖 )2 (1)
Suprih Ulama melakukan komparasi antara 𝑖=1
metode Support Vector Machines dengan K-
Nearest Neighbors menghasilkan akurasi 2.2 Metode Support Vector Machine (SVM)
sebesar 96.6% dan 92.293%.
Berdasarkan pada penelitian sebelumnya, Support Vector Machine (SVM) adalah
metode K-Nearest Neighbors (K-NN) dengan sistem pembelajaran dimana klasifikasi
Support Vector Machine (SVM) merupakan menggunakan ruang hipotesis dalam bentuk
metode dengan nilai akurasi yang cukup tinggi. fungsi linear dalam ruang fitur dimensi tinggi,
Sehingga pada penelitian ini akan dilakukan dilatih dengan algoritme pembelajaran
penelitian tentang komparasi antara metode K- berdasarkan teori optimasi dengan menerapkan
Nearest Neighbors (K-NN) dengan metode bias pembelajaran yang berasal dari teori
Support Vector Machine (SVM) yang bertujuan pembelajaran statistik (Cristiani & Taylor,
untuk mengetahui dan menentukan metode 2000).
mana yang paling baik dalam melakukan Gagasan dasarnya adalah menemukan
klasifikasi terhadap kualitas air berdasarkan hyperplane pemisah menjadi hyperplane tengah
tingkat akurasinya. antara dua hyperplanes paralel, di mana dua
hyperplane paralel ini dibangun mengikuti
2. METODE YANG DIGUNAKAN prinsip margin maksimum. SVM memiliki
banyak keunggulan. Pertama, ia dapat
2.1 Lazy Learners memperoleh solusi optimal global dengan
Pada klasifikasi lazy learners pada saat memecahkan masalah quadratic programming
diberikan tuple pelatihan maka hanya akan problem (QPP). Kedua, dapat meminimalkan
menyimpannya (atau hanya memproses kecil) batas atas kesalahan generalisasi dengan
dan menunggu sampai diberi tes tuple. Hanya menerapkan prinsip minimalisasi risiko
ketika melihat tes tuple yang maka lazy struktural, bukan prinsip minimalisasi risiko
learners akan melakukan generalisasi untuk empiris. Keunggulan selanjutnya yaitu dapat
mengklasifikasikan tuple berdasarkan mengubah case nonlinear menjadi case linier
Fakultas Ilmu Komputer, Universitas Brawijaya

dengan memperkenalkan trik kernel ke dalam didefinisikan sebagai (Piccialli & Sciandrone,
QPP ganda (Hou, et al., 2019). 2018)
𝐾(𝑥, 𝑦) = 𝜙(𝑥)𝑇 𝜙(𝑦) ∀𝑥, 𝑦 ∈ 𝑋, (6)
2.2.1 SVM Non Linear
Masalah yang dialami dalam Persamaan
Gagasan perhitungan pada SVM non 2.2 diatasi dengan mengganti perhitungan
linear adalah memetakan data ruang input ke dengan Persamaan 2.7.
𝑛 𝑛 𝑛
ruang dimensi yang lebih tinggi yang disebut 1
dengan ruang fitur dan untuk mendefinisikan min 𝛤(𝜎) = ∑ ∑ 𝑦 𝑖 𝑦 𝑗 𝐾(𝑥 𝑖 , 𝑥 𝑗 )𝜎𝑖 𝜎𝑗 − ∑ 𝜎𝑖
𝜎 2
𝑖=1 𝑗=1 𝑖=1
klasifikasi linear dalam ruang fitur. 𝑛
(7)
Pertimbangan pemetaan pada 𝜙 ∶ 𝑅 𝑛 → 𝑠. 𝑡 ∑ 𝜎𝑖 𝑦 𝑖 = 0
𝐻 dimana 𝐻 adalah ruang Euclidean (ruang 𝑖=1
fitur) yang memiliki dimensi lebih besar dari 𝑛 0 ≤ 𝜎𝑖 ≤ 𝐶 𝑖 = 1, … , 𝑛
(dimensi dapat bersifat infinite). Input vector Permasalahan yang dialami pada
training 𝑥 𝑖 dipetakan dalam 𝜙(𝑥 𝑖 ), dengan 𝑖 = persamaan 7 dapat disebut convex quadratic
1, … , 𝑙. programming. Contoh fungsi kernel dapat
Kita dapat berpikir untuk melakukan dilihat pada Tabel 1 (Han, et al., 2012).
definisi SVM linear dalam ruang fitur dengan Tabel 1 Fungsi Kernel
mengganti 𝑥 𝑖 dengan 𝜙(𝑥 𝑖 ). Kemudian kita
memiliki (Piccialli & Sciandrone, 2018): Kernel Linier 𝐾(𝑥, 𝑦) = 𝑥. 𝑦
Masalah tersebut diganti dengan Persamaan Polymomial 𝐾(𝑥, 𝑦) = (𝑥. 𝑦 + 𝑐)𝑑
2 Radial Basis ‖𝑥⃑ − 𝑦⃑‖2
1
𝑛 𝑛 𝑛 Function 𝐾(𝑥⃑, 𝑦⃑) = exp (− )
min 𝛤(𝜎) = ∑ ∑ 𝑦 𝑖 𝑦 𝑗 𝜙(𝑥 𝑖 )𝑇 𝜙(𝑥 𝑗 )𝜎𝑖 𝜎𝑗 − ∑ 𝜎𝑖 (RBF) 2𝜎 2
𝜎 2
𝑖=1 𝑗=1 𝑖=1
𝑛 Sigmoid 𝐾(𝑥, 𝑦) = tanh(𝑘〈𝑥⃑. 𝑦⃑〉 + 𝜗)
(2)
𝑠. 𝑡 ∑ 𝜎𝑖 𝑦 𝑖 = 0 Dengan melakukan penyelesaian pada
𝑖=1
0 ≤ 𝜎𝑖 ≤ 𝐶 𝑖 = 1, … , 𝑛
QP Persamaan 7, didapatkan Persamaan 8 yang
disebut sebagai fungsi bidang pemisah (Huang,
Vector utama 𝑤 ∗ yang optimal diperoleh
et al., 2006).
dengan perhitungan Persamaan 3. 𝑛
𝑛
𝑑(𝑥) = ∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥𝑗 ) + 𝑏 (8)
𝑤 ∗ = ∑ 𝜎𝑖∗ 𝑦 𝑖 𝜙(𝑥 𝑖 ) (3)
𝑖=1
𝑖=1 Dimana persamaan 𝑏 dihitung dengan
∗
Pemberian 𝑤 dan semua nilai dalam atas Persamaan 9.
0 < 𝜎𝑖∗ < 𝐶, b* dapat didefinisikan dengan 1
kondisi komplemen seperti pada Persamaan 𝑏 = − (𝑥 + . 𝑤 + 𝑥 − . 𝑤)
2 𝑛
4. 1
𝑛 = − (∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥 + ) (9)
𝑦𝑖
𝑇
(∑ 𝜎𝑗∗ 𝑦 𝑗 𝜙(𝑥 𝑗 ) 𝜙(𝑥 𝑖 ) + 𝑏 ∗ ) − 1 = 0 (4) 2
𝑖=1
𝑗=1
𝑛
Diambil keputusan menggunakan fungsi + ∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥 − ))

pada Persamaan 5. 𝑖=1
𝑓𝑑 (𝑥) = 𝑠𝑔𝑛((𝑤 ∗ )𝑇 ∗
𝜙(𝑥) + 𝑏 ) (5) Dengan menggunakan fungsi kernel, keputusan
Dari persamaan 5 dapatkan permukaan dari kelas diputusan menggunakan fungsi
Persamaan 10 (Piccialli & Sciandrone, 2018).
pemisah yaitu:
𝑓𝑑 (𝑥) = 𝑠𝑖𝑔𝑛(𝑑(𝑥))
- Linear dalam ruang fitur 𝑛
- Non linear dalam ruang input (10)
Penting untuk mengamati dala formulasi = 𝑠𝑖𝑔𝑛 (∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥𝑗 ) + 𝑏)
ganda persamaan 4 dan dalam rumus persamaan 𝑖=1
5 tentang fungsi keputusan mengetahui 2.3 Metode Sequential Learning SVM

pemetaan secara eksplisit tetapi cukup Algoritme ini dapat menemukan bidang
mengetahui dalam 𝜙(𝑥)𝑇 𝜙(𝑧) dari ruang fitur. pemisah yang optimal lebih cepat dibandingkan
Konsep ini mengarah pada konsep dasar fungsi quadratic programming. Algoritme sequential
kernel. learing SVM dituliskan sebagai berikut
Fungsi kernel pada Persamaan 6 (Vijakumar & Wu, 1999):

1. Semua data 𝑖 = 1, … , 𝑛 dan inisialisasi dengan parameter yang digunakan adalah

𝛼𝑖 = 0 derajat keasaman (pH), Total Dissolved Solids
2. Perhitungan matriks 𝐷𝑖𝑗 (TDS), Nitrit (NO2), Nitrat (NO3), kesadahan,
𝐷𝑖𝑗 = 𝑦𝑖 𝑦𝑗 (𝐾(𝑥𝑖 , 𝑥𝑗 ) + 𝜆2 ) (11) klorida, mangan. Kemudian akan diuji
menggunakan metode k-fold dengan nilai k=5.
3. Melakukan perhitungan 𝐸𝑖 , 𝛿𝛼𝑖 , dan 𝛼𝑖 3.2 Diagram Alir Algoritme K-Nearest
untuk setiap data training 𝑖 = 1, … , 𝑛 Neighbors (K-NN)
𝑛
𝐸𝑖 = ∑ 𝛼𝑘 𝐷𝑖𝑘 (12) Alur evaluasi menggunakan metode K-

Nearest Neighbors (K-NN) dituliskan pada
𝑘=1
𝛿𝛼𝑖 = min {max[𝛾(1 (13) flowchat yang dapat diamati pada Gambar 1.
− 𝐸𝑖 ), −𝛼𝑖 ], 𝐶 Evaluasi ini bertujuan untuk mendapatkan hasil
− 𝛼𝑖 } klasifikasi status kualitas air. Metode ini
𝛼𝑖 = 𝛿𝛼𝑖 + 𝛼𝑖 (14) melakukan evaluasi terhadap masing – masing
Melakukan perulangan pada langkah 3 data uji untuk dibandingkan dengan seluruh
sampai syarat 𝑖𝑡𝑒𝑟𝑎𝑠𝑖 > 𝑖𝑡𝑒𝑟𝑎𝑠𝑖_𝑚𝑎𝑥 atau data latih sistem. Algoritme ini menghitung
max(|𝛿𝛼|) < 𝜀 terpenuhi. jarak antara data tiap parameter data uji
terhadap seluruh data latih yang ada dalam
2.4 Metode Pengujian K-Fold sistem menggunakan perhitungan jarak
Pengujian ini mengumpulkan data secara Euclidean. Setelah itu dilakukan pengurutan
acak kemudian dibagi menjadi k bagian terpisah nilai jarak Euclidean dari terkecil hingga
dengan ukuran kira – kira sama dan setiap terbesar. Kemudian dipilih sebanyak 𝑘 data
lipatan atau bagiannya digunakan secara giliran terkecil untuk kemudian ditentukan hasil
untuk menguji model yang diinduksi dari k-1 kelasnya berdasarkan jumlah klas yang sering
dan seterusnya. Setiap perkiraan akurasi yang muncul. Kelas yang sering muncul ini
dihasilkan dari validasi silang k-fold didapatkan merupakan hasil klasifikasi dari sistem evaluasi
dari hasil perhitungan akurasi dengan data acak dengan algoritme K-NN.
pada tiap k-nya. Model yang diinduksi dalam
iterasi k dalam validasi silang metode k-fold
umumnya tidak semuanya sama (Wong &
Yang, 2017).
Pemilihan nilai k dalam validasi silang
metode k-fold biasanya bernilai 5 atau 10,
tetapi tidak terdapat aturan formal. Saat nilai k
bertambah besar, maka perbedaan ukuran
antara data uji dan data latih menjadi lebih
kecil (Brownlee, 2018). Adanya pertukaran
bias-variance dalam pemilihan k dalam metode
k-fold biasanya dengan pertimbangan ini maka
dipilih nilai k=5 atau k=10, karena nilai – nilai
ini telah dipilih secara empiris untuk Gambar 1. Diagram Alir Algoritme K-Nearest
menghasilkan perkiraan akurasi yang tidak Neighbors
menyebabkan bias yang terlalu tinggi maupun 3.3 Diagram Alir Algoritme Support Vector
varian yang sangat tinggi (Kuhn & Johnson, Machine
2013).
3.3.1 Evaluasi dengan SVM
3. METODOLOGI PENELITIAN Alur evaluasi menggunakan metode
3.1 Data Yang Digunakan Support Vector Machine (SVM) dituliskan pada
flowchat yang dapat diamati pada Gambar 2.
Teknik pengumpulan data pada penelitian Pada evaluasi ini bertujuan untuk memperoleh
ini menggunakan data yang diperoleh dari hasil kelas dalam klasifikasi status kualitas air.
laboratorium PDAM Kota Malang tentang data Pada tahapan proses pada SVM Biner dapat
kualitas air. Data hasil penjualan dimulai pada diperoleh hasil dari pengklasifikasian sistem
bulan juli 2018 sampai bulan januari 2019. Data evaluasi dengan perhitungan algoritme Support
yang digunakan adalah sebanyak 167 data Vector Machine (SVM).
Gambar 2. Diagram Alir Support Vector Machine

(SVM)
3.3.2 SVM Biner
Proses SVM Biner adalah proses yang
melakukan klasifikasi terhadap masing –
masing data uji kemudian dikategorikan dalam
kelas bertanda positif (1) atau kelas bertanda
negatif (−1). Untuk memulai melakukan
perhitungan rumus sequential learning, maka
dilakukan langkah sebagai berikut:
1. Langkah pertama adalah dibentuknya
matriks 𝐷𝑖𝑗 yang berisi nilai dari hasil
perhitungan menggunakan Persamaan 2.11
dengan nilai 𝑖 dan 𝑗 memiliki rentang 1
hingga jumlah data latih. Gambar 3. Diagram Alir SVM Biner
2. Langkah kedua adalah dilakukannya
inisialisasi pada nilai parameter 𝛼𝑖 = 0. 4. HASIL DAN PEMBAHASAN
3. Langkah ketiga adalah kemudian dihitung
4.1 Pengujian Pengaruh Nilai Parameter
nilai dari parameter 𝐸𝑖 berdasarkan
Persamaan 2.12. Dari nilai 𝐸𝑖 selanjutnya Pengujian pengaruh nilai parameter yang
akan didapatkan perubahan nilai alpha 𝛿𝛼𝑖 dilakukan ini bertujuan untuk mengetahui
sesuai dengan rumus pada Persamaan 2.13. seberapa berpengaruh atau tidaknya nilai
4. Langkah keempat kemudian dilakukan parameter terhadap nilai error pada proses
perbaruan nilai 𝛼𝑖 dengan cara klasifikasi hasil status kualitas air ketika nilai
menambahkan nillai 𝛼𝑖 dan 𝛿𝛼𝑖 . Proses parameter tersebut diubah-ubah.
perbaruan nilai 𝛼𝑖 dilakukan secara 4.1.1 Pengujian Pengaruh Nilai 𝒌 pada
berulangkal dengan syarat yaitu jika metode K-Nearest Neighbors
𝑖𝑡𝑒𝑟𝑎𝑠𝑖 < 𝑖𝑡𝑒𝑟𝑎𝑠𝑖_ max 𝑑𝑎𝑛 max(⌈𝛿𝛼⌉) <
𝜀. Hasil analisis dan pengujian nilai k pada
5. Langkah kelima yaitu setelah didapatkan algoritme K-Nearest Neighbors (KNN) dapat
nilai akhir dari 𝛼𝑖 kemudian dicari nilai dilihat pada grafik pada Gambar 4. Pada
Support Vectors (SV), yang merupakan pengujian tersebut nilai k dengan akurasi
data yang memiliki nilai 𝛼𝑖 > 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑. tertinggi adalah 7. Sehingga nilai parameter
Perhitungan nilai 𝑏 tersebut menggunakan terbaik dan nilai yang akan digunakan
rumus yang ada pada Persamaan 9. selanjutnya adalah 𝑘 = 7.
Kemudian hasil klasifikasi didapatkan
berdasarkan perhitungan menggunakan
Persamaan 10. Alur proses perhitungan
SVM biner ini dapat dilihat dalam Gambar
3.
Gambar 4. Grafik Pengaruh Nilai k Parameter

Metode K-Nearest Neighbor

4.1.2 Pengujian Pengaruh Nilai Parameter algoritme Support Vector Machine (SVM dapat
Metode Support Vector Machine diamati dalam grafiknya pada Gambar 7. Pada
pengujian tersebut nilai γ dengan akurasi
4.1.2.1 Pengujian Pengaruh Nilai Parameter
tertinggi adalah pada saat nilai γ = 1.7.
𝜶 Pada Metode Support Vector Machine
Sehingga nilai parameter terbaik dan nilai yang
akan digunakan selanjutnya adalah γ = 1.7.
𝑪 Pada Metode Support Vector Machine
Hasil analisis dan pengujian nilai C pada
algoritme Support Vector Machine (SVM)
dapat diamati dalam pada grafiknya pada
Gambar 5. Grafik Pengaruh Nilai Parameter 𝛼 Gambar 8. Pada pengujian tersebut nilai 𝐶
Metode Support Vector Machine dengan akurasi tertinggi adalah pada saat nilai
C = 1. Sehingga nilai parameter terbaik dan
Hasil analisis dan pengujian pada nilai σ nilai yang akan digunakan selanjutnya adalah
pada algoritme Support Vector Machine (SVM) C = 1.
dapat diamati grafiknya pada Gambar 5. Pada
pengujian tersebut nilai σ dengan akurasi
tertinggi adalah pada saat nilai σ = 0.07.
akan digunakan selanjutnya adalah σ = 0.07.
𝝀 Pada Metode Support Vector Machine
Hasil analisis dan pengujian pada nilai λ Gambar 8. Grafik Pengaruh Nilai Parameter
pada algoritme Support Vector Machine (SVM) C Metode Support Vector Machine
dapat diamati dalam grafiknya pada Gambar 6.
Pada pengujian tersebut nilai λ dengan akurasi 4.1.2.5 Pengujian Pengaruh Nilai Parameter
tertinggi adalah pada saat nilai λ = 3. Sehingga 𝜀 Pada Metode Support Vector Machine
nilai parameter terbaik dan nilai yang akan Hasil analisis dan pengujian pada nilai
digunakan selanjutnya adalah λ = 3. 𝜀 pada algoritme Support Vector Machine
(SVM) dapat diamati dalam grafiknya pada
Gambar 9. Pada pengujian tersebut nilai 𝜀
dengan akurasi tertinggi adalah pada saat nilai
𝜀 = 10−12. Sehingga nilai parameter terbaik
dan nilai yang akan digunakan selanjutnya
adalah ε = 10−12 .
Gambar 6. Grafik Pengaruh Nilai Parameter 𝜆

Metode Support Vector Machine
𝛄 Pada Metode Support Vector Machine
Gambar 9. Grafik Pengaruh Nilai Parameter 𝜀

Metode Support Vector Machine
Gambar 7. Grafik Pengaruh Nilai Parameter

γ Metode Support Vector Machine
Hasil analisis dan pengujian nilai γ pada

4.1.2.6 Pengujian Pengaruh Nilai Parameter 9 87.40% 88.02%

Iterasi Maksimal Pada Metode Support 10 89.18% 87.40%
Vector Machine 11 91.57% 87.99%
12 90.43% 86.81%
13 87.45% 88.04%
14 89.25% 88.06%
15 87.49% 88.06%
Rata -
88.94% 87.71%
Rata
Gambar 10. Grafik Pengaruh Nilai Parameter

C Metode Support Vector Machine
Hasil analisis dan pengujian terhadap
nilai dari jumlah iterasi maksimal pada
algoritme Support Vector Machine (SVM)
dapat diamati dalam dan grafiknya pada
Gambar 10. Pada pengujian tersebut nilai iterasi Gambar 9. Grafik Pengujian Akhir Metode KNN
maksimal dengan akurasi tertinggi adalah 300. dan SVM
5. KESIMPULAN
akan digunakan selanjutnya adalah
iterasi maksimal = 300. Dari hasil yang didapatkan dalam
penelitian tentang komparasi metode K-Nearest
4.3 Pengujian Akhir
Neighbors dengan Support Vector Machine
Berdasarkan hasil pengujian parameter – untuk melakukan klasifikasi status kualitas air
parameter KNN dan SVM, dapat disimpulkan didapatkan kesimpulan sebagai berikut:
didapatkan parameter – parameter terbaik. 1. Sistem ini diimplementasikan
Pengujian sistem menggunakan parameter – menggunakan bahasa pemrograman Phyton
parameter terbaik dalam Tabel 2 dilakukan dan dijalankan menggunakan IDE Spyder.
sebanyak 15 kali untuk melihat kestabilan 2. Akurasi rata – rata yang didapatkan dengan
sistem dalam melakukan klasifikasi data. Pada metode K-Nearest Neighbors dan Support
Gambar 11 juga dapat diketahui grafik hasil Vector Machine adalah sebesar 88.94% dan
nilai rata – rata akurasi algoritme K-Nearest 87.71%. Diketahui dari hasil tersebut
Neighbors dan Support Vector Machine. Hasil metode K-Nearest Neighbors (KNN)
akurasi rata – rata algoritme K-Nearest merupakan metode yang lebih baik dalam
Neighbors dan Support Vector Machine adalah melakukan klasifikasi status kualitas air
91.57% dan 89.22%. Berdasarkan pengujian dalam penelitian ini karena memiliki nilai
yang telah dilakukan dapat disimpulkan bahwa rata – rata akurasi lebih tinggi dibandingkan
algoritme K-Nearest Neighbors dapat dengan metode Support Vector Machine
melakukan klasifikasi data stastus kualitas air (SVM). Setelah dilakukan analisis pada
lebih baik dibandingkan dengan algoritme penelitian ini diketahui bahwa data yang
Support Vector Machine. digunakan memiliki sifat imbalanced
Tabel 2. Pengujian Akhir Metode KNN dan sehingga menyebabkan pada metode K-
SVM Nearest Neighbors (KNN) sebanyak
11.06% data diklasifikasikan salah
Akurasi dikarenakan saat data sebanyak 𝒌 tetangga
No
KNN SVM
terdekat diambil, hasilnya akan cenderung
1 88.59% 87.99%
2 89.80% 87.38%
ke arah data mayoritas. Sedangkan pada
3 91.03% 89.22% metode Support Vector Machine (SVM)
4 86.27% 86.27% terdapat 12.29% data diklasifikasikan salah
5 88.02% 88.04% karena kurang dapat dihasilkan garis
6 89.23% 86.86% pemisah yang tepat.
7 89.23% 86.84% 3. Nilai – nilai terbaik untuk melakukan
8 89.20% 88.61% akurasi yang digunakan pada variabel di

dalam kedua metode yang digunakan

adalah sebagai berikut:
I. Parameter untuk Algoritme K-Nearest
Neighbors (K-NN):
a. Nilai 𝑘 = 7
II. Parameter untuk Algoritme Support
Vector Machine (SVM):
a. Nilai Iterasi maksimal SVM = 300
b. Nilai 𝜀 = 10−12
c. Nilai 𝜎 = 0.07
d. Nilai 𝜆 = 3
e. Nilai 𝛾 = 1.7
f. Nilai 𝐶 = 1
6. DAFTAR REFERENSI
Brownlee, J., 2018. Machine Learning Mastery.
[Online]
Available at:
https://machinelearningmastery.com/k-fold-
cross-validation/
[Diakses 10 Desember 2019].
Han, J., Kamber, M. & Pei, J., 2012. Data
Mining Concepts and Techniques. 3 penyunt.
Waltham: Elsevier.
Hou, Q. et al., 2019. Discriminative
information-based nonparallel support vector
machine. Elsevier, Volume 162, pp. 169 - 179.
Huang, T., Kecman, V. & Kopriva, I., 2006.
Kernel Based Algorithms for Mining Huge
Data Sets. Heidelberg: Springer-Verlag Berlin
Heidelberg .
Kuhn, M. & Johnson, K., 2013. Applied
Predictive Modeling. Dalam: Applied
Predictive Modeling. s.l.:Springer, p. 70.
Piccialli, V. & Sciandrone, M., 2018. Nonlinear
Optimization and Support Vector Machines,
s.l.: ResearchGate.
Vijakumar, S. & Wu, S., 1999. Sequential
Support Vector Classifiers and Regression.
Wakoshi, ResearchGate.
Wong, T. T. & Yang, N. Y., 2017. Dependency
Analysis of Accuracy Estimates in k-Fold Cross
Validation. IEEE Transactions on Knowledge
and Data Engineering, 29(11), pp. 2417 - 2427.

Komparasi Metode K-Nearest Neighbors (K-NN) Dengan Support Vector

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Komparasi Metode K-Nearest Neighbors (K-NN) Dengan Support Vector

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 4, No. 1, Januari 2020, hlm. 312-319 http://j-ptiik.ub.ac.id

Komparasi Metode K-Nearest Neighbors (K-NN) Dengan Support Vector

baku air minum PDAM. Sebagian besar air

Fakultas Ilmu Komputer

Fakultas Ilmu Komputer, Universitas Brawijaya

Diambil keputusan menggunakan fungsi + ∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥 − ))

5 tentang fungsi keputusan mengetahui 2.3 Metode Sequential Learning SVM

Fakultas Ilmu Komputer, Universitas Brawijaya

1. Semua data 𝑖 = 1, … , 𝑛 dan inisialisasi dengan parameter yang digunakan adalah

𝐸𝑖 = ∑ 𝛼𝑘 𝐷𝑖𝑘 (12) Alur evaluasi menggunakan metode K-

Gambar 2. Diagram Alir Support Vector Machine

Gambar 4. Grafik Pengaruh Nilai k Parameter

Fakultas Ilmu Komputer, Universitas Brawijaya

Gambar 6. Grafik Pengaruh Nilai Parameter 𝜆

Gambar 9. Grafik Pengaruh Nilai Parameter 𝜀

Gambar 7. Grafik Pengaruh Nilai Parameter

Fakultas Ilmu Komputer, Universitas Brawijaya

4.1.2.6 Pengujian Pengaruh Nilai Parameter 9 87.40% 88.02%

Gambar 10. Grafik Pengaruh Nilai Parameter

Fakultas Ilmu Komputer, Universitas Brawijaya

dalam kedua metode yang digunakan

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai