Abstrak
Klasifikasi status kualitas air untuk masyarakat dibagi menjadi 2 kelas yaitu yang memenuhi
standar dan tidak memenuhi standar untuk dikonsumsi. Bidang penelitian klasifikasi objek
telah banyak dilakukan, sehingga memungkinkan diciptakan teknologi dalam bidang
klasifikasi objek dengan akurasi tinggi. Terdapat banyak metode klasifikasi, dalam penelitian
ini membahas komparasi antara algoritme K-Nearest-Neighbors (KNN) dengan Support
vector machine (SVM). Dilakukan penelitian terhadap variabel - variabel dalam algoritme
knn dan svm untuk menentukan variabel terbaik dalam melakukan klasifikasi. Pengujian
dilakukan dengan metode K-Fold dengan nilai K = 5 terhadap sebuah dataset status kualitas
air. Pengujian yang dilakukan mendapatkan nilai parameter optimal KNN dengan K = 7 dan
SVM dengan nilai iterasi maksimal = 300, nilai 𝜀 = 10−12 , nilai 𝜎 = 0.07, nilai 𝜆 = 3, nilai
𝛾 = 1.7, dan nilai 𝐶 = 1. Penelitian ini menghasilkan hasil akurasi KNN sebesar 88,94% dan
SVM sebesar 87,71%. Diamati bahwa algoritme K-Nearest-Neighbors (KNN) memiliki
akurasi lebih tinggi daripada algoritme Support vector machine (SVM).
Kata kunci: Pembelajaran Mesin, K-Nearest-Neighbors, Support Vector Machine
Abstract
Water quality status classification for the community is divided into 2 classes namely those
that meet the standards and do not meet the standards for consumption. The field of object
classification research has been carried out, making it possible to create technology in the
field of object classification with high accuracy. There are many classification methods, in
this study discussing the comparison between K-Nearest-Neighbors (KNN) algorithm and
Support vector machine (SVM). Research on the variables in the KNN and SVM algorithm to
determine the best variable in classification. Testing is done by the K-Fold method with a
value of K = 5 on a dataset of water quality status. Tests carried out to get the optimal
parameter value KNN with K = 7 and SVM with value of the maximum iteration value =
300, 𝜀 = 10−12, 𝜎 = 0.07, 𝜆 = 3, 𝛾 = 1.7, and 𝐶 = 1. This research resulted in an
accuracy of KNN of 88.94% and SVM of 87.71%. It was observed that the K-Nearest-
Neighbors (KNN) algorithm had higher accuracy than the Support vector machine (SVM)
algorithm.`
Keywords: Machine Learning, K-Nearest-Neighbors, Support Vector Machine
dikonsumsi. Beberapa metode Indeks Kualitas kesamaannya dengan pelatihan yang disimpan
Air (IKA) yang digunakan di Indonesia untuk pada tuple (Han, et al., 2012).
melakukan penentuan status kualitas air adalah
2.1.1 Algoritme K-Nearest Neighbors (K-NN)
metode PI (Pollution Index), metode CCME
(Canadian Council of Ministers of the Algoritma k-nearest neighbors pertama
Environment), dan metode STORET yang kali ditemukan pada awal tahun 1950-an. K-
melakukan perbandingan data status kualitas air nearest neighbors didasarkan pada
dengan baku mutu yang disesuaikan dengan pembelajaran dengan analogi, yaitu dengan
indeksnya. Oleh karena itu, dilakukan membandingkan tuple tes yang diberikan
penelitian untuk melakukan komparasi metode dengan tuple pelatihan yang serupa dengannya.
K-Nearest Neighbors dengan metode Support Tuple pelatihan dijelaskan oleh n atribut (Han,
Vector Machines dalam mengklasifikasikan et al., 2012).
status kualitas air. Setiap tuple mewakili titik dalam ruang
Penelitian tentang komparasi antar metode n-dimensi. Dengan cara ini, semua tuple
sudah sering dilakukan dalam beberapa waktu pelatihan disimpan dalam ruang pola n-dimensi.
ini seperti pada penelitian sebelumnya yang Saat diberikan sebuah tuple yang tidak dikenal,
dilakukan oleh M. Sakizadeh dan R. Mirzaei sebuah k-terdekat-tetangga pengklasifikasi
yang melakukan kopmparasi metode K-Nearest mencari ruang pola untuk k tuple pelatihan yang
Neighbors dan Support Vector Machines paling dekat dengan tuple yang tidak dikenal.
mendapatkan hasil akurasi sebanyak 93% dan Pelatihan k adalah k "Tetangga terdekat" dari
94%. Penelitian lain yang telah dilakukan oleh tuple yang tidak dikenal (Han, et al., 2012).
Pathanjali C, Vimuktha E. Slis, Jalaja G., dan "Kedekatan" didefinisikan dalam hal
Latha A. yang mengkomparasi metode Support metrik jarak, seperti jarak Euclidean. Jarak
Vector Machines dengan K-Nearest Neighbors Euclidean antara dua titik atau tuple,
didapatkan kesimpulan hasil akurasi masing – katakanlah, 𝑋1 = (𝑥11 , 𝑥12 , … . , 𝑥1𝑛 ) dan 𝑋2 =
masing sebesar 68,8383% dan 68.16%. (𝑥21 , 𝑥22 , … . , 𝑥2𝑛 ), adalah (Han, et al., 2012):
Penelitian lain yang dilakukan oleh Shiela 𝑛
Novelia Dharma Pratiwi dan Brodjol Sutijo 𝑑𝑖𝑠𝑡(𝑋1 , 𝑋2 ) = √∑(𝑥1𝑖 − 𝑥2𝑖 )2 (1)
Suprih Ulama melakukan komparasi antara 𝑖=1
metode Support Vector Machines dengan K-
Nearest Neighbors menghasilkan akurasi 2.2 Metode Support Vector Machine (SVM)
sebesar 96.6% dan 92.293%.
Berdasarkan pada penelitian sebelumnya, Support Vector Machine (SVM) adalah
metode K-Nearest Neighbors (K-NN) dengan sistem pembelajaran dimana klasifikasi
Support Vector Machine (SVM) merupakan menggunakan ruang hipotesis dalam bentuk
metode dengan nilai akurasi yang cukup tinggi. fungsi linear dalam ruang fitur dimensi tinggi,
Sehingga pada penelitian ini akan dilakukan dilatih dengan algoritme pembelajaran
penelitian tentang komparasi antara metode K- berdasarkan teori optimasi dengan menerapkan
Nearest Neighbors (K-NN) dengan metode bias pembelajaran yang berasal dari teori
Support Vector Machine (SVM) yang bertujuan pembelajaran statistik (Cristiani & Taylor,
untuk mengetahui dan menentukan metode 2000).
mana yang paling baik dalam melakukan Gagasan dasarnya adalah menemukan
klasifikasi terhadap kualitas air berdasarkan hyperplane pemisah menjadi hyperplane tengah
tingkat akurasinya. antara dua hyperplanes paralel, di mana dua
hyperplane paralel ini dibangun mengikuti
2. METODE YANG DIGUNAKAN prinsip margin maksimum. SVM memiliki
banyak keunggulan. Pertama, ia dapat
2.1 Lazy Learners memperoleh solusi optimal global dengan
Pada klasifikasi lazy learners pada saat memecahkan masalah quadratic programming
diberikan tuple pelatihan maka hanya akan problem (QPP). Kedua, dapat meminimalkan
menyimpannya (atau hanya memproses kecil) batas atas kesalahan generalisasi dengan
dan menunggu sampai diberi tes tuple. Hanya menerapkan prinsip minimalisasi risiko
ketika melihat tes tuple yang maka lazy struktural, bukan prinsip minimalisasi risiko
learners akan melakukan generalisasi untuk empiris. Keunggulan selanjutnya yaitu dapat
mengklasifikasikan tuple berdasarkan mengubah case nonlinear menjadi case linier
dengan memperkenalkan trik kernel ke dalam didefinisikan sebagai (Piccialli & Sciandrone,
QPP ganda (Hou, et al., 2019). 2018)
𝐾(𝑥, 𝑦) = 𝜙(𝑥)𝑇 𝜙(𝑦) ∀𝑥, 𝑦 ∈ 𝑋, (6)
2.2.1 SVM Non Linear
Masalah yang dialami dalam Persamaan
Gagasan perhitungan pada SVM non 2.2 diatasi dengan mengganti perhitungan
linear adalah memetakan data ruang input ke dengan Persamaan 2.7.
𝑛 𝑛 𝑛
ruang dimensi yang lebih tinggi yang disebut 1
dengan ruang fitur dan untuk mendefinisikan min 𝛤(𝜎) = ∑ ∑ 𝑦 𝑖 𝑦 𝑗 𝐾(𝑥 𝑖 , 𝑥 𝑗 )𝜎𝑖 𝜎𝑗 − ∑ 𝜎𝑖
𝜎 2
𝑖=1 𝑗=1 𝑖=1
klasifikasi linear dalam ruang fitur. 𝑛
(7)
Pertimbangan pemetaan pada 𝜙 ∶ 𝑅 𝑛 → 𝑠. 𝑡 ∑ 𝜎𝑖 𝑦 𝑖 = 0
𝐻 dimana 𝐻 adalah ruang Euclidean (ruang 𝑖=1
fitur) yang memiliki dimensi lebih besar dari 𝑛 0 ≤ 𝜎𝑖 ≤ 𝐶 𝑖 = 1, … , 𝑛
(dimensi dapat bersifat infinite). Input vector Permasalahan yang dialami pada
training 𝑥 𝑖 dipetakan dalam 𝜙(𝑥 𝑖 ), dengan 𝑖 = persamaan 7 dapat disebut convex quadratic
1, … , 𝑙. programming. Contoh fungsi kernel dapat
Kita dapat berpikir untuk melakukan dilihat pada Tabel 1 (Han, et al., 2012).
definisi SVM linear dalam ruang fitur dengan Tabel 1 Fungsi Kernel
mengganti 𝑥 𝑖 dengan 𝜙(𝑥 𝑖 ). Kemudian kita
memiliki (Piccialli & Sciandrone, 2018): Kernel Linier 𝐾(𝑥, 𝑦) = 𝑥. 𝑦
Masalah tersebut diganti dengan Persamaan Polymomial 𝐾(𝑥, 𝑦) = (𝑥. 𝑦 + 𝑐)𝑑
2 Radial Basis ‖𝑥⃑ − 𝑦⃑‖2
1
𝑛 𝑛 𝑛 Function 𝐾(𝑥⃑, 𝑦⃑) = exp (− )
min 𝛤(𝜎) = ∑ ∑ 𝑦 𝑖 𝑦 𝑗 𝜙(𝑥 𝑖 )𝑇 𝜙(𝑥 𝑗 )𝜎𝑖 𝜎𝑗 − ∑ 𝜎𝑖 (RBF) 2𝜎 2
𝜎 2
𝑖=1 𝑗=1 𝑖=1
𝑛 Sigmoid 𝐾(𝑥, 𝑦) = tanh(𝑘〈𝑥⃑. 𝑦⃑〉 + 𝜗)
(2)
𝑠. 𝑡 ∑ 𝜎𝑖 𝑦 𝑖 = 0 Dengan melakukan penyelesaian pada
𝑖=1
0 ≤ 𝜎𝑖 ≤ 𝐶 𝑖 = 1, … , 𝑛
QP Persamaan 7, didapatkan Persamaan 8 yang
disebut sebagai fungsi bidang pemisah (Huang,
Vector utama 𝑤 ∗ yang optimal diperoleh
et al., 2006).
dengan perhitungan Persamaan 3. 𝑛
𝑛
𝑑(𝑥) = ∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥𝑗 ) + 𝑏 (8)
𝑤 ∗ = ∑ 𝜎𝑖∗ 𝑦 𝑖 𝜙(𝑥 𝑖 ) (3)
𝑖=1
𝑖=1 Dimana persamaan 𝑏 dihitung dengan
∗
Pemberian 𝑤 dan semua nilai dalam atas Persamaan 9.
0 < 𝜎𝑖∗ < 𝐶, b* dapat didefinisikan dengan 1
kondisi komplemen seperti pada Persamaan 𝑏 = − (𝑥 + . 𝑤 + 𝑥 − . 𝑤)
2 𝑛
4. 1
𝑛 = − (∑ 𝑦𝑖 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥 + ) (9)
𝑦𝑖
𝑇
(∑ 𝜎𝑗∗ 𝑦 𝑗 𝜙(𝑥 𝑗 ) 𝜙(𝑥 𝑖 ) + 𝑏 ∗ ) − 1 = 0 (4) 2
𝑖=1
𝑗=1
𝑛
4.1.2 Pengujian Pengaruh Nilai Parameter algoritme Support Vector Machine (SVM dapat
Metode Support Vector Machine diamati dalam grafiknya pada Gambar 7. Pada
pengujian tersebut nilai γ dengan akurasi
4.1.2.1 Pengujian Pengaruh Nilai Parameter
tertinggi adalah pada saat nilai γ = 1.7.
𝜶 Pada Metode Support Vector Machine
Sehingga nilai parameter terbaik dan nilai yang
akan digunakan selanjutnya adalah γ = 1.7.
4.1.2.4 Pengujian Pengaruh Nilai Parameter
𝑪 Pada Metode Support Vector Machine
Hasil analisis dan pengujian nilai C pada
algoritme Support Vector Machine (SVM)
dapat diamati dalam pada grafiknya pada
Gambar 5. Grafik Pengaruh Nilai Parameter 𝛼 Gambar 8. Pada pengujian tersebut nilai 𝐶
Metode Support Vector Machine dengan akurasi tertinggi adalah pada saat nilai
C = 1. Sehingga nilai parameter terbaik dan
Hasil analisis dan pengujian pada nilai σ nilai yang akan digunakan selanjutnya adalah
pada algoritme Support Vector Machine (SVM) C = 1.
dapat diamati grafiknya pada Gambar 5. Pada
pengujian tersebut nilai σ dengan akurasi
tertinggi adalah pada saat nilai σ = 0.07.
Sehingga nilai parameter terbaik dan nilai yang
akan digunakan selanjutnya adalah σ = 0.07.
4.1.2.2 Pengujian Pengaruh Nilai Parameter
𝝀 Pada Metode Support Vector Machine
Hasil analisis dan pengujian pada nilai λ Gambar 8. Grafik Pengaruh Nilai Parameter
pada algoritme Support Vector Machine (SVM) C Metode Support Vector Machine
dapat diamati dalam grafiknya pada Gambar 6.
Pada pengujian tersebut nilai λ dengan akurasi 4.1.2.5 Pengujian Pengaruh Nilai Parameter
tertinggi adalah pada saat nilai λ = 3. Sehingga 𝜀 Pada Metode Support Vector Machine
nilai parameter terbaik dan nilai yang akan Hasil analisis dan pengujian pada nilai
digunakan selanjutnya adalah λ = 3. 𝜀 pada algoritme Support Vector Machine
(SVM) dapat diamati dalam grafiknya pada
Gambar 9. Pada pengujian tersebut nilai 𝜀
dengan akurasi tertinggi adalah pada saat nilai
𝜀 = 10−12. Sehingga nilai parameter terbaik
dan nilai yang akan digunakan selanjutnya
adalah ε = 10−12 .
6. DAFTAR REFERENSI
Brownlee, J., 2018. Machine Learning Mastery.
[Online]
Available at:
https://machinelearningmastery.com/k-fold-
cross-validation/
[Diakses 10 Desember 2019].
Han, J., Kamber, M. & Pei, J., 2012. Data
Mining Concepts and Techniques. 3 penyunt.
Waltham: Elsevier.
Hou, Q. et al., 2019. Discriminative
information-based nonparallel support vector
machine. Elsevier, Volume 162, pp. 169 - 179.
Huang, T., Kecman, V. & Kopriva, I., 2006.
Kernel Based Algorithms for Mining Huge
Data Sets. Heidelberg: Springer-Verlag Berlin
Heidelberg .
Kuhn, M. & Johnson, K., 2013. Applied
Predictive Modeling. Dalam: Applied
Predictive Modeling. s.l.:Springer, p. 70.
Piccialli, V. & Sciandrone, M., 2018. Nonlinear
Optimization and Support Vector Machines,
s.l.: ResearchGate.
Vijakumar, S. & Wu, S., 1999. Sequential
Support Vector Classifiers and Regression.
Wakoshi, ResearchGate.
Wong, T. T. & Yang, N. Y., 2017. Dependency
Analysis of Accuracy Estimates in k-Fold Cross
Validation. IEEE Transactions on Knowledge
and Data Engineering, 29(11), pp. 2417 - 2427.