Implementasi Algoritma K-Nearest Neighbo

ISSN Cetak : 2338-4018
Jurnal TIKomSiN, Vol. 6, No. 1, April 2018 ISSN Online : 2620-7532
IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOR

UNTUK IDENTIFIKASI KUALITAS AIR
(STUDI KASUS: PDAM KOTA SURAKARTA)
Arial 11
Rio Adi Arnomo1); Wawan Laksito Y.S. 2); Paulus Harsadi 3)
1) 2) 3) Program Studi: Teknik Informatika, STMIK Sinar Nusantara
1)akunrio09@gmail.com; 2)wlaksito@sinus.ac.id; 3)paulusharsadi@sinus.ac.id
…….
……. 11
ABSTRACT
Water quality in urban areas in Surakarta has decreased nowadays. The increase of
industrial development, its poor sewage treatment, and some other factors cause this urban
problem. The result of water quality monitoring system with K-Nearest Neighbor algorithm on this
research certainly will help the laborers’ duty of PDAM (Local Government Owned Water Utilities)
in analyzing water quality. For the consideration of majority output in this method, the system
works by taking the nearest distance to the assigned number of K. The training data for this
research was taken in March 2016 form the report of water monitoring result in PDAM’S
laboratory of Surakarta. The identification result is divided into eligible (MS) and ineligible (TMS).
The testing data result is applied in algorithm performance testing with confusion matrix having
accuracy level 82,5%.
Keywords : water quality, K-Nearest Neighbor, confusion matrix
I. PENDAHULUAN salah satu teknik lazy learning. KNN dilakukan

Air merupakan kebutuhan penting bagi dengan mencari kelompok k objek dalam data
masyarakat perkotaan pada khususnya. training yang paling dekat (mirip) dengan
Kebutuhan air bersih tiap tahun mengalami objek pada data baru atau data testing.
peningkatan sedangkan ketersediaan air Algoritma K-Nearest Neighbor adalah sebuah
bersih semakin terbatas, dikarenakan metode untuk melakukan klasifikasi terhadap
sempitnya daerah resapan, banyaknya objek berdasarkan data pembelajaran yang
pembangunan yang tidak memperhatikan jaraknya paling dekat dengan objek
keseimbangan alam, eksploitasi sumber air tersebut[4]. K-NN sendiri merupakan teknik
baku yang tidak terjaga kelestarian sumber yang sudah umum digunakan dalam berbagai
air. Salah satu masalah pokok yang dihadapi bidang penelitian salah satunya text
adalah kurang tersedianya sumber air bersih. categorization [5][6][7] bahkan dalam object
Berdasarkan Peraturan Menteri recognition [8].
Kesehatan Republik Indonesia Nomor
492/MENKES/PER/IV/2010 tentang II. TINJAUAN PUSTAKA
Persyaratan Kualitas Air Minum terdapat 2.1. Sistem Penunjang Keputusan
pengertian mengenai Air Minum yaitu air yang Sistem Pendukung Keputusan
melalui proses pengolahan atau tanpa proses mempunyai komponen-komponen adalah
pengolahan yang memenuhi syarat kesehatan sebagai berikut [9]:
dan dapat langsung diminum. Kualitas air a. Data Management
yang layak konsumsi bagi masyarakat, perlu Termasuk database yang mengandung
adanya identifikasi dini terhadap produk air data yang relevan untuk berbagai situasi
dari sumber air baku serta faktor-faktor yang dan diatur oleh software.
mempengaruhinya. Tujuan penelitian ini untuk b. Model Management
melakukan early warning untuk identifikasi Melibatkan model finansial, statistikal,
kualitas air dengan mengklasifikasikan data management science, atau berbagai
menggunakan metode algoritma K-Nearest model kualitatif lainya, sehingga dapat
Neighbor (K-NN). Kontribusi implementasi memberikan ke sistem suatu kemampuan
algoritma K-NN untuk lingkungan sendiri analitis dan manajemen software yang
sudah cukup banyak antara lain untuk dibutuhkan.
peramalan temperatur air[1], peramalan banjir c. Communication / Interface
[2] bahkan dalam perubahan iklim [3]. User dapat berkomunikasi dan
Algoritma ini termasuk kelompok instance- memberikan perintah pada DSS melalui
based learning. Algoritma ini juga merupakan subsistem ini.
1
d. Knowledge Management query instance ke training sample untuk

Subsistem optional ini dapat mendukung menentukan K-NN-nya. Training sample
subsistem lain atau bertindak sebagai diproyeksikan ke ruang berdimensi banyak
komponen yang berdiri sendiri. dimana tiap dimensi merepresentasikan fitur
dari data. Ruang ini dibagi menjadi bagian-
2.2. Kualitas Air bagian berdasarkan klasifikasi training
Air merupakan salah satu sumber daya sample. Sebuah titik pada ruang ini ditandai
alam yang memiliki fungsi sangat penting bagi kelas c jika kelas c merupakan klasifikasi
kehidupan dan perikehidupan manusia, serta yang paling banyak ditemui pada k buah
untuk memajukan kesejahteraan umum, tetangga terdekat dari titik tersebut [10]. Untuk
sehingga merupakan modal dasar dan faktor mendefinisikan jarak antara dua titik yaitu titik
utama pembangunan. Air yang dikonsumsi pada data training (x) dan titik pada data
oleh masyarakat harus memiliki standar air testing (y) maka digunakan rumus Euclidean,
bersih yang telah ditetapkan oleh KEMENKES seperti yang ditunjukkan pada persamaan
no.492/Menkes/Per/IV/2010 dalam peraturan
yang diterbitkan pada tahun 2010. D(x,y) = √∑𝑛𝑘−1(𝑥𝑘 − 𝑦𝑘 )2 (1)
Tabel 1. Kadar yang diperbolehkan Dengan D adalah jarak antara titik pada data
No Jenis Parameter Satuan Kadar yang training x dan titik data testing yang akan
ditentukan diklasifikasi, dimana x=x1,x2,...,xi dan
1 Parameter fisik y1,y2,...,yi dan I mempresentasikan nilai
a) Bau Tak berbau atribut serta n merupakan dimensi atribut.
b) Rasa Tak berrasa Langkah-langkah untuk menghitung metode
c) Warna oC
Algoritma K-nearest Neighbor [4]:
d) Suhu TCU Suhu udara 3o a. Menentukan Parameter K (Jumlah
e) Kekeruhan NTU 5 tetangga paling dekat).
2 Parameter kimia b. Menghitung kuadrat jarak Euclid (query
a) Sisa Clor mg/l 0,2 – 0,5
instance) masing-masing objek terhadap
b) Besi mg/l 0,3
data sampel yang diberikan
c) Mangan mg/l 0,4
d) Kesadahan mg/l 500
c. Kemudian mengurutkan objek-objek
e) Nitrit mg/l 3 tersebut ke dalam kelompok yang
f) Amonium mg/l 1,5 mempunyai jarak Euclid terkecil.
g) Kalium d. Mengumpulkan kategori Y (Klasifikasi
mg/l Nearest Neighbor).
permanganat
h) Ph 6,5 – 8,5 e. Dengan menggunakan kategori Nearest
i) Klorida mg/l 250 Neighbor yang paling mayoritas maka
j) sulfat mg/l 250 dapat diprediksi nilai query instance yang
telah dihitung.
III. METODE PENELITIAN
3.1 Data Primer 3.4 Pengujian Confusion matrix
Data yang dibutuhkan dalam penelitian Metode ini menggunakan tabel matriks
ini adalah hasil wawancara dan observasi seperti padaTabel 1 jika data set hanya terdiri
mengenai uji kualitas air di laboratorium dari dua kelas, kelas yang satu dianggap
PDAM Kota Surakarta. sebagai positif dan yang lainnya negatif [11].
Tabel 2 Model Confusion Matrix
3.2 Data Sekunder Klasifikasi Diklasifikasikan sebagai
Data sekunder umumnya berupa bukti, yang benar + -
catatan atau laporan historis yang tersusun + true positives false negatives
dalam arsip. Data yang dibutuhkan dalam - false positives true negatives
penelitian ini adalah laporan uji lab kualitas air True positives adalah jumlah record positif
bulan Maret dan April 2016 di PDAM kota yang diklasifikasikan sebagai positif, false
Surakarta sebagai data training sebanyak 111 positives adalah jumlah record negatif yang
data. diklasifikasikan sebagai positif, false negatives
adalah jumlah record positif yang
3.3 Metode K-Nearest Neighbor diklasifikasikan sebagai negatif, true negatives
Algoritma K-NN sangatlah sederhana, adalah jumlah record negatif yang
bekerja berdasarkan jarak terpendek dari diklasifikasikan sebagai negative, kemudian
2
masukkan data uji. Setelah data uji ASPEK VARIABEL

dimasukkan ke dalam confusion matrix, hitung X13 : kalium permanganat
nilai-nilai yang telah dimasukkan tersebut X14 : Klorida
untuk dihitung jumlah sensitivity (recall) X15 : Sulfat
specificity, precision dan accuracy. Sensitivity
digunakan untuk membandingkan jumlah TP Data yang nilainya bersifat nominal akan
terhadap jumlah record yang positif diubah menjadi data numerik. Pada Tabel 3
sedangkan specificity adalah perbandingan data yang masih bersifat nominal adalah bau
jumlah TN terhadap jumlah record yang
dan rasa. Tabel 4 merupakan perubahan data
negatif. Untuk menghitung digunakan
persamaan di bawah ini [12]: nominal ke numerik.
𝑇𝑃 Tabel 4. Nilai atribut bau dan rasa

sensitivity = 𝑃
(2)
Atribut Nilai
𝑇𝑁 Berbau 1
specificity = 𝑁
(3) Tak berbau 2
Berrasa 1
𝑇𝑃
precision = 𝑇𝑃+𝐹𝑃 (4) Tak berrasa 2
𝑃 𝑁 Perhitungan dilakukan dengan 15

accuracy = sensitivity(𝑃+𝑁) +specificity(𝑃+𝑁)(5)
variabel data yaitu data fisik dan numerik.
Data testing akan dihitung jarak terdekat
Keterangan: dengan masing-masing data training.
TP = jumlah true positives Misalkan sebuah data sampel kualitas air
TN = jumlah true negatives yang berlokasi di Toko Djoyo apakah
P = jumlah record positif memenuhi syarat atau tidak memenuhi syarat
N = jumlah tupel negatif maka akan dihitung jarak terdekat dengan
FP = jumlah false positives data training yang sudah ada.
Contoh perhitungan dengan algoritma
IV. HASIL DAN PEMBAHASAN K-Nearest Neighbor:
4.1. Pembahasan a. Menentukan parameter K, misal K = 7
b. Menghitung kuadrat jarak euclidean
Penelitian ini menggunakan 111 record
(euclidean distance) masing-masing
hasil analisa kualitas air baik yang Memenuhi
obyek terhadap data sampel yang
Syarat ataupun Tidak Memenuhi Syarat
diberikan
diambil dari laporan analisa kualitas air PDAM
Surakarta. Berikut pada Tabel 3 menjelaskan
variabel respon yang digunakan dalam D(x,y) = √∑𝑛𝑘−1(𝑥𝑘 − 𝑦𝑘 )2
penelitian ini.
d(1,1) =
Tabel 3. Variabel respon
= ( (0)2 + (0)2 + (4)2 + (0)2 + (-0,04)2 + (0)2 +
ASPEK VARIABEL (0,5)2 + (12)2 + (0,07)2 + (-0,79)2 + (0,13)2 + (0)2
Y : Status Kualitas Hasil + (0,01)2 + (26)2 + (1)2 )1/2
Pemeriksaan Sample Air
(1 = MS (Memenuhi Syarat), 2 = = (0 + 0 + 16 + 0 + 0,0016 + 0 + 0,25 + 144 +
TMS (Tidak Memenuhi Syarat)
0,0049 + 0,624 + 0,0169 + 0 + 0,01 + 676 +
Parameter X1 : Bau
fisik
1)1/2
X2 : Rasa
X3 : Suhu = (837,8976)1/2
X4 : Warna
X5 : Kekeruhan =28,95
Parameter X6 : Sisa Clor
Kimia X7 : pH (dan seterusnya sampai d(1,71)).
X8 : Kesadahan
X9 : Besi
X10 : Mangan
X11 : Amonium Tabel 5. Data Training
X12 : Nitrit
3
Tabel 6. Data Testing
4.2 Pengujian 𝑇𝑃 33 33
Recall = 𝑇𝑃+𝐹𝑁 = 33 + 0
= 33 = 1 = 100%
Pengujian algoritma dengan confusion
matrik digunakan untuk menghitung nilai 𝑇𝑃 + 𝑇𝑁 33 + 0 33
Accuracy = 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 = 33+7+0+0 = =
precision, recall dan accuracy. Perhitungan 40
kedekatan kasus lama pada data training 0,825 = 82,5%
dengan kasus baru pada data testing,
diketahui dari 40 data, 33 data kelas MS Sehingga diperoleh nilai precision 82,5%,
diprediksi sesuai, 0 data diklasifikasikan kelas recall 100%, dan accuracy 82,5%.
TMS, 7 data yang diprediksi kelas TMS V. PENUTUP
ternyata masuk kelas MS, dan 0 data yang 5.1. Kesimpulan
diprediksi MS ternyata masuk kelas TMS. Berdasarkan hasil penelitian dalam
Berikut tabel 5 model confusion matrix untuk menganalisa dan mengimplentasikan sistem
algoritma KNN. identifikasi kualitas air dengan menggunakan
Tabel 5. Model Confusion Matriks untuk algoritma K-Nearest Neighbor yang dilakukan
algoritma KNN oleh peneliti, maka dapat diambil beberapa
kesimpulan, yaitu:
Nilai Nilai Sebenarnya 1. Penelitian ini berhasil menerapkan
Prediksi MS TMS algortma K-Nearest Neighbor untuk
Prediksi menghitung dan memberikan hasil
33 0
MS klasifikasi terhadap kualitas air.
Prediksi 2. Penelitian ini menggunakan111 record
7 0
TMS data, 71 data digunakan sebagai data
training, 40 data sebagai data testing.
Dari Tabel 5 tersebut akan dihitung nilai Dari data testing tersebut 33 data
precision, recall dan accuracy. Berikut diprediksi benar dan 7 data diprediksi
perhitungannya: salah dengan perhitungan jumlah K
𝑇𝑃 33 33
Precision=𝑇𝑃+𝐹𝑃 = 33 + 7 = 40 = 0,825 = 82,5% sebanyak 7.
4
3. Sistem untuk identifikasi kualitas air [9] A. . Rosa and A. Shalahuddin, Modul
dengan menggunakan metode KNN Pembelajaran Perangkat Lunak
hasilnya akurat dengan mencapai (Terstruktur dan Berorientasi Objek).
tingkat akurasi sebesar 82,5%. Bandung: Modula, 2011.
[10] T. Cover and P. Hart, “Nearest neighbor
5.2. Saran pattern classification,” IEEE Trans. Inf.
Saran penelitian berikutnya adalah Theory, vol. 13, no. 1, pp. 21–27, Jan.
untuk menghasilkan akurasi tinggi sebaiknya 1967.
digabungkan menggunakan algoritma [11] M. Bramer, Principles of Data Mining,
optimasi yaitu GA (Genetik Algorithm), PSO no. January 2007. London: Springer
(Particle Swam Optimzation), atau CE (Cross- London, 2007.
Entropy). [12] K. Michelin, P. Jian, and H. Jiawei,
“Data Mining: Concepts and
DAFTAR PUSTAKA Techniques,” vol. 278, pp. 6093–6100,
[1] A. St-Hilaire, T. B. M. J. Ouarda, Z. 2003.
Bargaoui, A. Daigle, and L. Bilodeau,
“Daily river water temperature forecast
model with a k-nearest neighbour
approach,” Hydrol. Process., vol. 26, no.
9, pp. 1302–1310, 2012.
[2] K. Liu, Z. Li, C. Yao, J. Chen, K. Zhang,
and M. Saifullah, “Coupling the k-
nearest neighbor procedure with the
Kalman filter for real-time updating of
the hydraulic model in flood forecasting,”
Int. J. Sediment Res., vol. 31, no. 2, pp.
149–158, 2016.
[3] H.-I. Eum, S. P. Simonovic, and Y.-O.
Kim, “Climate Change Impact
Assessment Using K-Nearest Neighbor
Weather Generator: Case Study of the
Nakdong River Basin in Korea,” J.
Hydrol. Eng., vol. 15, no. 10, pp. 772–
785, 2010.
[4] R. I. Ndaumanu and M. R. Arief,
“Analisis Prediksi Tingkat Pengunduran
Diri Mahasiswa dengan Metode K-
Nearest Neighbor,” JISATI, vol. 1, no. 1,
pp. 1–15, 2014.
[5] E. M. Elnahrawy, “Log-Based Chat
Room Monitoring Using Text
Categorization : A Comparative Study,”
IASTED Int. Conf. Inf. Knowl. Shar. (IKS
2002), 2002.
[6] G. Toker and Ö. Kırmemiş, “Text
Categorization Using k-Nearest
Neighbor Classification,” Middle East
Tech. Univ., 2013.
[7] Y. Liao and V. R. Vemuri, “Using Text
Categorization Techniques for Intrusion
Detection,” Proc. 11 th USENIX Secur.
Symp., 2002.
[8] F. Bajramovic, F. Mattern, N. Butko, and
J. Denzler, “A comparison of nearest
neighbor search algorithms for generic
object recognition,” Adv. Concepts Intell.
Vis. Syst., pp. 1186–1197, 2006.
5

Implementasi Algoritma K-Nearest Neighbo

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Implementasi Algoritma K-Nearest Neighbo

Diunggah oleh

Hak Cipta:

Format Tersedia

ISSN Cetak : 2338-4018

Jurnal TIKomSiN, Vol. 6, No. 1, April 2018 ISSN Online : 2620-7532

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOR

I. PENDAHULUAN salah satu teknik lazy learning. KNN dilakukan

d. Knowledge Management query instance ke training sample untuk

masukkan data uji. Setelah data uji ASPEK VARIABEL

𝑇𝑃 Tabel 4. Nilai atribut bau dan rasa

𝑃 𝑁 Perhitungan dilakukan dengan 15

Tabel 6. Data Testing

Anda mungkin juga menyukai