Abstrak
Demam merupakan indikator awal untuk beberapa penyakit antara lain demam berdarah, tifoid dan
malaria disertai gejala yang mirip, antara lain nyeri otot, gangguan pencernaan, kondisi lidah serta
pembesaran pada hati dan limpa. Kemiripan gejala dari masing-masing penyakit sering menimbulkan
kesulitan dalam mendapatkan anamnese (diagnosa sementara) sehingga pasien mendapatkan
penanganan awal yang kurang tepat. Untuk menangani masalah tersebut diperlukan teknologi untuk
mendapatkan diagnosa sementara dengan menerapkan salah satu metode klasifikasi yaitu Modified K-
Nearest Neighbor (MKNN). Metode tersebut mempelajari pola dari data hasil pemeriksaan sebelumnya
berdasarkan 15 gejala penyakit dengan proses perhitungan jarak eucledian, perhitungan nilai validitas
dan perhitungan weighted voting yang hasil akhirnya digunakan untuk penetapan kelas klasifikasi
berdasarkan nilai K yang telah ditentukan. Berdasarkan hasil pengujian terhadap perubahan nilai K,
perubahan jumlah data latih dan perubahan komposisi data latih didapatkan rata-rata akurasi untuk
pengujian pengaruh nilai K terhadap akurasi sebesar 88.55%. Nilai rata-rata akurasi yang didapatkan
dari pengujian pengaruh variasi jumlah data latih adalah 92.42%. Pengujian pengaruh komposisi data
latih terhadap akurasi mendapatkan nilai rata-rata akurasi sebesar 87.89%. Pengujian pengaruh
komposisi data latih dan data uji terhadap akurasi mendapatkan nilai rata-rata akurasi sebesar 96.35%.
Kata Kunci: Modified K-Nearest Neighbor (MKNN), klasifikasi, demam, Malaria, Tifoid, Demam Berdarah
(DBD)
Abstract
Fever is an early indicator for some diseases such as dengue fever, typhoid and malaria accompanied
by similar symptoms, including muscle pain, indigestion, tongue condition and enlargement of the liver
and spleen. Similar symptoms of each disease cause difficulties in getting anamnese (temporary
diagnosis) so that patients get the inadequate initial treatment. Handling the problem, technology is
needed to obtain a temporary diagnosis by applying one of the classification method of Modified K-
Nearest Neighbor (MKNN). The method studied the pattern of previous examination data based on 15
symptoms of disease with eucledian distance calculation process, calculation of validity value and
weighted voting calculation that the end result is used for class classification determination based on
predetermined value of K. Testing of the value of K get the accuracy of 88.55%. The average value of
accuracy obtained from testing of variation in the amount of training data is 92.42%. Testing the
influence of the composition of train data get the average value of accuracy of 87.89%. Testing the
influence of the composition of train data and test data get the average value of accuracy of 96.35%.
Keyword: Modified K-Nearest Neighbor (MKNN), classification, fever, Malaria, Typhoid, Dengue Fever (DHF)
Demam, nyeri otot, gangguan pencernaan, terjadinya perubahan pada pusat termoregulasi
kondisi lidah serta pembesaran pada hati dan yang terletak dalam hipotalamus anterior.
limpa (Annisa, 2016). Kemiripan gejala dari Demam berhubungan dengan peningkatan
masing-masing penyakit sering menimbulkan suhu tubuh disertai peningkatan produksi sitoken
kesulitan dalam mendapatkan anamnese pirogen yang berfugsi untuk mengatasi
(diagnosa sementara) sehingga pasien rangsang, antara lain peradangan, infeksi
mendapatkan penanganan awal yang kurang disebabkan bakteri dan virus serta rangasangan
tepat dan semakin memperburuk kondisi pasien pirogenik. Demam merupakan gejala awal untuk
(Hariman, 2014). penyakit-penyakit yang membutuhkan
Kemajuan teknologi telah membantu penanganan serius, antara lain demam berdarah,
menyelesaikan permasalahan di berbagai bidang tifoid dan malaria.
terutama bidang kesehatan, kesalahan dalam
melakukan diagnosa dapat dicegah dengan 2.2 Klasifikasi
mempelajari pola dari data hasil pemeriksaan Klasifikasi adalah teknik untuk merancang
pasien demam berdarah, demam tifoid dan fungsi berdasarkan hasil pengamatan dari data
malaria sehingga gejala-gejala tersebut dapat dan atribut dari data tersebut sehingga dapat
diklasifikasikan berdasarkan kedekatan antara dilakukan pemetaan terhadap data yang belum
data lama dengan data baru. Proses klasfikasi memiliki kelas kedalam data yang telah
menggunakan komputer dapat diterapkan terklasifikasi sesuai dengan aturan-aturan yang
dengan menggunakan beberapa algoritma, diberikan. Terdapat banyak algoritma yang
antara lain K-Nearest Neighbor, Modified K- digunakan untuk mengklasfikasi data, antara lain
Nearest Neighbor (MKNN), Naïve Bayes, Fuzzy fuzzy, artificial neural network, support vector
Tsukamoto atau gabungan antara dua metode- machine dan K-nearest neighbor.
metode tersebut seperti, Fuzzy K-Nearest Klasifikasi menggunakan algoritma-
Neighbor (FK-NN). algoritma tersebut secara umum dilakukan
Implementasi algoritma MKNN untuk berdasarkan 3 tahapan yaitu:
klasifikasi demam bertujuan untuk memudahkan
ahli medis dalam memperoleh anamnese a) Perancangan Model
(diagnosa sementara) dengan cara Proses membangun solusi untuk
mengklasfikasi gejala-gejala yang dialami oleh menyelesaikan masalah berdasarkan data
pasien dengan K data tetangga terdekat untuk yang telah terklasfikasi (Data latih).
mendapatkan nilai akurasi yang tinggi. b) Implementasi Model
MKNN merupakan algoritma yang Proses penentuan kelas untuk data uji
dikembangkan dari algoritma KNN, algoritma berdasarkan model fungsi dan parameter-
MKNN menambahkan proses baru untuk parameter data yang telah ditentukan pada
melakukan klasifikasi yaitu, perhitungan nilai tahap perancangan.
validitas untuk mempertimbangkan validitas
antar data latih dan pehitungan weighted voting c) Evaluasi Model
untuk menghitung bobot dari masing-masing Proses yang bertujuan untuk melakukan
terdekat. Penambahan 2 proses baru dalam evaluasi terhadap hasil implementasi model
MKNN diharapkan dapat memperbaiki setiap fungsi dalam mengklasifikasikan data uji
kesalahan pada proses K-NN. berdasarkan parameter-paramter yang telah
ditetapkan.
2. TINJAUAN PUSTAKA
2.3 Normalisasi Data
2.1 Demam Normalisasi data merupakan proses awal
Suhu tubuh merupakan gambaran yang dilakukan dalam tahap klasifikasi dengan
keseimbangan tubuh mengenai proses produksi melakukan pensklaan nilai atribut dari data
dan pelepasan panas yang diatur dalam otak sehingga berada pada range tertentu (Panjaitan,
(hipotalamus). Suhu tubuh dalam kondisi normal 2013). Proses normalisasi pada dataset
jika berada dalam suhu 36.50C – 37.20C dan dilakukan dengan tujuan agar persebaran data
dikatakan demam jika suhu di atas diatas 37.20C merata dan meningkatkan nilai akurasi sistem.
Demam terjadi sebagai bentuk rangsang Pada penelitian menggunakan neuro fuzzy untuk
klasifikasi inventori berdasarkan analisa ABC
dijelaskan bahwa hasil pengujian pada data
masukan ternomalisasi dan tidak ternormalisasi setiap data training adalah seperti persamaan
menunjukkan hasil yang cukup berbeda hal ini dibawah ini Persamaan 3.
ditunjukkan dengan perbedaan hasil klasifikasi 1
𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑥) = ∑𝑛𝑖=0 𝑆(𝑙𝑏𝑙(𝑥), 𝑙𝑏𝑙(𝑁𝑖(𝑥))) (3)
dan mempengaruhi derajat keanggotaan dari 𝐻
data dengan pusat kelasnya (Darmanto, 2012). Dimana:
Terdapat beberapa cara teknik normalisasi antara
min-max normalization, z-score normalization, 𝐻 : jumlah titik terdekat
decimal scaling dan sigmoidal normalization. 𝑙𝑏𝑙(𝑥) : kelas x
Berikut adalah persamaan 1 untuk teknik min- 𝑙𝑏𝑙(𝑁𝑖(𝑥)) : label kelas titik terdekat x
max normalization.
Fungsi S digunakan untuk menghitung
s−min(𝑆𝑘 ) kesamaan antara titik x dan data ke-i dari
𝑠′ = (1)
max(𝑆𝑘 )−min(𝑆𝑘 ) tetangga terdekat. Yang dituliskan dalam
Dimana: persamaan di bawah ini mendefinisikan fungsi S
pada persamaan 4.
s = nilai dari data masukan
min(𝑆𝑘 ) = nilai minimum seluruh data 1𝑎 =𝑏
𝑆(𝑎, 𝑏) = { (4)
max(𝑆𝑘 ) = Nilai maksimum seluruh data 0𝑎 ≠𝑏
Keterangan:
2.4 Algoritma Modified K-Nearest Neighbor a = kelas a pada data training.
(MKNN) b = kelas lain selain a pada data training.
Algoritma modified k-nearest neighbor 2.4.3 Perhitungan Weighted Voting
(MKNN) merupakan pengembangan dari
metode KNN dengan penambahan beberapa Dalam metode MKNN, pertama weight
masing-masing tetangga dihitung dengan
proses yaitu, perhitungan nilai validitas dan
menggunakan 1 / (de + 0.5). Kemudian,
perhitungan bobot. Algoritma k-nearest
neighbor (KNN) merupakan algoritma Validitas dari tiap data pada data training
dikalikan dengan weighted berdasarkan pada
clustering yang sangat sederhana dengan cara
mengelompokkan data baru dengan K tetangga jarak Euclidian. Dalam metode MKNN, weight
terdekat. voting tiap tetangga Persamaan 5.
1
2.4.1 Perhitungan Jarak Eucledian 𝑊(𝑖) = 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑦(𝑖) 𝑥 (5)
𝑑𝑒+ 𝛼
4. PERANCANGAN
Perancangan berisi penjelasan mengenai Normalisasi Data
kebutuhaan yang diperlukan untuk membangun
sebuah sistem yang memiliki fungsi dalam
klasfikasi penyakit demam menggunakan Proses Klasifikasi MKNN
algoritma MKNN. Pada gambar 2 ditunjukkan
dalam diagram perancangan.
Output Data
Klasifikasi Demam
END
Dataset_pasiendemam
NormalisasiDataset
=(dataset x, y-min
x)/ (max y – min y)
HasilNormalisasi
Gambar 5 Diagram Alir Proses Klasifikasi MKNN
Y
4.3.1 Menghitung Jarak Eucledian
X
Perhitungan jarak eucledian dilakukan
END
dilakukan dalam 2 tahapan yaitu menghitung
nilai jarak eucledian antar data latih serta
Gambar 4 Diagram Alir Proses Normalisasi menghitung nilai jarak eucledian antar data latih
dan data uji. Proses perhitungan jarak ditunjukan
4.3 Perancangan Sistem Klasifikasi pada gambar 6
Klasifikasi demam menggunakan metode Start
JumlahDataEucledianDataLatih=
JumlahDataEucledianDataLatih+(normal
isasiDataLatih[x][y]-
normalisasiDataLatih[y][z]^2)
EucledianDataLatih=sqrt(jumla
heuclediandatalatih)
Return
Hitung Validitas
EucledianDataLatih
dan nilai_K y
x
For x=1 to datalatih
Return
asort (euclediandatalatih)
Menjumlahkan seluruh
nilai pada variabel K
Validitas[x]=sum/nilai k
Return
dengan tabel data latih terdiri atas ID pasien dan masing-masing penyakit seperti yang
15 gejala beserta bobot seperti pada gambar 10 ditunjukkan padahal gambar 12
80,00%
60,00%
40,00%
20,00%
Gambar 11 Halaman Proses Perhitungan MKNN
0,00%
5.3 Implementasi Hasil Klasifikasi 3 5 7 10 20 30
Halaman pengujian pada sistem Gambar 13 Grafik Hasil Pengujian Pengaruh Nilai
K
menampilkan hasil klasifikasi demam untuk
semua data uji sesuai dengan nilai yang Grafik pada gambar 13 menunjukkan bahwa
didapatkan dari perhitungan weighted voting. pada pengujian ini nilai akurasi tertinggi dari
Hasil Klasifikasi dalam halaman pengujian nilai K = 3 dan K =7. Pengujian terhadap nilai K
ditampilkan sesuai dengan nilai K yang menunjukkan tingkat akurasi yang berbeda
ditentukan lalu ditampilkan banyak data dengan sehingga dapat diketahui bahwa perubahan nilai
sesuai nilai K dengan nilai tertinggi pada K dapat mempengaruhi akurasi sistem untuk
mengklasifikasi demam. Nilai K yang semakin menggunakan 70 data latih dengan ketentuan
tinggi menyebabkan akurasi menurun hal ini beberapa, yaitu skenario pertama komposisi data
disebabkan oleh beberapa hal antara lain latih terdiri atas 30 Tifoid, 20 Malaria dan 20
mempengaruhi kesesuaian data, nilai K yang Demam Berdarah (DBD). Skenario kedua
tinggi menyebabkan nilai validitas data latih komposisi data latih terdiri atas 20 Tifoid, 30
rendah dan perbandingan data dari hasil Malaria dan 20 Demam Berdarah (DBD).
weighted voting semakin banyak sehingga Skenario ketiga komposisi data latih terdiri atas
menyebabkan kesalahan sistem dalam 20 Tifoid, 20 Malaria dan 30 Demam Berdarah
melakukan klasifikasi. Total rata-rata akurasi (DBD). Skenario terakhir menggunakan
untuk pengujian K adalah 88.55%. komposisi data latih seimbang terdiri atas 25
Tifoid, 25 Malaria dan 25 Demam Berdarah
b) Hasil pengujian Akurasi berdasarkan
(DBD). Pengujian dilakukan menggunakan nilai
Jumlah Data Latih
K =10 dan mendapatkan hasil akurasi sistem
Pengujian pengaruh jumlah data dengan 4 seperti yang ditunjukkan pada gambar 15
variasi data latih yaitu 30 data latih, 50 data latih,
70 data latih dan 100 data latih dengan
menggunakan nilai K = 3 dan 33 data uji. Grafik Pengaruh Pengujian
hasil pengujian ditunjukkan pada gambar 14. Komposisi Data Latih
100,00%
Pengaruh Pengujian 95,00%
Jumlah Data Latih 90,00%
98,00% 85,00%
97,00%
80,00%
96,00%
30 T, 20 20 T , 30 30 T, 20 25 T, 25
95,00% M, 20 D M , 20 D M, 20 D M, 25 D
94,00%
93,00% Gambar 15 Grafik Hasil Pengujian Pengaruh
92,00% Komposisi Data Latih
30 Data 50 Data 70 Data 100 Data
Latih Latih Latih Latih Hasil pengujian menunjukkan bahwa
komposisi data latih untuk memberikan
Gambar 14 Grafik Hasil Pengujian Pengaruh pengaruh terhadap proses klasifikasi demam.
Jumlah Data Latih Pada 3 skenario komposisi data latih cenderung
dominan pada satu kelas sehingga hasil akurasi
Hasil pengujian menunjukkan bahwa jumlah
sangat bervariasi. Skenario pertama dengan hasil
data latih mempengaruhi akurasi sistem dalam
akurasi 93.94%, skenario kedua menghasilkan
melakukan klasifikasi demam. Hal ini
akurasi 90.90% dan skenario ketiga
ditunjukkan dengan dengan hasil akurasi sebesar
menghasilkan akurasi 87.89%. Akurasi tertinggi
93.94% dari pengujian menggunakan 30 data
didapatkan dari skenario terakhir dengan
latih, 50 data latih dan 70 Data Latih. Pengujian
komposisi data seimbang yaitu 96.97%. Nilai
menggunakan 100 data latih mendapatkan
akurasi yang tinggi disebabkan karena
akurasi tertinggi sebesar 96.97%. Pengujian
komposisi data yang digunakan merata dan tidak
menggunakan skenario ini menunjukkan nilai
dominan pada kelas tertentu.
akurasi rendah jika data latih yang digunakan
tidak banyak. Proses klasifikasi menggunakan d) Hasil pengujian Akurasi berdasarkan
algoritma MKNN dilakukan dengan Komposisi Data Latih
mempelajari pola dari data latih sehingga jumlah Pengujian komposisi dilakukan
data latih yang rendah menyebabkan sistem menggunakan 133 data pasien namun dilakukan
kurang menemukan pola dari data latih untuk perubahan terhadap komposisi data latih dan
melakukan klasifikasi. data uji. Pengujian pertama dilakukan dengan
c) Hasil pengujian Akurasi berdasarkan komposisi 100 data latih dan 33 data uji.
Komposisi Data Latih Pengujian kedua dilakukan dengan komposisi 80
data latih dan 53 data uji serta pengujian ketiga
Pengujian komposisi dilakukan
dilakukan dengan komposisi data latih 70 dan 63