Abstract
Abstrak. Penyakit Diabetes merupakan penyakit kronis yang jika tidak bisa terkontrol bisa menyebabkan
beberapa kerusakan pada berbagai organ dan jaringan tubuh. Penderita penyakit diabetes yang semakin
meningkat di Indonesia. Sehingga, penyakit diabetes kini menjadi salah satu penyakit yang dapat
ditanggung oleh perusahaan asuransi. Dalam menentukan seseorang dapat memiliki penyakit diabetes bisa
dilakukan dengan metode klasifikasi K-Nearest Neighbor. Pada penelitian ini digunakan dataset yang
didapat dari Kaggle. Dalam penerapan KNN akan dicari nilai K (jumlah tetangga terdekat) terbaik. Pada
penelitian ini didapat nilai 11 merupakan nilai K terbaik dalam rentang 1 hingga 15 dengan nilai akurasi
sebesar 76,56%. Sehingga nilai 11 merupakan nilai K yang dapat digunakan dalam penerapan algoritma
KNN pada penyakit diabetes.
I. PENDAHULUAN
Diabetes atau penyakit gula (gula darah tinggi) adalah penyakit kronis (jangka panjang) yang
ditandai dengan meningkatnya kadar gula darah (glukosa) melebihi nilai normal. Diabetes terjadi ketika
tubuh pengidapnya tidak mampu lagi mengambil glukosa ke dalam sel dan menggunakannya sebagai
energi. Kondisi ini pada akhirnya menghasilkan penumpukkan gula ekstra dalam aliran tubuh. Diabetes
yang tidak terkontrol dengan baik dapat menyebabkan beberapa kerusakan pada berbagai organ dan
jaringan tubuh. Contohnya seperti ginjal, jantung, mata, dan saraf.
Menurut publikasi International Diabetes Federation (IDF) pada tahun 2021, Indonesia berada di
posisi kelima di dunia dengan jumlah pengidap diabetes sebanyak 19,47 atau 10,6% dari total penduduk
Indonesia. Jumlah penderita diabetes pada 2021 tersebut meningkat pesat dalam sepuluh tahun terakhir.
Penderita diabetes tersebut meningkat 167% dibandingkan dengan penderita jumlah penderita diabetes
pada tahun 2011 yang mencapai 7,29 juta. IDF memperkirakan jumlah penderita diabetes di Indonesia
dapat mencatat 28,57 juta pada tahun 2045. Jumlah ini lebih besar 47% dibandingkan tahun 2021.
Tingginya proyeksi angka penyakit diabetes dalam beberapa tahun mendatangkan menghasilkan
risiko finansial tersendiri. Oleh karena itu, asuransi diperlukan dalam pengalihan risiko finansial
tersebut. Apabila kelak risiko terjadi, dalam hal ini terdiagnosis memiliki penyakit diabetes, perusahaan
asuransi akan menanggung biaya-biaya terkait risiko finansial tersebut.
Sampai saat ini, sudah terdapat beberapa perusahaan asuransi (Insurer) yang menyertakan penyakit
diabetes sebagai salah satu manfaat pertanggungan produk asuransi mereka. Insurer sebagai
penanggung risiko finansial tersebut memerlukan sebuah kepastian apakah Tertanggung (Insured)
benar-benar tergolong dalam penderita penyakit diabetes atau tidak. Peran dokter sangat diperlukan
untuk mendiagnosis hal tersebut. Namun, jumlah dokter yang tidak sebanding dengan jumlah penderita
diabetes menjadi keterbatasan tersendiri. Oleh karena itu, terdapat alternatif teknologi memanfaatkan
machine learning dengan algoritma K-Nearest Neighbor (KNN).
K-Nearest Negihbor (KNN) adalah salat satu metode yang digunakan untuk klasifikasi objek baru
berdasarkan sejumlah K tetangga terdekat. Algoritma KNN relatif sederhana dan mudah dipahami
sehingga cukup umum untuk digunakan. Pada penerapan algoritma ini, pengklasifikasian terhadap
sebuah gambar berdasarkan jarak terdekat dengan tetangganya. Nilai jarak ini akan digunakan sebagai
nilai kemiripan antara data uji dan data latih.
Penelitian ini pernah dilakukan oleh Fansuari dkk [1] pada tahun 2022 dan dipublikasikan dalam
bentuk artikel yang berjudul “Penerapan Algoritma K-Nearest Neighbor (KNN) untuk Klasifikasi
Penyakit Diabetes Melitus Studi Kasus: Warga Desa Jatitengah”. Pada artikel tersebut, Happy
membahas penelitiannya dalam menggunakan algoritma KNN terhadap dataset penyakit diabetes
melitus warga desa Jatitengah. Penelitian tersebut menggunakan delapan variabel gejala seperti usia,
mudah haus, berat badan turun, tekanan darah tinggi, memiliki Riwayat penyakit diabetes, luka yang
sulit sembuh, sering buang air di malam hari, dan hasil cek gula darah. Penelitian tersebut menggunakan
81 data training dan 54 data testing yang sudah mengalami pembersihan dan normalisasi data.
Kesimpulan dari penelitian tersebut adalah dengan nilai K=9 mendapatkan hasil klasifikasi 4 orang
positif dan 50 orang negatif diabetes melitus. Pengujian Algoritma K-Nearest Neighbor (KNN) dalam
menentukan klasifikasi penyakit diabetes melitus menggunakan confusion matrix mendapatkan hasil
akurasi yang baik sebesar 93%, presisi sebesar 100%, recall sebesar 60% dan F1-Score sebesar 75%.
Dengan tingkat akurasi sebesar 93%.
Berdasarkan saran dari penelitian tersebut untuk memperbanyak dataset yang digunakan, peneliti
telah melakukan penerapan algoritma KNN dengan menggunakan dataset yang lebih banyak yaitu
sebesar 767 sampel. Selain itu, peneliti juga menggunakan 9 atribut, dimana 8 atribut merupakan input
dan 1 atribut merupakan target. Atribut yang nantinya akan digunakan sebagai landasan dalam
melakukan analisis. Variabel-variabel tersebut adalah Pregnancies, Glucose, Blood Preassure, Skin
Thickness, Insulin, BMI, Diabetes Pedigree Function, dan Age. Dataset yang digunakan adalah
“Diabetes Classification” yang diperoleh dari open source Kaggle.
Berdasarkan latar belakang penelitian, timbul rumusan masalah utama yang dibahas pada artikel
ilmiah ini yaitu bagaimana hasil dari penerapan algoritma KNN dalam klasifikasi penyakit diabetes.
Penelitian ini bertujuan untuk menerapkan algoritma KNN pada klasifikasi penyakit diabetes dan
memperoleh tingkat akurasi terbaik.
Manfaat yang didapat dari penelitian ini di antaranya memperkuat pemahaman terhadap metode
klasifikasi KNN dengan studi kasus dalam kehidupan nyata. Penelitian ini diharapkan dapat menambah
wawasan baru bagi pembaca mengenai metode KNN ini.
8. Age Usia
dimana,
𝑝1 ≡ 𝐷𝑎𝑡𝑎 𝑇𝑟𝑎𝑖𝑛𝑖𝑛𝑔
𝑞1 ≡ 𝐷𝑎𝑡𝑎 𝑇𝑒𝑠𝑡𝑖𝑛𝑔
3. Menentukan tetangga terdekat berdasarkan jarak terdekat ke K dengan mengurutkan data
yang sudah dihitung jaraknya
Confusion Matrix
Confusion Matrix merupakan teknik yang digunakan untuk melihat performa dari suatu
algoritma klasifikasi. Dalam Confusion Matrix akan diperlihatkan jumlah dari hasil data prediksi
dengan hasil aktual dari data tersebut. Matrik ini akan membantu dalam mencari nilai metrik
evaluasi dari Accuracy, Precision, Recall dan F-1 Score untuk melihat seberapa bagus klasifikasi
model untuk memprediksi suau hasil dari data yang diuji. Confusion Mtarix akan menghasilkan 4
jumlah nilai data dari True Positive (TP), True Negative (TN), False Positive (FP) dan False
Negative (FN).
dimana,
True Positive (TP) : Jumlah dari data aktual positif yang diprediksikan sebagai positif
False Positive (FP): Jumlah dari data aktual negatif yang diprediksikan sebagai positif
True Negative (TN) : Jumlah dari data aktual negatif yang diprediksikan sebagai negatif
False Negative (FN) : Jumlah dari data aktual positif yang diprediksikan sebagai negatif
Accuracy
Accuracy merupakan nilai rasio dari jumlah prediksi yang bernilai positif dengan jumlah dari
sampel. Accuracy dirumuskan dengan:
𝑇𝑃 + 𝑇𝑁
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (3)
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
Precision
Precision merupakan nilai rasio dari hasil prediksi yang benar positif dengan jumlah dari
prediksi yang bernilai positif. Precision dirumuskan dengan:
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (4)
𝑇𝑃 + 𝐹𝑃
Recall
Recall merupakan nilai rasio dari hasil prediksi yang benar positif dengan jumlah dari nilai
aktual positif. Recall dirumuskan dengan:
𝑇𝑃 (5)
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃 + 𝐹𝑁
F-1 Score
F-1 Score merupakan nilai harmonic mean dari Precision dan Recall. F-1 Score dirumuskan
dengan:
2(𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑅𝑒𝑐𝑎𝑙𝑙)
𝐹 − 1 𝑆𝑐𝑜𝑟𝑒 = (6)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙
Dataset yang penulis gunakan memiliki dua tipe data, yaitu float dan integer. Atribut BMI
dan Diabetes Pedigree Function memiliki tipe data float, sedangkan atribut lainnya memiliki tipe
data integer. Semua atribut juga bersifat non-null. Untuk selengkapnya dapat dilihat pada gambar
berikut:
Pada rentang K = 1 hingga K = 15 akan dicari nilai Accuracy, Precision, Recall dan F-1
Score pada masing-masing nilai K. Perhitungan yang sama dilakukan seperti pada perhitungan K
= 11. Sehingga didapati hasil sebagai berikut:
Tabel 4. Hasil Model Evaluasi
IV. KESIMPULAN
Dalam penelitian penerapan algoritma KNN pada data penyakit diabetes didapatkan nilai K = 11
dengan akurasi tinggi dalam rentang K = 1 hingga K = 15 yang bisa digunakan dalam proses klasifikasi
dengan menggunakan K-Nearest NeighborI. Dengan K = 11 didapati nilai Accuracy Sebesar 0,765625,
Precision sebesar 0,850299401, Recall sebesar 0,802259887, F-1 Score sebesar 0,825581395.
DAFTAR PUSTAKA
[1] H. A. D. Fasnuari, H. Yuana dan M. T. Chulkamdi, “Penerapan Algoritma K-Nearest Neighbor (K-
NN) untuk Klasifikasi Penyakit Diabetes Melitus Studi Kasus: Warga Desa Jatitengah,”
ANTIVIRUS: Jurnal Ilmiah Teknik Informatika, pp. 133-142, 2022.
[2] UCI Machine Learning, “Pima Indians Diabetes Databse,” 15 Juni 2023. [Online]. Available:
https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database.
[3] A. B. Wibisono dan A. Fahrurozi, “Perbandingan Algoritma Klasifikasi dalam Pengklasifikasian
Data Penyakit Jantung Koroner,” Jurnal Ilmiah Teknologi dan Rekayasa, 2019.
[4] B. Merluarini, D. Safitri dan A. Hoyyi, “Penerapan Analisis Klasifikasi Menggunakan Metode K-
Nearest Neighbor (K-NN) dan Multivariate Adaptive Regression Spline (MARS) pada Data
Akreditasi Sekolah Dasar Negeri di Kota Semarang,” Jurnal Gaussian, vol. III, no. 3, pp. 313-322,
2014.