Muhammad Hanif Santoso

KLASIFIKASI PENDERITA PENYAKIT DIABETES MELITUS MENGGUNAKAN KOMBINASI
METODE K-NEAREST NEIGHBOUR (KNN) DENGAN SELEKSI FITUR ALGORITMA PARTICLE

SWARM OPTIMIZATION (PSO)
PROPOSAL SKRIPSI
Disusun Oleh :
Muhammad Hanif Santoso

200411100078
Pembimbing 1 : -
Pembimbing 2 : -
PROGRAM STUDI INFORMATIKA

JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS TRUNOJOYO MADURA
2022
DAFTAR ISI
DAFTAR ISI.....................................................................................................................................i
DAFTAR GAMBAR.........................................................................................................................ii
DAFTAR TABLE.............................................................................................................................iii
BAB I.............................................................................................................................................1
PENDAHULUAN............................................................................................................................1
1.1 Latar Belakang.......................................................................................................................1
1.2 Permasalahan.........................................................................................................................4
1.3 Batasan Masalah....................................................................................................................4
1.4 Tujuan....................................................................................................................................4
1.5 Pertanyaan Penelitian.............................................................................................................4
BAB II............................................................................................................................................6
KAJIAN PUSTAKA..........................................................................................................................6
2.1 Diabetes Mellitus...................................................................................................................6
2.2 Data Mining...........................................................................................................................7
2.3 Klasifikasi..............................................................................................................................8
2.4 K-Nearest Neighbour (KNN).................................................................................................9
2.5 Particle Swarm Optimization...............................................................................................10
2.6 Penelitian Terkait.................................................................................................................10
BAB III.........................................................................................................................................14
METODE USULAN........................................................................................................................14
3.1 Data Set................................................................................................................................14
3.2 Skenario...............................................................................................................................15
3.2.1. Developing And Understanding...................................................................................16
3.2.2. Selecting And Create Dataset......................................................................................16
3.2.3. Preprocessing and Cleansing.......................................................................................16
3.2.4. Data transforming........................................................................................................16
3.2.5. Chossing the Appropriate the Data Mining.................................................................16
3.2.6. Chossing the Data Mining Algorithm..........................................................................16
3.2.7. Employing the Data Mining Algorithm.......................................................................16
3.2.8. Evalution......................................................................................................................16
3.2.9. Using the Discovered Knowledge................................................................................16
3.3 Metode Usulan.....................................................................................................................17
REFERENCES................................................................................................................................18
i
DAFTAR GAMBAR
Gambar 2.1 Jumlah penderita diabetes di dunia tahun 2021...........................................................5

Gambar 2.2 Prevalensi Diabetes Melitus pada Riskesdas 2013-2018.............................................. 6
Gambar 2.3 Langkah-langkah Data Mining.................................................................................... 7
Gambar 3.1 Dataset prediksi penderita diabetes mellitus............................................................ 11
Gambar 3.2 Skenario Penelitian dengan KDD............................................................................... 12
ii
DAFTAR TABLE
Tabel 2.1 Tabel Penelitian Terkait................................................................................................14

Tabel 3.1 Tabel Parameter Dataset............................................................................................. 10
iii
BAB I
PENDAHULUAN
1.1 Latar Belakang

World Healty Organization (WHO) menyatakan secara global, diperkirakan
sebanyak 422 juta orang dewasa hidup dengan diabetes pada tahun 2014, dibandingkan
dengan 108 juta pada tahun 1980. Prevalensi global (standar usia) diabetes hampir dua
kali lipat sejak tahun 1980, meningkat dari 4,7% menjadi 8,5% pada populasi orang
dewasa. Selama dekade terakhir, prevalensi diabetes telah meningkat lebih cepat di
negara-negara berpenghasilan rendah dan menengah dari pada di negara-negara
berpenghasilan tinggi. Diabetes menyebabkan 1,5 juta kematian pada tahun 2012.
Glukosa darah yang lebih tinggi dari optimal menyebabkan tambahan 2,2 juta kematian,
dengan meningkatkan risiko penyakit kardiovaskular dan penyakit lainnya. Empat puluh
tiga persen dari 3,7 juta kematian ini terjadi sebelum usia 70 tahun. Persentase kematian
yang disebabkan oleh tingginya glukosa darah atau diabetes yang terjadi sebelum usia
70 lebih tinggi di negara berpenghasilan rendah dan menengah daripada di negara-
negara berpenghasilan tinggi [1].
International Diabetes Federation (IDF) Atlas 2017 mencatat bahwa penyakit

diabetes di Indonesia mengalami peningkatan. Hal tersebut didukung oleh Kementrian
Kesehatan pada tahun 2018 bahwa Indonesia berada pada peringkat keenam di dunia
dengan jumlah penderita diabetes kategori usia 20-79 tahun sekitar 10,3 juta orang,
dimana negaranegara seperti Tiongkok, India, Amerika Serikat, Brazil, dan Meksiko
memiliki penderita lebih banyak sehingga berada pada peringkat diatasnya [2].
Diabetes adalah penyakit kronis serius yang terjadi ketika pankreas tidak
menghasilkan cukup insulin (hormon yang mengatur gula darah, atau glukosa), atau
ketika tubuh tidak dapat menggunakan insulin secara efektif. Insulin merupakan
hormone yang diciptakan oleh pankreas, yang berfungsi seperti kunci agar glukosa dari
makanan yang manusia makan mengalir ke sel-sel dari darah dalam tubuh yang yang
kemudian menghasilkan energi [1].
Kementrian Kesehatan Republik Indonesia melakukan Riset Kesehatan Dasar

(Riskesdas} yang dilaksanakan pada tahun 2018 melakukan pengumpulan data penderita
diabetes melitus pada penduduk berumur ≥ 15 tahun. Kriteria diabetes melitus pada
Risksesdas 2018 mengacu pada konsensus Perkumpulan Endokrinologi Indonesia
(PERKENI}. Menurut kirteria tersebut, diabetes melitus ditegakkan bila kadar glukosa
darah puasa ≥ 126 mg/dL, atau glukosa darah 2 jam pasca pembebanan ≥ 200 mgl/dL,
atau glukosa darah sewaktu ≥ 200 mg/dL dengan gejala sering lapar, sering haus, sering
buang air kecil dan dalam jumlah banyak, dan berat badan turun. Pada hasil Riset
Kesehatan Dasar (Riskesdas) 2018 menunjukkan bahwa prevalensi diabetes melitus di
Indonesia berdasarkan diagnosis dokter pada umur ≥ 15 tahun sebesar 2%. Angka ini
menunjukkan peningkatan dibandingkan prevalensi diabetes melitus pada penduduk ≥
15 tahun pada hasil Riskesdas 2013 sebesar 1,5%. Namun prevalensi diabetes melitus
menurut hasil pemeriksaan gula darah meningkat dari 6,9% pada 2013 menjadi 8,5%
pada tahun 2018. Angka ini menunjukkan bahwa baru sekitar 25% penderita diabetes
yang mengetahui bahwa dirinya menderita diabetes. Dari hasil ini juga di dapati bahwa
terjadi peningkatan prevalensi pada tahun 2013-2018, kecuali provinsi Nusa Tenggara
Timur. Terdapat empat provinsi yang berada di puncak teratas dengan nilai pravelansi
tertinggi yaitu DI Yogyakarta, DKI Jakarta, Sulawesi Utara, dan Kalimantan Timur.
Terdapat beberapa provinsi dengan peningkatan prevalensi tertinggi sebesar 0,9%, yaitu
Riau, DKI Jakarta, Banten, Gorontalo, dan Papua Barat [3].
Diabetes dapat diklasifikasikan kedalam beberapa ketegori umum seperti diabetes

tipe 1 yang diakibatkan karena penghancuran sel β autoimun yang menyebabkan
defisiensi insulin absolut, termasuk diabetes autoimun laten pada masa dewasa,
diabetes tipe 2 yang diakibatkan karena hilangnya sekresi insulin sel β yang memadai
secara progresif sering dengan latar belakang resistensi insulin, diabetes tipe spesifik
2
karena penyebab lain, misalnya sindrom diabetes monogenik (seperti diabetes neonatus
dan diabetes onset maturitas pada usia muda), penyakit pankreas eksokrin (seperti
cystic fibrosis dan pankreatitis), dan diabetes yang diinduksi obat atau bahan kimia
(seperti penggunaan glukokortikoid, pengobatan HIV/AIDS, atau setelah transplantasi
organ), diabetes mellitus gestasional (diabetes yang didiagnosis pada trimester kedua
atau ketiga pada saat kehamilan yang tidak jelas atau bisa disebut sebagai diabetes
sebelum kehamilan) [4].
Dari hasil pravelensi Riset Kesehatan Dasar (Riskesdas) Kementrian Kesehatan

Republik Indonesia penderita diabetes di Indonesia bisa dikatakan sudah di level bahaya
dari pemaparan kasus tersebut penulis mengusulkan adanya pengklasifikasian data
dengan cara melakukan data maining dari data tanda-tanda penderita penyakit diabetes
yang sudah ada di internet. Pengklasifikasian ini berguna agar para pasien pengidap
penyakit diabetes yang belum mengetahui bahwa dirinya terkena penyakit tersebut
dapat melakukan pendeteksian secara dini agar bisa ditangin penyakitnya sebelum
terlambat [3].
Masih banyaknya penderita diabetes yang belum mengetahui bahwa dirinya

terkena penyakit diabetes merupakan landasan dilakukannya penelitian ini. Penelitian ini
nantinya akan membuat sistem yang dapat melakukan pendeteksian secara dini para
pasien yang ingin mengetahui apakah dirinya terkena panyakit diabetes atau tidak
secara mandiri di rumah. Sistem ini dibuat dengan melakukan pengklasifikasian data
Terdapat beberapa metode yang digunakan untuk melakukan permodelan

klasifikasi data penyakit diabetes ini pada penelitian terdahulu tepatnya pada tahun
2020 terdapat penelitian yang melakukan klasifikasi penderita penyakit diabetes
menggunakan metode Decision Tree C4.5. Penelitian yang di lakukan oleh Fida Maisa
Hana ini menggunakan data perimer yang di ambil melalui website UCI Machine
Learning Repository, dataset ini merupakan data yang digunakan untuk melakukan
prediksi awal gajala penyakit diabetes melitus. Pada data set ini terdapat 17 variable
yang terdiri dari 16 vairable untuk parameter dan 1 variable untuk label, variable
tersebut terdiri dari variable umur, jenis kelamin, Polyuria, Suddenweight loss,
Weakness, Polyphagia, Genital thrush, Visual blurring, Itching, Irritability, Delayed
healing, Muscle stiffines, Alopecia, Obesitas, dan class. Pada penelitian ini menggunakan
metode Confussion Matrix untuk menghitung nilai akurasi pada hasil pengklasifikasi
penyakit diabetes melitus ini. Confussion Matrix memiliki empat istilah yang
menggambarkan hasil dari klasifikasinya nanti seperti False Positive (FP), False Negative
(FN), True Positive (TP), dan True Negative (TN). Dari kempat gambaran tersebut
nantinya akan mengahsilkan nilai yang berguna untuk menyatakan apakah sistem layak
di gunakan atau tidak, hasil tersebut meliputi dari nilai akurasi, nilai sensittivitas, dan
nilai precision [5].
Pada tahun yang sama yaitu tahun 2020, Achmad Ridwan melakukan penelitian
dengan studi kasus penerapan algoritma naïve bayes untuk klasifikasi penyakit diabetes
mellitus. Penelitian ini menggunakan dataset yang diambil dari website UCI Mechine
Learning yaitu dataset untuk melihat tanda-tanda awal terjadinya penyakit diabetes.
Sama halnya dengan peneilitan sebelumnya dataset ini terdiri dari 17 atribut yaitu 16
atribut sebagai parameter utama dan 1 atribut lagi sebagai label. Penelitian ini
menggunakan metode naïve bayes, naïve bayes sendiri adalah metode pengklasifikasian
sekumpulan data statistika yang berguna untuk melakukan prediksi dengan menghitung
nilai semua probabilitas tiap anggota suatu class. Pada penlitian ini juga mengguna
evaluasi confusion matrix, evaluasi ini digunakan untuk melakukan evaluasi terhadap
model klasifikasi berdasarkan perhitungan data testing mana yang di prediksi benar dan
salah, dengan menggunakan metode ini nantinya mendapat beberapa hasil penilaian
mulai dari nilai akurasi, nilai sensitivity, dan nilai presisi. Dari penilitian ini didapat nilai
akurasi sebesar 90,20%, nilai presisi 82,35%, dan nilai sensitivity sebesar 87,50%. Adapun
nilai AUC yang didapat dari kurva ROC sebesar 0,995 [6].
3
Pada tahun selanjutnya terdapat penelitian mengenai deteksi dini penyakit

diabetes mellitus. Penelitian yang di lakukan oleh Andri Triyono, Rahmawan Bagus
Trianto, dan Dhika Malita Puspita Arum di tahun 2021 membuat sebuah penelitian untuk
mendeteksi dini penyakit diabetes mellitus pada saat masa pandemic covid-19 dengan
menggunakan algoritma Random Forest. Pada penelitian ini menggunakan dataset yang
di ambil dari website UCI Mechine Learning yaitu “Early stage diabetes risk prediction
dataset”, Dataset ini menggunakan data sebanyak 520 data dengan variable atribut
sebanyak 17 atribut, dimana 16 atribut sebagi parameter dan 1 atribut lainnya sebagai
label. Metode yang di gunakan untuk melakukan klasifikasi pada penelitian ini
menggunakan metode Random Forest dengan Information Gain metode ini digunakan
karena memiliki keunggulan hasil akurasi yang tinggi, untuk mendapatkan hasilnya pada
penelitian melakukan pengukuran dengan metode Confusion Matrix metode ini nanti
akan memberikan nilai akurasi, presisi, dan recall. Dari penelitian ini di dapati nilai
akurasi sebesar 98,27%, nilai presisi 97,69%, dan nilai recall sebesar 98,00% [7].
Di tahun 2022 Binti Mamluatul Karomah melakukan penelitian untuk

mengklasifikasi penderita penyakit diabetes dengan menerapkan metode stacking.
Proses klasifikasi pada penelitian ini menggunakan algoritma C4.5 dan Support Vector
Machine metode ini digunakan sebagai base model hasil dari perhitungan metode ini
akan di jadikan input metode Logistic Regression sebagai meta model. Adapun Teknik
cross validation untuk memvalidasi keakuratan dari model-model yang di gunakan. Pada
penelitian ini menggunakan data yang di ambil dari repository UCI Machine Learning
yaitu Earlystage diabetes risk prediction dataset. Dataset ini terdiri dari 17 variabel
dengan jumlah data sebanyak 520. Dari penilitian ini di dapat hasil dari Cunfussion
Matrix yaitu nilai True Positive (TP) sebesar 312, nilai True Negative (TN) sebesar 193,
nilai False Positive (FP) sebesar 8, dan nilai False Negative (FN) sebesar 7. Selain itu
terdapat juga hasil dari nilai akurasi sebesar 97,11%, nilai Recall 97,80%, nilai 97,50% [8].
Adapun penelitian yang melakukan proformansi dari beberapa metode dalam

melakukan pengklasifikasian data penyakit diabetes. Penelitian tersebut di lakukan oleh
Agung Mulyo Widodo, Yanathifal Salsabila Anggraeni, Nizirwan Anwar, Arief Ichwani,
Binastya Anggara Sekti pada tahun 2021. Pemodelan yang dilakukan dalam memprediksi
penyakit diabetes menggunakan beberapa macam algoritma seperti metode K-NN, J48,
Naïve Bayes, Regresi Logistic. Pada penelitian ini menggunakan data yang di ambil dari
website Kaggle.com, dataset ini menggunakan 520 data dengan atribut sebanyak 17
atribut. Dari penelitian ini di dapati hasil bahwa metode K-NN mendapat nilai
performansi paling tinggi dimana metode ini mendapatkan nilai akurasi sebesar 98%,
nilai presisi sebesar 97,5%, dan nilai recall sebesar 99,4%. Selain itu terdapat juga hasil
confusion matrix yaitu True Positive (TP) yaitu 312, True Negative (TN) yaitu 198, False
Positive (FP) yaitu 8 dan False Negative (FN) yaitu 2. Dari hasil klasifikasi tersebut,
didapatkan pula hasil Precision Positive yaitu 0.994, Precision Negative yaitu 0.961 dan
Weighted Averagenya yaitu 0.981, sedangkan hasil Recall Positive didapatkan sebesar
0.975, Recall Negative yaitu 0.990, dan Weighted Average nya yaitu 0.981 [9].
Selain penelitian tersebut terdapat pula penelitian yang melakukan optimasi

akurasi algoritma KNN dengan melakukan seleksi fitur Gain Ration pada klasifikasi
penyakit diabetes mellitus yang di lakukan oleh Indrayanti, Devi Sugianti, M. Adib Al
Karomi pada tahun 2017. Dataset yang digunakan pada penelitian ini menggunakan
dataset yang di ambil dari Uci Machine Learning Repository yang berisikan 768 record
dengan 9 atribut yang salah satunya adalah atribut tujuan atau atribut label. Hasil dari
penelitian ini menyatakan bahwa akurasi tertinggi diperoleh apabila treshold berada
diatas 0,152. Dengan kata lain apabila menggunakan 4 atribut akurasi mencapai 75,26%.
Apabila menggunakan keseluruhan atribut akurasi terbaik hanya mencapai 75,00%.
Tingkat akurasi juga menurun apabila atribut yang digunakan hanya 1 yaitu 74,48%. Ini
dapat diartikan bahwa atribut dapat mempengaruhi tingkat akurasi suatu metode [10].
Klasifikasi dapat didefinisikan selaku pekerjaan yang melaksanakan pelatihan/

pembelajaran terhadap fungsi target yang memetakan tiap set fitur (atribute) ke satu
jumlah label kelas yang ada. Klasifikasi ialah suatu buat memperhitungkan objek
4
informasi buat memasukannya kedalam kelas tertentu dari jumlah kelas yang ada.
Klasifikasi menerapkan pembangunan model bersumber pada informasi latih yang
terdapat, setelah itu memakai model tersebut untuk dibuatkan klasifikasi pada informasi
yang baru.
K-Nearest Neighbor dapat di asumsikan seperti pembelajaran berbasis instance, di

mana set data pelatihan disimpan, sehingga klasifikasi untuk record baru yang tidak
terklasifikasi dapat ditemukan hanya dengan membandingkannya dengan record yang
paling mirip dalam set pelatihan. Pada penelitian ini metode K-Nearest Neighbor
digunakan untuk melakukan pengklasifikasian data tanda-tanda penyakit diabetes
mellitus. Hasil dari klasifikasi ini nantinya di harapkan dapat mendiagnosis penyakit
diabetes dengan data gejala-gejala awal yang sudah tersedia. Hal ini berguna agar para
pasien yang merasa dirinya mengidap penyakit diabetes dapat melakukan diagnosis dini
penyakit yang ada pada dirinya sebelum penyakitnya semakin parah [11].
Dari beberapa penelitian yang telah disebutkan diatas, maka dilakukan penelitian
untuk melakukan klasifikasi data penderita diabetes dengan algoritma K-Nearest
Neighboor dan melakukan seleksi fitur. Seleksi fitur yang di pilih adalah menggunakan
algoritma Particle Swarm Optimization. Dari pernyataan tersebut dinyatakan sebuah
permasalah pada penelitian ini yaitu “ KLASIFIKASI PENDERITA PENYAKIT DIABETES
MELITUS MENGGUNAKAN KOMBINASI METODE K-NEAREST NEIGHBOUR (KNN)
DENGAN SELEKSI FITUR ALGORITMA PARTICLE SWARM OPTIMIZATION (PSO) ”.
Sistem ini diharapkan mampu melakukan klasifikasi data penyakit diabetes
berdasarkan data tanda-tanda penyakit diabetes yang sudah ada. Dataset yang di
gunakan pada penilitian ini diambil melalui website Kaggle.com yaitu Pima Indians
Diabetes Database.
1.2 Permasalahan
Bagaimana penggunaan metode K-Nearest Neighbour (KNN) dengan Particle
Swarm Optimization pada proses pengklasifikasian penyakit diabetes mellitus untuk
menghasilkan hasil prediksi dan akurasi yang terbaik?
1.3 Batasan Masalah

Adapun batasan-batasan yang harus diterapkan agar tidak keluar dari tujuan
utama dilaksanakannya riset ini adalah:
1. Data yang digunakan di ambil melalui website Kaggle.com yaitu Pima Indians
Diabetes Database https://www.kaggle.com/datasets/uciml/pima-indians-
diabetes-database
2. Parameter yang digunakan terdiri dari 9 atribut, 8 atribut sebagai parameter dan
1 atribut sebagai label, yaitu Pregnancies, Glucose, BloodPressure, SkinThickness
Insulin, BMI, DiabetesPedigreeFunction, Age, Outcome.
3. Nilai K yang di gunakan pada proses klasifikasi K-NN adalah 2, 3, 5, 7, 10.
4. Nilai Populasi yang di bangikitkan pada PSO adalah 5, 10, 15, 20, 25.
5. Target class terdiri dari 2 class, yaitu positif dan negatif.
1.4 Tujuan
Adapun tujuan dari penelitian ini adalah untuk mengatahui pengaruh akurasi
penggunaan metode Particle Swarm Optimization sebagai seleksi fitur yang di
kombinasikan dengan metode K-Nearest Neighbour (KNN) dalam melakukan klasifikasi
data penderita diabetes mellitus.
1.5 Pertanyaan Penelitian

Dari hasil identifikasi masalah sebelumnya didapat beberapa pertanyaan untuk
penelitian ini sebagai berikut:
1. Seberapa pengaruh metode Paticle Swarm Optimization sebagai seleksi fitur
terhadap nilai akurasi dalam klasifikasi penderita penyakit diabetes mellitus
5
dengan metode K-Nearest Neighbour (KNN).

2. Bagaimana perbandingan akurasi antara klasifikasi penderita penyakit diabetes
menggunakan metode K-Nearest Neighbour (KNN) yang dikombinasikan dengan
Particle Swarm Optimization dan yang tidak di kombinasikan dengan Particle
Swarm Optimization.
3. Bagaimana pengaruh nilai K terhadap akurasi metode K-Nearest Neighbour (KNN)
dalam pengklasifikasian penyakit diabetes mellitus.
4. Bagaimana pengaruh nilai populasi terhadap akurasi metode K-Nearest
Neighbour (KNN) dalam pengklasifikasian penyakit diabetes mellitus.
BAB II
KAJIAN PUSTAKA
2.1 Diabetes Mellitus

Diabetes adalah penyakit kronis serius yang terjadi ketika pankreas tidak
menghasilkan cukup insulin (hormon yang mengatur gula darah, atau glukosa), atau
ketika tubuh tidak dapat menggunakan insulin secara efektif untuk menghasilkan [1].
Diabetes juga dapat di artikan sebagai penyakit menahun (kronis) berupa gangguan
metabolik yang ditandai dengan kadar gula darah yang melebihi batas normal.
Diabetes melitus di akibatkan karena adanya peningkatan kadar gula darah pada
tubuh manusia, dari penjelasan tersebut terdapat pengelompokan terkait penyakit
diabetes melitus, sebagai berikut:
1. Diabetes melitus tipe 1.
Diabetes yang disebabkan kenaikan kadar gula darah karena kerusakan
sel beta pankreas sehingga produksi insulin tidak ada sama sekali.
2. Diabetes melitus tipe 2.
Diabetes yang disebabkan kenaikan gula darah karena penurunan sekresi
insulin yang rend ah oleh kelenjar pankreas.
3. Diabetes melitus tipe gestasional.
Diabetes tipe ini ditandai dengan kenaikan gula darah pada selama masa
kehamilan. Gangguan ini biasanya terjadi pada minggu ke-24 kehamilan dan
kadar gula darah akan kembali normal setelah persalinan [3].
Gambar 2.1 menampilkan jumlah penderita diabetes di seluruh dunia pada
tahun 2021 pada data tersebut Indonesia berada pada peringkat 5 besar negara dengan
pengidap diabetes terbanyak.
Gambar 2.1 Jumlah penderita diabetes di dunia tahun 2021

Sumber:https://databoks.katadata.co.id/datapublish/2021/11/22/jumlah-
penderita-diabetes-indonesia-terbesar-kelima-di-dunia.
Kementrian Kesahatan Republik Indonesia mengupayakan pencegahan penyakit
diabetes mellitus di Indonesia yang semakin meningkat dengan melakukan Riset
Kesehatan Dasar (Riskesdas) dari program ini nantinya Kemenkes dapat mengetahui
prevalensi para pengidap diabetes mellitus di setiap provinsinya.
Hasil Riskesdas tahun 2018 mendapatkan data bahwa prevalensi kasus diabetes
melitus berdasarkan diagnosis dokter pada umur ≥ 15 tahun meningkat dari yang
semulanya 1,5% pada tahun 2013 menjadi 2%. Kemudian prevalensi pengidap diabetes
melitus menurut hasil pemeriksaan gula darah meningkat dari 6,9% pada tahun 2013
menjadi 8,5% pada tahun 2018. Dari angka prevalensi tersebut dinyatakan bahwa baru
sekitar 25% penderita dibetes di Indonesia mengetahui bahwa dirinya menderita
7
diabetes [3].
Gambar 2.2 menampilkan Prevalensi penderita Diabetes Melitus pada Riset
Kesehatan dasar pada tahun 2013-2018.
Gambar 2.2 Prevalensi Diabetes Melitus pada Riskesdas 2013-2018
2.2 Data Mining

Data mining adalah analisis kumpulan data observasional mulai dari data yang
kecil hingga data-data yang besar untuk menemukan hubungan yang tidak terduga dan
untuk meringkas data dengan cara baru yang keduanya dimengerti dan bermanfaat
bagi pemilik data. Metode dan Model Data Mining memandu para pengguna melalui
operasi dan nuansa dari berbagai algoritma, menggunakan kumpulan data sampel
kecil, sehingga para pengguna data mining mendapatkan apresiasi sejati dari apa yang
sebenarnya terjadi di dalam algoritma. pengembangan model prediktif yang kompleks
dan kuat yang dapat memberikan hasil yang dapat ditindaklanjuti untuk berbagai
masalah bisnis dan penelitian [12]. Data mining juga dapat di definisikan sebagai
proses menemukan pola dalam data. Prosesnya harus otomatis atau (biasanya) semi
otomatis. Pola yang ditemukan harus bermakna karena mengarah pada beberapa
keuntungan.
Menurut Larose terdapat enam fungsi dalam data mining yaitu, fungsi deskripsi
(description), fungsi estimasi (estimation), fungsi prediksi (prediction), fungsi klasifikasi
(classification), fungsi pengelompokan (cluster) dan fungsi asosiasi (association).
Sebelum melakukan proses data mining terdapat tahapan yang di sebut
preprocessing. Teknik dalam melakukan preprocessing dapat dilakukan untuk
mendapatkan beberapa pengatuhan dari data tersebut. Berikut merupakan ketujuh
tahapan dalam melakukan dataming [13]:
1. Integrasi Data
Langkah pertama perlu dikumpulkan data dari berbagai sumber.
2. Pemilihan Data
Setelah data terkumpul kemudian dilakukan seleksi data yang penting
untuk data mining akan dilakukan ekstraksi dari kumpulan data yang besar.
3. Pembersihan Data
Membersihkan data yang mungkin mengandung kesalahan seperti
missing value, dan data noise atau tidak konsisten.
4. Transformasi Data
Mengubah bentuk data yang telah di lakukan pembersihan sampai data
tersebut sesuai dengan kebutuhan datamining.
5. Penambangan Data
Menarapkan Teknik data mining untuk menemukan pola-pola yang menarik
pada data. Teknik seperti klasifikasi dan clustering.
8
6. Evaluasi Pola dan Pengetahuan Presentasi

Langkah ini melibatkan visualisasi, transformasi, menghapus pola berlebihan,
dan lainnya dari pola yang kita buat.
7. Pengambilan Keputusan
Langkah ini membantu pengguna untuk menerapkan pengetahuan untuk .
Gambar 2.3 menampilkan Menampilkan Langkah-langkah dalam proses data
mining.
Gambar 2.3 Langkah-langkah Data Mining
2.3 Klasifikasi
Klasifikasi adalah proses yang digunakan untuk menemukan sebuah model atau
fungsi yang nantinya model tersebut menggambarkan perbedaan antara sebuah kelas
yang terdapat pada data atau konsep. Model yang di gunakan dalam klasifikasi ini
berdasarkan dari analisis sekumpulan data pelatihan, yaitu objek data yang label
kelasnya sudah diketahui. Data platihan ini nantinya akan di proses menjadi sebuah
model yang nantinya dapat digunakan untuk memprediksi label kelas pada objek data
yang label kelasnya belum diketahui. Klasifikasi juga dapat didefinisikan selaku
pekerjaan yang melaksanakan pelatihan/ pembelajaran terhadap fungsi target yang
memetakan tiap set fitur (atribute) ke satu jumlah label kelas yang ada [11].
Klasifikasi data adalah proses dua langkah, yang terdiri dari langkah
pembelajaran (di mana model klasifikasi dibangun) dan langkah klasifikasi (di mana
model digunakan untuk memprediksi label kelas untuk data yang diberikan). Pada
langkah pertama, pengklasifikasi dibuat untuk mendeskripsikan kumpulan kelas atau
konsep data yang telah ditentukan sebelumnya. Ini adalah langkah pembelajaran (atau
fase training), di mana algoritma klasifikasi membangun pengklasifikasian dengan
menganalisis atau belajar dari set pelatihan yang terdiri dari tupel pada dataset dan
label kelas yang digunakan pada dataset. Atribut label kelas memiliki nilai diskrit dan
tidak terurut, yang bersifat categorical atau numerical di mana setiap nilai berfungsi
sebagai kategori atau kelas [14].
Pada langkah kedua, model digunakan untuk melakukan klasifikasi. Pada tahap
ini akurasi dari prediksi klasifikasi di perkirakan atau di tentukan. Pada saat melakukan
prediksi jika menggunakan data training untuk mengukur akurasi pengklasifikasian di
perkirakan akurasi yang dihasilkan akan memiliki nilai yang besar dengan tingkat
optimalisasi yang baik, hal ini di karenakan proses klasifikasi cenderung akan
menyesuaikan dengan datanya [14].
9
Nilai akurasi pada proses klasifikasi data yang di berikan akan berupa sebuah
presentase nilai dari dataset yang berhasil di klasifikasikan dengan benar. Label kelas
yang di dapat dari setiap data uji akan dibandingkan dengan prediksi kelas data
training yang sudah di masukkan pada tahap pertama sebelumnya. Jika hasil akurasi
proses klasifikasi mendapatkan nilai yang terbaik maka pengklasifikasian tersebut
dapat di terima dan dapat digunakan untuk melakukan klasifikasi data baru dari
inputan pengguna yang label kelasnya belum diketahui atau data yang akan di lakukan
prediksi [14].
2.4 K-Nearest Neighbour (KNN)

K-Nearest Neighbor (K-NN) adalah sebuah metode klasifikasi yang masuk
kedalam kelompok instance-based learning dan merupakan salah satu teknik lazy
learning. Algoritma K-Nearest Neighbor adalah sebuah metode yang melakukan
pengklasifikasian terhadapa objek berdasarkan data pembelajaran yang jaraknya paling
dekat dengan objek tersebut [15].
Algoritma KNN bekerja berdasarkan jarak yang paling pendek dari data testing ke
data training untuk menentukan hasil dari metode knn nya. Pada metode knn ini jarak
antar setiap tetangga/neighbors sebelum nya dilakukan perhitungan terlebih dahulu
dengam menggunakan rumus Eucledian Distance. Berikut merupakan Langkah-langkah
untuk melakukan perhitungan menggunakan metode K-Nearest Neighbor, antara lain:
1. Mempersiapkan data training dan data testing
2. Menentukan nilai K
3. Menghitungan jarak antara data testing dengan data training pada setiap data
latih yang digunakan.
Perhitungan jarak menggunakan rumus Euclidian Dictance sebagai berikut:
√∑
n
2
d ( x , y )= (x i− y i )
i−1
Keterangan:
x i = Data Training
y i = Data Testing
4. Tentukan Nilai K data training yang memiliki jarak terdekat dengan data testing.
5. Periksa label dari K data training terdekat
6. Tentukan label yang frekuensinya paling banyak muncul
7. Masukkan data testing kedalam kelas dengan frekuensi yang paling banyak
muncul, jika nilai K nya sama dengan yang telah di tentukan.
K-Nearest Neighbor (K-NN) memiliki kelebihan yaitu dapat menghasilkan data
yang kuat atau jelas dan efektif jika digunakan pada data yang besar. K-Nearest Neighbor
juga memiliki kekurangan yaitu membutuhkan nilai k, jarak dari data percobaan tidak
jelas dengan tipe jarak yang digunakan, untuk memperoleh hasil yang terbaik, maka
harus menggunakan semua atribut atau hanya satu atribut yang telah pasti [16].
2.5 Particle Swarm Optimization

Particle swarm optimization dirumuskan oleh Edward dan Kennedy pada tahun
1995. Proses pemikiran dibalik algoritma ini terinspirasi dari perilaku sosial hewan,
seperti burung yang berkelompok atau sekolompok ikan. Algoritma ini tentang
perubahan prilaku atau sifat sosial yang terdiri atas tindakan tiap individu dan besar
pengaruh dari setiap individu lain kedalam satu kelompok. Tiap-tiap partikel di dalam
PSO juga berkaitan dengan suatu kecepatan (velocity). Partikel-partikel cenderung
mempunyai sifat untuk bergerak ke area penelusuran yang lebih baik setelah melewati
proses penelusuran [17].
10
Particle Swarm Optimization (PSO) adalah suatu teknik optimasi yang sangat
sederhana untuk menerapkan dan memodifikasi beberapa parameter. PSO banyak
digunakan untuk memecahkan masalah optimasi bobot dan seleksi fitur (feature
selection) [15]. Berikut merupakan tahapan algortima Particle Swarm Optimization:
1. Inisialisasi populasi (posisi dan kecepatan acak) dalam hyperspace.
2. Evaluasi fitness partikel individu.
3. Modifikasi kecepatan berdasarkan terbaik sebelumnya (previous best:pbest)
dan terbaik global atau local (global or neighborhood best; gbest).
Update nilai Velocity:
V i ( t ) =V i ( t −1 ) + c1 r 1 [ X pbest −X i ( t ) ]+ c 2 r 2 [ X Gbest − X i ( t ) ] −X i ( t )
i i
Update nilai partikel (x):

X i ( t )=X i ( t−1 ) +V i (t )
Dimana:
V i ( t ) : kecepatan partikel i saat iterasi t
X i ( t ) : posisi partikel i saat iterasi t
c 1 dan c 2 : learning rates untuk kemampuan individu (cognitive)
dan pengaruh sosial (group)
r 1 dan r 2 : bilangan random yang berdistribusi uniformal dalam
interval 0 dan 1
X pbest : posisi terbaik partikel i
i
X Gbest : posisi terbaik global

i
4. Hentikan berdasarkan beberapa kondisi.

5. Lakukan kembali langkah ke 2.
Untuk menemukan solusi yang optimal, maka setiap partikel akan

bergerak kearah posisi yang terbaik sebelumnya (pbest) dan posisi terbaik
secara global (gbest).
2.6 Penelitian Terkait
Penelitian mengenai klasifikasi dengan algoritma K-Nearest Neighboor

telah banyak dilakukan sebelumnya, seperti terlihat pada tabel di bawah ini:
Tabel 2.1 Tabel Penelitian Terkait
Peneliti, Tahun Permasalahan Metode / Solusi Hasil
Fitri Yunita, Klasifikasi data Klasifikasi, K- Persentase

2016 penderita penyakit Nearest kesamaan hasil
diabetes mellitus Neighboor klasifikasi antara
pada RSUD Puri data kelas yang telah
Husada Tembilahan diperoleh dengan
Menggunakan metode K-Nearest
metode k-nearest Neighbor (KNN) yang
neighbor (k-nn) tertinggi yaitu pada
saat pembobot
bernilai K = 1 dengan
tingkat kesamaan
persentase
11
keberhasilan sebesar
90 %. berdasarkan
jumlah data training
yang lebih banyak,
jumlah data yang di
testing adalah 25.
Hasil pengujian
berdasarkan jumlah
data training pada
KNearest Neighbor
(K-NN) adalah 96 %
Indrayanti, Penelitian ini Klasifikasi, K- Hasil penelitian

Devi Sugianti, menghitung nilai K Nearest menunjukkan
M. Adib Al Karomi, paling optimal pada Neighboor. bahwa nilai K=13
2017. algoritma K-NN merupakan nilai k
untuk Klasifikasi yang paling
Penyakit Diabetes optimal dengan
Mellitus. tingkat akurasi
sebesar 75,14%.
Hasil prosentase ini
didapatkan dari
proses percobaan
sebanyak 10 kali
dengan data yang
diacak (10 fold
cross validation)
kemudian hasil
klasifikasi yang
muncul
dibandingkan
dengan data
sebenarnya.
Perhitungan ini
menggunakan
confussion matrix
untuk menentukan
prosentase data
yang sesuai dengan
kenyataan
dibandingkan
jumlah keseluruhan
data yang ada
Indrayanti, Peningkatan Klasifikasi K- Penggunaan
Devi Sugianti,
M. Adib Al Karomi, Akurasi Algoritma Nearest algoritma seleksi
2017 KNN dengan Neighboor, Sleksi fitur gain ratio
Seleksi Fitur Gain Fitur Gain Ratio dapat
Ratio untuk meningkatkan
KlasifikasiPenyakit akurasi dari
Diabetes Mellitus klasifikasi penyakit
diabetus mellitus
12
denga
menggunakan
algoritma knn.
Adapun kenaikan
akurasi tertinggi
didapatkan pada
nilai treshold 0,152
dengan hanya
mempertahankan 4
atribut dari
keseluruhan 8
atribut data.
Akurasi yang di
dapatkan sebesar
75,28%.
Muhammad Pembuatan model K-Nearest asil dari pembuatan
Sholeh, data mining Neighboor model ini
Dina Andayati, klasifikasi dengan menunjukkan
Rr. Yuliana menggunakan proses normalisasi
Rachmawati,
2022
algoritma k-NN dan dapat memberikan
dilakukan nilai akurasi yang
normalisasi data lebih baik. Model
yang
dikembangkan
tanpa normalisasi
menghasilkan nilai
k=5 dengan akurasi
70%, normalisasi
dengan metode Z-
Score
menghasilkan nilai
k=21 dengan
akurasi 72%,
normalisasi dengan
Min Max
menghasilkan nilai
k=3 dengan akurasi
74%.
Lastri Widya Implementasi Binary wheal Hasil penelitian

Astuti, Binary wheal Optimization menunjukkan
Imelda Saluza, Optimization Algorithm Algorithma BWOA
Evi Yulianti, Algorithm (BWOA) (BWOA), K- mampu mereduksi
Dhamayanti, sebagai metode NN, Naïve attribute dari
2022 seleksi fitur yang Bayes, Random jumlah awal
diterapkan pada Forest, Logistik attribute sebanyak
beberapa Regresion, 8 hingga menjadi 3
metode algorithma Decision Tree, melalui proses
klasifikasi Neural Network pemilihan fitur.
hasil klasifikasi
untuk Logistic
13
Regression, Naïve
Bayes Dan Neural
Network berada
pada range good
classification,
sementara Random
Forest dan K-NN
berada pada range
fair classification
sedangkan
Decision Tree
berada pada range
poor classification
berdasarkan Area
Under Curve dan
berdasarkan
perhitungan akurasi
berdasarkan
metode confusion
matrik rata – rata
nilai akurasi diatas
70%.
BAB III
METODE USULAN
3.1 Data Set

Dataset adalah sebuah kumpulan nilai yang biasanya bertipe numerical atau
categorical. Dataset yang bertipe numerical biasanya terdapat pada metode yang
bersifat kuantitatif, sedangkan yang bertipe categorical biasanya terdapat pada
metode yang bersifat kualitatif. Nilai ditetapkan dalam dua cara. Setiap nilai sesuai
dengan variable dan observasi. Variabel berisi nilai apa pun yang mengukur atribut
dasar yang sama (seperti tinggi, suhu, durasi) dalam satuan yang berbeda. Observasi
mencakup semua nilai yang diukur dalam unit yang sama (seperti orang, tag, atau ras)
di seluruh atribut [18]. Dataset yang digunakan pada penilitian ini terdiri dari 8
parameter dan 1 label untuk menentukan positive atau negative, 8 parameter tersebut
adalah:
Tabel 3.1 Tabel Parameter Dataset
No Parameter Keterangan
Dataset ini
diperoleh dari situs Parameter untuk menyatakan berapa
1 Pregnancies banyak kehamilan yang telah di alami
oleh pasien.
Menyatakan angka konstrasi glukosa

2 Glucose plasma 2 jam pada saat tes toleransi
glukosa oral.
Parameter menyatakan tekanan darah

3 BloodPressure diastolik pasien (mm/Hg) ketika
jantung rileks setelah kontraksi.
Parameter yang menyatakan nilai dari

lemak tubuh atau lipatan kulit (mm)
4 SkinThickness yang di ukur pada lengan kanan
setengah antara proses olecranon dari
siku dan proses acromial scapula.
Tingkat insulin dalam 2 jam terakhir

5 Insulin insulin serum, dengan satuan mu
U/ml
Menyatakan Indeks masa tubuh pada

pasien seperti berat badan dalam
6 BMI satuan kg/tinggi badan dengan satuan
2
m.
Parameter yang menyatakan indicator
7 DiabetesPedigreeFunction Riwayat diabetes dalam keluarga
pasien.
8 Age Menyatakan umur pada pasien.
https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database merupakan dataset yang di ambil dari

National Institute of Diabetes and Digestive and Kidney Diseases.
15
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Outcome

6 148 72 35 0 33,6 0,627 50 1
1 85 66 29 0 26,6 0,351 31 0
8 183 64 0 0 23,3 0,672 32 1
1 89 66 23 94 28,1 0,167 21 0
0 137 40 35 168 43,1 2,288 33 1
5 116 74 0 0 25,6 0,201 30 0
3 78 50 32 88 31 0,248 26 1
10 115 0 0 0 35,3 0,134 29 0
2 197 70 45 543 30,5 0,158 53 1
Gambar 3.1 Dataset prediksi penderita diabetes mellitus

3.2 Skenario
Skenario pada penelitian ini menggunakan pemahaman dari 9 tahapan
Knowledge Discovery in Databases (KDD). Berikut ini merupakan ke 9 tahapan yang
digunakan pada penelitian ini.
Gambar 3.2 Skenario Penelitian dengan KDD.

16
3.2.1. Developing And Understanding.

Pada tahapan ini bertujuan untuk memahami apa yang di lakukan pada
penelitian dengan cara melakukan identifikasi dan menetapkan tujuan
penelitian.
3.2.2. Selecting And Create Dataset.
Tahapan ini adalah mengumpulkan dataset yang akan di gunakan untuk
melakukan klasifikasi penderita diabetes mellitus. Pada penelitian ini data
diambil melalui website Kaggle.com.
3.2.3. Preprocessing and Cleansing.
Tahapan ini untuk membuang data yang tidak mempunyai nilai atau
missing value dan juga membuang data yang tidak tepat atau noise data.
Selanjutnya melakukan Split data, proses ini di lakukan untuk membagi data
mentah menjadi data training sebesar 80% dan data testing sebesar 20%.
3.2.4. Data transforming.
Tahapan ini untuk mengolah data yang nantinya di butuhkan pada saat
klasifikasi. Dalam hal ini dilakukan normalisasi data dengan fungsi normalisasi
data MinMax:
Dimana :
X* = data hasil normalisasi
X = data yang akan dinormalisasi atau data asli
min = nilai minimum semua data asli
max = nilai maksimum semua data asli
3.2.5. Chossing the Appropriate the Data Mining.
Pada tahap ini bertujuan untuk memilih teknik data mining yang akan di
gunakan. Pada penelitian ini teknik data mining yang digunakan adalah Teknik
klasifikasi data.
3.2.6. Chossing the Data Mining Algorithm.
Tapah ini untuk memilih algoritma yang digunakan pada proses data
mining. algoritma yang digunakan untuk klasifikasi pada penelitian ini adalah
algoritma K-Nearest Neighboor. Adapun algoritma untuk melakukan optimasi
data yaitu algoritma Particle Swarm Optimization.
3.2.7. Employing the Data Mining Algorithm.
Pada tahap ini melakukan proses kalasifikasi pada dataset dengan
menggunakan dua peroses klasifikasi yaitu klasifikasi menggunakan algoritma K-
Nearest Neighboor dan juga klasifikasi menggunakan algoritma K-Nearest
Neighboor dan optimasi data menggunakan algoritma particle swarm
optimization.
3.2.8. Evalution.
Pada tahap ini melakukan evaluasi hasil klasifikasi untuk mengukur
tingkat akurasi pada saat membuat klasifikasi penderita penyakit diabetes
melitus. Evaluasi hasil menggunakan metode confusion matrix.
3.2.9. Using the Discovered Knowledge
Tahapan yang terakhir ini untuk menampilkan hasil dari klasifikasi
17
penderita penyakit diabetes melitus dan juga hasil akurasi yang di dapatkan
pada saat melakukan klasifikasi dengan algoritma K-Nearest Neighboor dan
Particle Swarm Optimization.
3.3 Metode Usulan
Metode yang digunakan pada klasifikasi penderita penyakit diabetes
melitus dengan menggunakan algoritma K-Nearest Neighboor yang
dikombinasikan dengan Particle Swarm Optimization sebagai algoritma untuk
seleksi fitur.
REFERENCES
[1] G. Roglic and World Health Organization, Global report on diabetes.

[2] N. M. Ulfa, E. I. Lubada, and R. Darmawan, Buku ajar farmasi klinis dan komunitas: medication
picture dan pill count pada kepatuhan minum obat penderita diabetes mellitus dan hipertensi.
Gresik: Penerbit Graniti, 2020.
[3] Anas Ma’ruf, Boga Hardhana, Winne Widiantini, Supriyono Pengribowo, and Dian Mulya, “Infodatin
2020 Diabetes Melitus,” 2020.
[4] American Diabetes Association, “2. Classification and Diagnosis of Diabetes: Standards of Medical
Care in Diabetes—2022,” Diabetes Care, vol. 45, pp. S17–S38, Jan. 2022, doi: 10.2337/dc22-S002.
[5] Fida Maisa Hana, “Klasifikasi Penderita Penyakit Diabetes Menggunakan Algoritma Decision Tree
C4.5,” 2020.
[6] Achmad Ridwan, “Penerapan Algoritma Naïve Bayes Untuk Klasifikasi Penyakit Diabetes Mellitus,”
2020.
[7] Andri Triyono, Rahmawan Bagus Trianto, and Dhika Malita Puspita Arum, “EARLY DETECTION OF
DIABETES MELLITUS USING RANDOM FOREST ALGORITHM,” 2021. [Online]. Available:
https://archive.ics.uci.edu/ml/datasets/Earl
[8] B. M. Karomah, “PENERAPAN METODE STACKING DALAM MENGKLASIFIKASIKAN PENDERITA
PENYAKIT DIABETES,” JUPIKOM, vol. 1, no. 3, 2022, [Online]. Available: http://ejurnal.stie-
trianandra.ac.id/index.php/jupkomHalamanUTAMAJurnal:http://ejurnal.stie-trianandra.ac.id/
index.php
[9] A. Mulyo Widodo, Y. Salsabila Anggraeni, N. Anwar, A. Ichwani, and B. Anggara Sekti, “Performansi
K-NN, J48, Naive Bayes dan Regresi Logistik Sebagai Algoritma Pengklasifikasi Diabetes,” 2021.
[10] D. Sugianti, M. Adib Al Karomi, and S. Widya Pratama Pekalongan, “Peningkatan Akurasi Algoritma
KNN dengan Seleksi Fitur Gain Ratio untuk Klasifikasi Penyakit Diabetes Mellitus,” 2017. [Online].
Available: http://jurnal.stmik-wp.ac.id
[11] D. T. Larose and C. D. Larose, “DISCOVERING KNOWLEDGE IN DATA An Introduction to Data Mining
Second Edition Wiley Series on Methods and Applications in Data Mining,” 2014.
[12] D. T. Larose, “DATA MINING METHODS AND MODELS,” 2006.
[13] S. Kumar Singh, M. Wayal, and M. sharma, “A Review: Data Mining with Fuzzy Association Rule
Mining,” 2012. [Online]. Available: www.ijert.org
[14] J. Han, M. Kamber, and J. Pei, “Data Mining. Concepts and Techniques, 3rd Edition (The Morgan
Kaufmann Series in Data Management Systems),” 2011.
[15] W. Yunus, “Algoritma K-Nearest Neighbor Berbasis Particle Swarm Optimization Untuk Prediksi
Penyakit Ginjal Kronik,” Jurnal Teknik Elektro CosPhi, vol. 2, no. 2, pp. 2597–9329, 2018.
[16] F. Yunita, “SISTEM KLASIFIKASI PENYAKIT DIABETES MELLITUS MENGGUNAKAN METODE K-
NEAREST NEIGHBOR (K-NN),” Jurnal BAPPEDA, vol. 2, no. 1, pp. 223–230, 2016.
[17] Z. Ji, Y. Wang, Y. Chu, and Q. Wu, “Bacterial particle swarm optimization ,” Chinese J. Electron., vol.
18, no. 2, pp. 195–199, 2009.
[18] H. Wickham RStudio, “Journal of Statistical Software Tidy Data,” 2014. [Online]. Available:
http://www.jstatsoft.org/
18

Muhammad Hanif Santoso - Metodologi Penelitian - Uas

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Muhammad Hanif Santoso - Metodologi Penelitian - Uas

Diunggah oleh

Hak Cipta:

Format Tersedia

KLASIFIKASI PENDERITA PENYAKIT DIABETES MELITUS MENGGUNAKAN KOMBINASI

METODE K-NEAREST NEIGHBOUR (KNN) DENGAN SELEKSI FITUR ALGORITMA PARTICLE

PROGRAM STUDI INFORMATIKA

Gambar 2.1 Jumlah penderita diabetes di dunia tahun 2021...........................................................5

Tabel 2.1 Tabel Penelitian Terkait................................................................................................14

1.1 Latar Belakang

International Diabetes Federation (IDF) Atlas 2017 mencatat bahwa penyakit

Kementrian Kesehatan Republik Indonesia melakukan Riset Kesehatan Dasar

Diabetes dapat diklasifikasikan kedalam beberapa ketegori umum seperti diabetes

Dari hasil pravelensi Riset Kesehatan Dasar (Riskesdas) Kementrian Kesehatan

Masih banyaknya penderita diabetes yang belum mengetahui bahwa dirinya

Terdapat beberapa metode yang digunakan untuk melakukan permodelan

Pada tahun selanjutnya terdapat penelitian mengenai deteksi dini penyakit

Di tahun 2022 Binti Mamluatul Karomah melakukan penelitian untuk

Adapun penelitian yang melakukan proformansi dari beberapa metode dalam

Selain penelitian tersebut terdapat pula penelitian yang melakukan optimasi

Klasifikasi dapat didefinisikan selaku pekerjaan yang melaksanakan pelatihan/

K-Nearest Neighbor dapat di asumsikan seperti pembelajaran berbasis instance, di

1.3 Batasan Masalah

1.5 Pertanyaan Penelitian

dengan metode K-Nearest Neighbour (KNN).

2.1 Diabetes Mellitus

Gambar 2.1 Jumlah penderita diabetes di dunia tahun 2021

Gambar 2.2 Prevalensi Diabetes Melitus pada Riskesdas 2013-2018

2.2 Data Mining

6. Evaluasi Pola dan Pengetahuan Presentasi

Gambar 2.3 Langkah-langkah Data Mining

2.4 K-Nearest Neighbour (KNN)

2.5 Particle Swarm Optimization

Update nilai Velocity:

Update nilai partikel (x):

X Gbest : posisi terbaik global

4. Hentikan berdasarkan beberapa kondisi.

Untuk menemukan solusi yang optimal, maka setiap partikel akan

2.6 Penelitian Terkait

Penelitian mengenai klasifikasi dengan algoritma K-Nearest Neighboor

Fitri Yunita, Klasifikasi data Klasifikasi, K- Persentase

Indrayanti, Penelitian ini Klasifikasi, K- Hasil penelitian

Lastri Widya Implementasi Binary wheal Hasil penelitian

3.1 Data Set

Menyatakan angka konstrasi glukosa

Parameter menyatakan tekanan darah

Parameter yang menyatakan nilai dari

Tingkat insulin dalam 2 jam terakhir

Menyatakan Indeks masa tubuh pada

8 Age Menyatakan umur pada pasien.

https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database merupakan dataset yang di ambil dari

Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Outcome

Gambar 3.1 Dataset prediksi penderita diabetes mellitus

Gambar 3.2 Skenario Penelitian dengan KDD.

3.2.1. Developing And Understanding.

[1] G. Roglic and World Health Organization, Global report on diabetes.

Anda mungkin juga menyukai