Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik
Informatika
Disusun Oleh:
Menyetujui : Mengetahui :
Pembimbing Dekan Fakultas Ilmu Komputer
i
PENGESAHAN DEWAN PENGUJI
Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir tanggal 15 Februari 2021. Menurut pandangan kami, tugas
akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan
penganugrahan gelar Sarjana Komputer (S.Kom.)
Dewan Penguji :
ii
PERNYATAAN KEASLIAN SKRIPSI
Merupakan karya asli (kecuali cuplikan dan ringkasan yang masing-masing telah
saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila
dikemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang
disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.
Dibuat : Semarang
Pada Tanggal : 2023
Yang Menyatakan :
iii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Dengan Hak Bebas Royalti Non-Eksklusif ini Universitas Dian Nuswantoro berhak untuk
menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam
bentuk pangkalan data (database), mendistribusikannya dan
menampilkan/mempublikasikannya di internet atau media lain untuk kepentingan
akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya
sebagai penulis/pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa
melibatkan pihak Unversitas Dian Nuswantoro, segala bentuk tuntutan hukum yang
timbul atas pelanggan Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan
ini saya buat dengan sebenarnya.
Dibuat : Semarang
Pada Tanggal : 15 Februari 2021
Yang Menyatakan :
iv
UCAPAN TERIMAKASIH
Dengan memanjatkan puji syukur kehadirat Allah SWT. Tuhan Yang Maha
Pengasih dan Maha Penyayang yang telah melimpahkan segala Rahmat, Hidayah,
dan Inayahnya-Nya kepada penulis sehingga laporan tugas akhir dengan judul
“IMPLEMENTASI DATA MINING UNTUK MENGKLASIFIKASI
PENYAKIT DIABETES DENGAN METODE KNN” dapat penulis
selesaikan sesuai dengan rencana karena dukungan dari berbagai pihak yang tidak
ternilai besarnya. Oleh karena itu penulis menyampaikan terimakasih kepada :
1. Prof. Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian
Nuswantoro Semarang.
2. Dr. Drs. Abdul Syukur, M.M, selaku Dekan Fasilkom
3. Dr. Muljono, S.Si, M.Kom, selaku Ka. Progdi Teknik Informatika.
4. Suprayogi, M.Kom, selaku pembimbing tugas akhir yang memberikan ide
penelitian, memberikan informasi refrensi yang penulis butuhkan dan
bimbingan yang berkaitan dengan penelitian penulis.
5. Dosen-dosen pengampu di Fakultas Ilmu Komputer Teknik Informatika
Universitas Dian Nusantoro Semarang yang telah memberikan ilmu dan
pengalamannya masing - masing, sehingga penulis dapat
mengimplementasikan ilmu yang telah disampaikan.
6. M. Ali Munif dan Afni’ah selaku orang tua kandung yang selalu memberi
doa dan dukungan dalam pembuatan tugas akhir ini.
7. Rika Wulandari selaku support system dalam memberikan semangat dan
dukungan untuk menyelesaikan tugas akhir.
8. Teman-teman selaku yang memberikan dukungan dalam menyelesaikan
tugas akhir.
Semoga Tuhan Yang Maha Esa memberikan balasan yang lebih besar kepada
beliau - beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas
akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.
Semarang, Februari 2021
Penulis
v
ABSTRAK
vi
DAFTAR ISI
PERSETUJUAN SKRIPSI.......................................................................................i
PENGESAHAN DEWAN PENGUJI......................................................................ii
PERNYATAAN KEASLIAN SKRIPSI................................................................iii
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS..............................................................................iv
UCAPAN TERIMAKASIH.....................................................................................v
ABSTRAK..............................................................................................................vi
DAFTAR ISI..........................................................................................................vii
DAFTAR TABEL...................................................................................................ix
DAFTAR GAMBAR...............................................................................................x
BAB I PENDAHULUAN........................................................................................1
1.1. Latar Belakang..........................................................................................1
1.2. Rumusan Masalah.....................................................................................3
1.3. Batasan Masalah........................................................................................3
1.4. Tujuan Penelitian.......................................................................................3
1.5. Manfaat Penelitian.....................................................................................3
BAB II LANDASAN TEORI..................................................................................5
2.1 Tinjauan Studi...........................................................................................5
2.2 Tinjauan Pustaka.......................................................................................9
2.2.1. Metode Prototype...............................................................................9
2.2.2. Deteksi.............................................................................................11
2.2.5. Klasifikasi........................................................................................13
vii
2.2.10. Confusion Matrix.............................................................................16
3.2.2 Explore.............................................................................................21
viii
DAFTAR TABEL
Table 2. 1 State of The Art.......................................................................................5
Table 2. 2 Use Case Diagram.................................................................................13
Table 3. 1 Dataset...................................................................................................18
Table 3. 2 Sample Data..........................................................................................20
Table 3. 3 Pre-Processing.......................................................................................20
Table 3. 4 Kategori Value......................................................................................21
Table 3. 5 Penyesuaian Data..................................................................................22
Table 3. 6 Contoh Data yang Akan Dihitung.........................................................25
Table 3. 7 Pengelompokan Data Berdasarkan Kategori pada Table Kategori Value
................................................................................................................................25
Table 3. 8 Ecluidean Distance................................................................................27
Table 3. 9 Pemberian Ranking...............................................................................27
Table 3. 10 Pengurutan Ranking............................................................................28
Table 3. 11 Kategori Mayoritas.............................................................................28
Table 3. 12 Hasil Akhir Kategori...........................................................................28
ix
DAFTAR GAMBAR
Gambar 2. 1 Rumus KNN......................................................................................12
Gambar 2. 2 Kerangka Pemikiran..........................................................................16
Gambar 2. 3 Rumus Euclidean Distance...............................................................23
Gambar 2. 4 Tahapan KNN...................................................................................24
Gambar 3. 1 Model Prototype................................................................................30
x
BAB I
PENDAHULUAN
1
Banyak metode yang dapat digunakan untuk memprediksi ataupun
mengklasifikasikan penyakit diabtes militus dengan menggunakan
probabilitas yang dapat memberikan akurasi terhadap kondisi pada seseorang
apakah itu hasilnya menunjukan iya atau tidaknya penyakit diabetes.
Didapatkan gejala – gejala diagnosa diabetes seperti, luka yang sulit sembuh,
kelelahan yang berlebihan, kaki mati rasa, menurunnya berat badan, dan
sering buang air kecil. Kemudian gejala – gejala tersebut dikemas dalam
bentuk form.
2
1.2. Rumusan Masalah
Dari latar belakang masalah dan identifikasi masalah, maka
permasalaahan dalam penelitian ini adalah sebagai berikut: Bagaimana
metode KNN dapat memprediksi diabetes dengan akurasi tertinggi?
1. Bagi Penulis
Penulis dapat mendalami dan memahami mengenai klasifikasi
diabetes secara akurat. Serta melatih tanggung jawab untuk dapat
diangkat sebagai salah satu syarat kelulusan.
2. Bagi pengguna
3
Penelitian ini diharapkan memudahkan masyarakat khususnya di
Indonesia untuk dapat memprediksi penyakit diabetes dengan akurasi
yang tinggi.
3. Bagi Universitas Dian Nuswantoro
Dapat menjadi masukan serta memberikan pengembangan ilmu
pengetahuan di bidang Data Mining.
4
BAB II
LANDASAN TEORI
2.1 Tinjauan Studi
Dalam melaksanakan penelitian ini, memerlukan adanya jurnal
terdahulu sebagai referensi perbandingan dengan tujuan untuk memperoleh
hasil yang lebih efektif dan akurat. Jurnal berikut ini merupakan penelitian
yang sudah dilakukan oleh peneliti sebelumnya berkaitan dengan penyakit
diabetes dengan menggunakan metode algoritma K-Nearest Neighbor, jurnal
tersebut akan digunakan sebagai acuan dalam mendukung penelitian
mengenai deteksi diabetes.
No Peneliti-
Judul Masalah Metode Hasil
Tahun
1. (Yunita, SISTEM Menguji Penyelesaian Disimpulk
2016) KLASIFIKASI pengklasifikasia kasus dengan an
PENYAKIT n metode KNN Data terdiri 6 presentase
DIABETES pada hasil variable dan kesamaan
MELLITUS sampel uji data target klasifikasi
MENGGUNAKAN penyakit sebanyak 2 antara
METODE K- diabetes RSUD kelas. rapid
NEAREST Puri Husada Umur, tinggi miner
NEIGHBOR Tembilan badan, berat yang
badan, dihasilkan
riwayat dengan
keluarga, mengguna
5
gangguan kan K-NN
destruksi, saat K=1
pola makan dengan
dengan keberhasil
menggunaka an sebesar
n algoritma 88%.
KNN Berdasar
hasil
evakuasi
akurasi
dengan K-
NN dalam
pengklasif
ikasian
diabetes
adalah
96%
2. (Ramadhan SISTEM Keterbatasan Menggunaka Data
, 2018) DIAGNOSA staf tenaga n metode K- testing
DIABETES medis dan NN dengan sebanyak
MENGGUNAKAN terkonsentrasi mengidentifi 7 orang,
N METODE KNN pada kota-kota kasi masalah, nilai K
besar. Untuk itu Analisis digunakan
perlu dibangun kebutuhan 3.
sistem diagnosa penderita Persentase
penyakit diabetes, yang
diabetes menganalisis didapatkan
menggunakan kebutuhan adalah
metode KNN sistem, 85.71%.
merancang KNN
sistem sangat
6
dengan tols optimal
Sybase power untuk
disainer mendiagn
mulai dari osa
ERD, DFD penyakit
Level 0, DFD diabetes.
Level1
sampai DFD
Level 2.
3. (M. Syukri IMPLEMENTASI Penyebab yang Dengan Dari data
Mustafa, ALGORITMA K- memungkinkan menggunaka set yang
2019) NEAREST pasien baru di n modified dilatih
NEIGHBOR (KNN) puskesmas K-Nearest kemudian
UNTUK menyapa Neighbor diekspor
MEMPREDIKSI Kabupaten (MKNN) dalam
PASIEN TERKENA Bulukumba terdapat 15 pengemba
PENYAKIT yang terkena gejala dan 2 ngan
DIABETES PADA penyakit jenis penyakit website
PUSKESMAS diabetes. sebagai mengguna
MENYAPA parameter. kan bahasa
KABUPATEN phyton.
BULUKUMBA Dengan
meninjau
angka
kehamilan,
kadar
insulin,
kadar
glukosa
BMI,
tekanan
7
darah,
riwayat
diabetes
keluarga,
ketebalan
kulit, dan
u,ur
4. (Umi PENERAPAN Proses uji klinis Menggunaka Dengan
kulsum ALGORITMA K- yang memakan n metode nilai k=23
Indah NN UNTUK waktu tidak klasifikasi K- didapatkan
Lestari, SISTEM sebentar dan Nearest akurasi
2021) PENDUKUNG harus dilakukan Neighbor sebesar
KEPUTUSAN untuk (KNN) 96%,
IDENTIFIKASI mengetahui dengan 8 penelitian
PENYAKIT apakah variabel. ini dapat
DIABETES seseorang dinilai
terjangkit berhasil
penyakit menerapka
diabetes atau n metode
tidak, maka K-NN
diperlukan
sebuah system
pendukung
keputusan yang
bertujuan guna
mengidentifikasi
penyakit
diabetes.
5. (Faris PENERAPAN Indonesia Menggunaka Data input
Huwaidi, ALGORITMA K- merupakan n jupyter diproses
2022) NEAREST peringkat ke- 5 notebook dengan
8
NEIGHBOR negara penderita dengan algoritma
UNTUK diabetes bahasa KNN
MENDETEKSI terbanyak. Hal pemograman untuk
DIABETES ini diakibatkan phyton menentuka
BERBASIS WEB buruknya pola menginputka n outcome
APPLICATION hidup, kemudian n data gejala berupa
di tambah penyakit positif
kurangnya diabetes lalu atau
kesadaran di proses negatif
masyarakat menggunaka diabetes.
untuk mengecek n algoritma
apakah terkena K-NN
diabetes atau
tidak.
9
Sumber : (Syaddad, 2017)
10
gunakan untuk memperbaiki kebutuhan perangkat lunak yang
dibangun.
2.2.2. Deteksi
11
Menghapus data atau menghapus data noise yang tidak konsisten
dan tidak relevan.
2. Integrasi Data (data integration)
Pengumpulan data dari beberapa data menjadi satu database baru.
3. Seleksi Data (data selection)
Tidak semua data yang terdapat pada database digunakan semua,
sehingga dalam tahap seleksi data dapat menyaring data sesuai
dengan analisis yang akan dipakai dari database.
4. Transformasi data (data transformation)
Pengubahan data untuk dapat digabungkan ke dalam format yang
sesuai agar dapat diolah pada data mining.
5. Data Mining
Melakukan proses mining untuk mengekstrak data ke dalam
database.
6. Evalusi Pola (pattern evalution)
Melakukan identifikasi pola yang mengandung pengetahuan
(knowledge).
7. Presentasi pengetahuan (knowledge presentation)
Menyajikan pengetahuan atau mined knowledge terhadap
pengguna.
2.2.3.2 Pengelompokkan Data Mining
1. Deskripsi
Untuk menjelaskan bentuk serta trend yang terpendam di dalam
data.
2. Estimasi
Estimasi serupa dengan klasifikasi, hanya berbeda variabel dan
tujuan lebih kearah numerik daripada golongan.
3. Prediksi
12
Memprediksi hasil yang dapat berlangsung di masa yang akan
mendatang.
4. Klasifikasi
Klasifikasi bertujuan untuk mengelompokan atau mengategorikan
pendapatnya dalam 3 kelas yakni perolehan tinggi, perolehan
sedang, dan perolehan rendah.
5. Clustering
Pengelompokkan record atau masalah dalam class yang punyai
kesamaan
6. Asosiasi
Mengenali kaitan antara beragam perihal yang berlangsung pada
suatu waktu
2.2.5. Klasifikasi
13
K-Nearest Neighbor berfungsi dalam mengklasifikasikan objek
berdasarkan nilai k pada fitur space. Menentukan nilai jarak pada data
testing dengan data training berdasarkan nilai minimum dari nilai
terdekat. Persamaan Euclidian Distance dapat di presentasikan sebagai
berikut :
Keterangan :
D = Euclidean Distance
14
Table 2. 2 Use Case Diagram
No Simbol Keterangan
1 Use Case Fungsionalitas dari sistem sebagai
unit yang saling bertukar pesan
antar aktor
15
2.2.7.1 Python
16
2.2.10. Confusion Matrix
TP
Recall = × 100%
TP+ FN
2. Precision untuk menghitung tingkat ketetapan informasi
TP
Precision = × 100%
TP+ FP
3. Accuracy untuk menghitung keberhasilan sistem
TP+TN
Accuracy = × 100%
TP+ TN + FP+ EN
4. Error rate perhitungan rata – rata kesalahan dalam sistem
FP+ EN
Error Rate = × 100%
TP+ TN+ FP+ EN
17
Data Metode Tool
Kaggle Diabetes Algoritma K-NN Phyton
Pengujian
Confusion Matrix
Hasil
Penelitian ini menghasilkan perkiraan diagnosa pengklasifikasikan
apakah seseorang memiliki suatu penyakit diabetes atau tidak
dengan akurasi tinggi.
Gambar 2. 2 Kerangka Pemikiran
18
BAB III
METODE PENELITIAN
19
3.2.1 Sample
Table 3. 1 Dataset
Blood Skin
No Pregnancies Glucose Insulin BMI DPF Age Class
Pressure Thickness
1 6 148 72 35 0 33,6 0,627 50 1
2 1 85 66 29 0 26,6 0,351 31 0
3 8 183 64 0 0 23,3 0,467 32 1
4 1 89 66 23 94 28,1 0,167 21 0
5 0 137 40 35 168 43,1 2,288 33 1
6 5 116 74 0 0 25,6 0,201 30 0
7 3 78 50 32 88 31 0,248 26 1
8 10 115 0 0 0 35,3 0,134 29 0
20
9 2 197 70 45 543 30,5 0,158 53 1
10 8 125 96 0 0 0 0,232 54 1
11 4 110 92 0 0 37,6 0,191 30 0
12 10 168 74 0 0 38 0,537 34 1
13 10 139 80 0 0 27,1 1,441 57 0
14 1 189 60 23 846 30,1 0,398 59 1
15 5 166 72 19 175 25,8 0,587 51 1
16 7 100 0 0 0 30 0,484 32 1
17 0 118 84 47 230 45,8 0,551 31 1
18 7 107 74 0 0 29,6 0,254 31 1
19 1 103 30 38 83 43,3 0,183 33 0
20 1 115 70 30 96 34,6 0,529 32 ?
3.2.2 Explore
21
3.3 Teknik Analisis Data
Blood Skin
Pregnanci Glucos Insuli BM Ag Clas
No Pressur Thickne DPF
es e n I e s
e ss
0,62
1 6 148 72 35 0 33,6 50 1
7
0,35
2 1 85 66 29 0 26,6 31 0
1
0,46
3 8 183 64 0 0 23,3 32 1
7
0,16
4 1 89 66 23 94 28,1 21 0
7
2,28
5 0 137 40 35 168 43,1 33 1
8
0,20
6 5 116 74 0 0 25,6 30 0
1
0,24
7 3 78 50 32 88 31 26 1
8
0,13
8 10 115 0 0 0 35,3 29 0
4
0,15
9 2 197 70 45 543 30,5 53 1
8
0,23
10 8 125 96 0 0 0 54 1
2
Dalam mengolah data step pertama yang dilakukan adalah dengan cara pre
processing uang mana tahapan mengubah dari data mentah menjadi data yang
baik untuk di proses. Pada table sampel data diabetes terdapat missing value
dengan tanda sel berwarna merah. Data yang tidak lengkap atau kosong akan
dihapus.
Table 3. 3 Pre-Processing
22
Thicknes
e Pressure I
s
1 6 148 72 35 0 33,6 0,627 50 1
2 1 85 66 29 0 26,6 0,351 31 0
3 8 183 64 0 0 23,3 0,467 32 1
4 1 89 66 23 94 28,1 0,167 21 0
5 0 137 40 35 168 43,1 2,288 33 1
6 5 116 74 0 0 25,6 0,201 30 0
7 3 78 50 32 88 31 0,248 26 1
8 10 115 0 0 0 35,3 0,134 29 0
9 2 197 70 45 543 30,5 0,158 53 1
10 8 125 96 0 0 0 0,232 54 1
23
11 SkinThickness Ketebalan Kulit 20-30 2
12 SkinThickness Ketebalan Kulit >30 3
13 Insulin Insulin <100 1
14 Insulin Insulin 100-250 2
15 Insulin Insulin >250 3
16 BMI Index Masa Tubuh <25 1
17 BMI Index Masa Tubuh 25-30 2
18 BMI Index Masa Tubuh >30 3
19 DPF Riwayat Diabetes <=0,500 1
20 DPF Riwayat Diabetes >0.500 2
21 Age Umur <20 1
22 Age Umur 20-40 2
23 Age Umur >40 3
24 Class Kelas 0-4 0
25 Class Kelas >4 1
Dimana telah dilakukan transformasi data dengan begitu
proses pengkategorian pada data Diabetes sesudah sesuai dengan
atributnya supaya mudah untuk di proses
Skin
Glucos Blood BM
No Pregnancies Thicknes Insulin DPF Age Class
e Pressure I
s
1 3 3 1 3 0 3 2 3 1
2 1 1 1 2 0 2 1 2 0
3 3 3 1 0 0 1 1 2 1
4 1 1 1 2 1 2 1 2 0
5 1 2 1 3 2 3 2 2 1
6 2 2 1 0 0 3 1 2 0
7 2 1 1 3 1 3 1 2 1
8 3 2 0 0 0 3 1 2 0
9 2 3 1 3 3 3 1 2 1
10 3 2 2 0 0 0 1 2 1
3.3.3 Metode yang Diusulkan
24
Untuk melakukan penelitian ini menggunakan algoritma K-
Nearest Neighbohr, yang dimana perhitungan akurasi menggunakan
confusion matrix.
Keterangan :
D : jarak terdekat
25
4. Menentukan variabel Y kategori positif diabetes dengan nilai
K
5. Menentukan probabilitas tertinggi
26
Gambar 2. 4 Tahapan KNN
27
Tetangga terdekat ditentukan oleh sistem. Nilai k yang akan
digunakan adalah kelipatan angka ganjil, yaitu k=7. Penentuan
nilai k ini mempengaruhi tingkat akurasi dalam klasifikasi data.
4. Hitung Jarak Skalar Data Uji ke Data Training
5. Urutkan Hasil Perhitungan Jarak
Setelah didapatkan jarak dari rumus euclidean distance maka
akan diurutkan nilai jarak yang telah didapatkan.
6. Hasil Klasifikasi Diabetes Melitus pada Data Uji
Setelah didapatkan hasil klasifikasi pada data uji maka akan
disimpan kedalam database yang akan ditampilkan pada
aplikasi untuk divalidasi kembali menggunakan metode cross
validation.
Table 3. 6 Contoh Data yang Akan Dihitung
28
3 2 1 1 3 1 3 1 2 1
4 2 3 1 3 3 3 1 3 1
5 2 3 1 2 3 3 1 3 1
6 2 3 1 1 2 2 2 3 ???
D(1,6)
√¿¿
= 2,82
D(2,6)
√¿¿
= 4,12
D(3,6)
√¿¿
=3
D(4,6)
29
√¿¿
= 2,64
D(5,6)
√¿¿
=2
30
yaitu K=3, jadi data yang paling terdekat dengan nilai k=3
adalah data ke 3,1 dan 4 yaitu data (3,6), (1,6) dan (4,6).
31
6. Dengan perhitungan Euclidean distance didapat data
terdekat berdasarkan nilai K yaitu 3,4,1. Data tersebut
tergolongkan kelas ‘diabetes’, sehingga mayoritas diabetes.
Jadi hasil klarifikasi data testing adalah “diabetes”.
32
1. Diagram Use Case merupakan sebuah aktivitas atau interaksi
berkelanjutan antara aktor dan sistem.
33
BAB IV
METODE PENELITIAN
4.1 Analisis data
4.1.1 Persiapan Data
Penelitian ini data yang digunakan berupa data dengan format
Comma Separated Values (CSV) yang dipisahkan dengan tanda koma
atau titik koma. Dimana data yang digunakan merupakan dataset publik
diabetes yang diambil dari website Kaggle kemudian ditransformasikan
dalam bentuk kolom lalu setiap nilai pada atribut dikategorikan
berdasarkan range yang sudah ditentukan, yang digunakan dalam
penelitian ini terdapat 768 data dengan 8 atribut dan 1 label class.
Dibawah ini merupakan tabel kategori tiap nilai pada atribut.
N
Atribut Keterangan Nilai Kontinu Level
o
Banyaknya
1 Pregnancies <1 Low
Kehamilan
Banyaknya
2 Pregnancies 1<=Pregnant<=5 Medium
Kehamilan
Banyaknya
3 Pregnancies >5 High
Kehamilan
4 Glucose Glukosa <95 Low
5 Glucose Glukosa 95 - 140 Medium
6 Glucose Glukosa >140 High
7 BloodPressure Tekanan Darah <80 Low
34
12 SkinThickness Ketebalan Kulit >30 High
13 Insulin Insulin <100 Low
14 Insulin Insulin 100 - 250 Normal
15 Insulin Insulin >250 High
Index Masa
16 BMI <25 Low
Tubuh
Index Masa
17 BMI 25 -30 Normal
Tubuh
Index Masa Obesita
18 BMI >30
Tubuh s
Riwayat
19 DPF <=0,500 Low
Diabetes
Riwayat
20 DPF >0,500 High
Diabetes
21 Age Umur <20 Young
22 Age Umur 20 - 40 Medium
23 Age Umur >40 Old
35
8. Age : Umur pasien (tahun).
9. Class : yaitu hasil / kelas klasifikasi penyakit diabetes (0 = negatif
atau 1 = positif) 268 dari 768 adalah 1, yang lain adalah 0.
36
Fungsi ‘zero_not_accepted untuk mengganti nilai Nol
37
Memisahkan kumpulan data menjadi data latih dan data uji. Disini
‘test_size’ merupakan data uji dengan 20% data yang dipakai dari
keseluruhan data
38
4.2 Analisis Pengujian
Menampilkan confusion matrix dari hasil prediksi dengan
klasifikasi KNN dalam tahapan ini didapatkan matrix [ 9415 1332] yang
diperoleh dari hasil kombinasi data actual (y_test) dengan nilai data
klasifikasi (y_pred). berikut merupakan kode untuk menguji hasil
klasifikasi menggunakan confusion matrix.
39
Untuk laporan klasifikasi, akurasi menggunakan algoritma KNN
sebesar 0.81 dari 154 data testing terdapat pasien tidak terkena penyakit
diabetes (0) sebesar 107 data, serta pasien terkena penyakit diabetes (1)
sebesar 47 data.
Recall presentase dari 47 data pasien terkena penyakit diabetes (1)
diklasifikasikan terkena penyakit diabetes sebesar 0,68 serta dari 94 data
yang tidak terkena penyakit diabetes (0) diklasifikasikan terkena penyakit
diabetes 0,88. Berikut perhitungan dari recall.
TP 94 94
recall= = = =0,88
TP+ FN 94+13 107
TP 94 94
precision= = = =0,86
TP+ FP 94 +15 109
40
Jadi, untuk prediksi dari outcome pada setiap baris menghasilkan
keakuratan sekitar 81%, sehingga dapat dinyatakan memiliki keakurasian
sangat tinggi sekali untuk prediksi diabetes.
2.
41
DAFTAR PUSTAKA
Agustin, W. J. (2019). Sistem E-Learning Doa dan Iqro dalam peningkatan Proses
Pembelajaran pada TK Amal Ikhlas. Mahasiswa Aplikasi Tegnologi Komputer dan
Informasi, 154-159.
Aulia, d. (2015). Analisis Perbandingan KNN dengan SVM untuk Klasifikasi Penyakit
Diabetes Retinopati berdasarkan Citra Eksudat dan Mikroaneurisma. ELKOMIKA,
75-90.
Pratiwi, F. (2018). Sains dan Tegnologi Informasi Analisa Pemilihan Bahasa Pemograman
dakam Penyelesaian Tugas Akhir Mahasiswa. SATIN, 4(2).
Ramadhan, R. A. (2018). Sistem Diagnosa Diabetes Menggunakn Metode KNN. Sains dan
Informatika, 98-104.
Riski Aulia, S. H. (2015). Analisis Perbandingan KNN dengan SVM untuk Klasifikasi
Penyakit Diabetes Retinopati berdasarkan Citra Eksudad dan Mikroaneurisma.
ELKOMIKA, 75-90.
42
Syaddad, H. (2017). Rancang Bangun Digital Archiving Di Pergurun Tinggi Menggunakan
Metode Prototype Metode Studi Kasus: Universitas Suryakancana. Media Jurnal
Informatika, 9(1), 49-57.
Umi kulsum Indah Lestari, A. Y. (2021). Penerapan Metode K-Nearest Neighbor Untuk
Sistem Pendukung Keputusan Identifikasi Penyakit Diabetes. Teknik Informatika
dan Sistem Informasi, 2071-2082.
Waspada, I. (2019). Implementasi Data Mining untuk Klasifikasi Masas Studi Mahasiswa
Menggunakan Algoritma K-Nearest Neighbor. SIMETRIS, 421-432.
43