Penerapan Algoritma KNN Pada Klasifikasi Penyakit Jantung

PERBANDINGAN ALGORITMA NAIVE BAYES DAN K-NEAREST
NEIGHBOR DALAM KLASIFIKASI DATA DIAGNOSA PENYAKIT

JANTUNG
PROPOSAL SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Mencapai Derajat Sarjana S1

Program Studi Sistem Informasi
Oleh :
REZA MAULANA PUTRA

18110006
FAKULTAS TEKNIK
PROGRAM STUDI SISTEM INFORMASI
UNIVERSITAS ABULYATAMA ACEH BESAR
2022
KATA PENGANTAR
Bismillahirrahmaanirrahim...
Segala Puji dan Syukur kami ucapkan kepada Allah SWT yang Maha Kuasa
atas segala limpahan berkat dan karunia – Nya yang selalu menyertai dalam setiap
aktivitas, sehingga penulis dapat menyelesaikan Penelitian Skripsi yang berjudul
“Perbandingan Algoritma Naive Bayes Dan K-Nearest Neighbor Dalam
Klasifikasi Data Diagnosa Penyakit Jantung” penulisan ini bertujuan untuk
melengkapi salah satu syarat penyusunan proposal skripsi pada program studi
Sistem Informasi fakultas Teknik Universitas Abulyatama.
Maka pada kesempatan ini penulis juga ingin mengucapkan terimakasih
kepada semua pihak yang telah membantu sehingga dapat menyelesaikan proposal
skripsi ini. Penulis menyadari bahwa bahwa penyusunan proposal skripsi ini tidak
terlepas dari bantuan dan dorongan yang bersifat moril dari berbagai pihak.
Untuk itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada:
1. Bapak R. Agung Efriyo, M.sc, Ph.D Selaku Rektor Universitas Abulyatama.
2. Bapak Muhtadin, ST., M.T Selaku Dekan Fakultas Teknik.
3. Ibu Juniana Husna, S.Si., M.Sc Selaku Ketua Program Studi Sistem
Informasi dan Selaku Pembimbing Skripsi 1.
4. Bapak Banta Cut M.T, S.Kom Selaku Dosen Pembimbing Skripsi 2.
5. Ayahhanda Suhaimi dan Ibunda Nafsiah yang telah memberikan kasih
sayang, cinta dan perhatianya, serta motivasi dan dorongan yang tiada henti
i
agar penulis dapat menuntut ilmu dan menyelesaikan pendidikan sebaik-
sebaiknya.
6. Semua pihak yang tidak dapat saya sebutkan satu persatu, baik langsung
maupun tidak langsung membantu dalam penulisan proposal skripsi ini.
Dalam penulisan ini, penulis telah berusaha semaksimal mungkin untuk
kesempurnaan, namun penulis menyadari bahwa di dalamnya terdapat
kejanggalan dan kekurangan, baik dari segi susunan bahasa maupun penyajian
yang kesemuanya itu disebabkan karena keterbatasan kemampuan dari penulis.
Terakhir penulis berharap agar hasil penulisan proposal skripsi ini dapat
bermanfaat bagi pembaca maupun pihak yang berkepentingan dalam proposal
skripsi ini.
Aceh Besar, Juni 2022
Reza Maulana Putra
ii
iii
DAFTAR ISI
KATA PENGANTAR.............................................................................................i
DAFTAR ISI.........................................................................................................iii
DAFTAR GAMBAR..............................................................................................v
DAFTAR TABEL.................................................................................................vi
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang...............................................................................................1
1.2 Penelitian Terdahulu......................................................................................2
1.3 Rumusan Masalah..........................................................................................4
1.4 Tujuan Penelitian...........................................................................................4
1.5 Manfaat Penelitian.........................................................................................4
1.6 Batasan Masalah............................................................................................4
1.7 Sistematika Penuisan......................................................................................5
BAB II TINJAUAN PUSTAKA............................................................................6
2.1 Data Mining...................................................................................................6
2.1.1 Pengertian Data Mining..........................................................................6
2.1.2 Metode Data Mining...............................................................................6
2.2 Klasifikasi......................................................................................................8
2.3 Naïve Bayes...................................................................................................8
iv
2.4 Gaussian Naïve bayes....................................................................................9
2.4.1 Mean......................................................................................................10
2.4.2 Standar Deviasi.....................................................................................10
2.5 Algoritma K-nearest neighbor (K-NN)........................................................11
2.6 Confusion Matrix.........................................................................................12
2.7 Cross Validation...........................................................................................13
2.8 Penyakit Jantung..........................................................................................14
2.9 Rapidminer...................................................................................................16
BAB III METODE PENELITIAN.....................................................................18
3.1 Tahapan Penelitian.......................................................................................18
3.2 Studi Literatur..............................................................................................18
3.3 Pengumpulan Data.......................................................................................19
3.4 Klasifikasi....................................................................................................20
3.5 Perhitungan Algoritma Gaussian Naïve Bayes............................................20
3.5.1 Studi Kasus...........................................................................................21
3.6 Perhitungan Algoritma K-Nearest Neighbor...............................................27
DAFTAR PUSTAKA...........................................................................................33
LAMPIRAN..........................................................................................................36
v
DAFTAR GAMBAR
Gambar 1. Tampilan Rapidminer.........................................................................17
Gambar 2. Tahapan Penelitian.............................................................................18
Gambar 3. Flowchart Naive Bayes.......................................................................20
Gambar 4. Flowchart K-Nearest Neighbor..........................................................27
vi
DAFTAR TABEL
Tabel 1. Confusion Matrix....................................................................................12
Tabel 2. Atribut Dataset Beserta Deskripsinya.....................................................19
Tabel 3. Data Latih Gaussian Naive Bayes...........................................................21
Tabel 4. Data Uji Gaussian Naive Bayes..............................................................22
Tabel 5. Probabilitas Kategori...............................................................................22
Tabel 6. Hasil Pencarian Nilai Mean.....................................................................23
Tabel 7. Tabel Jarak Mean Age Positive (1).........................................................23
Tabel 8. Total Jarak Mean Age Negatif (2)...........................................................24
Tabel 9. Hasil Klasifikasi Algoritma Gaussian Naive Bayes................................26
Tabel 10. Confusion Matrix Naïve Bayes.............................................................27
Tabel 11. Data Latih K-Nearest Neighbor............................................................28
Tabel 12. Data Uji K-Nearest Naighbor................................................................28
Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji.........................29
Tabel 14. Mayoritas Data......................................................................................30
Tabel 15. Hasil Klasifikasi Dari K-Nearest Neighbor..........................................31
Tabel 16. Confusion Matrix K-Nearest Neighbor.................................................32
vii
BAB I
PENDAHULUAN
I.1 Latar Belakang
Data mining merupakan suatu proses pengumpulan informasi penting dari
sebuah data yang jumlahnya cukup besar yang bertujuan menemukan nilai tambah
berupa pengetahuan yang sejauh ini belum dapat ditemukan secara manual dari
suatu kumpulan data. Ada beberapa teknik dalam data mining salah satu teknik
yang dapat diterapkan untuk data penyakit jantung ialah teknik klasifikasi.
Penyakit jantung perlu dilakukan klasifikasi agar dapat melakukan diagnosis
dengan akurat. Hasil diagnosis yang akurat bisa digunakan untuk membantu para
tenaga medis dalam mengambil keputusan dengan tepat.
Klasifikasi merupakan teknik dalam data mining untuk mengelompokkan
data berdasarkan keterikatan data terhadap data sampel. [1] Klasifikasi dalam data
mining dapat dilakukan dengan beberapa metode, dimana diantaranya yang umum
dilakukan yaitu Random Forest, Naive Bayes, Support Vector Machine, k-NN,
Hierarchical Clustering, K-Means Clustering, Decision Trees dan Random Forest.
Pada penelitian ini, penulis menggunakan beberapa metode klasifikasi yang
kemudian akan dilakukan perbandingan terhadap nilai performa (accuracy,
precision dan recall) yang dihasilkan masing-masing algoritma.
Jantung merupakan organ tubuh manusia yang mempunyai peranan penting
dalam kehidupan manusia dan pastinya sangat berbahaya jika jantung kita
mempunyai masalah mengingat bahwa banyak kematian disebabkan oleh penyakit
jantung. [2] Data WHO tahun 2015 menunjukkan bahwa 70% kematian di dunia
1
2
disebabkan oleh Penyakit Tidak Menular (39,5 juta dari 56,4 kematian). Dari
seluruh kematian akibat Penyakit Tidak Menular (PTM) tersebut, 45% nya
disebabkan oleh Penyakit jantung dan pembuluh darah, yaitu 17.7 juta dari 39,5
juta kematian.
Penanganan yang cepat dapat mengurangi resiko terkena serangan jantung
yang berkemungkinan menjadi penyakit jantung koroner. Maka perlu dilakukan
diagnosis secara dini kepada setiap orang yang beresiko memiliki penyakit
jantung atau tidak. Salah satu cara melakukan diagnosis penyakit jantung yaitu
dengan menggunakan data mining.
I.2 Penelitian Terdahulu
Pada penelitian yang dilakukan oleh Tutus Praningki [3] dengan judul
“Sistem Prediksi Penyakit Kanker Servicks Mengunakan CART, Naïve Bayes, dan
k-NN” Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive
Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan
menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap
algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi
terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma
CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh
masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem
prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien
baru.
Pada penelitian yang dilakukan oleh Amri Samosir [4] dengan judul
“Komparasi Algoritma Random Forest, Naïve Bayes dan K-Nearest Neighbor

3
Dalam klasifikasi Data Penyakit Jantung” Berdasarkan hasil perbandingan
terhadap 304 dataset penyakit jantung, algoritma Naïve Bayes lebih baik dan
optimal dibanding dengan Algoritma, K-Nearest Neighbor dan Random Forest
untuk mengklasifikasikan penyakit jantung. Hasil klasifikasi dengan algoritma
Naïve Bayes memiliki rerata hasil akurasi sebesar 0,91 AUC, 0,84 CA, 0,84 F1,
0,839 Precision dan 0,84 Recall.
Pada penelitian yang dilakukan oleh Hasanah [5] dengan judul “Analisis
Algoritma Gaussian Naive Bayes Terhadap Klasifikasi Data Pasien Penderita
Gagal Jantung” dari implementasi yang dilakukan menggunakan algoritma
Gaussian Naïve Bayes terhadap data pasien penderita gagal jantung diperoleh
hasil validasi terbaik dengan nilai akurasi tertinggi didapatkan pada Kfold 4 yaitu
59,4%, presisi tertinggi didapatkan pada Kfold 4 yaitu 55,89%, sedangkan recall
tertinggi didapatkan pada Kfold 2 yaitu 86,52%.
Melihat penelitian-penelitian yang telah dilakukan sebelumnya, dan
mempertimbangkan kelebihan dan kekurangan masing-masing metode, maka
penulis memutuskan untuk melakukan perbandingan antara metode klasifikasi
Naive Bayes, dan k-NN (K-Nearest Neighbor). Hal inilah yang menjadi keunikan
dari penelitian ini, kedua metode tersebut akan diimplementasikan kedalam
dataset sebanyak 1025 record data dengan 14 atribut. Kumpulan data ini berasal
dari tahun 1988, terdiri dari empat database dari empat negara yaitu Cleveland,
Hungaria, Swiss dan Long Beach V. Ini berisi 79 atribut, termasuk atribut yang
diprediksi, tetapi semua eksperimen yang dipublikasi mengacu pada penggunaan
subset dari 14 atribut tersebut. Penelitian ini dilakukan untuk menemukan

4
algoritma terbaik yang dapat digunakan untuk melakukan klasifikasi.
I.3 Rumusan Masalah
Dari latar belakang diatas, maka rumusan masalah yang didapat yaitu berapa
hasil perbandingan (accuracy, precision, dan recall) pada klasifikasi dataset
penyakit jantung dengan menggunakan dua algoritma, Naive Bayes dan k-NN (K-
Nearest Neighbor)?
I.4 Tujuan Penelitian
Adapun tujuan dari penelitian ini adalah untuk mengetahui nilai
perbandingan (accuracy, precision, dan recall) pada klasifikasi dataset penyakit
jantung dengan menggunakan dua algoritma, Algoritma Naive Bayes dan k-
Nearest Neighbor.
I.5 Manfaat Penelitian
Manfaat dari penelitian ini yaitu:
1. Algoritma mana yang terbaik dalam melakukan klasifikasi data.
2. Bisa digunakan untuk melakukan diagnosis awal dalam mendeteksi
penyakit jantung.
3. Bisa dijadikan referensi pada penelitian selanjutnya.
I.6 Batasan Masalah
Untuk lebih memfokuskan pada pengerjaan dalam melakukan penelitian ini
maka penulis menetapkan batasan masalah yaitu:
1. Data yang digunakan pada penelitian ini yaitu data penyakit jantung yang
disediakan oleh Kaggle.com. sebanyak 1025 record data pasien yang

5
diperiksa dan sebanyak 499 pasien terdeteksi sehat dan 526 pasien
terdeteksi memiliki penyakit jantung.

6
2. Pada penelitian ini menggunakan 14 atribut yaitu usia, jenis kelamin, jenis
nyeri dada, tekanan darah istirahat, kolesterol serum, gula darah puasa, hasil
elektrokardiografi istirahat, detak jantung maksimum yang dicapai, angina
yang diinduksi olahraga, oldpeak - depresi ST yang disebabkan oleh
olahraga relatif terhadap istirahat, kemiringan segmen ST latihan puncak,
jumlah pembuluh darah besar dan thalassemia.
3. Menggunakan Algoritma Naive Bayes dan k-NN (K-Nearest Neighbor).
4. Tools pada penelitian ini menggunakan aplikasi Rapidminer
I.7 Sistematika Penuisan
Dalam membuat sistematika pada penulisan ini menyajikan dalam tiga bab,
yang terdiri dari:
BAB I PENDAHULUAN
Merupakan bab pertama yang mengawali penulisan laporan ini. Bab
pertama membuat latar belakan masalah, rumusan masalah, tinjauan
penelitian, manfaat penelitian, batasan masalah dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Bab ini menjelaskan tentang konsep dasar Penyakit jantung, Data Mining,
Klasifikasi, Naïve Bayes, Gaussian Naïve Bayes, Mean, Standar Deviasi
dan Algoritma K-Nearest Neighbor.
BAB III METODE PENELITIAN
Bab ini menjelaskan tentang tahap penelitian, studi literatur, pengumpulan
data, perhitungan algoritma gaussian naïve bayes dan perhitungan k-nearest

7
neighbor.
BAB II
TINJAUAN PUSTAKA
II.1 Data Mining
II.1.1 Pengertian Data Mining
Data mining adalah sebuah proses pencarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining
digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk
menemukan pola yang baru dan berguna. [8] Data mining hadir dianggap sebagai
bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses
mencari pengetahuan yang bermanfaat dari kata. KDD terdiri dari beberapa
langkah yaitu:
a. Pembersihan data (membuang noise dan data yang tidak konsisten).
b. Integrasi data (penggabungan data dari beberapa sumber).
c. Seleksi data (memilih data yang relevan yang akan digunakan untuk
analisa).
d. Data mining.
e. Evaluasi model.
f. Presentasi pengetahuan dengan Teknik visualisasi.

8
II.1.2 Metode Data Mining
Metode data mining iyalah cara yang diterapkan namun perlu disesuaikan
dengan tujuan penggunanya. Metode data mining adalah sebagai berikut:
a. Classification (Klasifikasi)
Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan
karakteristik dalam suatu kelompok atau kelas (class). Klasifikasi data
mining menjadi salah satu metode yang paling umum untuk digunakan.
Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek
yang labelnya belum diketahui.
b. Association
Market basket analysis (Analisa keranjang pasar) atau association.
Berhubungan dengan pemasaran, metode ini bertujuan untuk
mengidentifikasi produk yang sering dibeli bersamaan oleh pelanggan.
c. Clustering
Clusstering data mining adalah nama lain untuk metode segmentation.
Tujuan dari segmentasi pada metode data mining adalah mengelompokkan
suatu class ke dalam beberapa segmen berdasarkan atribut yang ditentukan.
Penentuan atribut harus sesuai kesamaan yang dimiliki beberapa class tadi.
d. Regression
Metode keempat dari data mining adalah regression. Metode yang satu ini
sedikit mirip dengan klasifikasi data mining. Bedanya, regresi merupakan
metode yang bertujuan untuk mencapai pola nilai numerik, bukan kelas.
Hasil dari metode regression adalah sebuah fungsi sebagai penentuan hasil
9
yang didasarkan nilai dari nilai input.
e. Forecasting
Forecasting data mining adalah metode yang digunakan untuk memprediksi
nilai yang akan dicapai pada suatu periode. Dengan menggunakan Teknik
ini, noise data dan nilai pada periode sebelumnya dijadikan dasar bahan
prediksi.
f. Sequencing
Sequence adalah sebuah urutan peristiwa. Tidak jauh dari Namanya, metode
sequence analysis berfungsi untuk mencari sebuah pola pada serangkaian
kejadian atau sequence.
g. Descriptive
Metode data mining yang satu ini bertujuan untuk memahami lebih dalam
mengenai data-data yang masuk dalam pengamatan. Hasil akhitnya adalah
mengetahui perilaku dari data itu sendiri
II.2 Klasifikasi
Klasifikasi merupakan salah satu tugas yang penting pada data mining.
Sebuah pengklasifikasian dibuat dari sekumpulan data latih dengan kelas yang
telah ditentukan. [9] Klasifikasi merupakan pengelompokan fitur ke dalam kelas
yang sesuai. Vektor fitur pelatihan tersedia dan telah diketahui kelas-kelasnya,
kemudian vektor fitur pelatihan tersebut dimanfaatkan untuk merancang pemilah.
Pengenalan pola ini disebut terbimbing, supervised. [10]

10
II.3 Naïve Bayes
Naïve Bayes termasuk dalam pengklasifikasian dengan metode probabilitas
dan statistik yang ditemukan oleh ilmuwan inggris Thomas Bayes, yaitu
memprediksi peluang di masa yang akan datang berdasarkan pengalaman di masa
sebelumnya, sehingga dikenal sebagai Teorema bayes. Teorema tersebut
dikombinasikan dengan naïve dimana asumsi kondisi antar variabel yang saling
bebas. [11] Klasifikasi naïve bayes mengasumsikan bahwa ada atau tidak ciri
tertentu dari sebuah kelas tidak ada kaitannya dengan ciri dari kelas lainnya.
Persamaan dari teorema bayes adalah:
P ( X|H ) . P( H)
P ( H| X )=
P( X)
Keterangan:
X : data dengan kelas yang belum diketahui.
H : Hipotesis data X adalah suatu kelas spesifik.
P(H|X) : probabilitas hipotesis H sesuai kondisi X (posteriori probability).
P(H) : probabilitas hipotesis H (prior probability).
P(X|H) : probabilitas X sesuai kondisi terhadap hipotesis H.
P(X) : probabilitas X.
II.4 Gaussian Naïve bayes
Jika data ditemukan kontinu, distribusi gaussian naïve bayes akan
digunakan, berikut ini adalah bentuk distribusi dari gaussian naïve bayes.
1. Baca data latin
2. Hitung jumlah data probabilitas, namun apabila data numerik maka

11
a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang
merupakan data numerik.
b. Cari nilai probabilitas dengan cara menghitung jumlah data yang sesuai
dari kategori yang sama dibagi dengan jumlah data pada kategori
tersebut menggunakan persamaan dibawah ini:
P¿
Keterangan:
P : peluang
Xi : atribut ke i
xi : nilai atribut ke i
Y : kelas yang dicari
yi : sub kelas Y yang dicari
μ : mean, menyatakan rata-rata dari seluruh atribut
σ : deviasi standar, menyatakan varian dari seluruh atribut
II.4.1 Mean
Persamaan yang digunakan untuk menghitung mean atau rata-rata hitungan
dapat dilihat sebagai berikut:
X 1+ X 2+ X 3 +…+ X n
μ=
n
Keterangan:
μ : rata-rata hitung (mean)
X1 : nilai sempel ke-i
n : jumlah sampel.
12
II.4.2 Standar Deviasi
Persamaan yang digunakan untuk menghitung standar deviasi sebagai
berikut:
√
n
∑ ( Xi−μ)2
i=1
σ=
n−1
Keterangan:
σ : standar deviasi
xi : nilai x ke – 1
μ : rata-rata hitung
n : jumlah sampel
II.5 Algoritma K-nearest neighbor (K-NN)
K-Nearest Neighbor merupakan salah satu metode yang dapat diterapkan
dalam melakukan klasifikasi terhadap suatu data, dengan mencari data yang
mempunyai jarak terdekat dengan suatu objek penelitian, sesuai dengan jumlah
tetangga terdekat yang diinisialisasikan dengan K. pencarian jarak terdekat
biasanya dihitung menggunakan jarak Euclidean. [12] Jarak euclidean memiliki
persamaan sebagai berikut:
√∑
n
d (x , y)= ¿¿¿
i=1
Keterangan:
d(x,y) : jarak euclidean
xi : data training ke-i
yi : data testing ke-i

13
Tahapan penggunaan algoritma K-nearest Neighbor adalah sebagai berikut:
1. Menentukan nilai K yang akan digunakan.
2. Menghitung jarak antara data uji dengan data latih.
3. Menggunakan hasil jarak dari jarak yang sudah terbentuk.
4. Pilih jarak yang terkecil sesuai dari banyaknya K yang sudah ditentukan.
5. Pasangkan kelas yang sesuai.
6. Kelas ditentukan dengan menghitung jumlah kelas mayoritas pada tetangga
terdekat.
II.6 Confusion Matrix
Confusion Matrix merupakan metode untuk pengevaluasian suatu model
klasifikasi. Confusion matrix berisis nilai dari kelas prediksi yang didapatkan dari
model yang dibandingkan dengan kelas yang asli dari dataset dengan kata lain
berisi informasi jumlah dari kelas aktual dan kelas prediksi pada klasifikasi. [13]
Tabel 1. Confusion Matrix
Terklasifikasi Positif Terklasifikasi Negatif
Kelas + -
Positif + True Positif False Negatif
Negatif - False Positif True Negatif
1. TP (True Positif) merupakan jumlah record positif yang diklasifikasikan

14
sebagai positif.
2. TN (True Negatif) merupakan jumlah record positif yang diklasifikasikan
sebagai negatif.
3. FP (False Positif) merupakan jumlah record negatif yang diklasifikasikan
sebagai positif.
4. FN (False Negatif) merupakan jumlah record negatif yang diklasifikasikan
sebagai negatif.
Berdasarkan nilai True Negatif (NT), True Positif (TP), False Negatif (FN)
dan False Positif (FP) bisa memperoleh nilai akurasi, presisi dan recall. Nilai
akurasi menggambarkan seberapa benar sistem dapat mengklasifikasi data secara
akurat. Nilai akurasi merupakan perbandingan antara data yang terklasifikasi
benar dengan semua data. Nilai akurasi bisa diperoleh dengan persamaan 1. Nilai
presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara
benar dibagi dengan total data yang diklasifikasi positif. Presisi dapat diperoleh
dengan persamaan 2. Nilai recall menunjukkan berapa persen data kategori positif
yang terklasifikasikan cocok oleh sistem. Nilai recall diperoleh dengan persamaan
3.
1. Akurasi
TP+TN
akurasi= × 100 %
TP+ TN + FP+ FN
2. Presisi
15
TP
presisi= ×100 %
FP+TP
3. Recall
TP
recall= × 100 %
FN +TP
II.7 Cross Validation
Cross validation merupakan sebuah metode yang digunakan untuk
mengevaluasi dan perbandingan terhadap pembelajaran dari algoritma (learning
algorithms) dengan cara membagi data menjadi dua bagian, satu bagian digunakan
untuk training dan bagian lainnya digunakan sebagai testing.

16
II.8 Penyakit Jantung
Penyakit jantung merupakan sebutan umum yang digunakan untuk
menggambarkan gangguan terhadap fungsi kinerja jantung. [6] Penyakit atau
gangguan jantung sendiri memiliki banyak jenisnya seperti:
1. Angina
Angina atau yang dikenal dengan angina pectoris adalah kerusakan otot
jantung kerana kurangnya pasokan oksigen.
2. Aritmia (Gangguan Irama Jantung)
Aritmia masalah yang dikaitkan dengan irama jantung. Aritmia ini terjadi
ketika impuls listrik jantung yang mengkoordinasikan detak jantung tidak
bekerja dengan baik, membuat detak jantung dengan cara yang tidak
seharusnya (terlalu cepat, lambat atau tidak teratur).
3. Penyakit jantung bawaan
Penyakit jantung bawaan ini dikaitkan pada bayi yang baru lahir namun
telah mengalami gangguan pada kinerja jantung. Beberapa contoh
penyakit jantung bawaan termasuk:
a. Septal cacat (adanya lubang antara dua bilik jantung). Kondisi ini
terkadang disebut dengan istilah jantung berlubang.
b. Cacat Obstruksi (terjadi ketika aliran darah melewati berbagai bilik
jantung).
c. Penyakit jantung sianotik (penyakit jantung bawaan dimana kurangnya
oksigen didalam darah untuk dialirkan keseluruh tubuh karena adanya
kerusakan di dalam hati.

17
4. Penyakit arteri koroner (Jantung Koroner)
Penyakit arteri koroner ini adalah kerusakan yang terjadi pada jantung
karena gangguan pada arteri koroner yang fungsinya untuk menyuplai
nutrisi, oksigen dan darah pada jantung.
5. Cardiomyopathy yang membesar
Jenis penyakit jantung yang satu ini merupakan gangguan pada bilik
jantung yang melebar sehingga menyebabkan otot jantung menjadi lemah
dan tidak dapat memompa darah dengan baik. Alasan yang paling umum
adalah kurangnya pasokan oksigen yang mencapai otot jantung (iskemia)
karena penyakit arteri koroner.
6. Infark miokard
Infark miokard ini juga dikenal dengan serangan jantung, infark jantung
dan trombosis koroner. Gangguan pada aliran darah (kekurangan oksigen)
sehingga merusak atau menghancurkan bagian dari otot jantung. Hal ini
biasanya disebabkan oleh gumpalan darah yang menggumpal di salah satu
arteri koroner (pembuluh darah).
7. Gagal jantung
Gagal jantung yang juga dikenal dengan istilah gagal jantung kongestif.
Gagal jantung ini ditandai dengan kurang efisiennya jantung dalam
memompa darah ke seluruh tubuh sehingga terkadang salah satu bagian
sisi tubuh akan terpengaruh dan bisa juga dapat mempengaruhi sisi kanan
dan kiri tubuh kita.

18
Faktor risiko Penyakit Jantung dapat dibagi menjadi dua golongan besar,
yaitu faktor risiko yang dapat dikurangi, diperbaiki atau dimodifikasi, dan faktor
risiko yang bersifat alami atau tidak dapat dicegah. Faktor risiko yang tak dapat
diubah adalah usia (lebih dari 40 tahun), jenis kelamin (pria lebih berisiko) serta
riwayat keluarga. Faktor risiko yang bisa dimodifikasi, antara lain dislipidemia,
diabetes melitus, stres, infeksi, kebiasaan merokok, pola makan yang tidak baik,
kurang gerak, Obesitas, serta gangguan pada darah (fibrinogen, faktor trombosis,
dan sebagainya). [7]
II.9 Rapidminer
Rapidminer adalah software yang bersifat terbukan (open source).
Rapidminer merupakan sebuah solusi buat melakukan analisis terhadap data
mining, text mining dan analisis prediksi. Rapidminer memakai aneka macam
teknik deskriptif dan prediksi dalam memberikan wawasan pada pengguna
sehingga dapat membuat keputusan yang paling baik. Rapidminer mempunyai
karakter sebagai berikut.
1. Ditulis dengan bahasa pemrograman java sehingga dapat dijalankan di
berbagai sistem operasi
2. Proses penemuan pengetahuan dimodelkan sebagai operator tres.
3. Representasi XML internal untuk memastikan format standar pertukaran
data
4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan

19
otomatisasi eksperimen.
5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan
menjamin penanganan data.
Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari
program lain.
Gambar 1. Tampilan Rapidminer

BAB III
METODE PENELITIAN
III.1 Tahapan Penelitian
Dalam pengerjaan tugas skripsi ini diperlukan tahapan kegiatan penelitian
untuk mendapatkan hasil yang maksimal. Berikut tahapan penelitian yang akan
dilakukan sebagai berikut:
Gambar 2. Tahapan Penelitian
III.2 Studi Literatur
Tujuan dilakukan studi literatur adalah untuk mendapatkan landasan-
landasan yang digunakan untuk penelitian ini, studi literatur ini bisa didapatkan
melalui buku dan jurnal yang berhubungan dengan penelitian penklasifikasian.
20
21
III.3 Pengumpulan Data
Data yang digunakan diperoleh dari website kaggle. Keseluruhan data ini
mempunyai 14 atribut yaitu, jenis kelamin, jenis nyeri dada, tekanan darah
istirahat, kolesterol serum, gula darah puasa, hasil elektrokardiografi istirahat,
detak jantung maksimum yang dicapai, angina yang diinduksi olahraga, oldpeak-
depresi ST yang disebabkan oleh olahraga relatif terhadap istirahat, kemiringan
segmen ST latihan puncak, jumlah pembuluh darah besar dan thalasemia data
yang digunakan pada bab ini hanya 20 data sampel untuk mewakili data yang
dihitung.
Tabel 2. Atribut Dataset Beserta Deskripsinya
No Atribut Deskripsi Satuan Tipe Data

1 Age Usia - Numerik
2 Gender Jenis kelamin 1= laki-laki, - Numerik
2=perempuan
3 Cp Jenis Nyeri dada 1= asymptomatic, - Numerik
2= atypical angina, 3= non-anginal
pain, 4= typical angina
4 Trestbps Tekanan darah istirahat mm Hg Numerik
5 Chol Kolesterol serum mg/dl Numerik
6 Fbs Gula darah puasa (>120 mg/dl, 1= mg/dl Numerik
benar 2= salah
7 Restecg Elektrokardiografi 1= menunjukkan - Numerik
kemungkinan hipertrofi 2= normal
3= memiliki kelainan ST-T
8 Thalach Detak jantung maksimal - Numerik
9 Exang Angina yang diinduksi olahraga 1= - Numerik
ya 2= tidak
10 Oldpeak Depresi yang disebabkan oleh - Numerik
olahraga relatif terhadap istirahat
11 Slope Kemiringan segmen ST latihan - Numerik
puncak 1= miring ke bawah 2=
datar 3= menanjak
12 Ca Jumlah pembuluh darah besar (1-5) - Numerik
22
13 Thal Kelainan darah 1= null 2= cacat - Numerik

tetap 3= aliran darah normal 4=
cacat reversibel
III.4 Klasifikasi
Proses klasifikasi yang digunakan pada penelitian ini menggunakan metode
Naïve Bayes dan K-Nearest Neighbor
III.5 Perhitungan Algoritma Gaussian Naïve Bayes
Berikut ini flowchart Algoritma Gaussian Naïve Bayes yang digunakan
untuk klasifikasi penyakit jantung:
Gambar 3. Flowchart Naive Bayes

23
III.5.1 Studi Kasus
Studi kasus adalah gambaran proses klasifikasi menggunakan Gaussian
naïve bayes. Berikut contoh studi kasus pada data latih dan data uji. Jumlah data
latih 20 dan data uji 2. Atribut yang digunakan berjumlah 14 dengan output class
1 dan 2. 1 adalah pasien yang tidak terdeteksi memiliki penyakit jantung dan 2
adalah pasien yang memiliki penyakit jantung.
Tabel 3. Data Latih Gaussian Naive Bayes

Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
No
Cp
Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1
Dari contoh data latih di atas dapat diketahui bahwa terdapat 20 data dengan
output target 1 dan 2. Jumlah data dengan output target 1 sebanyak 10 dan output
target 2 sebanyak 10.

24
Tabel 4. Data Uji Gaussian Naive Bayes
Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
65 1 1 110 248 2 1 158 2 0,6 3 3 2 2
76 2 3 140 197 2 3 116 2 1,1 2 1 3 1
Langkah-Langkah perhitungan Gaussion Naïve Bayes:
1. Nilai Probabilitas
Menghitung data prioritas masing-masing kelas menggunakan rumus di
bawah ini:
Nc
p ( c )=
n
Keterangan:
Nc : jumlah kelas data c pada seluruh data.
n : jumlah seluruh data.
Pada proses ini akan dihitung nilai probabilitas dengan cara seluruh data
akan di filter sesua dengan kelas, data dengan kelas yang sama selanjutnya
dibagi dengan seluruh data, hasil perhitungan dapat dilihat pada tabel 5.
Tabel 5. Probabilitas Kategori
Probabilitas Jumlah
1 10 0,5
2 10 0,5
Apabila terdapat data yang bersifat numerik, maka untuk nilai probabilitas
dilakukan perhitungan nilai mean dan standar deviasi terlebuh dahulu.

25
2. Mencari Nilai Mean
Proses ini dilakukan untuk mencari nilai rata-rata atau mean. Mencari nilai
mean dari setiap atribut untuk masing-masing kelas, sehingga setiap atribut
memiliki 2 nilai rata-rata atau mean. Seperti terlihat pada tabel 6.
Tabel 6. Hasil Pencarian Nilai Mean
Kategori 1= Tidak Age (Usia) Kategori 2= Ya Age (Usia)

1 58 2 70
1 71 2 61
1 34 2 62
1 34 2 58
1 51 2 55
1 50 2 46
1 58 2 54
1 53 2 43
1 43 2 51
1 57 2 60
Mean 50,9 Mean 56
3. Mencari Standar Deviasi
Proses ini dilakukan untuk mencari nilai standar deviasi pada setiap atribut
masing-masing kelas, sehingga setiap atribut memiliki 2 nilai standar deviasi
untuk mencari standar deviasi pertama mencari total jarak mean seperti pada
tabel 7.
Tabel 7. Tabel Jarak Mean Age Positive (1)
Age (1)
No Ag
Age-√Age (Age-√Age)2
e
1 58 7,1 50,41
2 71 20,1 404,01
3 34 -16,9 285,61
4 34 -16,9 285,61
5 51 0,1 0,01
6 50 -0,9 0,81
7 58 7,1 50,41
26
8 53 2,1 4,41
9 43 -7,9 62,41
10 57 6,1 37,21
Total Jarak Mean 1143,69
Tabel 8. Total Jarak Mean Age Negatif (2)
Age (2)
No Ag
Age-√Age (Age-√Age)2
e
1 70 14 196
2 61 5 25
3 62 6 36
4 58 2 4
5 55 -1 1
6 46 -10 100
7 54 -2 4
8 43 -13 169
9 51 -5 25
10 60 4 16
Total Jarak Mean 576
a. Perhitungan standar deviasi pada tabel age positive (1)
σ=
√ 1143,69
10−1
=11,27282869
b. Perhitungan standar deviasi pada tabel age negatif (2)
σ=
√ 576
10−1
=8
4. Mencari nilai Probabilistik
Proses ini mencari standar nilai probabilistik pada data uji setiap atribut.
Mencari nilai probabilistik dari setiap atribut pada data uji untuk masing-masing
kelasnya sehingga setiap 1 atribut memiliki 2 nilai probabilistik. Rumus yang
digunakan untuk mencari nilai probabilistik adalah sebagai berikut:

27
2
1 (w−μ)
f ( w )= e−
√ 2 πσ σ
2
a. Atribut age pada kategori positive (1) pada data uji ke-1
2
1 ( 65−50,9 )
f ( w )= e− =0,054359986
√ 2× 3,14 ×11,27282869 11,272828692
b. Atribut age pada kategori negative (2) pada data uji ke-1
2
1 ( 65−56 )
f ( w )= e− =0,074928702
√ 2× 3,14 ×8 8
2
Keseluruhan data latih dihitung menggunakan cara seperti diatas sehingga
memperoleh keseluruhan nilai probabilistik.
5. Mencari hasil klasifikasi
Pada proses ini menghitung klasifikasi dengan cara mengalikan hasil
probabilistik.
a. Data uji 1 pada kategori positive (1)
0,054359986 × 0,15598388 × 0,17994041 × 0,053864202 × 0,044653596 ×
0,578872318 × 0,274113754 × 0,074896298 × 0,676510582 × 0,52022815
× 0,474542041 × 1,77078E-07 × 0,000817571 = 6,11618E-17
b. Data uji 1 pada kategori negative (2)
0,074928702 × 0,54915214 × 0,477298925 × 0,019660402 × 0,050504918
× 0,54915214 × 0,330231353 × 0,040197103 × 0,350480037 × 0,15806419
× 0,158666235 × 0,300881077 × 0,050016707 = 9,96622E-10
Menghitung semua data berdasarkan nilai probabilistik lalu membandingkan
setiap kelasnya. Hasil yang terbesar dipilih sebagai hasil klasifikasi.

28
Tabel 9. Hasil Klasifikasi Algoritma Gaussian Naive Bayes
Klasifikasi
Trestbps
Oldpeak
Thalach
Restecg
Kriteria
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
70 1 1 145 174 2 2 125 1 2,6 1 1 4 2 2 TN
61 1 1 148 203 2 2 161 2 0 3 2 4 2 2 TN
62 2 1 138 294 1 2 106 2 1,9 2 4 3 2 2 TN
58 2 1 100 248 2 1 122 2 1 2 1 3 1 1 TP
58 1 1 114 318 2 3 140 2 4,4 1 4 2 2 2 TN
55 1 1 160 289 2 1 145 1 0,8 2 2 4 2 2 TN
46 1 1 120 249 2 1 144 2 0,8 3 1 4 2 2 TN
54 1 1 122 286 2 1 116 1 3,2 2 3 3 2 2 TN
71 2 1 112 149 2 2 125 2 1,6 2 1 3 1 1 TP
43 2 1 132 341 1 1 136 1 3 2 1 4 2 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 1 1 140 298 2 2 122 1 4,2 2 4 4 2 1 TP
43 2 3 122 213 2 2 165 2 0,2 2 1 3 1 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 2 3 140 308 2 1 142 2 1,5 3 2 3 1 1 TP
57 1 3 150 126 1 2 173 2 0,2 3 2 4 1 1 TP
50 2 2 120 244 2 2 162 2 1,1 3 1 3 1 1 TP
58 1 3 140 211 1 1 165 2 0 3 1 3 1 1 TP
60 1 3 140 185 2 1 155 2 3 2 1 3 2 2 TN
53 1 1 142 226 2 1 111 1 0 3 1 4 1 2 FN
Pada tabel 9 dapat dilihat hasil klasifikasi algoritma gaussian naïve bayes di
mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat
kriteria yang dihasilkan.
6. Confusion Matrix
Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung
berdasarkan 4 kriteria. TP dan TN digunakan saat klasifikasi menghasilkan
sesuatu yang benar, sedangkan FP dan FN digunakan ketika klasifikasi
menghasilkan kesalahan. Dengan menggunakan persamaan confusion
matrix selanjutnya dapat diukur tingkat akurasi, presisi dan recall.

29
Tabel 10. Confusion Matrix Naïve Bayes
Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 9
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 9+10 /
TN 10
9+10+0+1 × 100% = 95%
FP 0 Presisi = TP / FP+TP × 100% = 9 / 0+10 × 100% = 100%
FN 1 Recall = TP / FN+TP × 100% = 9 / 1+9 × 100% = 90%
Dari hasil pengujian menggunakan confusion matrix didapatkan hasil
akurasi sebesar 95%, presisi 100% dan recall 90%.
III.6 Perhitungan Algoritma K-Nearest Neighbor
Berikut ini flowchart Algoritma K-Nearest Neighbor yang digunakan unuk
klasifikasi penyakit jantung:
Gambar 4. Flowchart K-Nearest Neighbor

Sebelum menghitung algoritma K-Nearest Neighbor, maka perlu membagi
data menjadi data latih dan data uji. Data latih yang digunakan yaitu data yang
sudah melewati tahap preprocessing data. Berikut ini 20 data yang diambil untuk
sampel data latih yang digunakan untuk perhitungan manual pada tabel 11:
30
Tabel 11. Data Latih K-Nearest Neighbor
Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
No
Cp
Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1
Data latih yang digunakan sebanyak 20 data dengan 2 jenis kelas yang mana 1 dan
2, 1 teridentifikasi pasien tidak mengalami penyakit jantung dan 2 teridentifikasi
pasien memiliki penyakit jantung.
Tabel 12. Data Uji K-Nearest Naighbor

Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
65 1 1 110 248 2 1 158 2 0,6 3 3 2 2

76 2 3 140 197 2 3 116 2 1,1 2 1 3 1
Langkah-langkah perhitungan KNN, untuk lebih jelas dapat dilihat di bawah ini:
31
1. Menghitung menggunakan perhitungan euclidean distance untuk
menentukan jarak antar data latih dan data uji yang terdapat pada tahapan
transformasi untuk lebih jelasnya dapat dilihat sebagai berikut:
a. Perhitungan jarak euclidean data latih 1 dan data uji 1
√
( 70-65 )2 + ( 1-1 )2 + ( 1-1 )2 + ( 145-110 )2 + ( 174-248 )2 + ( 2-2 )2 +
d (1,1 ) ( 2-1 )2 + ( 125-158 )2 + ( 1-2 )2 + ( 2,6-0,6 )2 + ( 1-3 )2 + (1-3 )2 +
2
( 4- 2 ) = 88,50423719
b. Perhitungan jarak euclidean data latih 1 dan data uji 2
√
( 70-76 )2 + ( 1-2 )2 + (1-1 )2 + ( 145-140 )2 + ( 174-197 )2 + ( 2- 2 )2 +
d (1,1 ) ( 2-3 )2 + ( 125-116 )2 + ( 1-2 )2 + ( 2,6-1,1 )2 + (1-2 )2 + ( 1-1 )2 +
2
( 4-3 ) = 26,11991577
Proses perhitungan jarak euclidean dengan cara nilai atribut pada data latih
dikurang dengan nilai atribut pada data uji lalu dipangkatkan dua, tahap ini
dilakukan sampai semua nilai atribut pada data latih habis di hitung. Proses
perhitungan ini dapat dilihat diatas.
Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji
No Data 1 Output 2 Kategori Data 2 Output 1 Kategori

1 88,50424 1 26,11992 1
2 59,16384 1 48,58199 1
3 74,97126 2 98,61359 2
4 38,10722 2 67,59445 2
5 72,88649 2 127,4515 2
6 66,76107 2 100,7874 2
7 25,80775 2 69,27546 2
8 59,01491 2 93,52759 2
9 104,5897 1 56,56191 1
10 100,592 2 149,3439 2
11 60,27446 2 90,53265 2
12 70,09251 2 104,3485 2
13 43,75111 2 63,81074 2
32
14 60,27446 2 90,53265 2
15 70,42592 2 116,7397 2
16 129,5537 1 93,58317 1
17 19,11151 2 73,5119 2
18 48,75818 2 54,12218 2
19 70,13387 1 43,92733 1
20 62,21222 1 37,57938 1
Pada tabel 13 hasil jarak euclidean antara data latih dan data uji selanjutnya akan
dilakukan pengelompokan kategori sesuai dengan perhitungan euclidean, yang
mana apabila data 1 dengan output 2 lebih kecil dari pada data 2 dengan output 1
maka nilai kategorinya ialah data 1 dengan output 2. Hasil jarak euclidean dapat
dilihat pada tabel 13.
2. Dalam penentuan nilai K yang digunakan tidak memiliki acuan tertentu,
tetapi pada penelitian ini menggunakan 3 sebagai contoh nilai K yang
menjadikannya sebagai acuan untuk menentukan kelas pada klasifikasi nilai
terkecil serta mayoritas kategori pada setiap data. Nilai dapat dilihat pada
tabel:
Tabel 14. Mayoritas Data
No Data Uji 1 Data Uji 2

1 1
2
3
4 2
5
6
7 2
8
9
10
11
12
13
14
33
15
16
17 2
18
19 1
20 1
Setelah menentukan kelas pada hasil klasifikasi nilai terkecil serta mayoritas
kategori pada setiap data. Berikut hasil klasifikasi dari K3
Tabel 15. Hasil Klasifikasi Dari K-Nearest Neighbor
Klasifika
Trestbps
Oldpeak
Thalach
Restecg
Kriteria
Target
Exang
Slope
Chol
Thal
Age
Sex
Fbs
No
Cp
Ca
si
17 2,
1 70 1 1 145 2 2 125 1 1 1 4 2 TN
4 6 1
20
2 61 1 1 148 2 2 161 2 0 3 2 4 2 TN
3 1
29 1,
3 62 2 1 138 1 2 106 2 2 4 3 2 FN
4 9 2
24
4 58 2 1 100 2 1 122 2 1 2 1 3 1 TP
8 2
31 4,
5 58 1 1 114 2 3 140 2 1 4 2 2 FN
8 4 2
28 0,
6 55 1 1 160 2 1 145 1 2 2 4 2 FN
9 8 2
24 0,
7 46 1 1 120 2 1 144 2 3 1 4 2 FN
9 8 2
28 3,
8 54 1 1 122 2 1 116 1 2 3 3 2 FN
6 2 2
14 1,
9 71 2 1 112 2 2 125 2 2 1 3 1 FP
9 6 1
34
10 43 2 1 132 1 1 136 1 3 2 1 4 2 FN
1 2
21 0,
11 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
29 4,
12 51 1 1 140 2 2 122 1 2 4 4 2 FN
8 2 2
21 0,
13 43 2 3 122 2 2 165 2 2 1 3 1 TP
3 2 2
21 0,
14 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
15 51 2 3 140 30 2 1 142 2 1, 3 2 3 1 2 TP
34
8 5
12 0,
16 57 1 3 150 1 2 173 2 3 2 4 1 FP
6 2 1
24 1,
17 50 2 2 120 2 2 162 2 3 1 3 1 TP
4 1 2
21
18 58 1 3 140 1 1 165 2 0 3 1 3 1 TP
1 2
18
19 60 1 3 140 2 1 155 2 3 2 1 3 2 TN
5 1
22
20 53 1 1 142 2 1 111 1 0 3 1 4 1 FP
6 1
Pada tabel 15 dapat dilihat hasil klasifikasi algoritma k-Nearest Neighbor di
mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat kriteria
yang dihasilkan.
Tabel 16. Confusion Matrix K-Nearest Neighbor
Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 7
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 3+7 /
TN 3
3+7+3+7 × 100% = 50%
FP 3 Presisi = TP / FP+TP × 100% = 3 / 3+3 × 100% = 50%
FN 7 Recall = TP / FN+TP × 100% = 3 / 7+3 × 100% = 30%
Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung
berdasarkan 4 kriteria. TP dan TN digunakan saat klasifikasi menghasilkan
sesuatu yang benar, sedangkan FP dan FN digunakan ketika klasifikasi
menghasilkan kesalahan. Dengan menggunakan persamaan confusion matrix
selanjutnya dapat diukur tingkat akurasi, presisi dan recall
Dari hasil pengujian menggunakan confusion matrix didapatkan hasil
akurasi sebesar 50%, presisi 50% dan recall 30%.
3. Penghitungan Manual
Penghitungan manual ini dilakukan untuk melihat gambaran dari Algoritma

35
K-Nearest Neighbor dan Algoritma Gaussian Naïve Bayes dalam
melakukan perhitungan Klasifikasi data.

DAFTAR PUSTAKA
[1] I. Oktanisa Dan A. A. Supianto, “Perbandingan Teknik Klasifikasi Dalam
Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan
Ilmu Komputer, Vol. 5, No. 5, Art. No. 5, Okt 2018, Doi:
10.25126/Jtiik.201855958.
[1] I. Oktanisa Dan A. A. Supianto, “Perbandingan Teknik Klasifikasi Dalam
Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan
Ilmu Komputer, Vol. 5, No. 5, Art. No. 5, Okt 2018, Doi:
10.25126/Jtiik.201855958.
[2] F. A. Nugroho, “Perancangan Sistem Pakar Diagnosa Penyakit Jantung
Dengan Metode Forward Chaining”, Diakses: 13 Juli 2022. [Daring]. Tersedia
Pada: Https://Core.Ac.Uk/Reader/337610180
[3] T. Praningki Dan I. Budi, “Sistem Prediksi Penyakit Kanker Serviks
Menggunakan Cart, Naive Bayes, Dan K-Nn,” Creative Information
Technology Journal, Vol. 4, No. 2, Art. No. 2, Jan 2018, Doi:
10.24076/Citec.2017v4i2.100.
[4] A. Samosir, M. S. Hasibuan, W. E. Justino, Dan T. Hariyono, “Komparasi
Algoritma Random Forest, Naïve Bayes Dan K- Nearest Neighbor Dalam
Klasifikasi Data Penyakit Jantung,” Prosiding Seminar Nasional Darmajaya,
Vol. 1, No. 0, Art. No. 0, Sep 2021.
[5] Q. Hasanah, “Analisis Algoritma Gaussian Naive Bayes Terhadap Klasifikasi
Data Pasien Penderita Gagal Jantung,” Doctoral, Universitas Muhammadiyah
Jember, 2021. Diakses: 17 Juli 2022. [Daring]. Tersedia Pada:
36
37
Http://Repository.Unmuhjember.Ac.Id/12197/
[6] D. P. Utomo Dan M. Mesran, “Analisis Komparasi Metode Klasifikasi Data
Mining Dan Reduksi Atribut Pada Data Set Penyakit Jantung,” Jurnal Media
Informatika Budidarma, Vol. 4, No. 2, Art. No. 2, Apr 2020, Doi:
10.30865/Mib.V4i2.2080.
[7] I. Iskandar, A. Hadi, Dan A. Alfridsyah, “Faktor Risiko Terjadinya Penyakit
Jantung Koroner Pada Pasien Rumah Sakit Umum Meuraxa Banda Aceh,”
Action: Aceh Nutrition Journal, Vol. 2, No. 1, Art. No. 1, Mei 2017, Doi:
10.30867/Action.V2i1.34.
[8] N. L. W. S. R. Ginantra Dkk., Data Mining Dan Penerapan Algoritma.
Yayasan Kita Menulis, 2021.
[9] A. P. Wibawa, “Metode-Metode Klasifikasi,” Prosiding Sakti (Seminar Ilmu
Komputer Dan Teknologi Informasi), Vol. 3, No. 1, Art. No. 1, Apr 2018.
[10] R. Y. Dillak, D. M. Pangestuty, Dan M. G. Bintiri, “Klasifikasi Jenis
Musik Berdasarkan File Audio Menggunakan Jaringan Syaraf Tiruan
Learning Vector Quantization,” Seminar Nasional Informatika (Semnasif),
Vol. 1, No. 3, Art. No. 3, Jul 2015, Diakses: 13 Juli 2022. [Daring]. Tersedia
Pada: Http://103.23.20.161/Index.Php/Semnasif/Article/View/1064
[11] B. Bustami, “Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi
Data Nasabah Asuransi,” Techsi - Jurnal Teknik Informatika, Vol. 5, No. 2,
Art. No. 2, Okt 2013, Diakses: 13 Juli 2022. [Daring]. Tersedia Pada:
Https://Ojs.Unimal.Ac.Id/Techsi/Article/View/154
[12] D. Yanosma, A. Johar, Dan K. Anggriani, “Implementasi Metode K-

38
Nearest Neighbor (Knn) Dan Simple Addittive Weighting (Saw) Dalam
Pengambilan Keputusan Seleksi Anggota Paskibraka,” Rekursif: Jurnal
Informatika, Vol. 4, No. 2, Art. No. 2, Jun 2016, Doi:
10.33369/Rekursif.V4i2.894.
[13] A. Sigit, “Penerapan Algoritma Decision Tree C4.5 Untuk Diagnosa
Penyakit Stroke Dengan Klasifikasi Data Mining Pada Rumah Sakit Santa
Maria Pemalang,” Skripsi,Fakultas Ilmu Komputer, 2015, Diakses: 13 Juli
2022. [Daring]. Tersedia Pada: Http://Eprints.Dinus.Ac.Id/16477/

39
LAMPIRAN

Penerapan Algoritma KNN Pada Klasifikasi Penyakit Jantung

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Penerapan Algoritma KNN Pada Klasifikasi Penyakit Jantung

Diunggah oleh

Hak Cipta:

Format Tersedia

PERBANDINGAN ALGORITMA NAIVE BAYES DAN K-NEAREST

NEIGHBOR DALAM KLASIFIKASI DATA DIAGNOSA PENYAKIT

Diajukan Untuk Memenuhi Salah Satu Syarat Mencapai Derajat Sarjana S1

REZA MAULANA PUTRA

aktivitas, sehingga penulis dapat menyelesaikan Penelitian Skripsi yang berjudul

“Perbandingan Algoritma Naive Bayes Dan K-Nearest Neighbor Dalam

Klasifikasi Data Diagnosa Penyakit Jantung” penulisan ini bertujuan untuk

Sistem Informasi fakultas Teknik Universitas Abulyatama.

Maka pada kesempatan ini penulis juga ingin mengucapkan terimakasih

Untuk itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada:

1. Bapak R. Agung Efriyo, M.sc, Ph.D Selaku Rektor Universitas Abulyatama.

2. Bapak Muhtadin, ST., M.T Selaku Dekan Fakultas Teknik.

Informasi dan Selaku Pembimbing Skripsi 1.

4. Bapak Banta Cut M.T, S.Kom Selaku Dosen Pembimbing Skripsi 2.

5. Ayahhanda Suhaimi dan Ibunda Nafsiah yang telah memberikan kasih

maupun tidak langsung membantu dalam penulisan proposal skripsi ini.

Dalam penulisan ini, penulis telah berusaha semaksimal mungkin untuk

kesempurnaan, namun penulis menyadari bahwa di dalamnya terdapat

yang kesemuanya itu disebabkan karena keterbatasan kemampuan dari penulis.

bermanfaat bagi pembaca maupun pihak yang berkepentingan dalam proposal

Aceh Besar, Juni 2022

Reza Maulana Putra

1.1 Latar Belakang...............................................................................................1

1.2 Penelitian Terdahulu......................................................................................2

1.3 Rumusan Masalah..........................................................................................4

1.4 Tujuan Penelitian...........................................................................................4

1.5 Manfaat Penelitian.........................................................................................4

1.6 Batasan Masalah............................................................................................4

1.7 Sistematika Penuisan......................................................................................5

BAB II TINJAUAN PUSTAKA............................................................................6

2.1 Data Mining...................................................................................................6

2.1.1 Pengertian Data Mining..........................................................................6

2.1.2 Metode Data Mining...............................................................................6

2.3 Naïve Bayes...................................................................................................8

2.4.2 Standar Deviasi.....................................................................................10

2.5 Algoritma K-nearest neighbor (K-NN)........................................................11

2.6 Confusion Matrix.........................................................................................12

2.7 Cross Validation...........................................................................................13

2.8 Penyakit Jantung..........................................................................................14

BAB III METODE PENELITIAN.....................................................................18

3.1 Tahapan Penelitian.......................................................................................18

3.2 Studi Literatur..............................................................................................18

3.3 Pengumpulan Data.......................................................................................19

3.5 Perhitungan Algoritma Gaussian Naïve Bayes............................................20

3.5.1 Studi Kasus...........................................................................................21

3.6 Perhitungan Algoritma K-Nearest Neighbor...............................................27

Gambar 1. Tampilan Rapidminer.........................................................................17

Gambar 2. Tahapan Penelitian.............................................................................18

Gambar 3. Flowchart Naive Bayes.......................................................................20

Gambar 4. Flowchart K-Nearest Neighbor..........................................................27

Tabel 1. Confusion Matrix....................................................................................12

Tabel 2. Atribut Dataset Beserta Deskripsinya.....................................................19

Tabel 3. Data Latih Gaussian Naive Bayes...........................................................21

Tabel 4. Data Uji Gaussian Naive Bayes..............................................................22

Tabel 5. Probabilitas Kategori...............................................................................22

Tabel 6. Hasil Pencarian Nilai Mean.....................................................................23

Tabel 7. Tabel Jarak Mean Age Positive (1).........................................................23

Tabel 8. Total Jarak Mean Age Negatif (2)...........................................................24

Tabel 9. Hasil Klasifikasi Algoritma Gaussian Naive Bayes................................26

Tabel 10. Confusion Matrix Naïve Bayes.............................................................27

Tabel 11. Data Latih K-Nearest Neighbor............................................................28

Tabel 12. Data Uji K-Nearest Naighbor................................................................28

Tabel 14. Mayoritas Data......................................................................................30