Anda di halaman 1dari 47

PERBANDINGAN ALGORITMA NAIVE BAYES DAN K-NEAREST

NEIGHBOR DALAM KLASIFIKASI DATA DIAGNOSA PENYAKIT


JANTUNG

PROPOSAL SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Mencapai Derajat Sarjana S1


Program Studi Sistem Informasi

Oleh :

REZA MAULANA PUTRA


18110006

FAKULTAS TEKNIK
PROGRAM STUDI SISTEM INFORMASI
UNIVERSITAS ABULYATAMA ACEH BESAR
2022
KATA PENGANTAR

Bismillahirrahmaanirrahim...

Segala Puji dan Syukur kami ucapkan kepada Allah SWT yang Maha Kuasa

atas segala limpahan berkat dan karunia – Nya yang selalu menyertai dalam setiap

aktivitas, sehingga penulis dapat menyelesaikan Penelitian Skripsi yang berjudul

“Perbandingan Algoritma Naive Bayes Dan K-Nearest Neighbor Dalam

Klasifikasi Data Diagnosa Penyakit Jantung” penulisan ini bertujuan untuk

melengkapi salah satu syarat penyusunan proposal skripsi pada program studi

Sistem Informasi fakultas Teknik Universitas Abulyatama.

Maka pada kesempatan ini penulis juga ingin mengucapkan terimakasih

kepada semua pihak yang telah membantu sehingga dapat menyelesaikan proposal

skripsi ini. Penulis menyadari bahwa bahwa penyusunan proposal skripsi ini tidak

terlepas dari bantuan dan dorongan yang bersifat moril dari berbagai pihak.

Untuk itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada:

1. Bapak R. Agung Efriyo, M.sc, Ph.D Selaku Rektor Universitas Abulyatama.

2. Bapak Muhtadin, ST., M.T Selaku Dekan Fakultas Teknik.

3. Ibu Juniana Husna, S.Si., M.Sc Selaku Ketua Program Studi Sistem

Informasi dan Selaku Pembimbing Skripsi 1.

4. Bapak Banta Cut M.T, S.Kom Selaku Dosen Pembimbing Skripsi 2.

5. Ayahhanda Suhaimi dan Ibunda Nafsiah yang telah memberikan kasih

sayang, cinta dan perhatianya, serta motivasi dan dorongan yang tiada henti

i
agar penulis dapat menuntut ilmu dan menyelesaikan pendidikan sebaik-

sebaiknya.

6. Semua pihak yang tidak dapat saya sebutkan satu persatu, baik langsung

maupun tidak langsung membantu dalam penulisan proposal skripsi ini.

Dalam penulisan ini, penulis telah berusaha semaksimal mungkin untuk

kesempurnaan, namun penulis menyadari bahwa di dalamnya terdapat

kejanggalan dan kekurangan, baik dari segi susunan bahasa maupun penyajian

yang kesemuanya itu disebabkan karena keterbatasan kemampuan dari penulis.

Terakhir penulis berharap agar hasil penulisan proposal skripsi ini dapat

bermanfaat bagi pembaca maupun pihak yang berkepentingan dalam proposal

skripsi ini.

Aceh Besar, Juni 2022

Reza Maulana Putra

ii
iii
DAFTAR ISI

KATA PENGANTAR.............................................................................................i

DAFTAR ISI.........................................................................................................iii

DAFTAR GAMBAR..............................................................................................v

DAFTAR TABEL.................................................................................................vi

BAB I PENDAHULUAN.......................................................................................1

1.1 Latar Belakang...............................................................................................1

1.2 Penelitian Terdahulu......................................................................................2

1.3 Rumusan Masalah..........................................................................................4

1.4 Tujuan Penelitian...........................................................................................4

1.5 Manfaat Penelitian.........................................................................................4

1.6 Batasan Masalah............................................................................................4

1.7 Sistematika Penuisan......................................................................................5

BAB II TINJAUAN PUSTAKA............................................................................6

2.1 Data Mining...................................................................................................6

2.1.1 Pengertian Data Mining..........................................................................6

2.1.2 Metode Data Mining...............................................................................6

2.2 Klasifikasi......................................................................................................8

2.3 Naïve Bayes...................................................................................................8

iv
2.4 Gaussian Naïve bayes....................................................................................9

2.4.1 Mean......................................................................................................10

2.4.2 Standar Deviasi.....................................................................................10

2.5 Algoritma K-nearest neighbor (K-NN)........................................................11

2.6 Confusion Matrix.........................................................................................12

2.7 Cross Validation...........................................................................................13

2.8 Penyakit Jantung..........................................................................................14

2.9 Rapidminer...................................................................................................16

BAB III METODE PENELITIAN.....................................................................18

3.1 Tahapan Penelitian.......................................................................................18

3.2 Studi Literatur..............................................................................................18

3.3 Pengumpulan Data.......................................................................................19

3.4 Klasifikasi....................................................................................................20

3.5 Perhitungan Algoritma Gaussian Naïve Bayes............................................20

3.5.1 Studi Kasus...........................................................................................21

3.6 Perhitungan Algoritma K-Nearest Neighbor...............................................27

DAFTAR PUSTAKA...........................................................................................33

LAMPIRAN..........................................................................................................36

v
DAFTAR GAMBAR

Gambar 1. Tampilan Rapidminer.........................................................................17

Gambar 2. Tahapan Penelitian.............................................................................18

Gambar 3. Flowchart Naive Bayes.......................................................................20

Gambar 4. Flowchart K-Nearest Neighbor..........................................................27

vi
DAFTAR TABEL

Tabel 1. Confusion Matrix....................................................................................12

Tabel 2. Atribut Dataset Beserta Deskripsinya.....................................................19

Tabel 3. Data Latih Gaussian Naive Bayes...........................................................21

Tabel 4. Data Uji Gaussian Naive Bayes..............................................................22

Tabel 5. Probabilitas Kategori...............................................................................22

Tabel 6. Hasil Pencarian Nilai Mean.....................................................................23

Tabel 7. Tabel Jarak Mean Age Positive (1).........................................................23

Tabel 8. Total Jarak Mean Age Negatif (2)...........................................................24

Tabel 9. Hasil Klasifikasi Algoritma Gaussian Naive Bayes................................26

Tabel 10. Confusion Matrix Naïve Bayes.............................................................27

Tabel 11. Data Latih K-Nearest Neighbor............................................................28

Tabel 12. Data Uji K-Nearest Naighbor................................................................28

Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji.........................29

Tabel 14. Mayoritas Data......................................................................................30

Tabel 15. Hasil Klasifikasi Dari K-Nearest Neighbor..........................................31

Tabel 16. Confusion Matrix K-Nearest Neighbor.................................................32

vii
BAB I
PENDAHULUAN

I.1 Latar Belakang

Data mining merupakan suatu proses pengumpulan informasi penting dari

sebuah data yang jumlahnya cukup besar yang bertujuan menemukan nilai tambah

berupa pengetahuan yang sejauh ini belum dapat ditemukan secara manual dari

suatu kumpulan data. Ada beberapa teknik dalam data mining salah satu teknik

yang dapat diterapkan untuk data penyakit jantung ialah teknik klasifikasi.

Penyakit jantung perlu dilakukan klasifikasi agar dapat melakukan diagnosis

dengan akurat. Hasil diagnosis yang akurat bisa digunakan untuk membantu para

tenaga medis dalam mengambil keputusan dengan tepat.

Klasifikasi merupakan teknik dalam data mining untuk mengelompokkan

data berdasarkan keterikatan data terhadap data sampel. [1] Klasifikasi dalam data

mining dapat dilakukan dengan beberapa metode, dimana diantaranya yang umum

dilakukan yaitu Random Forest, Naive Bayes, Support Vector Machine, k-NN,

Hierarchical Clustering, K-Means Clustering, Decision Trees dan Random Forest.

Pada penelitian ini, penulis menggunakan beberapa metode klasifikasi yang

kemudian akan dilakukan perbandingan terhadap nilai performa (accuracy,

precision dan recall) yang dihasilkan masing-masing algoritma.

Jantung merupakan organ tubuh manusia yang mempunyai peranan penting

dalam kehidupan manusia dan pastinya sangat berbahaya jika jantung kita

mempunyai masalah mengingat bahwa banyak kematian disebabkan oleh penyakit

jantung. [2] Data WHO tahun 2015 menunjukkan bahwa 70% kematian di dunia

1
2

disebabkan oleh Penyakit Tidak Menular (39,5 juta dari 56,4 kematian). Dari

seluruh kematian akibat Penyakit Tidak Menular (PTM) tersebut, 45% nya

disebabkan oleh Penyakit jantung dan pembuluh darah, yaitu 17.7 juta dari 39,5

juta kematian.

Penanganan yang cepat dapat mengurangi resiko terkena serangan jantung

yang berkemungkinan menjadi penyakit jantung koroner. Maka perlu dilakukan

diagnosis secara dini kepada setiap orang yang beresiko memiliki penyakit

jantung atau tidak. Salah satu cara melakukan diagnosis penyakit jantung yaitu

dengan menggunakan data mining.

I.2 Penelitian Terdahulu

Pada penelitian yang dilakukan oleh Tutus Praningki [3] dengan judul

“Sistem Prediksi Penyakit Kanker Servicks Mengunakan CART, Naïve Bayes, dan

k-NN” Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive

Bayes, dan k-NN, menggunakan formula Confusion Matrix, dengan

menggunakan teknik pemecahan dataset Holdout. Hasil pengujian terhadap

algoritma yang digunakan, menunjukkan algoritma Naive Bayes memiliki akurasi

terbaik sebesar 94,44%, sedangkan tingkat akurasi yang dihasilkan algoritma

CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh

masing-masing algoritma yang digunakan, memungkinkan penggunaan sistem

prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien

baru.

Pada penelitian yang dilakukan oleh Amri Samosir [4] dengan judul

“Komparasi Algoritma Random Forest, Naïve Bayes dan K-Nearest Neighbor


3

Dalam klasifikasi Data Penyakit Jantung” Berdasarkan hasil perbandingan

terhadap 304 dataset penyakit jantung, algoritma Naïve Bayes lebih baik dan

optimal dibanding dengan Algoritma, K-Nearest Neighbor dan Random Forest

untuk mengklasifikasikan penyakit jantung. Hasil klasifikasi dengan algoritma

Naïve Bayes memiliki rerata hasil akurasi sebesar 0,91 AUC, 0,84 CA, 0,84 F1,

0,839 Precision dan 0,84 Recall.

Pada penelitian yang dilakukan oleh Hasanah [5] dengan judul “Analisis

Algoritma Gaussian Naive Bayes Terhadap Klasifikasi Data Pasien Penderita

Gagal Jantung” dari implementasi yang dilakukan menggunakan algoritma

Gaussian Naïve Bayes terhadap data pasien penderita gagal jantung diperoleh

hasil validasi terbaik dengan nilai akurasi tertinggi didapatkan pada Kfold 4 yaitu

59,4%, presisi tertinggi didapatkan pada Kfold 4 yaitu 55,89%, sedangkan recall

tertinggi didapatkan pada Kfold 2 yaitu 86,52%.

Melihat penelitian-penelitian yang telah dilakukan sebelumnya, dan

mempertimbangkan kelebihan dan kekurangan masing-masing metode, maka

penulis memutuskan untuk melakukan perbandingan antara metode klasifikasi

Naive Bayes, dan k-NN (K-Nearest Neighbor). Hal inilah yang menjadi keunikan

dari penelitian ini, kedua metode tersebut akan diimplementasikan kedalam

dataset sebanyak 1025 record data dengan 14 atribut. Kumpulan data ini berasal

dari tahun 1988, terdiri dari empat database dari empat negara yaitu Cleveland,

Hungaria, Swiss dan Long Beach V. Ini berisi 79 atribut, termasuk atribut yang

diprediksi, tetapi semua eksperimen yang dipublikasi mengacu pada penggunaan

subset dari 14 atribut tersebut. Penelitian ini dilakukan untuk menemukan


4

algoritma terbaik yang dapat digunakan untuk melakukan klasifikasi.

I.3 Rumusan Masalah

Dari latar belakang diatas, maka rumusan masalah yang didapat yaitu berapa

hasil perbandingan (accuracy, precision, dan recall) pada klasifikasi dataset

penyakit jantung dengan menggunakan dua algoritma, Naive Bayes dan k-NN (K-

Nearest Neighbor)?

I.4 Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah untuk mengetahui nilai

perbandingan (accuracy, precision, dan recall) pada klasifikasi dataset penyakit

jantung dengan menggunakan dua algoritma, Algoritma Naive Bayes dan k-

Nearest Neighbor.

I.5 Manfaat Penelitian

Manfaat dari penelitian ini yaitu:

1. Algoritma mana yang terbaik dalam melakukan klasifikasi data.

2. Bisa digunakan untuk melakukan diagnosis awal dalam mendeteksi

penyakit jantung.

3. Bisa dijadikan referensi pada penelitian selanjutnya.

I.6 Batasan Masalah

Untuk lebih memfokuskan pada pengerjaan dalam melakukan penelitian ini

maka penulis menetapkan batasan masalah yaitu:

1. Data yang digunakan pada penelitian ini yaitu data penyakit jantung yang

disediakan oleh Kaggle.com. sebanyak 1025 record data pasien yang


5

diperiksa dan sebanyak 499 pasien terdeteksi sehat dan 526 pasien

terdeteksi memiliki penyakit jantung.


6

2. Pada penelitian ini menggunakan 14 atribut yaitu usia, jenis kelamin, jenis

nyeri dada, tekanan darah istirahat, kolesterol serum, gula darah puasa, hasil

elektrokardiografi istirahat, detak jantung maksimum yang dicapai, angina

yang diinduksi olahraga, oldpeak - depresi ST yang disebabkan oleh

olahraga relatif terhadap istirahat, kemiringan segmen ST latihan puncak,

jumlah pembuluh darah besar dan thalassemia.

3. Menggunakan Algoritma Naive Bayes dan k-NN (K-Nearest Neighbor).

4. Tools pada penelitian ini menggunakan aplikasi Rapidminer

I.7 Sistematika Penuisan

Dalam membuat sistematika pada penulisan ini menyajikan dalam tiga bab,

yang terdiri dari:

BAB I PENDAHULUAN

Merupakan bab pertama yang mengawali penulisan laporan ini. Bab

pertama membuat latar belakan masalah, rumusan masalah, tinjauan

penelitian, manfaat penelitian, batasan masalah dan sistematika penulisan.

BAB II TINJAUAN PUSTAKA

Bab ini menjelaskan tentang konsep dasar Penyakit jantung, Data Mining,

Klasifikasi, Naïve Bayes, Gaussian Naïve Bayes, Mean, Standar Deviasi

dan Algoritma K-Nearest Neighbor.

BAB III METODE PENELITIAN

Bab ini menjelaskan tentang tahap penelitian, studi literatur, pengumpulan

data, perhitungan algoritma gaussian naïve bayes dan perhitungan k-nearest


7

neighbor.

BAB II
TINJAUAN PUSTAKA

II.1 Data Mining

II.1.1 Pengertian Data Mining

Data mining adalah sebuah proses pencarian secara otomatis informasi yang

berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining

digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk

menemukan pola yang baru dan berguna. [8] Data mining hadir dianggap sebagai

bagian dari Knowledge Discovery in Database (KDD) yaitu sebuah proses

mencari pengetahuan yang bermanfaat dari kata. KDD terdiri dari beberapa

langkah yaitu:

a. Pembersihan data (membuang noise dan data yang tidak konsisten).

b. Integrasi data (penggabungan data dari beberapa sumber).

c. Seleksi data (memilih data yang relevan yang akan digunakan untuk

analisa).

d. Data mining.

e. Evaluasi model.

f. Presentasi pengetahuan dengan Teknik visualisasi.


8

II.1.2 Metode Data Mining

Metode data mining iyalah cara yang diterapkan namun perlu disesuaikan

dengan tujuan penggunanya. Metode data mining adalah sebagai berikut:

a. Classification (Klasifikasi)

Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan

karakteristik dalam suatu kelompok atau kelas (class). Klasifikasi data

mining menjadi salah satu metode yang paling umum untuk digunakan.

Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek

yang labelnya belum diketahui.

b. Association

Market basket analysis (Analisa keranjang pasar) atau association.

Berhubungan dengan pemasaran, metode ini bertujuan untuk

mengidentifikasi produk yang sering dibeli bersamaan oleh pelanggan.

c. Clustering

Clusstering data mining adalah nama lain untuk metode segmentation.

Tujuan dari segmentasi pada metode data mining adalah mengelompokkan

suatu class ke dalam beberapa segmen berdasarkan atribut yang ditentukan.

Penentuan atribut harus sesuai kesamaan yang dimiliki beberapa class tadi.

d. Regression

Metode keempat dari data mining adalah regression. Metode yang satu ini

sedikit mirip dengan klasifikasi data mining. Bedanya, regresi merupakan

metode yang bertujuan untuk mencapai pola nilai numerik, bukan kelas.

Hasil dari metode regression adalah sebuah fungsi sebagai penentuan hasil
9

yang didasarkan nilai dari nilai input.

e. Forecasting

Forecasting data mining adalah metode yang digunakan untuk memprediksi

nilai yang akan dicapai pada suatu periode. Dengan menggunakan Teknik

ini, noise data dan nilai pada periode sebelumnya dijadikan dasar bahan

prediksi.

f. Sequencing

Sequence adalah sebuah urutan peristiwa. Tidak jauh dari Namanya, metode

sequence analysis berfungsi untuk mencari sebuah pola pada serangkaian

kejadian atau sequence.

g. Descriptive

Metode data mining yang satu ini bertujuan untuk memahami lebih dalam

mengenai data-data yang masuk dalam pengamatan. Hasil akhitnya adalah

mengetahui perilaku dari data itu sendiri

II.2 Klasifikasi

Klasifikasi merupakan salah satu tugas yang penting pada data mining.

Sebuah pengklasifikasian dibuat dari sekumpulan data latih dengan kelas yang

telah ditentukan. [9] Klasifikasi merupakan pengelompokan fitur ke dalam kelas

yang sesuai. Vektor fitur pelatihan tersedia dan telah diketahui kelas-kelasnya,

kemudian vektor fitur pelatihan tersebut dimanfaatkan untuk merancang pemilah.

Pengenalan pola ini disebut terbimbing, supervised. [10]


10

II.3 Naïve Bayes

Naïve Bayes termasuk dalam pengklasifikasian dengan metode probabilitas

dan statistik yang ditemukan oleh ilmuwan inggris Thomas Bayes, yaitu

memprediksi peluang di masa yang akan datang berdasarkan pengalaman di masa

sebelumnya, sehingga dikenal sebagai Teorema bayes. Teorema tersebut

dikombinasikan dengan naïve dimana asumsi kondisi antar variabel yang saling

bebas. [11] Klasifikasi naïve bayes mengasumsikan bahwa ada atau tidak ciri

tertentu dari sebuah kelas tidak ada kaitannya dengan ciri dari kelas lainnya.

Persamaan dari teorema bayes adalah:

P ( X|H ) . P( H)
P ( H| X )=
P( X)

Keterangan:

X : data dengan kelas yang belum diketahui.

H : Hipotesis data X adalah suatu kelas spesifik.

P(H|X) : probabilitas hipotesis H sesuai kondisi X (posteriori probability).

P(H) : probabilitas hipotesis H (prior probability).

P(X|H) : probabilitas X sesuai kondisi terhadap hipotesis H.

P(X) : probabilitas X.

II.4 Gaussian Naïve bayes

Jika data ditemukan kontinu, distribusi gaussian naïve bayes akan

digunakan, berikut ini adalah bentuk distribusi dari gaussian naïve bayes.

1. Baca data latin

2. Hitung jumlah data probabilitas, namun apabila data numerik maka


11

a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang

merupakan data numerik.

b. Cari nilai probabilitas dengan cara menghitung jumlah data yang sesuai

dari kategori yang sama dibagi dengan jumlah data pada kategori

tersebut menggunakan persamaan dibawah ini:

P¿

Keterangan:

P : peluang

Xi : atribut ke i

xi : nilai atribut ke i

Y : kelas yang dicari

yi : sub kelas Y yang dicari

μ : mean, menyatakan rata-rata dari seluruh atribut

σ : deviasi standar, menyatakan varian dari seluruh atribut

II.4.1 Mean

Persamaan yang digunakan untuk menghitung mean atau rata-rata hitungan

dapat dilihat sebagai berikut:

X 1+ X 2+ X 3 +…+ X n
μ=
n

Keterangan:

μ : rata-rata hitung (mean)

X1 : nilai sempel ke-i

n : jumlah sampel.
12

II.4.2 Standar Deviasi

Persamaan yang digunakan untuk menghitung standar deviasi sebagai

berikut:


n

∑ ( Xi−μ)2
i=1
σ=
n−1

Keterangan:

σ : standar deviasi

xi : nilai x ke – 1

μ : rata-rata hitung

n : jumlah sampel

II.5 Algoritma K-nearest neighbor (K-NN)

K-Nearest Neighbor merupakan salah satu metode yang dapat diterapkan

dalam melakukan klasifikasi terhadap suatu data, dengan mencari data yang

mempunyai jarak terdekat dengan suatu objek penelitian, sesuai dengan jumlah

tetangga terdekat yang diinisialisasikan dengan K. pencarian jarak terdekat

biasanya dihitung menggunakan jarak Euclidean. [12] Jarak euclidean memiliki

persamaan sebagai berikut:

√∑
n
d (x , y)= ¿¿¿
i=1

Keterangan:

d(x,y) : jarak euclidean

xi : data training ke-i

yi : data testing ke-i


13

Tahapan penggunaan algoritma K-nearest Neighbor adalah sebagai berikut:

1. Menentukan nilai K yang akan digunakan.

2. Menghitung jarak antara data uji dengan data latih.

3. Menggunakan hasil jarak dari jarak yang sudah terbentuk.

4. Pilih jarak yang terkecil sesuai dari banyaknya K yang sudah ditentukan.

5. Pasangkan kelas yang sesuai.

6. Kelas ditentukan dengan menghitung jumlah kelas mayoritas pada tetangga

terdekat.

II.6 Confusion Matrix

Confusion Matrix merupakan metode untuk pengevaluasian suatu model

klasifikasi. Confusion matrix berisis nilai dari kelas prediksi yang didapatkan dari

model yang dibandingkan dengan kelas yang asli dari dataset dengan kata lain

berisi informasi jumlah dari kelas aktual dan kelas prediksi pada klasifikasi. [13]

Tabel 1. Confusion Matrix

Terklasifikasi Positif Terklasifikasi Negatif

Kelas + -

Positif + True Positif False Negatif

Negatif - False Positif True Negatif

1. TP (True Positif) merupakan jumlah record positif yang diklasifikasikan


14

sebagai positif.

2. TN (True Negatif) merupakan jumlah record positif yang diklasifikasikan

sebagai negatif.

3. FP (False Positif) merupakan jumlah record negatif yang diklasifikasikan

sebagai positif.

4. FN (False Negatif) merupakan jumlah record negatif yang diklasifikasikan

sebagai negatif.

Berdasarkan nilai True Negatif (NT), True Positif (TP), False Negatif (FN)

dan False Positif (FP) bisa memperoleh nilai akurasi, presisi dan recall. Nilai

akurasi menggambarkan seberapa benar sistem dapat mengklasifikasi data secara

akurat. Nilai akurasi merupakan perbandingan antara data yang terklasifikasi

benar dengan semua data. Nilai akurasi bisa diperoleh dengan persamaan 1. Nilai

presisi menggambarkan jumlah data kategori positif yang diklasifikasikan secara

benar dibagi dengan total data yang diklasifikasi positif. Presisi dapat diperoleh

dengan persamaan 2. Nilai recall menunjukkan berapa persen data kategori positif

yang terklasifikasikan cocok oleh sistem. Nilai recall diperoleh dengan persamaan

3.

1. Akurasi

TP+TN
akurasi= × 100 %
TP+ TN + FP+ FN

2. Presisi
15

TP
presisi= ×100 %
FP+TP

3. Recall

TP
recall= × 100 %
FN +TP

II.7 Cross Validation

Cross validation merupakan sebuah metode yang digunakan untuk

mengevaluasi dan perbandingan terhadap pembelajaran dari algoritma (learning

algorithms) dengan cara membagi data menjadi dua bagian, satu bagian digunakan

untuk training dan bagian lainnya digunakan sebagai testing.


16

II.8 Penyakit Jantung

Penyakit jantung merupakan sebutan umum yang digunakan untuk

menggambarkan gangguan terhadap fungsi kinerja jantung. [6] Penyakit atau

gangguan jantung sendiri memiliki banyak jenisnya seperti:

1. Angina

Angina atau yang dikenal dengan angina pectoris adalah kerusakan otot

jantung kerana kurangnya pasokan oksigen.

2. Aritmia (Gangguan Irama Jantung)

Aritmia masalah yang dikaitkan dengan irama jantung. Aritmia ini terjadi

ketika impuls listrik jantung yang mengkoordinasikan detak jantung tidak

bekerja dengan baik, membuat detak jantung dengan cara yang tidak

seharusnya (terlalu cepat, lambat atau tidak teratur).

3. Penyakit jantung bawaan

Penyakit jantung bawaan ini dikaitkan pada bayi yang baru lahir namun

telah mengalami gangguan pada kinerja jantung. Beberapa contoh

penyakit jantung bawaan termasuk:

a. Septal cacat (adanya lubang antara dua bilik jantung). Kondisi ini

terkadang disebut dengan istilah jantung berlubang.

b. Cacat Obstruksi (terjadi ketika aliran darah melewati berbagai bilik

jantung).

c. Penyakit jantung sianotik (penyakit jantung bawaan dimana kurangnya

oksigen didalam darah untuk dialirkan keseluruh tubuh karena adanya

kerusakan di dalam hati.


17

4. Penyakit arteri koroner (Jantung Koroner)

Penyakit arteri koroner ini adalah kerusakan yang terjadi pada jantung

karena gangguan pada arteri koroner yang fungsinya untuk menyuplai

nutrisi, oksigen dan darah pada jantung.

5. Cardiomyopathy yang membesar

Jenis penyakit jantung yang satu ini merupakan gangguan pada bilik

jantung yang melebar sehingga menyebabkan otot jantung menjadi lemah

dan tidak dapat memompa darah dengan baik. Alasan yang paling umum

adalah kurangnya pasokan oksigen yang mencapai otot jantung (iskemia)

karena penyakit arteri koroner.

6. Infark miokard

Infark miokard ini juga dikenal dengan serangan jantung, infark jantung

dan trombosis koroner. Gangguan pada aliran darah (kekurangan oksigen)

sehingga merusak atau menghancurkan bagian dari otot jantung. Hal ini

biasanya disebabkan oleh gumpalan darah yang menggumpal di salah satu

arteri koroner (pembuluh darah).

7. Gagal jantung

Gagal jantung yang juga dikenal dengan istilah gagal jantung kongestif.

Gagal jantung ini ditandai dengan kurang efisiennya jantung dalam

memompa darah ke seluruh tubuh sehingga terkadang salah satu bagian

sisi tubuh akan terpengaruh dan bisa juga dapat mempengaruhi sisi kanan

dan kiri tubuh kita.


18

Faktor risiko Penyakit Jantung dapat dibagi menjadi dua golongan besar,

yaitu faktor risiko yang dapat dikurangi, diperbaiki atau dimodifikasi, dan faktor

risiko yang bersifat alami atau tidak dapat dicegah. Faktor risiko yang tak dapat

diubah adalah usia (lebih dari 40 tahun), jenis kelamin (pria lebih berisiko) serta

riwayat keluarga. Faktor risiko yang bisa dimodifikasi, antara lain dislipidemia,

diabetes melitus, stres, infeksi, kebiasaan merokok, pola makan yang tidak baik,

kurang gerak, Obesitas, serta gangguan pada darah (fibrinogen, faktor trombosis,

dan sebagainya). [7]

II.9 Rapidminer

Rapidminer adalah software yang bersifat terbukan (open source).

Rapidminer merupakan sebuah solusi buat melakukan analisis terhadap data

mining, text mining dan analisis prediksi. Rapidminer memakai aneka macam

teknik deskriptif dan prediksi dalam memberikan wawasan pada pengguna

sehingga dapat membuat keputusan yang paling baik. Rapidminer mempunyai

karakter sebagai berikut.

1. Ditulis dengan bahasa pemrograman java sehingga dapat dijalankan di

berbagai sistem operasi

2. Proses penemuan pengetahuan dimodelkan sebagai operator tres.

3. Representasi XML internal untuk memastikan format standar pertukaran

data

4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan


19

otomatisasi eksperimen.

5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan

menjamin penanganan data.

Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari

program lain.

Gambar 1. Tampilan Rapidminer


BAB III
METODE PENELITIAN

III.1 Tahapan Penelitian

Dalam pengerjaan tugas skripsi ini diperlukan tahapan kegiatan penelitian

untuk mendapatkan hasil yang maksimal. Berikut tahapan penelitian yang akan

dilakukan sebagai berikut:

Gambar 2. Tahapan Penelitian

III.2 Studi Literatur

Tujuan dilakukan studi literatur adalah untuk mendapatkan landasan-

landasan yang digunakan untuk penelitian ini, studi literatur ini bisa didapatkan

melalui buku dan jurnal yang berhubungan dengan penelitian penklasifikasian.

20
21

III.3 Pengumpulan Data

Data yang digunakan diperoleh dari website kaggle. Keseluruhan data ini

mempunyai 14 atribut yaitu, jenis kelamin, jenis nyeri dada, tekanan darah

istirahat, kolesterol serum, gula darah puasa, hasil elektrokardiografi istirahat,

detak jantung maksimum yang dicapai, angina yang diinduksi olahraga, oldpeak-

depresi ST yang disebabkan oleh olahraga relatif terhadap istirahat, kemiringan

segmen ST latihan puncak, jumlah pembuluh darah besar dan thalasemia data

yang digunakan pada bab ini hanya 20 data sampel untuk mewakili data yang

dihitung.

Tabel 2. Atribut Dataset Beserta Deskripsinya

No Atribut Deskripsi Satuan Tipe Data


1 Age Usia - Numerik
2 Gender Jenis kelamin 1= laki-laki, - Numerik
2=perempuan
3 Cp Jenis Nyeri dada 1= asymptomatic, - Numerik
2= atypical angina, 3= non-anginal
pain, 4= typical angina
4 Trestbps Tekanan darah istirahat mm Hg Numerik
5 Chol Kolesterol serum mg/dl Numerik
6 Fbs Gula darah puasa (>120 mg/dl, 1= mg/dl Numerik
benar 2= salah
7 Restecg Elektrokardiografi 1= menunjukkan - Numerik
kemungkinan hipertrofi 2= normal
3= memiliki kelainan ST-T
8 Thalach Detak jantung maksimal - Numerik
9 Exang Angina yang diinduksi olahraga 1= - Numerik
ya 2= tidak
10 Oldpeak Depresi yang disebabkan oleh - Numerik
olahraga relatif terhadap istirahat
11 Slope Kemiringan segmen ST latihan - Numerik
puncak 1= miring ke bawah 2=
datar 3= menanjak
12 Ca Jumlah pembuluh darah besar (1-5) - Numerik
22

13 Thal Kelainan darah 1= null 2= cacat - Numerik


tetap 3= aliran darah normal 4=
cacat reversibel

III.4 Klasifikasi

Proses klasifikasi yang digunakan pada penelitian ini menggunakan metode

Naïve Bayes dan K-Nearest Neighbor

III.5 Perhitungan Algoritma Gaussian Naïve Bayes

Berikut ini flowchart Algoritma Gaussian Naïve Bayes yang digunakan

untuk klasifikasi penyakit jantung:

Gambar 3. Flowchart Naive Bayes


23

III.5.1 Studi Kasus

Studi kasus adalah gambaran proses klasifikasi menggunakan Gaussian

naïve bayes. Berikut contoh studi kasus pada data latih dan data uji. Jumlah data

latih 20 dan data uji 2. Atribut yang digunakan berjumlah 14 dengan output class

1 dan 2. 1 adalah pasien yang tidak terdeteksi memiliki penyakit jantung dan 2

adalah pasien yang memiliki penyakit jantung.

Tabel 3. Data Latih Gaussian Naive Bayes


Trestbps

Oldpeak
Thalach
Restecg
Gender

Target
Exang

Slope
Chol

Thal
Age

Fbs
No

Cp

Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1

Dari contoh data latih di atas dapat diketahui bahwa terdapat 20 data dengan

output target 1 dan 2. Jumlah data dengan output target 1 sebanyak 10 dan output

target 2 sebanyak 10.


24

Tabel 4. Data Uji Gaussian Naive Bayes

Trestbps

Oldpeak
Thalach
Restecg
Gender

Target
Exang

Slope
Chol

Thal
Age

Fbs
Cp

Ca
65 1 1 110 248 2 1 158 2 0,6 3 3 2 2
76 2 3 140 197 2 3 116 2 1,1 2 1 3 1

Langkah-Langkah perhitungan Gaussion Naïve Bayes:

1. Nilai Probabilitas

Menghitung data prioritas masing-masing kelas menggunakan rumus di

bawah ini:

Nc
p ( c )=
n

Keterangan:

Nc : jumlah kelas data c pada seluruh data.

n : jumlah seluruh data.

Pada proses ini akan dihitung nilai probabilitas dengan cara seluruh data

akan di filter sesua dengan kelas, data dengan kelas yang sama selanjutnya

dibagi dengan seluruh data, hasil perhitungan dapat dilihat pada tabel 5.

Tabel 5. Probabilitas Kategori

Probabilitas Jumlah
1 10 0,5
2 10 0,5

Apabila terdapat data yang bersifat numerik, maka untuk nilai probabilitas

dilakukan perhitungan nilai mean dan standar deviasi terlebuh dahulu.


25

2. Mencari Nilai Mean

Proses ini dilakukan untuk mencari nilai rata-rata atau mean. Mencari nilai

mean dari setiap atribut untuk masing-masing kelas, sehingga setiap atribut

memiliki 2 nilai rata-rata atau mean. Seperti terlihat pada tabel 6.

Tabel 6. Hasil Pencarian Nilai Mean

Kategori 1= Tidak Age (Usia) Kategori 2= Ya Age (Usia)


1 58 2 70
1 71 2 61
1 34 2 62
1 34 2 58
1 51 2 55
1 50 2 46
1 58 2 54
1 53 2 43
1 43 2 51
1 57 2 60
Mean 50,9 Mean 56

3. Mencari Standar Deviasi

Proses ini dilakukan untuk mencari nilai standar deviasi pada setiap atribut

masing-masing kelas, sehingga setiap atribut memiliki 2 nilai standar deviasi

untuk mencari standar deviasi pertama mencari total jarak mean seperti pada

tabel 7.

Tabel 7. Tabel Jarak Mean Age Positive (1)

Age (1)
No Ag
Age-√Age (Age-√Age)2
e
1 58 7,1 50,41
2 71 20,1 404,01
3 34 -16,9 285,61
4 34 -16,9 285,61
5 51 0,1 0,01
6 50 -0,9 0,81
7 58 7,1 50,41
26

8 53 2,1 4,41
9 43 -7,9 62,41
10 57 6,1 37,21
Total Jarak Mean 1143,69

Tabel 8. Total Jarak Mean Age Negatif (2)

Age (2)
No Ag
Age-√Age (Age-√Age)2
e
1 70 14 196
2 61 5 25
3 62 6 36
4 58 2 4
5 55 -1 1
6 46 -10 100
7 54 -2 4
8 43 -13 169
9 51 -5 25
10 60 4 16
Total Jarak Mean 576

a. Perhitungan standar deviasi pada tabel age positive (1)

σ=
√ 1143,69
10−1
=11,27282869

b. Perhitungan standar deviasi pada tabel age negatif (2)

σ=
√ 576
10−1
=8

4. Mencari nilai Probabilistik

Proses ini mencari standar nilai probabilistik pada data uji setiap atribut.

Mencari nilai probabilistik dari setiap atribut pada data uji untuk masing-masing

kelasnya sehingga setiap 1 atribut memiliki 2 nilai probabilistik. Rumus yang

digunakan untuk mencari nilai probabilistik adalah sebagai berikut:


27

2
1 (w−μ)
f ( w )= e−
√ 2 πσ σ
2

a. Atribut age pada kategori positive (1) pada data uji ke-1

2
1 ( 65−50,9 )
f ( w )= e− =0,054359986
√ 2× 3,14 ×11,27282869 11,272828692
b. Atribut age pada kategori negative (2) pada data uji ke-1
2
1 ( 65−56 )
f ( w )= e− =0,074928702
√ 2× 3,14 ×8 8
2

Keseluruhan data latih dihitung menggunakan cara seperti diatas sehingga

memperoleh keseluruhan nilai probabilistik.

5. Mencari hasil klasifikasi

Pada proses ini menghitung klasifikasi dengan cara mengalikan hasil

probabilistik.

a. Data uji 1 pada kategori positive (1)

0,054359986 × 0,15598388 × 0,17994041 × 0,053864202 × 0,044653596 ×

0,578872318 × 0,274113754 × 0,074896298 × 0,676510582 × 0,52022815

× 0,474542041 × 1,77078E-07 × 0,000817571 = 6,11618E-17

b. Data uji 1 pada kategori negative (2)

0,074928702 × 0,54915214 × 0,477298925 × 0,019660402 × 0,050504918

× 0,54915214 × 0,330231353 × 0,040197103 × 0,350480037 × 0,15806419

× 0,158666235 × 0,300881077 × 0,050016707 = 9,96622E-10

Menghitung semua data berdasarkan nilai probabilistik lalu membandingkan

setiap kelasnya. Hasil yang terbesar dipilih sebagai hasil klasifikasi.


28

Tabel 9. Hasil Klasifikasi Algoritma Gaussian Naive Bayes

Klasifikasi
Trestbps

Oldpeak
Thalach
Restecg

Kriteria
Gender

Target
Exang

Slope
Chol

Thal
Age

Fbs
Cp

Ca
70 1 1 145 174 2 2 125 1 2,6 1 1 4 2 2 TN
61 1 1 148 203 2 2 161 2 0 3 2 4 2 2 TN
62 2 1 138 294 1 2 106 2 1,9 2 4 3 2 2 TN
58 2 1 100 248 2 1 122 2 1 2 1 3 1 1 TP
58 1 1 114 318 2 3 140 2 4,4 1 4 2 2 2 TN
55 1 1 160 289 2 1 145 1 0,8 2 2 4 2 2 TN
46 1 1 120 249 2 1 144 2 0,8 3 1 4 2 2 TN
54 1 1 122 286 2 1 116 1 3,2 2 3 3 2 2 TN
71 2 1 112 149 2 2 125 2 1,6 2 1 3 1 1 TP
43 2 1 132 341 1 1 136 1 3 2 1 4 2 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 1 1 140 298 2 2 122 1 4,2 2 4 4 2 1 TP
43 2 3 122 213 2 2 165 2 0,2 2 1 3 1 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 2 3 140 308 2 1 142 2 1,5 3 2 3 1 1 TP
57 1 3 150 126 1 2 173 2 0,2 3 2 4 1 1 TP
50 2 2 120 244 2 2 162 2 1,1 3 1 3 1 1 TP
58 1 3 140 211 1 1 165 2 0 3 1 3 1 1 TP
60 1 3 140 185 2 1 155 2 3 2 1 3 2 2 TN
53 1 1 142 226 2 1 111 1 0 3 1 4 1 2 FN

Pada tabel 9 dapat dilihat hasil klasifikasi algoritma gaussian naïve bayes di

mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat

kriteria yang dihasilkan.

6. Confusion Matrix

Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung

berdasarkan 4 kriteria. TP dan TN digunakan saat klasifikasi menghasilkan

sesuatu yang benar, sedangkan FP dan FN digunakan ketika klasifikasi

menghasilkan kesalahan. Dengan menggunakan persamaan confusion

matrix selanjutnya dapat diukur tingkat akurasi, presisi dan recall.


29

Tabel 10. Confusion Matrix Naïve Bayes

Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 9
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 9+10 /
TN 10
9+10+0+1 × 100% = 95%
FP 0 Presisi = TP / FP+TP × 100% = 9 / 0+10 × 100% = 100%
FN 1 Recall = TP / FN+TP × 100% = 9 / 1+9 × 100% = 90%

Dari hasil pengujian menggunakan confusion matrix didapatkan hasil

akurasi sebesar 95%, presisi 100% dan recall 90%.

III.6 Perhitungan Algoritma K-Nearest Neighbor

Berikut ini flowchart Algoritma K-Nearest Neighbor yang digunakan unuk

klasifikasi penyakit jantung:

Gambar 4. Flowchart K-Nearest Neighbor


Sebelum menghitung algoritma K-Nearest Neighbor, maka perlu membagi

data menjadi data latih dan data uji. Data latih yang digunakan yaitu data yang

sudah melewati tahap preprocessing data. Berikut ini 20 data yang diambil untuk

sampel data latih yang digunakan untuk perhitungan manual pada tabel 11:
30

Tabel 11. Data Latih K-Nearest Neighbor

Trestbps

Oldpeak
Thalach
Restecg
Gender

Target
Exang

Slope
Chol

Thal
Age

Fbs
No

Cp

Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1

Data latih yang digunakan sebanyak 20 data dengan 2 jenis kelas yang mana 1 dan

2, 1 teridentifikasi pasien tidak mengalami penyakit jantung dan 2 teridentifikasi

pasien memiliki penyakit jantung.

Tabel 12. Data Uji K-Nearest Naighbor


Trestbps

Oldpeak
Thalach
Restecg
Gender

Target
Exang

Slope
Chol

Thal
Age

Fbs
Cp

Ca

65 1 1 110 248 2 1 158 2 0,6 3 3 2 2


76 2 3 140 197 2 3 116 2 1,1 2 1 3 1

Langkah-langkah perhitungan KNN, untuk lebih jelas dapat dilihat di bawah ini:
31

1. Menghitung menggunakan perhitungan euclidean distance untuk

menentukan jarak antar data latih dan data uji yang terdapat pada tahapan

transformasi untuk lebih jelasnya dapat dilihat sebagai berikut:

a. Perhitungan jarak euclidean data latih 1 dan data uji 1


( 70-65 )2 + ( 1-1 )2 + ( 1-1 )2 + ( 145-110 )2 + ( 174-248 )2 + ( 2-2 )2 +
d (1,1 ) ( 2-1 )2 + ( 125-158 )2 + ( 1-2 )2 + ( 2,6-0,6 )2 + ( 1-3 )2 + (1-3 )2 +
2
( 4- 2 ) = 88,50423719

b. Perhitungan jarak euclidean data latih 1 dan data uji 2


( 70-76 )2 + ( 1-2 )2 + (1-1 )2 + ( 145-140 )2 + ( 174-197 )2 + ( 2- 2 )2 +
d (1,1 ) ( 2-3 )2 + ( 125-116 )2 + ( 1-2 )2 + ( 2,6-1,1 )2 + (1-2 )2 + ( 1-1 )2 +
2
( 4-3 ) = 26,11991577

Proses perhitungan jarak euclidean dengan cara nilai atribut pada data latih

dikurang dengan nilai atribut pada data uji lalu dipangkatkan dua, tahap ini

dilakukan sampai semua nilai atribut pada data latih habis di hitung. Proses

perhitungan ini dapat dilihat diatas.

Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji

No Data 1 Output 2 Kategori Data 2 Output 1 Kategori


1 88,50424 1 26,11992 1
2 59,16384 1 48,58199 1
3 74,97126 2 98,61359 2
4 38,10722 2 67,59445 2
5 72,88649 2 127,4515 2
6 66,76107 2 100,7874 2
7 25,80775 2 69,27546 2
8 59,01491 2 93,52759 2
9 104,5897 1 56,56191 1
10 100,592 2 149,3439 2
11 60,27446 2 90,53265 2
12 70,09251 2 104,3485 2
13 43,75111 2 63,81074 2
32

14 60,27446 2 90,53265 2
15 70,42592 2 116,7397 2
16 129,5537 1 93,58317 1
17 19,11151 2 73,5119 2
18 48,75818 2 54,12218 2
19 70,13387 1 43,92733 1
20 62,21222 1 37,57938 1

Pada tabel 13 hasil jarak euclidean antara data latih dan data uji selanjutnya akan

dilakukan pengelompokan kategori sesuai dengan perhitungan euclidean, yang

mana apabila data 1 dengan output 2 lebih kecil dari pada data 2 dengan output 1

maka nilai kategorinya ialah data 1 dengan output 2. Hasil jarak euclidean dapat

dilihat pada tabel 13.

2. Dalam penentuan nilai K yang digunakan tidak memiliki acuan tertentu,

tetapi pada penelitian ini menggunakan 3 sebagai contoh nilai K yang

menjadikannya sebagai acuan untuk menentukan kelas pada klasifikasi nilai

terkecil serta mayoritas kategori pada setiap data. Nilai dapat dilihat pada

tabel:

Tabel 14. Mayoritas Data

No Data Uji 1 Data Uji 2


1 1
2
3
4 2
5
6
7 2
8
9
10
11
12
13
14
33

15
16
17 2
18
19 1
20 1

Setelah menentukan kelas pada hasil klasifikasi nilai terkecil serta mayoritas

kategori pada setiap data. Berikut hasil klasifikasi dari K3

Tabel 15. Hasil Klasifikasi Dari K-Nearest Neighbor

Klasifika
Trestbps

Oldpeak
Thalach
Restecg

Kriteria
Target
Exang

Slope
Chol

Thal
Age

Sex

Fbs
No

Cp

Ca

si
17 2,
1 70 1 1 145 2 2 125 1 1 1 4 2 TN
4 6 1
20
2 61 1 1 148 2 2 161 2 0 3 2 4 2 TN
3 1
29 1,
3 62 2 1 138 1 2 106 2 2 4 3 2 FN
4 9 2
24
4 58 2 1 100 2 1 122 2 1 2 1 3 1 TP
8 2
31 4,
5 58 1 1 114 2 3 140 2 1 4 2 2 FN
8 4 2
28 0,
6 55 1 1 160 2 1 145 1 2 2 4 2 FN
9 8 2
24 0,
7 46 1 1 120 2 1 144 2 3 1 4 2 FN
9 8 2
28 3,
8 54 1 1 122 2 1 116 1 2 3 3 2 FN
6 2 2
14 1,
9 71 2 1 112 2 2 125 2 2 1 3 1 FP
9 6 1
34
10 43 2 1 132 1 1 136 1 3 2 1 4 2 FN
1 2
21 0,
11 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
29 4,
12 51 1 1 140 2 2 122 1 2 4 4 2 FN
8 2 2
21 0,
13 43 2 3 122 2 2 165 2 2 1 3 1 TP
3 2 2
21 0,
14 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
15 51 2 3 140 30 2 1 142 2 1, 3 2 3 1 2 TP
34

8 5
12 0,
16 57 1 3 150 1 2 173 2 3 2 4 1 FP
6 2 1
24 1,
17 50 2 2 120 2 2 162 2 3 1 3 1 TP
4 1 2
21
18 58 1 3 140 1 1 165 2 0 3 1 3 1 TP
1 2
18
19 60 1 3 140 2 1 155 2 3 2 1 3 2 TN
5 1
22
20 53 1 1 142 2 1 111 1 0 3 1 4 1 FP
6 1

Pada tabel 15 dapat dilihat hasil klasifikasi algoritma k-Nearest Neighbor di

mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat kriteria

yang dihasilkan.

Tabel 16. Confusion Matrix K-Nearest Neighbor

Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 7
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 3+7 /
TN 3
3+7+3+7 × 100% = 50%
FP 3 Presisi = TP / FP+TP × 100% = 3 / 3+3 × 100% = 50%
FN 7 Recall = TP / FN+TP × 100% = 3 / 7+3 × 100% = 30%

Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung

berdasarkan 4 kriteria. TP dan TN digunakan saat klasifikasi menghasilkan

sesuatu yang benar, sedangkan FP dan FN digunakan ketika klasifikasi

menghasilkan kesalahan. Dengan menggunakan persamaan confusion matrix

selanjutnya dapat diukur tingkat akurasi, presisi dan recall

Dari hasil pengujian menggunakan confusion matrix didapatkan hasil

akurasi sebesar 50%, presisi 50% dan recall 30%.

3. Penghitungan Manual

Penghitungan manual ini dilakukan untuk melihat gambaran dari Algoritma


35

K-Nearest Neighbor dan Algoritma Gaussian Naïve Bayes dalam

melakukan perhitungan Klasifikasi data.


DAFTAR PUSTAKA

[1] I. Oktanisa Dan A. A. Supianto, “Perbandingan Teknik Klasifikasi Dalam

Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan

Ilmu Komputer, Vol. 5, No. 5, Art. No. 5, Okt 2018, Doi:

10.25126/Jtiik.201855958.

[1] I. Oktanisa Dan A. A. Supianto, “Perbandingan Teknik Klasifikasi Dalam

Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan

Ilmu Komputer, Vol. 5, No. 5, Art. No. 5, Okt 2018, Doi:

10.25126/Jtiik.201855958.

[2] F. A. Nugroho, “Perancangan Sistem Pakar Diagnosa Penyakit Jantung

Dengan Metode Forward Chaining”, Diakses: 13 Juli 2022. [Daring]. Tersedia

Pada: Https://Core.Ac.Uk/Reader/337610180

[3] T. Praningki Dan I. Budi, “Sistem Prediksi Penyakit Kanker Serviks

Menggunakan Cart, Naive Bayes, Dan K-Nn,” Creative Information

Technology Journal, Vol. 4, No. 2, Art. No. 2, Jan 2018, Doi:

10.24076/Citec.2017v4i2.100.

[4] A. Samosir, M. S. Hasibuan, W. E. Justino, Dan T. Hariyono, “Komparasi

Algoritma Random Forest, Naïve Bayes Dan K- Nearest Neighbor Dalam

Klasifikasi Data Penyakit Jantung,” Prosiding Seminar Nasional Darmajaya,

Vol. 1, No. 0, Art. No. 0, Sep 2021.

[5] Q. Hasanah, “Analisis Algoritma Gaussian Naive Bayes Terhadap Klasifikasi

Data Pasien Penderita Gagal Jantung,” Doctoral, Universitas Muhammadiyah

Jember, 2021. Diakses: 17 Juli 2022. [Daring]. Tersedia Pada:

36
37

Http://Repository.Unmuhjember.Ac.Id/12197/

[6] D. P. Utomo Dan M. Mesran, “Analisis Komparasi Metode Klasifikasi Data

Mining Dan Reduksi Atribut Pada Data Set Penyakit Jantung,” Jurnal Media

Informatika Budidarma, Vol. 4, No. 2, Art. No. 2, Apr 2020, Doi:

10.30865/Mib.V4i2.2080.

[7] I. Iskandar, A. Hadi, Dan A. Alfridsyah, “Faktor Risiko Terjadinya Penyakit

Jantung Koroner Pada Pasien Rumah Sakit Umum Meuraxa Banda Aceh,”

Action: Aceh Nutrition Journal, Vol. 2, No. 1, Art. No. 1, Mei 2017, Doi:

10.30867/Action.V2i1.34.

[8] N. L. W. S. R. Ginantra Dkk., Data Mining Dan Penerapan Algoritma.

Yayasan Kita Menulis, 2021.

[9] A. P. Wibawa, “Metode-Metode Klasifikasi,” Prosiding Sakti (Seminar Ilmu

Komputer Dan Teknologi Informasi), Vol. 3, No. 1, Art. No. 1, Apr 2018.

[10] R. Y. Dillak, D. M. Pangestuty, Dan M. G. Bintiri, “Klasifikasi Jenis

Musik Berdasarkan File Audio Menggunakan Jaringan Syaraf Tiruan

Learning Vector Quantization,” Seminar Nasional Informatika (Semnasif),

Vol. 1, No. 3, Art. No. 3, Jul 2015, Diakses: 13 Juli 2022. [Daring]. Tersedia

Pada: Http://103.23.20.161/Index.Php/Semnasif/Article/View/1064

[11] B. Bustami, “Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi

Data Nasabah Asuransi,” Techsi - Jurnal Teknik Informatika, Vol. 5, No. 2,

Art. No. 2, Okt 2013, Diakses: 13 Juli 2022. [Daring]. Tersedia Pada:

Https://Ojs.Unimal.Ac.Id/Techsi/Article/View/154

[12] D. Yanosma, A. Johar, Dan K. Anggriani, “Implementasi Metode K-


38

Nearest Neighbor (Knn) Dan Simple Addittive Weighting (Saw) Dalam

Pengambilan Keputusan Seleksi Anggota Paskibraka,” Rekursif: Jurnal

Informatika, Vol. 4, No. 2, Art. No. 2, Jun 2016, Doi:

10.33369/Rekursif.V4i2.894.

[13] A. Sigit, “Penerapan Algoritma Decision Tree C4.5 Untuk Diagnosa

Penyakit Stroke Dengan Klasifikasi Data Mining Pada Rumah Sakit Santa

Maria Pemalang,” Skripsi,Fakultas Ilmu Komputer, 2015, Diakses: 13 Juli

2022. [Daring]. Tersedia Pada: Http://Eprints.Dinus.Ac.Id/16477/


39

LAMPIRAN

Anda mungkin juga menyukai