PROPOSAL SKRIPSI
Oleh :
FAKULTAS TEKNIK
PROGRAM STUDI SISTEM INFORMASI
UNIVERSITAS ABULYATAMA ACEH BESAR
2022
KATA PENGANTAR
Bismillahirrahmaanirrahim...
Segala Puji dan Syukur kami ucapkan kepada Allah SWT yang Maha Kuasa
atas segala limpahan berkat dan karunia – Nya yang selalu menyertai dalam setiap
melengkapi salah satu syarat penyusunan proposal skripsi pada program studi
kepada semua pihak yang telah membantu sehingga dapat menyelesaikan proposal
skripsi ini. Penulis menyadari bahwa bahwa penyusunan proposal skripsi ini tidak
terlepas dari bantuan dan dorongan yang bersifat moril dari berbagai pihak.
3. Ibu Juniana Husna, S.Si., M.Sc Selaku Ketua Program Studi Sistem
sayang, cinta dan perhatianya, serta motivasi dan dorongan yang tiada henti
i
agar penulis dapat menuntut ilmu dan menyelesaikan pendidikan sebaik-
sebaiknya.
6. Semua pihak yang tidak dapat saya sebutkan satu persatu, baik langsung
kejanggalan dan kekurangan, baik dari segi susunan bahasa maupun penyajian
Terakhir penulis berharap agar hasil penulisan proposal skripsi ini dapat
skripsi ini.
ii
iii
DAFTAR ISI
KATA PENGANTAR.............................................................................................i
DAFTAR ISI.........................................................................................................iii
DAFTAR GAMBAR..............................................................................................v
DAFTAR TABEL.................................................................................................vi
BAB I PENDAHULUAN.......................................................................................1
2.2 Klasifikasi......................................................................................................8
iv
2.4 Gaussian Naïve bayes....................................................................................9
2.4.1 Mean......................................................................................................10
2.9 Rapidminer...................................................................................................16
3.4 Klasifikasi....................................................................................................20
DAFTAR PUSTAKA...........................................................................................33
LAMPIRAN..........................................................................................................36
v
DAFTAR GAMBAR
vi
DAFTAR TABEL
Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji.........................29
vii
BAB I
PENDAHULUAN
sebuah data yang jumlahnya cukup besar yang bertujuan menemukan nilai tambah
berupa pengetahuan yang sejauh ini belum dapat ditemukan secara manual dari
suatu kumpulan data. Ada beberapa teknik dalam data mining salah satu teknik
yang dapat diterapkan untuk data penyakit jantung ialah teknik klasifikasi.
dengan akurat. Hasil diagnosis yang akurat bisa digunakan untuk membantu para
data berdasarkan keterikatan data terhadap data sampel. [1] Klasifikasi dalam data
mining dapat dilakukan dengan beberapa metode, dimana diantaranya yang umum
dilakukan yaitu Random Forest, Naive Bayes, Support Vector Machine, k-NN,
dalam kehidupan manusia dan pastinya sangat berbahaya jika jantung kita
jantung. [2] Data WHO tahun 2015 menunjukkan bahwa 70% kematian di dunia
1
2
disebabkan oleh Penyakit Tidak Menular (39,5 juta dari 56,4 kematian). Dari
seluruh kematian akibat Penyakit Tidak Menular (PTM) tersebut, 45% nya
disebabkan oleh Penyakit jantung dan pembuluh darah, yaitu 17.7 juta dari 39,5
juta kematian.
diagnosis secara dini kepada setiap orang yang beresiko memiliki penyakit
jantung atau tidak. Salah satu cara melakukan diagnosis penyakit jantung yaitu
Pada penelitian yang dilakukan oleh Tutus Praningki [3] dengan judul
“Sistem Prediksi Penyakit Kanker Servicks Mengunakan CART, Naïve Bayes, dan
k-NN” Pengujian yang dilakukan terhadap algoritma CART Decision Tree, Naive
CART dan k-NN adalah 88,89%, 85,04%. Performa yang didapatkan oleh
prediksi penyakit kanker serviks untuk mendukung keputusan klinis pada pasien
baru.
Pada penelitian yang dilakukan oleh Amri Samosir [4] dengan judul
terhadap 304 dataset penyakit jantung, algoritma Naïve Bayes lebih baik dan
Naïve Bayes memiliki rerata hasil akurasi sebesar 0,91 AUC, 0,84 CA, 0,84 F1,
Pada penelitian yang dilakukan oleh Hasanah [5] dengan judul “Analisis
Gaussian Naïve Bayes terhadap data pasien penderita gagal jantung diperoleh
hasil validasi terbaik dengan nilai akurasi tertinggi didapatkan pada Kfold 4 yaitu
59,4%, presisi tertinggi didapatkan pada Kfold 4 yaitu 55,89%, sedangkan recall
Naive Bayes, dan k-NN (K-Nearest Neighbor). Hal inilah yang menjadi keunikan
dataset sebanyak 1025 record data dengan 14 atribut. Kumpulan data ini berasal
dari tahun 1988, terdiri dari empat database dari empat negara yaitu Cleveland,
Hungaria, Swiss dan Long Beach V. Ini berisi 79 atribut, termasuk atribut yang
Dari latar belakang diatas, maka rumusan masalah yang didapat yaitu berapa
penyakit jantung dengan menggunakan dua algoritma, Naive Bayes dan k-NN (K-
Nearest Neighbor)?
Nearest Neighbor.
penyakit jantung.
1. Data yang digunakan pada penelitian ini yaitu data penyakit jantung yang
diperiksa dan sebanyak 499 pasien terdeteksi sehat dan 526 pasien
2. Pada penelitian ini menggunakan 14 atribut yaitu usia, jenis kelamin, jenis
nyeri dada, tekanan darah istirahat, kolesterol serum, gula darah puasa, hasil
Dalam membuat sistematika pada penulisan ini menyajikan dalam tiga bab,
BAB I PENDAHULUAN
Bab ini menjelaskan tentang konsep dasar Penyakit jantung, Data Mining,
neighbor.
BAB II
TINJAUAN PUSTAKA
Data mining adalah sebuah proses pencarian secara otomatis informasi yang
berguna dalam tempat penyimpanan data berukuran besar. Teknik data mining
digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk
menemukan pola yang baru dan berguna. [8] Data mining hadir dianggap sebagai
mencari pengetahuan yang bermanfaat dari kata. KDD terdiri dari beberapa
langkah yaitu:
c. Seleksi data (memilih data yang relevan yang akan digunakan untuk
analisa).
d. Data mining.
e. Evaluasi model.
Metode data mining iyalah cara yang diterapkan namun perlu disesuaikan
a. Classification (Klasifikasi)
mining menjadi salah satu metode yang paling umum untuk digunakan.
Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek
b. Association
c. Clustering
Penentuan atribut harus sesuai kesamaan yang dimiliki beberapa class tadi.
d. Regression
Metode keempat dari data mining adalah regression. Metode yang satu ini
metode yang bertujuan untuk mencapai pola nilai numerik, bukan kelas.
Hasil dari metode regression adalah sebuah fungsi sebagai penentuan hasil
9
e. Forecasting
nilai yang akan dicapai pada suatu periode. Dengan menggunakan Teknik
ini, noise data dan nilai pada periode sebelumnya dijadikan dasar bahan
prediksi.
f. Sequencing
Sequence adalah sebuah urutan peristiwa. Tidak jauh dari Namanya, metode
g. Descriptive
Metode data mining yang satu ini bertujuan untuk memahami lebih dalam
II.2 Klasifikasi
Klasifikasi merupakan salah satu tugas yang penting pada data mining.
Sebuah pengklasifikasian dibuat dari sekumpulan data latih dengan kelas yang
yang sesuai. Vektor fitur pelatihan tersedia dan telah diketahui kelas-kelasnya,
dan statistik yang ditemukan oleh ilmuwan inggris Thomas Bayes, yaitu
dikombinasikan dengan naïve dimana asumsi kondisi antar variabel yang saling
bebas. [11] Klasifikasi naïve bayes mengasumsikan bahwa ada atau tidak ciri
tertentu dari sebuah kelas tidak ada kaitannya dengan ciri dari kelas lainnya.
P ( X|H ) . P( H)
P ( H| X )=
P( X)
Keterangan:
P(X) : probabilitas X.
digunakan, berikut ini adalah bentuk distribusi dari gaussian naïve bayes.
a. Cari nilai mean dan standar deviasi dari masing-masing parameter yang
b. Cari nilai probabilitas dengan cara menghitung jumlah data yang sesuai
dari kategori yang sama dibagi dengan jumlah data pada kategori
P¿
Keterangan:
P : peluang
Xi : atribut ke i
xi : nilai atribut ke i
II.4.1 Mean
X 1+ X 2+ X 3 +…+ X n
μ=
n
Keterangan:
n : jumlah sampel.
12
berikut:
√
n
∑ ( Xi−μ)2
i=1
σ=
n−1
Keterangan:
σ : standar deviasi
xi : nilai x ke – 1
μ : rata-rata hitung
n : jumlah sampel
dalam melakukan klasifikasi terhadap suatu data, dengan mencari data yang
mempunyai jarak terdekat dengan suatu objek penelitian, sesuai dengan jumlah
√∑
n
d (x , y)= ¿¿¿
i=1
Keterangan:
4. Pilih jarak yang terkecil sesuai dari banyaknya K yang sudah ditentukan.
terdekat.
klasifikasi. Confusion matrix berisis nilai dari kelas prediksi yang didapatkan dari
model yang dibandingkan dengan kelas yang asli dari dataset dengan kata lain
berisi informasi jumlah dari kelas aktual dan kelas prediksi pada klasifikasi. [13]
Kelas + -
sebagai positif.
sebagai negatif.
sebagai positif.
sebagai negatif.
Berdasarkan nilai True Negatif (NT), True Positif (TP), False Negatif (FN)
dan False Positif (FP) bisa memperoleh nilai akurasi, presisi dan recall. Nilai
benar dengan semua data. Nilai akurasi bisa diperoleh dengan persamaan 1. Nilai
benar dibagi dengan total data yang diklasifikasi positif. Presisi dapat diperoleh
dengan persamaan 2. Nilai recall menunjukkan berapa persen data kategori positif
yang terklasifikasikan cocok oleh sistem. Nilai recall diperoleh dengan persamaan
3.
1. Akurasi
TP+TN
akurasi= × 100 %
TP+ TN + FP+ FN
2. Presisi
15
TP
presisi= ×100 %
FP+TP
3. Recall
TP
recall= × 100 %
FN +TP
algorithms) dengan cara membagi data menjadi dua bagian, satu bagian digunakan
1. Angina
Angina atau yang dikenal dengan angina pectoris adalah kerusakan otot
Aritmia masalah yang dikaitkan dengan irama jantung. Aritmia ini terjadi
bekerja dengan baik, membuat detak jantung dengan cara yang tidak
Penyakit jantung bawaan ini dikaitkan pada bayi yang baru lahir namun
a. Septal cacat (adanya lubang antara dua bilik jantung). Kondisi ini
jantung).
Penyakit arteri koroner ini adalah kerusakan yang terjadi pada jantung
Jenis penyakit jantung yang satu ini merupakan gangguan pada bilik
dan tidak dapat memompa darah dengan baik. Alasan yang paling umum
6. Infark miokard
Infark miokard ini juga dikenal dengan serangan jantung, infark jantung
sehingga merusak atau menghancurkan bagian dari otot jantung. Hal ini
7. Gagal jantung
Gagal jantung yang juga dikenal dengan istilah gagal jantung kongestif.
sisi tubuh akan terpengaruh dan bisa juga dapat mempengaruhi sisi kanan
Faktor risiko Penyakit Jantung dapat dibagi menjadi dua golongan besar,
yaitu faktor risiko yang dapat dikurangi, diperbaiki atau dimodifikasi, dan faktor
risiko yang bersifat alami atau tidak dapat dicegah. Faktor risiko yang tak dapat
diubah adalah usia (lebih dari 40 tahun), jenis kelamin (pria lebih berisiko) serta
riwayat keluarga. Faktor risiko yang bisa dimodifikasi, antara lain dislipidemia,
diabetes melitus, stres, infeksi, kebiasaan merokok, pola makan yang tidak baik,
kurang gerak, Obesitas, serta gangguan pada darah (fibrinogen, faktor trombosis,
II.9 Rapidminer
mining, text mining dan analisis prediksi. Rapidminer memakai aneka macam
data
otomatisasi eksperimen.
Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari
program lain.
untuk mendapatkan hasil yang maksimal. Berikut tahapan penelitian yang akan
landasan yang digunakan untuk penelitian ini, studi literatur ini bisa didapatkan
20
21
Data yang digunakan diperoleh dari website kaggle. Keseluruhan data ini
mempunyai 14 atribut yaitu, jenis kelamin, jenis nyeri dada, tekanan darah
detak jantung maksimum yang dicapai, angina yang diinduksi olahraga, oldpeak-
segmen ST latihan puncak, jumlah pembuluh darah besar dan thalasemia data
yang digunakan pada bab ini hanya 20 data sampel untuk mewakili data yang
dihitung.
III.4 Klasifikasi
naïve bayes. Berikut contoh studi kasus pada data latih dan data uji. Jumlah data
latih 20 dan data uji 2. Atribut yang digunakan berjumlah 14 dengan output class
1 dan 2. 1 adalah pasien yang tidak terdeteksi memiliki penyakit jantung dan 2
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
No
Cp
Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1
Dari contoh data latih di atas dapat diketahui bahwa terdapat 20 data dengan
output target 1 dan 2. Jumlah data dengan output target 1 sebanyak 10 dan output
Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
65 1 1 110 248 2 1 158 2 0,6 3 3 2 2
76 2 3 140 197 2 3 116 2 1,1 2 1 3 1
1. Nilai Probabilitas
bawah ini:
Nc
p ( c )=
n
Keterangan:
Pada proses ini akan dihitung nilai probabilitas dengan cara seluruh data
akan di filter sesua dengan kelas, data dengan kelas yang sama selanjutnya
dibagi dengan seluruh data, hasil perhitungan dapat dilihat pada tabel 5.
Probabilitas Jumlah
1 10 0,5
2 10 0,5
Apabila terdapat data yang bersifat numerik, maka untuk nilai probabilitas
Proses ini dilakukan untuk mencari nilai rata-rata atau mean. Mencari nilai
mean dari setiap atribut untuk masing-masing kelas, sehingga setiap atribut
Proses ini dilakukan untuk mencari nilai standar deviasi pada setiap atribut
untuk mencari standar deviasi pertama mencari total jarak mean seperti pada
tabel 7.
Age (1)
No Ag
Age-√Age (Age-√Age)2
e
1 58 7,1 50,41
2 71 20,1 404,01
3 34 -16,9 285,61
4 34 -16,9 285,61
5 51 0,1 0,01
6 50 -0,9 0,81
7 58 7,1 50,41
26
8 53 2,1 4,41
9 43 -7,9 62,41
10 57 6,1 37,21
Total Jarak Mean 1143,69
Age (2)
No Ag
Age-√Age (Age-√Age)2
e
1 70 14 196
2 61 5 25
3 62 6 36
4 58 2 4
5 55 -1 1
6 46 -10 100
7 54 -2 4
8 43 -13 169
9 51 -5 25
10 60 4 16
Total Jarak Mean 576
σ=
√ 1143,69
10−1
=11,27282869
σ=
√ 576
10−1
=8
Proses ini mencari standar nilai probabilistik pada data uji setiap atribut.
Mencari nilai probabilistik dari setiap atribut pada data uji untuk masing-masing
2
1 (w−μ)
f ( w )= e−
√ 2 πσ σ
2
a. Atribut age pada kategori positive (1) pada data uji ke-1
2
1 ( 65−50,9 )
f ( w )= e− =0,054359986
√ 2× 3,14 ×11,27282869 11,272828692
b. Atribut age pada kategori negative (2) pada data uji ke-1
2
1 ( 65−56 )
f ( w )= e− =0,074928702
√ 2× 3,14 ×8 8
2
probabilistik.
Klasifikasi
Trestbps
Oldpeak
Thalach
Restecg
Kriteria
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
70 1 1 145 174 2 2 125 1 2,6 1 1 4 2 2 TN
61 1 1 148 203 2 2 161 2 0 3 2 4 2 2 TN
62 2 1 138 294 1 2 106 2 1,9 2 4 3 2 2 TN
58 2 1 100 248 2 1 122 2 1 2 1 3 1 1 TP
58 1 1 114 318 2 3 140 2 4,4 1 4 2 2 2 TN
55 1 1 160 289 2 1 145 1 0,8 2 2 4 2 2 TN
46 1 1 120 249 2 1 144 2 0,8 3 1 4 2 2 TN
54 1 1 122 286 2 1 116 1 3,2 2 3 3 2 2 TN
71 2 1 112 149 2 2 125 2 1,6 2 1 3 1 1 TP
43 2 1 132 341 1 1 136 1 3 2 1 4 2 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 1 1 140 298 2 2 122 1 4,2 2 4 4 2 1 TP
43 2 3 122 213 2 2 165 2 0,2 2 1 3 1 2 TN
34 2 2 118 210 2 2 192 2 0,7 3 1 3 1 1 TP
51 2 3 140 308 2 1 142 2 1,5 3 2 3 1 1 TP
57 1 3 150 126 1 2 173 2 0,2 3 2 4 1 1 TP
50 2 2 120 244 2 2 162 2 1,1 3 1 3 1 1 TP
58 1 3 140 211 1 1 165 2 0 3 1 3 1 1 TP
60 1 3 140 185 2 1 155 2 3 2 1 3 2 2 TN
53 1 1 142 226 2 1 111 1 0 3 1 4 1 2 FN
Pada tabel 9 dapat dilihat hasil klasifikasi algoritma gaussian naïve bayes di
mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat
6. Confusion Matrix
Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung
Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 9
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 9+10 /
TN 10
9+10+0+1 × 100% = 95%
FP 0 Presisi = TP / FP+TP × 100% = 9 / 0+10 × 100% = 100%
FN 1 Recall = TP / FN+TP × 100% = 9 / 1+9 × 100% = 90%
data menjadi data latih dan data uji. Data latih yang digunakan yaitu data yang
sudah melewati tahap preprocessing data. Berikut ini 20 data yang diambil untuk
sampel data latih yang digunakan untuk perhitungan manual pada tabel 11:
30
Trestbps
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
No
Cp
Ca
1 70 1 1 145 174 2 2 125 1 2,6 1 1 4 2
2 61 1 1 148 203 2 2 161 2 0 3 2 4 2
3 62 2 1 138 294 1 2 106 2 1,9 2 4 3 2
4 58 2 1 100 248 2 1 122 2 1 2 1 3 1
5 58 1 1 114 318 2 3 140 2 4,4 1 4 2 2
6 55 1 1 160 289 2 1 145 1 0,8 2 2 4 2
7 46 1 1 120 249 2 1 144 2 0,8 3 1 4 2
8 54 1 1 122 286 2 1 116 1 3,2 2 3 3 2
9 71 2 1 112 149 2 2 125 2 1,6 2 1 3 1
10 43 2 1 132 341 1 1 136 1 3 2 1 4 2
11 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
12 51 1 1 140 298 2 2 122 1 4,2 2 4 4 2
13 43 2 3 122 213 2 2 165 2 0,2 2 1 3 1
14 34 2 2 118 210 2 2 192 2 0,7 3 1 3 1
15 51 2 3 140 308 2 1 142 2 1,5 3 2 3 1
16 57 1 3 150 126 1 2 173 2 0,2 3 2 4 1
17 50 2 2 120 244 2 2 162 2 1,1 3 1 3 1
18 58 1 3 140 211 1 1 165 2 0 3 1 3 1
19 60 1 3 140 185 2 1 155 2 3 2 1 3 2
20 53 1 1 142 226 2 1 111 1 0 3 1 4 1
Data latih yang digunakan sebanyak 20 data dengan 2 jenis kelas yang mana 1 dan
Oldpeak
Thalach
Restecg
Gender
Target
Exang
Slope
Chol
Thal
Age
Fbs
Cp
Ca
Langkah-langkah perhitungan KNN, untuk lebih jelas dapat dilihat di bawah ini:
31
menentukan jarak antar data latih dan data uji yang terdapat pada tahapan
√
( 70-65 )2 + ( 1-1 )2 + ( 1-1 )2 + ( 145-110 )2 + ( 174-248 )2 + ( 2-2 )2 +
d (1,1 ) ( 2-1 )2 + ( 125-158 )2 + ( 1-2 )2 + ( 2,6-0,6 )2 + ( 1-3 )2 + (1-3 )2 +
2
( 4- 2 ) = 88,50423719
√
( 70-76 )2 + ( 1-2 )2 + (1-1 )2 + ( 145-140 )2 + ( 174-197 )2 + ( 2- 2 )2 +
d (1,1 ) ( 2-3 )2 + ( 125-116 )2 + ( 1-2 )2 + ( 2,6-1,1 )2 + (1-2 )2 + ( 1-1 )2 +
2
( 4-3 ) = 26,11991577
Proses perhitungan jarak euclidean dengan cara nilai atribut pada data latih
dikurang dengan nilai atribut pada data uji lalu dipangkatkan dua, tahap ini
dilakukan sampai semua nilai atribut pada data latih habis di hitung. Proses
Tabel 13. Hasil Jarak Euclidean Antara Data Latih dan Data Uji
14 60,27446 2 90,53265 2
15 70,42592 2 116,7397 2
16 129,5537 1 93,58317 1
17 19,11151 2 73,5119 2
18 48,75818 2 54,12218 2
19 70,13387 1 43,92733 1
20 62,21222 1 37,57938 1
Pada tabel 13 hasil jarak euclidean antara data latih dan data uji selanjutnya akan
mana apabila data 1 dengan output 2 lebih kecil dari pada data 2 dengan output 1
maka nilai kategorinya ialah data 1 dengan output 2. Hasil jarak euclidean dapat
terkecil serta mayoritas kategori pada setiap data. Nilai dapat dilihat pada
tabel:
15
16
17 2
18
19 1
20 1
Setelah menentukan kelas pada hasil klasifikasi nilai terkecil serta mayoritas
Klasifika
Trestbps
Oldpeak
Thalach
Restecg
Kriteria
Target
Exang
Slope
Chol
Thal
Age
Sex
Fbs
No
Cp
Ca
si
17 2,
1 70 1 1 145 2 2 125 1 1 1 4 2 TN
4 6 1
20
2 61 1 1 148 2 2 161 2 0 3 2 4 2 TN
3 1
29 1,
3 62 2 1 138 1 2 106 2 2 4 3 2 FN
4 9 2
24
4 58 2 1 100 2 1 122 2 1 2 1 3 1 TP
8 2
31 4,
5 58 1 1 114 2 3 140 2 1 4 2 2 FN
8 4 2
28 0,
6 55 1 1 160 2 1 145 1 2 2 4 2 FN
9 8 2
24 0,
7 46 1 1 120 2 1 144 2 3 1 4 2 FN
9 8 2
28 3,
8 54 1 1 122 2 1 116 1 2 3 3 2 FN
6 2 2
14 1,
9 71 2 1 112 2 2 125 2 2 1 3 1 FP
9 6 1
34
10 43 2 1 132 1 1 136 1 3 2 1 4 2 FN
1 2
21 0,
11 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
29 4,
12 51 1 1 140 2 2 122 1 2 4 4 2 FN
8 2 2
21 0,
13 43 2 3 122 2 2 165 2 2 1 3 1 TP
3 2 2
21 0,
14 34 2 2 118 2 2 192 2 3 1 3 1 TP
0 7 2
15 51 2 3 140 30 2 1 142 2 1, 3 2 3 1 2 TP
34
8 5
12 0,
16 57 1 3 150 1 2 173 2 3 2 4 1 FP
6 2 1
24 1,
17 50 2 2 120 2 2 162 2 3 1 3 1 TP
4 1 2
21
18 58 1 3 140 1 1 165 2 0 3 1 3 1 TP
1 2
18
19 60 1 3 140 2 1 155 2 3 2 1 3 2 TN
5 1
22
20 53 1 1 142 2 1 111 1 0 3 1 4 1 FP
6 1
mana hasil klasifikasi akan dilakukan evaluasi suatu model untuk melihat kriteria
yang dihasilkan.
Kriteria Jumlah
Akurasi, Presisi dan Recall
TP 7
Akurasi = TP+TN / TP+TN+FP+FN × 100% = 3+7 /
TN 3
3+7+3+7 × 100% = 50%
FP 3 Presisi = TP / FP+TP × 100% = 3 / 3+3 × 100% = 50%
FN 7 Recall = TP / FN+TP × 100% = 3 / 7+3 × 100% = 30%
Untuk mengetahui tingkat akurasi, presisi dan recall maka akan dihitung
3. Penghitungan Manual
Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan
10.25126/Jtiik.201855958.
Data Mining Untuk Bank Direct Marketing,” Jurnal Teknologi Informasi Dan
10.25126/Jtiik.201855958.
Pada: Https://Core.Ac.Uk/Reader/337610180
10.24076/Citec.2017v4i2.100.
36
37
Http://Repository.Unmuhjember.Ac.Id/12197/
Mining Dan Reduksi Atribut Pada Data Set Penyakit Jantung,” Jurnal Media
10.30865/Mib.V4i2.2080.
Jantung Koroner Pada Pasien Rumah Sakit Umum Meuraxa Banda Aceh,”
Action: Aceh Nutrition Journal, Vol. 2, No. 1, Art. No. 1, Mei 2017, Doi:
10.30867/Action.V2i1.34.
Komputer Dan Teknologi Informasi), Vol. 3, No. 1, Art. No. 1, Apr 2018.
Vol. 1, No. 3, Art. No. 3, Jul 2015, Diakses: 13 Juli 2022. [Daring]. Tersedia
Pada: Http://103.23.20.161/Index.Php/Semnasif/Article/View/1064
Art. No. 2, Okt 2013, Diakses: 13 Juli 2022. [Daring]. Tersedia Pada:
Https://Ojs.Unimal.Ac.Id/Techsi/Article/View/154
10.33369/Rekursif.V4i2.894.
Penyakit Stroke Dengan Klasifikasi Data Mining Pada Rumah Sakit Santa
LAMPIRAN