Anda di halaman 1dari 24

Konfirmasi Akurasi Metode Correlated Naïve

Bayes Classifier di Bidang Kesehatan

Hairani
14/376443/PTK/10146

Supervisor
1. Dr. Noor Akhmad Setiawan, S.T., M.T.
2. Dr. Teguh Bharata Adji, S.T., M.T., M.Eng.
Latar Belakang
• Saat ini berbagai rumah sakit telah memanfaatkan peranan teknologi informasi
untuk mendukung manajemen pelayanannya. Salah satu pemanfaatan teknologi
informasi dibidang kesehatan adalah adanya rekam medis berbasis elektronik.
• Pertumbuhan data rekam medis yang begitu besar yang tersimpan pada
database telah menciptakan kondisi yang disebut rich of data but poor of
knowledge.
• Kumpulan data rekam medis yang begitu besar belum dimanfaatkan dengan
sebaiknya, sehingga data kumpulan rekam medis tersebut dibiarkan begitu saja
sehingga menjadi kumpulan data yang tidak berguna.
Rumusan Masalah
• Melakukan konfirmasi akurasi metode Correlated Naive Bayes
Classifier (C-NBC) dibandingkan algoritme Naive Bayes Classifier
(NBC) di bidang kesehatan dengan menggunakan empat dataset
yaitu Dataset Pima Indian Diabetes, Haberman, Indian Liver Patient,
dan Tyroid.
Tujuan Penelitian
• Melakukan konfirmasi apakah tingkat akurasi algoritme Correlated
Naive Bayes Classifier lebih tinggi dibandingkan tingkat akurasi
algoritme Naive Bayes Classifier di bidang kesehatan dengan
menggunakan dua dataset yaitu Dataset Pima Indian Diabetes,
Haberman, Indian Liver Patient, dan Tyroid.
Manfaat Penelitian
• menemukan algoritme yang memiliki akurasi yang paling optimal
untuk diterapkan di bidang kesehatan seperti klasifikasi penyakit,
diagnosis penyakit, dan prediksi penyakit
Keaslian Penelitian
No Nama Peneliti Tujuan Penelitian Metode
1. Shah & Jivani [4] Melakukan komparasi beberapa metode Random Forest, Naive Bayes,
klasifikasi untuk klasifikasi penyakit kanker dan KNN
payudara, kemudian memilih metode yang
memiliki akurasi paling optimal.

2. Alfisaharin & Mantoro [5] Membandingkan kinerja dari metode Naive Bayes, NBTree, dan
klasifikasi yang berbeda untuk memilih satu Decision Tree
metode dengan hasil yang paling akurat
untuk klasifikasi penyakit Liver.
Keaslian Penelitian (Lanjutan)
No Nama Peneliti Tujuan Penelitian Metode
3 Dash., et al [3] Melakukan implementasi metode naive Naive Bayes
bayes untuk klasifikasi penyakit
Hypothyroid.
4. Burhan Alfironi M., et al Meningkatkan tingkat akurasi algoritme Correlated Naive Bayes
[6] Naïve Bayes Classifier dengan Classifier (C-NBC), Naive
memperhitungkan nilai korelasi dari Bayes Classifier (NBC)
masing-masing attribute terhadap kelas.

5. Burhan Alfironi M., et al Menguji kinerja algoritme C-NBC dengan Correlated Naive Bayes
[7] NBC yang di ukur berdasarkan akurasinya Classifier (C-NBC), Naive
pada Dataset Iris, Dataset Balance Scale, Bayes Classifier (NBC)
Dataset Haberman, dan Dataset Servo.
Metodologi Penelitian

Klasifikasi data Pengukuran


Pengumpulan Data Kinerja
menggunakan
dataset Pre-Processing algoritme NBC dan Berdasarkan
C-NBC Akurasi
Bahan Penelitian

No Dataset Data Atribut Kelas

1. Pima Indians Diabetes 768 9 2

2. Haberman 306 3 2

3. Indian Liver Patient 583 11 2

4. Tyroid 215 6 3
Data Pre-processing

Tipe Data Non-numerik

Mengubah ke tipe data


numerik
Klasifikasi
Tabel 3.2 Tabel Contoh Data Training Tabel 3.3 Tabel Contoh Data Testing
Age Number Times Of Class Age Number Times Of Class
Pregnant Pregnant
22 1 Tested Negative
22 1 Tested Negative
22 2 Tested Negative
22 1 Tested Negative
26 5 Tested Negative
23 4 Tested Negative
26 3 Tested Positive
37 5 Tested Positive
31 7 Tested Positive
26 4 Tested Positive
22 4 Tested Positive
Klasifikasi (Lanjutan)

• Menghitung prior probability


5
Prior Probability P(X) Tested Positive = 5 dengan prior probability =
Sum Class N 10
= 0,5
Tested Positive 0,5 5 10 P(X) Tested Negative= 5 dengan prior probability =
5
10
Tested Negative 0,5 5 = 0,5

Menghitung probabilitas independen kelas Y dari semua fitur dalam vektor X:


1+1 0+1
P 𝑇𝑒𝑠𝑡𝑒𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 Age = 22 = = 0,4 P 𝑇𝑒𝑠𝑡𝑒𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑁𝑢𝑚𝑏𝑒𝑟 𝑡𝑖𝑚𝑒𝑠 𝑜𝑓 𝑝𝑟𝑒𝑔𝑛𝑎𝑛𝑡 = 1 = = 0,2
5 5
3+1 2+1
P Tested Negative Age = 22 = = 0,8 P 𝑇𝑒𝑠𝑡𝑒𝑑 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑁𝑢𝑚𝑏𝑒𝑟 𝑡𝑖𝑚𝑒𝑠 𝑜𝑓 𝑝𝑟𝑒𝑔𝑛𝑎𝑛𝑡 = 1 = = 0,6
5 5
Klasifikasi (Lanjutan)
Klasifikasi dengan NBC:
• Menghitung perkalian:
P Teste𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 X = P Teste𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 Age = 22 ∗
P Teste𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑁𝑢𝑚𝑏𝑒𝑟 𝑡𝑖𝑚𝑒𝑠 𝑜𝑓 𝑝𝑟𝑒𝑔𝑛𝑎𝑛𝑡 = 1 ∗ P (X|Teste𝑑 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒) =
0,4 ∗ 0,2 ∗ 0,5 = 0,04

P(Tested Negative |X) = P(Tested Negative |Age = 22) * P(ested Negative |


Number Times of Pregnant = 1) * P(X| Tested Negative) = 0.8 * 0.6 * 0.5 = 0.24
• Menghitung nilai max dari probabilitas akhir:
P ClassTested Positive X = 0,04
P ClassTested Negative X = 0,24
Nilai probabilitas kelas Tested Negative lebih besar dari nilai probabilitas kelas Tested
Positive, sehingga data tersebut diklasifikasikan ke dalam kelas Tested Negative.
Klasifikasi (Lanjutan)
Klasifikasi dengan C-NBC:
• Menghitung perkalian:
P(Kelas Tested Positive |X) dengan korelasi = (P(Kelas Tested Positive |Age=22) * R(Kelas Tested Positive
|Age = 22)) + (P(Kelas Tested Positive |Number Times of Pregnant = 1) * R(Kelas Tested Positive |Number
Times of Pregnant=1)) * P(X| Tested Positive) = (0,4 * 0,057) + (0,2 * 0,002) * 0,5 = 0.012

P(Kelas Tested Negative |X) = (P(Kelas Tested Negative |Age=22) * R(Kelas Tested Negative |Age = 22)) +
(P(Kelas Tested Negative | Number Times of Pregnant = 1) * R(Kelas Tested Negative | Number Times of
Pregnant = 1)) * P(X| Tested Negative) = (0,8 * 0,057) + (0,6 * 0,002) * 0,5 =0.023

• Menghitung nilai max dari probabilitas akhir:


P ClassTested Positive X dengan korelasi = 0,012
P ClassTested Negative X dengan korelasi = 0,023
Nilai probabilitas kelas Tested Negative lebih besar dari nilai probabilitas kelas Tested Positive, sehingga data
tersebut diklasifikasikan ke dalam kelas Tested Negative.
Tahapan Pengujian
Naïve Bayes Classifier
(NBC)

Uji Normalitas :
Pengumpulan Data Pengujian Menggunakan One Sample
Mean Akurasi Kolmogrov-Smirnov
dataset Pre-Processing 10-Fold Cross Validation
Test

Correlated Naïve Bayes


Classifier (C-NBC) Uji Hipotesis :
Uji Paired t test
Hasil Penelitian
Dataset Algoritme Akurasi
Pima C-NBC 67,15
Indians Diabetes NBC 64,33
SVM 65,63
C-NBC 74,96

Haberman NBC 69,005


SVM 73,53
C-NBC 71,37

Indian NBC 44,99

Liver Patient SVM 71.19

C-NBC 78,52

Tyroid NBC 62,16


SVM 75,43
Uji Normalitas
Tabel 4.9 Hasil Uji Normalitas One Sample Kolmogorov- Tabel 4.10 Hasil Uji Normalitas One Sample Kolmogorov-
Smirnov Test Dataset Pima Indian Diabetes Smirnov Test Dataset Dataset Haberman
Unstandardized Residual Unstandardized Residual

N 30 N 30

Dhitung 0,09 Dhitung 0,136

Derajat Kepercayaan (𝛼) 0,05 Nilai Significant (𝛼) 0,05

Kolmogorov-Smirnov Z 0,494 Kolmogorov-Smirnov Z 0,747

Asymp. Sig. (2-tailed) 0,968 Asymp. Sig. (2-tailed) 0,632


diperoleh hasil nilai significant (Sig) sebesar 0.968 lebih diperoleh hasil nilai significant (Sig) sebesar 0.632 lebih
besar dari nilai derajat kepercayaan (𝛼) yaitu 0.05 (0.968 > besar dari nilai derajat kepercayaan (𝛼) yaitu 0.05 (0.632 >
0.05), maka dapat di simpulkan bahwa persebaran rata-rata 0.05), maka dapat di simpulkan bahwa persebaran rata-rata
data akurasi algoritme Correlated Naive Bayes Classifier data akurasi algoritme Correlated Naive Bayes Classifier dan
dan Naive Bayes Classifier pada dataset pima indian Naive Bayes Classifier pada dataset haberman terdistribusi
diabetes terdistribusi normal. normal.
Uji Normalitas
Tabel 4.11 Hasil Uji Normalitas One Sample Kolmogorov- Tabel 4.12 Hasil Uji Normalitas One Sample Kolmogorov-
Smirnov Test Dataset Indian Liver Patient Smirnov Test Dataset Dataset Tyroid
Unstandardized Residual Unstandardized Residual

N 30 N 30

Dhitung 0,082 Dhitung 0,112

Derajat Kepercayaan (𝛼) 0,05 Nilai Significant (𝛼) 0,05

Kolmogorov-Smirnov Z 0,449 Kolmogorov-Smirnov Z 0,614

Asymp. Sig. (2-tailed) 0,988 Asymp. Sig. (2-tailed) 0,845


diperoleh hasil nilai significant (Sig) sebesar 0.988 lebih diperoleh hasil nilai significant (Sig) sebesar 0.845 lebih
besar dari nilai derajat kepercayaan (𝛼) yaitu 0.05 (0.988 > besar dari nilai derajat kepercayaan (𝛼) yaitu 0.05 (0.845 >
0.05), maka dapat di simpulkan bahwa persebaran rata-rata 0.05), maka dapat di simpulkan bahwa persebaran rata-rata
data akurasi algoritme Correlated Naive Bayes Classifier data akurasi algoritme Correlated Naive Bayes Classifier dan
dan Naive Bayes Classifier pada dataset indian liver patient Naive Bayes Classifier pada dataset tyroid terdistribusi
terdistribusi normal. normal.
Uji Hipotesis
Tabel 4.23 Hasil Uji Paired T Test Dataset Pima Indian
Diabetes Tabel 4.24 Hasil Uji Paired T Test Dataset Haberman

n 30 n 30
t tabel signifikan
thitung 17,057 level 0.05 thitung 7,495
df 29 ( ttabel = 1,699 ) df 29
Sig 0,000 Sig 0,000

Karena thitung = 17,057 lebih besar dari ttabel = 1,699 karena thitung = 7,495 lebih besar dari ttabel =
(17.057 > 1,699) sehingga H0 di tolak dan H1 di 1,699 (7,495 > 1,699) sehingga H2 di tolak dan
terima. Hal ini dapat disimpulkan bahwa tingkat H3 di terima. Hal ini dapat disimpulkan bahwa
akurasi algoritme Correlated Naive Bayes tingkat akurasi algoritme Correlated Naive
Classifier lebih significant dibandingkan tingkat Bayes Classifier lebih significant dibandingkan
akurasi Naive Bayes Classifier pada dataset pima tingkat akurasi Naive Bayes Classifier pada
indian diabetes. dataset haberman.
Uji Hipotesis (Lanjutan)
Tabel 4.25 Hasil Uji Paired T Test Dataset Indian Liver
Patient Tabel 4.26 Hasil Uji Paired T Test Dataset Tyroid

n 30 n 30
t tabel signifikan
thitung 128,23 level 0.05 thitung 41,987
df 29 ( ttabel = 1,699 ) df 29
Sig 0,000 Sig 0,000

Karena thitung = 128,23 lebih besar dari ttabel = 1,699 karena thitung = 41,987 lebih besar dari ttabel =
(128.23 > 1,699) sehingga H4 di tolak dan H5 di 1,699 (41,987 > 1,699) sehingga H6 di tolak dan
terima. Hal ini dapat disimpulkan bahwa tingkat H7 di terima. Hal ini dapat disimpulkan bahwa
akurasi algoritme Correlated Naive Bayes tingkat akurasi algoritme Correlated Naive
Classifier lebih significant dibandingkan tingkat Bayes Classifier lebih significant dibandingkan
akurasi Naive Bayes Classifier pada dataset indian tingkat akurasi Naive Bayes Classifier pada
liver patient. dataset Tyroid.
Kesimpulan
• Tingkat akurasi algoritme Correlated Naive Bayes Classifier (C-NBC) pada dataset pima
indian diabetes diperoleh sebesar 67,15%, tingkat akurasi algoritme Correlated Naive
Bayes Classifier (C-NBC) pada dataset haberman diperoleh sebesar 74,96%, tingkat
akurasi algoritme Correlated Naive Bayes Classifier (C-NBC) pada dataset indian liver
patient diperoleh sebesar 71,37%, tingkat akurasi algoritme Correlated Naive Bayes
Classifier (C-NBC) pada dataset tyroid diperoleh sebesar 78,52%. Kenaikan akurasi
algoritme Correlated Naive Bayes Classifier (C-NBC) dibandingkan algoritme Naive
Bayes Classifier (NBC) sebesar 5,96% untuk dataset haberman, sebesar 2,82% untuk
dataset pima indian diabetes, sebesar 26,38% untuk dataset indian liver patient, dan
sebesar 16,36% untuk dataset tyroid.
Kesimpulan (Lanjutan)
• Hasil yang diperoleh setelah dilakukan uji statistik menggunakan uji t paired
(berpasangan) pada empat dataset yang digunakan, didapatkan hasil bahwa tingkat
akurasi algoritme Correlated Naive Bayes Classifier (C-NBC) lebih signifikan
dibandingkan tingkat akurasi algoritme Naive Bayes Classifier (NBC) untuk dataset pima
indian diabetes, haberman, indian liver patient, dan Tyroid.
Saran
• Dataset yang digunakan pada penelitian ini memiliki jumlah instance
kurang dari 1000 instance, untuk kedepannya diharapkan pengujian dapat
dilakukan untuk jumlah instance dataset lebih dari 1000 instance
• Dataset yang digunakan pada penelitian sebanyak empat dataset, untuk
kedepannya diharapkan pengujian dapat dilakukan menggunakan lebih
dari dua dataset.
Terima Kasih

Anda mungkin juga menyukai