Anda di halaman 1dari 9

DRAFT JURNAL

IMPLEMENTASI METODE NAIVE BAYES UNTUK DIAGNOSIS


PENYAKIT THALASEMIA PADA HASIL TES DARAH
HEMATOLOGI

IMPLEMENTATION OF NAIVE BAYES METHOD TO


DIAGNOSE THALASEMIA DISEASES IN BLOOD
HEMATOLOGY TEST RESULTS
Beni Eka Putra*1, Umi Rosyidah2
Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang
Jl. Nakula I No. 5-11 Semarang, Kode Pos 50131, Telp. (024) 3517361, Fax. (024) 3520165
E-mail : beniputra10@gmail.com*1, umi.rosyidah@dsn.dinus.ac.id2

Abstract - Penerapan teknologi khususnya dalam bidang kesehatan, akan sangat penting
dalam penjaminan maupun pelayanannya. Dalam penelitan ini akan menggunakan teknologi
Data Mining berupa metode classifier yang akan mendiagnosa penyakit Thalasemia. Pada
dasarnya data mining berhubungan dengan analisa data dan penggunaan teknik-teknik
perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya
tersembunyi. Salah satu teknik data mining yang digunakan adalah untuk memprediksi suatu
kemungkinan, khususnya untuk memprediksi suatu penyakit atau diagnosis, yaitu penyakit
thalasemia. Thalasemia adalah penyakit genetik sintetis hemoglobin yang dapat menyebabkan
masalah kesehatan yang sering terjadi pada bayi atau anak-anak dan thalasemia menunjukkan
gejala-gejala yang hampir menyerupai dengan anemia. Dalam penelitian ini akan menerapkan
metode data mining Naive Bayes untuk memprediksi penyakit thalasemia dengan
menggunakan 100 data hasil tes darah hematologi di RSUD Ambarawa. Pada hasil pengujian
metode Naive Bayes dengan confusion matrix menunjukkan bahwa Recall sebesar
78,2608696%, Precision sebesar 90%, Accuracy sebesar 93% dan Error Rate sebesar 7%.
Dengan demikian, metode ini bagus dalam mendiagnosis penyakit thalasemia dan bisa
diterapkan kedalam sistem.

Kata Kunci - Data Mining, Naive Bayes, Thalasemia

Abstract - The implementation of technology especially in the field of health will give very
important impacts in the health guarantees and services. In this research, Data Mining
technology will be used in the form of classifier method that will diagnose Thalasemia disease.
Basically, data mining is related to data analysis and the use of software techniques to find out
the patterns and regularities in a set of hidden data. One of data mining technique is used to
predict a possibility, especially to predict a disease or diagnosis, namely thalasemia disease.
Thalasemia is a genetic synthetic disease of hemoglobin that can cause health problems which
often occur in infants or children, it shows the resemble symptoms as anemia. This research
will implement Naive Bayes, data mining method to predict thalasemia disease by using 100
data of hematology blood test result at RSUD Ambarawa. The testing result of Naive Bayes

1
method using confusion matrix shows that Recall was 78,2608696%, Precision was 90%,
Accuracy was 93% and Error Rate was 7%. It means Naïve Bayes method is good as a diagnose
of thalasemia disease and can be applied into the system.

Keywords - Data Mining, Naive Bayes, Thalasemia

1. PENDAHULUAN

Perkembangan ilmu pengetahuan sebegitu cepatnya sampai sekarang ini. Pada zaman
sekarang ini banyak teknologi-teknologi yang semakin canggih. Tidak seperti dulu yang masih
menggunakan cara manual atau masih dikerjakan oleh tangan manusia sendiri tanpa bantuan
mesin. Khususnya dalam bidang kesehatan, dalam prosesnya antara teori dan penerapan di
kenyataan akan berbanding terbalik, maka dari itu diperlukan teknologi yang membuat
pekerjaan manusia menjadi mudah, tidak hanya mudah tetapi juga hasilnya dengan kualitas
yang bagus. Terutama bagi dokter yang mempunyai banyak pertimbangan untuk mendiagnosis
suatu penyakit, maka dari itu sangat diperlukan suatu alat bantu atau tool untuk mendiagosa
penyakit tersebut [12]. Pada beberapa penyakit tertentu, ada penyakit yang sangat sulit untuk
didiagnosis oleh dokter. Beberapa alasan mengapa penyakit itu sulit dideteksi adalah karena
memang penyakit itu tidak memunculkan gejala yang khas terlebih saat penyakit itu semakin
parah maka akan sulit sekali dikenali, yang mana dapat memungkinkan bisa disalahartikan
dengan penyakit lain.
Penerapan teknologi khususnya dalam bidang kesehatan, akan sangat penting dalam
penjaminan maupun pelayanannya. Dalam penerapan ini akan menggunakan teknologi Data
Mining berupa metode classifier yang akan mendeteksi penyakit Thalasemia. Data Mining
adalah sesuatu yang didefinisikan sebagai suatu proses untuk menemukan pola-pola yang ada
dalam suatu data yang mana proses ini otomatis tetapi paling sering semiotomatis dan pola
yang ditemukan itu penuh arti dengan banyak keuntungan, keuntungan tersebut bisa
berbentuk bermacam-macam [1]. Penerapan ini dimaksudkan untuk menggunakan metode
Data Mining untuk membantu dokter mempertimbangkan dalam mendiagnosis penyakit
Thalasemia. Metode yang digunakan dalam penelitian ini adalah metode Naive Bayes. Metode
Naive Bayes adalah metode classifier yang memanfaatkan perhitungan probabilitas. [1]

2. METODE PENELITIAN

Metode perancangan yang dipakai adalah Waterfall. Dalam penelitian ini metode-
metode lain telah diterapkan pada Waterfall, dengan alur Waterfall yaitu :
2.1 Requirement Analysis
Untuk mendapatkan data-data yang akan digunakan dalam penelitian ini, metode yang
dipakai untuk mendapatkan data-data tersebut adalah metode kuantitatif. Metode kuantitatif
itu dalam penelitian ini digunakan untuk memperoleh data-data hasil tes darah hematologi,
yang mana data-data yang diambil memiliki atribut-atribut yang digunakan untuk
diterapkannya metode data mining Naive Bayes. Atribut-atribut itu adalah Hemoglobin (Hb),
Lekosit, Eritrosit, Hematokrit, Trombosit, Mean cell/corpuscular volume (MCV), Mean Cell
Hemoglobin Content (MCH) dan Mean Cellular Hemoglobin Concentration (MCHC).
2.2 System Design
Pada tahap sistem desain, dilakukan perancangan software yang bertujuan untuk
memberikan gambaran apa yang seharusnya dikerjakan oleh software dan bagaimana
tampilannya, meliputi rancangan output, rancangan input, rancangan struktur data yang

2
digunakan, rancangan struktur software dan rancangan algoritma software. Sistem ini didesain
menggunakan diagram-diagram UML yang akan membantu dalam menspesifikasikan
kebutuhan dan arsitektur software secara keseluruhan, yaitu dengan menggunakan Diagram
Use Case, Diagram Activity dan Diagram Sequence untuk menggambarkan bagaimana sistem
berjalan atau aktivitas dari user.
2.3 Implementasi
Pada tahap implementasi, Naive Bayes digunakan sebagai metode untuk mengolah
data-data yang nantinya akan melalui proses klasifikasi sesuai rumus Naive Bayes.

Adapun narasi dari proses kategorisasi data adalah sebagai berikut:


1. Memulai kegiatan, tahap dimana peneliti memulai percobaan dengan algoritma
tersebut.
2. Melihat atau baca data-data yang akan digunakan.
3. Apakah ada data yang berupa angka (numerik)? Jika YA, maka akan dilanjutkan ke
perhitungan khusus dengan data numerik, jika TIDAK maka lanjutkan dengan
rumus probabilitas Naive Bayes.
4. Setiap class C dihitung probabilitasnya.
5. Lakukan update nilai class Ci dan tiap atribut terhadap kelas Ci kedalam tabel
tersendiri.
6. Menghitung rata-rata (Mean) pada tiap paramater pada data.
7. Menghitung standar deviasi pada setiap parameter pada data.
8. Lakukan update hasil dari perhitungan rata-rata (Mean) dan standar deviasi
tersebut pada tabel tersendiri.
9. Solusi, yang mana tahap terakhir metode ini adalah dengan membandingkan nilai.
10. Kegiatan selesai, tahap setelah semua kondisi dilakukan dan merupakan tahap
akhir dari algoritma ini.
2.4 Testing

3
Tahap testing disini menggunakan metode confusion matrix untuk pengujian akurasi
metode Naive Bayes terhadap sistem pendukung keputusan penyakit thalasemia, yaitu Recall,
Accuracy, Precission dan Error Rate. Disini untuk mendapatkan hasil Recall, Accuracy,
Precission dan Error Rate, harus mengetahui jumlah TP, FN, FP dan TN. TP bisa kita peroleh
dengan melihat data yang memiliki hasil prediksi Benar (True) dan hasil pada kenyataan Positif.
FN bisa kita peroleh dengan melihat data yang memiliki hasil prediksi Salah (False) dan hasil
pada kenyataan Negatif. FP bisa kita peroleh dengan melihat data yang memiliki hasil prediksi
Salah (False) dan hasil pada kenyataan Positif. Dan TN bisa kita peroleh dengan melihat data
yang memiliki hasil prediksi Benar (True) dan hasil pada kenyataan Negatif.
2.5 Maintenance
Tahap maintenance adalah tahap terakhir, yakni memelihara sistem dan melakukan
perbaikan jika suatu saat sistem mengalami kegagalan, error atau bug yang tidak diketahui
sebelumnya. Teknik yang digunakan untuk memaintenance sistem ini yaitu dengan teknik
Corrective Maintenance, yakni dengan cara mengupgrade atau mendesain ulang jika ada
kesalahan atau bug didalam sistem.

3. HASIL DAN PEMBAHASAN

uc Sistem Diagnosis Penyakit Thalasemia

Si stem Di agnosi s Penyaki t T hal asemi a

melihat tentang
aplikasi

mengisi nilai pada


mendapatkan hasil
setiap atribut «i ncl ude»

User

melihat informasi
penyakit thalasemia tambah data darah

«extend»

edit data darah mengelola data


«extend» darah

«extend»

hapus data darah tambah data user

Admin

«extend»

edit data user mengelola data user


«extend»

«extend»

hapus data user

Dalam diagram use case diatas, digambarkan bahwa ada dua aktor yaitu User dan
Admin yang mana keduanya berperan dalam sistem yang akan dibuat. Disitu dijelaskan bahwa
User dapat melihat tentang aplikasi, yang artinya mengetahui penjelasan tentang aplikasi
tersebut. Kemudian User dapat mengisi nilai pada atribut-atribut yang merupakan parameter
untuk diolah oleh metode Naive Bayes dan User dapat melihat hasil dari pengolahan dari
atribut-atribut yang telah di masukkan tadi. User dapat melihat informasi tentang penyakit

4
thalasemia, seperti apa, apa gejala-gejalanya dan pencegahannya. Admin disini berperan
dalam mengelola data user dan darah, yaitu menginput, mengedit dan
menghapus data.
Pada sistem ini memiliki alur utama program diagnosa penyakit thalasemia yang
merupakan aktivitas utama mengapa user menggunakan aplikasi ini.
act Sistem Diagnosis Penyakit Thalasemia

Login (Input username


dan passw ord)
Start

masuk ke menu sistem masuk ke halaman mendapatkan Hasil Logout


User

diagnosa Diagnosa
Finish

Input Nilai
Parameter-Parameter
Diagnosa
Metode Naive Nayes

Proses Diagnosa dengan


Metode Naiv e Bayes

Perhitungan dengan data uji pada metode Naive Bayes adalah sebagai berikut. Ada
sebuah data set dan data uji :

Atribut
Hasil Diagnosa
a b c d e f g h i
(aktual)
Data
Data 1 6,2 10,6 2,08 17,9 447 85,6 29,7 34,6 >13 Negatif
Data 2 13,1 10,1 4,17 40 337 50,4 32 33 <13 Negatif
Data 3 11,7 5,5 7,11 35 265 56,7 28,2 35 <13 Negatif
Data 4 12,3 11,1 6,09 39 284 87 27 31 >13 Negatif
Data 5 7,78 3,89 8,04 36,9 399 71,1 33,1 36,6 <13 Positif
Data 6 5,7 8 7,53 39,2 230 70,2 28,9 35,4 <13 Positif
Data 7 12,8 3,7 4,38 38,8 228 88,6 29,2 33 >13 Negatif
Data 8 14,2 6,26 4,9 42,1 190 85,9 29 33,7 >13 Negatif
Data 9 10,4 14,9 4,18 31,2 279 74,6 24,9 33,3 >13 Negatif
Data 10 12 3,7 4,05 34 133 85 28 33 >13 Negatif
........... .... .... .... .... .... .... .... .... .... ....
Data 96 13 4,51 4,12 40,1 407 85,6 29,7 34,6 >13 Negatif
Data 97 12,3 4,1 5,01 39 243 84,8 27,9 34 >13 Negatif
Data 98 12,6 3,86 4,11 32,2 141 85,2 29,1 34,9 >13 Negatif
Data 99 4,3 10,5 6,11 33 340 70,2 20,4 30,4 <13 Positif
Data 100 6,2 11 8,31 33,5 410 67 21,8 34,1 <13 Positif
Data Uji 16 19,1 5,38 44,7 244 83,1 29,7 35,8 >13 ?

5
Keterangan :
a) Hemoglobin
b) Lekosit
c) Eritrosit
d) Hematokrit
e) Trombosit
f) MCV
g) MCH
h) MCHC
i) Mentzer Index
Untuk data-data numerik kita melakukan perhitungan dengan rata-rata (Mean) dan
standar deviasi terlebih dahulu.

Data dengan hasil Negatif :


a) µ_Hemoglobin_negatif = 12.159749966859817
σ_Hemoglobin_negatif = 2.450935580387296
b) µ_Lekosit_negatif = 7.417625063657761
σ_Lekosit_negatif = 3.6568641470881067
c) µ_Eritrosit_negatif = 4.48275006711483
σ_Eritrosit_negatif = 1.1613483748242972
d) µ_Hematokrit_negatif = 35.58499977588654
σ_Hematokrit_negatif = 6.585174425138775
e) µ_Trombosit_negatif = 282.55
σ_Trombosit_negatif = 87.81413610575464
f) µ_MCV_negatif = 84.71749968528748
σ_MCV_negatif = 10.07450748674564
g) µ_MCH_negatif = 28.495000195503234
σ_MCH_negatif = 1.9461437542409399
h) µ_MCHC_negatif = 33.47874975204468
σ_MCHC_negatif = 1.0883120183602495

Data dengan hasil Positif :


a) µ_Hemoglobin_positif = 7.35200002193451
σ_Hemoglobin_positif = 1.9896873976062668
b) µ_Lekosit_positif = 8.244000113010406
σ_Lekosit_positif = 2.813288809519548
c) µ_Eritrosit_ positif = 7.961499953269959
σ_Eritrosit_ positif = 1.9499801027483605
d) µ_Hematokrit_ positif = 36.180000114440915
σ_Hematokrit_ positif = 3.745477039018909
e) µ_Trombosit_ positif = 331.9
σ_Trombosit_ positif = 72.81613832111671
f) µ_MCV_ positif = 73.87000007629395
σ_MCV_ positif = 8.929731766366436
g) µ_MCH_ positif = 25.53999948501587
σ_MCH_ positif = 5.00073968733647

6
h) µ_MCHC_ positif = 34.07499990463257
σ_MCHC_ positif = 2.215372296383713

Kemudian perhitungan dilanjutkan dengan pendekatan Gaussian, disini data uji


digunakan atau diinputkan pada rumus Gaussian.

1 (𝑥−𝜇)2

𝑓(𝑥) = 𝑒 2𝜎2
𝜎√2𝜋
Data dengan hasil Negatif :
f(Hemoglobin=16|negatif) = 0,047707564549848
f(Lekosit=19,1|negatif) = 0,00066338006578601
f(Eritrosit=5,38|negatif) = 0,25494259187449
f(Hematokrit=44,7|negatif) = 0,023249562389746
f(Trombosit=244|negatif) = 3,1199673798701 e-5
f(MCV=83,1|negatif) = 0,039101988317
f(MCH=29,7|negatif) = 0,16927638448708
f(MCHC=35,8|negatif) = 0,037706469583666

Data dengan hasil Positif :


f(Hemoglobin=16|positif) = 1,585051543426 e-5
f(Lekosit=19,1|positif) = 8,2863237821223 e-5
f(Eritrosit=5,38|positif) = 0,085195528421722
f(Hematokrit=44,7|positif) = 0,0080148181715539
f(Trombosit=244|positif) = 0,0026446193433759
f(MCV=83,1|positif) = 0,026193019011819
f(MCH=29,7|positif) = 0,056456743731467
f(MCHC=35,8|positif) = 0,13302029997121

Kemudian menghitung data non numerik, pada kasus ini hanya ada satu kolom pada
tabel yang bukan numerik, yaitu mentzer index yang mempunyai data >13 dan <13. Pada data
uji menunjukkan mentzer index = >13, maka perhitungannya :
Probabilitas hasil “Positif”:
P(Positif) = 20/100 = 1/5 = 0,2
Probabilitas hasil “Negatif”:
P(Negatif) = 80/100 = 4/5 = 0,8
Probabilitas mentzer index >13 dengan hasil “Positif”:
P(Mentzer Index = “>13” | Positif) = 4/100 = 0,04
Probabilitas mentzer index >13 dengan hasil “Negatif”:
P(Mentzer Index = “>13” | Negatif) = 74/100 = 0,74

Dengan ini, telah didapatkan semua hasil perhitungan tiap parameter. Langkah
terakhir yang dilakukan adalah dengan menghitung probabilitas akhir yang menentukan
apakah data uji tersebut memiliki hasil positif atau negatif. Perhitungannya adalah sebagai
berikut:
Probabilitas dengan hasil “Positif”:
P(Positif | E) = 3,7324004002448 e-21
Probabilitas dengan hasil “Negatif”:
P(Negatif | E) = 8,6474824898772 e-16

7
Pada hasil yang diperoleh diketahui bahwa :
8,6474824898772 e-16 > 3,7324004002448 e-21
Dengan kata lain P(Negatif | E) > P(Positif | E), maka dari itu hasil menunjukkan bahwa
NEGATIF merupakan diagnosa dari data uji tersebut.

Kemudian setiap data diuji dengan memasukkan masing-masing nilai pada parameter-
parameter tiap data ke dalam metode Naive Bayes, sehingga setiap hasil dari tiap data akan
diperoleh dari perhitungan melalui metode tersebut.
Setelah proses perhitungan dari keseluruhan data, diperoleh hasil :
TP (True Positive) = 18
FP (False Positive) =2
TN (True Negative) = 75
FN (False Negative) =5
𝑇𝑃
Recall = (𝑇𝑃+𝐹𝑁)
18
= (18+5) = 0,782608696 = 78,2608696%
𝑇𝑃
Precision =
(𝑇𝑃+𝐹𝑃)
18
= (18+2) = 0,9 = 90%
(𝑇𝑃+𝑇𝑁)
Accuracy = (𝑇𝑃+𝑇𝑁+𝐹𝑃+ 𝐹𝑁)
(18+75)
= (18+75+2+5) = 0,93 = 93%
(𝐹𝑃+𝐹𝑁)
Error Rate = (𝑇𝑃+𝑇𝑁+𝐹𝑃+ 𝐹𝑁)
(2+5)
= (18+75+2+5) = 0,07 = 7%

Pada perhitungan dengan metode Naive Bayes dan pengujian yang telah dilakukan
maka bisa kita dapatkan hasil dari pengujian yaitu Recall 78,2608696% yang artinya sistem
dapat memprediksi penyakit thalasemia sebesar 78,2608696% dan 21,7391304% masih lolos
dari prediksi. Hasil precision sebesar 90% yang artinya tingkat ketepatan antara informasi atas
parameter-parameter yang diinputkan oleh user dengan jawaban yang diberikan oleh sistem
sebesar 90% sedangkan 10% mengalami kesalahan/error dari parameter-parameter yang
diinputkan user atau perhitungan dari sistem. Hasil accuracy sebesar 93% yang artinya tingkat
kedekatan antara hasil diagnosa aktual dan hasil prediksi dari sistem sebesar 93%. Dan Error
Rate sebesar 7% yang artinya kemungkinan sistem mengalami kesalahan dimana antara hasil
perhitungan sistem dan hasil diagnosa aktual tidak cocok sebesar 7%.

4. KESIMPULAN

Berdasarkan hasil yang didapat dalam penelitian dan penyusunan skripsi ini serta
disesuaikan dengan tujuannya, maka diperoleh kesimpulan sebagai berikut:
1. Sistem pendiagnosaan pada objek penyakit thalasemia dapat menghasilkan sebuah
keputusan berdasarkan 9 nilai parameter pada hasil tes darah hematologi yang
diinputkan dengan menggunakan metode Naïve Bayes
2. Pembuatan sistem diagnosis penyakit thalasemia dapat membantu khususnya dokter
dalam melakukan pendiagnosaan terhadap pasien.
3. Metode Naïve Bayes dapat diimplementasikan dalam sistem untuk diagnosa penyakit
thalasemia pada hasil tes darah hematologi.

8
5. SARAN

Penelitian ini selanjutnya dapat dikembangkan dengan platform lain seperti di


smartphone android, desktop, IOS atau platform lainnya. Sehingga aplikasi bisa diunggah di
Google Playstore, Appstore atau media lainnya dengan tujuan aplikasi ini tidak hanya dapat
digunakan oleh dokter tetapi masyarakat yang ingin menggunakannya bisa mengunduh di
Google Playstore, Appstore atau media lain tersebut. Selain itu fitur-fitur lain bisa ditambah
atau dikembangkan untuk user interface yang lebih baik.

DAFTAR PUSTAKA

[1] I. H. Witten, E. Frank, and M. A. Hall, Data Mining : Practical Machine Learning Tools and
Techniques, 3rd ed. amsterdam: Elsevier, 2011.
[2] I. C. Dewi, A. A. Soebroto, and M. T. Furqon, “SISTEM PAKAR DIAGNOSA PENYAKIT SAPI
POTONG DENGAN METODE NAIVE BAYES,” vol. 02, no. 02, pp. 72–78, 2015.
[3] M. Kumari and S. Godara, “Comparative Study of Data Mining Classification Methods in
Cardiovascular Disease Prediction,” Ijcst, vol. 4333, pp. 304–308, 2011.
[4] U. Suwardi, A. Syukur, and R. Anggi P, “Komparasi Algoritma Backpropagation , Nearest
Neighbor , Dan Desicion Tree Untuk Mendeteksi Penyakit Demam Berdarah Pada Pasien
Opname,” vol. 8, no. April, pp. 57–67, 2012.
[5] L. Yane and F. Nisa, “GAMBARAN BADAN INKLUSI HbH PADA SUSPEK THALASEMIA DI
RUMAH SAKIT PTPN SUBANG” vol. 11, no. 1, pp. 129–149, 2014.
[6] R. S. Pressman and B. R. Maxim, SOFTWARE ENGINEERING: A PRACTITIONER’S
APPROACH, Eighth Edition. McGraw-Hill Education, 2015.
[7] S. B. Sakur, PHP 5 Pemrograman Berorientasi Objek - Konsep & Implementasi, I.
Yogyakarta: ANDI Yogyakarta, 2011.
[8] Sugiyono, Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung: ALFABETA, 2012.
[9] A. Hoffband, et al. Kapita selekta Hematologi, Jakarta: Penerbit buku Kedokteran EGC,
2005.
[10] M. R. Arief, Pemrograman Web Dinamis Menggunakan PHP dan MySQL, Yogyakarta:
ANDI, 2012.
[11] J. K. Kruschke, Doing Bayesian Data Analysis, 2nd edition, Bloomington: Elsevier, 2015.
[12] Anonim, (2015, Okt. 17), Manfaat TIK Dalam Bidang Pendidikan dan Kesehatan [Online],
Aviable: http://www.seputarit.com/manfaat-tik-dibidang-pendidikan-dan-
kesehatan.html.
[13] Hikmat, The United Kingdom Thalasemia Society, Jakarta: Yayasan thalasemia Indonesia,
2008.

Anda mungkin juga menyukai