1 PB
1 PB
Abstrak—Data Riskesdas 2013 menunjukkan 28 juta penduduk Indonesia terinfeksi hepatitis B atau C. Potensi penderita hepatitis
kronik sebesar empat belas juta dan satu koma empat juta diantaranya berpotensi menjadi penderita kanker hati. Perawatan bagi pasien
hepatitis B kronik bertujuan memperpanjang harapan hidup pasien. Hepatitis C merupakan penyebab utama kanker hati dan sirosis.
Vaksin yang tepat bagi penderita hepatitis kronik belum ditemukan sehingga pengobatannya hanya bertujuan memperpanjang harapan
hidup pasien. Masa depan kesehatan pasien hepatitis kronik atau akut dapat diukur dari gejala-gejala hasil pemeriksaan baik fisik
maupun laboratorium. Berdasarkan hasil pemeriksaan, dokter dapat memprediksi apakah pasien berisiko meninggal dunia karena
penyakit tersebut sehingga dapat memberikan perlakuan yang tepat pada pasien. Data mining adalah salah satu teknik untuk
menemukan pola informasi dari dataset pasien hepatitis. Pola informasi tersebut digunakan untuk membangun model yang dapat
memprediksi resiko kematian pasien hepatitis. Klasifikasi adalah salah satu teknik dalam data mining untuk analisis prediksi. Penelitian
bertujuan menerapkan metode data mining klasifikasi untuk memprediksi harapan hidup penderita hepatitis kronik. Fokus penelitian
adalah membandingkan beberapa metode klasifikasi dan akurasinya dalam memprediksi harapan hidup pasien hepatitis. Metode yang
diajukan adalah K-NN, Naive Bayes, D-Tree, dan Random forest. Model yang dirancang akan diuji menggunakan 155 data penderita
hepatitis kronik atau akut. Performance model diukur berdasarkan nilai akurasi dan AUC. Model yang dirancang akan diuji
menggunakan 155 data penderita hepatitis kronik atau akut. Kinerja model diukur berdasarkan nilai akurasi dan AUC. Metode validasi
menggunakan k-fold cross validation dengan k = 10. Hasil pengujian model menunjukkan Random forest merupakan metode yang paling
akurat yaitu mencapai 79.35%. Nilai AUC Naive Bayes, D-Tree, dan Random forest lebih dari 0.8, artinya ketiga model tersebut bagus
sebagai classifier. Sedangkan nilai AUC K-NN adalah 0.7 artinya K-NN hanya pada level fair atau cukup.
I. PENDAHULUAN
Hepatitis adalah salah satu jenis penyakit endemis di beberapa negara berkembang, termasuk Indonesia. Penyakit ini
disebabkan oleh infeksi jamur, bakteri, virus, obat-obatan, konsumsi alkohol, lemak berlebihan, atau penyakit autoimmune. Ada 5
jenis hepatitis mulai dari ringan sampai dengan kronik, yaitu A, B, C, D, E. Data riset kesehatan dasar (Riskesdas) 2013
menunjukkan bahwa setiap 100 orang di Indonesia terdapat 10 penduduk yang terinfeksi virus hepatitis C atau B. Sehingga
diperkirakan terdapat 28 juta penduduk yang terinfeksi, 14 juta orang diantaranya berpotensi menjadi hepatitis kronik, dan 1,4 juta
dari yang kronik tersebut berpotensi terkena kanker hati [1]. Pada tahun 2013, Indonesia termasuk negara endemis hepatitis B pada
urutan kedua tertinggi di Asia Tenggara[1]. Serangakaian tes untuk diagnosis hepatitis biasanya dilakukan setelah ada indikasi atau
gejala yang dirasakan pasien atau ditemukan tidak sengaja pada pemeriksaan lainnya. Hepatitis kronik seperti hepatitis B, C, atau
D dapat berubah menjadi akut dan menimbulkan sirosis bahkan kanker hati. Saat pasien sudah dinyatakan mengidap hepatitis kronik
maka berpotensi menjadi hepatitis akut bahkan berisiko kematian. Dokter tidak dapat menentukan harapan hidup penderita pasien
hepatitis kronik atau akut.
Data mining klinik adalah penerapan metode data mining untuk tujuan menggali informasi data medis dan data klinis [2] [3].
Dengan metode ini, kondisi pasien dimasa masa depan dapat diprediksi berdasarkan observasi data pasien lainnya atau di masa
lalu [4] [5]. Salah satu metode prediksi adalah klasifikasi. Berbagai metode klasifikasi diuji coba untuk melihat akurasi hasil prediksi
pada data pasien hepatitis [5] [6][7].
Penelitian ini bermaksud menerapkan metode data mining klasifikasi untuk memprediksi harapan hidup penderita hepatitis
kronik. Fokus penelitian adalah membandingkan beberapa metode klasifikasi dan akurasinya dalam memprediksi harapan hidup
pasien hepatitis.
Penelitian [5] menyebutkan metode Decesion Tree (D-Tree) adalah teknik yang paling sering digunakan untuk klasifikasi dan
prediksi diantaranya adalah ID3 dan C.45[5]. Penelitian terkait dataset pasien hepatitis adalah uji coba beberapa algoritma
klasifikasi seperti Naive Bayes, BayesNet, Random forest, Naive Bayes Updatable, J48, dan Multi Layer Perceptron menggunakan
dataset dari UCI learning repository[6]. Hasilnya adalah akurasi model dan kecepatan proses menunjukkan Naive Bayes merupakan
metode terbaik untuk dataset tersebut[6]. Penelitian yang lain adalah penerapan metode klasifikasi Logistic Regression, Decision
Tree (D-Tree), Linear Support Vector, dan Naive Bayes pada dataset hepatitis. Tujuannya untuk mengklasifikasikan apakah
seseorang akan tetap hidup atau mati [9]. Penelitian yang lain adalah pengembangan model untuk mengidentifikasi pasien beresiko
tinggi kanker hati, menggunakan teknik analisis prediksi data mining [4]. Penelitian yang lain adalah tentang penalaran berbasis
kasus untuk penyakit hepatitis. Penelitian ini mengkombinasikan dua metode yaitu PSO dan CBR (Case-Based Reasoning) untuk
menegakkan diagnosis penyakit hepatitis. Data diperoleh dari dataset UCI machine learning repository dan digunakan untuk
membandingkan lima metode klasifikasi yang lain dan metode CBR-PSO mendapatkan akurasi tertinggi yaitu of 93.25%[10]. Hasil
perbandingan akurasi dua metode yaitu algoritma C4.5 dengan Naive Bayes untuk prediksi harapan hidup pasien hepatitis
menyimpulkan akurasi C.45 hanya 77,29% sedangkan akurasi Naive Bayes mencapai 83,71% [11].
C. Pre-Prosessing
1) Data Cleanning
Data missing value adalah data atribut yang nilainya “?”. Untuk mengatasi data missing value tersebut, setiap data atribut
yang bernilai “?” diubah menjadi 0.
D. Metode Klasifikasi
1) K-Nearest Neighbor
Metode ini mencari kesaman kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada
pencocokan bobot dari sejumlah fitur yang ada. Nilai similiaritas dihitung mengunakan persamaan (1).
n
f (Ti , Si) wt
similarity(T , S ) = i =1
(1)
wt
Keterangan:
T : Kasus baru
S : Kasus yang ada dalam penyimpanan
n : Jumlah atribut dalam setiap kasus
i : Atribut individu antara 1 sampai dengan n
f : fungsi similarity atribut i antara kasus T dan kasus S
w : bobot yang diberikan pada atribut ke-i
Kedekatan biasanya berada pada nilai 0 sampai dengan 1. Nilai 0 artinya kedua kasus mutlak tidak mirip, dan nilai 1 kasus mutlak
mirip.
akar
T
split
T T
daun
A T B C
A B
Gambar 1. Struktur pohon keputusan.
Pada Gambar 1, setiap kotak disebut sebagai simpul yang didalamnya terdapat proses T yang secara rekursif membagi data
menjadi kelompok-kelompok data yang lebih kecil. Label A, B, dan C yang ada di setiap daun adalah label kelas yang ditetapkan
untuk setiap satu observasi. Setiap simpul T dalam pohon keputusan hanya memiliki satu buah simpul induk dan dua atau lebih
simpul anak [12].
4) Random Forest
(RF) adalah classifier dalam tipe pohon keputusan. RF muncul karena pohon yang dihasilkan D-Tree tidak fleksibel ketika
digunakan mengklasifikasi data baru. Prinsip kerja RF adalah membuat banyak pohon klasifikasi dari dataset. Algoritma RF
menerapkan bootsrap aggregation (Bagging) yang diperkenalkan oleh Breimans [13]. Bagging merupakan pembelajaran ensemble
atau penggabungan beberapa algoritma classifier yang bertujuan untuk menghindari masalah varians yang tinggi, membuat pohon
keputusan lebih stabil dan meningkatkan akurasi [13]. Langkah-langkah RF yaitu[14] :
a. Proses dimulai dari membuat dataset bootstrap dengan ukuran sama dengan dataset asli yang anggota dataset-nya diambil
secara acak dari dataset asli. Satu data dapat dipilih acak lebih dari satu kali.
b. Pohon dibentuk dari dataset bootstrap namun hanya menggunakan subset variabel pada setiap langkahnya. Pembentukan
pohon ini tidak menggunakan langkah pruning (pemangkasan).
c. Ulangi langkah a dan b sehingga terbentuk banyak pohon dari bootstrap atau ntree.
d. Memprediksi data baru menggunakan pohon-pohon ntree yang terbentuk. Hasil keputusan setiap pohon akan disimpan dan
diakumulasi sesuai jenis labelnya. Keputusan akhir prediksi adalah jenis label dengan jumlah mayoritas.
Keluaran dari classifier diperoleh dari gabungan prediksi semua pohon untuk kombinasi keputusan.
𝑇𝑃+𝑇𝑁
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (3)
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
2) Presisi
Presisi adalah nilai rata-rata TP (TP rate) yang terprediksi benar, dihitung mengunakan persamaan (4). Nilai presisi tersebut
menunjukkan sensivitas model yang dibangun.
𝑗𝑢𝑚𝑙𝑎ℎ 𝑇𝑃
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = (4)
𝑗𝑢𝑚𝑙𝑎ℎ 𝑇𝑃+𝑗𝑢𝑚𝑙𝑎ℎ 𝐹𝑁
3) Recall
Recall menunjukkan specivicity model. Recall adalah perbandingan antara jumlah record yang relevan dengan jumlah total
record dalam basisdata. Perhitungan recall mengunakan persamaan (5).
𝑗𝑢𝑚𝑙𝑎ℎ 𝑇𝑁
𝑅𝑒𝑐𝑎𝑙𝑙 = (5)
𝑗𝑢𝑚𝑙𝑎ℎ 𝑇𝑁+𝑗𝑢𝑚𝑙𝑎ℎ 𝐹𝑃
4) ROC- AUC
Kurva ROC adalah kura yang memetakan nilai TP pada sumbu y dan FP pada sumbu x. Hasil AUC diklafikasikan
berdasarkan kelas berikut [15]:
0.90 - 1.00 = excellent classification
0.80 - 0.90 = good classification
0.70 - 0.80 = fair classification
0.60 - 0.70 = poor classification
0.50 - 0.60 = failure
IV. PENGUJIAN DAN PEMBAHASAN
A. Pengujian
Pengujian menggunakan k-fold cross validation dengan k = 10. Dataset berjumlah 155 record dibagi menjadi sepuluh partisi
secara acak. Sepuluh partisi tersebut dibagi menjadi sembilan partisi sebagai data latih dan satu partisi sebagai data uji. Data latih
digunakan untuk membangun model sedangkan data uji untuk menguji model yang telah dibangun. Hasil pengujian dengan
empat model yaitu K-NN, Naive Bayes, D-Tree, dan Random forest sebagai berikut:
2) Naive Bayes
Tabel 6 adalah hasil pengujian menggunakan metode Naive Bayes.
TABEL 8 PENGUJIAN DENGAN NAIVE BAYES
True Positif “Live” True Negatif “Die” Kelas Presisi AUC Akurasi(3)
Prediksi “Live” 86 5 94.51% 0.84 72,90%
Prediksi “Die” 37 27 42.19%
Kelas Recall 69.92% 84.38%
4) Random Forest
Tabel 8 adalah hasil pengujian mengunakan Random forest.
TABEL 10 PENGUJIAN DENGAN RANDOM FOREST
True Positif “Live” True Negatif “Die” Kelas Presisi AUC Akurasi(3)
Prediksi “Live” 117 26 86.82 % 0.81 79,35%
Prediksi “Die” 6 6 50 %
Kelas Recall 95.12% 18.75%
B. Analisis Hasil
Perbandingan akurasi dan AUC hasil pengujian dirangkum pada Tabel 9. Hasil pengujian menunjukkan urutan akurasi tertinggi
adalah algoritma Random forest dengan akurasi 79.35%, disusul akurasi D-Tree sebesar 74.84%, Naive Bayes sebesar 72.90%, dan
KNN sebesar 70.31%. Empat model yang diuji memiliki akurasi yang hampir sama. Selain akurasi, kinerja model ditunjukkan dengan
nilai AUC yang semuanya mempunyai nilai lebih besar sama dengan 7. Nilai AUC K-NN sebesar 0.7 artinya model K-NN adalah
classifier pada level fair. Sedangkan Naive Bayes, D-Tree dan Random forest nilai AUC-nya diatas 0.8 artinya termasuk classifier
dengan level good. Akurasi metode Naive Bayes dengan penelitian sebelumnya [11] jauh berbeda hasilnya. Hal ini perlu diselidiki
lebih dalam karena data yang digunakan adalah sama. Karena pre-prosessing pada penelitian [11] tidak dijelaskan maka bisa diduga
perbedaan pre-processing akan menyebabkan akurasi model. Meskipun missing value pada atribut PROTIME cukup besar namun
tetap dianggap sebagai atribut penentu dalam prediksi.
TABEL 11 MATRIK AKURASI KLASIFIKASI
Algoritma Akurasi AUC
K-NN 70.31 0.7
Naive Bayes 72.90 0.84
Decision Tree (D-Tree) 74.84 0.81
Random forest 79.35 0.81
Penelitian berikutnya adalah bagaimana mencapai akurasi lebih dari 80% dengan memodifikasi metode- metode tersebut
atau menggunakan metode lainnya. Pengujian lebih lanjut sebaiknya menggunakan data sampel yang lebih banyak, dan berupa data
primer yang diperoleh dari klinik atau RS di Indonesia.
REFERENSI
[1] Pusdatin Kemenkes RI, “Infodatin.” Pusdatin Kemenkes RI, Jakarta, 2014.
[2] S. GraciaJacob and R. Geetha Ramani, “Data Mining in Clinical Data Sets: A Review,” Int. J. Appl. Inf. Syst., vol. 4, no. 6, pp. 15–26, 2012.
[3] E. M. F. El Houby, “A Survey On Applying Machine Learning Techniques For Management Of Diseases,” J. Appl. Biomed., vol. 16, no. 3, pp. 165–174,
2018.
[4] M. Kurosaki et al., “Data Mining Model Using Simple And Readily Available Factors Could Identify Patients At High Risk For Hepatocellular Carcinoma
In Chronic Hepatitis C,” J. Hepatol., vol. 56, no. 3, pp. 602–608, 2012.
[5] S. O. Hussien, S. S. Elkhatem, N. Osman, and A. O. Ibrahim, “A Review of Data Mining Techniques for Diagnosing Hepatitis,” in Sudan Conference on
Computer Science and Information Technology (SCCSIT) 2017, 2017, vol. 101, no. 1, pp. 41–46.
[6] T. Karthikeyan and P. Thangaraju, “Analysis of Classification Algorithms Applied to Hepatitis Patients,” Int. J. Comput. Appl., vol. 62, no. january, pp. 25–