Abstrak - Gangguan fungsi tiroid seringkali sulit diidentifikasi karena gejalanya tidak spesifik. Gejala gangguan
tiroid sangat mirip dengan berbagai keluhan akibat gaya hidup modern sehingga sangat sering diabaikan.
Akibatnya pasien seringkali tidak menyadari ada masalah dan tidak memeriksakan diri ke dokter. Untuk itu,
diperlukan sebuah penelitian yang menerapkan metode untuk memprediksi penyakit tersebut yang nantinya akan
mempermudah pasien dalam mendiagnosa dan deteksi dini terhadap kadar tiroid. Penelitian ini bertujuan untuk
melakukan prediksi terhadap penyakit tiroid dengan data yang digunakan adalah data sekunder yang diperoleh
dari UCI repository, data ini berisi tentang data pasien yang terkena penyakit tiroid, sedangkan metodenya
menggunakan algoritma J48 karena dalam beberapa penelitian, algoritma J48 terbukti memiliki performa yang
baik dalam mendeteksi suatu penyakit, serta menghasilkan nilai accuasy dan AUC yang tinggi. Tahapan analisa
data dilakukan berdasarkan metode CRISP-DM sedangkan pengujian algoritma dilakukan dengan tools Weka.
Hasil dari pengujian tersebut diperoleh nilai akurasi sebesar 99.645%, dan nilai AUC sebesar 0,992 dengan
demikian akurasi memiliki tingkat Excellent Classification.
Abstract - Impaired thyroid function is often difficult to identify because the symptoms are not specific. The
symptoms of thyroid disorder are very similar to various complaints due to modern lifestyles so it is often
overlooked. As a result, patients often do not notice a problem and do not have to consult a doctor. Therefore,
there is a study that implements methods to predict the disease which will facilitate the patient in diagnosing and
early detection of thyroid levels. This research aims to predict against thyroid disease with the data used is the
secondary data obtained from the UCI repository, this data is about the patient data affected by thyroid disease,
while the method uses the J48 algorithm because in some studies, the J48 algorithm is proven to have good
performance in detecting an illness, as well as producing high value of Accuasy and AUC. The stage of data
analysis is based on the CRISP-DM method while algorithm testing is done with Weka tools. Results of the test
obtained an accuracy value of 99.645%, and a AUC value of 0.992 thus the accuracy has Excellent
Classification level.
Naskah diterima: 16 Juli 2020, direvisi: 3 September 2020, disetujui: 7 September 2020
Paradigma – Jurnal Informatika dan Komputer,
Vol. 22, No. 2September 2020
P-ISSN 1410-5063, E-ISSN: 2579-3500
Faktor risiko penyakit atau gangguan tiroid Penerapan algoritma J48 juga telah banyak
dapat dipengaruhi oleh berbagai faktor seperti usia dilakukan dalam beberapa penelitian, salah satunya
di atas 60 tahun maka semakin berisiko terjadinya penlitian yang membahas tentang Penerapan
hipotiroid atau hipertiroid. Jenis kelamin perempuan Algoritme J48 Untuk Prediksi Penyakit Demam
biasanya lebih berisiko terjadi gangguan tiroid. Di Berdarah dan berdasarkan hasil penelitian,
antara banyak faktor penyebab auto imunitas disimpulkan bahwa, algoritme J48 mudah dalam
terhadap kelenjar tiroid, genetik dianggap mendeteksi penyakit demam berdarah pada pasien
merupakan factor pencetus utama. Merokok juga opname (Astuti, Mujiati, Ayu, Ristianah, & Lestari,
dapat menyebabkan kekurangan oksigen di otak dan 2016). Dalam penelitian lainya mengenai Diagnosis
nikotin dalam rokok dapat memacu peningkatan Penyakit Parkinson Berdasarkan Kombinasi
reaksi inflamasi. Selain itu, stres juga berkolerasi Algoritme Data Mining Dan Seleksi Fitur dijelaskan
dengan antibodi terhadap antibodi TSH-reseptor bahwa algoritme J48 memiliki nilai akurasi terbaik
(Kementerian Kesehatan, 2015). yaitu sebesar 96.923% dengan, ROC 0.982 dan
Gangguan fungsi tiroid biasanya sulit running time 0.10 detik. Sedangkan untuk algoritme
diidentifikasi karena gejalanya sangat mirip dengan klasifikasi dengan performa terendah dimiliki oleh
keluhan akibat gaya hidup modern sehingga gejala algoritme Naive Bayes dengan nilai 76.923%
tersebut sering diabaikan. Akibatnya pasien tidak (Lombok et al., 2016). Penelitian selanjutnya
menyadari ada masalah dalam dirinya dan tidak mengenai Perbandingan Klasifikasi Metode Naive
memeriksakannya ke dokter (Putri, 2019). Untuk Bayes dan Metode Decision Tree Algoritma (J48)
itu, diperlukan sebuah penelitian yang menerapkan pada Pasien Penderita Penyakit Stroke di RSUD
metode untuk memprediksi penyakit tersebut yang Abdul Wahab Sjahranie Samarinda Comparison
nantinya akan mempermudah pasien dalam yang menyimpulkan bahwa berdasarkan hasil
mendiagnosa dan deteksi dini. analisis dan pembahasan, dapat disimpulkan bahwa
Salah satu metode yang dapat digunakan hasil ketepatan klasifikasi penyakit stroke pada data
untuk memprediksi penyakit adalah dengan pasien di RSUD Abdul Wahab Sjahranie bulan
menggunakan data mining. Data mining adalah November dan Desember 2017 dengan metode naive
sekumpulan proses untuk mencari pola atau alur Bayes adalah 81,25% dan metode decision tree
yang selama ini tidak diketahui secara manual dari algoritma (J48) diperoleh tingkat akurasi sebesar
sebuah kumpulan data yang nantinya akan 87,5%. Hal ini menunjukkan bahwa pada penelitian
menghasilkan berupa pengetahuan baru (Handayani, ini, metode decision tree algoritma (J48)
Nurlelah, Raharjo, & Ramdani, 2019). memberikan ketepatan prediksi klasifikasi yang
Berdasarkan fungsionalitasnya tugas data lebih baik (Lishania, Goejantoro, & Nasution, 2019).
mining dapat dikelompokan menjadi enam Sehingga dapat disimpulkan bahwa penggunaan
kelompok yaitu Klasifikasi (classification), metode J48 merupakan metode yang cukup baik
Klasterisasi (clustering), Regresi (regression), dalam memprediksi penyakit .
Deteksi anomai (anomaly detection), Pembelajaran Penelitian penyakit tiroid juga telah
aturan asosiasi (association rule learning), dan banyak dilakukan mengingat beragamnya jenis
Perangkuman (summarization) (Suyanto, 2017). tiroid. Salah satunya penelitian yang dilakukan oleh
Dalam penelitian ini data mining yang digunakan Puji Widayati, Agus Ariyanto, Sri Setiyowati,
adalah klasifikasi yang merupakan teknik data Sutari, V Yulianti mengenai Preparasi Pereaksi Kit
mining yang mempelajari sekumpulan data sehingga Immunoradiometricassa (IRMA) Thyroglobulin
menghasilkan aturan untuk dapat mengklafikasi atau (TGB) Untuk Deteksi Kanker Tiroid (Widayati et
mengenali data-data baru yang belum pernah al., 2019). Penelitian yang dilakukan oleh Garri
dipelajari. Proses pembelajaran memerlukan data Prima Decroli, Eva Decroli mengenai Krisis Tiroid
input berupa data training yang memiliki atribut pada Wanita Multipara Usia 42 Tahun (Decroli &
kelas dan mengeluarkan output berupa model Decroli, n.d.), penelitian yang dilakukan oleh Litta
klasifikasi (Suyanto, 2017). Septina Mahmelia Zaid Endah Zuraidah Agnes
Sedangkan metode atau algoritma yang Stephanie mengenai Peran Rearrangement RET/PTC
digunakan dalam penelitian ini adalah J48. J48 pada Karsinoma Papiler Tiroid (Septina et al., 2019),
adalah salah satu jenis classifier pada metode Pengembangan Modul Catu Daya Tegangan Tinggi
klasifikasi dalam data mining dan bagian dari C4.5 Perangkat Scintigrafi Untuk Tiroid Sc-12 dilakukan
decision tree yang sederhana. C4.5 membangun oleh Wiranto Budi Santoso dkk (Santoso, Santoso,
sebuah pohon keputusan berdasarkan pada Romadhon, & Sukandar, 2016), selanjutnya
seperangkat input data yang berlabel. Pohon Diagnosis Tiroid yang dilakukan oleh Mansyur Arif
keputusan adalah model prediksi menggunakan (Kurniawan & Arif, 2015) yang tentunya memiliki
struktur pohon atau struktur berhirarki. Konsep dari berbagai macam metode. Dalam hal ini juga terdapat
pohon keputusan adalah mengubah data menjadi penelitian yang menggunakan data mining salah
pohon keputusan dan aturan-aturan keputusan satunya penelitian yang dilakukan oleh Bambang
(Diwandari & Setiawan, 2015). Wijonarko (2018) mengenai Perbandingan
Algoritma Data Mining Naive Bayes dan Bayes
154 Penerapan Algoritma J48 Untuk Deteksi Penyakit Tiroid
Paradigma – Jurnal Informatika dan Komputer,
Vol. 22, No. 2September 2020
P-ISSN 1410-5063, E-ISSN: 2579-3500
Network Untuk Mengidentifikasi Penyakit Tiroid. definisi masalah penambangan data dan rencana
Dalam penelitian ini melakukan komparasi awal yang dirancang untuk mencapai tujuan (T &
algoritma diantaranya Naïve Bayes dan Bayes Larose, 2015). Sasaran utama dari penelitian yang
Network yang menyatakan bahwa Bayes Network ingin dicapai adalah bagaimana memprediksi
memiliki Akurasi yang lebih tinggi dibandingan penykit tiroid.
Naïve Bayes (Wijonarko, 2018). Penelitian lainnya 2. Data Understanding
dilakukan oleh Umar Sidiq, Dr. Syed Mutahar Tahap ini dimulai dengan pengumpulan
Aaqib, dan Dr. Rafi Ahmad Khan (2019) mengenai data awal dan berlanjut dengan kegiatan yang
Diagnosis Berbagai Penyakit Tiroid menggunakan memungkinkan untuk menjadi memahami data,
Data Mining Teknik klasifikasi. Dalam penelitian ini mengidentifikasi masalah kualitas data, menemukan
dinyatakan bahwa Decision Tree memiliki akurasi wawasan pertama ke dalam data, dan/atau
yang lebih tinggi daripada algoritma lainnya (Sidiq, mendeteksi himpunan bagian yang menarik untuk
Aaqib, & Khan, 2019). membentuk hipotesis mengenai informasi
Berdasarkan latar belakang yang telah tersembunyi (Haryati et al., 2015).
diuraikan dari penelitian sebelumnya yaitu penelitian 3. Data Preparation
yang menggunakan berbagai metode klasifikasi Tahapan ini terdiri dari beragam operasi
meliputi KNN, SVM, Decision Tree, dan Naïve untuk membersihkan dan mentransformasi data yang
Bayes masih dapat dilakukan peningkatan dalam hal telah disiapkan untuk langkah pemodelan
akurasi yang dihasilkan. Hal tersebut dapat dilihat berikutnya. Beberapa jenis masalah pada data yang
karena terjadinya beberapa masalah seperti paling umum diantaranya: ketidakseimbangan kelas,
ketidakseimbangan data akibat terlalu banyaknya data tidak konsisten, outlier dan nilai-nilai yang
atribut dalam sebuah dataset. Oleh sebab itu, untuk hilang . Adapun jumlah data yang diteliti sebanyak
mengatasi permasalahan tersebut, penelitian ini 7200 data dengan 22 atribut.
dimaksudkan untuk meningkatkan akurasi dengan 4. Modeling
menerapkan algoritma J48 untuk prediksi penyakit Pada tahap modeling dalam data mining
tiroid. dilakukan proses pemilihan algoritma dengan
parameter nilai yang optimal. Hal ini bertujuan
METODOLOGI PENELITIAN untuk representasi komputasi dari hasil pengamatan
yang meruakan hasil dari pencarian pola-pola yang
Metodologi penelitian ini dilakukan dengan terkandung pada data. Pada penelitian ini model
tahapan CRISP-DM yang merupakan upaya algoritma yang dipilih yaitu algoritma J48 dengan
standarisasi proses data mining yang terdiri dari 6 metode pengujian split validation, cross validation.
tahapan (Haryati, Sudarsono, & Suryana, 2015). Cross Validation salah satu metode yang mampu
Sedangkan algoritma yang digunakan adalah menemukan parameter terbaik dengan cara menguji
algoritma J48. Berikut merupakan gambar tahapan besarnya error pada data testing (Gunawan, Palit, &
penelitian: Handojo, 2018).
5. Evaluation
Tahap Pemahaman Bisnis
Tiroid Pada tahapan ini, pengujian dilakukan
terhadap model untuk mendapatkan informasi model
Tahap Pemahaman Data
Dataset Tiroid yang paling akurat. Evaluasi dan validasi
menggunakan metode cross validation sebagai
Tahap Persiapan Data
metode pengujian, confusion matrix. Confusion
Merubah format
dataset
Konversi data
numerik menjadi Remove Duplicate matrix adalah suatu metode yang biasanya
kategorikal
digunakan untuk melakukan perhitungan akurasi
Featuer Selection Replace Missing pada konsep data mining (Rahman, Alamsah,
Attribute Value
Darmawidjadja, & Nurma, 2017) selain itu
digunakan sebagai evaluasi dari peneltian ini yang
Tahap Pemodelan nantinya akan menghasilkan Accuracy, dimana
Weka (Cross Validation dan J48)
Accuracy ini akan menjadi tolak ukur keberhasilan
Tahap Evaluasi
suatu metode, karena semakin tinggi nilai accuracy
Confusion Matrix
semakin baik pula metode yang digunakan. Metode
(Accurasy/AUC,
Recall, Precision)
Curva ROC
yang digunakan kali ini adalah metode J48.
Sarifah Agustiani, Ali Mustopa, Andi Saryoko, Windu Gata, Siti Khotimatul Wildah 155
Paradigma – Jurnal Informatika dan Komputer,
Vol. 22, No. 2September 2020
P-ISSN 1410-5063, E-ISSN: 2579-3500
0 (Tidak) UCI
Hamil
1 (Ya) Repository
0 (Tidak) UCI
Operasi Tiroid
1 (Ya) Repository
0 (Tidak) UCI
Pengobatan I131
1 (Ya) Repository
0 (Tidak) UCI
Tumor
1 (Ya) Repository
0 (Tidak) UCI
Hipopituitari
1 (Ya) Repository
0 (Tidak)
1 (Ya) UCI
Psikis
< 10,3 pmol/L Repository Sumber: (Agustiani et al., 2020)
Gambar 3. Proses Remove Duplicate
> 35 pmol/L
UCI Proses berikutnya adalah melakukan
TSH 0.0 s/d 0.53
Repository feature selection dengan dua tahap yaitu correlation
UCI attribute dan ranking selection hal ini dilakukan
T3 0.0005 s/d 0.18
Repository
untuk melihat atribut mana saja yang tidak memiliki
UCI
TT4 0.0020 s/d 0.6 pengaruh dalam pencarian model. Dalam hal ini
Repository
UCI semua atribut memiliki pengaruh terhadap
T4U 0.017 s/d 0.233 pemodelan, sehingga semua atribut tetap digunakan.
Repository
UCI Berikut merupkan gambaran proses feature selection
FTI 0.0020 s/d 0.642
Repository attribute:
1 (Normal)
UCI
Class 2 (Hipertiroid)
Repository
3 (Hipotiroid)
Sumber: (Agustiani et al., 2020)
Sarifah Agustiani, Ali Mustopa, Andi Saryoko, Windu Gata, Siti Khotimatul Wildah 157
Paradigma – Jurnal Informatika dan Komputer,
Vol. 22, No. 2September 2020
P-ISSN 1410-5063, E-ISSN: 2579-3500
Pemodelan ini juga menghasilkan role atau Dari pemodelan ini juga menghasilkan
pola dari penerapan algoritma J48 terhadap data beberapa nilai precision, recall, dan ROC untuk
penyakit tiroid dalam bentuk pohon keputusan masing-masing class dan juga nilai rata-rata dari
seperti terlihat pada Gambar 6. semua kelas. Dimana ROC yang di hasilkan adalah
0.992. Berikut merupakan tabel nilai precision,
recall dan ROC:
Tabel 3. Nilai Precision, Recall Dan ROC yang dihasilkan adalah 0,992 yang berarti akurasi ini
memiliki tingkat klasifikasi yang sangat baik.
99.645 % Precision Recall ROC
Dengan demikian dapat disimpulkan bahwa
Hipotiroid 0,999 0,997 0,992 algoritma J48 memiliki tingkat akurasi yang baik
Hipertiroid 0,992 0,995 0,997 dalam mendeteksi penyakit tiroid. Agar penelitian
Normal 0,915 0,970 0,984 ini bisa ditingkatkan, berikut adalah saran-saran
Rata-Rata 0,997 0,996 0,992 yang diusulkan:
Sumber: (Agustiani et al., 2020) 1. Dalam penelitian selanjutnya disarankan untuk
menggunakan dataset yang berbeda dengan
Sedangkan untuk kurva ROC setiap jumlah data dan atribut yang lebih banyak,
kelasnya dapat dilihat pada Gambar 7, Gambar 8, sehingga hasil pengukuran dapat lebih baik lagi.
dan Gambar 9. Dimana X merupakan False Positive
2. Mengimplementasikan metode ke dalam Grapic
dan Y merupakan nilai True Positive untuk setiap
class User Interface (GUI) yang mengikuti kemajuan
IPTEK, Seperti GUI yang berbasis mobile
computing atau aplikasi yang didukung oleh
android dan yang lainnya
REFERENSI
Sarifah Agustiani, Ali Mustopa, Andi Saryoko, Windu Gata, Siti Khotimatul Wildah 159
Paradigma – Jurnal Informatika dan Komputer,
Vol. 22, No. 2September 2020
P-ISSN 1410-5063, E-ISSN: 2579-3500
Desember 2015. Jurnal E-Clinic, 4(1), 430– Thyroglobulin ( TGB ) Untuk Deteksi Kanker
437. Tiroid, (April), 1–8.
Kementerian Kesehatan. (2015). Infodatin Tiroid. Wijonarko, B. (2018). Perbandingan Algoritma Data
Kurniawan, L. B., & Arif, M. (2015). DIAGNOSIS Mining Naive Bayes Dan Bayes Network
TIROID (Diagnosis of Thyroid) Liong. Untuk Mengidentifikasi Penyakit Tiroid.
INDONESIAN JOURNAL OF CLINICAL PILAR Nusa Mandiri, 14(1), 21–26. Retrieved
PATHOLOGY AND MEDICAL from
LABORATORY, 7(1), 2–7. https://media.neliti.com/media/publications/22
Lishania, I., Goejantoro, R., & Nasution, N. (2019). 7524-perbandingan-algoritma-data-mining-
Perbandingan Klasifikasi Metode Naive Bayes naive-2eb3d17d.pdf
dan Metode Decision Tree Algoritma ( J48 )
pada Pasien Penderita Penyakit Stroke di
RSUD Abdul Wahab Sjahranie Samarinda PROFIL PENULIS
Comparison of the Classification for Naive
Bayes Method and the Decision Tree Sarifah Agustiani
Algorithm ( , 10, 135–142. Tahun 2019 lulus dari Program Strata Satu
Lombok, H., Mataram, R., Astuti, T., Ferinanto, T., (S1) Program Studi Sistem Informasi
Informatika, J. T., & Informasi, J. S. (2016). Universitas Bina Sarana Informatika dan
Sekarang sedang melanjutkan pendidikan
Diagnosis Penyakit Parkinson Berdasarkan Program Magister (S2) Sekolah Tinggi
Kombinasi, 28–29. Manajemen Informatika dan Komputer Nusa
Putri, A. W. (2019). Gangguan Tiroid sebagai Beban Mandiri.
Baru Negara.
Rahman, M. F., Alamsah, D., Darmawidjadja, M. I., Ali Mustopa
& Nurma, I. (2017). Klasifikasi Untuk Tahun 2019 lulus dari Program Strata Satu
Diagnosa Diabetes Menggunakan Metode (S1) Program Studi Sistem Informasi
Bayesian Regularization Neural Network Sekolah Tinggi Manajemen Informatika dan
(RBNN). Jurnal Informatika, 11(1), 36. Komputer Nusa Mandiri Nusa Mandiri dan
Sekarang sedang melanjutkan pendidikan
https://doi.org/10.26555/jifo.v11i1.a5452 Program Magister (S2) Sekolah Tinggi
Santoso, W. B., Santoso, B., Romadhon, & Manajemen Informatika dan Komputer Nusa
Sukandar. (2016). PERANGKAT Mandiri.
SCINTIGRAFI UNTUK TIROID SC-12 pada
organ tersebut . Proses pencitraan Andi Saryoko
menggunakan perangkat scintigrafi dilakukan Tahun 2008 lulus dari Program Strata Satu
untuk mendiagnosis fungsi kelenjar tiroid ( (S1) Program Studi Sistem Informasi
gondok ) [ 1 ] . Proses pencitraan tiroid Sekolah Tinggi Manajemen Informatika dan
radionuklida ke pasien . Sistem deteksi pera. Komputer Nusa Mandiri Nusa Mandiri dan
tahun 2011 lulus dari Magister (S2) Program
JURNAL PERANGKAT NUKLIR, 10(1978), Studi Ilmu Komputer Sekolah Tinggi Manajemen
1–10. Informatika dan Komputer Nusa Mandiri.
Septina, L., Zaid, M., Zuraidah, E., Stephanie, A.,
Septina, L., Zaid, M., … Stephanie, A. (2019). Windu Gata
Pratista Patologi Peran Rearrangement RET / Tahun 1999 lulus dari Program Strata Satu
PTC pada Karsinoma Papiler Tiroid Pratista (S1) Program Studi Teknik Informatika
Patologi, 6(1). Universitas Budi Luhur, Tahun 2008 lulus dari
Sidiq, U., Aaqib, S. M., & Khan, R. A. (2019). Program Magister (S2) Program Studi Ilmu
komputer Universitas Budi Luhur dan Tahun 2015
Diagnosis of Various Thyroid Ailments using lulus dari program Doktor (S3) Program Studi
Data Mining Classification Techniques, 5(1), Manajemen Pendidikan Universitas Negeri Jakarta.
131–136.
Suyanto. (2017). Data Mining untuk Klasifikasi dan Siti Khotimatul Wildah
Klasterisasi Data. Bandung: Informatika Tahun 2019 lulus dari Program Strata Satu
Bandung. (S1) Program Studi Sistem Informasi
T, L. D., & Larose, C. D. (2015). Data Mining and Universitas Bina Sarana Informatika dan
Predictive Analytics (Second Edi). Canada: Sekarang sedang melanjutkan pendidikan
Simultaneously. Program Magister (S2) Sekolah Tinggi
Widayati, P., Ariyanto, A., Setiyowati, S., Yulianti, Manajemen Informatika dan Komputer Nusa
V., Teknologi, P., Setu, K. P., & Selatan, T. Mandiri.
(2019). Preparasi Pereaksi Kit
Immunoradiometricassa ( IRMA )