Teknik Informatika, Fakultas Teknik, Universitas Pamulang, Tangerang Selatan, Banten, Indonesia
Email: kemunk.alfatih@gmail.com
Abstract
Men’s fertility disorder is one of difficult thing to be diagnosed, if fertility has a problem, the
fertilization process will be disrupted. That’s all to be the most predominant cause of discordant
household. Numbers of data on men's fertility are obtained by detailed enough. Secondary data from this
dataset, made a reference in making decision tree using the ID3 algorithm in software Rapid Miner.
Iterative Dichotomizer (ID3) is used because it is one of the commonly used classification algorithm in
Data Mining to implement decisions of some attributes that have been determined in accordance with the
data customized with their needs. ID3 algorithm generally calculates the Entropy value of each attribute
and the value of the Information Gain of each attribute that are able to form a decision tree that is
expected to assist in decision making. The results of the tests and the method can be used to diagnose
men’s fertility appropriately with a fairly high degree of accuracy.
http://openjournal.unpam.ac.id/index.php/informatika 35
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
http://openjournal.unpam.ac.id/index.php/informatika 36
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
Secara umum proses data mining begitu 6. Presentasi pengetahuan. Tahap ini
interaktif karena terkadang hasil yang didapat mempresentasi pola yang diperoleh untuk
pada mulanya kurang sesuai terhadap harapan memperoleh tindakan tahap akhir dari
penganalisanya, sehingga pada prosesnya pemrosesan data mining yaitu seperti apa
memerlukan pengulangan desain. cara memformulasikan keputusan dari
hasil analisa yang telah didapat.
Pohon Keputusan
Pohon keputusan (decision tree) merupakan
struktur flowchart yang memiliki tree (pohon),
yang mana tiap simpul internal menandakan suatu
tes atribut, setiap cabang merepresentasikan hasil
tes, dan simpul daunnya merepresentasikan kelas
atau distribusi kelas (Santosa Budi, 2007). Pohon
keputusan juga bisa diartikan sebagai diagram
yang menyerupai diagram alur yang menunjukkan
berbagai hasil dari serangkaian keputusan. Pohon
keputusan membuat model prediksi berdasarkan
serangkaian percabangan yang menggunakan
fakta-fakta spesifik untuk membuat kesimpulan
yang lebih umum.
Gambar 1. Data mining sebagai bagian dari Pohon keputusan memiliki tiga bagian utama
proses knowledge discovery diantaranya simpul akar, simpul daun, dan cabang.
Simpul akar adalah titik awal dari pohon, dan
Tahapan-tahapan yang bersifat interaktif simpul akar dan daun berisi pertanyaan atau
dalam proses data mining di mana pengguna kriteria yang harus dijawab. Cabang adalah panah
terlibat secara langsung atau dengan perantara yang menghubungkan node, menunjukkan aliran
knowledge base (Tan, dkk, 2004) antara lain: dari pertanyaan ke jawaban. Setiap node biasanya
1. Pembersihan data. Berfungsi memilah memiliki dua atau lebih node yang memanjang
atau membersihkan data yang kerap darinya. Misalnya, jika pertanyaan di simpul
berubah-ubah serta mempunyai noise. pertama membutuhkan jawaban "ya" atau "tidak",
2. Intergrasi data. Diperlukan untuk data akan ada satu simpul daun untuk respons "ya", dan
mining yang bukan saja bersumber dari simpul lain untuk "tidak”.
satu database namun dapat pula dari
banyak database atau textfile. Hasil dari Algoritma ID3
pengintegrasian data akan ditampilkan ID3 merupakan pendahulu dari algoritma
berupa data warehouse, sebab data C4.5. Secara sederhana, ID3 membangun pohon
dikonsolidasikan melalui struktur khusus keputusan dari serangkaian contoh yang tetap.
yang efektif dan efisien. Pohon keputusan yang dihasilkan digunakan untuk
3. Transformasi data. Guna menentukan mengklasifikasikan sampel untuk dijadikan
seberapa berkualitasnya hasil dari data pedoman di masa yang akan datang. Contoh-
mining yang diperoleh, agar data dapat contoh dari data set yang diberikan memiliki
diubah ke dalam bentuk yang diinginkan. beberapa atribut dan setiap contoh milik kelas
4. Aplikasi teknik data mining. Salah satu (seperti ya atau tidak). Node daun pohon
bagian dari tahapan proses data mining. keputusan berisi nama kelas sedangkan node
Digunakan untuk memproses atau bukan daun adalah node keputusan. Node
mengolah data yang besar. keputusan adalah atribut dengan setiap cabang (ke
5. Evaluasi pola yang diperoleh. Pada tahap pohon keputusan lain) menjadi nilai yang
yang ke 5, hasil yang diperoleh dari mungkin dari tiap atribut. ID3 menggunakan
penggunaan data mining berbentuk pola- heuristik pemilihan fitur untuk membantunya
pola unik ataupun model prediksi dilihat memutuskan atribut mana yang masuk ke simpul
kembali untuk memberikan penilaian keputusan. Heuristik yang diperlukan dapat dipilih
mengenai hipotesa yang telah dirumuskan oleh parameter kriteria.
sudah sesuai atau belum sesuai rencana. Algoritma ID3 berupaya menghasilkan pohon
keputusan dengan urutan top-down (atas ke
http://openjournal.unpam.ac.id/index.php/informatika 37
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
http://openjournal.unpam.ac.id/index.php/informatika 38
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
Dan didapat pula rule (aturan-aturan) yang | | musim = semi: subur {subur=8,
didapatkan dari pohon keputusan tersebut. Berikut masalah=0}
aturan-aturanya. | kebiasaan duduk = L
| | musim = dingin: subur {subur=2,
usia = > 18 masalah=1}
| pernah demam tinggi = < 3 bulan | | musim = gugur: masalah {subur=1,
| | riwayat bedah = tidak: subur {subur=3, masalah=2}
masalah=0} | | musim = panas: masalah {subur=0,
| | riwayat bedah = ya: subur {subur=1, masalah=1}
masalah=1} | | musim = semi: subur {subur=2,
| pernah demam tinggi = > 3 bulan: subur masalah=1}
{subur=27, masalah=0} | kebiasaan duduk = S: masalah {subur=1,
| pernah demam tinggi = tidak ada: subur masalah=1}
{subur=14, masalah=0} | kebiasaan duduk = SL: subur {subur=2,
usia = > 25 masalah=0}
| kebiasaan duduk = CL usia = > 31
| | musim = dingin: subur {subur=8, | konsumsi alkohol = BKS: subur {subur=5,
masalah=0} masalah=0}
| | musim = gugur | konsumsi alkohol = SS: masalah {subur=0,
| | | pernah demam tinggi = < 3 bulan: masalah=1}
subur {subur=1, masalah=0} | konsumsi alkohol = TP: subur {subur=3,
| | | pernah demam tinggi = > 3 bulan masalah=0}
| | | | pernah kecelakaan = tidak: subur
{subur=4, masalah=0} Pengujian
| | | | pernah kecelakaan = ya Guna mengetahui tingkat ketepatan dan
| | | | | konsumsi alkohol = BKS: subur keberhasilan dari penelitian yang dilakukan, bisa
{subur=1, masalah=1} dilihat dari hasil kerja model yang terbentuk.
| | | | | konsumsi alkohol = SS: masalah Pengujian penelitian ini diharapkan dapat
{subur=1, masalah=2} mendapatkan model yang tepat dalam
| | | | | konsumsi alkohol = TP: subur mendiagnosis kesuburan seorang pria
{subur=2, masalah=0} menggunakan algoritma ID3 dengan baik.
| | | pernah demam tinggi = tidak ada: Model yang telah dikembangkan akan diuji
masalah {subur=0, masalah=1} keakuratannya dengan memasukkan beberapa data
| | musim = panas: subur {subur=2, uji ke dalam pemodelan. Guna menghitung
masalah=0} keakuratan model secara tepat, data uji sebaiknya
http://openjournal.unpam.ac.id/index.php/informatika 39
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
bukan data yang berasal dari data training (Han, digunakan perbandingan seperti pada tabel di
J., & Kamber, M. 2006). Namun, dikarenakan data bawah ini:
sampel hanya terdapat sejumlah 100, maka data
training yang digunakan juga akan dijadikan data Tabel 2 Model Confussion Matrix
testing. Correct Classified as
Guna memperoleh hasil prediksi dari Classification Positive Negative
penggunaan ID3, sampel yang tersedia diuji ke Positive True Positives False Negatives
dalam data training. Dalam pengujian ini, Negative False True Negatives
ditambahkan metode untuk menyeleksi atribut lain Negatives
berupa gini index dan gain ratio dengan maksud
mencari tahu nilai akurasi dari masing-masing True positives adalah tupel positif pada data
metode penyeleksian atribut melalui algoritma set yang dikategorikan positif. Sedangkan true
yang sama yaitu ID3. negatives adalah tupel negatif pada data set yang
dikategorikan negatif. False positives adalah tupel
positif pada data set yang dikategorikan negatif
sedangkan untuk false negatives adalah jumlah
tupel negatif yang dikategorikan positif.
Sesudah memasukkan data pengujian ke
dalam model confusion matrix, akan dihitung
nilai yang sudah dimasukkan sebelumnya untuk
diketahui jumlah sensitivity, specificity, precision
dan accuracy. Jumlah sensitivity dipakai guna
membuat perbandinan jumlah true positives
kepada jumlah tupel yang positives sedangkan
specificity ialah untuk membandingkan jumlah
true negatives terhadap jumlah tupel yang
negatives. Dalam mengevaluasinya digunakan
perhitungan seperti di bawah ini.
𝑡_𝑝𝑜𝑠
sensitivity = 𝑝𝑜𝑠
𝑡_𝑛𝑒𝑔
specificity = 𝑛𝑒𝑔
𝑡_𝑝𝑜𝑠
precision =(𝑡_𝑝𝑜𝑠 + 𝑓_𝑝𝑜𝑠)
𝑝𝑜𝑠 𝑛𝑒𝑔
accuracy=sensitifity 𝑝𝑜𝑠 + 𝑛𝑒𝑔 + specificity 𝑝𝑜𝑠 + 𝑛𝑒𝑔
di mana:
t_pos = jumlah true positives
t_neg = jumlah true negatives
Gambar 4 Pola Pencarian dan Pengujian Model pos = jumlah tupel positif
neg = jumlah tupel negatif
Dari hasil penerapan seperti gambar di atas, f_pos = jumlah false positives
berikutnya akan dilihat kembali tingkat akurasinya
dengan menggunakan dua model yaitu confusion Nilai sensitivity, specificity, accuracy,
matrix dan ROC (Receiver Operating precision, dan recall dari data training yang telah
Characteristic). dihitung menggunakan tools rapid miner diuji
menggunakan perhitungan split-validation dengan
1. Evaluasi model confusion matrix. kriteria information gain. Dengan mengikuti
Evaluasi ini digunakan guna mengukur prosedur dari tools rapid miner hasil pengukuran
keakuratan model yang terbentuk yaitu yang telah otomatis di split (pembagian) sebesar
menggunakan confusion matrix. Pada evaluasi ini 0,75 guna mencari nilai akurasi tertinggi dari data
http://openjournal.unpam.ac.id/index.php/informatika 40
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
Referensi
David, G., Jose Luis Girela, Joaquin De Juan, M. Jose
Gomez-Torrez, Magnus Johnsson, 2012,
“Predicting Seminal Quality with Artificial
Intelligence Methods”. Expert Systems with
Applications,
http://www.researchgate.net/publication/230868
076_Predicting_seminal_quality_with_artificial
_intelligence_methods/file/79e415058f10cc308
1.pdf, (Diakses 10 April 2016)
Gambar 5 Kurva ROC dengan AUC secara David, Mcg. 2004. Tutorial: The ID3 Decision Tree
umum Algorithm, Monash Uviversity Faculty of
Information Technology.
http://openjournal.unpam.ac.id/index.php/informatika 41
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 2, Juni 2019 e-ISSN: 2622-4615
Dunham H. Margareth. 2002. Data Mining Larose, D. T. 2005. Discovering Knowledge in Data An
Introductory and Advantaced Topics, Southern Introduction to Data Mining. New Jersey: John
Methodist University. Willey and Sons.
Han, J., & Kamber, M. 2006. Data Mining Saifudin, A. (2018). Metode Data Mining untuk Seleksi
Concept and Tehniques. San Fransisco: Calon Mahasiswa pada Penerimaan Mahasiswa
Morgan Kauffman. Baru di Universitas Pamulang. Jurnal
Hand, D., Mannila, H. and Smyth, P.; 2001. Principles Teknologi, 10(1), 25-36.
of Data Mining. MIT Press. Santosa Budi. 2007. Data Mining: Teknik Pemanfaatan
Irvine DS. 1998. Epidemiology and aetiology of Data Untuk Keperluan Bisnis, Yogyakarta.
male infertility. Hum. Reprod.; Vol 13(1):33-44. Tan, Pang-Ning, Michael Steinbach, and Vipin Kumar.
Kusrini & Luthfi, E. T. 2009. ”Algoritma Data Mining. 2004. Introduction to Data Mining. Boston:
Yogyakarta: Andi Publishing. Pearson.
http://openjournal.unpam.ac.id/index.php/informatika 42