Ilmu Komputer
STMIK Nusa Mandiri Jakarta
www.nusamandiri.ac.id
1 3
fitraseptia7@gmail.com;2ash.shidiq.mj@gmail.com; srahayu110527@gmail.com
jaringan tubuh melalui sirkulasi darah. Sairun Data mining dapat diaplikasikan di bidang
dalam (Ma’arif & Arifin, 2017). Meskipun etiologi kesehatan misalnya mendiagnosis penyakit kanker
kanker payudara tidak diketahui, faktor risiko payudara , penyakit jantung, penyakit diabetes dan
berbagai kemungkinan mempengaruhi lain-lain Larose dalam (Hermawanti, 2012). Salah
perkembangan penyakit ini termasuk faktor satu teknik ini dalam hal klasifikasi adalah Neural
genetik, faktor karsinogen dan faktor perilaku atau Network yang menjadi sistem diagnosis otomatis
gaya hidup. untuk mendeteksi kanker payudara dengan tingkat
Hingga saat ini, salah satu cara pengobatan klasifikasi yang benar dari sistem yang disusulkan
kanker payudara yang umum dilakukan adalah yaitu 95,6%. (Karabatak & Ince, 2009). Artificial
dengan pembedahan dan jika perlu dilanjutkan Neural Network juga pernah dibandingkan dengan
dengan kemoterapi maupun radiasi. Akan tetapi Regresi Logistic dalam memprediksi kanker
pengobatan tersebut tidak akan memberikan payudara dengan nilai AUCs lebih tinggi yaitu
dampak yang signifikan jika kankernya sudah 0,965 dan Regresi Logistic 0,963. (Ayer et al.,
mencapai stadium akhir. Hal ini terjadi karena 2010).
dinegara berkembang seperti indonesia, kanker Dari uraian diatas maka tujuan penelitian
payudara tidak didiagnosis sejak dini. Biasanya, ini adalah untuk memprediksi atau mendiagnosis
kanker didiagnosis setelah memasuki stadium dini penyakit kanker payudara dengan
lanjut dan memiliki tingkat survivability rendah. menggunakan algoritma klasifikasi machine
Oleh karena itu apabila penyakit ini dapat learning neural network sebagai proses training,
dideteksi lebih awal, dampak buruk yang mungkin learning dan testingnya. Parameter yang digunakan
ditimbulkan oleh kanker payudara dapat dicegah. dalam penelitian ini berbeda dengan penelitian-
(Zamani, Amaliah, & Munif, 2012). penelitian sebelumnya yang mana dalam penelitian
Terdapat beberapa penelitian yang sudah ini parameter yang digunakan adalah data Breast
dilakukan sebelumnya dengan menggunakan data Cancer Coimbra yang berisi 116 clinical instances
Wisconsin Breast Cancer (WBC) yang tersedia di mengenai data pasien yang terkena kanker
UCI Machine Learning Repository, yang berisi 699 payudara berdasarkan tes darah, sehingga kanker
clinical instances mengenai data tumor ganas dapat dideteksi sejak dini, sehingga diharapkan
payudara dan tumor jinak payudara dari hasil dapat segera ditanggulangi dan menekan angka
diagnosis breast masses berdasarkan tes FNA. kematian bukan dari bentuk kankernya itu sendiri
Namun penelitian tersebut hanya sebatas seperti yang dilakukan peneliti sebelumnya. Untuk
mengetahui normal atau tidaknya payudara, ganas menentukan tingkat keberhasilan diagnosis kanker
atau tidaknya tumor di payudara dan hanya payudara dilakukan dengan 2 pengujian yaitu
menguji variabel-variabel yang berpengaruh dengan menggunakan metode confution matrix
terhadap hasil klasifikasi tumor payudara, seperti dan uji kehandalan ROC Curve.
riwayat keluarga, terapi hormon, ukuran tumor,
letak tumor, dan usia menopause. Makhfudhoh
dalam (Ma’arif & Arifin, 2017). BAHAN DAN METODE
Pada umumnya pendeteksian tingkat
keganasan kanker payudara adalah dengan cara Neural Network
prognosis. Prognosis adalah “tebakan terbaik” tim Pada tahun 1943, Mc.Culloch dan Pitts
medis dalam menentukan sembuh atau tidaknya memperkenalkan model matematika yang
pasien dari kanker payudara.(Rachman & Purnami, merupakan penyederhanaan dari struktur sel saraf
2012). Selain dengan prognosis, cara lainnya yang sebenarnya.
adalah pemanfaatan bionformatic dengan
menggunakan teknik data mining (Salama,
Abdelhalim, & Zeid, 2012), karena telah terbukti
dapat mendeteksi tingkat keganasan kanker
payudara.
Seiring dengan kemajuan teknologi
informasi terutama dalam bidang kecerdasan
buatan, teknik machine learning diperkenalkan
untuk membantu meningkatkan kemampuan
pendeteksian otomatis. Dengan bantuan sistem ini,
kemungkinan akan kesalahan diagnosis yang
dilakukan oleh para ahli medis dapat dihindari, dan
data medis dapat diperiksa dalam kurun waktu Sumber : (Khademi & Jamal, 2016)
yang singkat serta lebih rinci M. F. Akay dalam Gambar 1. McCulloch & Pitts neuron model
(Wahyuni, 2017).
Gambar diatas memperlihatkan bahwa sebuah apabila melalui tangan kedua disebut sumber
neuron memilikitiga komponen : sekunder Riduwan dalam (Septiani, 2017). Data
1. Synapse (w1, w2,…, wn)T pada penelitian ini merupakan data sekunder yang
2. Alat penambah (adder) diperoleh dari Machine Learning Repository UCI
3. Fungsi aktifasi (f) (Universitas California, Invene) dengan alamat web
Korelasi antara ketiga komponen ini dirumuskan https://archive.ics.uci.edu/ml/datasets/Breast+Ca
pada persamaan (1). ncer+Coimbra. Data yang dikumpulkan adalah data
antropometrik dan parameter yang dapat
𝑦 = 𝑓(∑𝑛𝑖=1 𝑥𝑖 × 𝑤𝑖 )……………………………………..(1) dikumpulkan dalam analisis darah rutin yang
dapat digunakan sebagai biomarker kanker
Sumber : (Yahya, 2012) payudara. Data terkumpul sebanyak 116 data
dengan 52 pasien dinyatakan sehat dan 64 pasien
Signal x berupa vektor berdimensi n (x1, x2,… xn)T dinyatakan terdiagnosa kanker payudara dengan
akan mengalami penguatan oleh synapse w atribute age, BMI, Glucose, Insulin, Homa, Leptin,
(w1,w2,…,wn)T. Selanjutnya akumulasi dari Adiponectin, Resistin, MCP.1 dan class.
penguatan tersebutakan mengalami transformasi 2. Pengolahan Data Awal(Pre Processing)
oleh fungsi aktifasi f. Fungsi f ini akan Untuk mendapatkan data yang berkualitas,
memonitor,bila akumulasi penguatan signal itu beberapa teknik yang dilakukan adalah sebagai
telah melebihi batas tertentu, maka sel neuronyang berikut Vacellis dalam (Septiani, 2017):
semula berada dalam kondisi “0”, akan a. Data validation, untuk mengidentifikasi dan
mengeluarkan signal “1”.Berdasarkan nilai output menghapus data yang ganjil (outlier/noise),
tersebut (=y), sebuah neuron dapat berada dalam
data yang tidak konsisten, dan data yang tidak
duastatus: “0” atau “1”. Neuron disebut dalam
lengkap (missing value).
kondisi firing bila menghasilkan outputbernilai
“1”.(Yahya, 2012) b. Data integration and transformation, untuk
meningkatkan akurasi dan efisiensi algoritma.
Metode Penelitian Data yang digunakan dalam penelitian ini
Pada penelitian ini data yang digunakan bernilai numerikal.
adalah data penyakit kanker payudara (Breast c. Data size reduction and dicritization, untuk
Cancer Coimbra) yang didapat dari Machine
memperoleh dataset dengan jumlah atribut dan
Learning Repository UCI (Universitas California
Invene) dengan alamat web: record yang lebih sedikit tetapi bersifat
http://archive.ics.uci.edu/ml/. Dalam penelitian ini informatif.
akan dilakukan beberapa langkah-langkah atau Dari proses pengolahan awal data di atas
tahapan penelitian seperti gambar di bawah ini: diperoleh sebanyak 116 data dengan 52 data
dengan kelas “SEHAT” dan 64 data dengan kelas
“PASIEN”.
3. Metode yang diusulkan
Metode analisa merupakan metode yang
diusulkan untuk mengetahui seberapa besar
tingkat akurasi dari algorithma neural network
dengan menggunakan komputasi rapid miner
9.0, hasil yang diperoleh dari analisa pengujian
ini akan dijadikan sebagai dasar penentuan
diagnosis kanker payudara.
4. Eksperimen dan Pengujian Methode
Data sebesar 116 akan dibagi menjadi 2 yaitu
Sumber: (Septiani, 2017) data untuk training set sebanyak 80% dari
Gambar 2. Tahap Penelitian jumlah data dan testing set sebanyak 20% dari
jumlah data. Kemudian data training di
1. Pengumpulan Data aplikasikan ke dalam metode, setelah itu
Teknik pengumpulan data ialah teknik dilakukan pengujian menggunakan model yang
atau cara-cara yang dapat digunakan untuk
digunakan , memasukan data training ke dalam
menggunakan data Riduwan dalam (Septiani,
2017). Dalam pengumpulan data terdapat sumber model dan menguji menggunakan Rapid Miner.
data, sumber data yang dihimpun langsung oleh
peneliti disebut dengan sumber primer, sedangkan
5. Evaluasi dan Validasi Hasil (Sucipto, 2012). Sebuah metode umum untuk
Evaluasi digunakan untuk melakukan menghitng daeeah dibawah kurva ROC adalah Area
pengamatan dan menganalisa hasil kerja neural Under Curve (AUC) dimana bidang yang berada
dibawah kurve mempunyai nilai yang selalu
network di rapid miner. Validasi dilakukan
berada pada nilai 0,0 dan 1,0. Semakin tinggi
untuk melakukan pengukuran hasil prediksi. luasnya maka akan semakin baik nilai
a. Cross Validation klasifikasinya. Seperti petunjuk yang disajiakn
Merupakan pengujian standar yang dalam (Sucipto, 2012) berikut ini:
dilakukan untuk memprediksi error rate. 0,90 – 1,00 = klasifikasi sangat baik
Setiap kelas pada data set harus diwakili 0,80 – 0,90 = klasifikasi baik
dalam proporsi yang tepat antara data 0,70 – 0,80 = klasifikasi rata-rata
training dan testing. Data dibagi secara acak 0,60 – 0,70 = klasifikasi rendah
pada masing-masing kelas dengan 0,50 – 0,60 = kegagalan
perbandingan yang sama. Untuk c. Pengukuran menggunakan Confusion Matrix
mengurangi bias yang disebabkan oleh Confusion matrix adalah sebuah tabel yang
sempel tertentu, seluruh proses training dan menyatakan jumlah data uji yang benar
pengujian diulangi beberapa kali dengan diklasifikasikan dan jumlah data uji yang
sampel yang berbeda. Tingkat kesalahan salah diklasifikasikan (Indriani, 2014).
pada iterasi yang berbeda akan dihitung Contoh confusion matrix untuk klasifikasi
rata-ratanya untuk menghasilkan error rate biner ditunjukan pada tabel 1.
secara keseluruhan (Hastuti, 2012).
b. Pengukuran menggunakan ROC Curve Tabel 1.
ROC Curve adalah kurva ROC yang banyak Confusion Matrix untuk klasifikasi biner
digunakan para peneliti untuk menilai hasil
prediksi. Kurva ROC menggambatkan kinerja Kelas Prediksi
klasifikasi tanpa memperhatikan distribusi 1 0
kelas atau kesalahan, pada sumbu vertical Kelas 1 TP FN
menggambarkan nilai positif (TP) dan sumbu Sebenarnya 0 FP TN
horizontal menandakan nilai negative (FP) Sumber: (Indriani, 2014)
(Sucipto, 2012). Lihat gambar berikut:
Keterangan untuk Tabel 1. dinyatakan sebagai
berikut:
- True Positive (TP), yaitu jumlah dokumen dari
kelas 1 yang benar dan diklasifikasikan sebagai
kelas 1.
- True Negative (TN), yaitu jumlah dokumen dari
kelas 0 yang benar diklasifikasikan sebagai
kelas 0.
- False Positive (FP), yaitu jumlah dokumen dari
kelas 0 yang salah diklasifikasikan sebagai kelas
Sumber : (Sucipto, 2012) 1.
Gambar 3. Contoh Grafik ROC - False Negative (FN), yaitu jumlah dokumen dari
kelas 1 yang salah diklasifikasikan sebagai kelas
Beberapa hal penting yang perlu dicatat 0.
pada Gambar 2., pada titik kiri bawah (0,0)
merupakan titik yang tidak pernah mengeluarkan Perhitungan akurasi dinyatakan dalam persamaan
klasifikasi positif, (1,1) terwakili titik kanan atas 2.
untuk menjelaskan nilai klasifikasi positif. Titik Accuracy =
(𝑇𝑁+𝑇𝑃)
𝑥 100 %.......(2)
(0,1) merupakan nilai klasifikasi yang tidak (𝑇𝑁+𝐹𝑁+𝑇𝑃+𝐹𝑁)
terdapat nilai FN dan FP. Sedangkan garis diagonal
yang membelah ruang ROC menggambarkan ruang Sumber: (Indriani, 2014)
diatas garis diagonal menandakan klasifikasi baik
dan ruang dibawah garis diagonal menandakan
klasifikasi buruk, sementara tebakan yang benar-
benar acak terdapat pada sepanjang garis diagonal
mulai dari kiri bawah sampai dengan kanan atas
48 23,50 70,00
n
2,71 0,47
n
8,81
nectin
9,70
in
8,00 417,11 0
maka akan dapat dihitung nilai outputnya dalam
83
82
20,69
23,13
92,00
91,00
3,12
4,50
0,71
1,01
8,84
17,94
5,43
22,43
4,06
9,28
468,79
554,70
0
0 hal ini adalah sehat atau pasien.
68 21,37 77,00 3,23 0,61 9,88 7,17 12,77 928,22 0
86 21,11 92,00 3,55 0,81 6,70 4,82 10,58 773,92 0
49 22,85 92,00 3,23 0,73 6,83 13,68 10,32 530,41 0
89
45
22,70
21,30
77,00
102,00
4,69
13,85
0,89
3,49
6,96
7,65
5,59
21,06
12,94
23,03
1256,08
552,44
0
1
Evaluasi dan Validasi
45
49
20,83
20,96
74,00
94,00
4,56
12,31
0,83
2,85
7,75
11,24
8,24
8,41
28,03
23,12
382,96
573,63
1
1
Penelitian ini bertujuan untuk menguji akurasi dari
34
42
24,24
21,36
92,00
93,00
21,70
3,00
4,92
0,69
16,74
19,08
21,82
8,46
12,07
17,38
481,95
321,92
1
1 analisa diagnosis penyakit kanker payudara
menggunakan algoritma neural network data yang
68 21,08 102,00 6,20 1,56 9,70 8,58 13,74 448,80 1
51 19,13 93,00 4,36 1,00 11,08 5,81 5,57 90,60 1
62 22,66 92,00 3,48 0,79 9,87 11,24 10,70 703,97 1
38
69
22,50
21,51
95,00
112,00
5,26
6,68
1,23
1,85
8,44
32,58
4,77
4,14
15,74
15,70
199,06
713,24
1
1
dianalisa adalah data breast cancer coimbra yang
49
51
21,37
22,89
78,00
103,00
2,64
2,74
0,51
0,70
6,33
8,02
3,89
9,35
22,94
11,56
737,67
359,23
1
1
di peroleh dari UCI Repository. Dengan bantuan
59
86
22,83
27,18
98,00
138,00
6,86
19,91
1,66
6,78
14,90
90,28
4,23
14,11
8,21
4,35
355,31
90,09
1
1 rapid miner ternyata dapat diketahui algoritma
Sumber: (Patrício, 2018) neural network mempunyai akurasi yang tinggi.
Sumber : (Nugraha et al., 2019) Berdasarkan Gambar 10. Diperoleh bahwa hasil
Gambar 6. Model Testing Neural Network recall dari metode klasifikasi Neural Network
sebesar = 69,17% ini menunjukan bahwa hasil
akurasi yang diperoleh masuk dalam kategori
cukup baik.
Network dengan nilai yang tertera dalam gambar diharapkan dapat menekan angka kematian akibat
sebesar= 0,806. kanker payudara.
REFERENSI
Gambar 13. Menggambarkan grafik area under Hastuti, K. (2012). Analisis komparasi algoritma
curve (AUC) pesimistic hasil validasi Neural klasifikasi data mining untuk prediksi
Network dengan hasil nilai dalam gambar sebesar= mahasiswa non aktif. 2012(Semantik), 241–
0,806. 249.