Implementasi Support Vector Machine (SVM) Dan Random Forest Pada Diagnosis Kanker Payudara
Implementasi Support Vector Machine (SVM) Dan Random Forest Pada Diagnosis Kanker Payudara
ABSTRAKS
Kanker payudara menempati tempat nomor 1 tumbuhnya kanker pada wanita. Kanker payudara adalah suatu
penyakit dimana terjadi pertumbuhan sel berlebihan dari jaringan sel payudara. Kanker payudara menempati
urutan ke-5 sebagai penyebab kematian akibat kanker secara keseluruhan. Hingga saat ini belum diketahui
secara pasti penyebab utama kanker payudara. Namun beberapa sumber menyebutkan penyebab tersebut hanya
bisa ditandai pada wanita yang mempunyai faktor-faktor risiko seperti punya riwayat tumor, haid terlalu muda
atau menopause diatas umur 50 tahun, melahirkan anak pertama diatas usia 35 tahun. Oleh karena itu, setiap
orang harus mengetahui gejala-gejala dari kanker payudara sehingga penanganan dapat dilakukan lebih dini
berdasarkan hal tersebut peneliti tertarik melakukan penelitian tentang penerapan algoritma data mining dalam
diagnosis kanker payudara menggunakan metode SVM (Support Vector Machine) dan random forest,
selanjutnya masing-masing hasil dari metode klasifikasi tersebut akan di bandingkan dan menyimpulkan
seberapa akurat antara SVM dan RandomForest dalam ketepatan akurasi.
Kata Kunci: Kanker Payudara, data mining, SVM, Random Forest, Machine Learning
1. PENDAHULUAN
1.1 Latar Belakang
Kanker adalah kelompok penyakit yang menyebabkan sel-sel di dalam tubuh berubah dan tumbuh tak
terkendali. Sebagian besar jenis sel kanker kadang membentuk benjolan atau massa yang disebut tumor, dan
dinamai sesuai dengan bagian tubuh dimana tumor berasal (American Cancer Society, 2015).
Kanker payudara menempati urutan sebagai penyebab kelima kematian akibat kanker secara keseluruhan
(522.000 kematian) dan sementara itu merupakan penyebab kematian yang paling sering terjadi pada perempuan
di daerah yang kurang berkembang (324.000 kematian, 14.3% dari total). Kanker payudara menjadi penyebab
kedua kematian akibat kanker di daerah yang lebih maju (198.000 kematian, 15.4%) setelah kanker paru-paru.
Kisaran angka kematian antar wilayah dunia kurang dari itu karena kelangsungan hidup yang lebih
menguntungkan dari kanker payudara pada daerah berkembang, mulai dari 6 kematian per 10.000 di Asia Timur
sampai 20 kematian per 100.000 di Afrika Barat (Siregar, 2015).
Kanker payudara cenderung berdampak pada perempuan yang memasuki usia senja di atas 50 tahun.
Terdapat 8 sampai 10 kasus kanker payudara terjadi pada perempuan di usia ini. Ada beberapa faktor pemicu
munculnya kanker payudara pada perempuan. Selain disebabkan oleh faktor genetik dan lingkungan, kebiasaan
gaya hidup sehari-hari menjadi dasar munculnya kanker payudara (Siregar, 2015).
Hingga saat ini belum diketahui secara pasti penyebab utama kanker payudara. Namun beberapa sumber
menyebutkan penyebab tersebut hanya bisa ditandai pada wanita yang mempunyai faktor-faktor risiko seperti
punya riwayat tumor, haid terlalu muda atau menopause diatas umur 50 tahun, melahirkan anak pertama diatas
usia 35 tahun, pola makan yang tidak sehat dengan komsumsi lemak berlebih, dan kegemukan. Beberapa kasus
kanker payudara yang dapat berujung kematian disebabkan oleh keterlambatan dalam penanganan. Kebanyakan
pasien tidak menyadari tanda-tanda kanker payudara sehingga terlambat dalam memeriksakan diri. Hal ini
menyebabkan penanganannya pun terlambat bahkan saat pasien sudah memasuki kanker payudara stadium akhir
dimana resiko kematian semakin besar. Oleh karena itu, setiap orang harus mengetahui gejala-gejala dari kanker
payudara sehingga penanganan dapat dilakukan lebih dini (Siregar, 2015).
Melihat betapa pentingnya deteksi dini dan diagnosis kanker payudara membuat banyak peneliti yang
melakukan penelitian dalam diagnosis kanker payudara. Hal ini membuat banyak peneliti yang melakukan
penelitian dalam melakukan diagnosis kanker payudara.
Berdasarkan uraian di atas, hal ini mendasarkan penulis untuk melakukan penelitian mengenai Algoritma
Data Mining dalam diagnosis kanker payudara menggunakan metode Support Vector Machine dan Random
Forest menggunakan data dari biopsi payudara yang di hitung secara komputasi di bawah mikroskop. Data yang
di ambil merupakan data dari Data yang digunakan dalam penelitian diambil dari data pasien kanker
payudara UCI Machine Learning Wicoxsin University.
Sehingga peneliti dapat merumuskan masalah bagaimana perbandingan tingkat akurasi metode machine
learning dalam melakukan diagnosis kanker payudara. Sehingga dalam kedepannya dapat membantu
278
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
meningkatkan kualitas pelayan medis terhadap deteksi dini kanker payudara sehingga pasien/penderita bisa
melakukan beberapa tindakan pencegahan terhadap kanker payudara.
279
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Gambar 1.1 memperlihatkan problem klasifikasi dengan usaha menemukan garis Optimasi Hyperpalane
Support Vector Machine (SVM) yang tepat. Menurut (Darsyah, 2013) Pada umumnya, dalam permasalahan
nyata, jarang ditemukan data linear separable. Sehingga fungsi Kernel digunakan dalam Support Vector
Machine untuk mengatasi data non-linier. Dengan memasukkan fungsi Kernel, maka problem data non-linier
menjadi linier dalam space baru seperti tampak pada ilustrasi gambar 1.2 berikut.
280
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Pohon diilustrasikan dalam Gambar 1.3 Pohon disusun oleh simpul t1, t2, …, t5. Setiap pemilah (split)
memilah simpul non-terminal menjadi dua simpul yang saling lepas. Hasil prediksi respons suatu amatan
terdapat pada simpul terminal. Pembangunan pohon klasifikasi CART meliputi tiga hal, yaitu: (1)Pemilihan
Pemilah (split);(2)Penentuan Simpul Terminal; (3)Penandaan Label Kelas.
Metode Random Forest adalah pengembangan dari metode CART, yaitu dengan menerapkan metode
bootstrap aggregating (bagging) dan random feature selection. Dalam random forest, banyak pohon
ditumbuhkan sehingga terbentuk hutan (forest), kemudian analisis dilakukan pada kumpulan pohon tersebut.
Pada gugus data yang terdiri atas n amatan dan p peubah penjelas, random forest dilakukan dengan cara
(Breiman, Bagging Predictors, 1996): (1) Lakukan penarikan contoh acak berukuran n dengan pemulihan pada
gugus data. Tahapan ini merupakan tahapan bootstrap; (2)Dengan menggunakan contoh bootstrap, pohon
dibangun sampai mencapai ukuran maksimum (tanpa pemangkasan). Pada setiap simpul, pemilihan pemilah
dilakukan dengan memilih m peubah penjelas secara acak, dimana m << p. Pemilah terbaik dipilih dari m
peubah penjelas tersebut. Tahapan ini adalah tahapan random feature selection; (3)Ulangi langkah 1 dan 2
sebanyak k kali, sehingga terbentuk sebuah hutan yang terdiri atas k pohon.
Respons suatu amatan diprediksi dengan menggabungkan (aggregating) hasil prediksi k pohon. Pada
masalah klasifikasi dilakukan berdasarkan majority vote (suara terbanyak). Error klasifikasi random forest
diduga melalui error OOB yang diperoleh dengan cara (Breiman, Random Forest, 2001): (1)Lakukan prediksi
terhadap setiap data OOB pada pohon yang bersesuaian. Data OOB (out of bag) adalah data yang tidak termuat
dalam contoh bootstrap; (2)Secara rata-rata, setiap amatan gugus data asli akan menjadi data OOB sebanyak
sekitar 36% dari banyak pohon. Oleh karena itu, pada langkah 1, masing-masing amatan gugus data asli
mengalami prediksi sebanyak sekitar sepertiga kali dari banyaknya pohon. Jika a adalah sebuah amatan dari
gugus data asli, maka hasil prediksi random forest terhadap a adalah gabungan dari hasil prediksi setiap kali a
menjadi data OOB; (3) Error OOB dihitung dari proporsi misklasifikasi hasil prediksi random forest dari seluruh
amatan gugus data asli.
Menurut (Breiman & Adele , Random Forests, 2005) menyarankan untuk mengamati error OOB saat k
kecil, lalu memilih m yang menghasilkan error OOB terkecil. Jika random forest dilakukan dengan
menghasilkan variable importance, disarankan untuk menggunakan banyak pohon, misalnya 1000 pohon atau
lebih. Jika peubah penjelas yang dianalisis sangat banyak, nilai tersebut dapat lebih besar agar variable
importance yang dihasilkan semakin stabil (Breiman & Adele , Random Forests, 2005).
Dengan diterapkannya metode Random Forest ini pada permasalahan data mining untuk penerapan dalam
malakukan diagnosis penyakit kanker. Diharapkan dapat membantu meningkatkan pendeteksian dini penyakit
kanker sehingga membantu pasien untuk mencegah semakin parahnya kanker tersebut.
2. PEMBAHASAN
Dalam pembahasan ini peneliti akan membahas mengenai hasil dari 2 metode machine learning dalam
klasifikasi diagnosis kanker payudara, yang pertama di bahas adalah
281
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Pada tabel 1 Data latih juga dilakukan dengan cara membagi data yang tersedia menggunakan rumus slovin
dengan menggunakan tingkat signifikansi sebesar 5%.
(1)
Kemudian di dapatkan jumlah data sample yang di gunakan untuk data latih sebanyak 235 data dan
kemudian di ambil secara acak sehingga di dapatkan pembagian seperti pada tabel 1.
Kemudian setelah melakukan proses pelatihan maka terbentuklah banyak decision tree dari hasil iterasi yang
di lakukan oleh metode ini. Berikut salah satu Decision tree yang terbentuk dari metode random forest.
282
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Gambar 2.2 memperlihatkan decision tree yang terbentuk dari hasil metode machine learning random forest,
decision tree ini digunakan untuk melakukan klasifikasi pada diagnosis kanker payudara. Ini merupakan decision
tree yang tebentuk setelah sekitar 500 kali iterasi menumbuhkan decision tree. Contoh dalam klasifikasinya
menggunakan tabel 5.3 di atas pada pasien ke-1. Yang memiliki area mean = 559.2 maka masuk ke cabang
sebelah kiri, kemudian dilihat concave points = 0.0543 maka masuk ke cabang sebelah kanan, kemudian dilihat
tekstur mean = 20.82 maka masuk ke cabang sebelah kanan kemudian dilihat concavity mean = 0.1063 maka
masuk ke sebelah kiri dengan klasifikasi M(Maligant) dan diagnosis ini cocok dengan hasil observasi.
Berdasarkan gambar 6 bahwa plot yang berwarna merah merupakan kategori Kanker dan yang hitam adalah
kategori tumor. Sedangakan warna merah yang berkumpul pada bagian hitam merupakan salah klasifikasi dan
tanda “+” (plus) merupakan support vector dimana itu merupakan batas dari hyperlpane margin.
283
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Tabel 2. 2 Pembagian data latih dan data uji Tabel 2. 3 Pembagian data latih dan data uji
MODEL SVM MODEL RF
B M B M
B 143 5 B 150 0
M 7 80 M 0 85
M 10 117 92.13%
RF B 199 8 96.14% 0.945243
M 9 118 92.91%
Berdasarkan tabel 2.4, menjelaskan bahwa seberapa besar presentase data yang dapat di prediksi dengan
benar oleh masing-masing metode machine learning. Bannyaknya data diagnosis B yang dapat di prediksi
dengan tepat oleh Machine Learning SVM adalah 195 data dan banyaknya diagnosis B yang di prediksi salah
ada 12 data. Sehingga Presentase ketepatannya adalah 94.20%. Sedangkan untuk data diagnosis M yang dapat di
prediksi dengan benar ada 117 data dan 10 data tidak di prediksi dengan tepat sehingga presentase ketepatannya
adalah 92.13%.
Adapun Perhitungan percentage correct dari metode SVM pada Perbandingan hasil klasifikasi di atas adalah
sebagai berikut
(2)
(3)
dengan
PCB = hasil percentage correct data kategori Benign.
PCM = hasil percentage correct data kategori Malignant.
Kemudian untuk Bannyaknya data diagnosis B yang dapat di prediksi dengan tepat oleh Machine Learning
Random Forest 199 data dan banyaknya diagnosis B yang di prediksi tidak tepat ada 8 data. Sehingga Presentase
benarnya adalah 96.14%. Sedangkan untuk data diagnosis M yang dapat di prediksi dengan benar ada 118 data
dan 9 data tidak di prediksi dengan tepat sehingga presentase ketepatannya adalah 92.91%.
Adapun Perhitungan percentage correct dari metode RF pada Perbandingan hasil klasifikasi di atas adalah
sebagai berikut
(4)
(5)
dengan
PCB = hasil percentage correct data kategori Benign
PCM = hasil percentage correct data kategori Malignant
284
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018
Berdasarkan hasil perhitungan overall percentage pada tabel 2.5 dapat menggambarkan secara jelas
mengenai perbandingan dari performa machine learning pada ke-2 metode tersebut. Dari hasil overall
percentage tersebut bisa dijadikan sebagai tingkat akurasi dari machine learning dalam melakukan klasifikasi
diagnosis kanker payudara.
3. KESIMPULAN
Berdasarkan hasil penelitian didapatkan metode machine learning terbaik dalam klasifikasi kanker payudara
ini adalah metode Random Forest (RF) yang tingkat akurasinya lebih tinggi dari metode SVM. Dalam prediksi
data latih Model RF mendapatkan tingkat akurasi sebesar 100% yaitu dapat dengan baik mengklasifikasi
diagnosis kanker. Sedangkan dalam memprediksi data latih model SVM mendapatkan tingkat akurasi sebesar
94% dimana 12 diantaranya mengalami salah diagnosis. Kemudian menggunakan data uji pada model RF di
dapatkan tingkat akurasi sebesar 94.5% dibandingkan dengan metode SVM di dapatkan tingkat akurasi sebesar
93.1% sehingga bisa di bilang bahwa model Machine Learning Random Forest merupakan metode yang terbaik
dalam penelitian ini walaupun beda akurasinya sedikit bisa dibilang keduanya baik untuk melakukan klasifikasi.
PUSTAKA
Adnyana, I. M. 2015. Prediksi Lama Studi Mahasiswa Dengan Metode Random Forest. Csrid Journal, Vol.8
No.3 , (http://researchgate.net, diakses 12 Oktober 2017)
American Cancer Society. 2015. Breast Cancer Fact & Figures 2015 - 2016. Atlanta: American Cancer Society,
Inc.
Breiman , L., & Adele , C. 2005. Random Forests.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Breiman, L. 1996. Bagging Predictors : Machine Learning 24, 123-140.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Breiman, L. (2001). Random Forest : Machine Learning 45, 5-32.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Darsyah, M. Y. 2013. Menakar Tingkat Akurasi Support Vector Machine. Statistika, Vol. 1, No. 1, 15-20,
(http://www.jurnal.unimus.ac.id, diakses pada 9 Oktober 2017)
Davies, & Beynon, P. 2004. Database Systems Third Edition. New York: Palgrave Macmillan.
Fayed, L. 2017. Differences Between A Malignant And Benign Tumor. https://Www.Verywell.Com/What-Does-
Malignant-And-Benign-Mean-514240, diakses 6 Oktober 2017)
Hidayat, S. 2010. Pengantar Umum Metodologi Penelitian Pendidikan. Pekanbaru: Suska Pers.
Kementerian Kesehatan Republik Indonesia. (2015, September 23). Infodatin Kanker. Retrieved From
Kementerian Kesehatan Republik Indonesia : http://www.Depkes.go.id, diakses 3 Oktober 2017)
Nababan, Abdi. R. 2013. Penjelasan Umum Kanker Payudara.. (http: //materikedokteran.blogspot.co.id/
2013/02/tumor-tulang1.html. , diakses 5 Februari 2018)
National Breast Cancer Centre ;. (2001, 9 9). Clinical Practice Guidelines For The Management Of Early Breast
Cancer: Second Edition. (http://Www.Nhmrc.Gov.Au/Publications/Synopses/Cp74syn.Htm, diakses 8
Oktober 2017)
Pramudiono, I. 2003. Pengantar Data Mining: Menambang Permata Pengetahuan Di Gunung Data. Materi
Kuliah Umum Ilmukomputer.Com .
Pratiwi, Y. R. 2017. Perbandingan Analisis Sentimen Pada Pertalite Melalui Jejaring Sosial Twitter Dengan
Menggunakan Metode Support Vector Machine Dan Maximum Entropy. Yogyakarta : Universitas Islam
Indonesia.
Santoso, B. 2007. Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu.
Siregar, B. H. 2015. Deteksi Dini Dan Diagnosis Dini Kanker. Jakarta: Mitra Keluarga.
Sugiyono. 2010. Memahami Penelitian Kualitatif. Bandung: Alfabeta.
Tim Cancerhelps. 2010. Stop Kanker. Jakarta: Pt Agromedia Pustaka.
Wolberg, W. H. 2017. Breast Cancer Wisconsin (Diagnostic) Data Set.
(https://Archive.Ics.Uci.Edu/Ml/Datasets/Breast+Cancer+Wisconsin+(Diagnostic), diakses 2 Oktober 2017)
Yayasan Kanker Payudara Indonesia. 2017. Penjelasan Umum Kanker Payudara. (Yayasan Kanker Payudara
Indonesia : http://www.pitapink-ykpi.or.id/, diakses 2 Oktober 2017)
285