Anda di halaman 1dari 8

Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815

Yogyakarta, 23-24 Maret 2018

IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) DAN RANDOM FOREST


PADA DIAGNOSIS KANKER PAYUDARA
Hafizhan Aliady1, Nur Jannah Tuasikal2, Edy Widodo3
1,2
Mahasiswa, Program Studi Statistika,Fakultas MIPA, Universitas Islam Indonesia
3
Dosen, Program Studi Statistika,Fakultas MIPA, Universitas Islam Indonesia
Jl. Kaliurang Km 14.5. 55584 Sleman ,D.I.Yogyakarta
E-mail: Hafizhan.afif@gmail.com, nurjannah.tsk@gmail.com, edywidodo@uii.ac.id

ABSTRAKS
Kanker payudara menempati tempat nomor 1 tumbuhnya kanker pada wanita. Kanker payudara adalah suatu
penyakit dimana terjadi pertumbuhan sel berlebihan dari jaringan sel payudara. Kanker payudara menempati
urutan ke-5 sebagai penyebab kematian akibat kanker secara keseluruhan. Hingga saat ini belum diketahui
secara pasti penyebab utama kanker payudara. Namun beberapa sumber menyebutkan penyebab tersebut hanya
bisa ditandai pada wanita yang mempunyai faktor-faktor risiko seperti punya riwayat tumor, haid terlalu muda
atau menopause diatas umur 50 tahun, melahirkan anak pertama diatas usia 35 tahun. Oleh karena itu, setiap
orang harus mengetahui gejala-gejala dari kanker payudara sehingga penanganan dapat dilakukan lebih dini
berdasarkan hal tersebut peneliti tertarik melakukan penelitian tentang penerapan algoritma data mining dalam
diagnosis kanker payudara menggunakan metode SVM (Support Vector Machine) dan random forest,
selanjutnya masing-masing hasil dari metode klasifikasi tersebut akan di bandingkan dan menyimpulkan
seberapa akurat antara SVM dan RandomForest dalam ketepatan akurasi.
Kata Kunci: Kanker Payudara, data mining, SVM, Random Forest, Machine Learning

1. PENDAHULUAN
1.1 Latar Belakang
Kanker adalah kelompok penyakit yang menyebabkan sel-sel di dalam tubuh berubah dan tumbuh tak
terkendali. Sebagian besar jenis sel kanker kadang membentuk benjolan atau massa yang disebut tumor, dan
dinamai sesuai dengan bagian tubuh dimana tumor berasal (American Cancer Society, 2015).
Kanker payudara menempati urutan sebagai penyebab kelima kematian akibat kanker secara keseluruhan
(522.000 kematian) dan sementara itu merupakan penyebab kematian yang paling sering terjadi pada perempuan
di daerah yang kurang berkembang (324.000 kematian, 14.3% dari total). Kanker payudara menjadi penyebab
kedua kematian akibat kanker di daerah yang lebih maju (198.000 kematian, 15.4%) setelah kanker paru-paru.
Kisaran angka kematian antar wilayah dunia kurang dari itu karena kelangsungan hidup yang lebih
menguntungkan dari kanker payudara pada daerah berkembang, mulai dari 6 kematian per 10.000 di Asia Timur
sampai 20 kematian per 100.000 di Afrika Barat (Siregar, 2015).
Kanker payudara cenderung berdampak pada perempuan yang memasuki usia senja di atas 50 tahun.
Terdapat 8 sampai 10 kasus kanker payudara terjadi pada perempuan di usia ini. Ada beberapa faktor pemicu
munculnya kanker payudara pada perempuan. Selain disebabkan oleh faktor genetik dan lingkungan, kebiasaan
gaya hidup sehari-hari menjadi dasar munculnya kanker payudara (Siregar, 2015).
Hingga saat ini belum diketahui secara pasti penyebab utama kanker payudara. Namun beberapa sumber
menyebutkan penyebab tersebut hanya bisa ditandai pada wanita yang mempunyai faktor-faktor risiko seperti
punya riwayat tumor, haid terlalu muda atau menopause diatas umur 50 tahun, melahirkan anak pertama diatas
usia 35 tahun, pola makan yang tidak sehat dengan komsumsi lemak berlebih, dan kegemukan. Beberapa kasus
kanker payudara yang dapat berujung kematian disebabkan oleh keterlambatan dalam penanganan. Kebanyakan
pasien tidak menyadari tanda-tanda kanker payudara sehingga terlambat dalam memeriksakan diri. Hal ini
menyebabkan penanganannya pun terlambat bahkan saat pasien sudah memasuki kanker payudara stadium akhir
dimana resiko kematian semakin besar. Oleh karena itu, setiap orang harus mengetahui gejala-gejala dari kanker
payudara sehingga penanganan dapat dilakukan lebih dini (Siregar, 2015).
Melihat betapa pentingnya deteksi dini dan diagnosis kanker payudara membuat banyak peneliti yang
melakukan penelitian dalam diagnosis kanker payudara. Hal ini membuat banyak peneliti yang melakukan
penelitian dalam melakukan diagnosis kanker payudara.
Berdasarkan uraian di atas, hal ini mendasarkan penulis untuk melakukan penelitian mengenai Algoritma
Data Mining dalam diagnosis kanker payudara menggunakan metode Support Vector Machine dan Random
Forest menggunakan data dari biopsi payudara yang di hitung secara komputasi di bawah mikroskop. Data yang
di ambil merupakan data dari Data yang digunakan dalam penelitian diambil dari data pasien kanker
payudara UCI Machine Learning Wicoxsin University.
Sehingga peneliti dapat merumuskan masalah bagaimana perbandingan tingkat akurasi metode machine
learning dalam melakukan diagnosis kanker payudara. Sehingga dalam kedepannya dapat membantu

278
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

meningkatkan kualitas pelayan medis terhadap deteksi dini kanker payudara sehingga pasien/penderita bisa
melakukan beberapa tindakan pencegahan terhadap kanker payudara.

1.2 Tinjauan Pustaka


1.2.1 Kanker Payudara
1) Pengertian Kanker payudara
Penyakit kanker adalah penyakit yang timbul akibat pertumbuhan tidak normal sel jaringan tubuh yang
berubah menjadi sel kanker. Penyakit kanker merupakan salah satu penyebab kematian utama di seluruh dunia.
Pada tahun 2012, sekitar 8.2 juta kematian disebabkan oleh kanker. Kanker paru, hati, perut, kolorektal, dan
kanker payudara adalah penyebab terbesar kematian akibat kanker setiap tahunnya. Menurut data GLOBOCAN
(IARC) tahun 2012 diketahui bahwa kanker payudara merupakan penyakit kanker dengan persentase kasus baru
(setelah dikontrol oleh umur) tertinggi, yaitu sebesar 43.3%, dan persentase kematian (setelah dikontrol oleh
umur) akibat kanker payudara sebesar 12.9% (Kementerian Kesehatan Republik Indonesia, 2015).
Ketika sejumlah sel di dalam payudara tumbuh dan berkembang dengan tidak terkendali, inilah yang disebut
kanker payudara. Sel-sel tersebut dapat menyerang jaringan sekitar dan menyebar ke seluruh tubuh. Kumpulan
besar dari jaringan yang tidak terkontrol ini disebut tumor atau benjolan. Akan tetapi, tidak semua tumor
merupakan kanker karena sifatnya yang tidak menyebar atau mengancam nyawa. Tumor ini disebut tumor jinak.
Tumor yang dapat menyebar ke seluruh tubuh atau menyerang jaringan sekitar disebut kanker atau tumor ganas.
Teorinya, setiap jenis jaringan pada payudara dapat membentuk kanker, biasanya timbul pada saluran atau
kelenjar susu (Yayasan Kanker Payudara Indonesia, 2017).
Menurut American Cancer Society, kanker payudara adalah tumor malignant yang tumbuh pada sel
payudara. Tumor malignant adalah suatu kumpulan sel-sel kanker yang dapat tumbuh didalam jaringan sekitar
dada dan akan menyebar ke seluruh tubuh. Pada umumnya kanker payudara terjadi pada perempuan tetapi tidak
jarang juga dapat terjadi pada laki-laki. Kebanyakan kanker payudara mulai tumbuh pada duktus (ductal
cancers). Beberapa dimulai pada sel-sel yang terdapat di lobulus (lobular cancers), dan sebagian kecil bermula
pada jaringan yang lain (American Cancer Society, 2015)

2) Tumor Ganas dan Tumor Jinak


Tumor dapat bersifat jinak atau ganas. Tumor ganas tulang dapat bersifat primer yang berasal dari unsur-unsur
tulang sendiri atau sekunder dari metastasis (infiltrasi) tumor-tumor ganas organ lain ke dalam tulang
(Nababan,2013):
a. Tumor Jinak (Benign)
Tumor jinak (benign) tidak menyerang dan menghancurkan tissue (sekumpulan sel terinterkoneksi yang
membentuk fungsi serupa dalam suatu organisme) yang berdekatan, tetapi mampu tumbuh membesar secara
lokal. Biasanya setelah dilakukan operasi pengangkatan (tumor jinak), tumor jenis ini tidak akan muncul lagi.
b. Tumor Ganas (Malignant)
Tumor jenis ini lebih dikenal dengan istilah Kanker, yang memiliki potensi untuk menyerang dan merusak tissue
yang berdekatan, baik dengan pertumbuhan langsung di jaringan yang bersebelahan (invasi) atau menyebabkan
terjadinya metastasis (migrasi sel ke tempat yang jauh).

1.2.2 Machine Learning


Machine learning pada dasarnya merupakan proses komputer dalam mempelajari data-data dengan cara
membiasakannya dalam berinteraksi atau mengenali pola data. Machine learning memiliki kecerdasan buatan
yang dibuat oleh user terhadap komputer. Algoritma dalam machine learning akan menghasilkan sebuah model
dari masukan-masukan (input) dan menghasilkan prediksi atau pengambilan keputusan berdasarkan data-data
selanjutnya (output). Machine learning menjadi alat analisis dalam data mining (Santoso, 2007).

1.2.3 Support Vector Machine (SVM)


Support Vector Machine (SVM) salah satu metode learning machine yang bekerja atas prinsip Structural
Risk Minimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada
input space (Santoso, 2007). Selain itu SVM juga bertujuan untuk meminimalkan batas atas dari general eror.
Keuntungan lain menggunakan SVM adalah metode ini dapat dianalisis secara teoritis menggunakan konsep
teori pembelajaran komputasi.
Prinsip dasar SVM adalah linier classifier, kemudian dikembangkan untuk dapat bekerja pada kasus non
linier dengan memasukkan konsep kernel pada ruang kerja berdimensi tinggi . Misal diberikan himpunan X 
x1 ,x2 ,...xm dimana data yang tersedia dinotasikan sebagai xi  Rn ,i 1,2,...m . Gambar 3.1 memperlihatkan
beberapa pattern yang merupakan anggota dari dua buah class : +1 dan –1. Pattern yang tergabung pada class –1
disimbolkan dengan kotak warna merah, sedangkan pattern pada class +1, disimbolkan dengan lingkaran warna
kuning. Problem klasifikasi dapat diterjemahkan dengan usaha menemukan garis (hyperplane) yang memisahkan
antara kedua kelompok tersebut hal ini dapat di lihat pada gambar 1.1 berikut.

279
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

Gambar 1. 1 Optimal Hyperplane SVM

Gambar 1.1 memperlihatkan problem klasifikasi dengan usaha menemukan garis Optimasi Hyperpalane
Support Vector Machine (SVM) yang tepat. Menurut (Darsyah, 2013) Pada umumnya, dalam permasalahan
nyata, jarang ditemukan data linear separable. Sehingga fungsi Kernel digunakan dalam Support Vector
Machine untuk mengatasi data non-linier. Dengan memasukkan fungsi Kernel, maka problem data non-linier
menjadi linier dalam space baru seperti tampak pada ilustrasi gambar 1.2 berikut.

Gambar 1. 2 Kernel non-linear


Gambar 1.2 memperlihatkan data yang dimasukkan bersifat non-liniear menjadi linear. Sehingga secara
matematis, beberapa fungsi Kernel dijelaskan sebagai berikut:
1. Kernel Linear: xT x,
2. Kernel Polynomial: ;
3. Kenel Radial Basis Function: ;
4. Kernel Tangent Hyperbolic: ; = bilangan real.

1.2.4 Random Forest


Random forest merupakan pengembangan dari Decision Tree dengan menggunakan beberapa Decision Tree,
dimana setiap Decision Tree telah dilakukan training menggunakan sampel individu dan setiap atribut dipecah
pada tree yang dipilih antara atribut subset yang bersifat acak. Dan pada proses klasifikasi, individunya
didasarkan pada vote dari suara terbanyak pada kumpulan populasi tree (Adnyana, 2015).
CART (Classification and Regression Tree) merupakan metode eksplorasi data yang didasarkan pada teknik
pohon keputusan. Pohon klasifikasi dihasilkan saat peubah respon berupa data kategorik, sedangkan pohon
regresi dihasilkan saat peubah respons berupa data numerik. Pohon terbentuk dari proses pemilahan rekursif
biner pada suatu gugus data sehingga nilai peubah respons pada setiap gugus data hasil pemilahan akan lebih.

Gambar 1. 3 Kernel non-linear

280
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

Pohon diilustrasikan dalam Gambar 1.3 Pohon disusun oleh simpul t1, t2, …, t5. Setiap pemilah (split)
memilah simpul non-terminal menjadi dua simpul yang saling lepas. Hasil prediksi respons suatu amatan
terdapat pada simpul terminal. Pembangunan pohon klasifikasi CART meliputi tiga hal, yaitu: (1)Pemilihan
Pemilah (split);(2)Penentuan Simpul Terminal; (3)Penandaan Label Kelas.
Metode Random Forest adalah pengembangan dari metode CART, yaitu dengan menerapkan metode
bootstrap aggregating (bagging) dan random feature selection. Dalam random forest, banyak pohon
ditumbuhkan sehingga terbentuk hutan (forest), kemudian analisis dilakukan pada kumpulan pohon tersebut.
Pada gugus data yang terdiri atas n amatan dan p peubah penjelas, random forest dilakukan dengan cara
(Breiman, Bagging Predictors, 1996): (1) Lakukan penarikan contoh acak berukuran n dengan pemulihan pada
gugus data. Tahapan ini merupakan tahapan bootstrap; (2)Dengan menggunakan contoh bootstrap, pohon
dibangun sampai mencapai ukuran maksimum (tanpa pemangkasan). Pada setiap simpul, pemilihan pemilah
dilakukan dengan memilih m peubah penjelas secara acak, dimana m << p. Pemilah terbaik dipilih dari m
peubah penjelas tersebut. Tahapan ini adalah tahapan random feature selection; (3)Ulangi langkah 1 dan 2
sebanyak k kali, sehingga terbentuk sebuah hutan yang terdiri atas k pohon.
Respons suatu amatan diprediksi dengan menggabungkan (aggregating) hasil prediksi k pohon. Pada
masalah klasifikasi dilakukan berdasarkan majority vote (suara terbanyak). Error klasifikasi random forest
diduga melalui error OOB yang diperoleh dengan cara (Breiman, Random Forest, 2001): (1)Lakukan prediksi
terhadap setiap data OOB pada pohon yang bersesuaian. Data OOB (out of bag) adalah data yang tidak termuat
dalam contoh bootstrap; (2)Secara rata-rata, setiap amatan gugus data asli akan menjadi data OOB sebanyak
sekitar 36% dari banyak pohon. Oleh karena itu, pada langkah 1, masing-masing amatan gugus data asli
mengalami prediksi sebanyak sekitar sepertiga kali dari banyaknya pohon. Jika a adalah sebuah amatan dari
gugus data asli, maka hasil prediksi random forest terhadap a adalah gabungan dari hasil prediksi setiap kali a
menjadi data OOB; (3) Error OOB dihitung dari proporsi misklasifikasi hasil prediksi random forest dari seluruh
amatan gugus data asli.
Menurut (Breiman & Adele , Random Forests, 2005) menyarankan untuk mengamati error OOB saat k
kecil, lalu memilih m yang menghasilkan error OOB terkecil. Jika random forest dilakukan dengan
menghasilkan variable importance, disarankan untuk menggunakan banyak pohon, misalnya 1000 pohon atau
lebih. Jika peubah penjelas yang dianalisis sangat banyak, nilai tersebut dapat lebih besar agar variable
importance yang dihasilkan semakin stabil (Breiman & Adele , Random Forests, 2005).
Dengan diterapkannya metode Random Forest ini pada permasalahan data mining untuk penerapan dalam
malakukan diagnosis penyakit kanker. Diharapkan dapat membantu meningkatkan pendeteksian dini penyakit
kanker sehingga membantu pasien untuk mencegah semakin parahnya kanker tersebut.

1.3 Metodologi Penelitian


1.3.1 Sampel dan Variabel penelitian.
Sampel dalam penelitian ini merupakan data sekunder yang di peroeh dari hasil perhitungan komputasi
digital dari data pasien kanker payudara pada UCI Wicoxsin University. Data yang di dapat terdiri dari Variabel
Dependen dan Independen. Untuk Variabel dependennya(Y) terdapat 2 kategori yaitu Maligant dan Benign
dimana Maligant merupakan Terdiagnosis Tumor ganas(kanker) dan Benign adalah Terdiagnosis Tumor.
Kemudian untuk Variabel Independen ada 9, Yaitu: Radius(X1);Tekstur(X2); Primeter(X3); Area(X4);
Smoothness(X5); Compactness (X6); Concavity(X7); Concave Points(X8) dan Simetry(X9).

1.3.2 Tahapan Penelitian


Dalam penelitan ini terdapat bebearapa tahap untuk mecapai tujuan yang di sebutkan oleh peneliti pada latar
belakang, yaitu:
1. Mengumpulkan(mengambil) data
2. Cleaning data.
3. Memisahkan data Latih dan Data Uji.
4. Melakukan konfigurasi model pada software R.
5. Melakukan permodelan menggunakan software R.
6. Validasi Hasil Menggunakan data Latih.
7. Validasi dan perbandingan hasil machine learning kedua metode menggunakan data uji.
8. Penarikan Kesimpulan.

2. PEMBAHASAN
Dalam pembahasan ini peneliti akan membahas mengenai hasil dari 2 metode machine learning dalam
klasifikasi diagnosis kanker payudara, yang pertama di bahas adalah

281
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

2.1 Pembuatan Data Latih


Pembuatan data latih digunakan untuk memisahkan keseluruhan data menjadi 2 bagian, yaitu data latih dan
data uji. Yang dimana data latih digunakan untuk melatih model machine learning dan data uji adalah di
gunkana untuk menakar tingkat akurasi dari masing masing metode machine learning. Berikut pembagiannya.

Tabel 2. 1 Pembagian data latih dan data uji


Klasifikasi Latih Uji Total
Malignant(M) 85 127 212
Benign (B) 150 207 357
Total 235 334 569

Pada tabel 1 Data latih juga dilakukan dengan cara membagi data yang tersedia menggunakan rumus slovin
dengan menggunakan tingkat signifikansi sebesar 5%.

(1)

Kemudian di dapatkan jumlah data sample yang di gunakan untuk data latih sebanyak 235 data dan
kemudian di ambil secara acak sehingga di dapatkan pembagian seperti pada tabel 1.

2.2 Metode Random Forest


Dalam proses pelatihan metode machine learning random forest dibuat menjadi 1000 pohon agar
mendapatkan hasil yang lebih optimal, namun dalam prosesnya jumlah pohon yang di gunakan dalam learning
adalah sektiar 550 pohon agar mendapatkan model decision tree yang terbaik. Hal ini bisa dilihat pada gambar
2.1 berikut.

Gambar 2. 1 Proses training model random forest

Kemudian setelah melakukan proses pelatihan maka terbentuklah banyak decision tree dari hasil iterasi yang
di lakukan oleh metode ini. Berikut salah satu Decision tree yang terbentuk dari metode random forest.

282
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

Gambar 2. 2 Salah satu decision tree yang terbentuk

Gambar 2.2 memperlihatkan decision tree yang terbentuk dari hasil metode machine learning random forest,
decision tree ini digunakan untuk melakukan klasifikasi pada diagnosis kanker payudara. Ini merupakan decision
tree yang tebentuk setelah sekitar 500 kali iterasi menumbuhkan decision tree. Contoh dalam klasifikasinya
menggunakan tabel 5.3 di atas pada pasien ke-1. Yang memiliki area mean = 559.2 maka masuk ke cabang
sebelah kiri, kemudian dilihat concave points = 0.0543 maka masuk ke cabang sebelah kanan, kemudian dilihat
tekstur mean = 20.82 maka masuk ke cabang sebelah kanan kemudian dilihat concavity mean = 0.1063 maka
masuk ke sebelah kiri dengan klasifikasi M(Maligant) dan diagnosis ini cocok dengan hasil observasi.

2.3 Metode Support Vector Machine


Setelah mendapatkan model random forest maka selanjutnya adalah membuat model yang ke 2 yaitu model
dengan metode SVM. Dalam Pelatihan modelnya metode ini didapatkan metode kernel yang di gunakan adalah
kernel linear dimana model ini akan membuat sebuah garis linear untuk membagi kelompok atau diagnosis
sehingga yang berada di atas garis masuk ke diagnosis Kanker dan yang di bawah garis masuk ke diagnosis
Tumor. Hali ini bisa dilihat pada gambar 2.3 berikut. Terlihat bahwa ke dua kategori seperti terpisah oleh sebuah
garis linear.

Gambar 2. 3 Plot Support Vector Machine

Berdasarkan gambar 6 bahwa plot yang berwarna merah merupakan kategori Kanker dan yang hitam adalah
kategori tumor. Sedangakan warna merah yang berkumpul pada bagian hitam merupakan salah klasifikasi dan
tanda “+” (plus) merupakan support vector dimana itu merupakan batas dari hyperlpane margin.

283
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

2.4 Evaluasi data Latih Klasifikasi


Dari Proses pelatihan data tersebut maka akan di dapatkan model klasifikasi dari masing masing metode
machine learning. Model tersebut selanjutnya akan di uji untuk mengetahui keakuratan model dalam pengujian
ini data yang di gunakan merupakan data yang di gunakan dalam pembuatan model. Hal ini di gunakan untuk
melihat apakah model dapat mengklasifikasi data yang sama dengan baik.
Berdasarkan tabel 2.2 yang merupakan evaluasi dari model machine learning Support Vector Machine
mengklasifikasikan kategori B(Benign) sebanyak 150 prediksi namun 7 pasien di antaranya salah klasifikasi dan
143 pasien berada pada klasifikasi yang benar. Dan pada kategori M(Malignant), terdapat 85 prediksi, dimana 5
pasien di antaranya salah klasifikasi dan 80 pasien pada klasifikasi yang benar. Pada model ini di dapatkan
tingkat akurasi sebesar 94%.
Berdasarkan tabel 2.3 yang merupakan evaluasi dari model machine learning random forest di dapatkan
semua hasil prediksi cocok dengan hasil klasifikasi data yang di gunakan sehingga didapatkan akurasi 100%
pada evaluasi model yang berarti model machine learning random forest dapat memprediksi dengan baik seluruh
data yang di latih-nya.

Tabel 2. 2 Pembagian data latih dan data uji Tabel 2. 3 Pembagian data latih dan data uji
MODEL SVM MODEL RF
B M B M
B 143 5 B 150 0
M 7 80 M 0 85

2.5 Perbandingan Hasil Klasifikasi Metode SVM dengan Random Forest


Berdasarkan Model yang telah di dapatkan dari proses pelatihan, maka selanjutnya model tersebut digunakan
untuk melakukan klasifikasi terhadap data yang tidak di gunakan dalam proses pelatihan machine learning.
Sehingga data yang harus di klasifikasikan ada 334 data pasien yang harus di diagnosis.

Tabel 2. 4 Pembagian data latih dan data uji


Method Diagnosis Predicted Precentage Total
B M Correct Accuracy
SVM B 195 12 94.20% 0.931644
Ovserved

M 10 117 92.13%
RF B 199 8 96.14% 0.945243
M 9 118 92.91%

Berdasarkan tabel 2.4, menjelaskan bahwa seberapa besar presentase data yang dapat di prediksi dengan
benar oleh masing-masing metode machine learning. Bannyaknya data diagnosis B yang dapat di prediksi
dengan tepat oleh Machine Learning SVM adalah 195 data dan banyaknya diagnosis B yang di prediksi salah
ada 12 data. Sehingga Presentase ketepatannya adalah 94.20%. Sedangkan untuk data diagnosis M yang dapat di
prediksi dengan benar ada 117 data dan 10 data tidak di prediksi dengan tepat sehingga presentase ketepatannya
adalah 92.13%.
Adapun Perhitungan percentage correct dari metode SVM pada Perbandingan hasil klasifikasi di atas adalah
sebagai berikut
(2)
(3)
dengan
PCB = hasil percentage correct data kategori Benign.
PCM = hasil percentage correct data kategori Malignant.

Kemudian untuk Bannyaknya data diagnosis B yang dapat di prediksi dengan tepat oleh Machine Learning
Random Forest 199 data dan banyaknya diagnosis B yang di prediksi tidak tepat ada 8 data. Sehingga Presentase
benarnya adalah 96.14%. Sedangkan untuk data diagnosis M yang dapat di prediksi dengan benar ada 118 data
dan 9 data tidak di prediksi dengan tepat sehingga presentase ketepatannya adalah 92.91%.
Adapun Perhitungan percentage correct dari metode RF pada Perbandingan hasil klasifikasi di atas adalah
sebagai berikut
(4)
(5)
dengan
PCB = hasil percentage correct data kategori Benign
PCM = hasil percentage correct data kategori Malignant

284
Seminar Nasional Teknologi Informasi dan Komunikasi 2018 (SENTIKA 2018) ISSN: 2089-9815
Yogyakarta, 23-24 Maret 2018

Tabel 2. 5 Pembagian data latih dan data uji


Metode Precentage Correct Overall Precentage

SVM 94.20% 93.164%


92.13%
RF 96.14% 94.524%
92.91%

Berdasarkan hasil perhitungan overall percentage pada tabel 2.5 dapat menggambarkan secara jelas
mengenai perbandingan dari performa machine learning pada ke-2 metode tersebut. Dari hasil overall
percentage tersebut bisa dijadikan sebagai tingkat akurasi dari machine learning dalam melakukan klasifikasi
diagnosis kanker payudara.

3. KESIMPULAN
Berdasarkan hasil penelitian didapatkan metode machine learning terbaik dalam klasifikasi kanker payudara
ini adalah metode Random Forest (RF) yang tingkat akurasinya lebih tinggi dari metode SVM. Dalam prediksi
data latih Model RF mendapatkan tingkat akurasi sebesar 100% yaitu dapat dengan baik mengklasifikasi
diagnosis kanker. Sedangkan dalam memprediksi data latih model SVM mendapatkan tingkat akurasi sebesar
94% dimana 12 diantaranya mengalami salah diagnosis. Kemudian menggunakan data uji pada model RF di
dapatkan tingkat akurasi sebesar 94.5% dibandingkan dengan metode SVM di dapatkan tingkat akurasi sebesar
93.1% sehingga bisa di bilang bahwa model Machine Learning Random Forest merupakan metode yang terbaik
dalam penelitian ini walaupun beda akurasinya sedikit bisa dibilang keduanya baik untuk melakukan klasifikasi.

PUSTAKA
Adnyana, I. M. 2015. Prediksi Lama Studi Mahasiswa Dengan Metode Random Forest. Csrid Journal, Vol.8
No.3 , (http://researchgate.net, diakses 12 Oktober 2017)
American Cancer Society. 2015. Breast Cancer Fact & Figures 2015 - 2016. Atlanta: American Cancer Society,
Inc.
Breiman , L., & Adele , C. 2005. Random Forests.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Breiman, L. 1996. Bagging Predictors : Machine Learning 24, 123-140.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Breiman, L. (2001). Random Forest : Machine Learning 45, 5-32.
(http://www.Stat.Berkeley.Edu/~Breiman/Randomforests/Cc_Home.Htm, diakses 1 Oktober 2017)
Darsyah, M. Y. 2013. Menakar Tingkat Akurasi Support Vector Machine. Statistika, Vol. 1, No. 1, 15-20,
(http://www.jurnal.unimus.ac.id, diakses pada 9 Oktober 2017)
Davies, & Beynon, P. 2004. Database Systems Third Edition. New York: Palgrave Macmillan.
Fayed, L. 2017. Differences Between A Malignant And Benign Tumor. https://Www.Verywell.Com/What-Does-
Malignant-And-Benign-Mean-514240, diakses 6 Oktober 2017)
Hidayat, S. 2010. Pengantar Umum Metodologi Penelitian Pendidikan. Pekanbaru: Suska Pers.
Kementerian Kesehatan Republik Indonesia. (2015, September 23). Infodatin Kanker. Retrieved From
Kementerian Kesehatan Republik Indonesia : http://www.Depkes.go.id, diakses 3 Oktober 2017)
Nababan, Abdi. R. 2013. Penjelasan Umum Kanker Payudara.. (http: //materikedokteran.blogspot.co.id/
2013/02/tumor-tulang1.html. , diakses 5 Februari 2018)
National Breast Cancer Centre ;. (2001, 9 9). Clinical Practice Guidelines For The Management Of Early Breast
Cancer: Second Edition. (http://Www.Nhmrc.Gov.Au/Publications/Synopses/Cp74syn.Htm, diakses 8
Oktober 2017)
Pramudiono, I. 2003. Pengantar Data Mining: Menambang Permata Pengetahuan Di Gunung Data. Materi
Kuliah Umum Ilmukomputer.Com .
Pratiwi, Y. R. 2017. Perbandingan Analisis Sentimen Pada Pertalite Melalui Jejaring Sosial Twitter Dengan
Menggunakan Metode Support Vector Machine Dan Maximum Entropy. Yogyakarta : Universitas Islam
Indonesia.
Santoso, B. 2007. Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu.
Siregar, B. H. 2015. Deteksi Dini Dan Diagnosis Dini Kanker. Jakarta: Mitra Keluarga.
Sugiyono. 2010. Memahami Penelitian Kualitatif. Bandung: Alfabeta.
Tim Cancerhelps. 2010. Stop Kanker. Jakarta: Pt Agromedia Pustaka.
Wolberg, W. H. 2017. Breast Cancer Wisconsin (Diagnostic) Data Set.
(https://Archive.Ics.Uci.Edu/Ml/Datasets/Breast+Cancer+Wisconsin+(Diagnostic), diakses 2 Oktober 2017)
Yayasan Kanker Payudara Indonesia. 2017. Penjelasan Umum Kanker Payudara. (Yayasan Kanker Payudara
Indonesia : http://www.pitapink-ykpi.or.id/, diakses 2 Oktober 2017)

285

Anda mungkin juga menyukai