Anda di halaman 1dari 11

Statistika,Vol.1,No.

2,November2013

SMOOTH SUPPORT VECTOR MACHINE DAN


MULTIVARIATE ADAPTIVE REGRESSION SPLINE UNTUK
MENDIAGNOSIS KANKER PAYUDARA
1
Shofi Andari, 2Santi W. Purnami, 3Bambang W. Otok
Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember,
Surabaya
Alamat e-mail : 1shofi.andari11@mhs.statistika.its.ac.id

ABSTRAK
Kanker payudara merupakan kanker yang paling umum menyerang wanita dan menjadi
kanker penyebab kematian utama bagi wanita di seluruh dunia. Penyebab dari kanker
payudara masih belum dapat dipastikan sehingga metode preventif yang spesifik untuk
penyakit ini juga belum dapat ditentukan, oleh karena itu diagnosis terhadap kanker
payudara sedini mungkin menjadi sangat penting bagi para dokter dan tenaga medis
untuk menyelamatkan pasien maupun orang-orang yang memiliki faktor risiko kanker
payudara. Beberapa penelitian telah dikembangkan dengan ide dasar
mengklasifikasikan kanker payudara berdasarkan rekaman gambar radiologi dan usia
pasien terhadap hasil biopsi. Berdasarkan keunggulan smooth SVM (SSVM) serta
potensi MARS dalam menyelesaikan permasalahan diagnosis kanker payudara, tulisan
ini mengkaji dan memaparkan kedua metode tersebut digunakan untuk
mengklasifikasikan kanker payudara ke dalam dua kelompok yaitu kelompok
malignant dan kelompok benign. Secara umum baik SSVM maupun MARS mampu
menghasilkan tingkat akurasi yang sama-sama tinggi. Tingkat akurasi kedua metode
dalam mendiagnosis kanker payudara ke dalam kelompok benign dan malignant yang
cukup tinggi dipercaya dapat mendukung prosedur pemeriksaan dan diagnosis kanker
payudara.

Kata Kunci : kanker payudara, klasifikasi, smooth SVM, MARS

PENDAHULUAN Penyebab kanker payudara belum


dapat dipastikan sehingga metode
Kanker payudara merupakan kanker preventif yang spesifik untuk penyakit ini
yang paling umum menyerang wanita juga belum dapat ditentukan. Secara
dan menjadi kanker penyebab kematian umum, pasien yang payudaranya didapati
utama bagi wanita di seluruh dunia. mengalami pengapuran (calcification)
Tercatat pada tahun 2008, satu perempat berdasarkan gambar mamografi akan
(23%) dari semua kanker yang diderita dirujuk untuk melakukan biopsi agar
oleh kaum wanita adalah kanker mendapat kepastian mengenai diagnosis
payudara [1]. Berdasarkan data WHO lebih lanjut dari pengapuran tersebut.
tahun 2010, di Indonesia kanker Dengan mengusahakan diagnosis awal
payudara menduduki peringkat kedua sejak tahap radiologi maka pasien-pasien
kanker paling mematikan setelah kanker yang dicurigai memiliki kanker tidak
paru-paru [2]. Sampai saat ini, perlu melakukan biopsi (unnecessary
mengontrol kanker, khususnya kanker biopsy). Diagnosis kanker payudara ini
payudara, masih menjadi pekerjaan yang dilakukan dengan mengklasifikasikan
berat bagi pemerintah Indonesia. kelainan sebagai malignant atau benign.

37
Statistika,Vol.1,No.2,November2013

Beberapa penelitian telah menyimpulkan bahwa MARS juga dapat


dikembangkan dengan ide dasar mengatasi permasalahan diagnosis
mengklasifikasikan kanker payudara kanker payudara sama baik dengan
berdasarkan rekaman gambar radiologi. analisis diskriminan maupun ANN.
Hal ini seiring dengan berkembangnya Penelitian-penelitian tersebut sebagian
metode dalam data mining dan machine besaar dilakukan dengan memanfaatkan
learning, sehingga permasalahan dataset yang disediakan oleh institusi
mengenai pengenalan pola (pattern penyedia database (benchmark).
recognition) menjadi salah satu alat serta Penelitian mengenai implementasi
bahan penelitian yang populer dalam metode klasifikasi untuk mendiagnosis
beberapa tahun terakhir. Penelitian kanker payudara menggunakan dataset
tentang diagnosis kanker payudara telah lokal belum banyak diadakan. Data yang
dimulai sejak tahun 1990-an. Tahun digunakan dalam peneltian ini
2002, [3] meneliti tentang diagnosis sebelumnya telah digunakan dalam
kanker payudara dengan artificial neural penelitian [12] untuk kepentingan yang
network dan support vector machine. sama menggunakan metode klasifikasi
Penelitian serupa dilakukan oleh [4] SVM (94,34%) dan regresi logistik
dengan mengintegrasikan radial basis (88,72%), sedangkan [13] pada
function (RBF) dalam neural network penelitiannya mengimplementasikan
kemudian membandingkannya dengan metode CART (90,19%). Di samping itu,
algoritma SVM. Tahun berikutnya, [5] kedua penelitian tersebut tidak
meneliti tentang pendeteksian dan mengindahkan adanya data hilang
klasifikasi rekaman gambar (missing value) pada dataset dan
ultrasonografi kanker payudara. menggantikannya dengan angka nol
Menggunakan data benchmark sehingga akurasi klasifikasi kurang
Wisconsin Breast Cancer Database representatif. Berdasarkan hal tersebut,
(WBCD), [6] mengembangkan feature sebelum mengimplementasikan metode
selection dan klasifikasi dengan rough klasifikasi pada penelitian ini dilakukan
set-based berdasarkan SVM. Model imputasi terhadap missing value
hybrid baru berdasarkan model SVM menggunakan metode imputasi berganda
dikembangkan oleh [7] dengan untuk data kategorik. Mengingat
mengintegrasi algoritma fuzzy c-mean pentingnya penyeleksian parameter
dalam sistem klasifikasi SVM untuk dalam SVM dan metode-metode
diagnosis kanker payudara dengan data pengembangannya, maka dalam
WBCD. penelitian ini juga diulas teknik
Metode pemulusan terhadap solusi penyeleksian parameter dalam SSVM
SVM juga telah diaplikasikan untuk untuk fungsi kernel Gaussian dengan
diagnosis kanker payudara oleh [8]-[10] pendekatan uniform design dua tahap
dengan menggunakan data kanker sebagaimana yang telah dilakukan dalam
payudara benchmark dan menyimpulkan [14].
bahwa metode smooth SVM (SSVM) Diberikan permasalahan klasifikasi
menghasilkan akurasi yang lebih baik dari sebanyak n objek dalam ruang
dibandingkan analisis diskriminan linier, dimensi R p sehingga susunan data
neural network, decision tree, genetic berupa matriks A berukuran n p dan
algorithm dan supervised fuzzy keanggotaan tiap titik terhadap kelas
clustering. Sementara itu penggunaan {+1} atau {-1} yang didefinisikan pada
MARS untuk diagnosis kanker payudara diagonal matriks D berukuran n n,
belum banyak berkembang, pun maka problem optimasi pada SSVM
demikian dalam tulisan ilmiahnya,[11] adalah:

38
Statistika,Vol.1,No.2
2,Novemberr2013

C 1 (w, b) :=
min ' + (w'w + b 2 ) min
m
( w ,b )R p +1
(2.66)
w ,b , 2 2
C 1
denggan kendala w + eb) + e (1)
D(Aw min
m || p(e D( Aw eb), ) ||22 + ( w'w + b 2 ) (5)
(w, )R p +1
2 2
0
Solusi problem 2.1 adalah
Secara um
mum, probleem optimasii
= (e D( A
Aw + eb))+ a
(2) (2.7)
VM dapat ditulis
SSV d sebaggai berikut:
di mana meruppakan variaabel slack yang
y ( w , b ) :=
miin
menggukur k
kesalahan klasifikkasi. (u ,b )R p +1

min
m
Permmasalahan nonlinier ini daapat ( u ,b )R p +1

diilustrasikan seeperti pada Gambar


G 1. C 1
|| p(e D( K ( A, A ')Du eb), ) ||22 + (u'u + b 2 ) (6)
2 2

yanng diselesaiikan dengann iterasi Newwton-


Arm mijo (Gam mbar 2) dan K(A A,A)
meerupakan fuungsi kernnel yang dalam d
pennelitian ini digunakan kkernel Gaussian,
ataau bisa dirumuuskan beerikut
2
K ( Ai , A j ) = exp Ai , A j de
engan param
meter
2

kerrnel .

Gaambar 1. Bidanng pembatas w'x w +b = 0


beerada tepat di anntara dua marjinn w'x + b = 1
daari solusi prograam nonlinier (2))

Melaalui subsstitusi daan konveersi,


persaamaan (2) dapat ditulis
d sebaagai
berikkut:
mi n C || (e D( Aw 1
A eb)) + ||22 + (w'w + b 2 ), (3)
w ,b
2 2
denggan fungsi plus
p didefinnisikan sebaagai
(x+)i = maks{0, xi} untuk i = 1, 2, , p.p Ga
ambar 2. Diaggram alir algorittma Newton-Arrmijo
F
Fungsi objeektif dalam persamaan (3)
Perss.1:
di attas tidak memiliki
m tuurunan keddua, ( w i , , b i ) (( w i , b i ) + i d i ) i ( w i , b i ) d i
tekniik pemulussan yang diusulkan
d [
[18]
dilakkukan denggan menggaantikan funngsi
Peers. 2: (wi +1, bi +1) = ( w i , b i ) + i d i
plus dengan p(x,) yaituu integral dari d
Saat iterasii pada algooritma New wton -
(1 + )
1
x
fungsi sigmoid neural netw
work Arm mijo berhennti, diperoleeh nilai w dan d b
atau dapat dituliiskan sebagai berikut: yan ng konvergeen. Dengan demikian fungsi f
p ( x, ) = x +
1
log(1 + x ), > 0 (4) pem misah yangg diperoleeh untuk kasus k
klaasifikasi liniier adalah
di mana
m adalah parameeter penghaalus. f (x) = signn(w'x + b) , (7)
Denggan mengggantikan fungsi plus p sed dangkan fungsi pemissah untuk kasus k
denggan p(x,) maka dipperoleh moodel klaasifikasi nonlinier
n aadalah seebagai
SSVM M sebagai berikut:
b berrikut
f (x) = sign(w'x + b) = sign(u'D''K ( A, A') + b) (8)

39
Statistika,Vol.1,No.2,November2013

Perumusan program linier SVM 1-


norm telah ditunjukkan dalam [19] MARS diperkenalkan oleh [20] untuk
sebagai salah satu cara untuk memilih pendekatan model nonparametrik antara
atribut (feature selection) di antara variabel respon dan beberapa variabel
varian-varian norm SVM, problem linier prediktor pada regresi piecewise. Regresi
piecewise merupakan regresi yang
tersebut adalah sebagai berikut
memiliki sifat tersegmen atau terpotong-
Ce' + e's (2.12)
min
( w ,b,s, )R(2 p ) +1+ n
potong. Prosedur pembentukan modelnya
dengan kendala D(Aw + eb) + e (9) didasari oleh ide dari recursive partition
regression atau RPR [21] dan
s w s generalized additive modeling [22]. RPR
0.
merupakan metode yang men-janjikan,
tetapi masih memiliki beberapa
Solusi dari w mampu menghasilkan kelemahan antara lain himpunan bagian
model yang parsimoni dan bersifat yang saling lepas menyebabkan model
sparsity. Jika nilai dari elemen vektor wp RPR tidak kontinyu pada batas-batas
= 0, maka variabel p tidak berkontribusi setiap himpunan bagian, RPR juga tidak
dalam penentuan kelas. Kontribusi atribut mampu mengidentifikasi fungsi f(x)
atau variabel prediktor dapat dinilai dari linier atau aditif, dan RPR cenderung
besarnya nilai wl untuk masing-masing sulit diinterpretasikan apabila variabel
prediktor terlalu banyak [20].
atribut, dengan l = 1, 2,..., p . Hasil modifikasi model recursive
Penerapan uniform design (UD) dalam partitioning regression dengan
penentuan parameter SVM dijabarkan kombinasi spline adalah model
dalam [14]. Pada dasarnya tahap pertama multivariate adaptive regression splines
digunakan untuk mencobakan kombinasi- atau MARS yang berbentuk:
kombinasi parameter C dan kemudian M Km
mekanisme tersarang yang digunakan f ( x) = a0 + a s ( x
m =1
m
k =1
km p ( k ,m) tkm
+ ) (10)
pada tahap kedua berfungsi untuk
mempersempit ruang penyeleksian. dengan a0 adalah koefisien dari basis
Dengan kata lain, tahap pertama fungsi BF0 sedangkan penjumlahan basis-
merupakan tahap untuk menentukan basis fungsi yang diper-oleh dari
kombinasi parameter terpilih secara kasar algoritma forward dan berhasil bertahan
dengan wilayah pencarian yang lebih luas dari strategi penghapusan pada algoritma
dan kemudian pada tahap kedua backward dan skm = 1.
penyeleksian dibatasi pada titik-titik di
Persamaan (10) dapat pula ditulis
sekitar kombinasi parameter terpilih pada
sebagai berikut:
tahap pertama.
f ( x ) = a0 + f (x ) +
K m =1
i i
Km =2
f ij ( xi , x j ) +

f ( x ) =
Km =3
fijk ( xi , x j , xk ) + ... (11)
Penjumlahan pertama adalah untuk
semua basis fungsi yang mengandung
satu variabel prediktor. Penjumlahan
kedua untuk semua basis fungsi yang
mengandung tepat dua variabel prediktor,
menunjukkan (jika ada) interaksi dua-
Gambar 3. UD dua tahap: 13-titik UD pada tahap variabel. Sama halnya dengan
pertama dan 9-titik UD pada tahap kedua penjumlahan ketiga yang menunjukkan

40
Statistika,Vol.1,No.2
2,Novemberr2013

(jika ada) kontrribusi dari interaksi tiiga- Tab


bel 1.Tabulasi silang
s (confusioon matrix) untuk
k hasil
klasifikasi biner
variaabel dan seterusnyaa. Persam maan Kelass prediksi
MAR RS dapat disederhannakan sebaagai Keelas sebenarnya
Posittif Negatif
berikkut: Positif tp fn
f ( x) = a0 + a1BF1 + a2 BF2 + ... + am BFm (12)
( Neegatif fp (12)tn
denggan f ( x) merupakan vaariabel resppon,
a0 addalah konsttanta, am adalah d koefissien Keedua ukuran senssitivity-speciificity
meenjelaskan akurasi diiagnosis deengan
untukk basis funggsi ke-m, di mana {am}m=
M
0 leb
bih berm
makna darripada in
ndeks
meruupakan penaksir untukk { m}mM=0 yang
y pro
osentasi akuurasi tunggaal.
tp + tn
diperroleh denggan pendekkatan kuaddrat Aku
urasi klasifikasii (%) = (14)
tp + fp + tn + fn
terkeecil (OLS) sedangkann BFm adalah a
tp
basiss fungsi ke-mm. Sensitivityy (%) = (15)
tp + fn
M
Model MAR RS untuk nilai variaabel tn
respoon biner merupakann pendekaatan Specificityy (%) = (16)
fp + tnn
regreesi logistik linier,
l yaituu
) n
)
ln ) = 0 +
1
x +
i i i = f ( x) , (
(13) Membuat plotp ROC merupakan n cara
i =1 yanng umuum diguunakan untuk
u
Denggan adalah a probaabilitas unntuk meengambarkaan akurasi ddiskriminasii dari
respoon bernilaii paling besar b (yaituu 1 suaatu pengujian diaagnosis untuk
u
apabila responn bernilai 0 dan 1). meenentukan apakah
a seseeoran gmend derita
Koeffisien-koefissien i dengann i = 1,2,,...,n suaatu penyakitt tertentu attau tidak. Secara
S
ditakksir secaara numeerik denngan teo
ori, kurva ROC
R meru--pakan plott dari
mem maksimumkaan likelihoood dari data d sen
nsitivity terrhadap 1-sp specificity untuk
u
)
dan f ( x ) didekatti dengaan MARS
M [20]. bebbe-rapa nilaai threshold [25].
ROC pengujian A
Beerkaitan denngan evaluasi perform masi
klasiifikasi, sennsitivity dan specifiicity
meruupakan staatistik yanng menguukur
perfoormansi klaasifikasi binner. Sensitiivity ROC pengujian B
menggukur propporsi dari kondisi yang y
Sensitivity

benaar-benar positif, yaitu y


yang
teridentifikasi sakit
s dengaan benar dan
speciificity menngukur prooporsi negaatif,
AUC = 0,50
yaituu yang teriidentifikasi sehat denngan
benaar [23] [24]]. Hasil klaasifikasi daapat
dirinngkas dalam m tabulasii silang yang y
disebbut juga confusion
c m
matrix sepperti
padaa Tabel 1 dengan tp untuk true t 1 - Specificityy

posittive (sebbenarnya positif dan Gammbar 4. Kurvaa ROC dari dua pengujian diag gnosis
diklaasifikasikan positif), fp adalah false fa (A dan
d B), masing--masing uji paliing sedikit mem
miliki
AUCC seluas 0,50
posittive (sebeenarnya negatif n tettapi
diklaasifikasikan positif), tn t adalah true t Kanker
K payudara (Carcinoma
negaative (sebbenarnya negatif dan maammae) a
adalah suuatu pen
nyakit
diklaasifikasikan negatif) dan fn yaitu neo
oplasma yang berasal dari
falsee negative (sebenarnya
( a positif tettapi parrenchyma. Kanker paayudara dittandai
diklaasifikasikan negatif). den
ngan adanyya pertumbbuhan sel yang
abn
normal padda jaringan payudara. Pada

41
Statistika,Vol.1,No.2,November2013

stadium lanjut, tidak jarang payudara payudara atau melihat tanda-tanda


harus diangkat demi menyelamatkan keganasan (malignansi) yang tampak
nyawa pasien. Bagi kaum wanita, kanker pada payudara. Indikator dalam
ini menjadi salah satu penyakit yang pemeriksaan ini antara lain mass,
paling menakutkan karena mengenai calcification, dan speculated sign.
organ yang dapat dilihat dan menjadi Mass menunjukkan adanya
simbol kewanitaan. penggumpalan (lump) dalam
Mamografi merupakan metode yang payudara. Calcification berarti telah
umum digunakan dalam diagnosis awal terjadi proses pengapuran pengapuran
kanker payudara [26]. Pemeriksaan berupa titik-titik pada jaringan
mamografi merupakan salah satu payudara. Speculated sign merupakan
pemeriksaan sensitif untuk mendeteksi penanda batas tumor di mana batas
lesi yang tidak teraba (nonpalpable). tumor tidak beraturan.
Pengambilan gambar dengan mamografi 3. Letak kelainan dicatat oleh radiologist
telah meningkatkan jumlah kanker dengan menan-dai pada bagian
payudara yang terdeteksi nonpalpable payudara sebelah mana yang didapati
dan bahkan sering pula noninvasive [3]. kelainan.
Laporan radiologist setelah melengkapi
prosedur mamografi umumnya disertai
dengan BI-RADS (Breast Imaging
METODE PENELITIAN
Reporting and Data
Systems) yang terdiri atas 6 kategori. Sumber Data dan Variabel Penelitian
Selain itu terdapat beberapa hal yang
dapat dilihat saat pemeriksaan dengan Seluruh data merupakan data sekunder
mamografi seperti berikut: yang dikumpulkan dari rekaman gambar
1. Intermediate findings menjelaskan mamografi pasien yang menjalani
keadaan jaringan payudara dan sel-sel pemeriksaan payudara dan biopsi di salah
di dalamnya berdasarkan lima satu rumah sakit kanker di Surabaya,
indikator yaitu well defined, Indonesia. Variabel respon (Y)
developing, architectural distortion, merupakan variabel yang berisi kelas
skin thickening, dan symmetry. Well
yang terdiri atas dua kategori yaitu
defined menunjukkan adanya sel yang
kategori (-1) untuk malignant dan
memiliki potensi untuk menjadi sel
kanker namun tidak menginfiltrasi sel kategori (+1) untuk benign. Pengukuran
lainnya. Keadaan developing variabel respon diperoleh dari hasil
menunjukkan kondisi well defined di biopsi, sedangkan variabel-variabel
atas ambang batas tertentu. prediktor merupakan data historis pasien
Architectural distortion merupakan catatan hasil mamografi. Variabel-
keadaaan di mana sel-sel dalam variabel prediktor dijelaskan dalam Tabel
jaringan payudara tidak membentuk 2.
jaringan sebagaimana mestinya. Skin
thickening merupakan indikasi adanya Metode Analisis
penebalan kulit payudara. Asymmetry Langkah-langkah penelitian secara
adalah keadaan payudara tidak umum digambarkan dalam diagram alir
simetris antara payudara kiri dan Gambar 5.
kanan.
2. Suspicion of malignancy atau indikasi
kecurigaan malignansi menjelaskan
bentuk kelainan yang terdapat dalam

42
Statistika,Vol.1,No.2,November2013

Tabel 2. Definisi operasional variabel prediktor menggam-barkan kecurigaan terhadap


diagnosis kanker payudara
malignansi yang mengandung 11% data
Nama Skala
Kategori hilang. Ketiga metode klasifikasi
variabel variabel
Usia (X1) - Rasio dicobakan untuk data tidak lengkap yang
Intermediate 1. Tidak ada Nominal
findings (X2) kelainan nilai missing value-nya digantikan
2. Tepat didapati dengan nilai nol dan data lengkap yakni
satu indikasi
kelainan data yang telah diterapkan imputasi
3. Terdapat lebih berganda terhadap missing value-nya,
dari satu indikasi
kelainan sesuai dengan prosedur yang dilakukan
Kecurigaan 1. Tidak ada tanda Nominal [12] dan [13] (Tabel 3). Imputasi
malignansi kanker
(X3) 2. Mass berganda telah meningkatkan
3. Calcification performansi metode klasifikasi dalam
4. Speculated sign
5. Mass, mendiagnosis malignansi kanker
Calcification payudara. Pembahasan selanjutnya,
6. Mass, Speculated
sign metode klasifikasi baik menggunakan
7. Calcification, SSVM maupun MARS merujuk pada
Speculated sign
8. Mass, penggunaan data lengkap yang telah
Calcification, diterapkan imputasi berganda.
Speculated sign
BIRADS (X4) 1. C1, C2 Ordinal
2. C3 Tabel 3. Imputasi berganda pada X 3 meningkatkan
3. C4
akurasi klasifikasi (%)
4. C5
Letak 1. Sebelah kanan Nominal Reg. Logistik
SVM CART
kelainan (X5) 2. Sebelah kiri Biner
3. Kedua payudara Tanpa imputasi
89,52 88,36 95,14
berganda
Dengan
imputasi 94,02 93,99 95,47
berganda

Diagnosis Kanker Payudara dengan


SSVM
Sesuai dengan parameter (C; ) yang
dipilih dalam uniform design dua tahap,
yakni parameter SSVM yang
menghasilkan akurasi tertinggi, Tabel 4
merupakan ringkasan perolehan akurasi
tertinggi SSVM dalam
mengklasifikasikan kanker payudara.
Tabel 4. Parameter SSVM yang menghasilkan akurasi
tertinggi berdasarkan uniform design dua tahap
Gambar 5. Kerangka penelitian diagnosis kanker Akurasi
payudara dengan SSVM dan MARS Data
(%)
C
5-fold cv 99,63 464,16 0,1998
HASIL PENELITIAN 2,15 *
0,004588
50:50 94,78
121,15 0,000695
Imputasi Berganda untuk Missing
70:30 96,25 0,56* 0,1065
Value *
0,56 0.1065
Kelima variabel prediktor yang 80:20 94,34 31,62 0,1707
digunakan dalam penelitian ini memiliki 464,16 0,1998
data lengkap (n = 267) kecuali variabel 90:10 96,15 0,56* 0.1065
prediktor X 3 yaitu variabel yang * titik duplikasi

43
Statistika,Vol.1,No.2,November2013

Penentuan variabel yang berpengaruh posisi kelainan (X5) hanya muncul dalam
terhadap klasifikasi dilakukan dengan model untuk data training 90% (Tabel 6).
SVM 1-norm dengan menghitung w. Akurasi yang dihasilkan oleh model
Tabel 4.3 menunjukkan bahwa pada data MARS untuk data training berukuran 70,
dengan ukuran training 70, 80 dan 90% 80 dan 90% sama dengan akurasi yang
variabel prediktor yang menjelaskan dihasilkan oleh SSVM pada data training
letak kelainan pada payudara (X5) tidak berukuran sama secara berurutan.
berpengaruh dalam penentuan kelas
malignansi. Evaluasi Performansi Diagnosis
Kanker Payudara dengan SSVM dan
Tabel 5.Hasil perhitungan nilai w dengan SVM 1-norm MARS
Data 50:50 0:30 80:20 90:10
C 2,15 0,56 0,56 0,56 Evaluasi klasifikasi dapat dilihat dari
w 0,0396 0,0245 0,0177 0,0216
nilai sensitivity dan specificity yang
1

w
ditunjukkan pada Tabel 7. Tingkat
0,6980 0,4657 0,4645 0,4838
2
akurasi yang dihasilkan dari data 5-fold
w 0,3218 0,4559 0,4433 0,4536
3 cross validation adalah 99,63% untuk
w 0,8020 0,6128 0,6631 0,6436 SSVM dan 95,88% untuk MARS.
4

w 0,0495 0 0 0
5
Tabel 7. Sensitivity dan specificity dari hasil klasifikasi
SSVM dan MARS
Diagnosis Kanker Payudara dengan Sensitivity Specificity
Data Akurasi (%)
MARS (%) (%)
MAR MAR
Setiap data training memiliki model SSVM
S
SSVM
S
SSVM MARS
MARS yang berbeda. Data training 5-
99,63 95,88 - - - -
fold
dengan ukuran 50% dan 70%, sesuai
50:50 94,78 97,76 94,19 98,84 95,83 95,83
dengan perolehan GCV minimum,
memiliki derajat interaksi maksimum 70:30 96,25 96,25 97,96 97,96 93,55 93,55
dua, sedangkan data training berukuran 80:20 94,34 94,33 100,00 100,00 86,36 86,36
80% dan 90% memiliki derajat 90:10 96,15 96,15 100,00 100,00 88,89 88,89
maksimum interaksi sebanyak tiga.
Tabel 6. Akurasi dan variabel prediktor dalam model
MARS
Data Akurasi Variabel prediktor yang
terpartisi (%) ada dalam model
Sensitivity

5- fold cv 95,88 -

50 97,76 X1, X 2 ,dan X 3


X1, X 2 , X 3 , dan X 4
70 96,25 (a) (b)
X1, X 2 , X 3 , dan X 4
80 94,33

X1, X 2 , X 3 , dan X 5
90 96,15
Sensitivity

Secara umum, variabel prediktor yang


menjelaskan usia pasien (X1), tanda-tanda
kelainan pada pemeriksaan awal atau
intermediate findings (X2) dan tanda-
1 Specificity 1 Specificity
tanda kecurigaan malignansi (X3) selalu
(c) (d)
muncul dalam model untuk keempat
Gambar 6. Kurva ROC untuk data terpartisi (a)
kelompok data training. Variabel 50:50, (b) 70:30, (c) 80:20 dan (d) 90:10
prediktor yang menjelaskan letak atau

44
Statistika,Vol.1,No.2,November2013

Kurva ROC (receiver operating Secara umum untuk partisi data 50:50,
characteristics) juga disajikan pada 70:30, 80:20 maupun 90:10, SSVM tidak
Gambar 6. Area di bawah kurva (AUC) lebih baik dibandingkan MARS. Hal ini
dihitung, semakin luas area menunjukkan menunjukkan bahwa kedua metode sama
performansi klasifikasi yang semakin baiknya dalam menentukan kelas
baik. Secara umum berdasarkan kurva malignansi kanker payudara. Tingkat
ROC pada Gambar 6 (a sampai dengan akurasi kedua metode dalam
d), klasifikasi menggunakan metode mendiagnosis kanker payudara ke dalam
SSVM lebih baik performansinya sebab kelompok benign dan malignant yang
cukup tinggi dipercaya dapat mendukung
wilayah di bawah kurva lebih luas
prosedur pemeriksaan dan diagnosis
dibandingkaan MARS pada dua kurva
kanker payudara.
ROC terakhir.
Luas wilayah di bawah kurva secara
akurat diringkas dalam Tabel 8. DAFTAR PUSTAKA
Berdasarkan luasan-luasan tersebut dapat
ditarik kesimpulan bahwa pada ukuran [1]Ferlay J, Shin HR, Bray F, Forman D,
data training yang lebih besar, SSVM Mathers C, Parkin DM, (2008),
memiliki performansi lebih baik daripada GLOBOCAN 2008 v1.2, Cancer
MARS untuk mengklasifikasikan Incidence and Mortality Worldwide:
diagnosis kanker payudara pada IARC Cancer Base No. 10
penelitian ini. [Internet]. Lyon, France: International
Tabel 8 Luas area di bawah kurva ROC hasil Agency for Research on Cancer 2010.
klasifikasi SSVM dan MARS Tersedia pada http://globocan.
Data
AUC AUC iarc.fr. Diakses terakhir Juni 2012.
SSVM MARS
50:50 0,950 0,973 [2]World Health Ranking,
70:30 0,958 0,958 http://www.worldlifeexpectancy.com/
80:20 0,932 0,932 country-health-profile/indonesia,
90:10 0,944 0,944 Diakses terakhir pada Juli 2012.
[3]Gajdos C, Tartter PI, Bleiweiss IJ,
Hermann G, de Csepel J, Estabrook A,
KESIMPULAN Rademaker AW, (2002),
Mammography appearance of
Pencegahan terhadap tingginya angka
nonpalpable breast cancer reflects
penderita kanker payudara di Indonesia
pathologi characteristics, Annals of
dapat dilakukan dengan mengupayakan
Surgery, Vol. 235, No. 2, hal. 246
prosedur identifikasi dan diagnosis
251.
kelainan pada payudara secara efisien
dan akurat. Implementasi SSVM dan [4]Subashini TS, Ramalingam V,
MARS pada penelitian ini menunjukkan Palanivel S, (2009), Breast mass
bahwa metode machine learning dapat classification based on cytological
mengklasifikasikan diagnosis kanker patterns using RBFNN and SVM,
payudara dengan tingkat akurasi yang Expert Systems and Applications, 36,
cukup tinggi (lebih dari 90%). hal. 5284 5290.
Berdasarkan tingkat akurasi yang [5]Shi X, Cheng HD, Hu L, Ju W, Tian J,
dihasilkan melalui validasi silang (cross (2010), Detection and Classification of
validation) dengan 5-fold, SSVM masses in breast ultrasound images,
menghasilkan akurasi sebesar 99,63% Digital Signal Processing, 20, hal. 824
sedangkan MARS menghasilkan 95,88%. 836.

45
Statistika,Vol.1,No.2,November2013

[6]Chen HL, Yang B, Liu J, Liu DY, Berdasarkan Hasil Mamografi, Studi
(2011), A support vector machine Kasus: RS X Surabaya, Skripsi ITS.
classifier with rough set-based feature [13] Pertiwi YD, (2012), Klasifikasi
selection for breast cancer diagnosis,
Diagnosa Kanker Payudara (Patologi
Expert Systems with Applications, 38,
Anatomi) Pasien Kanker Payudara di
hal. 9014 9022.
RS X Surabaya dengan Pendekatan
[7]Addeh A dan Ebrahimzadeh A, CART, Skripsi ITS.
(2012), Breast Cancer Recognition [14] Huang CM, Lee YJ, Lin DKJ,
Using a Novel Hybrid Intelligent Huang SY, (2007), Model selection
Method, Journal of Medical Signal for support vector machie via uniform
and Sensors, Vol. 2, No. 2, hal. 22 design, Computational Statistics and
30. Data Analysis, Vol. 52, hal. 335
[8]Purnami SW dan Embong A, (2008), 346.
Feature selection and classification of [15] Hair Jr JF, Black WC, Babin BJ,
breast cancer diagnosis based on Anderson RE, (2010), Multivariate
SVM, The 3rd International Data Analysis 7th Ed, Prentice Hall.
Symposium of Information Technology
(ITSIM08) KLCC, Kuala Lumpur [16] Yuan Y, (2011), Multiple
Malaysia. Imputation Using SAS Software,
Journal of Statistics Software, Vol. 45,
[9]______, (2008) Smooth Support No. 6.
vector machine for breast cancer
classification, The 4th IMT-GT 2008 [17] Rubin DB, (1987), Multiple
Conference of Mathematics, Statistics Imputation for Nonresponse Surveys,
and Its Application (ICMSA 2008), John Wiley and Sons.
Banda Aceh, Indonesia. [18] Lee YJ dan Mangasarian OL,
[10] Purnami SW, Embong A, Zain (2001), A Smooth Support Vector
JM, (2009) Application of data mining Machine, Journal of Computational
technique using best polynomial Optimization and Applications, 20,
smoot support vector machine in hal. 5 22.
breast cancer diagnosis, International [19] Zhu J, Rosset S, Hastie T, Tibshirani
Conference in Robotics, Vision, Signal R,(2003), 1-norm support vector
Symposisum and Power Application machines, Neural Information
(Rovisp 2009) Langkawi Kedah, Proceeding Systems 16.
Malaysia.
[20] Friedman JH, (1991), Multivariate
[11] Chou SM, Lee TS, Shao YE, adaptive regression splines, Annals of
Chen IF, (2004), Mining the breast Statistics, 19, hal. 1 67.
cancer pattern using artificial neural
networks and multivariate adaptive [21] Breiman L, Friedman JH, Olshen
regression splines, Journal of Expert RA, Stone CJ, (1984), Classification
System with Application, 20, hal. 133 and Regression Trees, Wadsworth,
142. Pacific Grove, CA.
[12] Novianti FA, (2012), Analisis [22] Hastie T dan Tibshirani R,
Diagnosis Pasien Kanker Payudara (1990), Generalized Additive Models,
Menggunakan Regresi Logistik dan Chapman & Hall, London.
Support Vector Machine (SVM) [23] Agresti A, (2006), An
Introduction to Categorical Data

46
Statistika,Vol.1,No.2,November2013

Analysis 2nd Ed, John Wiley & Sons:


New Jersey.
[24] Menendez LA, de Cos Juez FJ,
Lasheras FS, Riesgo JAA, (2010),
Artificial neural networks applied to
cancer detection in a breast screening
programme, Journal of Mathematical
and Computer Modelling, Vo. 52, hal.
983 991.
[25] Faraggi D dan Reiser B, (2002),
Estimation of the area under the ROC
curve, Journal of Statistics in
Medicine, Vol. 21, hal. 3093 3106.
[26] Sun Z, Liang HW, Xu HM,
(2005), Classification of breast cancer
microcal-cification, Chinese Medical
Journal, Vol. 118, No. 17, hal. 1429
1435.

47

Anda mungkin juga menyukai