Anda di halaman 1dari 6

JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept.

2012) ISSN: 2301-928X D-147

Analisis Diagnosis Pasien Kanker Payudara


Menggunakan Regresi Logistik dan Support Vector
Machine (SVM) Berdasarkan Hasil Mamografi
Fourina Ayu Novianti dan Santi Wulan Purnami
Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111
E-mail: santi_wp@statistika.its.ac.id

Abstrak—Kanker payudara merupakan jenis kanker yang Selain itu telah dilakukan beberapa penelitian tentang
sering ditemukan oleh kebanyakan wanita. Di Indonesia Kanker diagnosis kanker payudara berbasis Support Vector Machine
payudara menempati urutan pertama pada pasien rawat inap di [5]-[7]. Penelitian-penelitian tersebut menunjukkan Support
seluruh rumah sakit. Diagnosis dini pada payudara merupakan Vector Machine memberikan ketepatan klasifikasi di atas 95
salah satu upaya untuk meminimumkan kanker malignant %. Hal ini menunjukkan keunggulan metode Support Vector
(ganas) yaitu dengan cara melakukan pemeriksaan mamografi. Machine yang menghasilkan akurasi yang tinggi. Makadari
Pada penelitian ini akan dilakukan pengklasifikasian diagnosis
itu pada penelitian ini akan dilakukan analisis perbandingan
keadaan pasien kanker payudara benign (jinak) dan malignant
(ganas) berdasarkan hasil mamografi dan melakukan analisis
antara metode regresi logistik dan SVM dengan data
faktor-faktor apa saja yang mempengaruhi kanker payudara mamografi pada pasien kanker payudara di rumah sakit ‘X’
menggunakan metode regresi logistik dan support vector machine Surabaya pada tahun 2011 dimana dilakukan perbandingan
(SVM). Pengklasifikasian menggunakan regresi logistik biner ketepatan klasifikasi dari kedua metode dan memperoleh
menghasilkan ketepatan klasifikasi sebesar 88,72% dimana faktor-faktor yang menggambarkan kanker payudara benign
terdapat dua faktor yang berpengaruh terhadap kanker (jinak) dan malignant (ganas) pada kanker payudara.
payudara malignant yaitu intermediate findings dan BIRADS. Sehingga nantinya diharapkan dapat dijadikan sebagai bahan
Sedangkan dengan menggunakan seleksi variabel L1-Norm pertimbangan dokter untuk pemeriksaan lebih lanjut.
SVM, semua variabel prediktor yang digunakan berpengaruh
terhadap kanker payudara malignant dengan kontribusi
terbesar adalah intermediate findings, kemudian BIRADS, II. LANDASAN TEORI
suspicious for malignancy, letak abnormal, dan usia dengan
ketepatan klasifikasi sebesar 94,34%. A. Kanker Payudara
Kata Kunci—Klasifikasi, Regresi Logistik, SVM, Kanker Kanker payudara adalah pertumbuhan sel yang abnormal
Payudara, Mamografi pada jaringan payudara seseorang. Payudara wanita terdiri
dari lobulus (kelenjar susu), duktus (saluran susu), lemak dan
jaringan ikat, pembuluh darah dan limfe. Sebagian besar
I. PENDAHULUAN kanker payudara bermula pada sel-sel yang melapisi duktus

K ANKER payudara adalah suatu penyakit dimana terjadi


pertumbuhan berlebihan atau perkembangan tidak
terkontrol dari sel-sel jaringan payudara. Kanker payudara
(kanker duktal), beberapa bermula di lobulus (kanker lobular),
serta sebagian kecil bermula di jaringan lain [8].
B. Mamografi
merupakan jenis kanker yang sering ditemukan oleh
kebanyakan wanita. Menurut WHO pada tahun 2005 Mamografi adalah foto payudara dengan sinar X dosis
dilaporkan sebanyak 506.000 wanita meninggal disebabkan rendah. Pada mammografi dapat dilihat gambaran payudara
oleh kanker payudara [1]. Sedangkan di Indonesia menurut secara keseluruhan. Mamografi merupakan alat yang terbaik
profil kesehatan Departemen Kesehatan Republik Indonesia untuk deteksi dini kanker payudara, karena sinar X pada
Tahun 2007 kanker tertinggi yang diderita wanita Indonesia mamografi mempunyai kemampuan menembus jaringan
adalah kanker payudara dengan angka kejadian 26 per payudara yang mengalami kelainan berupa tumor dan
100.000 perempuan [2]. menunjukkan kelainan dalam payudara tersebut secara
Deteksi dini kanker payudara melalui mamografi dapat memuaskan. Faktor-faktor yang dilihat pada saat pemeriksaan
meningkatkan kesempatan untuk bertahan hidup [3]. mamografi antara lain.
Mamografi dapat mengidentifikasi kanker untuk beberapa 1. Intermediate Findings
tahun dan merupakan metode pemeriksaan kanker payudara Variabel yang menjelaskan keadaan sel atau jaringan
yang paling efektif saat ini. yang terdapat dalam payudara, dimana variabel ini terdiri
Penelitian tentang kanker payudara berdasarkan faktor dari lima indikator yaitu well defined, developing,
resiko dengan menggunakan regresi logistik pernah dilakukan architectural, skin thickening, dan asymetry. Seorang
oleh Purwantaka [4]. Penelitian tersebut yang diklasifikasikan wanita yang melakukan pemeriksaan mamografi
adalah penderita dan non penderita kanker payudara. memungkinkan untuk memiliki lebih dari satu indikator
Ketepatan klasifikasi yang didapatkan dari model regresi atau tidak sama sekali pada variabel ini.
logistik pada kasus ini hanya sebesar 37%.
JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept. 2012) ISSN: 2301-928X D-148

2. Suspicious for Malignancy Pengujian parameter dalam regresi logistik biner dilakukan
Variabel yang menjelaskan bentuk tumor yang terdapat baik secara serentak maupun individu. Statistik uji yang
dalam payudara atau tanda-tanda keganasan yang terlihat digunakan dalam uji serentak adalah statistik uji G atau
pada payudara, dimana variabel ini terdiri dari tiga likelihood ratio test. Sedangkan statistik uji yang digunakan
indikator yaitu mass, calcification, dan speculated sign.
dalam uji parsial adalah statistik uji Wald [10].
3. BIRADS Category
Breast Imaging Reporting and Data System (BIRADS) Salah satu ukuran yang digunakan untuk menginterpretasi
digunakan untuk memprediksi tingkat keganasan pasien koefisien variabel prediktor adalah Odds ratio. Odds ratio
kanker payudara dalam skrining mamografi. menunjukkan perbandingan peluang munculnya suatu
4. Letak abnormal kejadian dengan peluang tidak munculnya kejadian tersebut.
Akan dilihat letak dimana ada perubahan yang tidak Jika nilai odds ratio < 1, maka antara variabel prediktor dan
wajar pada payudara kanan atau payudara kiri. variabel respon terdapat hubungan negatif setiap kali
Prediksi malignansi dapat dipermudah dengan menerapkan perubahan nilai variabel prediktor (X) dan jika nilai odds
kategori BIRADS (Breast Imaging Reporting and Data ratio>1, maka antara variabel prediktor dan variabel respon
System). Adapun kategori BIRADS adalah sebagai berikut [9]. terdapat hubungan positif setiap kali perubahan nilai variabel
C-0 : perlu pemeriksaan lanjut prediktor (X).
C-1 : normal Statistik uji yang dipakai untuk uji kesesuaian model adalah
C-2 : kelainan jinak statistik Hosmer-Lemeshow Test( Ĉ )
C-3 : kelainan yang mungkin jinak, disarankan untuk
evaluasi ketat D. Seleksi Variabel SVM
C-4 : kelainan yang mungkin mengarah keganasan SVM dapat digunakan untuk melakukan pemilihan variabel
C-5 : sangat mungkin ganas sekaligus melakukan tugas klasifikasi. SVM yang digunakan
adalah L1-norm. Misalkan data berdimensi p, maka kelas dari
C. Regresi Logistik Biner suatu titik baru x ditentukan dengan memasukkan x ke dalam
Regresi logistik merupakan suatu metode analisis data yang hyperplane atau fungsi z=wx+b yang didapatkan selama
mendeskripsikan antara variabel respon dengan satu atau lebih training. Hyperplane z didefinisikan sebagai berikut [12].
variabel prediktor. Regresi logistik biner variabel responnya p
yang bersifat dikotomus yang terdiri dari dua kategori yaitu 0 z  wx  b  w p xp b  w p xp b  0 (4)
dan 1, sehingga variabel respon akan mengikuti distribusi i 1 wp  0
Bernoulli dengan fungsi probabilitas sebagai berikut [10]. Jika nilai dari elemen vektor bobot w p  0 , maka
f ( y i )    x i  i 1    x i  i dengan y i  0 ,1
y 1 y
variabel ke-p dalam vektor input tidak menentukan kelas dari
Berdasarkan [10] model regresi logistik adalah sebagai x dalam penentuan kelas x. Jadi hanya variabel-variabel
berikut. dimana w p  0 yang mempunyai kontribusi dalam
 x  

exp  0   1 x1     p x p (1) penentuan kelas suatu data. Dalam kasus dimana masalah

1  exp  0   1 x1     p x p  klasifikasinya adalah infeasible atau beberapa data tidak bisa
Persamaan (1) tersebut kemudian ditransformasi yang diklasifikasikan secara tepat, maka perlu menambah variabel
dikenal dengan tranformasi logit  x untuk memperoleh  slack ti.

fungsi g(x) yang linear dalam parameternya, sehingga min w 1


 C  ti (5)
w ,b
i 1
mempermudah pendugaan parameter regresi yang dirumuskan
sebagai berikut y i wx i  b   t i  1
dengan batasan :
  x   t i  0 ,1,  , 
g  x   ln     0   1 x1  ...   p x p
(2)
1   x  Formulasi persamaan (4) dapat diubah ke dalam bentuk L1-
Metode Maximum Likelihood Estimator (MLE) adalah norm dengan mendefinisikan variabel baru v p ' u p dimana
metode yang digunakan untuk menduga parameter-parameter
yang terdapat dalam model regresi logistik. Metode ini w p  u p  v p ' sehingga w p  u p  v p ' . Jadi L1-norm dari
menduga  dengan meterbesarkan fungsi likelihood. Fungsi p

likelihood yang diterbesarkan adalah w 1    u p  v p  u  v . Formulasi problem optimasi


i 1
p

n
 n   p

L    ln l       y i x ij   j   ln 1  exp    j x ij 

(3) dari SVM dalam persamaan (5) menjadi sebagai berikut.
j  0  i 1  i 1   j 0   
Persamaan (2) dideferensialkan terhadap  , setelah min u  v  C  t i (6)
i 1
dideferensialkan terhadap  kemudian disamakan dengan nol,
y i u  v x i  b   t i  1
namun cara ini sering kali diperoleh hasil yang implisit
sehingga dilakukan metode iterasi Newton Rhapson untuk
dengan batasan: t i  0, i  1,  , 
meterbesarkan fungsi likelihood [11]. u p , v p  p  1,  , p
JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept. 2012) ISSN: 2301-928X D-149

Dimana nilai C ditentukan oleh peneliti. Pada seleksi variabel n


dengan batasan: 0   i  C, i  1,, n dan  yi  0
ini bekerja dalam primal space dan tidak memerlukan kernel-   i

map seperti dalam SVM regular [12].


i 1  
E. Support Vector Machine (SVM)

K xi , x j  adalah fungsi kernel yang digunakan untuk

Support vector machine (SVM) pertama kali dikenalkan mengatasi data non-linier. Berdasarkan langkah langkah yang
oleh Vapnik pada tahun 1992 pada saat dipresentasikan di telah dijelaskan dalam kasus linier, diperoleh fungsi sebagai
Annual Workshop on Computational Learning Theory [13]. berikut
 n
Prinsip dasar SVM adalah linier classifier, yaitu kasus
klasifikasi yang secara linier dapat dipisahkan. Misalkan
f  x   sign   y i ˆ i  x i ,  x j   bˆ 
 i 1  (15)
diberikan himpunan X  x1 , x 2 ,..., x n , dinyatakan 
 sign   y i ˆ i K x i , x   bˆ 
n

sebagai kelas positif jika f(x) ≥ 0 dan yang lainnya termasuk j


 i 1   
ke dalam kelas negatif. SVM melakukan klasifikasi himpunan
vektor training berupa set data berpasangan dari dua kelas, dengan fungsi sign semua nilai f x  < 0 diberi label -1 dan
[14]
x i , y i , x i  R n , y i  1,  1, i  1,  , n , (7) 
nilai f x > 0 diberi label +1.
Fungsi kernel yang biasanya digunakan dalam literatur
Pemisahan hyperplane dengan bentuk canonical mengikuti SVM [12].
1. Kernel Linier : x T x 
constraint atau batasan berikut,
 
y i w T x i   b  1, i  1, 2 ,  , n . (8)
Kernel Polinomial : x T x  1 
p
Hyperplane yang optimal diperoleh dengan meterbesarkan 2.

meminimumkan  w   1 w 2 Kemudian  2

Kernel RBF : K(x,y) = exp   x  y
2 atau 
3.
w 2  2 2 
 
permasalahan optimasi ini dapat diselesaikan dengan
F. Evaluasi Performansi Model
menggunakan Fungsi Lagrange berikut.

   
Evaluasi performansi model yang digunakan pada
n
1
L w , b ,       i yi w T x i  b  1 (9)
2
w penelitian ini adalah classification accuracy, sensitivity, dan
2 i 1
specificity [5]. Classification accuracy merupakan ketepatan
dimana αi adalah pengganda fungsi Lagrange. Persamaan (9) klasifikasi yang diperoleh. Sensitivity merupakan ukuran
merupakan primal space sehingga perlu ditransformasi ketepatan dari suatu kejadian yang diinginkan. Specificity
menjadi dual space agar lebih mudah dan efisien untuk merupakan suatu ukuran yang menyatakan persentase
diselesaikan. Sehingga dual problemnya menjadi seperti kejadian-kejadian yang tidak diinginkan. Classification
berikut. accuracy, sensitivity, dan specificity dapat ditentukan
1 n
 
n
menggunakan nilai yang terdapat dalam confusion matrix.
ˆ  arg min  i j i j i j 
  i (10)
T
y y x x 
 2 i , j 1 i 1
Confusion matrix adalah klasifikasi tentang aktual dan
prediksi yang dilakukan dengan sistem klasifikasi. Confusion
dengan batasan,
n
matrix ditunjukkan pada Tabel 1.
 i  0, i  1,  , n dan 
i 1
i yi  0 (11) Tabel 1.
Confusion Matrix
Actual Predicted
Pada kasus non-separabel beberapa data mungkin tidak bisa Positive = class 0 Negative= class 1
dikelompokkan secara benar atau terjadi misclassification. Positive = class 0 True Positive (TP) False Negative (FN)
Sehingga fungsi obyektif maupun kendala dimodifikasi Negative = class 1 False Positive (FP) True Negative (TN)
dengan mengikutsertakan variabel slack ξ > 0. Formulasinya TP  TN
Classsification accuracy (%) = (16)
menjadi sebagai berikut [14]. TP  FP  FN  TN

1
 w ,   w  C   i TP
2
(12) Sensitivity (%) = (17)
2 i 1 TP  FN
dengan kendala Specificity (%) = TN
(18)
  
y i w T x i  b   i  1, i  1, 2 ,  , n (13) FP  TN
Pada kasus separabel dan kasus non-separabel perbedaan
keduanya hanya terletak dengan adanya penambahan kendala
III. METODOLOGI
0   i  C pada masalah non-separabel.
Pada kasus non-linier optimasi persamaan (10) menjadi Data yang digunakan dalam penelitian ini adalah data
sebagai berikut [15]. sekunder pasien kanker payudara yang diperoleh dari Rumah
Sakit ‘X’ Surabaya tahun 2011 sebanyak 267 data dengan
1 n
 
n
ˆ  arg min   i  j y i y j K x i , x j    i (14) jumlah pasien kanker payudara benign sebanyak 100 data dan
 2 i , j 1 i 1   jumlah pasien kanker payudara malignant sebanyak 167 data.
JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept. 2012) ISSN: 2301-928X D-150

Data tersebut adalah data pasien yang melakukan pemeriksaan a) Melakukan transformasi data sesuai dengan format
mamografi dengan kategori BIRADS C-2 sampai dengan C-5. software SVM yang akan digunakan
Variabel respon (Y) dalam penelitian terdiri dari dua b) Menentukan fungsi kernel untuk permodelan
kategori yaitu kategori 1 adalah pasien kanker payudara c) Menentukan nilai-nilai parameter kernel dan
didiagnosis kanker (benign) dan kategori 2 adalah kanker parameter cost untuk optimasi
payudara (malignant) . Sedangkan variabel prediktor (X) pada d) Memilih nilai parameter terbaik untuk optimasi data
penelitian ini ditunjukkan pada Tabel 2. training untuk klasifikasi data testing
Tabel 2 .
e) Menghitung ketepatan klasifikasi
Variabel Prediktor 7. Membandingkan ketepatan klasifikasi yang diperoleh
Variabel Definisi Kategori Skala dari metode regresi logistik dengan SVM
Intermediate
1. tidak ada tanda 8. Membuat kesimpulan dan saran
X1 2. terdapat 1 tanda Ordinal
Findings
3. terdapat >1 tanda
1. C-2 IV. ANALISIS DAN PEMBAHASAN
BIRADS 2. C-3
X2 Ordinal
category 3. C-4 A. Analisis Deskriptif
4. C-5
1. tidak ada Analisis tabulasi silang digunakan untuk menyajikan data
ciri keganasan kualitatif dalam bentuk tabulasi yang mempunyai hubungan
2. Mass secara deskriptif sebagai berikut. Dari analisis tabulasi silang
3. Calcification yang telah dilakukan menunjukkan bahwa pada variabel
4. Speculated Sign
X3
Suspicious for
5. Mass,Calcification Nominal intermediate findings pada kategori 1 dari 53,2% wanita yang
Malignancy melakukan mamografi, wanita yang tidak terdeteksi memiliki
6. Mass,Speculated Sign
7. Calcification, Speculated tanda sel didiagnosis kanker payudara malignant sebesar
Sign 46,8% dan sebesar 6,4% hasil diagnosisnya benign. Wanita
8. Mass,Calcification,
Speculated Sign dengan hasil diagnosis malignant mayoritas terdekteksi
X4 Usia - Rasio memiliki kategori BIRADS C-5 yaitu sebesar 42,7%. Wanita
X5
Letak 1. Kanan
Nominal
yang memiliki ciri keganasan kategori 8 (mass, calcification,
abnormal 2. Kiri dan speculated sign) didiagnosis malignant sebesar 19,5%.
Langkah-langkah analisis yang dilakukan pada penelitian Dari 47,6% wanita yang memiliki letak abnormal payudara
ini adalah sebagai berikut. sebelah kiri, 31,8% didiagnosis malignant.
1. Melakukan pengumpulan data sekunder, yaitu data Usia wanita yang melakukan pemeriksaan mamografi pada
pasien kanker yang melakukan mamografi di Rumah tahun 2011 di rumah sakit ‘X’ rata-rata berumur 48 tahun
Sakit ‘X’ Surabaya tahun 2011 dengan usia paling muda adalah 19 tahun dan usia paling tua
2. Melakukan pengkodingan terhadap data sekunder adalah 87 tahun.
Melakukan analisis statistika deskriptif untuk B. Analisis Diagnosis Kanker Payudara dengan Regresi
mengetahui karakteristik pasien kanker payudara Logistik Biner
3. Membagi data menjadi data training dan testing dengan
Analisis regresi logistik biner data dibagi menjadi training
beberapa persentase partisi yaitu 50:50, 70:30, dan
dan testing dengan beberapa persentase partisi yaitu 50:50,
80:20.
70:30, dan 80:20. Berikut merupakan analisis regresi logistik
4. Memodelkan menggunakan analisis regresi logistik
biner pada tiap-tiap partisi yang memberikan ketepatan
untuk mengetahui faktor-faktor yang mempengaruhi
klasifikasi terbesar.
pasien kanker payudara dalam pengklasifikasian kanker
Dari ketiga data partisi yang telah dilakukan uji serentak
jinak atau ganas dengan langkah sebagai berikut.
diketahui bahwa P-value=0,000. Sehingga tolak H0 karena P-
a) Melakukan analisis regresi logistik secara serentak
value<  yang berarti secara serentak terdapat satu atau lebih
terhadapa data training
b) Melakukan analisis regrsei logistik secara parsial faktor pasien kanker payudara yang berpengaruh signifikan
terhadap data training terhadap diagnosis kanker payudara.
c) Membentuk model regresi logistik menggunakan Analisis regresi logistik parsial dengan menggunakan data
metode Enter partisi 50:50 , menunjukkan bahwa parameter dari kelima
d) Menginterpretasi odds ratio untuk mengetahui variabel prediktor yang digunakan yaitu intermediate findings
besarnya pengaruh masing-masing variabel yang (X1), kategori BIRADS (X2), suspicious for malignancy (X3),
signifikan berpengaruh dari data training usia (X4) dan letak abnormal (X5) signifikan terhadap model
e) Melakukan uji kesesuain model yang diperoleh dari secara parsial karena P-value <  Sedangkan analisis regresi
data training logistik parsial untuk data partisi 70:30 dan 80:20 hanya
f) Menghitung ketepatan klasifikasi dari data testing parameter variabel letak abnormal (X5) yang tidak signifikan
5. Melakukan seleksi variabel dari data training dengan terhadap model secara parsial.
Metode yang digunakan dalam pembentukan model adalah
menggunakan L1-norm
metode Enter dengan memasukkan semua variabel prediktor.
6. Melakukan pengklasifikasian pasien kanker payudara Dengan menggunakan partisi data training dan testing 50:50
dengan menggunakan metode SVM. Berikut adalah diagnosis malignant pada kanker payudara dipengaruhi oleh
algoritma dari metode SVM.
JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept. 2012) ISSN: 2301-928X D-151

intermediate findings dan BIRADS. Model logit adalah Tabel 4.


Confusion Matrix
sebagai berikut.
Partisi (%)
g  x   1 , 297  2 , 948 X 1 1   4 , 059 X 2 1   2 , 793 X 2  2 
50:50 70:30 80:20
Sedangkan dengan menggunakan partisi data 70:30, Classification accuracy (%) 88,72 86,4 84,90
diagnosis malignant pada kanker payudara dipengaruhi oleh Sensitivity (%) 73,07 81,25 85,71
intermediate findings, BIRADS, dan usia. Model logit yang Specificity (%) 98,76 89,79 84,37
diperoleh sebagai berikut. Berdasarkan Tabel 4 dapat diketahui bahwa classification
g  x    2 , 537  2 , 625 X 1 1   4 ,157 X 2 1   5 , 402 X 2  2 
accuracy terbesar diberikan oleh partisi data training dan
 0 , 096 X 4 testing 50:50 yaitu sebesar 88,72%, kemudian diikuti partisi
dengan menggunakan partisi 80:20 terdapat tiga variabel yang 70:30, 80:20 yaitu masing-masing sebesar 86,4 dan 84,90.
berpengaruh yaitu faktor intermediate findings, BIRADS, Seleksi Variabel Menggunakan SVM L1-norm
suspicious for malignancy, dan usia dengan ketepatan Hasil seleksi variabel menunjukkan bahwa SVM memilih
klasifikasi sebesar 84,9%. Sehingga model logitnya adalah semua variabel prediktor untuk masuk ke dalam proses
g  x    2 , 49  4 , 428 X 1 1   2 , 624 X 1 2   5 , 098 X 2 1   3, 043 X 2 2  klasifikasi yang ditunjukkan pada Tabel 5.
 2 , 721 X 2 3   3, 043 X 3 2    3, 043 X 3 6    3, 043 X 4
Berikut merupakan interpretasi koefisien parameter Tabel 5.
berdasarkan nilai odds ratio dengan menggunakan partisi data Nilai w dan b untuk masing-masing partisi
Partisi
training dan testing 50:50 (%) w1 w2 w3 w4 w5 b
a) Intermediate findings 50:50 0,8678 0,7831 0,3409 0,0248 0,3616 -3,5868
Pasien kanker payudara dengan intermediate findings 70:20 0,8632 0,7088 0,3158 0,0351 0,4140 -3,7930
yang tidak terdeteksi tanda apapun cenderung memiliki 80:20 0,8678 0,7831 0,3409 0,0248 0,3161 -3,5868
diagnosis malignant 19,065 kali dibandingkan dengan Berdasarkan Tabel 5 dapat diketahui bahwa dengan
yang memiliki lebih dari 1 tanda pada sel payudaranya. menggunakan partisi data training testing 50:50, 70:30, dan
b) Kategori BIRADS
80:20 kelima variabel berpengaruh karena nilai w  0 ,
Pasien kanker payudara yang terdeteksi C-2 dalam
pemeriksaan mamografi cenderung akan memiliki dimana nilai w meupakan vektor bobot dan nilai b merupakan
diagnosis malignant 0,017 kali dibandingkan dengan bias. w1 merupakan vektor bobot yang dihasilkan oleh
pasien yang terdeteksi C-5. Sedangkan pasien kanker variabel intermediate findings, begitu juga untuk w1,w2, w3,
payudara yang terdeteksi C-3 cenderung memiliki w4, w5 adalah BIRADS, suspicious for malignancy, usia, dan
diagnosis malignant 0,061 kali dibandingkan dengan letak abnormal. Variabel prediktor yang memberikan
pasien yang terdeteksi C-5. pengaruh paling kuat adalah variabel yang menghasilkan
Interpretasi yang sama juga dilakukan pada partisi data vektor bobot wi paling besar yaitu intermediate findings,
training testing 70:30 dan 80:20. Tabel 3 merupakan nilai kemudian diikuti kategori BIRADS, suspicious for
odds ratio yang diperoleh dari training testing 70:30 dan malignancy, letak abnormal dan usia.
80:20. Perbandingan seleksi variabel antara SVM dan regresi
Tabel 3. logistik diketahui bahwa variabel yang selalu ada pada tiap
Nilai Odds Ratio partisi adalah variabel intermediate findings dan BIRADS.
Persentase Partisi
Variabel 70:30 80:20 C. Klasifikasi Menggunakan SVM
Exp(B) Klasifikasi SVM pada penelitian ini menggunakan fungsi
Intermediate findings (X1)
X1(1) 13,804 19,065
kernel linear, polynomial, dan Radial Basis Function (RBF)
yang ditunjukkan pada Tabel 6. Data training dan testing
Kategori BIRADS (X2)
0,006 dipartisi menjadi beberapa bagian yaitu 50:50, 70:30, dan
X2(1) 0,016
X2(2) 0,005
0,048 80:20, nilai parameter kernel dan nilai C berdasarkan trial and
0,066
error. Ketepatan klasifikasi terbesar yang dihasilkan oleh
Suspicious for Malignancy (X3)
X3(2) * 39,882 metode SVM dari partisi data training dan testing 80:20 yaitu
X3(6) * 19,586 sebesar 94,34% dengan menggunakan fungsi kernel RBF
Usia (X4) 1,101 1,060 dimana nilai C=100 dan  =35. Untuk partisi data traing dan
*)Ket : tidak berpengaruh signifikan testing 70:30 ketepatan klasifikasi terbesar yang diperoleh
Pada uji kesesuaian model diketahui bahwa artinya dari sebesar 88,89% dengan fungsi kernel linier dan nilai C=10
ketiga data partisi tersebut model yang diperoleh sesuai atau atau C=100. Sedangkan untuk partisi data training dan testing
tidak terdapat perbedaan nyata antara observasi dengan 50:50 ketepatan klasifikasi yang terbesar sebesar 92,48
prediksi model. Hal ini ditunjukkan karena nilai P-value dari dengan menggunakan fungsi kernel RBF dimana nilai C=100
ketiga data partisi >  (5%). dan  =35.
Setelah dilakukan uji kesesuaian model, maka dilakukan
pengukuran ketepatan kalsifikasi model dengan menggunakan
Tabel confusion matrix, sehingga diperoleh classification
accuracy.
JURNAL SAINS DAN SENI ITS Vol. 1, No. 1, (Sept. 2012) ISSN: 2301-928X D-152

Tabel 6. parameter SVM sebaiknya tidak menggunakan trial and error


Tingkat Akurasi Klasifikasi SVM
agar efisien dan menghasilkan akurasi yang optimum. Namun
Parameter Persentase Partisi
Kernel
C 50:50 70:30 80:20 apabila data missing value tersebut tidak dapat dihindarkan maka
1 90,23 87,65 88,68 untuk penelitian selanjutnya dapat dilakukan pengembangan
Linier 0 10 90,23 88,89 90,57 metode SVM untuk data missing value dan penentuan parameter
100 86,56 88,89 90,57 SVM tanpa trial and error yang diharapkan nantinya akan
1 89,47 85,19 88,68 memberikan akurasi yang lebih tinggi.
p=1 10 89,47 85,19 88,68
100 89,47 85,19 88,68
1 89,47 85,19 88,68 DAFTAR PUSTAKA
Polynomial p=2 10 89,47 85,19 88,68
100 89,47 85,19 88,68 [1] WHO. (2005). Data penderita kanker payudara di dunia. Dikases pada
1 89,47 85,19 88,68 tanggal 3 Februari 2012 dari [http://www.who.int/cancer/dete-
p=3 10 89,47 85,19 88,68 ction/braestcancer/en/index1.html].
100 89,47 85,19 88,68 [2] Dinas Kesehatan Nasional.(2007). Data penderita kanker payudara di
 =5 1 87,97 81,48 83,33 Indonesia. Diakses pada tanggal 31 januari 2011 dari
[http://www.depkes.go.id/index.php/berita/press-release/1060-jika-
10 89,47 80,25 83,02 tidak-dikendalikan-26-juta-orang-di-dunia-menderita-kanker-.html]
100 89,47 77,78 83,33 [3] Keles, A., Keles, A., dan Yavuz, U. (2011). Expert System Based On
 =10 1 87,22 80,25 81,13 Neuro-Fuzzy Rules For Diagnosis Breast Cancer. Expert Systems with
10 89,47 81,48 90,57 Applications. 38. 5719–5726.
100 90,98 80,25 90,57 [4] Purwantaka, R. I. (2010). [Tugas Akhir] Faktor-Faktor Yang
RBF
 =20 1 87,97 77,78 81,13 Mempengaruhi Resiko Penyebab Penderita Kanker Payudara Dengan
10 90,23 83,95 90,57 Menggunakan Pendekatan Regresi Logistik. Surabaya: Institut
100 90,98 82,72 92,45 Teknologi Sepuluh Nopember Surabaya.
 =35 1 75,94 77,78 81,13 [5] Purnami, S. W., dan Embong, A. (2008). Smooth Support Vector
Machine For Breast Cancer Classification. The 4th IMT-GT 2008
10 87,97 83,95 92,45
Conference on Mathematics, Statistics, and Their Applications
100 92,48 85,19 94,34* (ICMSA08), Banda Aceh, Indonesia.
*) Ketepatan klasifikasi terbesar [6] Wang, D., Shi, L., dan Heng, P. A. (2009). Automatic Detectiom of
Breast Cancer in Mammogrmas using Support Vector Machines.
Tabel 7 menujukkan perbandingan akurasi klasifikasi yang Neurocomputing 72. 3296-3302.
diperoleh dari regresi logistik biner dan SVM. [7] Huang, C-L., Liao, H-C., dan Chen, M-C. (2008). Prediction Model
Building and Feature Selection With Support Vector Machine. Expert
Tabel 7.
System with Application 34. 578-587.
Perbandingan Akurasi Klasifikasi
[8] Ellis, E.O., Schnitt, S.J., S.-Garau, X., Bussolati, G., Tavassaoli, F.A.,
Akurasi (%)
Rata-rata Eusebi, V. Pathology and Genetic of Tumours of The Breast and
50:50 70:30 80:20 Female Genital Organs / WHO Classification of Tumours.
Regresi Logistik 88,72 86,42 84,90 86,67 Washington: IARC Press; 2003. P.10, 34-6.
SVM 92,48 88,89 94,34 91,9 [9] Kardinah (2002). Penatalaksanaan Kanker Payudara Terkini oleh
Penanggulangan & Pelayanan Kanker Payudara Terpadu Paripurna
Berdasarkan Tabel 7 dapat diketahui performansi akurasi R.S. Kanker Dharmais. Jakarta: Pustaka Populer Obor.
klasifikasi terbaik dimiliki oleh SVM yaitu untuk partisi data [10] Hosmer, D. W., dan Lemeshow, S. (2000). Applied Logistic
training dan testing 50:50 sebesar 92,48%, partisi data Regression. New York: John Wiley & Sons, Inc.
training dan testing 70:30 sebesar 88,89%, dan untuk partisi [11] Agresti, A. (2002). Categorical Data Analysis, Second Edition.
John Willey & Sons, New York.
data training dan testing 80:20 sebesar 94,34% dengan rata- [12] Santosa, B. (2006). Data Mining: Teknik Pemanfaatan Data Untuk
rata ketepatan klasifikasi sebesar 91,9%. Hal ini menunjukkan Keperluan Bisnis. Yogyakarta: Graha Ilmu.
akurasi klasifikasi dengan menggunakan SVM lebih baik [13] Nugroho, A.S., Witarto, A.B., Handoko, D., 2003. Support Vector
daripada regresi logistik. Machine –Teori dan Aplikasi dalam Bioinformatika. Diakses pada
tanggal 9 Maret 2012 dari http://www.Ilmukomputer.com
[14] Gunn, Steve. (1998). Support Vector Machine for Clasification and
V. KESIMPULAN DAN SARAN Regression. Southampton: University of Southaton.

Berdasarkan hasil dan pembahasan yang telah dilakukan,


dapat disimpulkan bahwa performansi akurasi klasifikasi
terbaik dimiliki oleh SVM yaitu sebesar 94,34% sedangkan
regresi logistik sebesar 84,90% dengan menggunakan partisi
80:80. Pada regresi logistik biner, kanker payudara malignant
dipengaruhi oleh faktor intermediate findings BIRADS,
Suspicious for malignancy, dan usia. Sedangkan pada metode
SVM, kanker payudara malignant dipengaruhi oleh semua
variabel prediktor.
Data pada intermediate findings dan suspicious for
malignancy terdapat beberapa data yang missing value, oleh
karena itu disaranakan kepada pihak rumah sakit ‘X’
memperhatikan data-data missing value sehingga diharapkan
nantinya akan diperoleh analisis yang lebih tepat. Selain itu
untuk metode Support Vector Machine dalam penentuan

Anda mungkin juga menyukai