ITS Undergraduate 13440 Paper

1
Faktor-faktor Yang Mempengaruhi Resiko Penyebab Penderita Kanker Payudara Dengan

Menggunakan Pendekatan Regresi Logistik
Nama Mahasiswa : Ricki Indra P
Nrp : 1303 109 030
Jurusan : Statistika FMIPA-ITS
Dosen Pembimbing : Dra. Maduratna, MS
1. Pendahuluan
Salah satu penyakit yang banyak menimbulkan kesengsaraan dan kematian pada manusia
sebagian besar adalah kanker. Yang disebut dengan kanker payudara (Carcinoma mammae) adalah suatu
penyakit neoplasma ganas yang merupakan suatu pertumbuhan jaringan payudara abnormal yang berbeda
dengan jaringan disekitarnya. Penyebab yang pasti dari kanker payudara belum diketahui, namun riset
mengidentifikasikan sejumlah faktor yang dicurigai penyebab dari timbulnya kanker disebabkan oleh
beberapa faktor antara lain riwayat keluarga dan faktor genetik, radiasi, faktor reproduksi serta konsumsi
lemak. Oleh karena itu penting bagi setiap wanita untuk melakukan deteksi secara dini terhadap kanker
payudara. Dunia kedokteran belum dapat menemukan cara untuk mencegah timbulnya kanker payudara.
Mereka berpendapat bahwa banyak nyawa dapat diselamatkan jika ada cara efektif untuk deteksi dini
kanker payudara.
Dari berbagai kesulitan di atas harapan dari penelitian ini adalah mensimulasikan penderita
kanker payudara sehingga bisa diketahui karakteristik penderita kanker payudara. Analisis regresi logistik
digunakan untuk analisis data respon kategorik (nominal/ ordinal) dengan variabel-variabel bebas kontinu
dan kategorik. Perbedaan nilai probabilitas pada setiap kelas akan menghasilkan nilai odds rasio. Nilai
odds rasio dapat menginformasikan besarnya pengaruh salah satu variabel bebas terhadap terjadinya
perubahan kelas. Dalam penelitian ini adalah penderita dan non penderita kanker payudara. Dari
penelitian sebelumya dengan menggunakan metode MARS didapat ketepatan klasifikasi sebesar 79 %
(Yuanita, 2008), sedangkan dengan menggunakan metode regresi logistik menghasilkan ketepatan
klasifikasi sebesar 58%.
Permasalahan
Dari latar belakang diatas maka permasalahan yang ada dalam penelitian ini adalah:
Bagaimana faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi
logistik yang telah diperoleh ?
Tujuan
Tujuan yang ingin dicapai oleh penelitian ini yaitu :
Mendapatkan faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi
logistik yang telah diperoleh.
2 Regresi Logistik
Analisis regresi logistik adalah metode regresi yang menggambarkan hubungan antara beberapa
variabel independen (explanatory) dengan sebuah variabel respon dikotomus atau biner. Variabel respon
(Y) pada metode regresi logistik dikatakan biner karena terdiri atas dua kategori yaitu 0 dan 1.
Analisis regresi logistik biner bertujuan untuk memperoleh hubungan antara X
i
dan P
i
(probabilitas kejadian yang diakibatkan oleh x
i
). Berapapun nilai x bila disubtitusikan ke dalam fungsi
logistik hasilnya akan berkisar antara 0 dan 1.
Regresi logistik digunakan untuk analisis data respon kategorik (nominal / ordinal) dengan
variabel-variabel bebas kontinu dan kategorik (Agresti, 1990). Berdasarkan jumlah kategori respon,
regresi logistik dapat dibedakan menjadi dua, yaitu regresi logistik dikotomus dan polikotomus.
Regresi Logistik Dikotomus
Regresi logistik dikotomus adalah suatu analisis regresi yang digunakan untuk mengambarkan
hubungan antara variabel respon (outcome / dependent) dengan sekumpulan variabel prediktor
(eksplanatory / independent) (Agresti, 1990), dimana variabel responnya berskala biner atau dikotomus
dengan variabel prediktor berskala dikotomus maupun polikotomus. Variabel dikotomus adalah variabel
yang memiliki 2 kemungkinan (sukses atau gagal),
sedangkan variabel polikotomus adalah variabel yang memiliki lebih dari dua kemungkinan.
2
Variabel respon biasanya disimbolkan dengan y, sedangkan variabel prediktor disimbolkan
dengan x. Variabel respon (y) mengikuti distribusi bernoulli dengan fungsi probabilitas :
i i
y y
i
p p y f

=
1
) 1 ( ) ( , 1 , 0 =
i
y (1)
Distribusi dari variabel respon ini merupakan pembeda antara regresi logistik dengan regresi
linear. Pada regresi linear variabel responnya diasumsikan berdistribusi normal, sedangkan untuk variabel
respon pada regresi logistik bersifat kategorikal. Adapun fungsi logistik adalah sebagai berikut :
x
e
x f

+
=
1
1
) (
, < < x (2)
Untuk = x maka
0 ) ( =
x
x f Lim
, sedangkan untuk = x maka
1 ) ( =
x
x f Lim
. Dengan melihat
kemungkinan nilai , ) x f yang berkisar antara 0 dan 1, ini menunjukkan bahwa regresi logistik sebenarnya
menggambarkan probabilitas terjadinya suatu kejadian.
Gambar 1. Kurva fungsi logistik
Nilai x dalam hal ini bisa dianggap sebagai kombinasi dari berbagai penyebab timbulnya suatu
kejadian dan efek x dapat minimal dengan rendahnya nilai x sampai batas tertentu, kemudian
pengaruhnya akan meningkat dengan cepat dan probabilitasnya akan tetap tinggi mendekati 1. Untuk
mempermudah maka digunakan notasi , ) , ) x y E x | = untuk menyatakan rata-rata bersyarat dari y jika
diberikan nilai x.
Bentuk model regresi logistik adalah (Agresti, 1990):
, )
) exp( 1
) exp(
1
1
x
x
x

+ +
+
= (3)
Untuk mempermudah menaksir parameter regresi, maka ) ( x pada persamaan (3)
ditransformasikan dengan menggunakan transformasi logit. Uraian transformasi tersebut adalah sebagai
berikut.
, )
) exp( 1
) exp(
1
1
x
x
x

+ +
+
=
;{ ; { ) exp( ) exp( 1 ) (
1 1
x x x

+ = + +
; { ; { ) exp( ) exp( ) ( ) (
1 1
x x x x

+ = + +
, ) x = ) exp( ) ( ) exp(
1 1
x x x

+ +
) ( x = { ; ) exp( ) ( 1
1
x x

+
) ( 1
) (
x
x
= ) exp(
1
x
.
|
\
|
) ( 1
) (
ln
x
x
= ln{ ; ) exp(
1
x
.
|
\
|
) ( 1
) (
ln
x
x
= x
1

+
g(x) = x
1

+
Dengan g(x) disebut bentuk logit.
Sedangkan model regresi logistik dengan k variabel prediktor adalah :
3
) ... exp( 1
) ... exp(
) (
1 1
1 1
k k
k k
x x
x x
x

+ + + +
+ + +
=
Jika model ditransformasikan dengan transformasi logit, maka akan menghasilkan bentuk logit
g(x) =
k k
x x
+ + + ...
1 1
Penaksiran Parameter
Metode yang digunakan untuk mengestimasi parameter regresi logistik adalah MLE (Maximum
Likelihood Estimator). Metode ini memperoleh dugaan maksimum likelihood bagi dengan iterasi
Newton Raphson. Estimasi maksimum likelihood merupakan pendekatan dari estimasi WLS (Weighted
Least Square), dimana matrik pembobotnya berubah setiap putaran. Proses perhitungan estimasi
maksimum likelihood ini disebut juga sebagai Iteratively Reweighted Least Square.
a. Metode Terboboti (Weighted Least Square)
Penduga dari metode terboboti didapatkan melalui rumus sebagai berikut.
, ) ) ( ) (
1 1 1
x g V X X V X
T T
w

= (4)
Dimana :
= V diag
j
(
)) ( 1 )( (
1
i i i
x x n
=
1
V j )) ( 1 )( (
i i i
x x n diag
g(x) =

.
|
\
|
) ( 1 (
) (
ln
i
i
x
x
b. Iteratively Reweighted Least Squares (IRLS)

Pada metode IRLS, matriks pembobot (V ) yang dihitung di setiap tahapan iterasi dapat diperoleh
melalui aplikasi rumus sebagai berikut.
, )
, )
, )
, )
, ) { ;
(
(
=
i m i m i
m
x x n
diag
1 1
1
1

V (5)
Keterangan :
m = Bilangan iterasi ; i = Kategori pada variabel prediktor
Algoritma:
1. Menentukan
, )
{ ;
(
=
) ( 1 ) (
1
0
i i i
x x n
diag

V
Kemudian menghitung
(0)
, ) , )
)) ( ( ) (
1
0
1 1
0
x g V X X V X
T T
=
Dimana,
, )
, )
, )
, ) 0
0
1
0

X
e
X
e
x
T
i
T
i
i
+
=
2. Untuk m = 1, 2, 3 dan seterusnya maka
, )
, )
, )
, )
, ) { ;
(
(
=
i m i m i
m
x x n
diag
1 1
1
1

V
Dan
(m)
)) ( ( ) (
1 1 1
x g V X X V X
m
T
m
T
=
3. Jika
, ) , )
<
1 m m

0
maka proses dihentikan. Jika tidak, maka dihitung :
, )
, )
, )
, ) m
T
i
m
T
i
x
e
x
e
x
i m
+
=
1
dan kembali ke langkah 2
4
Metode ini baik digunakan untuk ukuran data kecil, karena bila ukurannya besar maka varians
awal sudah cukup baik (tanpa perlu iterasi).
c. Maximum Likelihood Estimator (MLE)
Pada dasarnya metode Maximum Likelihood memberikan nilai estimasi untuk
memaksimumkan fungsi Likelihood (Agresti, 1990). Secara sistematis fungsi Likelihood untuk model
regresi logistik dikotomus dapat ditulis sebagai berikut.
y y
x x y f

=
1
)) ( 1 ( ) ( ) , ( (6)
Karena setiap observasi bersifat independen, maka Likelihood observasi merupakan perkalian
dari masing-masing fungsi Likelihood, sebut saja (Agresti, 1990)
= ) (
i i
y
i
y
i
n
i
n
i
x x y f

= =
=
[ [
1
1 1
)) ( 1 ( ) ( ) , ( (7)
Secara matematis akan lebih mudah untuk memaksimalkan log ) ( atau disebut juga log
Likelihood yang dinotasikan sebagai ) ( L , yakni dengan cara mendifferensialkan ) ( L terhadap dan
menyamakannya dengan nol (Agresti, 1990).
) ( log ) ( = L
(
+
(
=

) exp( 1 log
j
ij j
i
i j
j i
ij i
x n x y (8)
(
(
(
+
=
c
c

) exp( 1
) exp(
) (
j
ij j
j
ij j
i
ia i ia
i
i
a
x
x
x n x y
L

=
i i
ia i i ia i
x n x y 0 , a = 0,, k (9)
Dimana
.
|
\
|
+
.
|
\
|
=
k
j
ij j
k
j
ij j
i
X
X
x
exp 1
exp
) (
(10)
Dari hasil penurunan pertama ini, persamaan Likelihood diestimasi dengan iterasi karena
i
tidak bersifat linear pada . Sedangkan metode untuk mengestimasi varians dan kovarians dari estimasi
koefisien parameter dikembangkan menurut teori MLE yang menyatakan bahwa estimasi varians dan
kovarians diperoleh dari turunan kedua fungsi Likelihood (Agresti, 1990).
Turunan keduanya adalah :
=
c c
c
n
i
i i i ib ia
b a
n x x
L
) 1 (
) (
2

; a, b = 0, 1,,k (11)
Sehingga diperoleh matriks kovarians dari estimasi parameter melalui invers matriks (Agresti,
1990),
Cov() j { ;
1
) 1 (

= X n Diag X
i i i
T
(12)
dimana X
(
(
(
(
(
=
np n
p
p
x x
x x
x x
1
2 21
1 11
1
1
1
5
d. Metode Newton Raphson
Fungsi log likelihood untuk model regresi logistik adalah cepat mencapai konvergen dan ada nilai
taksiran untuk parameter. Akan tetapi, fungsi tersebut adalah fungsi yang non-linear untuk
menaksir dengan menggunakan metode maksimum likelihood, sehingga dibutuhkan penyelesaian
dengan iterasi (Agresti, 1990). Untuk itu digunakan metode iterasi Newton-Raphson, yaitu suatu metode
yang digunakan untuk menyelesaikan persamaan-persamaan non-linear (Wedderburn, 1976; Agresti,
1990). Metode ini memperoleh dugaan maksimum likelihood bagi dengan iterasi yang menggunakan
rumus (Agresti, 1990).
, ) , ) , ) , ) m ab m m
g h
1
1

+
= (13)
m = 1, 2, sampai konvergen
dengan nilai matriks (Agresti, 1990)
h
(ab)
, )
, ) , )
=
c c
c
=
i
i m i m i ib ia
b a
x x n x x
L
)) ( 1 )( (
2

,
k b
k a
, , 2 , 1
, , 2 , 1
=
=
, )
, )
=
c
c
=
ij i m i i
j
m
x x n y
L
) (
) (
) (

g
dimana
.
|
\
|
=
k
g
g
g
2
1
g adalah matriks gradien dan
h
(
(
(
(
=
kk k k
k
k
h h h
h h h
h h h
2 1
2 22 21
1 12 11
adalah matriks hessian
Algoritma :
1. Memasukkan nilai dugaan awal yang diperoleh dari metode kuadrat terkecil (OLS).
(0)
.
|
\
|
=
k
1
0
kemudian memasukkan nilai
(0)
pada persamaan (10).
2. Mencari matriks gradien
) 0 (
g dan matriks hessian h
(0)
.
3 Selanjutnya untuk m > 0 menggunakan
, ) , ) , ) , ) 0
1
0 0 1
g h
=
Nilai
, ) 1
digunakan untuk mencari ) (
) 1 ( i
x sehingga diperoleh nilai-nilai
) 1 (
g dan h
(1)
, kemudian
diperoleh nilai
(2)
, begitu seterusnya sampai mencapai konvergen. Iterasi untuk memperoleh
(m)
terus
dilakukan sampai mencapai konvergen c untuk setiap j, yaitu :
, ) , )
2
1
j
m
j j
m
j
c s
+
untuk c>0
Pengujian Signifikansi Parameter
Setelah menaksir parameter maka langkah selanjutnya yang dilakukan adalah menguji
signifikansi parameter tersebut. Untuk itu digunakan uji hipotesis statistik untuk menentukan apakah
variabel prediktor dalam model signifikan atau berpengaruh nyata terhadap variabel respon. Pengujian
signifikansi parameter dilakukan sebagai berikut.
6
a. Uji Parsial
Digunakan untuk menguji pengaruh setiap
i
secara individual. Hasil pengujian secara
parsial/individual akan menunjukkan apakah suatu variabel prediktor layak untuk masuk dalam model
atau tidak (Agresti, 1990).
Hipotesis :
H
0
:
i
= 0
H
1
:
i
0
Statistik Uji : Wald, )
, )
i
i
SE
W
= (14)
Rasio yang dihasilkan dari statistik uji, dibawah hipotesis H
0,
akan mengikuti sebaran normal
baku (Hosmer dan Lemeshow, 1989). Sehingga untuk memperoleh keputusan dilakukan perbandingan
dengan distribusi normal baku (Z). Kriteria penolakan (tolak H
0
) jika nilai
2 /
Z W > .
b. Uji Serentak
Uji serentak disebut juga uji model chi-square, dilakukan sebagai upaya memeriksa peranan
variabel prediktor dalam model secara bersama-sama.
Hipotesis :
H
0
: 0 ...
2 1
= = = =
k

H
1
: paling sedikit ada satu 0 =
i
(i = 1, 2,, k)
Statistk uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test:
(
=
0
1 2
ln 2
L
L
G ;
, )
, )
(
(
(
(
(
.
|
\
|
.
|
\
|
=
[
=
n
i
y
i
y
i
n n
i i
n
n
n
n
Ln G
1
1
0 1
2
1
2
0 1

(15)
Atau:
|
|
|
|
|
|
=
+ + =
n
i
n n n n n n
i i
y
i i
y G
1
)] ln( )
0
ln(
0
)
1
ln(
1
[ )] 1 ln( ) 1 ( ) ln( [ 2
2

dimana :
n
1
= banyaknya observasi yang berkategori 1
n
0
= banyaknya observasi yang berkategori 0
n = Banyaknya observasi (n
1
+ n
0
)
L
1
= Likelihood tanpa variabel prediktor tertentu
L
0
= Likelihood dengan variabel prediktor tertentu
Statistik uji G
2
mengikuti distribusi chi-square, sehingga untuk memperoleh keputusan dilakukan
perbandingan dengan nilai
2
tabel. Dimana derajat bebas = k ( banyaknya variabel prediktor). Kriteria
penolakan (tolak H
0
) jika nilai
2
) , (
db
G > .
Interpretasi Koefisien Parameter
Proses selanjutnya setelah mendapatkan koefisien parameter yang signifikan adalah melakukan
interpretasi terhadap koefisien parameter tersebut. Interpretasi koefisien parameter diharapkan dapat
menjelaskan tiga hal, yaitu :
1. Menjelaskan hubungan fungsional antara variabel respon dan variabel prediktor.
2. Menentukan unit perubahan setiap variabel independen.
3. Mendapatkan nilai odds rasio yang menunjukkan perbandingan tingkat kecenderungan dari kedua
kategori dalam satu variabel prediktor.
Nilai odds rationya didefinisikan sebagai berikut :
7
, )
, ) j
, )
, ) j
, ) , ) j
, ) , ) j
1
0
1 0
1 1 0
0 1 1
0 1
0
1 1
1
e
e
e
= =
=
+
(16)
Sedangkan nilai log odds ratio adalah :
, )
, ) j
, )
, ) j
(
(
(
=
0 1
0
1 1
1
ln ln
=
(
) 0 ( 1
) 0 (
ln
) 1 ( 1
) 1 (
ln
= g (1) g (0)
Persamaan diatas disebut perbedaan logit.
Nilai odds ratio untuk model regresi logistik :
1
e =
Nilai log odds rationya adalah :
, ) , )
1
1
ln ln

= = e
Nilai Odds Ratio digunakan untuk menunjukkan kecenderungan hubungan suatu variabel X terhadap
variabel Y. Bila nilai = 1, maka antara kedua variabel tersebut tidak terdapat hubungan. Bila nilai < 1,
maka antara kedua variabel terdapat hubungan negatif terhadap perubahan nilai X yang bernilai bernilai
benar dan demikian sebaliknya bila 1 > .
Prosedur Klasifikasi
Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi
yang dilakukan oleh suatu fungsi klasifikasi. Ukuran yang dipakai adalah apparent error rate (APER).
Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi
(Johnson dan Wichern, 1992). Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel
klasifikasi sebagai berikut :
Tabel 2.1 Tabel Klasifikasi
Actual
membership
Predicted membership
1
1
n
11
n
12
2
n
21
n
22
Keterangan :
n
11
= Jumlah y
i
dari
1
tepat diklasifikasikan sebagai
1
n
12
= Jumlah y
i
dari
1
salah diklasifikasikan sebagai
2
n
21
= Jumlah y
i
dari
2
salah diklasifikasikan sebagai
1
n
22
= Jumlah y
i
dari
2
tepat diklasifikasikan sebagai
2
APER (dalam %) =
22 21 12 11
21 12
n n n n
n n
+ + +
+
(17)
8
Kanker Payudara
Kanker payudara adalah momok yang menakutkan bagi setiap wanita. Di Indonesia, kanker
payudara menempati urutan kedua dari jenis kanker yang menyerang wanita. Kanker payudara berasal
dari kelenjar, saluran dan jaringan penunjang payudara, namun tidak termasuk kulit payudara. Sel kanker
payudara yang pertama dapat tumbuh menjadi tumor sebesar 1 cm pada waktu 8-12 tahun. Sel kanker
tersebut diam pada kelenjar payudara. Sel-sel kanker payudara ini dapat menyebar melalui aliran darah ke
seluruh tubuh. Kapan penyebaran itu berlangsung, tidak diketahui pasti. Sel kanker payudara dapat
bersembunyi di dalam tubuh selama bertahun-tahun tanpa diketahui, dan tiba-tiba aktif menjadi tumor
ganas atau kanker.
Pada kanker payudara ada stadium dini (0, 1 dan 2) serta stadium lanjut (3 dan 4). Stadium 0
berarti sel kanker ada pada lapisan kelenjar susu atau saluran susu tetapi belum menyebar ke jaringan
lemak sekitarnya. Pada stadium 1 dan 2, kanker telah menyebar dari kelenjar susu atau saluran susu ke
jaringan terdekat disekitarnya. Pada stadium 2 kadang-kadang kanker telah mulai mengganggu kelenjar
getah bening. Stadium 3 boleh dibilang kanker payudara dalam stadium lanjut lokal, dimana garis tengah
tumor telah lebih dari dua inci dan seringkali telah menyebar ke kelenjar getah bening dekat payudara.
Pada stadium 4 kanker telah bermetastasis, artinya kanker telah menyebar dari payudara dan kelenjar
getah bening di sekitar ketiak, ke bagian lain tubuh seperti tulang, hati, paru dan otak (Anita, 2007).
Gejala kanker payudara
Pada tahap awal kanker payudara, biasanya tidak merasakan sakit atau tidak ada tanda-tandanya
sama sekali. Namun, ketika tumor semakin membesar, gejala-gejala di bawah ini mungkin muncul (Anita,
2007).
1. Benjolan yang tidak hilang atau permanen dan menggumpal, biasanya tidak sakit dan terasa keras bila
disentuh atau penebalan pada kulit payudara atau di sekitar ketiak.
2. Perubahan ukuran dan bentuk payudara.
3. Kerutan pada kulit payudara.
4. Keluar cairan tidak normal dari puting susu yang berupa nanah, darah, cairan encer atau keluar air
susu pada ibu tidak hamil atau tidak sedang menyusui.
5. Pembengkakan atau adanya tarikan pada puting susu.
Faktor-faktor resiko penyebab kanker payudara
Penyebab pasti kanker payudara tidak diketahui. Meskipun demikian, riset yang telah dilakukan
oleh para ahli di bidang kedokteran mengidentifikasi sejumlah faktor yang dapat meningkatkan risiko
pada individu tertentu adalah sebagai berikut (Kardinah, 2007 dan Sutjipto, 2007).
1. Usia
Resiko utama kanker payudara adalah bertambahnya umur. Wanita di atas 30 tahun berisiko terkena
kanker payudara.
2. Mendapatkan haid pertama pada usia muda.
Keadaan ini menyebabkan terjadinya pertukaran hormon dimulai pada usia muda dan menyebabkan
peningkatan pertukaran zat hormon. Perempuan mengalami perubahan hormonal terus-menerus. Saat
itulah ada kemungkinan perubahan sel dalam payudara sehingga terjadi mutasi sel.
3. Usia menikah
Wanita yang berisiko terkena kanker payudara adalah wanita yang menikah pada usia tua.
4. Wanita yang tidak mempunyai anak
Wanita yang tidak pernah melahirkan anak, dapat menyebabkan gangguan keseimbangan hormon.
Saat itulah ada kemungkinan terjadinya perubahan sel dalam payudara.
5. Wanita yang tidak pernah menyusui anak
Wanita yang tidak pernah menyusui anak akan mengakibatkan kelenjar susunya tidak pernah
dirangsang untuk memproduksi susu, sehingga terjadi penumpukan hormon pada payudara.
6. Penggunaan KB
Penggunaan KB hormonal seperti pil atau suntik tidak dianjurkan lebih dari lima tahun dan wanita
yang telah berusia di atas 35 tahun. Hal ini dapat meningkatkan risiko terkena kanker payudara.
7. Riwayat keluarga penderita kanker payudara
9
Riwayat keluarga merupakan komponen yang penting dalam riwayat penderita yang akan
dilaksanakan skrining untuk kanker payudara. Terdapat peningkatan risiko keganasan ini pada
wanita yang keluarganya menderita kanker payudara.
Cara pencegahan kanker payudara
Kanker payudara pada tahap awal tidak menimbulkan gejala apapun, namun bersamaan dengan
berkembangnya penyakit akan timbul gejala yang menyebabkan perubahan pada kanker payudara. Untuk
itu diajurkan untuk melakukan pemeriksaan sebagai berikut (Sutjipto, 2007).
1. Pemeriksaan Payudara Sendiri (SADARI).
Setiap wanita dianjurkan untuk melakukan SADARI secara teratur sebulan sekali setelah selesai haid,
dan bagi yang telah mati haid (menopause) hendaknya dilakukan pada tanggal tertentu yang mudah
diingat dari setiap bulannya.
2. Pemeriksaan payudara oleh tenaga medis (dokter atau bidan).
Dengan pemeriksaan yang seksama sering dapat diduga suatu benjolan di payudara merupakan tumor
jinak atau ganas.
3. Mamografi.
Mamografi adalah pemeriksaan radiologik khusus menggunakan sinar X dosis rendah untuk
mendeteksi kanker payudara sedini mungkin, bahkan sebelum adanya perubahan yang kelihatan pada
payudara ataupun benjolan yang dapat dirasakan. Mamografi dianggap sebagai senjata yang paling
efektif untuk deteksi dini kanker payudara sebab dapat mendeteksi hampir 80 sampai 90 persen dari
semua kasus kanker payudara.
4. Cara lainnya adalah dengan operasi kecil untuk mengambil contoh jaringan (biopsi) dari benjolan itu,
kemudian diperiksa di bawah mikroskop laboratorium patologi anatomi. Bila diketahui dan
dipastikan bahwa benjolan itu adalah kanker, maka payudara harus diangkat seluruhnya untuk
menghindari penyebaran ke bagian tubuh yang lain.
3 Sumber Data
Data yang digunakan dalam penelitian ini berasal dari data sebelumnya (Yuanita, 2008), yaitu
data variabel respon penderita dan bukan penderita kanker payudara yang mempunyai karakteristik
responden adalah wanita yang sudah menikah.
Variabel Penelitian
Variabel yang digunakan dalam penelitian ini adalah sebagai berikut.
1. Variabel respon, terdiri dari dua kategori yaitu :
1. Penderita kanker payudara (diberi kode 1)
2. Bukan penderita kanker payudara (diberi kode 0)
2. Variabel prediktor, terdiri dari 7 variabel yang diduga mempunyai pengaruh terhadap variabel respon
yaitu :
1. Usia (X
1
)
2. Usia menstruasi pertama (X
2
)
3. Usia menikah (X
3
)
4. Mempunyai anak atau tidak (X
4
), terdiri dari dua kategori sebagai berikut.
a. Tidak mempunyai anak, dengan kode 0
b. Mempunyai anak, dengan kode 1
5. Pernah menyusui atau tidak (X
5
), terdiri dari dua kategori yaitu.
a. Tidak pernah menyusui, kode 0
b. Pernah menyusui, kode 1
6. Penggunaan KB (X
6
), terdiri dari dua kategori yaitu.
a. Tidak pernah menggunakan KB, kode 0
b. Pernah menggunakan KB lebih dari 5 tahun, kode 1
7. Riwayat Penderita Keluarga atau RPK (X
7
), terdiri dari dua kategori sebagai berikut.
a. RPK tidak ada yang terkena kanker, kode 0
b. RPK ada yang terkena kanker, kode 1
10
Langkah-langkah dan Metode Penelitian
Metode penelitian yang digunakan dalam penelitian ini melalui tahap-tahap sebagai berikut.
1. Menentukan model regresi logistik antara variabel respon dengan masing-masing variabel independen
secara individu.
2. Melakukan uji signifikansi parameter untuk setiap model regresi logistik individu untuk mengetahui
variabel-variabel independen mana yang berpengaruh secara signifikan terhadap variabel respon.
3. Menentukan model regresi logistik antara variabel respon dengan variabel-variabel independen yang
signifikan secara serentak.
4. Menghitung tingkat ketepatan pengklasifikasian variabel respon dari model yang telah diperoleh.
5. Menginterpretasikan model regresi logistik.
4 Deskriptif Variabel
Variabilitas responden dapat dilihat dari perbandingan frekuensi responden dengan karakteristik
yang berbeda-beda pada setiap variabel yang bersifat kategorik, Dengan tujuan untuk dapat
menggambarkan besar atau kecilnya variabilitas responden tersebut. Dan juga dilakukan pengujian
deskriptif statistik untuk variabel prediktor kontinyu agar dapat diketahui rata-rata dari setiap variabel.
Tabel 4.1 Deskriptif Statistik
Variabel N Minimum Maximum Mean
Usia (X
1
) 100 21 77 49,28
Usia menstruasi
pertama (X
2
) 100 9 17 13,38
Usia menikah (X
3
) 100 14 34 21,1
Dilihat dari deskriptif statistik diatas dapat diketahui rata-rata usia seseorang untuk variabel
X
1
(usia) adalah 49 tahun dengan usia paling kecil 21 tahun dan paling tua 77 tahun, sedangkan untuk
variabel X
2
yaitu usia menstruasi pertama yang paling kecil yaitu 9 tahun dan yang paling besar 17 tahun
dengan rata-rata usia menstruasi pertama kali 13 tahun, dan untuk variabel X
3
adalah usia menikah
terkecil yaitu 14 tahun dan yang paling tua usia menikahnya 34 tahun dengan rata-rata pada umumnya
usia menikah 21 tahun.
Tabel 4.2 Tabel Frekuensi Variabel
Variabel Frekuensi Persen
X
4
tidak mempunyai anak 11 11
mempunyai anak 89 89
X
5
tidak menyusui 18 18
menyusui 82 82
X
6
tidak pernah KB 41 41
pernah KB 59 59
X
7
tidak ada RPK 88 88
ada RPK 12 12
Tabel 4.2 menunjukkan bahwa mayoritas responden mempunyai perbedaan frekuensi yang cukup
besar antar kategori pada variabel. Perbedaan tersebut dimungkinkan terkait dengan kelompok control,
dimana asumsi awal untuk kelompok control adalah independent dengan kelompok case.
11
4.1.1 Tabulasi Silang
Untuk mengetahui bagaimana karakteristik penderita dan bukan penderita maka dilakukan
tabulasi silang antara variabel prediktor dengan variabel respon. Hasil dari tabulasi silang disajikan
pada Tabel
Tabel 4.3 Tabulasi Silang antara Variabel X
4
dengan Variabel Respon Y
Variabel
X
4
Total
tidak mempunyai
anak
mempunyai
anak
Y
bukan
penderita 4 46 50
Penderita 7 43 50
Total 11 89 100
Dari Tabel 4.3 dapat diketahui bahwa sebagian besar penderita kanker payudara adalah wanita yang
sudah mempunyai anak. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita,
sehingga variabel X
4
berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita
kanker payudara.
5
Variabel
X
5
Total
tidak menyusui menyusui
Y
bukan
penderita 8 42 50
Penderita 10 40 50
Total 18 82 100
Untuk Tabel 4.4 diketahui sebagian besar penderita kanker payudara adalah wanita yang sudah
menyusui. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga
variabel X
5
berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker
payudara.
6
Variabel
X
6
Total
tidak KB KB
Y
bukan
penderita 20 30 50
penderita 21 29 50
Total 41 59 100
Tabel 4.5 jumlah bukan penderita yang tidak KB dan penderita yang menggunakan KB hampir
berimbang, tetapi sebagian besar penderita kanker payudara adalah wanita yang menggunakan KB.
Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X
6
berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara.
7
variabel
X
7
Total
tidak ada RPK Ada RPK
Y
bukan
penderita 50 0 50
penderita 38 12 50
Total 88 12 100
Sebaliknya, dari Tabel 4.6 dapat diketahui bahwa sebagian besar penderita kanker payudara bukan
terjadi karena wanita yang keluarganya menderita kanker payudara. Tampak jelas adanya perbedaan
karakteristik antara penderita dan non penderita, sehingga variabel X
7
berpengaruh terhadap berpeluang
tinggi atau tidaknya pasien untuk menderita kanker payudara.
4.2 Pola Hubungan antara Faktor-Faktor Risiko Penderita Kanker Payudara
12
Untuk mengetahui pola hubungan antara faktor-faktor risiko penyebab kanker payudara dapat
digunakan analisis regresi logistik. Selain itu, dapat diketahui besarnya pengaruh setiap faktor dalam
menentukan peluang seseorang untuk menderita kanker payudara.
i. Regresi logistik dengan satu variabel prediktor (Univariat)
Pembentukan model regresi logistik dengan satu variabel prediktor atau univariat bertujuan untuk
mengetahui variabel prediktor mana yang berpengaruh secara individu terhadap variabel respon, sebelum
dilakukan pemodelan antara variabel respon dengan variabel-variabel prediktor secara bersama-sama.
Untuk itu, perlu dilakukan pengujian signifikansi parameter seba-gai koefisien dari variabel prediktor
pada masing-masing model univariat.
Hipotesis:
H
0
:
j
= 0, j = 1,2,...,7
H
1
:
j
0
= 0,1
Statistik Uji:
) (
(W) Wald
j
j
=
Daerah penolakan H
0
: |W
hit
| > 64 , 1
05 , 0 2 /
= = Z Z

Tabel 4.7 Pengujian Signifikansi Parameter Model Regresi Logistik Univariat
Variabel
Wald Sig.
Odds
Ratio
Usia (X
1
) 0,020 1,636 0,201 1,020
Usia menstruasi
pertama (X
2
)
-0,281 4,425 0,035*
0,755
Usia menikah (X
3
) 0,048 0,807 0,369 1,050
Mempunyai anak atau
tidak (X
4
)(1)
0,627 0,898 0,343 1,872
Pernah menyusui atau
tidak (X
5
)(1)
0,272 0,270 0,603 1,312
Penggunaan KB
(X
6
)(1)
0,083 0,041 0,839 1,086
Riwayat Penderita
Keluarga (X
7
)(1)
-21,477 0,000 0,999 0,000
Keterangan: *) signifikan pada = 10%
Kesimpulan: Faktor-faktor yang berpengaruh secara individu terhadap risiko tinggi terkena
penyakit kanker payudara adalah X
2
(usia menstruasi pertama). Hal ini terlihat dari nilai W
2
=4,425 lebih
besar dari nilai X
2
=1,64 sehingga keputusannya tolak H
0
. Langkah selanjutnya adalah
menginterpretasikan model tersebut. Jika model regresi logistik yang terbaik ditulis dalam bentuk logit,
maka menjadi:
, )
2
0,281X - 3,759 X g =
Sedangkan fungsi peluang orang terkena kanker payudara adalah
, )
, )
, )
2
2
X 281 , 0 759 , 3 exp 1
X 281 , 0 759 , 3 exp
X
+

=
Nilai odds ratio 755 , 0 = menunjukkan bahwa 1 > yang berarti usia menstruasi pertama
memberikan pengaruh yang positif terhadap resiko terkena kanker payudara.
Sehingga untuk pemodelan regresi logistik multivariat dapat dilakukan lagi seperti tabel diatas
tetapi secara bersama-sama, hal ini supaya untuk membandingkan hasil pengujian univariat dan
multivariat.
13
4.2.2 Regresi logistik dengan lebih dari satu variabel prediktor (multivariat)
Meskipun dari pemodelan regresi logistik univariat telah diketahui bahwa variabel X
2
(usia
menstruasi pertama) berpengaruh secara signifikan terhadap variabel respon, namun belum diketahui
bagaimana hubungan antara variabel lain. Karena jika ternyata hubungannya sangat erat, maka
dimungkinkan salah satu variabel akan menjadi tidak signifikan lagi pengaruhnya terhadap variabel
respon. Oleh karena itu, perlu dilakukan pemodelan regresi logistik dengan memasukkan semua variabel
secara bersama-sama untuk memeriksa ada atau tidaknya hubungan antara variabel tersebut. Untuk
mengetahui apakah parameter-parameter model telah signifikan atau tidak maka dilakukan langkah-
langkah pengujian hipotesis sebagai berikut.
Hipotesis:
H
0
: 0 =
H
1
: 0 =
= 0,1
Statistik Uji:
, )
, )
538 , 130
1
2 ) (
1
1
0 1
2
0 1
=
(
(
(
(
(
.
|
\
|
.
|
\
|
=
[
=
n
i
y
i
y
i
n n
i i
n
n
n
n
Ln Test Ratio Likelihood G

Daerah penolakan H
0
: G
2
>
, ) , )
= =
2
2 ; 1 , 0
2
k ;

4,605
Keputusan: Tolak H
0
Kesimpulan: Minimal ada satu variabel prediktor yang pengaruhnya signifikan terhadap variabel respon.
Dan untuk mengetahui variabel prediktor mana yang berpengaruh, maka dilakukan pengujian signifikansi
parameter secara parsial sebagai berikut.
Hipotesis:
H
0
:
j
= 0, j = 0,1
H
1
:
j
0
= 0,1
Statistik Uji:
) (
(W) Wald
j
j
=
Daerah penolakan H
0
: |W
hit
| > 64 , 1
05 , 0 2 /
= = Z Z

Tabel 4.8 Pengujian Signifikansi Parameter Model Regresi Logistik Multivariat
Variabel

Wald Sig. Keputusan

Usia (X
1
) 0,038 3,403 0,065* Tolak H
0
Usia menstruasi pertama
(X
2
) -0,265 2,779 0,095* Tolak H
0
Usia menikah (X
3
) 0,1 2,544 0,111 Terima H
0
Mempunyai anak atau
tidak (X
4
)(1) 0,653 0,309 0,578 Terima H
0
Pernah menyusui atau
tidak (X
5
)(1) 0,258 0,07 0,791 Terima H
0
Penggunaan KB (X
6
)(1) -0,322 0,355 0,551 Terima H
0
Riwayat Penderita
Keluarga (X
7
)(1) -21,438 0 0,998 Terima H
0
Keterangan: *) signifikan pada = 10%
Kesimpulan: Faktor-faktor yang berpengaruh secara multivariat terhadap risiko tinggi terkena
penyakit kanker payudara adalah X
1
(usia) yaitu sebesar 0,065 dan X
2
(usia menstruasi pertama) sebesar
0,095.
14
Tabel 4.9 Pengujian Signifikansi Parameter Secara Parsial
Variabel

Wald Sig. Keputusan
X
1
0,031 3,256 0,071 Tolak H
0
X
2
-0,342 5,986 0,014 Tolak H
0
Constant 3,061 2,783 0,095 Tolak H
0
Dari Tabel 4.9 dapat diketahui bahwa variabel X
1
dan X
2
yang berpengaruh terhadap variabel
respon. Sehingga dapat diinterpretasikan bahwa faktor-faktor risiko yang berpengaruh secara parsial
terhadap tingginya peluang pasien untuk menderita kanker payudara adalah faktor usia dan usia
menstruasi pertama.
4.2.3 Uji kesesuaian model
Karena ada sejumlah responden yang memiliki karakteristik sama dalam hal usia dan usia
menstruasi, maka perlu dilakukan pengujian untuk mengetahui apakah model regresi logistik yang
didapatkan telah sesuai atau tidak.
H
0
: Model sesuai
H
1
: Model tidak sesuai
= 0,1
, )
, )
, )
=
g
k k k k
k k k
' n
' n o
C
1
2
1
Lemeshow Hosmer
= 12,926
Daerah penolakan H
0
: C
>
, ) , )
= =
2
2 ; 1 , 0
2
2 ;

g
4,605
Keputusan: Terima H
0
Berarti, model regresi logistik multivariat yang telah diper-oleh, yakni
, )
, )
, )
2 1
2 1
X 342 , 0 X 031 , 0 061 , 3 exp 1
X 342 , 0 X 031 , 0 061 , 3 exp
X
+ +
+
=
telah sesuai digunakan untuk menjelaskan seberapa besar peluang pasien untuk menderita kanker
payudara berdasarkan variabel prediktor X
1
(Usia) dan X
2
(Usia menstruasi).
4.2.4 Interpretasi model regresi logistik
Langkah selanjutnya adalah menginterpretasikan model tersebut. Jika model regresi logistik yang
terbaik ditulis dalam bentuk logit, maka menjadi:
, )
2 1
0,342X - 0,031X 061 , 3 X g + =
Tabel 4.10 Estimasi Titik untuk Odds Rasio
Variabel
Exp(
)
X
1
1,031
X
2
0,711
Nilai odds ratio pada variabel usia(X
1
) dan usia menstruasi pertama(X
2
) pada Tabel 4.9 memiliki
nilai yang jauh berbeda yaitu sebesar 1,031 untuk X
1
dan 0,711 untuk X
2
. Karena odds ratio variabel X
1
tersebut bernilai diatas 1, maka variabel tersebut memberikan pengaruh positif terhadap faktor resiko
penyebab penderita kanker payudara.
Karena variabel prediktor yang digunakan dalam penelitian ini bersifat kontinu maka Hal ini berarti
bahwa semakin besar nilai usia(X
1
) maka semakin besar kemungkinan seseorang untuk beresiko
menderita kanker payudara.
15
4.2.5 Ketepatan pengklasifikasian responden
Untuk melihat peluang ketepatan klasifikasi dari faktor penderita dan non penderita kanker
payudara maka dapat dilihat sebagai berikut:
Tabel 4.11 Pengklasifikasian Penderita dan Non Penderita Kanker Payudara
Observasi
Taksiran Ketepatan
klasifikasi
Non penderita Penderita
Non penderita 33 17 66%
Penderita 20 30 60%
Persentase keseluruhan 63%
Dari Tabel 4.10 dapat diketahui bahwa besarnya ketepatan pengklasifikasian penderita dan non
penderita kanker payudara untuk kelompok control adalah 66% dan 60% untuk kelompok case. Masing-
masing diperoleh berdasarkan perhitungan sebagai berikut:
% 66 66 , 0
50
33
17 33
33
= = =
+
dan
% 60 6 , 0
50
30
30 20
30
= = =
+
Secara keseluruhan, model regresi logistik yang telah diperoleh dapat mengklasifikasikan
responden dengan benar sebanyak 63 orang diantara 100 total responden atau 63%. Sehingga besarnya
missklasifikasi adalah
% 37 37 , 0
100
37
30 20 17 33
20 17
= = =
+ + +
+
dan
% 63
2
126
2
60 66
= =
+
Kesalahan klasifikasi dari model regresi logistik ini masih cukup besar. Hal tersebut dimungkinkan
karena sedikitnya variabel prediktor yang masuk kedalam model.
5 DAFTAR PUSTAKA
Agresti, Alan, (1990), Categorical Data Analysis, John Wiley and Sons, Inc, New York.
Anita,(2007),KankerPayudara, (http://bima.ipb.ac.id/~anita/kanker_payudara.htm), download tanggal 26
Oktober 2009.
Icha, (2003), Deteksi Dini Kanker Payudara, (http://www.pikiran- rakyat.com/cetak/0203/22/
hikmah/lainnya02.htm), download tanggal 2 November 2009.
Johnson, R. A. Dan Wichern, D. W. (1992), Applied Multivariate Statistical Analysis, Prentice Hall, New
Jersey.
Messwati, E.D., (2005), Kanker Payudara, Paling Ditakuti Kaum Perempuan, (http://kompas.
com/kesehatan/news/0511/18/120708.htm), download tanggal 2 November 2009.
Pane, M., (2007), Aspek Klinis dan Epidemiologis Penyakit Kanker Payudara,
(http://www.tempo.co.id/medika/arsip/082002/pus-3.htm), download tanggal 9 November 2009.
Priambodo,D.A.,(2006), Klasifikasi Penderita Kanker Payudara Dengan Pendekatan Regresi
Ririn, R., (2007), Deteksi Sangat Dini Kanker Payudara, Jawaban untuk Menghindar,
(http://change.blogsome.com/2007/09/21/deteksi-sangat-dini-kanker-payudara- jawab
an-untuk-menghindar/), download tanggal 9 November 2009.
Sutjipto, (2006), Permasalahan Deteksi Dini dan Pengobatan Kanker Payudara,
(http://www.dharmais.co.id/new/content.php?page=article&lang=en&id=17),
Download tanggal 9 November 2009.
Yuanita. (2008), Klasifikasi Penderita Kanker Payudara dengan Pendekatan Metode Multivariate
Adaptive Regression Splines (MARS), Mahasiswa Jurusan Statistika
FMIPA ITS, Surabaya.

ITS Undergraduate 13440 Paper

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ITS Undergraduate 13440 Paper

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Faktor-faktor Yang Mempengaruhi Resiko Penyebab Penderita Kanker Payudara Dengan

b. Iteratively Reweighted Least Squares (IRLS)

Wald Sig. Keputusan

Anda mungkin juga menyukai