❖ Konsep Odds
O Y = P Y
1 P
Y
Jika peristiwa terjadinya suatu kejadian Y dinyatakan dengan nilai Y =
1 dan peristiwa tidak terjadinya kejadian Y dengan nilai Y = 0, maka odds
kejadian Y adalah:
P Y 1
O Y 1 = 1 P Y 1
P Y 0 1 P Y 1
O Y 0 = 1 P Y 0 =
1
= O Y 1
P Y 1
1
Contoh 1.1:
7 10 7
O ABC 1 = =
3 10 3
3
O ABC 0 = 1
7 = O ABC 1
❖ Log Odds
P Y 1
logit Y = ln odds Y = ln
1 P Y
1
Pada tabel 1.1 berikut diperlihatkan beberapa nilai probabilitas Y
P Y , odds Y, dan logit Y [ln odds Y].
P Y 1
logit Y = ln = +011 X+ . . . + X pp
1 P Y
1
Hasil yang diperoleh dari regresi logistik dalam logit Y dapat
dikembalikan ke dalam bentuk probabilitas dengan persamaan:
P Y 1 = 1
0 1X1...
1
e p Xp
❖ Rasio Odds
Y = Respons
X = Prediktor Jumlah
1 = Ada 0 = Tidak ada
1 = Ada a b n1
0 = Tidak ada c d n2
Jumlah m1 m2 n
Oˆ Y X 1 = a b
Oˆ Y X 0 = c d
Rasio antara keduanya dinamakan rasio odds (odds ratio), sebagai estimasi
untuk nilai rasio odds dalam populasi, yaitu:
ORˆ = a b =
ad
c dbc
Y = Respons
X = Prediktor Jumlah
1 = Ada 0 = Tidak ada
X=x+1 a b n1
X=x c d n2
Jumlah m1 m2 n
ORˆ =
ad
logit Y = 0 + 1 X
logit Y X 1 = 0 + ×1 = +
1 1
0
dan: logit Y X 0 = 0 + ×0 =
1 0
Odds-nya masing-masing
adalah: O Y X 1 = exp
0 1 O Y X 0 =
dan:
exp 0
Rasio odds-nya adalah:
ORˆ = exp 0 1
= e 1
exp 0
Untuk model regresi logistik dengan 1 prediktor kontinu X, logit
bersyarat Y untuk X = x + 1 dan X = x masing-masing adalah:
logit Y X x 1
= + 1 × (x +1) = +1 1x
0 0 +
dan: O Y X x = exp 0 1 x
logit Y = 0 + 1 X 1 + . . . + p X p
ORˆ j =
j
e
❖ Regresi Logistik Sederhana
logit (Y) = 0 + 1 X
odds Y = e 0
1X
atau:
P Y 1 0 1X
= e
1 P Y 1
1
dan: P Y 1 01
= 1 X
e
Perintah Stata untuk melakukan analisis regresi logistik dan
mengestimasi koefisien regresi logistik adalah:
logit depvar indepvar [if] [in] [, options]
9
depvar : Respons biner
indepvar : (Himpunan) prediktor
logit (Y) = 0 + 1 X 1 + . . . + p Xp
Y = {0, 1}.
Perintah Stata untuk melakukan analisis regresi logistik sederhana
dan mengestimasi koefisien regresi logistik adalah:
logit depvar indepvars [if] [in] [, options]
depvar : Respons biner
indepvars : Himpunan prediktor
L () = L 0 , 1 , . . . ,
p
Fungsi ini merepresentasikan probabilitas bersama (joint probability)
atau likelihood untuk mengamati data yang dikumpulkan memiliki koefisien
regresi logistik populasi 0 , 1, . . . , p . Fungsi likelihood sampel Lˆ
memiliki sifat analogi dengan koefisien determinasi R2
pada regresi linear,
yaitu semakin banyak parameter dalam model semakin besar nilai R2 pada
regresi linear ataupun nilai Lˆ pada regresi logistik. Semakin besar nilai R 2
pada regresi linear ataupun nilai Lˆ pada regresi logistik, semakin baik
kesesuaian model dengan data.
LR = −2 ln L1 −(−2 ln L 2 )
yang berdistribusi khi-kuadrat dengan derajat bebas p1 p2
.
LR = −2 ln L −(−2 ln L0 )
Pada blok kesesuaian model dilaporkan pula nilai Pseudo R2. Dalam
regresi logistik dikenal berbagai definisi untuk Pseudo R2. Pada Stata
definisi yang digunakan adalah pM
2
(McFadden,1973), yaitu:
F
2 ln L 0 ln L ln L
pMF = ln L =1−
0 ln L0
2
yang dapat dianggap sebagai analogi R
JKR pada regresi
= JK = 1 −
JKG
T JK
T
linear. Walaupun rentang nilai 2
pM juga berkisar antara 0 dan 1,
interpretasinya tak dapat dilakukan
F sebagaimana dengan koefisien
determinasi R2 pada regresi linear. Baik p2 maupun berbagai definisi
M
Pseudo R2 lainnya tidak menyatakan proporsi
F variansi respons yang
‘dijelaskan’ oleh model seperti pada koefisien determinasi R2 untuk regresi
linear.
❖ Tabel Koefisien Regresi
Uji Wald adalah uji statistik untuk tiap koefisien regresi logistik
j,
menguji hipotesis H :
0 = 0.
j
yang berdistribusi Z dengan nilai p = 0.000. Interval konfidensi 95%-nya
adalah:
3.392 <
1 < 4.337
❖ Fungsi Likelihood
nh
L h, n= C n1
hh
e0
1X1... p
P (Y = 1) Xp
1 1X pp
= 1 e... X
0
nh
L k f , n, h = P Y 1× 1 P Y
h
1
eX0 p1X1... h eX0 p1X1... nh
p p
011 X ...pp × 1
X ...pp
1 X 1 X01 1
e e
LR = −2 ln L1 − (−2 ln L2
)
ZWald = j
SE j
=
nomin p 1
al
❖ Estimasi Interval
ˆ j + Z 2 × SEˆ (4.7)
ˆ j
Misalnya, interval konfidensi 95%-nya adalah:
ˆ j SEˆ ˆ j
+ 1.96
×
Vaˆr ln ORˆ abcd
= 1 1
1 1
dengan notasi a, b, c, dan d seperti pada tabel 1.2.
Interval konfidensi (1 – α) untuk ln OR adalah:
ln ORˆ
+ Z 2 SE ln ORˆ
×
1 1 1
atau: ln ORˆ + Z
× 1
2 abcd
ln ORBˆ
; Aln
ORˆ
Interval konfidensi (1 – α) untuk OR adalah:
exp ln ORˆB
; exp ln
A
ORˆ
❖ Spesifikasi Variabel
1). Pilih calon variabel independen dengan teliti, lalu lakukan analisis
univariabel tiap calon variabel independen ini dengan variabel
dependen. Tiap calon variabel independen yang pada analisis
univariabel ini menghasilkan nilai p < 0.25 dan secara substantif
memiliki kemaknaan substantif menurut ranah bidang ilmu yang diteliti
dapat dipertahankan menuju langkah berikutnya.
Perhatikan bahwa calon prediktor yang pada analisis univariabel hanya
menunjukkan asosiasi lemah dengan respons, mungkin menjadi
prediktor penting pada analisis multivariabel.
39
2) Lakukan analisis multivariabel dengan variabel dependen,
menggunakan himpunan variabel independen yang lolos dari seleksi
tahap 1). Beberapa alternatif di sini:
- Metode lain yang relatif panjang dan tak akan dibahas di sini yaitu
“best subsets selection” yang memperbandingkan berbagai model
dengan jumlah maupun anggota himpunan variabel independen
yang berbeda.
Prinsip dasar yang terpenting untuk diingat pada tahap ini, yaitu bahwa
yang terutama seharusnya bertanggung jawab menelaah-ulang dan
mengevaluasi model adalah peneliti, bukan komputer.
Prinsip hirarki untuk interaksi menyatakan bahwa jika ada suatu suku
interaksi dalam model, maka model harus menginklusikan semua efek utama
pembentuk suku interaksi tersebut, beserta semua suku interaksi lebih rendah
penyusun suku interaksi tersebut. Misalkan sebuah model memuat suku
interaksi 3-faktor X1 * X 2 * X 3 , maka model harus pula menginklusikan efek
utam X X , X 3 , serta suku interaksi 2- X1 * X X1 * X 3 , dan
a 1 2
, dan faktor 2,
X 2 * X 3 , walaupun di antara efek utama dan suku interaksi 2-faktor ini
mungkin ada yang tak bermakna secara statistik.
(6.1)
koefisien regresi
dan akan dihitung deviansinya.
ˆ
ˆ :
Lmax Likelihood model jenuh
Yiiˆ Y = 0 untuk i = 1,
2, . . . , n
Deviansi memiliki rentang nilai yang berkisar dari nol sampai dengan
positif tak berhingga. Jika model peneliti memiliki (p + 1) parameter, maka
deviansinya dianggap berdistribusi khi-kuadrat dengan derajat bebas {(n –
(p
+ 1)} = (n – p – 1). Uji hipotesis kebaikan-suai dengan statistik deviansi
menguji H0 : Model sesuai data H1 : Model tak-sesuai data.
hipotesis
vs
Dalam kenyataannya, uji hipotesis kebaikan-suai dengan statistik
deviansi ini dapat menggunakan individu anggota sampel ataupun kelompok
pola kovariat sebagai unit analisis. Kelompok pola kovariat (covariate
pattern group) adalah kelompok yang beranggotakan subjek yang memiliki
himpunan nilai prediktor yang sama. Penggunaan unit analisis yang berbeda
ini akan menghasilkan nilai statistik penguji yang berbeda (rumus
perhitungannya memang berbeda) dengan derajat bebas yang berbeda pula.
. logistic [assessed_model]
. ldev
Statistik deviansi juga dapat digunakan pada uji rasio likelihood yang
memperbandingkan dua model hirarkis, yaitu model pertama tersarang dalam
model kedua. Jika model pertama memiliki statistik deviansi
Dev1 ˆ
dengan jumlah parameter p1 1
dan model kedua memiliki statistik
devians
i Dev 2 ˆ
dengan jumlah parameter p2 1, maka statistik penguji
rasio likelihood-nya adalah:
❖ Kriteria Informasi
*)
Selisih AIC antara model A dan B Interpretasi
*)
Persentasi selisih, yaitu (1 − AIC AICB ) × 100%
A
Kriteria penilaian selisih absolut nilai BIC antara 2 model A dan B dengan asumsi
BICA BICB menurut Raftery (1986) adalah:
*)
Selisih BIC antara model A dan B Derajat perbedaan
0–2 Lemah
2–8 Positif
6 – 10 Kuat
> 10 Sangat kuat
TAMPILAN DISKRIMINATORIK
jika P Y ˆ
< 0.5. Prediksi ini tidak selalu benar, dan kesesuaiannya dengan
keberadaan respons menurut pengamatan (observed data) akan menentukan
kualitas diskriminatorik suatu model regresi logistik, dengan model regresi
logistik berperan sebagai uji diagnostik. Nilai cutoff tidak selalu harus 0.5,
melainkan dapat diubah menurut keperluan peneliti. Tabel silang hubungan
antara data pengamatan dengan prediksi respons diperlihatkan pada Tabel
7.1 dan 7.2.
57
Tabel Klasifikasi: Hubungan antara prediksi dengan
pengamatan respons
Yˆ = 1 nTP nFP
a b
Prediksi
Respons c d
Tidak ada Negatif Palsu: Negatif Benar:
Yˆ = 0 nFN nTN
nT
: Jumlah subjek yang terdeteksi positif benar (true positive)
P
: Jumlah subjek yang terdeteksi positif palsu (false positive)
nF
: Jumlah subjek yang terdeteksi negatif palsu (false negative)
P
: Jumlah subjek yang terdeteksi negatif benar (true negative)
nF
nT
N
Karakteristik dan definisi pada uji diagnostik
a. Sensitivitas dan Spesifisitas
Pengamatan Respons
(Data)
Y=1 Y=0 a+
Prediksi Yˆ = 1 a b bc+
Respons Yˆ = 0 a +c c b +d d
d
a+b+c+d
Se =a a + c Sp =d b + d
(7.1)
Se : Sensitivitas = a c
a
b d
Sp : Spesifisitas =
d
Pengamatan Respons
(Data)
Y=1 Y=0
a
Yˆ = 1 a b a+b PPV =
Prediksi a+
b
Respons
Yˆ = 0 c d d
c+d NPV =
c+
d
Struktur data ini tidak sama dengan yang digunakan pada uji t
berpasangan. Pada uji t berpasangan untuk studi eksperimental yang
dipadankan adalah variabel independennya, yaitu satu anggota pasangan
yang menerima perlakuan (treatment) yang diujicobakan dipadankan dengan
satu anggota lain yang tidak menerima perlakuan sebagai kontrol.
X1 = 0 g h B
c d n’
OR f
ˆ =g
ii
i1
n'
i1
n'
'
Tabel di atas memperlihatkan penyajian ringkasan data biner untuk 1
: 1 matching, yang disebut juga sebagai pair-matching dan paling sering
digunakan. Dalam praktik dapat digunakan 1 : m matching dengan m
berkisar antara 1 sampai dengan 5. Untuk 1 : 2 matching, yaitu tiap 1 kasus
dipadankan dengan 2 kontrol, yang disebut juga sebagai triplet-matching,
tabel penyajiannya adalah sebagai berikut:
X1 = 1 f2
f1 f0 a
X1 = 0 g2
g1 g0 b
c2
c1 c0 n’
2 f0 f1
ORˆ
= 2g2 g1
86
Regresi logistik pertama:
YM = 0
YM = 1
I II II IV
I
I II III IV
Regresi logistik
ketiga YM = 0 YM = 1
I II III IV