Anda di halaman 1dari 33

21/06/2013

1
Analisis Regresi Logistik Analisis Regresi Logistik Analisis Regresi Logistik Analisis Regresi Logistik
dr. Yudhi Wibowo, MPH
Department of Public Health & Community Medicine,
Faculty Medicine, Jenderal Soedirman University
dr_yudhi_wibowo@yahoo.com
dryudhiwibowo@gmail.com
Pi
Predictor Predictor
Logit
Transform
Tujuan Pembelajaran
Mengapa menggunakan regresi logistik?
Estimasi maximum likelihood
Menginterpretasikan koefisien
Pengujian hipotesis
Mengevaluasi kinerja model
21/06/2013
2
Mengapa Mengunakan Regresi
Logistik?
Banyak masalah penelitian menggunakan variabel
dependen yang diukur dalam skala dikotomi.
Proses pengambilan keputusan umumnya
menggunakan pilihan dikotomi, yaitu ya atau tidak.
Contoh: morbiditas (sakit vs. sehat), mortalitas (mati
vs. hidup), dll.
Regresi logistik biner (binary logistic regression)
merupakan sejenis analisis regresi, di mana variabel
dependen merupakan sebuah variabel dummy
(dikotomi, biner), dengan kode 0 (tidak terdapat
peristiwa) atau 1 (terdapat peristiwa).
Terdapat 2 kerangka konsep:
A. Kerangka konsep prediktif
B. Kerangka konsep etiologik
Contoh:
Apakah terdapat hubungan antara status merokok dan
SBP?
Apakah terdapat hubungan antara status merokok dan
SBP, setelah mengontrol pengaruh umur dan BMI?
21/06/2013
3
Variabel Perancu = confounder variable (CV)
CV: variabel yang dapat mendistorsi hasil
hubungan variabel utama dengan VD secara
sistematis.
Syarat disebut CV:
1. Berhubungan dengan variabel utama
2. Berhubungan dengan VD
3. Bukan variabel antara
Identifikasi CV:
Pada analisis:
Uji stratifikasi
Analisis multivariabel
Menggunakan formula:
(OR
crude
- OR
adjusted
: OR
adjusted
) x 100
Jika >10% CV (Dean et al., 2010)
21/06/2013
4
Langkah-langkah:
1. Kerangka konsep prediktif:
a. Melakukan analisis bivariat (jika VI kategorik
(X
2
) & jika VI numerik (independent t-test atau
Mann-Whitney), sebelumnya cek asumsi
linieritas)
b. Seleksi variabel yang akan masuk ke dalam
analisis regresi logistik (pertimbangan statistik
,p< 0,25 & pertimbangan teoritis)
c. Melakukann analisis multivariabel (metode
enter, backward, atau forward)
d. Interpretasi model akhir
Cont....
2. Kerangka konsep etiologik
a. Melakukan analisis bivariat (jika VI kategorik (X
2
) &
jika VI numerik (independent t-test atau Mann-
Whitney) sebelumnya cek asumsi linieritas)
b. Seleksi variabel yang akan masuk ke dalam analisis
regresi logistik (pertimbangan statistik (p< 0,25) &
pertimbangan teoritis). VI disusun berdasar
Hierarchically well formulated (HWF): var utama,
konfounder, & interaksi (modifier).
c. Seleksi terhadap variabel interaksi dgn prinsip
backward atau hirarkis (jika var interaksi
bermakna, dipertahankanmodel baku emas).
d. Melakukann analisis thd CV dgn prinsip valid &
presisi.
e. Interpretasi model akhir
21/06/2013
5
Interpretasi:
1. Membuat persamaan (Model)
2. Menilai kemaknaan secara statistik:
Nilai p: uji Wald
H0:
1
= 0 (tidak ada hubungan/perbedaan)
Ha:
1
0,
1
> 0,
1
< 0 (ada hubungan/perbedaan)
Jika uji Wald > 3,84/df atau p<0,05H0 ditolakada
hubungan VI dengan VD
Nilai IK 95%: lihat kolom Exp (B) & IK 95%
IK 95% tidak mencakup angka 1OR bermakna
3. Menilai kemaknaan secara klinis: bandingkan OR
yang diperoleh dengan OR yang diharapkan.
4. Interpretasikan OR
5. Menentukan Model terbaik
6. Menilai kualitas Model regresi:
a. Kalibrasi: uji Hosmer & Lemeshow
H0: O=E (tidak ada perbedaan)
Nilai p> 0,05H0 diterima Model terkalibrasi
baik
b. Diskriminasi: buat kurva receiver operating
charateristic (ROC) Area under the Curve
(AUC)
Lihat kolum area
Lihat IK95% (tidak terdapat angka 50%)
7. Menghitung probabilitas individu (cohort
study)
8. Menghitung RR (cohort study)
21/06/2013
6
Model Regresi Logistik
Model logistik atau "logit" menganalisis persamaan:
ln[p/(1-p)] = + X + e
p probabilitas terjadinya peristiwa Y, p(Y=1)
p/(1-p) adalah odd
ln[p/(1-p)] adalah log odd, atau "logit"
Logit
Logit adalah logaritme natural dari odds
ratio; sering disebut log odds, meskipun
sesungguhnya adalah log odds ratio.
Skala logit adalah linier dengan fungsi mirip
skala kontinu skor z.
p = 0.50, maka logit = 0ln(1)
p = 0.70, maka logit = 0.84ln(2,33)
p = 0.30, maka logit = -0.84 ln(0,43)
21/06/2013
7
Model Regresi Logistik (lanjutan)
Distribusi logistik membatasi estimasi probabilitas
pada nilai antara 0 dan 1.
Estimasi probabilitas:
p = 1/[1 + exp(- - X)]
Jika + X =0, maka p = 0.50
Makin besar + X, p makin mendekati 1
Makin kecil + X, p makin mendekati 0
Membandingkan Model Probabilitas
Linier dan Model Logit
21/06/2013
8
Asumsi
Pi
Predictor Predictor
Logit
Transform
p
i
(p
i
)
Model Regresi Logistik dengan Sebuah
Variabel Independen
logit (p
i
) = log (odds) =
0
+
1
X
1
di mana
logit(p
i
) transformasi logit dari probabilitas
peristiwa

0
intersep dari garis regresi

1
lereng (slope) dari garis regresi
21/06/2013
9
Maximum Likelihood Estimation (MLE)
MLE merupakan metode statistik untuk mengestimasi
koefisien sebuah model regresi.
Fungsi likelihood (L) menunjukkan probabilitas untuk
memperoleh suatu set tertentu nilai-nilai variabel
dependen (p
1
, p
2
, ..., p
n
) yang terjadi dalam sampel:
L = Prob (p
1
* p
2
***p
n
)
Makin tinggi L, makin tinggi probabilitas untuk
memperoleh ps dalam sampel.
Maximum Likelihood Estimation (MLE)
MLE bertujuan menemukan koefisien (, ) yang
membuat sebesar mungkin log dari fungsi likelihood f (LL
< 0)
MLE juga bertujuan menemukan koefisien yang membuat
sekecil mungkin -2 kali dari fungsi log function (-2LL)
Estimasi maximumlikelihood menganalisis dengan kondisi
sebagai berikut:
{Y - p(Y=1)}X
i
= 0
yang dijumlah untuk semua pengamatan/ subjek
penelitian, i = 1,,n
21/06/2013
10
Menginterpretasikan Koefisien
Karena:
ln[p/(1-p)] = + X + e
Koefisien lereng () dapat ditafsirkan sebagai tingkat
perubahan dalam log odds" dengan berubahnya X sulit
untuk menafsirkannya.
Karena:
p = 1/[1 + exp(- - X)]
Efek marginal dari perubahan X terhadap probabilitas:
p/X = f( X)
Odds Ratio
Interpretasi koefisien logit lebih mudah
dalam bentuk "odds ratio"
Karena:
[p/(1-p)] = exp(+ X)
exp() adalah efek dari variabel
independen terhadap log odd, disebut
odds ratio
21/06/2013
11
Odds Ratio
Dengan penyelesaian aljabar, persamaan
regresi logistik dapat ditulis dalam bentuk
odds ratio terjadinya peristiwa:
Odds ratio memiliki rentang nilai dari 0 hingga
positif tak terhingga
0 1 1
( 1| )
exp( )
(1 ( 1| )) (1 )
i
i
i
PY X
b bX
PY X

=
= = +

=

Konversi
Exp(logit) = odds ratio
Odds ratio = probabilitas/ (1 probabilitas)
Probabilitas = odd ratio / (1 + odd ratio)
21/06/2013
12
Odds Ratio
Odds ratio: P/Q adalah sebuah odds ratio; less
than 1 = less than .50 probability, greater than
1 means greater than .50 probability
Pengujian Hipotesis
Statistik Wald untuk koefisien :
Wald = [ /s.e.
B
]
2
yang merupakan distribusi Chi Kuadrat dengan
derajat bebas 1.
"Partial R" (dalam output SPSS):
R = {[(Wald-2)/(-2LL()]}
1/2
21/06/2013
13
Confidence Interval 95% dari
Parameter
Confidence Interval 95% Wald untuk odds ratio
diperoleh dengan eksponensiasi.
Diperoleh batas bawah dan batas atas keyakinan
95%:
z
0.05/2
, = 1.96, di mana z~N(0,1)
))

( ( 96 . 1

exp( SE
Menilai Kesesuaian Model
Terdapat beberapa metode statistik yang dapat
digunakan untuk menilai kesuaian sebuah
model regresi:
Model Chi Kuadrat (Chi-Square)
Persen prediksi yang benar
Pseudo-R
2
mcFadden
21/06/2013
14
Model Chi Kuadrat (Chi-Square)
Model likelihood ratio (LR):
LR[i] = -2[LL() - LL(, ) ]
atau:
LR[i] = [-2LL (Baru)] - [-2LL (Baseline)]}
Statistik LR merupakan distribusi chi kuadrat dengan
derajat bebas i, di mana i adalah jumlah variabel
independen
Menilai Kesesuaian Model dengan
Log-likelihood
Log-likelihood
Analog dengan jumlah kuadrat residu (the residual
sum of squares) dalam regresi linier
Indikator seberapa besar informasi yang tidak dapat
dijelaskan dalam suatu model regresi.
Nilai yang besar menunjukkan model statistik tersebut
tidak sesuai.
( ) ( ) ( ) ( ) ( ) [ ]

=
+ =
N
1 i
1 ln 1 ln likelihood log
i i i i
Y P Y Y P Y
21/06/2013
15
Contoh: Analisis Regresi Logistik
Sederhana
Studi disain kohort, OR minimal secara klinis
bermakna=2 & kualitas diskriminasi dengan AUC
secara klinis bermakna=70%.
Pertanyaan:
Apakah terdapat hubungan antara status merokok
dan SBP?
Apakah kebiasaan merokok meningkatkan risiko
terjadinya hipertensi?
Berapa besar peningkatan risiko untuk mengalami
hipertensi jika merokok?
Apakah hubungan tersebut secara statistik
signifikan?
Langkah-langkah dengan SPSS
Buka filecek variabel pada Variable View
Klik analyze, pilih regression, pilih binary...
Masukkan variabel SBPdic ke dalam dependent list
Masukkan veriabel smoking ke dalam covariates
Klik kotak categorical, pindahkan var smoking ke
dalam Categorical Covariates, pilih first pada
reference category, klik kotak change, klik continue.
Klik kotak Options, pilih Hosmer and Lemeshow for
goodness of fit & CI for Exp (B), klik continue.
Klik kotak Save, pilih Probabilities pada predicted
value, klik continue
Klik OK
21/06/2013
16
Tampilan Data Sampel dalam SPSS
Tampilan sebagian dari data sampel
Ukuran sampel (n)= 45
Tampilan Variabel Penelitian dalam
SPSS
21/06/2013
17
Melakukan Analisis Regresi Logistik
dengan Menggunakan SPSS
Analyze>
Regression>
Binary logistic
Jumlah subyek 45, tanpa missing kasus
Koding VD dan VI sudah sesuai
21/06/2013
18
Nilai kemaknaan statistik
Nilai uji Wald & p
H0:
1
= 0 (tidak ada hubungan)
Ha:
1
0
Hasil Uji wald >3,84/df & p=0,002H0 ditolakada
hubungan signifikan
Nilai IK95%
IK95% tidak mencakup angka 1OR bermakna
Nilai kemaknaan klinis
OR=13,125 > OR diharapkan (OR=2)secara klinis
bermakna
Interpretasi OR
Subyek merokok kemungkinan 13 kali lebih untuk
terjadinya SBP dibanding subyek tidak merokok.
Membuat persamaan (Model):
y = -2,015 + 2,575 (stat merokok)
Mengecek kualitas persamaan (Model)
Kalibrasi dengan Hosmer and Lemeshow test
Diskriminasi : AUC
Nilai -2 LL
Nagelkerke R
2
Menghitung probabilitas individu (cohort)
Menghitung RR (cohort)
21/06/2013
19
Tidak ada perbedaan nilai O dengan EModel
terkalibrasi baik
AUC=75,9% (>70%)bermakna secara klinis
(IK95%:57,6% sd 94,3%)(>50%) & p=0,010
(<0,05)bermakna
Model regresi logistik dengan status merokok
sebagai variabel independen cukup baik dalam
menjelaskan terjadinya hipertensi (-2
Loglikelihood=39.05)...Makin kecil -2
Loglikelihood, makin kecil residu, makin cocok
model tersebut dalam menjelaskan hubungan kedua
variabel.
Status merokok mampu menjelaskan terjadinya
hipertensi sebesar 32.3% (Nagelkerke R Square=
0.323)
21/06/2013
20
Menghitung probabilitas individu
Rumus P= 1/1+exp[-(y)]
1. Subyek tidak merokok
P = 1/1+ exp [-(-2,015 + 2,575 (0)]
P = 1/1+ exp (2.015) = 1/1+7,501=1/8,501= 0,1176
2. Subyek merokok
P = 1/1+ exp [-(-2,015 + 2,575 (1)]
P = 1/1+exp (-0,560) = 1/1+0,571 = 1/1,571 = 0,6365
Menghitung RR (kohort)
RR=0,6365/0,1176 = 5,413
Interpretasi Hasil Analisis Regresi Logistik
Terdapat hubungan yang secara statistik signifikan antara status
merokok dan SBP (p<0.002)
Perokok memiliki risiko untuk mengalami hipertensi 13 kali lebih besar
daripada bukan perokok (OR= 13.13)
Dengan tingkat keyakinan 95% dapat disimpulkan, perokok memiliki
risiko untuk mengalami hipertensi dari 3 hingga 66 kali lebih besar
daripada bukan perokok (CI95% 2.62 hingga 65.77)
Model regresi logistik dengan status merokok sebagai variabel
independen cukup baik dalam menjelaskan terjadinya hipertensi (-2
Loglikelihood=39.05)...Makin kecil -2 Loglikelihood, makin kecil
residu, makin cocok model tersebut dalam menjelaskan hubungan
kedua variabel.
Status merokok mampu menjelaskan terjadinya hipertensi sebesar
32.3% (Nagelkerke R Square= 0.323)
Probabilitas subyek untuk terjadi SBP jika perokok adalah 63,7%
21/06/2013
21
Contoh: Analisis Regresi Logistik Ganda
Kerangka konsep etiologik
Studi disain kohort, OR minimal secara klinis
bermakna=2 & kualitas diskriminasi dengan AUC
secara klinis bermakna=70%.
Pertanyaan:
Apakah terdapat hubungan antara status merokok
dan SBP, setelah mengontrol pengaruh umur dan
BMI?
Berapa besar peningkatan risiko untuk mengalami
hipertensi jika merokok, setelah mengontrol
pengaruh umur dan BMI?
Apakah hubungan tersebut secara statistik
signifikan?
Langkah-langkah dengan SPSS
1. Buka file & cek variabel
2. Analisis bivariabelchi square (skala kategorik),
p<0,25 masuk analisis multivariabel. Yaitu
variabel utama (status merokok), CV (Agedic &
BMIdic) & variabel interaksi (stat merokok*Agedic
; stat merokok*BMIdic).
3. Analisis var interaksi prinsip backward & hirarkis:
a. Klik analize, pilih regression, pilih binary...
b. Masukkan var SBD dic ke dependent list
c. Masukkan var stat merokok, Agedic, BMIdic ke
covariates.
d. Buat var interaksi:
Sorot var stat merokok, sambil tekan ctrl sorot var
Agedic, masukkan var stat merokok*Agedic dengan
mengklik a*b. Lakukan sama untuk var stat
merokok*BMIdic.
21/06/2013
22
d. Klik kotak categorical..., pindahkan var stat
merokok, Agedic, BMIdic ke Categorical
Covariates, pilih first pada reference category
untuk stat merokok, Agedic, BMIdic, lalu klik
change, klik continue.
e. Klik Options, pilih Hosmer & Lemeshow test &
CI for Exp (B), klik continue.
f. Klik OK
4. Analisis CV
Melakukan Analisis Regresi Logistik dengan
Menggunakan SPSS untuk menganalisis var
interaksi
Analyze>
Regression>
Binary Logistic
21/06/2013
23
Var interaksi agedic by smoking mempunayi
nilai p>0,05 yang paling besartidak layak
masuk analisis.
Lakukan analisis multivariabel tanpa var
interaksi agedic by smoking
Var interaksi Bmidic by smoking memiliki nilai
p>0,05 paling besartidak layak masuk
analisis.
Lakukan analisis multivariabel tanpa var
interkasi Bmidic by smoking
21/06/2013
24
Berdasarkan prinsip hirarkis, jika var interaksi
tidak bermakna, maka var penyusunnya (agedic
& bmidic) memiliki peluang dieliminir dari
model regresi.
Hasil di atas adalah model baku emas yaitu: stat
merokok, agedic dan bmidic.
Nilai OR stat merokok pada model baku emas =
17,626 (IK95%: 2,267 sd 137,019)
Analisis CV
CV adalah agedic dan bmidic
Memiliki peluang dieliminir dari model regresi
Untuk mengetahui apakah agedic & bmidic adalah
konfounderbandingkan OR stat merokok model
baku emas dengan OR stat merokok model lainnya.
Terdapat beberapa kemungkinan model:
1. Stat merokok, agedic, bmidic (baku emas) (Model 1)
Nilai OR stat merokok pada model baku emas = 17,626
(IK95%: 2,267 sd 137,019)
2. Stat merokok, agedic (Model 2)
3. Stat merokok, bmidic (Model 3)
4. Stat merokok (Model 4)
21/06/2013
25
Model 3 & 4 memiliki perubahan masing-masing -
23,99% & -25,54%, maka tidak valid.
Model 2 memiliki OR relatif tidak jauh berbeda
dengan Model 1 (baku emas). Model 2valid. Ada
2 opsi pilihan Model regresi : Model 1 & 2. Presisi
Model 2 lebih sempit.
Sehingga model akhir adalah Model 2, dengan
Adjusted OR=16,067 (IK95%: 2,607 sd 99,021).
21/06/2013
26
Namun dengan pertimbangan teoritis, BMI
mempengaruhi SBPsehingga dipertahankan
dalam model.
-2 LL Model 1 < -2 LL Model 2 yaitu 29,009 <
35, 045 (makin kecil makin cocok model tsb).
Status merokok, usia> 40 tahun, bmi > 25kg/m2
mampu menjelaskan terjadinya hipertensi
sebesar 55,7% (Nagelkerke R Square= 0.557)
AUC model 1: 91,31
AUC model 2: 84,36
Cara buat kurva ROC;
Klik graphs atau analyze
Pilih ROC curve
Masukkan pre_1 ke tests varable
Masukkan SBP ke state variable, ketik angka 1 pada Value of state variable
Pilih ROC curve, with diagonal reference line, standard error..., coordinate
point...
Klik OK
21/06/2013
27
Membandingkan 2 Model dengan Stata (fitstat)
Perbedaan BIC 2,229positif mendukung
Model 1 (baku emas) (Long et al., 2001).
21/06/2013
28
Interpretasi Hasil Analisis Regresi
Logistik Ganda
Terdapat hubungan yang secara statistik signifikan antara status
merokok dan SBP, setelah mengontrol pengaruh umur dan BMI
(p=0.006)
Perokok memiliki risiko untuk mengalami hipertensi 17 kali lebih
besar daripada bukan perokok (OR= 17.63)
Dengan tingkat keyakinan 95% dapat disimpulkan, perokok
memiliki risiko untuk mengalami hipertensi dari 2 hingga 137 kali
lebih besar daripada bukan perokok (CI95% 2.27 hingga 137,02)
Model regresi logistik dengan status merokok , umur, dan BMI,
sebagai variabel independen cukup baik dalam menjelaskan
terjadinya hipertensi (-2 Loglikelihood=29,009)
Status merokok, umur (>=50tahun), dan BMI (>=50kgBB/m
2
TB)
secara bersama mampu menjelaskan terjadinya hipertensi sebesar
55.7% (Nagelkerke R Square= 0.557)
Conditional multiple logistics
regression
Contoh lain:
Dr. Yudhi ingin meneliti hubungan
antara CMDs dan kejadian PE/E.
Matched case control study design
Matching pada usia dan paritas.
Variabel potensial konfounder :
Pendapatan keluarga
Jarak antar kelahiran
Riwayat keturunan PE/E
Merupakan konsep etiologik.
21/06/2013
29
Langkah sama, kecuali:
Persiapkan data berpasangan (long data wide data)
Analisis bivariabel menggunakan Mc Nemar
Lakukan analisis conditional multiple logistics regression
Tool memakai STATA.
CMDs PE/E
Usia
Paritas
Pendapatan kelg
Jarak antar kehamilan
Riw keturunan PE/E
Persiapkan data:
keep stat katsrq1 id
reshape wide katsrq1, i( id) j( stat 0 1)
mcc katsrq11 katsrq10
Lakukan dengan cara yang sama untuk variabel
lainnya
21/06/2013
30
Semua variabel memiliki p<0,25 (pertimbangan
statistikmemenuhi syarat masuk analisis
multivariabel, bagaimana dengan interaksi??
Ingat HWF
<0,001
Buat variabel interaksi
Perintah:
gen cmdpdptan = katsrq1*pendtan
gen cmdjak = katsrq1*kat_jrkl
gen cmdrkpe = katsrq1*riwktrna
21/06/2013
31
Model baku emas.
Langkah selanjutnya mengecek CV.
21/06/2013
32
Model II lebih efektif dan efisien
(parsinomi)pertimbangan statistik
Secara teori jarak antar kehamilan dapat mempengaruhi
hasil hubungan antara CMDs dan PE/E sehingga tetap
dipertahankan dalam model & lebih presisi (10,99 vs
11,35)Model I lebih parsinomi.
21/06/2013
33
Daftar Pustaka
Budiarto, E. (2001). Biostatistika untuk kedokteran dan kesehatan
masyarakat. Jakarta:EGC.
Dahlan, M.S. (2009). Statistik untuk kedokteran dan kesehatan.
Jakarta:Salemba Medika.
Dahlan, M.S. (2012). Analisis Multivariat Regresi Logistik.
Jakarta:Epidemiologi Indonesia.
Dawson, B. & Trapp, R.G. (2001). Basic & Clinical Biostatistics. 3th ed.
Singapore: McGraw-Hill Book Co.
Dean, A.G., Sullivan, K.M.& Soe, M.M. (2010). Epi info and openepi in
epidemiology and clinical medicine. Health applications of free software.
USA: US.
Ghozali, I. (2011). Aplikasi analisis multivariat dengan program IBM SPSS
19. Semarang:Badan Penerbit Undip.
Long, J.S.&Freese, J. (2001) Regression Models for Categorical dependent
variables using stata. Texas:Stata Corporation.
Murti, B. (1997). Prinsip dan Metode Riset Epidemiologi. Yogyakarta: GMU
Press.
Rosner, B.(2000).Fundamentals of Biostatistics.5th ed. USA:Brooks/Cole.
Sastroasmoro, S. & Ismael, S. (2010). Dasar-dasar Metodologi Penelitian
Klinis. Edisi ke-3. Jakarta: Sagung Seto.
Thank You

Anda mungkin juga menyukai