2009
ANALISIS REGRESI LOGISTIK
Metoda regresi adalah komponen penting dalam data analisa untuk menggambarkan
hubungan antara suatu dependent variable dengan satu atau beberapa independent variable.
Adalah penting untuk mengetahui tujuan dari analisa dengan menggunakan metoda ini, yaitu
memperoleh model yang paling baik (fit) dan sederhana yang dapat menggambarkan
hubungan antara variabel outcome (dependent) dengan satu set variabel independen. Variabel
independen ini sering disebut covariate.
Terdapat dua macam metoda regresi, yaitu:
1. Regresi linier, yaitu apabila variabel outcomenya adalah bilangan kontinyu.
2. Regresi logistik, yaitu apabila variabel outcome-nya adalah binary atau dikotomus.
Illustrasi dari variabel dikotomus adalah sebagai berikut:
0 : bila outcome tak terjadi, misalnya tidak sakit
1 : bila outcome terjadi, misalnya menjadi sakit
Untuk memudahkan, maka variabel outcome atau dependen akan diberi notasi Y sedangkan
independen notasinya adalah X.
1. Fungsi Logistik
Fungsi logistik merupakan fungsi matematik dengan rumus:
0,5
-∞ 0 +∞
Gambar 1
Pada saat nilai z=-∞ maka f(z)=0 dan pada saat nilai z=+∞ maka f(z)=1. Jadi nilai f(z)
akan berkisar antara 0 dan 1. Sifat ini yang membuat fungsi logistik populer, model logistik
dapat digunakan untuk menggambarkan probabilitas yang selalu memiliki nilai antara 0 dan
1. Pada epidemiologi, probabilitas ini dikenal sebagai risiko untuk terjadinya penyakit.
Jadi, dengan menggunakan fungsi logistik, kita akan memperoleh perkiraan risiko antara
0 dan 1. Kita tidak mungkin memperoleh perkiraan risiko lebih kecil dari 0 atau lebih besar
dari 1. Alasan lain mengapa fungsi logistik ini populer untuk analisis data epidemiologi
adalah bentuk kurva logistik. Seperti terlihat pada gambar 1, nilai f(z) meningkat secara cepat
dan kemudian peningkatannya kembali perlahan pada saat f(z) mendekati 1. Hasilnya adalah
kurva yang berbentuk S.
Kurva yang berbentuk S ini dianggap cocok untuk menggambarkan peningkatan risiko
terjadinya keluaran pada penelitian epidemiologi. Jika z dianggap indeks yang
menggabungkan efek dari berbagai faktor risiko dan f(z) merupakan risiko pada nilai z
tertentu. Bentuk kurva S menunjukkan efek z pada risiko individu minimal pada nilai z kecil
sampai satu batas ambang tercapai, kemudian risiko meningkat pada jangkauan z tertentu dan
tetap tinggi saat risiko mendekati 1 dan z sudah cukup besar.
Dimana x1, x2, x3 merupakan variabel independen. Jadi z merupakan indeks yang
menggabungkan x. Kemudian ganti nilai z pada fungsi logistik dengan penjumlahan linier di
atas, sehingga fungsi logistik dapat dituliskan:
atau
Dimana f(z) meruapakan probabilitas untuk terjadinya satu keluaran. Pada penelitian
kesehatan, probabilitas ini merupakan probabilitas untuk terjadinya penyakit atau kematian
pada kombinasi nilai x tertentu. Jadi, fungsi logistik dapat dituliskan:
Contoh:
Penelitian mengenai hubungan antara kejadian PJK dengan kadar katekolamin:
status = Status pasien (1=penyakit timbul, 0 peny.tidak timbul)
kat = Kadar katekolamin (1 bila tinggi, 0 bila rendah)
age = Umur pasien (kontinyu)
ecg = Electro cardio graph (1 bila normal, 0 bila abnormal)
Maka fungsi logistik sebagai fungsi probabilitas pasien untuk meninggal:
Interpretasi suatu model persamaan yang fit sebenarnya adalah inferensi dan
pengambilan kesimpulan berdasarkan koefisien estimasi (estimated coeffisient). Koefisien
menggambarkan slope atau perubahan pada variabel dependen per unit perubahan variabel
independen.
Pada logistik untuk mengetahui perubahan tiap unit variabel independen, diperlukan
tranformasi logit = g(x). Transformasi logit yaitu dengan cara transformasi logaritma nilai e
sehingga persamaannya disebut sebagai regresi logit atau regresi logistik. Mengikuti fungsi
eksponensial [f(x)], maka:
Probabilitas sehat dapat dihitung sebagai komplemen dari probabilitas sakit, yaitu:
Sehingga,
Pada penelitian epidemiologi terdapat pengertian perbandingan antara probabilitas sakit dan
sehat sebagai p/(1-p) untuk kondisi variabel tertentu (misalnya terpajan) yang disebut sebagai
ODD. Untuk hal diatas maka ODD dapat dihitung:
Bentuk persamaan ini lebih sederhana dan dapat digunakan untuk membandingkan dua ODD
yang disebut sebagai ODDS ratio atau disingkat OR.
3. Variabel Dummy
Pada contoh penelitian PJK di atas, variabel independen hanya bersifat dikotomus (kadar
ketekolamin tinggi atau rendah). Dalam penelitian sering dijumpai variabel independen
memiliki lebih dari dua kelompok. Misalkan pada penelitian hubungan kadar gula darah
sewaktu dengan kematian pasien cedera kepala berat. Kadar gula darah dibagi menjadi 3
kelompok, yaitu ≤180mg/dL, 181-220mg/dL, dan >220mg/dL.
Jika variabel independen memiliki kelompok lebih dari 2, maka variabel tersebut harus
diubah menjadi variabel dummy yang berjumlah k-1 (k=jumlah kelompok). Jadi, kadar gula
darah harus diubah menjadi 2 variabel dummy. Mengapa perlu dibuat variabel dummy?
Karena pada variabel independen kita memberi kode tertentu, misal: 0=gds ≤180mg/dL,
1=gds 181-220mg/dL, 2=gds >220mg/dL. Angka 0, 1, 2 hanya merupakan kode yang boleh
diganti dengan angka lain.
Pembuatan variabel dummy dilakukan dengan cara mengambil satu kelompok sebagai
pembanding. Misalkan pada contoh diatas, kelompok pasien dengan kadar gula darah
sewaktu ≤180mg/dL diambil sebagai kelompok pembanding. Pembentukan 2 variabel dummy
dilakukan dengan cara:
gds gds_1 gds_2
≤180 mg/dL 0 0
181-220 mg/dL 1 0
>220 mg/dL 0 1
Suatu confounder dapat dikontrol, tetapi hal ini hanya berlaku bila tidak didapatkan adanya
interaksi. Bila hubungan asosiasi antara kovariat dengan outcome sama pada tiap
level/tingkat faktor risiko, maka tidak didapatkan interaksi antara kovariat dengan faktor
risiko.
Untuk menentukan apakah z adalah suatu confounder, maka:
1. Bandingkan koefisien atau OR dari variabel faktor risiko utama pada model yang
mengandung dan tidak mengandung kovariat.
2. Setiap pengaruh biologis (berdasarkan teori dan pengetahuan) yang penting dan
mungkin dapat menjadi confounder harus diperhitungkan dalam model (ini tidak
tergantung dari kemaknaan statistik dari koefisien kovariat).
Untuk menentukan apakah z adalah suatu interaksi, maka:
1. Lakukan fitting pada suatu model dengan mengikutsertakan interaksi di dalam model
tersebut.
2. Suatu kovariat terjadi interaksi bila interaksi tersebut bermakna secara statistik dan
mempunyai arti dan dasar secara biologi.
5. Strategi Pemodelan
Analisis regresi logistik dapat digunakan untuk keperluan:
Model Prediksi
Pemodelan prediksi bertujuan untuk memperoleh kumpulan variabel prediktor
(independen), dari kumpulan besar variabel yang dianggap terbaik untuk memprediksi
kejadian variabel dependen (outcome).
Model Faktor Risiko
Pemodelan faktor risiko bertujuan mengestimasi secara valid asosiasi antara suatu
determinan (misal faktor risiko) dengan suatu outcome.
Pada pemodelan prediksi semua variabel dianggap penting, sehingga dapat dilakukan
estimasi beberapa koefisien regresi logistik sekaligus. Sedangkan pada pemodelan faktor
risiko, diutamakan adalah nilai koefisien regresi suatu determinan yang memang ingin
dipelajari. Variabel lain dipertimbangkan sebagai variabel kontrol, karena variabel tersebut
juga ikut berpengaruh (confounding) atau sebagai faktor modifikasi (interaksi) yang dinilai
pengaruhnya tidak homogen dalam hubungan antara determinan utama dan outcome.
Misal:
Peneliti dapat memasukkan variabel efek utama ke dalam model, walaupun nilai P-
value=0,12. Sebab bila variabel tersebut dihilangkan akan diikuti perubahan nilai
slope (misalnya sampai >20%) pada koefisien variabel lain tanpa menghilangkan
presisi, peningkatan standar error.
Tujuan untuk menilai interaksi dengan mendasari uji statistik. Bila secara statistik
dianggap significant (P≤0,1), maka variabel interaksi akan masuk ke dalam model.
Pemasukkan variabel interaksi yang tidak signifikan akan meningkatkan nilai SE
(estimasi interval semakin melebar alias presisi semakin merosot) serta akan
menambah kerumitan melakukan interpretasinya.
Setelah menyelesaikan langkah ke-8 maka dapat dikatakan bahwa telah terpilih suatu
model regresi. Beberapa pakar menganjurkan untuk dilanjutkan dengan penilaian
ketepatannya (assessing the fit of the model).
Chi-square df Sig.
Step 1 Step 2,760 1 ,097
Block 2,760 1 ,097
Model 2,760 1 ,097
Variables in the Equation
Dari hasil ouput, pada tampilan Block 1 didapatkan hasil omnibus test pada bagian
block dengan p value 0,097 berarti variabel umur p value-nya < 0,25 sehingga
variabel umur dapat dilanjutkan ke analisis multivariat. Dari tampilan SPSS nilai OR
dapat diketahui dari kolom Exp(B) yaitu sebesar 0,950 (95% CI: 0,89-1,01).
Parameter coding
Frequency (1) (2)
Race White 96 ,000 ,000
Black 26 1,000 ,000
Other 67 ,000 1,000
Chi-square df Sig.
Step 1 Step 5,010 2 ,082
Block 5,010 2 ,082
Model 5,010 2 ,082
Hasil uji didapatkan p value 0,082 berarti p value < 0,25, sehingga variabel ras dapat
lanjut ke multivariat. Dari output dapat diketahui juga nilai OR dummy, terlihat ada
dua nilai OR yaitu OR untuk race(1) 2,328 artinya ras kulit hitam akan berisiko
bayinya bblr sebesar 2,3 kali lebih tinggi dibandingkan ras kulit putih. OR untuk race
(2) besarnya 1,89 artinya ras kelompok lainnya mempunyai risiko bayinya bblr
sebesar 1,89 kali lebih tinggi dibandingkan ras kulit putih.
c) Hipertensi dengn Bblr
Chi-square df Sig.
Step 1 Step 4,022 1 ,045
Block 4,022 1 ,045
Model 4,022 1 ,045
d) Ui dengan Bblr
Chi-square df Sig.
Step 1 Step 5,076 1 ,024
Block 5,076 1 ,024
Model 5,076 1 ,024
Chi-square df Sig.
Step 1 Step ,773 1 ,379
Block ,773 1 ,379
Model ,773 1 ,379
Chi-square df Sig.
Step 1 Step 4,867 1 ,027
Block 4,867 1 ,027
Model 4,867 1 ,027
Hasil uji p value = 0,027 (p value < 0,25) dengan demikian variabel merokok dapat
masuk ke mulivariat.
Chi-square df Sig.
Step 1 Step 6,779 1 ,009
Block 6,779 1 ,009
Model 6,779 1 ,009
Hasil analisis didapatkan p value sebesar 0,009 berarti <0,25 sehingga variabel
riwayat adanya prematur dapat masuk ke multivariat.
Tabel 1. Hasil Seleksi Bivariat
Variabel P Value
Umur 0,097
Ras 0,082
Hipertensi 0,045
UI 0,024
Periksa hamil 0,379
Merokok 0,027
Prematur 0,009
Hasil seleski bivariat semua variabel menghasilkan p value < 0,25 hanya periksa
hamil yang p valuenya > 0,25. Namun variabel periksa hamil tetap dianalisis
multivariat oleh karena secara substansi periksa hamil merupakan variabel yang
sangat penting berhubungan dengan kejadian bblr.
2) Pemodelan Multivariat
Variables in the Equation
Dari hasil analisis terlihat ada 4 variabel yang p value-nya >0,05 yaitu age, ptl, ui, dan ftv,
sehingga pemodelan selanjutnya variabel ftv dikeluarkan dari model.
Dengan langkah yang sama akhirnya diperoleh hasil sbb.:
Variables in the Equation
Setelah ftv dilekuarkan kita lihat perubahan nilai OR untuk variabel age, race, smoke, ptl,
ht, dan ui.
Variabel OR ftv ada OR ftv tdk ada OR
Age 0,96 0,96 0%
Race(1) 2,743 2,744 0%
Race(2) 2,727 2,723 0%
Smoke 2,622 2,620 0%
Ptl 1,877 1,875 0,1%
Ht 3,902 3,889 0,3%
Variabel OR ftv ada OR ftv tdk ada OR
Ui 2,229 2,226 0,1%
Ftv 1,009 - -
Dengan perbandingan OR terlihat tidak ada yang >10% dengan demikian ftv dikeluarkan
dari model. Selanjutnya variabel yang terbesar p value-nya adalah umur, dengan demikian
umur dicoba dikeluarkan dari model, dan hasilnya sebagai berikut:
Variables in the Equation
Setelah variabel umur dikeluarkan, kita cek lagi perubahan OR untuk variabel yang masih
aktif di model.
Variabel OR age ada OR age tdk OR
ada
Age 0,96 - -
Race(1) 2,743 2,968 8,2%
Race(2) 2,727 2,883 5,7%
Smoke 2,622 2,694 2,7%
Ptl 1,877 1,779 5,2%
Ht 3,902 3,912 0,3%
Ui 2,229 2,350 5,4%
Ftv 1,009 - -
Ternyata setelah ptl dikeluarkan, OR variabel merokok dan kelainan uterus berubah
>10% dengan demikian variabel ptl dimasukkan kembali dalam model.
Kemudian variabel ui dikeluarkan dari model karena p valuenya >0,05 dan hasilnya, sbb:
Variables in the Equation
Chi-square df Sig.
Step 1 Step ,000 1 ,994
Block ,000 1 ,994
Model 26,560 7 ,000
Pada output bagian Block 2:Method=Enter, terlihat hasil uji omnibusnya memperlihatkan p
value=0,994 (lihat bagian step) berarti >0,05, artinya tidak ada interaksi antara merokok
dengan hipertensi.
Dengan demikian pemodelan telah selesai, model yang valid adalah model tanpa ada
interaksi:
Model Akhir:
Interpretasi:
Model regresi logistik hanya dapat digunakan untuk penelitian yang bersifat kohort.
Sedangkan yang bersifat cross sectional atau case control, interpretasi yang dapat dilakukan
hanya menjelaskan nilai OR (exp B) pada masing-masing variabel. Oleh karena analisisnya
multivariat maka nilai OR-nya sudah terkontrol (adjusted) oleh variabel lain yang ada pada
model. Dari analisis multvariat ternyata variabel yang berhubungan bermakna dengan
kejadian BBLR adalah variabel ras, merokok, dan hipertensi. Sedangkan variabel riwayat
prematur dan kelainan uterus sebagai variabel confounding. Hasil analisis didapatkan odds
ratio (OR) dari variabel hipertensi adalah 3,9 artinya ibu yang menderita hipertensi akan
melahirkan bayi BBLR sebesar 4 kali lebih tinggi dibandingkan ibu yang tidak menderita
hipertensi setelah dikontrol variabel race, merokok, prematur, dan uterus. Dengan cara yang
sama dapat diinterpretasikan untuk variabel lain.
Untuk melihat variabel mana yang paling besar pengaruhnya terhadap variabel dependen,
dilihat dari exp (B) untuk variabel yang signifikan. Semakin besar nilai exp (B) berarti
semakin besar pengaruhnya terhadap variabel dependen yang dianalisis. Dalam data ini
berarti hipertensi yang paling besar pengaruhnya terhadap kejadian bayi BBLR.
7. Goodness Of Fit
Model statistik regresi logistik ganda selanjutnya dapat dikaji apakah memang sudah
cocok atau fit. Beberapa cara untuk melihat GOF dapat dilakukan, misalnya tabel klasifikasi
(yang melihat kecocokan antara nilai variabel dependen hasil observasi dengan hasil terapan
model), uji chi-square model (uji rasio likelihood). Walaupun beberapa perangkat lunak
menyajikan pseudo R-square, namun Hosmer & Lemeshow (1989) mengingatkan bahwa
nilai tersebut tidak dapat dianggap sebagai pengukuran GOF.
Setelah ditemukan model akhir, langkah selanjutnya yaitu menentukan apakah model
akhir tersebut fit atau tidak.
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 26,560 6 ,000
Block 26,560 6 ,000
Model 26,560 6 ,000
Hosmer and Lemeshow Test
Step Chi-square df Sig. Model dengan 5 variabel ini tidak fit, dengan
1 1,776 6 ,939
uji hosmer & lemeshow test.
Classification Tablea
Predicted
Dengan melihat hasil GOF yang tidak significant, perlu dilakukan uji GOF untuk setiap
variabel yang akan masuk ke dalam model.
DAFTAR PUSTAKA
Kleinbum, Kupper, Muller. 1998. Apllied Regression Analysis and Other Multivariable.
Boston: PWS-Kent Pub.Co
Hosmer H., Lemeshoe. 1989. Applied Logistic Regression. John Wiley & Sons.
Leech et al. 2005. SPSS for Intermediate Statistics: Use and Interpretation. New Jersey:
Lawrance Erlbum Ass.Pub.
Ariawan, Iwan. 2007. Analisis Data Kategori. Jurusan Biostatistik dan Kependudukan,
FKMUI.