Anda di halaman 1dari 10

Logistic Regression

Digunakan untuk mengukur hubungan fungsi antara satu variabel bersandar (dependent) dari
jenis kualitatif dikotomus dengan variabel-variabel tidak bersandar (independent) dari jenis
kuantitatif dan kualitatif. Ianya agak serupa dengan regresi linear multipel, bezanya ianya sesuai
bagi model di mana variabel bersandar (dependent) adalah dari jenis kualitatif dikotomus. Model
parameter dijangka dengan menggunakan kaedah "maximum-likelihood method".
Prob (event) = 1/(1+e-z)

Z= 0+ 1 1+ 2 2+ 3 3+……………..+ p-1 p-1+ p p

Cara melakukan Regresi Logistik menggunakan SPSS

Data yang digunakan bagi latihan ini adalah sga.sav. Data ini adalah dari kajian kes kawalan
mengenai factor-faktor yang mempengaruhi kejadian kelahiran bayi kurang berat (small for
gestational age – SGA) di sebuah hospital.
Kita ingin mendapatkan hubungan di antara semua variabel independen yang sesuai dengan
variabel kumpulan kes/kawalan iaitu case. Di samping itu kita ingin mengira nilai ods ratio
kebarangkalian event itu terjadi.
1. Penyediaan data kategorikal

• Pengkodan semula data kategorikal (nominal) agar lebih bermakna. Nilai yang lebih
besar (1) hendaklah membayangkan outcome yang lebih buruk. Contohnya diketahui
tabiat merokok si ayah (passive smoking) mempunyai risiko yang lebih untuk mendapat
SGA, maka variabel itu hendaklah dikodkan semula dikodkan semula dengan bapa
merokok = 1 dan tidak merokok = 0. Kira kategori lebih dari 2, perlu dikodkan mengikut
kaedah "Indicator-Variable Coding Scheme" atau "Another Coding Scheme".
Crosstab

SGA
Normal SGA Total
Smoking No 41 20 61
67.2% 32.8% 100.0%
Passive 67 89 156
42.9% 57.1% 100.0%
Total 108 109 217
49.8% 50.2% 100.0%
Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 10.328b 1 .001
N of Valid Cases 217
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 30.36.

• Diketahui variabel kategorikal lain yang signifikan bagi analisis bivariat adalah;

• Medicati (on prolonged medication) - dikodkan semula T = 1, F = 0

Crosstab

SGA
Normal SGA Total
Prolonged medication No Count 105 93 198
% within Prolonged
53.0% 47.0% 100.0%
medication
Yes Count 3 16 19
% within Prolonged
15.8% 84.2% 100.0%
medication
Total Count 108 109 217
% within Prolonged
49.8% 50.2% 100.0%
medication

Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 9.618b 1 .002
N of Valid Cases 217
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 9.46.
• Pihypert (pregnancy induced hypertension) - dikodkan semula T =1, F = 0

Crosstab

SGA
Normal SGA Total
Pregnancy induced No Count 103 94 197
hypertension % within Pregnancy
52.3% 47.7% 100.0%
induced hypertension
Yes Count 5 16 21
% within Pregnancy
23.8% 76.2% 100.0%
induced hypertension
Total Count 108 110 218
% within Pregnancy
49.5% 50.5% 100.0%
induced hypertension

Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 6.155b 1 .013
N of Valid Cases 218
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 10.40.

• riskitrv (interval at risk) – tidak perlu dikodkan semula.

Crosstab

Small for Gestational


Age
Normal SGA Total
Interval No Count 92 80 172
At Risk % within Interval At Risk 53.5% 46.5% 100.0%
Yes Count 16 30 46
% within Interval At Risk 34.8% 65.2% 100.0%
Total Count 108 110 218
% within Interval At Risk 49.5% 50.5% 100.0%

Chi-Square Tests

Asymp. Sig.
Value df (2-sided)
Pearson Chi-Square 5.080b 1 .024
N of Valid Cases 218
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 22.79.
• Bagi variabel selanjar, yang signifikan bagi analisis bivariat ialah weight2 iaitu berat
ibu pada trimester pertama dan bmi iaitu indeks jisim tubuh (dikira semula menggunakan
weight2 dan height).

Independent Samples Test

t-test for Equality of Means


t df Sig. (2-tailed)
Body Mass Index Equal variances
5.141 215 .000
assumed
Weight at first ANC Equal variances
5.463 215 .000
assumed

2. Selepas dikodkan semula, sila simpan data sebagai logistik-sga.sav. Bagi memudahkan
anda, data yg telah dikodkan semula itu boleh di"download" (logistik-sga.sav) dari laman
web.
3. Buka data logistik-sga.sav.
4. Kemudian klik pada menu Analyze -Regression -Logistic (seperti rajah dibawah).

5. Pada requester yang timbul, isikan variabel yang ingin dilakukan ujian tersebut. Pada petak
"Dependent:", masukkan variabel kualitatif dikotomus bersandar yang ingin diuji iaitu
(case). Pada petak "Independent" masukkan kesemua variabel tidak bersandar yang
signifikan semasa analisa bivariat terhadap variabel bersandar "case" iaitu "weight2", "bmi",
"smoking", "pihypert", “pihypert” dan "medicati" (lihat rajah di bawah).
4. Selepas itu klik pada butang "Categorical". Pilih semua variabel kualitatif dari petak kiri dan
masukkannya ke petak kanan. Lepas itu pilih setiap satu dan tentukan "contrast"nya.

Change Contrast. Allows you to change the contrast method. Available contrast methods are:

Deviation. Each category of the predictor variable except the reference category is compared to the overall effect.

Simple. Each category of the predictor variable (except the reference category) is compared to the reference category.

Difference. Each category of the predictor variable except the first category is compared to the average effect of previous categories.
Also known as reverse Helmert contrasts.

Helmert. Each category of the predictor variable except the last category is compared to the average effect of subsequent categories.

Repeated. Each category of the predictor variable except the first category is compared to the category that precedes it.

Polynomial. Orthogonal polynomial contrasts. Categories are assumed to be equally spaced. Polynomial contrasts are available for
numeric variables only.

Indicator. Contrasts indicate the presence or absence of category membership. The reference category is represented in the contrast
matrix as a row of zeros.

If you select Deviation, Simple, or Indicator, select either First or Last as the reference category. Note that the method is not actually changed
until you click Change.

5. Bagi latihan ini, pilih "Indicator" dan "First" bagi variabel yang jenis “numeric” dan
"Indicator" dan "Last" bagi variabel yang jenis “string” (kena “trial and error” kerana
berubah mengikut jenis variabel dan versi perisian). Maka kategori yang lebih berisiko yang
dikodkan sebagai 1 akan dibandingkan dengan kategori rujukan yang dikodkan sebagai 0.
Apabila selesai, tekan butang "Continue".
6. Klik pada butang “Options” dan pilih kesemua butang yang ada di situ. Lepas itu klik
“Continue”.

7. Pada requester yang ini, tentukan "Method" yang ingin kamu pilih. Anda boleh memilih
Enter, Forward Conditional, Forward LR, Forward Wald, Backward Conditional, Backward
LR, Backward Wald. Bagi latihan ini, pilih kaedah "Enter" dan tekan butang "OK".

8. Pada output yang terhasil, lihat pada internal coding. Pastikan kategori yang lebih berisiko
yang dikodkan sebagai 1 dan kategori rujukan yang dikodkan sebagai 0.
Dependent Variable Encoding Categorical Variables Codings

Original Value Internal Value Paramete


Normal 0 Frequency r coding
(1)
SGA 1 Interval At Risk No 170 .000
Yes 45 1.000
Prolonged medication Yes 19 1.000
No 196 .000
Smoking No 61 .000
Yes 154 1.000
Pregnancy induced Yes 21 1.000
hypertension No 194 .000

9. Jika pengkodannya ialah betul, anda boleh melihat output seterusnya. Jika tidak, lakukan
semula analisa dan ubah kontrast yang dipilih tadi. Jika betul, hasil yang akan kelihatan
adalah seperti di bawah;

Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
1 236.838 .248 .330

Variables in the Equation

95.0% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
WEIGHT2 -.071 .043 2.777 1 .096 .932 .857 1.013
1 PIHYPERT(1) 1.698 .846 4.029 1 .045 5.461 1.041 28.655
MEDICATI(1) 1.179 .848 1.934 1 .164 3.250 .617 17.118
SMOKING(1) 1.123 .365 9.455 1 .002 3.074 1.503 6.288
BMI -.072 .105 .470 1 .493 .930 .757 1.143
RISKITRV(1) .658 .390 2.849 1 .091 1.930 .899 4.144
Constant 4.370 1.068 16.743 1 .000 79.043
a. Variable(s) entered on step 1: WEIGHT2, PIHYPERT, MEDICATI, SMOKING, BMI,
RISKITRV.
Correlation Matrix

PIHYP MEDI SMOK RISKI


Const WEIG ERT CATI ING TRV
ant HT2 (1) (1) (1) BMI (1)
Step Constant 1.000 -.053 .303 -.088 -.055 -.373 -.045
1 WEIGHT2 -.053 1.000 .011 -.034 -.048 -.898 -.011
PIHYPERT(1) .303 .011 1.000 -.525 -.050 -.150 .089
MEDICATI(1) -.088 -.034 -.525 1.000 .084 .052 .025
SMOKING(1) -.055 -.048 -.050 .084 1.000 -.038 -.083
BMI -.373 -.898 -.150 .052 -.038 1.000 .003
RISKITRV(1) -.045 -.011 .089 .025 -.083 .003 1.000

10. Dari nilai Nagelkerke R square dalam jadual “model summary”, ia menunjukkan bahawa
33.0% dari variasi pada kejadian SGA dapat dijelaskan oleh model logistik ini.
11. Dari jadual ‘Variables in the Equation', didapati terdapat beberapa yang mempunyai nilai
S.E. yang terlalu tinggi. Antaranya ialah “pihypert” dan ”medicati”. Ini membayangkan
wujudnya “multicolinearity” dan model ini tidak stabil secara statistik. Untuk menyelesaikan
isu ini, anda boleh memilih untuk mengeluarkan variable yang nilai S.E. yang paling besar.
Anda boleh menggunakan jadual Correlation Matrix sebagai panduan.
12. Dari jadual Correlation Matrix dapat dilihat bahawa wujud korelasi yang tinggi antara “BMI”
dan “weight2”. Dari nilai S.E., kita boleh menyisihkan variabel “BMI”.
13. Bagi “medicati” dan “pihypert”, jelas bahawa terdapat korelasi yang tinggi. Berdasarkan nilai
S.E., kita boleh menyisihkan variabel “medicati”. Kita patut meneruskan proses ini sehingga
nilai S.E. berkisar sekitar 0.001 – 5.0.
14. Lakukan semula analisa dengan menggunakan kesemua variabel tidak bersandar yang dipilih
iaitu "weight2", "smoking", "pihypert" dan “pihypert” (lihat rajah di bawah).
Categorical Variables Codings
Paramete
Frequency r coding
(1)
Interval At Risk No 171 .000
Yes 45 1.000
Dependent Variable Encoding Smoking No 61 .000
Original Value Internal Value Yes 155 1.000
Normal 0 Pregnancy induced Yes 21 1.000
SGA 1 hypertension No 195 .000

Model Summary

-2 Log Cox & Snell Nagelkerke


Step likelihood R Square R Square
1 240.109 .240 .320

Variables in the Equation

95.0% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step
a
WEIGHT2 -.100 .018 29.625 1 .000 .905 .873 .938
1 PIHYPERT(1) 2.329 .692 11.333 1 .001 10.270 2.646 39.859
SMOKING(1) 1.086 .361 9.058 1 .003 2.961 1.460 6.005
RISKITRV(1) .641 .387 2.744 1 .098 1.898 .889 4.051
Constant 4.328 .972 19.844 1 .000 75.826
a. Variable(s) entered on step 1: WEIGHT2, PIHYPERT, SMOKING, RISKITRV.

Correlation Matrix

Constant WEIGHT2 PIHYPERT(1) SMOKING(1) RISKITRV(1)


Step Constant 1.000 -.949 .290 -.068 -.053
1 WEIGHT2 -.949 1.000 -.336 -.191 -.013
PIHYPERT(1) .290 -.336 1.000 -.012 .112
SMOKING(1) -.068 -.191 -.012 1.000 -.087
RISKITRV(1) -.053 -.013 .112 -.087 1.000

15. Keputusan di atas memberikan model yang lebih stabil. Yang signifikan ialah
“weight2”,”pihypert” dan "smoking”. Dari nilai di atas,

Z= 0+ 1 1+ 2 2+ 3 3+……………..+ p-1 p-1+ p p

Z = 4.328 – (0.1.weight2) + (2.329.pihypert) + (1.177.smoking)

Prob (event) = 1/(1+e-z)

Prob (SGA) = 1/(1+e4.328 – (0.1.weight2) + (2.329.pihypert) + (1.177.smoking)


)
Odds = Prob (SGA)/Prob (no SGA)
= [1/(1+e-4.328 – (0.1.weight2) + (2.329.pihypert) + (1.177.smoking))dibahagi
dengan 1- [1/(1+e-4.328 – (0.1.weight2) + (2.329.pihypert) + (1.177.smoking)))]

11. Namun begitu, kaedah yang lebih mudah ialah membentangkan nilai odds bagi setiap
variabel selepas dilakukan analisa regresi logistik. Ini dilakukan dengan mengambil nilai
Exp(B). Maka odds ratio bagi mendapat SGA ialah;

95.0% C.I.for OR
OR Lower Upper
WEIGHT2 .905 .873 .938
PIHYPERT(1) 10.270 2.646 39.859
SMOKING(1) 2.961 1.460 6.005

Azmi Mohd Tamil Thursday, July 7, 2005

Anda mungkin juga menyukai