Anda di halaman 1dari 10

Logistic Regression

Digunakan untuk mengukur hubungan fungsi antara satu variabel bersandar (dependent) dari
jenis kualitatif dikotomus dengan variabel-variabel tidak bersandar (independent) dari jenis
kuantitatif dan kualitatif. Ianya agak serupa dengan regresi linear multipel, bezanya ianya sesuai
bagi model di mana variabel bersandar (dependent) adalah dari jenis kualitatif dikotomus. Model
parameter dijangka dengan menggunakan kaedah "maximum-likelihood method".
Prob (event) = 1/(1+e-z)
Z=

0+ 1 1+ 2 2+ 3 3+..+ p-1 p-1+ p p

Cara melakukan Regresi Logistik menggunakan SPSS


Data yang digunakan bagi latihan ini adalah sga.sav. Data ini adalah dari kajian kes kawalan
mengenai factor-faktor yang mempengaruhi kejadian kelahiran bayi kurang berat (small for
gestational age SGA) di sebuah hospital.
Kita ingin mendapatkan hubungan di antara semua variabel independen yang sesuai dengan
variabel kumpulan kes/kawalan iaitu case. Di samping itu kita ingin mengira nilai ods ratio
kebarangkalian event itu terjadi.
1.

Penyediaan data kategorikal

Pengkodan semula data kategorikal (nominal) agar lebih bermakna. Nilai yang lebih
besar (1) hendaklah membayangkan outcome yang lebih buruk. Contohnya diketahui
tabiat merokok si ayah (passive smoking) mempunyai risiko yang lebih untuk mendapat
SGA, maka variabel itu hendaklah dikodkan semula dikodkan semula dengan bapa
merokok = 1 dan tidak merokok = 0. Kira kategori lebih dari 2, perlu dikodkan mengikut
kaedah "Indicator-Variable Coding Scheme" atau "Another Coding Scheme".
Crosstab

Smoking

No
Passive

Total

SGA
Normal
SGA
41
20
67.2%
32.8%
67
89
42.9%
57.1%
108
109
49.8%
50.2%

Total
61
100.0%
156
100.0%
217
100.0%

Chi-Square Tests

Pearson Chi-Square
N of Valid Cases

Value
10.328b
217

df
1

Asymp. Sig.
(2-sided)
.001

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 30.36.

Diketahui variabel kategorikal lain yang signifikan bagi analisis bivariat adalah;

Medicati (on prolonged medication) - dikodkan semula T = 1, F = 0


Crosstab
SGA

Prolonged medication

No

Yes

Total

Count
% within Prolonged
medication
Count
% within Prolonged
medication
Count
% within Prolonged
medication

Normal
105

93

Total
198

53.0%

47.0%

100.0%

16

19

15.8%

84.2%

100.0%

108

109

217

49.8%

50.2%

100.0%

Chi-Square Tests

Pearson Chi-Square
N of Valid Cases

Value
9.618b
217

df
1

Asymp. Sig.
(2-sided)
.002

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 9.46.

SGA

Pihypert (pregnancy induced hypertension) - dikodkan semula T =1, F = 0


Crosstab

Pregnancy induced
hypertension

No

Yes

Total

Count
% within Pregnancy
induced hypertension
Count
% within Pregnancy
induced hypertension
Count
% within Pregnancy
induced hypertension

SGA
Normal
SGA
103
94
52.3%

47.7%

100.0%

16

21

23.8%

76.2%

100.0%

108

110

218

49.5%

50.5%

100.0%

Chi-Square Tests

Pearson Chi-Square
N of Valid Cases

Value
6.155b
218

df
1

Asymp. Sig.
(2-sided)
.013

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 10.40.

riskitrv (interval at risk) tidak perlu dikodkan semula.


Crosstab

Interval
At Risk

No
Yes

Total

Count
% within Interval At Risk
Count
% within Interval At Risk
Count
% within Interval At Risk

Small for Gestational


Age
Normal
SGA
92
80
53.5%
46.5%
16
30
34.8%
65.2%
108
110
49.5%
50.5%

Chi-Square Tests

Pearson Chi-Square
N of Valid Cases

Value
5.080b
218

df
1

Asymp. Sig.
(2-sided)
.024

a. Computed only for a 2x2 table


b. 0 cells (.0%) have expected count less than 5. The
minimum expected count is 22.79.

Total
197

Total
172
100.0%
46
100.0%
218
100.0%

Bagi variabel selanjar, yang signifikan bagi analisis bivariat ialah weight2 iaitu berat
ibu pada trimester pertama dan bmi iaitu indeks jisim tubuh (dikira semula menggunakan
weight2 dan height).
Independent Samples Test

Body Mass Index


Weight at first ANC

Equal variances
assumed
Equal variances
assumed

t-test for Equality of Means


df
Sig. (2-tailed)

5.141

215

.000

5.463

215

.000

2.

Selepas dikodkan semula, sila simpan data sebagai logistik-sga.sav. Bagi memudahkan
anda, data yg telah dikodkan semula itu boleh di"download" (logistik-sga.sav) dari laman
web.

3.

Buka data logistik-sga.sav.

4.

Kemudian klik pada menu Analyze -Regression -Logistic (seperti rajah dibawah).

5.

Pada requester yang timbul, isikan variabel yang ingin dilakukan ujian tersebut. Pada petak
"Dependent:", masukkan variabel kualitatif dikotomus bersandar yang ingin diuji iaitu
(case). Pada petak "Independent" masukkan kesemua variabel tidak bersandar yang
signifikan semasa analisa bivariat terhadap variabel bersandar "case" iaitu "weight2", "bmi",
"smoking", "pihypert", pihypert dan "medicati" (lihat rajah di bawah).

4. Selepas itu klik pada butang "Categorical". Pilih semua variabel kualitatif dari petak kiri dan
masukkannya ke petak kanan. Lepas itu pilih setiap satu dan tentukan "contrast"nya.
Change Contrast. Allows you to change the contrast method. Available contrast methods are:
Deviation. Each category of the predictor variable except the reference category is compared to the overall effect.
Simple. Each category of the predictor variable (except the reference category) is compared to the reference category.
Difference. Each category of the predictor variable except the first category is compared to the average effect of previous categories.
Also known as reverse Helmert contrasts.
Helmert. Each category of the predictor variable except the last category is compared to the average effect of subsequent categories.
Repeated. Each category of the predictor variable except the first category is compared to the category that precedes it.
Polynomial. Orthogonal polynomial contrasts. Categories are assumed to be equally spaced. Polynomial contrasts are available for
numeric variables only.
Indicator. Contrasts indicate the presence or absence of category membership. The reference category is represented in the contrast
matrix as a row of zeros.
If you select Deviation, Simple, or Indicator, select either First or Last as the reference category. Note that the method is not actually changed
until you click Change.

5. Bagi latihan ini, pilih "Indicator" dan "First" bagi variabel yang jenis numeric dan
"Indicator" dan "Last" bagi variabel yang jenis string (kena trial and error kerana
berubah mengikut jenis variabel dan versi perisian). Maka kategori yang lebih berisiko yang
dikodkan sebagai 1 akan dibandingkan dengan kategori rujukan yang dikodkan sebagai 0.
Apabila selesai, tekan butang "Continue".

6. Klik pada butang Options dan pilih kesemua butang yang ada di situ. Lepas itu klik
Continue.

7. Pada requester yang ini, tentukan "Method" yang ingin kamu pilih. Anda boleh memilih
Enter, Forward Conditional, Forward LR, Forward Wald, Backward Conditional, Backward
LR, Backward Wald. Bagi latihan ini, pilih kaedah "Enter" dan tekan butang "OK".

8. Pada output yang terhasil, lihat pada internal coding. Pastikan kategori yang lebih berisiko
yang dikodkan sebagai 1 dan kategori rujukan yang dikodkan sebagai 0.

Categorical Variables Codings

Dependent Variable Encoding


Original Value
Normal
SGA

Internal Value
0
1

Interval At Risk
Prolonged medication
Smoking
Pregnancy induced
hypertension

No
Yes
Yes
No
No
Yes
Yes
No

Frequency
170
45
19
196
61
154
21
194

Paramete
r coding
(1)
.000
1.000
1.000
.000
.000
1.000
1.000
.000

9. Jika pengkodannya ialah betul, anda boleh melihat output seterusnya. Jika tidak, lakukan
semula analisa dan ubah kontrast yang dipilih tadi. Jika betul, hasil yang akan kelihatan
adalah seperti di bawah;
Model Summary
Step
1

-2 Log
likelihood
236.838

Cox & Snell


R Square
.248

Nagelkerke
R Square
.330

Variables in the Equation

Step
a
1

WEIGHT2
PIHYPERT(1)
MEDICATI(1)
SMOKING(1)
BMI
RISKITRV(1)
Constant

B
-.071
1.698
1.179
1.123
-.072
.658
4.370

S.E.
.043
.846
.848
.365
.105
.390
1.068

Wald
2.777
4.029
1.934
9.455
.470
2.849
16.743

df
1
1
1
1
1
1
1

Sig.
.096
.045
.164
.002
.493
.091
.000

Exp(B)
.932
5.461
3.250
3.074
.930
1.930
79.043

95.0% C.I.for
EXP(B)
Lower
Upper
.857
1.013
1.041 28.655
.617 17.118
1.503
6.288
.757
1.143
.899
4.144

a. Variable(s) entered on step 1: WEIGHT2, PIHYPERT, MEDICATI, SMOKING, BMI,


RISKITRV.

Correlation Matrix

Step
1

Constant
WEIGHT2
PIHYPERT(1)
MEDICATI(1)
SMOKING(1)
BMI
RISKITRV(1)

Const
ant
1.000
-.053
.303
-.088
-.055
-.373
-.045

WEIG
HT2
-.053
1.000
.011
-.034
-.048
-.898
-.011

PIHYP
ERT
(1)
.303
.011
1.000
-.525
-.050
-.150
.089

MEDI
CATI
(1)
-.088
-.034
-.525
1.000
.084
.052
.025

SMOK
ING
(1)
-.055
-.048
-.050
.084
1.000
-.038
-.083

BMI
-.373
-.898
-.150
.052
-.038
1.000
.003

RISKI
TRV
(1)
-.045
-.011
.089
.025
-.083
.003
1.000

10. Dari nilai Nagelkerke R square dalam jadual model summary, ia menunjukkan bahawa
33.0% dari variasi pada kejadian SGA dapat dijelaskan oleh model logistik ini.
11. Dari jadual Variables in the Equation', didapati terdapat beberapa yang mempunyai nilai
S.E. yang terlalu tinggi. Antaranya ialah pihypert dan medicati. Ini membayangkan
wujudnya multicolinearity dan model ini tidak stabil secara statistik. Untuk menyelesaikan
isu ini, anda boleh memilih untuk mengeluarkan variable yang nilai S.E. yang paling besar.
Anda boleh menggunakan jadual Correlation Matrix sebagai panduan.
12. Dari jadual Correlation Matrix dapat dilihat bahawa wujud korelasi yang tinggi antara BMI
dan weight2. Dari nilai S.E., kita boleh menyisihkan variabel BMI.
13. Bagi medicati dan pihypert, jelas bahawa terdapat korelasi yang tinggi. Berdasarkan nilai
S.E., kita boleh menyisihkan variabel medicati. Kita patut meneruskan proses ini sehingga
nilai S.E. berkisar sekitar 0.001 5.0.
14. Lakukan semula analisa dengan menggunakan kesemua variabel tidak bersandar yang dipilih
iaitu "weight2", "smoking", "pihypert" dan pihypert (lihat rajah di bawah).

Categorical Variables Codings

Interval At Risk

Dependent Variable Encoding

Smoking

Original Value
Normal
SGA

Pregnancy induced
hypertension

Internal Value
0
1

No
Yes
No
Yes
Yes
No

Frequency
171
45
61
155
21
195

Paramete
r coding
(1)
.000
1.000
.000
1.000
1.000
.000

Model Summary
Step
1

-2 Log
likelihood
240.109

Cox & Snell


R Square
.240

Nagelkerke
R Square
.320

Variables in the Equation

Step
a
1

B
-.100
2.329
1.086
.641
4.328

WEIGHT2
PIHYPERT(1)
SMOKING(1)
RISKITRV(1)
Constant

S.E.
.018
.692
.361
.387
.972

Wald
29.625
11.333
9.058
2.744
19.844

df
1
1
1
1
1

Sig.
.000
.001
.003
.098
.000

Exp(B)
.905
10.270
2.961
1.898
75.826

95.0% C.I.for
EXP(B)
Lower
Upper
.873
.938
2.646
39.859
1.460
6.005
.889
4.051

a. Variable(s) entered on step 1: WEIGHT2, PIHYPERT, SMOKING, RISKITRV.

Correlation Matrix
Step
1

Constant
1.000
-.949
.290
-.068
-.053

Constant
WEIGHT2
PIHYPERT(1)
SMOKING(1)
RISKITRV(1)

WEIGHT2
-.949
1.000
-.336
-.191
-.013

PIHYPERT(1)
.290
-.336
1.000
-.012
.112

SMOKING(1)
-.068
-.191
-.012
1.000
-.087

RISKITRV(1)
-.053
-.013
.112
-.087
1.000

15. Keputusan di atas memberikan model yang lebih stabil. Yang signifikan ialah
weight2,pihypert dan "smoking. Dari nilai di atas,
Z=

0+ 1 1+ 2 2+ 3 3+..+ p-1 p-1+ p p

Z = 4.328 (0.1.weight2) + (2.329.pihypert) + (1.177.smoking)


Prob (event) = 1/(1+e-z)
Prob (SGA) = 1/(1+e4.328

(0.1.weight2) + (2.329.pihypert) + (1.177.smoking)

Odds = Prob (SGA)/Prob (no SGA)


= [1/(1+e-4.328 (0.1.weight2) + (2.329.pihypert) + (1.177.smoking))dibahagi
dengan 1- [1/(1+e-4.328 (0.1.weight2) + (2.329.pihypert) + (1.177.smoking)))]
11. Namun begitu, kaedah yang lebih mudah ialah membentangkan nilai odds bagi setiap
variabel selepas dilakukan analisa regresi logistik. Ini dilakukan dengan mengambil nilai
Exp(B). Maka odds ratio bagi mendapat SGA ialah;

WEIGHT2
PIHYPERT(1)
SMOKING(1)

OR
.905
10.270
2.961

95.0% C.I.for OR
Lower
Upper
.873
.938
2.646
39.859
1.460
6.005

Azmi Mohd Tamil Thursday, July 7, 2005

Beri Nilai