rul2a@yahoo.com
LOGISTIC REGRESSION
1. Introduksi
Banyak topik penelitian penting untuk variabel dependen yang "limited" (diskret dan tidak
kontinyu). Peneliti sering kali ingin menganalisis apakah sebuah peristiwa terjadi atau tidak
terjadi, seperti voting, partisipasi, kepada program masyarakat, keberhasilan atau kegagalan
bisnis, tingkat kematian, bencana alam dan lain sebagainya.
Jika variabel dependen merupakan variabel non metrik, maka Analisis Diskriminan adalah
alat analisis yang sesuai diaplikasi. Namun, jika variabel dependen hanya terdiri atas dua
kelompok, maka Analisis Regresi Logistik lebih sesuai untuk diaplikasi karena berbagai
alasan. Pertama, Analisis Diskriminan berbasis kepada asumsi bahwa antar kelompok
beridstirbusi multivariat normal dan memiliki matriks varians-kovariansi yang seimbang, di
mana asumsi ini tidak akan berlaku kepada kedua kelompok biner. Kedua, walaupun asumsi
tersebut bisa dibuktikan kepada data, banyak peneliti yang lebih menyukai regresi logistik
karena mirip sekali dengan analisis regresi. Keduanya memiliki uji statistik yang secara
langsung dapat diamati, dengan mempertimbangkan adanya efek non linier. Untuk alasan-
alasan ini dan alasan teknis lainnya, Analisis Regresi Logistik setara dengan Analisis
Dsikriminan Dua Kelompok dan bisa lebih sesuai pada banyak situasi.
Regresi biner logit adalah suatu jenis analisis regresi di mana variabel dependen merupakan
sebuah dummy variable yang bersifat biner (yang diberi kode 0, atau 1).
0
Rendah Tinggi
Seperti telah diketahui, fungsi regresi linier tidak dapat mengakomodasi hubungan yang non
linier, dan pada situasi-situasi tertentu tidak dapat dianalisis dengan regresi ordinary, sebab
akan terjadi pelanggaran kepada banyak asumsi. Pertama, error variabel diskret lebih
berdistribusi binomial dibanding berdistribusi normal, sehingga menjadi tidak valid pada
berbagai uji statistik yang berdasar kepada distribusi normal. Kedua, varians dari variabel
dikotomi tidak konstan, sehingga menimbulkan heteroskedastisitas. Regresi logistik telah
dikembangkan dengan baik untuk menjawab persoalan tersebut di atas. Hubungan yang unik
antara variabel independen – dependen membutuhkan pendekatan yang berbeda pada tahap
estimasi parameter, penilaian kecocokan model, dan menginterpretasi kofisien.
Persamaan-1 merupakan model dikotomi, Yi merupakan fungsi linier dari Xi, disebut sebagai
linear probability model (LPM), karena E(Yi|Xi), ekspektasi kondisional Yi pada Xi tertentu,
dapat diinterpretasikan sebagai conditional probability even tersebut pada nilai Xi tertentu.
Pr(Yi=1|Xi). E(Yi|Xi) menjelaskan probabilitas terjadinya peristiwa pada Xi tertentu. Justifikasi
sebutan LPM untuk Model-1 tersebut di atas dapat dilihat sebagai berikut :
Dengan asumsi E(ei) = 0, akan diperoleh :
E(Yi|Xi) = α + β Xi . . . . . . . . . . . . . . . . . . . . .(2)
Jika Pi = probabilitas yang menyatakan Yi = 1 (artinya, peristiwa itu terjadi) dan 1 – Pi =
probabilitas yang menyatakan Yi = 0 (artinya, peristiwa itu tidak terjadi), maka variabel Yi
memiliki distribusi sebagai berikut :
Yi Probability
0 1 - Pi
1 Pi
1
Selanjutnya dapat dituliskan secara matematis hubungan seperti berikut :
E(Yi) = 0(1 – Pi) + 1(Pi) = Pi . . . . . . . . . . . . . . . . . . . . .(3)
Hasil perbandingan Persamaan-2 dan Persamaan-3 akan menghasilkan :
E(Yi|Xi) = α + β Xi = Pi
Dengan demikian, ekspektasi kondisional dari Persamaan-1, dapat diinterpretasikan sebagai
probabilitas kondisional dari Yi. Pi berada antara 0 dan 1, maka :
0 < E(Yi|Xi) < 1
(1) Estimasi LPM
Persamaan-1 tampak seperti model regresi lainnya, dengan demikian parameternya
dapat diestimasi seperti biasanya dengan pendekatan OLS. Tetapi ada beberapa
persoalan yang harus dihadapi, yaitu :
(a). Nonnormality of the disturbances, ei. Walaupun OLS tidak mensyaratkan ei harus
berdistribusi normal, tetapi tetap harus diasumsikan bahwa distribusi ei adalah
normal, untuk keperluan uji hipotesis dan lain-lain. Namun demikian, asumsi
normalitas ei tidak bisa dipertahankan dalam LPM, karena Yi dan ei diambil dari
hanya dua nilai. Ini terlihat dari hubungan berikut :
ei = Yi - α - β Xi
jika Yi = 1, maka : ei = 1 - α - β Xi
jika Yi = 0, maka : ei = - α - β Xi
Jelas sekali, bahwa ei tidak dapat diasumsikan berdistribusi normal.
Tetapi ketidak mampuan untuk memenuhi asumsi normalitas tidak menjadi hal yang
kritis, sebab estimasi titik dengan OLS tetap tidak bias oleh karena hal tersebut.
Lebih jauh lagi, jika ukuran sampel meningkat secara tidak terbatas, maka estimator
OLS cenderung akan didistribusikan normal. Dengan demikian, pada ukuran sampel
yang besar, statistik inferensial untuk LPM akan mengikuti prosedur OLS di bawah
asumsi normal.
(2) Heteroscedastic variances of the disturbances. Walaupun E(ei) = 0 dan E(ei,ej) = 0
untuk i ≠ j (tidak korelasi serial), tetap saja tidak dapat dijamin bahwa ei
homoskedastis. Ini terlihat dari distribusi probabilitas berikut ini :
ei Probability
- α - β Xi 1 - Pi
1 - α - β Xi Pi
1
Distribusi probabilitas di atas mengikuti distribusi probabilitas untuk Yi tertentu.
Mengingat definisi :
Var(ei) = E[ei – E(ei)]2
= E(ei2) untuk E(ei) = 0 berdasar asumsi, maka dengan menggunakan
distribusi probabilitas ei, akan diperoleh hubungan :
var(ei) = E(ei2) = (- α - β Xi)2(1 – Pi) + (1 - α - β Xi)2(Pi)
= (- α - β Xi)2(1 - α - β Xi)2 + (1 - α - β Xi)2(α + β Xi)
= (α + β Xi) (1 - α - β Xi)
atau :
var(ei) = E(Yi|Xi)[1 – E(Yi|Xi)]
= Pi (1 – Pi) . . . . . . . . . . . . . . . . . . . . .(4)
di mana, E(Yi|Xi) = α + β Xi = Pi. Persamaan-4 tersebut menunjukkan bahwa varians
ei heteroskedastik, karena tergantung kepada ekspektasi kondisional Y, yang tentu
tergantung kepada berapa nilai X. Maka dapat dikatakan bahwa varians ei
tergantung nilai X dan itu menunjukkan bahwa tidak homoskedastik.
Sekarang dapat diketahui bahwa dengan adanya heteroskedastik pada estimator
OLS, walaupun tidak bias, tetapi tidak efisien; maka dengan demikian tidak
menghasilkan varians minimum. Tetapi, sekali lagi, persoalan heteroskedastik ini
tidak menyulitkan, karena ada cara-cara untuk menangani jika terjadi hal yang
demikian. Salah satu cara untuk mengatasi terjadinya heteroskedastik adalah
mentransformasi data dengan cara membaginya dengan :
√ E(Yi|Xi)[1 - E(Yi|Xi)] = √Pi (1 – Pi), atau disimbulkan dengan √wi
Maka Persamaan-1 akan berubah dalam bentuk :
Yi α Xi ei
= +β + . . . . . . . . . . . . . . . . . . . . .(5)
√wi √wi √wi √wi
Disturbance pada Persamaan-5 di atas sekarang akan homoskedastik, sehingga
penggunaan prosedur OLS pada LPM telah benar.
E(Yi|Xi) yang benar tidak diketahui, sehingga wi juga tidak diketahui. Untuk
mengestimasi wi, dilakukan dengan prosedur berikut :
Langkah-I : aplikasikan OLS pada Persamaan-1 (walaupun terjadi heteroskedastik),
untuk memperoleh Ŷi. Kemudian hitung ŵi = Ŷi (1 – Ŷi), sebagai estimasi wi.
Langkah-II : gunakan ŵi untuk mentransformasi data seperti pada Persamaan-5.
Kemudian aplikasi regresi dengan prosedur OLS pada data yang telah transformasi.
(3) Nonfullfillment of 0 < E(Yi|Xi) < 1. Karena E(Yi|Xi) dalam LPM mengukur probabilitas
kondisional dari terjadinya Y pada X tertentu, maka diharuskan nilainya terbatas
berada pada rentang antara 0 dan 1. Walaupun ini secara apriori benar, namun tidak
ada jaminan bahwa Ŷi akan memenuhi pembatasan ; ini merupakan persoalan utama
penggunaan OLS pada LPM. Ada dua cara untuk mencapai hasil agar Ŷi berada di
antara 0 dan 1, yaitu : (1) estimasikan LPM dengan OLS dan tentukan apakah Ŷi
bernilai antara 0 dan 1. Jika ada nilai Ŷi yang negatif, maka Ŷi diasumsikan = 0;
(2) rencanakan teknik estimasi yang dapat menjamin bahwa probabilitas kondisional
Ŷi bernilai antara 0 dan 1. Salah satu prosedur yang dapat dicobakan adalah :model
berikut :
Pi
Ln = α + β ln Xi
1 - Pi
Atau :
[Pi/(1-Pi)] = exp(α+ β Xi + ei)
Di mana,
Ln adalah natural logarithm, logexp, dengan exp = 2.71828
Pi adalah probabilitas kondisional terjadinya Yi, P(Yi = 1)
Pi/(1 - Pi) adalah odds ratio
ln[Pi/(1 - Pi)] adalah log odds ratio, atau "logit".
LPM menyederhanakan transformasi non linier dari regresi linier. Distribusi logistic
berbentuk-S yang mirip dengan distribusi normal standard (seperti yang dihasilkan oleh
model regresi probit). LPM ini lebih mudah diestimasi dengan sebagian besar program
aplikasi komputer (probabilitas mudah untuk dikalkulasi). Dengan model logit ini maka
dijamin nilai Yi akan terbatas antara 0 dan 1.
Contoh, estimasi probabilitas : Pi = 1/[1 + exp(-α - βXi)]
- jika α + βXi = 0, maka Pi = 0.50
- jika α + βXi sangat besar, maka Pi mendekati 1
- jika α + βXi sangat kecil, maka Pi mendekati 0.
4. Interpretasi Koefisien
Kelebihan model regresi logistik adalah kemudahan mengartikan prediksi Y (yang bersifat
dikotomi). Dari nilai dikotomi ini, prediksi Y dibulatkan antara 0 atau 1. Jika prediksi Y di atas
0.50, maka dibulatkan = 1. Untuk menghitung koeifisien logistik adalah dengan
membandingkan probabilitas terjadinya peristiwa dengan probabilitas peristiwa tersebut tidak
terjadi.
Prob (event)
Prob (no event) = eβ0 + β1X1 + . . .βk Xk → odds ratio.
Estimasi koefisien (βi) adalah ukuran sesungguhnya perubahan probabilitas. Untuk
selanjutnya harus ditransformasi balik dengan pendekatan antilog (log odds); sehingga dapat
diinterpretasikan sebagai efek perubahan Xi terhadap Y secara lebih benar. Program
komputer untuk statistik biasanya memberikan nilai estimasi koefisien dalam bentuk asli
maupun bentuk transformasi balik. Tanda matematik koefisien tidak ikut berubah pada saat
transformasi balik. Ini bisa dilihat dari logika berikut :
- jika βi positif, maka antilognya akan > 1, dengan demikian odds ratio akan
meningkat,
- jika βi negatif, maka antilognya akan < 1, maka odds ratio akan menurun,
- jika βi = 0, tidak akan merubah odds ratio.
Interpretasi koefisien hasil estimasi harus dilakukan dengan hati-hati. Penjelasan ini tidak
sangat intuitif. Hal tersebut memungkinkan untuk menghitung marginal effect dari variabel
independen yang kontinyu secara lebih intuitif terhadap probabilitas. Marginal effect adalah :
dp/dB = f(BX)B
di mana f(.) adalah fungsi padatan dari kumulatif distribusi probabilitas [F(BX), yang berada
pada rentang nilai dari 0 sampai dengan 1]. Marginal effects tergantung kepada nilai variabel
independen, dengan demikian, hal ini menyebabkan sangat menguntungkan mengevaluasi
marginal effects pada rata-rata variabel independen. (SPSS tidak memiliki opsi untuk
marginal effects. Jika diperlukan untuk menghitung marginal effects, dapat digunakan
program paket statistik LIMDEP).
Interpretasi koefisien logit biasanya lebih intuitif (khususnya untuk variable independent
dummy) berupa odds ratio – expβ, adalah pengaruh variabel independen pada odds ratio
[odds ratio adalah probabilitas terjadinya peristiwa dibagi dengan probabilitas tidak
terjadinya peristiwa). Contoh, jika expβ3 = 2, maka setiap satu unit perubahan variabel X3
akan menimbulkan probabilitas terjadinya peristiwa dua kali seperti (0.67/0.33). Odds ratios
sama dengan 1 mengartikan bahwa ada peluang 50/50 peristiwa itu terjadi jika ada
perubahan pada variabel independen. Koefisien negatif menunjukkan bahwa odds ratios
kurang dari 1: jika expβ2 = 0.67, maka setiap perubahan 1 unit X2 akan peluang terjadinya
peristiwa (0.40/0.60). (Odds ratios kurang dari 1 (koefisien negatif) cenderung lebih sulit
diiterpretasikan daripada odds ratios yang lebih besar dari 1 (koefisien positif). Perhatikan,
bahwa odds ratios untuk variabel independen kontinyu yang cenderung untuk mendekati 1,
ini tidak menjamin bahwa koefisien tersebut insignifikan. Gunakan Wald statistic untuk
menguji signifikansi statistiknya.
1
Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, 1988:250-258.
1.2 1.2
1.0 •••• ••••••• •••••••• 1.0 •••• • ••••••• • ••••••••
Y = 0.568 Y = 0.267
Y = 0.494 Y = 0.000
Y = 0.303 Y = 0.000
Y = -0.596
0 ••••••••••• •• • •• • ••
-2 X7
Estimasi model
Regresi logistik diestimasi dengan cara yang mirip dengan regresi berganda dalam hal bahwa
model dasar pada awalnya diestimasi untuk menghasilkan sebuah standard untuk
perbandingan. Dalam regresi berganda, mean digunakan untuk mengatur model dasar dan
menghitung total jumlah kuadrat (total sum of square, TSS). Pada regresi logistik, proses
yang sama juga digunakan, dengan menggunakan mean tidak untuk mengatur TSS, tetapi
untuk menentukan nilai log likelihood. Dari model ini, korelasi parsial setiap variabel dapat
ditentukan dan pemilihan variabel yang paling mendiskriminasi didasarkan kepada kriteria
seleksi.
Tabel 2. Model Dasar Regresi Logistik.
Overall Model Fit
-2 log likelihood (-2LL) : 78.859
VARIABLES NOT IN THE EQUATION
Score Statistics Significance Partial Correlation (ρ)
X1 : Delivery speed 27.476 .000 .568
X2 : Price level 7.631 .006 .267
X3 : Price flexibility 21.287 .000 .495
X4 : Manufacturer image .840 .360 .000
X5 : Overall service 9.256 .002 .303
X6 : Salesforce image 1.631 .202 .000
X7 : Product quality 30.041 .000 .596
Tabel 2 ini adalah model dasar regresi logistik yang dihasilkan. -2LL sebesar 78.859. Score
statistics adalah ukuran asosiasi yang digunakan dalam regresi logistik. Korelasi parsial
merupakan indikator variabel yang dimasukkan pada metode stepwise. Beberapa kriteria
dapat digunakan sebagai acuan seleksi stepwise, penurunan terbesar nilai –2LL, koefisien
Wald terbesar, atau probabilitas kondisionalnya. Pada contoh di atas, kriteria yang
digunakan pada metode stepwise adalah penurunan nilai -2LL.
Dari tabel tersebut tampak bahwa dalam proses estimasi model, X7 merupakan variabel yang
dimasukkan ke dalam model pada awal proses.
Tabel 3. Langkah-1 : memasukkan X7 ke dalam model.
OVERALL MODEL FIT
Goodness of Fit Measures Value Change in -2LL
-2 log likelihood (-2LL) 37.524 Value Significance
Goodness of Fit 37.408 From base model 41.335 .000
2
Pseudo R .524 From prior step 41.335 .000
Cox and Snell R2 .498
Nagelkerke R2 .681
Chi- df Significance
square
Hosmer and Lemeshow 2.664 8 .9535
CLASSIFICATION MATRIX
Predicted Group Membershipa
Analysis Sample Holdout Sample
Actual Group Group 1 Group 0 Total Group 1 Group 0 Total
Group 0 : Specification 17 5 22 14 4 18
buying (77.3) (22.7) (77.8) (22.2)
Group 1 : Total value 4 34 38 3 19 22
analysis (10.5) (89.5) (13.6) (86.4)
Total 21 39 60 17 23 40
B = logistic coefficient; S.E = standard error; Wald = Wald Statistic; Signif. = significance
level; ρ = correlation; Exp(B) = exponentiated cofficient.
a
Values in parantheses are percent correctly classified (hit ratio).
Walaupun variabel X7 dimasukkan ke dalam model dan menghasilkan kecocokan model yang
memadai, dari daftar variabel yang tidak masuk ke dalam model ada beberapa variabel yang
signifikan pada α = 0.05, sehingga proses stepwise dilanjutkan.
Variabel X3 dengan score statistic dan korelasi parsial yang tertinggi berikutnya, di masukkan
ke dalam model pada langkah-2. Ada perbaikan pada seluruh ukuran kesesuaian model, nilai
-2LL menurun, dan berbagai nilai R2 yang meningkat.
Tabel 4. Langkah-2 : memasukkan X3 ke dalam model.
OVERALL MODEL FIT
Goodness of Fit Measures Value Change in -2LL
-2 log likelihood (-2LL) 20.258 Value Significance
Goodness of Fit 58.967 From base model 58.601 .000
Pseudo R2 .743 From prior step 17.266 .000
Cox and Snell R2 .623
Nagelkerke R2 .852
Chi- df Significance
square
Hosmer and Lemeshow 10.344 8 .2417
diperbandingkan. Cox and Snell R2 = 0.498; juga mengukur kesesuaian model, makin tinggi
nilainya makin baik modelnya. Sayangnya, nilai ini tidak akan pernah mencapai angka 1,
sehingga dikembangkan Nagelkerke R2. Nilai Nagelkerke R2 = 0.681. Pseudo R2 mengukur
perbaikan nilai -2LL, pada model tunggal nilainya sebesar = 0.524.
- 2 LLnull – (-2 LLmodel)
R2logit =
-2 LLnull
78.859 – 37.524
= = 0.524
78.859
Ukuran kesesuaian model yang terakhir adalah nilai Hosmer and Lemeshow, yang mengukur
korespondensi antara Y yang diamati dengan Y diprediksi. Makin kecil nilai Hosmer and
Lemeshow maka model makin baik. Model yang baik adalah jika nilai Hosmer and Lemeshow
tidak signifikan dengan uji χ2.
Model regresi dengan dua variabel bebas seluruh ukuran kesesuaian model makin tinggi.
Nilai -2LL menurun menjadi = 20.258. Nilai R2 berkisar antara 0.623 sampai dengan 0.852.
Nilai Hosmer dan Lemeshow pada model final ini masih menunjukkan nilai yang tidak
signifikan.
Terakhir, matriks klasifikasi menunjukkan bahwa hit ratio juga meningkat sangat tinggi. PCP
untuk data yang dianalisis = 98.30%, sedang untuk validasi (holdout sample) = 87.50%. Di
samping itu hit ratio kelompok individual memiliki nilai tinggi secara konsisten dan kedua
variabel bebas tidak terindikasi menimbulkan suatu masalah dalam memprediksi ke dua
kelompok.
Dengan demikian, model final yang melibatkan dua buah variabel bebas, X3 dan X7, adalah
model yang memiliki kesesuaian yang sangat baik.
Contoh-2 : Serangkaian data untuk regresi logit tampak seperti yang di bawah ini :
Descriptive Statistics
Variable N Minimum Maximum Mean Std. Deviation
YES 122 .00 1.00 .6393 .4822
BAG 122 .00 7.00 1.5082 1.8464
COST 122 9.00 953.00 416.5492 285.4320
INCOME 122 5000.00 85000.00 38073.7705 18463.1274
Valid N (listwise) 122
* Data tersebut di atas diambil dari survey U.S. Department of the Interior (yang
dilaksanakan oleh Bureau of the Census), yang berusaha menganalisis respon ya/tidak
terhadap sebuah pertanyaan tentang kemauan untuk membayar biaya perjalanan yang
lebih mahal dalam sebuah trip perburuan rusa di North Carolina.
Probabilitas data respon “Ya” di atas diestimasi dengan prosedur regresi logistic pada
SPSS (click pada "statistics," "regression," dan "logistic"). Hasil printout SPSS seperti
berikut ini :
Variables in the Equation
Variable B S.E. Wald df Sig R Exp(B)
[1] [2] [3] [4] [5] [6]
BAG 0.2639 0.1239 4.5347 1 0.0332 0.1261 1.302
INCOME 4.63E-07 1.07E-05 0.0019 1 0.9656 0 1
COST -0.0018 0.0007 6.5254 1 0.0106 -0.1684 0.9982
Constant 0.9691 0.569 2.9005 1 0.0885
Notes:
[1] B is the estimated logit coefficient
[2] S.E. is the standard error of the coefficient
[3] Wald = [B/S.E.]2
[4] "Sig" is the significance level of the coefficient: "the coefficient on BAG is significant
at the .03 (97% confidence) level."
[5] The "Partial R" = sqrt{[(Wald-2)/(-2*LL(a)]}; see below for LL(a)
[6] Exp(B) is the "odds ratio" of the individual coefficient.
Dengan menentukan probabilitas antara 0 dan 1, maka dapat diperoleh table PCP sebagai
berikut :
Classification Table for YES
The Cut Value is .50
Predicted % Correct
0 1
Observed 0 9 35 20.25%
1 4 74 94.87%
Overall 68.03%
Makin besar PCP, model makin baik.
Statistik Pseudo-R2 yang lain tercetak pada output SPSS :
Source: SPSS Output
(-2)*Initial LL [1] 159.526
(-2)*Ending LL [2] 147.495
Goodness of Fit [3] 123.18
Cox & Snell-R2 0.094
Nagelkerke-R2 0.129
Sebelum menginterpretasi hasil, perlu diketahui : regresi tersebut di atas diestimasi dengan
OLS. Untuk mengkoreksi adanya heteroskedastis, peneliti menggunakan prosedur dua tahap
dalam beberapa regresi, tetapi menemukan standard error dari estimasi yang dihasilkan tidak
berbeda secara material dengan estimasi yang dihasilkan tanpa mengkoreksi heteroskedastik
tersebut. Ini mungkin karena ukuran sampel yang cukup banyak (di atas 25,000 observasi)
Dengan sampel besar, nilai-t bisa teruji untuk signifikansi statistik dengan prosedur OLS
walaupun error memiliki nilai dikotomi. R2 = 0.175 terlihat rendah, tetapi mengingat sampel
yang besar, R2 ini tetap signifikan
Estimasi koefisien harus dilakukan dengan hati-hati. Koefisien regresi (β) biasanya
merupakan ukuran tingkat perubahan Y (dependent variable) yang disebabkan perubahan X
(pada regresi dengan OLS), pada model logit, B diinterpretasi sebagai tingkat perubahan Y
yang disebabkan perubahan X dalam bentuk log odds. Penjelasannya menjadi tidak sangat
intuitif. Dimungkinkan untuk menghitung marginal effect yang lebih intuitif dari sebuah
variabel indepeneden kontinyu terhadap probabilitas Y. Marginal effect tersebut adalah :
Dp/dB = f(BX)B
Di mana f(.) adalah fungsi padatan probabilitas dari kumulatif fungsi distribusi probabilitas
dengan nilai anatara 0 sampai dengan 1. Margina l effect tergantung kepada nilai variabel
independent, sehingga mengevaluasi marginal effect pada rata-rata variabel independen
menjadi bermanfaat. (SPPS tidak memiliki option untuk menghitung marginal effect. Untuk
menghitungnya dapat digunakan program statistik lain : LIMDEP).
Interpretasi terhadap koefisien logit biasanya lebih intuitif (khususnya untuk variabel
independen yang bersifat dummy), yaitu odds ratio – exp B, adalah efek variabel independen
dalam bentuk odds ratio. (Odds ratio adalah probabilitas terjadinya peristiwa dibagi dengan
probabilitas tidak terjadinya peristiwa). Sebagai contoh, jika exp B3 = 2, maka perubahan 1
unit X3 akan berakibat terhadap probabilitas terjadinya peristiwa sebesar 2 kali. Odds ratio =
1 berarti bahwa ada peluang 50/50 untuk terjadinya peristiwa karena disebabkan perubahan
1 unit pada X. Koefisien negatif akan menyebabkan odds ratio menjadi lebih kecil daripada 1,
dan ini menyebabkan lebih sulit untuk diinterpretasikan dibanding koefisien yang positif.
Perlu dicatat bahwa odds ratio untuk variabel independen yang kontinyu cenderung
mendekati nilai 1, ini menyebabkan koefsien tersebut tidak diharapkan untuk tidak signifikan.
Gunakan statistik Wald untuk menguji signifikansi statistiknya.
ii) Penambahan variabel yang tidak relevan dapat menghasilkan model yang buruk.
Pertimbangkan Wald statistics atau lakukan uji ratio likelihood (seperti di atas) untuk
mencari variabel independen yang memiliki kemampuan menjelaskan rendah.
iii) Error dalam membentuk fungsi regresi dapat menghasilkan estimasi koefisien yang bias
dan model yang buruk. Dapat dicoba bentuk fungsi yang lain dan perhatikan Wald
statistics dan χ2 statistics untuk menguji kesesuaian model secara keseluruhan.
iv) Adanya multikolinearitas tidak akan menyebabkan koefisien yang bias, tetapi standard
errors koefisiennya akan meningkat. Jika sebuah variabel yang diharapkan signifikan
tetapi ternyata tidak, coba periksa koefisien korelasinya. Koefisien korelasi (ρx,y) lebih
besar dari 0.40 (0.60 - 0.80) bisa menyebabkan adanya masalah.
v) Kalau perlu lakukan pemisahan data secara struktural. Data pooling membutuhkan
batasan bahwa sebuah variabel independen memiliki pengaruh yang sama terhadap
variabel dependen pada kelompok data yang lain. Untuk itu bisa dilakukan uji ratio
likelihood :
LR[i+1] = -2LL(pooled model) - [-2LL(sample 1) + -2LL(sample 2)]
Di mana sampel 1 dan 2 di-pooling, dan i adalah banyaknya variabel independen.
DAFTAR PUSTAKA
Cohen, J, 1977, Statistical Power Analysis For the Behavioral Sciences, rev. ed. New
York, Academic Press.
Hair, Jr., Joseph F.; Rolph E. Anderson, Ronald L. Tatham and William C. Black, 1995;
Multivariate Data Analysis, Fifth Edition, Prentica Hall International, Inc,
Upper Saddle River, New Jersey.
Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, 1988, Estimating
Models with Binary Dependent Variables: Some Theoretical and
Empirical Observations, Journal of Business Research 16(1).