Anda di halaman 1dari 19

Kamarul Imam

rul2a@yahoo.com

LOGISTIC REGRESSION

1. Introduksi
Banyak topik penelitian penting untuk variabel dependen yang "limited" (diskret dan tidak
kontinyu). Peneliti sering kali ingin menganalisis apakah sebuah peristiwa terjadi atau tidak
terjadi, seperti voting, partisipasi, kepada program masyarakat, keberhasilan atau kegagalan
bisnis, tingkat kematian, bencana alam dan lain sebagainya.
Jika variabel dependen merupakan variabel non metrik, maka Analisis Diskriminan adalah
alat analisis yang sesuai diaplikasi. Namun, jika variabel dependen hanya terdiri atas dua
kelompok, maka Analisis Regresi Logistik lebih sesuai untuk diaplikasi karena berbagai
alasan. Pertama, Analisis Diskriminan berbasis kepada asumsi bahwa antar kelompok
beridstirbusi multivariat normal dan memiliki matriks varians-kovariansi yang seimbang, di
mana asumsi ini tidak akan berlaku kepada kedua kelompok biner. Kedua, walaupun asumsi
tersebut bisa dibuktikan kepada data, banyak peneliti yang lebih menyukai regresi logistik
karena mirip sekali dengan analisis regresi. Keduanya memiliki uji statistik yang secara
langsung dapat diamati, dengan mempertimbangkan adanya efek non linier. Untuk alasan-
alasan ini dan alasan teknis lainnya, Analisis Regresi Logistik setara dengan Analisis
Dsikriminan Dua Kelompok dan bisa lebih sesuai pada banyak situasi.
Regresi biner logit adalah suatu jenis analisis regresi di mana variabel dependen merupakan
sebuah dummy variable yang bersifat biner (yang diberi kode 0, atau 1).

a. The Linear Probability Model (LPM)


"Kenapa saya harus menggunakan ordinary least squares?" Pertanyaan yang bagus.
Perhatikan model probabilistik linier berikut :
Yi = α + β Xi + ei . . . . . . . . . . . . . . . . . . (1)
Di mana
• Yi variabel dependen dummy, =1 jika peristiwa itu terjadi, =0 jika tidak terjadi,
• α adalah konstanta,
• β adalah koefisien variabel independen,
• Xi adalah variabel independen,
• ei adalah error term.
Menggunakan LPM secara umum memberikan jawaban yang benar terbatas kepada tanda
matematis dan signifikansi koefisiennya. Probabilitas yang diprediksi melalui model biasanya
menimbulkan persoalan. Ada tiga persoalan yang timbul dari penggunaan LPM, yaitu :
1. Error terms (ei) bersifat heteroskedastik (heteroskedasticity terjadi jika varians
variabel dependen berbeda dengan nilai variabel independen yang berbeda pula):
var(ei)= p(1-p), di mana p adalah probabilitas peristiwa =1. Karena P tergantung
pada asumsi klasik regresi yang menyatakan bahwa error term tidak tergantung
pada pelanggaran X.
2. ei tidak berdistribusi normal karena Y hanya memiliki dua kemungkinan nilai (1 atau
0), dan ini melanggaran asumsi klasik regresi lainnya.
3. Prediksi probabilitas biasa lebih besar 1 atau kurang dari 0, dan bisa menjadi
persoalan jika nilai yang diprediksi tersebut digunakan dalan analisis yang berurutan.
Beberapa orang mencoba untuk mengatasi persoalan ini dengan mengatur
probabilitas dari lebih besar (atau kurang dari) 1 atau 0 menjadi sama dengan 1 atau
0. Nilai-nilai ini ditujukan agar interpretasinya terbatas kepada terjadi atau tidak
terjadi peristiwa yang diprediksi menjadi persoalan yang meyakinkan.

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 1


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

b. The Logistic Regression Model


Model logit menjawab persoalan berikut :
ln[p/(1-p)]i = α + βXi + ei atau
[p/(1-p)]i = exp(α + βXi + ei)
Di mana :
• ln adalah natural logarithm, logexp, di mana exp=2.71828…
• p adalah probabilitas terjadinya peristiwa Yi, p(Yi=1)
• p/(1-p) adalah odds ratio
• ln[p/(1-p)] adalah log odds ratio, atau logit
• seluruh komponen lain dari model adalah sama.
Logistic regression model adalah menyederhanakan transformasi non-linear dari regresi
linier. Distribusi logistik adalah fungsi distribusi berbentuk-S yang mirip kepada distribusi
standard-normal (seperti dihasilkan dalam LPM) tetapi lebih mudah dikerjakan. Distribusi
logit membatasi estimasi probabilitas antara 0 sampai dengan 1.
Sebagai contoh, estimasi probabilitas :
p = 1/[1 + exp(-α - βXi)]
Dengan bentuk fungsional :
• jika α + βXi = 0, maka p = .50
• untuk - α - βXi sangat besar, p mendekati 1
• untuk - α - βXi sangat kecil, p mendekati 0.

2. Representasi Variabel Dependen Biner


Dalam Analisis Diskriminan, karakter non metriks pada variabel bebas dikotomi diakomodasi
melalui prediksi keanggotaan kelompok berbasis kepada skor diskriminan, Z. Ini
membutuhkan perhitungan skor pemisah (cutting score) dan perhitungan prediksi Z kepada
setiap anggota pada kelompok-kelompok. Analisis Regresi Logistik juga melakukan hal yang
sama namun lebih mirip dengan perhitungan pada analisis regresi berganda. Perbedaannya,
yang diestimasi adalah probabilitas kejadian peristiwa. Walupun probabilitas merupakan
ukuran metriks, namun tetap ada perbedaannya dengan Analisis Regresi Linier Berganda,
sebab nilai probabilitas memiliki selang antara 0 sampai dengan 1. Bentuk fungsinya lebih
merupakan bentuk S. Pada tingkat variabel independen terendah, probabilitas mendekati nol.
Peningkatan variabel independen, probabilitas juga meningkat, tetapi dengan slope yang
menurun, sehingga probabilitas mendekati satu. Kurve probabilitas variabel dependen dapat
digambarkan sebagai gambar berikut :
1
Probabilitas Variabel Dependen

0
Rendah Tinggi

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 2


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Seperti telah diketahui, fungsi regresi linier tidak dapat mengakomodasi hubungan yang non
linier, dan pada situasi-situasi tertentu tidak dapat dianalisis dengan regresi ordinary, sebab
akan terjadi pelanggaran kepada banyak asumsi. Pertama, error variabel diskret lebih
berdistribusi binomial dibanding berdistribusi normal, sehingga menjadi tidak valid pada
berbagai uji statistik yang berdasar kepada distribusi normal. Kedua, varians dari variabel
dikotomi tidak konstan, sehingga menimbulkan heteroskedastisitas. Regresi logistik telah
dikembangkan dengan baik untuk menjawab persoalan tersebut di atas. Hubungan yang unik
antara variabel independen – dependen membutuhkan pendekatan yang berbeda pada tahap
estimasi parameter, penilaian kecocokan model, dan menginterpretasi kofisien.

3. Estimasi Koefisien Regresi Logistik Dengan MLE


Regresi berganda menggunakan teknik least squares, yang meminimumkan jumlah selisih
kuadrat antara nilai prediksi Y dengan Y aktual. Regresi logistik yang non linier
membutuhkan prosedur estimasi yang berbeda, yaitu : prosedur maximum likelihood, yang
digunakan secara iteratif untuk memperoleh estimasi koefisien regresi yang paling
mendekati.
Prosedur untuk mengestimasi koefisien, bagaimanapun masih agak mirip dengan prosedur
pada model regresi non linier. Untuk mengestimasi koefisien, kurve yang berbentuk S
tersebut dicocokkan kepada data aktual.
1
•••••• ••• •• ••••••••••
Probabilitas Variabel Dependen

0 ••• •••• • • • ••••• ••••••••


X
Maximum likelihood estimation (MLE) adalah sebuah metode statistikis untuk estimasi
koefisien dari sebuah model. MLE biasanya digunakan sebagai suatu alternatif untuk non-
linear least squares untuk persamaan nonlinear.
Fungsi likelihood (L) mengukur probabilitas serangkaian variabel dependen yang diamati (p1,
p2, ..., pn) yang muncul pada sampel. Penulisannya sebagai probabilitas perkalian variable
dependen :
L = Prob (p1* p2* * * pn)
Makin tinggi fungsi likelihood, maka makin tinggi pula probabilitas (p) dalam sampel. MLE
melakukan perhitungan koefisien (α, β) yang membuat logaritma fungsi likelihood (LL < 0)
sebesar mungkin atau -2 kali logaritma fungsi likelihood (-2LL) sekecil mungkin. MLE
membuat penyelesaian kondisi berikut :
{Y - p(Y=1)}Xi = 0, dijumlahkan dari seluruh pengamatan (observasi).

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 3


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Persamaan-1 merupakan model dikotomi, Yi merupakan fungsi linier dari Xi, disebut sebagai
linear probability model (LPM), karena E(Yi|Xi), ekspektasi kondisional Yi pada Xi tertentu,
dapat diinterpretasikan sebagai conditional probability even tersebut pada nilai Xi tertentu.
Pr(Yi=1|Xi). E(Yi|Xi) menjelaskan probabilitas terjadinya peristiwa pada Xi tertentu. Justifikasi
sebutan LPM untuk Model-1 tersebut di atas dapat dilihat sebagai berikut :
Dengan asumsi E(ei) = 0, akan diperoleh :
E(Yi|Xi) = α + β Xi . . . . . . . . . . . . . . . . . . . . .(2)
Jika Pi = probabilitas yang menyatakan Yi = 1 (artinya, peristiwa itu terjadi) dan 1 – Pi =
probabilitas yang menyatakan Yi = 0 (artinya, peristiwa itu tidak terjadi), maka variabel Yi
memiliki distribusi sebagai berikut :
Yi Probability
0 1 - Pi
1 Pi
1
Selanjutnya dapat dituliskan secara matematis hubungan seperti berikut :
E(Yi) = 0(1 – Pi) + 1(Pi) = Pi . . . . . . . . . . . . . . . . . . . . .(3)
Hasil perbandingan Persamaan-2 dan Persamaan-3 akan menghasilkan :
E(Yi|Xi) = α + β Xi = Pi
Dengan demikian, ekspektasi kondisional dari Persamaan-1, dapat diinterpretasikan sebagai
probabilitas kondisional dari Yi. Pi berada antara 0 dan 1, maka :
0 < E(Yi|Xi) < 1
(1) Estimasi LPM
Persamaan-1 tampak seperti model regresi lainnya, dengan demikian parameternya
dapat diestimasi seperti biasanya dengan pendekatan OLS. Tetapi ada beberapa
persoalan yang harus dihadapi, yaitu :
(a). Nonnormality of the disturbances, ei. Walaupun OLS tidak mensyaratkan ei harus
berdistribusi normal, tetapi tetap harus diasumsikan bahwa distribusi ei adalah
normal, untuk keperluan uji hipotesis dan lain-lain. Namun demikian, asumsi
normalitas ei tidak bisa dipertahankan dalam LPM, karena Yi dan ei diambil dari
hanya dua nilai. Ini terlihat dari hubungan berikut :
ei = Yi - α - β Xi
jika Yi = 1, maka : ei = 1 - α - β Xi
jika Yi = 0, maka : ei = - α - β Xi
Jelas sekali, bahwa ei tidak dapat diasumsikan berdistribusi normal.
Tetapi ketidak mampuan untuk memenuhi asumsi normalitas tidak menjadi hal yang
kritis, sebab estimasi titik dengan OLS tetap tidak bias oleh karena hal tersebut.
Lebih jauh lagi, jika ukuran sampel meningkat secara tidak terbatas, maka estimator
OLS cenderung akan didistribusikan normal. Dengan demikian, pada ukuran sampel
yang besar, statistik inferensial untuk LPM akan mengikuti prosedur OLS di bawah
asumsi normal.
(2) Heteroscedastic variances of the disturbances. Walaupun E(ei) = 0 dan E(ei,ej) = 0
untuk i ≠ j (tidak korelasi serial), tetap saja tidak dapat dijamin bahwa ei
homoskedastis. Ini terlihat dari distribusi probabilitas berikut ini :

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 4


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

ei Probability
- α - β Xi 1 - Pi
1 - α - β Xi Pi
1
Distribusi probabilitas di atas mengikuti distribusi probabilitas untuk Yi tertentu.
Mengingat definisi :
Var(ei) = E[ei – E(ei)]2
= E(ei2) untuk E(ei) = 0 berdasar asumsi, maka dengan menggunakan
distribusi probabilitas ei, akan diperoleh hubungan :
var(ei) = E(ei2) = (- α - β Xi)2(1 – Pi) + (1 - α - β Xi)2(Pi)
= (- α - β Xi)2(1 - α - β Xi)2 + (1 - α - β Xi)2(α + β Xi)
= (α + β Xi) (1 - α - β Xi)
atau :
var(ei) = E(Yi|Xi)[1 – E(Yi|Xi)]
= Pi (1 – Pi) . . . . . . . . . . . . . . . . . . . . .(4)
di mana, E(Yi|Xi) = α + β Xi = Pi. Persamaan-4 tersebut menunjukkan bahwa varians
ei heteroskedastik, karena tergantung kepada ekspektasi kondisional Y, yang tentu
tergantung kepada berapa nilai X. Maka dapat dikatakan bahwa varians ei
tergantung nilai X dan itu menunjukkan bahwa tidak homoskedastik.
Sekarang dapat diketahui bahwa dengan adanya heteroskedastik pada estimator
OLS, walaupun tidak bias, tetapi tidak efisien; maka dengan demikian tidak
menghasilkan varians minimum. Tetapi, sekali lagi, persoalan heteroskedastik ini
tidak menyulitkan, karena ada cara-cara untuk menangani jika terjadi hal yang
demikian. Salah satu cara untuk mengatasi terjadinya heteroskedastik adalah
mentransformasi data dengan cara membaginya dengan :
√ E(Yi|Xi)[1 - E(Yi|Xi)] = √Pi (1 – Pi), atau disimbulkan dengan √wi
Maka Persamaan-1 akan berubah dalam bentuk :
Yi α Xi ei
= +β + . . . . . . . . . . . . . . . . . . . . .(5)
√wi √wi √wi √wi
Disturbance pada Persamaan-5 di atas sekarang akan homoskedastik, sehingga
penggunaan prosedur OLS pada LPM telah benar.
E(Yi|Xi) yang benar tidak diketahui, sehingga wi juga tidak diketahui. Untuk
mengestimasi wi, dilakukan dengan prosedur berikut :
Langkah-I : aplikasikan OLS pada Persamaan-1 (walaupun terjadi heteroskedastik),
untuk memperoleh Ŷi. Kemudian hitung ŵi = Ŷi (1 – Ŷi), sebagai estimasi wi.
Langkah-II : gunakan ŵi untuk mentransformasi data seperti pada Persamaan-5.
Kemudian aplikasi regresi dengan prosedur OLS pada data yang telah transformasi.
(3) Nonfullfillment of 0 < E(Yi|Xi) < 1. Karena E(Yi|Xi) dalam LPM mengukur probabilitas
kondisional dari terjadinya Y pada X tertentu, maka diharuskan nilainya terbatas
berada pada rentang antara 0 dan 1. Walaupun ini secara apriori benar, namun tidak
ada jaminan bahwa Ŷi akan memenuhi pembatasan ; ini merupakan persoalan utama
penggunaan OLS pada LPM. Ada dua cara untuk mencapai hasil agar Ŷi berada di
antara 0 dan 1, yaitu : (1) estimasikan LPM dengan OLS dan tentukan apakah Ŷi
bernilai antara 0 dan 1. Jika ada nilai Ŷi yang negatif, maka Ŷi diasumsikan = 0;
(2) rencanakan teknik estimasi yang dapat menjamin bahwa probabilitas kondisional

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 5


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Ŷi bernilai antara 0 dan 1. Salah satu prosedur yang dapat dicobakan adalah :model
berikut :
Pi
Ln = α + β ln Xi
1 - Pi
Atau :
[Pi/(1-Pi)] = exp(α+ β Xi + ei)
Di mana,
Ln adalah natural logarithm, logexp, dengan exp = 2.71828
Pi adalah probabilitas kondisional terjadinya Yi, P(Yi = 1)
Pi/(1 - Pi) adalah odds ratio
ln[Pi/(1 - Pi)] adalah log odds ratio, atau "logit".
LPM menyederhanakan transformasi non linier dari regresi linier. Distribusi logistic
berbentuk-S yang mirip dengan distribusi normal standard (seperti yang dihasilkan oleh
model regresi probit). LPM ini lebih mudah diestimasi dengan sebagian besar program
aplikasi komputer (probabilitas mudah untuk dikalkulasi). Dengan model logit ini maka
dijamin nilai Yi akan terbatas antara 0 dan 1.
Contoh, estimasi probabilitas : Pi = 1/[1 + exp(-α - βXi)]
- jika α + βXi = 0, maka Pi = 0.50
- jika α + βXi sangat besar, maka Pi mendekati 1
- jika α + βXi sangat kecil, maka Pi mendekati 0.

4. Interpretasi Koefisien
Kelebihan model regresi logistik adalah kemudahan mengartikan prediksi Y (yang bersifat
dikotomi). Dari nilai dikotomi ini, prediksi Y dibulatkan antara 0 atau 1. Jika prediksi Y di atas
0.50, maka dibulatkan = 1. Untuk menghitung koeifisien logistik adalah dengan
membandingkan probabilitas terjadinya peristiwa dengan probabilitas peristiwa tersebut tidak
terjadi.
Prob (event)
Prob (no event) = eβ0 + β1X1 + . . .βk Xk → odds ratio.
Estimasi koefisien (βi) adalah ukuran sesungguhnya perubahan probabilitas. Untuk
selanjutnya harus ditransformasi balik dengan pendekatan antilog (log odds); sehingga dapat
diinterpretasikan sebagai efek perubahan Xi terhadap Y secara lebih benar. Program
komputer untuk statistik biasanya memberikan nilai estimasi koefisien dalam bentuk asli
maupun bentuk transformasi balik. Tanda matematik koefisien tidak ikut berubah pada saat
transformasi balik. Ini bisa dilihat dari logika berikut :
- jika βi positif, maka antilognya akan > 1, dengan demikian odds ratio akan
meningkat,
- jika βi negatif, maka antilognya akan < 1, maka odds ratio akan menurun,
- jika βi = 0, tidak akan merubah odds ratio.
Interpretasi koefisien hasil estimasi harus dilakukan dengan hati-hati. Penjelasan ini tidak
sangat intuitif. Hal tersebut memungkinkan untuk menghitung marginal effect dari variabel
independen yang kontinyu secara lebih intuitif terhadap probabilitas. Marginal effect adalah :
dp/dB = f(BX)B
di mana f(.) adalah fungsi padatan dari kumulatif distribusi probabilitas [F(BX), yang berada
pada rentang nilai dari 0 sampai dengan 1]. Marginal effects tergantung kepada nilai variabel
independen, dengan demikian, hal ini menyebabkan sangat menguntungkan mengevaluasi

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 6


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

marginal effects pada rata-rata variabel independen. (SPSS tidak memiliki opsi untuk
marginal effects. Jika diperlukan untuk menghitung marginal effects, dapat digunakan
program paket statistik LIMDEP).
Interpretasi koefisien logit biasanya lebih intuitif (khususnya untuk variable independent
dummy) berupa odds ratio – expβ, adalah pengaruh variabel independen pada odds ratio
[odds ratio adalah probabilitas terjadinya peristiwa dibagi dengan probabilitas tidak
terjadinya peristiwa). Contoh, jika expβ3 = 2, maka setiap satu unit perubahan variabel X3
akan menimbulkan probabilitas terjadinya peristiwa dua kali seperti (0.67/0.33). Odds ratios
sama dengan 1 mengartikan bahwa ada peluang 50/50 peristiwa itu terjadi jika ada
perubahan pada variabel independen. Koefisien negatif menunjukkan bahwa odds ratios
kurang dari 1: jika expβ2 = 0.67, maka setiap perubahan 1 unit X2 akan peluang terjadinya
peristiwa (0.40/0.60). (Odds ratios kurang dari 1 (koefisien negatif) cenderung lebih sulit
diiterpretasikan daripada odds ratios yang lebih besar dari 1 (koefisien positif). Perhatikan,
bahwa odds ratios untuk variabel independen kontinyu yang cenderung untuk mendekati 1,
ini tidak menjamin bahwa koefisien tersebut insignifikan. Gunakan Wald statistic untuk
menguji signifikansi statistiknya.

5. Penilaian Terhadap Goodness-of-Fit Model


Pengujian terhadap kecocokan model regresi logistik berbeda dengan regresi linier, namun
secara keseluruhan agak mirip dengan yang berlaku pada regresi berganda linier; yaitu
dengan menjumlahkan kuadrat error dengan teknik nilai likelihood (yaitu = -2 x log likelihood
atau -2 x LL. -2LL minimum = 0 dan maksimum = 1.
Null model adalah model yang dihitung menggunakan rata-rata merupakan basis
perbandingan uji kecocokan model regresi logistik.
- 2 LLnull – (-2 LLmodel)
R2logit =
-2 LLnull
0 < R2logit < 1
Cara-cara lain untuk menguji kecocokan model adalah seperti yang digunakan pada Analisis
Diskriminan (peta ketepatan klasifikasi) atau dengan pendekatan Hosmer dan Lemeshow1.
Statistik Percent Correct Predictions (PCP) mengasumsikan jika p yang diestimasi lebih besar
atau sama dengan 0.50, maka peristiwa diharapkan terjadi dan sebaliknya
Sedangkan prosedur metode Hosmer dan Lemeshow adalah : (a) membagi data menjadi 10
kelas yang seimbang; (b) membandingkan prediksi Y dengan aktual pada setiap kelas
dengan uji χ2. Uji ini menghasilkan ukuran komprehensif akurasi prediksi dengan
menggunakan nilai prediksi Y tanpa menggunakan data likelihood. Ketepatan penggunaan uji
Hosmer dan Lemeshow sangat tergantung kepada kecukupan data untuk menjamin bahwa
pada setiap kelas paling sedikit memiliki lima observasi. Uji χ2 sangat sensitif terhadap
ukuran sampel; makin besar sampelnya, ukuran ini memiliki akurasi yang lebih tinggi.
Biasanya peneliti menggunakan ketiga pendekatan tersebut untuk menguji kecocokan model.
Sebagian besar peneliti yang menggunakan OLS lebih menggunakan statistik R2. Ini
merupakan proporsi varians dalam variable dependen yang dijelaskan oleh varians dalam
variabel independen. Tidak ada ukuran yang ekivalen dalam regresi logistik. Tetapi ada
beberapa statistik "Pseudo" R2. Salah satunya adalah statistik McFadden's-R2 (seringkali
disebut likelihood ratio index (LRI):

1
Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, 1988:250-258.

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 7


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

McFadden's-R2 = 1 - [LL(α,β )/LL(α)]


= 1 – [-2LL(α,β )/-2LL(α)]
Di mana R2 adalah sebuah ukuran skalar yang bervariasi antara 0 dan 1. Diperkirakan bahwa
Pseudo R2s lebih kecil dari R2 pada moedel regresi linier. LRI tergantung kepada ratio model
awal dan model akhir, maka sangat sulit untuk memaksimumkan R2 pada regresi logistik.
Pseudo-R2 dalam regresi logistik adalah terbaik digunakan untuk membandingkan specifikasi
yang berbeda pada model yang sama. Jangan mencoba membandingkan model-model
dengan serangkaian data yang berbeda melalui ukuran Pseudo-R2.

6. Uji Signifikansi Koefisien


Uji hipotesis tentang signifikansi koefisien variabel independen secara parsial berbeda dari
nol mirip dengan OLS, yaitu dengan Wald Statistic.
Statistik Wald untuk koeifisien β adalah:
Wald = [β/s.e. β]2
berdistribusi χ2 dengan derajat bebas = 1. Statistik Wald secara sederhana dapat dihitung
pula sebagai kuadrat dari nilai statistik t.
Uji hipotesis tentang signifikansi koefisien variabel independen secara simultan menggunakan
likelihood ratio (LR), atau χ2, di mana :
LR[i] = -2[LL(α)- LL(α, β) ]
atau seperti yang terbaca pada printout SPSS :
LR[i] = [-2 Log Likelihood (model awal)]
- [-2 Log Likelihood (model akhir)].
Model Statistic LR berdistribusi χ2 dengan derajat bebas = i, di mana i adalah banyaknya
variabel independen. Model unconstrained, LL(α,βi), adalah fungsi log-likelihood yang
dievaluasi dengan seluruh variabel independen dan model constrained adalah fungsi log-
likelihood yang dievaluasi hanya melibatkan konstanta saja, LL(α).
Gunakan statistik χ2 untuk menentukan apakah model secara simultan, signifikan.

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 8


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

7. Ilustrasi : Regresi Logistik


Contoh-1 :
Sampel sebanyak 100 pelanggan dibagi menjadi 60 pengamatan untuk dianalisis dan 40
pengamatan sisanya digunakan untuk tahap validasi model. Dengan menggunakan
program SPSS versi 13.00 – Regression.
Berikut ini statistik deskriptif dari data observasi :
Tabel 1. Statistik deskriptif dan Uji Ekualitas Untuk Dua Kelompok.
Group means for the Independent Variables
Dependent
Sample
Variable X1 X2 X3 X4 X5 X6 X7
Size
0 : Specifiaction
2.23 2.97 6.87 5.16 2.58 2.56 8.47 22
buying
1 : Total Value
4.26 2.08 8.57 5.44 3.18 2.83 6.01 38
Analysis
Total 3.51 2.41 7.95 5.33 2.96 2.73 6.91 60
Standard Deviations for the Independent Variables
0 : Specifiaction
1.05 1.19 0.76 0.82 0.94 0.58 0.95
buying
1 : Total Value
1.10 1.12 1.28 1.32 0.50 0.92 1.32
Analysis
Total 1.46 1.21 1.38 1.16 0.75 0.82 1.68
Test of Equality of the Group Means
Wilk’s Lambda 0.542 0.873 0.645 0.986 0.846 0.973 0.499
Univariate F
48.992 8.453 31.881 0.822 10.576 1.620 58.176
ratio
Significance
0.000 0.005 0.000 0.368 0.002 0.208 0.000
level
Keterangan :
Y = Specification Buying atau Total Value Analysis
X1 = Delivery speed.
X2 = Price level.
X3 = Price flexibility.
X4 = Manufacturer image.
X5 = Overall service.
X6 = Sales force image.
X7 = Product quality.
Pada tabel tersebut di atas, terlihat bahwa variabel-variabel X1, X3 dan X7 adalah variabel
dengan selisih rata-rata terbesar. Wilk’s Lambda dan Univariate F ratio digunakan untuk
menilai signifikansi selisih rata-rata setiap variabel independen untuk kedua kelompok. Uji
tersebut mengindikasikan bahwa kelima variabel bebas (dari tujuh variabel bebas)
memiliki selisih rata-rata yang signifikan, kecuali X4 (manufacturer image) dan X6
(salesforce image). Cutting score untuk mengklasifikasi probabilitas Y = 0.50.
Ada tujuh kurve yang menjelaskan hubungan variabel independen dengan variabel Y,
antara lain seperti yang ada pada gambar berikut :

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 9


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

1.2 1.2
1.0 •••• ••••••• •••••••• 1.0 •••• • ••••••• • ••••••••

Y = 0.568 Y = 0.267

0 •••• • •••••• •••• • • • • • 0 •••• • ••••• • •••• • • • • •


-2 X1 -2 X2
1.2 1.2
1.0 • • • • ••••••• •• •••••• 1.0 • • • •••• ••••••• •• ••••••

Y = 0.494 Y = 0.000

0 ••••• •••••• •••••••• 0 • • • •••••••• • • • • ••••


-2 X3 -2 X4
1.2 1.2
1.0 •••• • • ••• •• •••••• 1.0 • • • •••• ••••••• •• ••••••

Y = 0.303 Y = 0.000

0 ••••• •••••• •••••••• 0 • • • •••••••• • • • • ••••


-2 X5 -2 X6
1.2
1.0 •••• •• ••• •• •• • •• • ••

Y = -0.596

0 ••••••••••• •• • •• • ••
-2 X7

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 10


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Estimasi model
Regresi logistik diestimasi dengan cara yang mirip dengan regresi berganda dalam hal bahwa
model dasar pada awalnya diestimasi untuk menghasilkan sebuah standard untuk
perbandingan. Dalam regresi berganda, mean digunakan untuk mengatur model dasar dan
menghitung total jumlah kuadrat (total sum of square, TSS). Pada regresi logistik, proses
yang sama juga digunakan, dengan menggunakan mean tidak untuk mengatur TSS, tetapi
untuk menentukan nilai log likelihood. Dari model ini, korelasi parsial setiap variabel dapat
ditentukan dan pemilihan variabel yang paling mendiskriminasi didasarkan kepada kriteria
seleksi.
Tabel 2. Model Dasar Regresi Logistik.
Overall Model Fit
-2 log likelihood (-2LL) : 78.859
VARIABLES NOT IN THE EQUATION
Score Statistics Significance Partial Correlation (ρ)
X1 : Delivery speed 27.476 .000 .568
X2 : Price level 7.631 .006 .267
X3 : Price flexibility 21.287 .000 .495
X4 : Manufacturer image .840 .360 .000
X5 : Overall service 9.256 .002 .303
X6 : Salesforce image 1.631 .202 .000
X7 : Product quality 30.041 .000 .596

Tabel 2 ini adalah model dasar regresi logistik yang dihasilkan. -2LL sebesar 78.859. Score
statistics adalah ukuran asosiasi yang digunakan dalam regresi logistik. Korelasi parsial
merupakan indikator variabel yang dimasukkan pada metode stepwise. Beberapa kriteria
dapat digunakan sebagai acuan seleksi stepwise, penurunan terbesar nilai –2LL, koefisien
Wald terbesar, atau probabilitas kondisionalnya. Pada contoh di atas, kriteria yang
digunakan pada metode stepwise adalah penurunan nilai -2LL.
Dari tabel tersebut tampak bahwa dalam proses estimasi model, X7 merupakan variabel yang
dimasukkan ke dalam model pada awal proses.
Tabel 3. Langkah-1 : memasukkan X7 ke dalam model.
OVERALL MODEL FIT
Goodness of Fit Measures Value Change in -2LL
-2 log likelihood (-2LL) 37.524 Value Significance
Goodness of Fit 37.408 From base model 41.335 .000
2
Pseudo R .524 From prior step 41.335 .000
Cox and Snell R2 .498
Nagelkerke R2 .681
Chi- df Significance
square
Hosmer and Lemeshow 2.664 8 .9535

VARIABLES IN THE EQUATION


Variable B S.E Wald Signif. r Exp(B)
X7 -1.896 .495 14.678 .000 -.401 .150
Constant 14.581 3.794 14.774 .000

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 11


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

VARIABLES NOT IN THE EQUATION


Score Statistic Significance Partial Correlation (ρ)
X1 : Delivery speed 10.593 .001 .328
X2 : Price level .214 .643 .000
X3 : Price flexibility 15.614 .000 .415
X4 : Manufacturer image 4.985 .026 .195
X5 : Overall service 6.669 .010 .243
X6 : Salesforce image 6.441 .011 .237

CLASSIFICATION MATRIX
Predicted Group Membershipa
Analysis Sample Holdout Sample
Actual Group Group 1 Group 0 Total Group 1 Group 0 Total
Group 0 : Specification 17 5 22 14 4 18
buying (77.3) (22.7) (77.8) (22.2)
Group 1 : Total value 4 34 38 3 19 22
analysis (10.5) (89.5) (13.6) (86.4)
Total 21 39 60 17 23 40
B = logistic coefficient; S.E = standard error; Wald = Wald Statistic; Signif. = significance
level; ρ = correlation; Exp(B) = exponentiated cofficient.
a
Values in parantheses are percent correctly classified (hit ratio).
Walaupun variabel X7 dimasukkan ke dalam model dan menghasilkan kecocokan model yang
memadai, dari daftar variabel yang tidak masuk ke dalam model ada beberapa variabel yang
signifikan pada α = 0.05, sehingga proses stepwise dilanjutkan.
Variabel X3 dengan score statistic dan korelasi parsial yang tertinggi berikutnya, di masukkan
ke dalam model pada langkah-2. Ada perbaikan pada seluruh ukuran kesesuaian model, nilai
-2LL menurun, dan berbagai nilai R2 yang meningkat.
Tabel 4. Langkah-2 : memasukkan X3 ke dalam model.
OVERALL MODEL FIT
Goodness of Fit Measures Value Change in -2LL
-2 log likelihood (-2LL) 20.258 Value Significance
Goodness of Fit 58.967 From base model 58.601 .000
Pseudo R2 .743 From prior step 17.266 .000
Cox and Snell R2 .623
Nagelkerke R2 .852
Chi- df Significance
square
Hosmer and Lemeshow 10.344 8 .2417

VARIABLES IN THE EQUATION


Variable B S.E Wald Signif. r Exp(B)
X3 1.830 .717 6.517 .011 .239 6.237
X7 -2.912 1.135 6.581 .010 -.241 .054
Constant 8.329 5.110 2.637 .103

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 12


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

VARIABLES NOT IN THE EQUATION


Score Statistic Significance Partial Correlation (ρ)
X1 : Delivery speed 3.746 .053 .149
X2 : Price level 3.641 .056 .144
X4 : Manufacturer image 5.557 .018 .212
X5 : Overall service 8.824 .003 .294
X6 : Salesforce image 8.770 .003 .293
CLASSIFICATION MATRIX
Predicted Group Membershipa
Analysis Sample Holdout Sample
Actual Group Group 1 Group 0 Total Group 1 Group 0 Total
Group 0 : Specification 21 1 22 15 3 18
buying (95.5) (4.5) (83.3) (16.7)
Group 1 : Total value 0 38 38 2 20 22
analysis (0.0) (100.0) (9.1) (90.9)
Total 21 39 60 17 23 40
B = logistic coefficient; S.E = standard error; Wald = Wald Statistic; Signif. = significance
level; ρ = correlation; Exp(B) = exponentiated cofficient.
a
Values in parantheses are percent correctly classified (hit ratio).
Walaupun variabel X3 juga dimasukkan ke dalam model dan menghasilkan kecocokan model
yang lebih memadai, dari daftar variabel yang tidak masuk ke dalam model ada beberapa
variabel yang signifikan pada α = 0.05, sehingga proses stepwise dilanjutkan. Variabel X5
selanjutnya dimasukkan ke dalam model, model regresi logit menjadi tidak stabil dan
menghasilkan koefisien yang tidak sesuai, walaupun ada beberapa ukuran kesesuaian model
yang meningkat. Lebih jauh lagi, koefisien yang diestimasi memiliki nilai dan tingkat
signifikansi yang tidak sesuai. Peneliti harus melakukan evaluasi pada setiap langkah
stepwise untuk melihat apakah ada overfitting (kesesuaian yang berlebih tetapi tidak masuk
akal) atau tidak. Pada contoh ini, langkah-langkah stepwise dihentikan dengan dua buah
variabel bebas yang dilibatkan dalam mdel untuk diinterpretasi lebih lanjut.
Ada dua uji statistik terhadap model final (lihat Tabel 4). Pertama, uji chi-square (χ2) untuk
perubahan nilai -2LL dari model awal, dan ini bisa disetarakan dengan uji-F pada model
regresi berganda. Pada model final, penurunan tersebut signifikan secara statistik pada
0.000. Kedua, ukuran Hosmer and Lemeshow memiliki uji statistik yang mengindikasikan
bahwa tidak ada perbedaan yang signifikan secara statistik antara klasifikasi yang diamati
dengan yang diprediksi. Kedua uji ini jika dikombinasi mendukung penerimaan model dengan
variabel bebas tersebut sebagai model regresi logistik yang signifikan dan sesuai untuk
analisis lebih lanjut.
Estimasi kofisien kedua variabel bebas dan konstan juga dievaluasi signifikansi statistiknya.
Statistk Wald digunakan untuk menilai signifikansi, kecuali pada kasus di mana koefisien
sangat besar (jika menggunakan score statistic). Kedua koefisien pada model, signifikan
secara statistik, pada level = 0.01, walaupun konstan signifikan hanya pada level = 0.10;
maka kedua variabel secara individual dapat diinterpretasikan.
Dalam menilai kesesuaian model, ada beberapa ukuran yang digunakan. Pertama, nilai -2LL.
Pada Tabel 3, jika dibanding dengan model dasar (Tabel 2), nilai -2LL menurun dari 78.859
menjadi 37.524; ada penurunan sebesar = 41.335. Makin kecil nilai -2LL, makin baik
kesesuaian model. Kedua, nilai Goodness of Fit, adalah perbandingan probabilitas yang
diprediksi dengan probabilitas yang diamati. Makin tinggi nilai Goodness of Fit, model makin
baik. Tidak ada batas atas dan batas bawah untuk ukuran ini. Nilai Goodness of Fit, untuk
model variabel tunggal (Tabel 3) = 37.408. Selanjutnya adalah berbagai nilai R2 yang bisa

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 13


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

diperbandingkan. Cox and Snell R2 = 0.498; juga mengukur kesesuaian model, makin tinggi
nilainya makin baik modelnya. Sayangnya, nilai ini tidak akan pernah mencapai angka 1,
sehingga dikembangkan Nagelkerke R2. Nilai Nagelkerke R2 = 0.681. Pseudo R2 mengukur
perbaikan nilai -2LL, pada model tunggal nilainya sebesar = 0.524.
- 2 LLnull – (-2 LLmodel)
R2logit =
-2 LLnull
78.859 – 37.524
= = 0.524
78.859
Ukuran kesesuaian model yang terakhir adalah nilai Hosmer and Lemeshow, yang mengukur
korespondensi antara Y yang diamati dengan Y diprediksi. Makin kecil nilai Hosmer and
Lemeshow maka model makin baik. Model yang baik adalah jika nilai Hosmer and Lemeshow
tidak signifikan dengan uji χ2.
Model regresi dengan dua variabel bebas seluruh ukuran kesesuaian model makin tinggi.
Nilai -2LL menurun menjadi = 20.258. Nilai R2 berkisar antara 0.623 sampai dengan 0.852.
Nilai Hosmer dan Lemeshow pada model final ini masih menunjukkan nilai yang tidak
signifikan.
Terakhir, matriks klasifikasi menunjukkan bahwa hit ratio juga meningkat sangat tinggi. PCP
untuk data yang dianalisis = 98.30%, sedang untuk validasi (holdout sample) = 87.50%. Di
samping itu hit ratio kelompok individual memiliki nilai tinggi secara konsisten dan kedua
variabel bebas tidak terindikasi menimbulkan suatu masalah dalam memprediksi ke dua
kelompok.
Dengan demikian, model final yang melibatkan dua buah variabel bebas, X3 dan X7, adalah
model yang memiliki kesesuaian yang sangat baik.
Contoh-2 : Serangkaian data untuk regresi logit tampak seperti yang di bawah ini :
Descriptive Statistics
Variable N Minimum Maximum Mean Std. Deviation
YES 122 .00 1.00 .6393 .4822
BAG 122 .00 7.00 1.5082 1.8464
COST 122 9.00 953.00 416.5492 285.4320
INCOME 122 5000.00 85000.00 38073.7705 18463.1274
Valid N (listwise) 122
* Data tersebut di atas diambil dari survey U.S. Department of the Interior (yang
dilaksanakan oleh Bureau of the Census), yang berusaha menganalisis respon ya/tidak
terhadap sebuah pertanyaan tentang kemauan untuk membayar biaya perjalanan yang
lebih mahal dalam sebuah trip perburuan rusa di North Carolina.
Probabilitas data respon “Ya” di atas diestimasi dengan prosedur regresi logistic pada
SPSS (click pada "statistics," "regression," dan "logistic"). Hasil printout SPSS seperti
berikut ini :
Variables in the Equation
Variable B S.E. Wald df Sig R Exp(B)
[1] [2] [3] [4] [5] [6]
BAG 0.2639 0.1239 4.5347 1 0.0332 0.1261 1.302
INCOME 4.63E-07 1.07E-05 0.0019 1 0.9656 0 1
COST -0.0018 0.0007 6.5254 1 0.0106 -0.1684 0.9982
Constant 0.9691 0.569 2.9005 1 0.0885

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 14


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Notes:
[1] B is the estimated logit coefficient
[2] S.E. is the standard error of the coefficient
[3] Wald = [B/S.E.]2
[4] "Sig" is the significance level of the coefficient: "the coefficient on BAG is significant
at the .03 (97% confidence) level."
[5] The "Partial R" = sqrt{[(Wald-2)/(-2*LL(a)]}; see below for LL(a)
[6] Exp(B) is the "odds ratio" of the individual coefficient.
Dengan menentukan probabilitas antara 0 dan 1, maka dapat diperoleh table PCP sebagai
berikut :
Classification Table for YES
The Cut Value is .50
Predicted % Correct
0 1
Observed 0 9 35 20.25%
1 4 74 94.87%
Overall 68.03%
Makin besar PCP, model makin baik.
Statistik Pseudo-R2 yang lain tercetak pada output SPSS :
Source: SPSS Output
(-2)*Initial LL [1] 159.526
(-2)*Ending LL [2] 147.495
Goodness of Fit [3] 123.18
Cox & Snell-R2 0.094
Nagelkerke-R2 0.129

Chi-Square [4] df Significance


Model 12.031 3 0.0073
Notes:
[1] LL(a) = 159.526/(-2) = -79.763
[2] LL(a,B) = 147.495/(-2) = -73.748
[3] GF = [Y - P(Y=1)]2/[Y - P(Y=1)]
[4] Chi-Square = -2[LL(a)-LL(a,B)] = 159.526 - 147.495
McFadden's-R2 = 1 - (147.495/159.526) = 0.075

Contoh-3 : Model Cohen-Rea-Lerman.


Dalam sebuah penelitian untuk Departemen Tenaga Kerja Amerika Serikat, Cohen, Rea
dan Lerman berpartisipasi terlibat dalam penelitian yang bertujuan untuk memperkirakan
partisipasi angkatan kerja dalam berbagai katagori sebagai fungsi dari berbagai variabel
sosio - ekonomi – demografik. Seluruh model menggunakan dependen variabel dummy,
yaitu = 1 jika seseorang yang diteliti adalah angkatan kerja, dan = 0 jika orang tersebut
bukan angkatan kerja. Berikut adalah hasil penelitian yang dilakukan ketiga peneliti
tersebut :

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 15


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Tabel 5. Partisipasi Angkatan Kerja*.


Explanatory Variable Coefficient t-ratio
Constant 0.4368 15.4
Marital Status
Married, spouse present … …
Married, other 0.1523 13.8
Never married 0.2915 22.0
Age
22-54 … …
55-64 -0.0594 -5.7
65 and over -0.2753 -9.0
Years of schooling
0–4 … …
5–8 0.1255 5.8
9 – 11 0.1704 7.9
12 – 15 0.2231 10.6
16 and over 0.3061 13.3
Unemployment rate (1966), %
Under 2.5 … …
2.5 – 3.4 -0.0213 -1.6
3.5 – 4.0 -0.0269 -2.0
4.1 – 5.0 -0.0291 -2.2
5.1 and over -0.0311 -2.4
Employment change (1965-1966), %
Under 3.5 … …
3.5 – 6.49 0.0301 3.2
6.5 and over 0.0529 5.1
Relative Employment opportunities, %
Under 62 … …
62 – 73.9 0.0381 3.2
74 and over 0.0571 3.2
FILOW, $
Less than 1500 or negative … …
1500 – 7499 -0.1451 -15.4
7500 and over -0.2455 -24.4
Interaction (marital status and age)
Marital Status Age
Other 55 – 64 -0.0408 -2.1
Other 65 and over -0.1291 -7.4
Never married 55 – 64 -0.1104 -3.3
Never married 65 and over -0.2045 -6.4
Interaction (age and years of schooling completed)
Age Years of schooling
65 and over 5–8 -0.0885 -2.8
65 and over 9 – 11 -0.0848 -2.4
65 and over 12 – 15 -0.1288 -4.0
65 and over 16 and over -0.1628 -3.6
R2 = 0.175
No. observations = 24,143

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 16


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

Notes : . . . indicates the base or ommited category.


FILOW : family income less own wage and salary income.
Source : Malcolm S Cohen, Samuel A. Rea, Jr., and Robert I. Lerman, A Micro Model of Labor
Supply, BLS Staff Paper 4, US Departement of labor, 1970, table F-6, pp.212-213.
*
(Regresi terhadap wanita, usia 22 tahun ke atas, hidup di 96 area metropolitan standard terbesar. Variabel
dependen : masuk atau keluar dari angkatan kerja dalam tahun 1966).

Sebelum menginterpretasi hasil, perlu diketahui : regresi tersebut di atas diestimasi dengan
OLS. Untuk mengkoreksi adanya heteroskedastis, peneliti menggunakan prosedur dua tahap
dalam beberapa regresi, tetapi menemukan standard error dari estimasi yang dihasilkan tidak
berbeda secara material dengan estimasi yang dihasilkan tanpa mengkoreksi heteroskedastik
tersebut. Ini mungkin karena ukuran sampel yang cukup banyak (di atas 25,000 observasi)
Dengan sampel besar, nilai-t bisa teruji untuk signifikansi statistik dengan prosedur OLS
walaupun error memiliki nilai dikotomi. R2 = 0.175 terlihat rendah, tetapi mengingat sampel
yang besar, R2 ini tetap signifikan
Estimasi koefisien harus dilakukan dengan hati-hati. Koefisien regresi (β) biasanya
merupakan ukuran tingkat perubahan Y (dependent variable) yang disebabkan perubahan X
(pada regresi dengan OLS), pada model logit, B diinterpretasi sebagai tingkat perubahan Y
yang disebabkan perubahan X dalam bentuk log odds. Penjelasannya menjadi tidak sangat
intuitif. Dimungkinkan untuk menghitung marginal effect yang lebih intuitif dari sebuah
variabel indepeneden kontinyu terhadap probabilitas Y. Marginal effect tersebut adalah :
Dp/dB = f(BX)B
Di mana f(.) adalah fungsi padatan probabilitas dari kumulatif fungsi distribusi probabilitas
dengan nilai anatara 0 sampai dengan 1. Margina l effect tergantung kepada nilai variabel
independent, sehingga mengevaluasi marginal effect pada rata-rata variabel independen
menjadi bermanfaat. (SPPS tidak memiliki option untuk menghitung marginal effect. Untuk
menghitungnya dapat digunakan program statistik lain : LIMDEP).
Interpretasi terhadap koefisien logit biasanya lebih intuitif (khususnya untuk variabel
independen yang bersifat dummy), yaitu odds ratio – exp B, adalah efek variabel independen
dalam bentuk odds ratio. (Odds ratio adalah probabilitas terjadinya peristiwa dibagi dengan
probabilitas tidak terjadinya peristiwa). Sebagai contoh, jika exp B3 = 2, maka perubahan 1
unit X3 akan berakibat terhadap probabilitas terjadinya peristiwa sebesar 2 kali. Odds ratio =
1 berarti bahwa ada peluang 50/50 untuk terjadinya peristiwa karena disebabkan perubahan
1 unit pada X. Koefisien negatif akan menyebabkan odds ratio menjadi lebih kecil daripada 1,
dan ini menyebabkan lebih sulit untuk diinterpretasikan dibanding koefisien yang positif.
Perlu dicatat bahwa odds ratio untuk variabel independen yang kontinyu cenderung
mendekati nilai 1, ini menyebabkan koefsien tersebut tidak diharapkan untuk tidak signifikan.
Gunakan statistik Wald untuk menguji signifikansi statistiknya.

8. Beberapa Masalah Potensial Dan Penyelesaiannya.


Model logit juga memiliki masalah seperti pada multiple regression :
i) Pengabaian variabel dapat menimbulkan bias dalam estimasi koefisien. Untuk menguji
omitted variables, dapat digunakan uji ratio likelihood (LR):
• LR[q] = {[-2LL(constrained model, i=k-q)] - [-2LL(unconstrained model, i=k)]}
• Di mana LR berdistribusi χ2 dengan derajat bebas = q, dengan q = 1 atau lebih
omitted variables
• Uji ini secara otomatis dilakukan SPSS jika dilakukan blocks kepada variable
independen (lihat block chi-square pada output SPSS).

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 17


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

ii) Penambahan variabel yang tidak relevan dapat menghasilkan model yang buruk.
Pertimbangkan Wald statistics atau lakukan uji ratio likelihood (seperti di atas) untuk
mencari variabel independen yang memiliki kemampuan menjelaskan rendah.
iii) Error dalam membentuk fungsi regresi dapat menghasilkan estimasi koefisien yang bias
dan model yang buruk. Dapat dicoba bentuk fungsi yang lain dan perhatikan Wald
statistics dan χ2 statistics untuk menguji kesesuaian model secara keseluruhan.
iv) Adanya multikolinearitas tidak akan menyebabkan koefisien yang bias, tetapi standard
errors koefisiennya akan meningkat. Jika sebuah variabel yang diharapkan signifikan
tetapi ternyata tidak, coba periksa koefisien korelasinya. Koefisien korelasi (ρx,y) lebih
besar dari 0.40 (0.60 - 0.80) bisa menyebabkan adanya masalah.
v) Kalau perlu lakukan pemisahan data secara struktural. Data pooling membutuhkan
batasan bahwa sebuah variabel independen memiliki pengaruh yang sama terhadap
variabel dependen pada kelompok data yang lain. Untuk itu bisa dilakukan uji ratio
likelihood :
LR[i+1] = -2LL(pooled model) - [-2LL(sample 1) + -2LL(sample 2)]
Di mana sampel 1 dan 2 di-pooling, dan i adalah banyaknya variabel independen.

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 18


REGRESSION.doc
Kamarul Imam
rul2a@yahoo.com

DAFTAR PUSTAKA

Cohen, J, 1977, Statistical Power Analysis For the Behavioral Sciences, rev. ed. New
York, Academic Press.
Hair, Jr., Joseph F.; Rolph E. Anderson, Ronald L. Tatham and William C. Black, 1995;
Multivariate Data Analysis, Fifth Edition, Prentica Hall International, Inc,
Upper Saddle River, New Jersey.
Gessner, Guy, N. K. Maholtra, W.A. Kamakura and M.E Smijewski, 1988, Estimating
Models with Binary Dependent Variables: Some Theoretical and
Empirical Observations, Journal of Business Research 16(1).

D:\Documents and Settings\HOME\My Documents\MULTIVARIATE ANALYSIS\LOGISTIC 19


REGRESSION.doc

Anda mungkin juga menyukai