Regresi Logistik Biner
Regresi Logistik Biner
PENDAHULUAN
Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel
X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus
seperti itu adalah regresi linier, baik sederhana maupun berganda. Namun, adakalanya regresi
linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang
sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan
akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon
bertipe data nominal, sedangkan variabel prediktornya bertipe data interval atau rasio.
Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana
metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic
Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik
Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel
respon. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon
terdapat lebih dari 2 kategori. Pendugaan koefisien model regresi logistik tidak dapat
dilakukan dengan metode OLS halnya regresi linear karena pelanggaran asumsi kehomogenan
varians. Casella and Berger (2002) mengatakan bahwa metode estimasi yang biasanya dipakai
adalah metode Maximum Likelihood, yang merupakan salah satu alternatif untuk
memaksimalkan peluang pengklasifikasian obyek yang diamati menjadi kategori yang sesuai
kemudian mengubahnya menjadi koefisien regresi yang sederhana. Metode ini
mengasumsikan bahwa nilai 𝜀 mengikuti distribusi binomial.
Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat
analisis pemodelan ketika variabel responnya bersifat biner, yang merujuk pada penggunaan
dua buah bilangan 0 dan 1 untuk menggantikan dua kategori pada variabel respon. Contoh
variabel respon yang dimaksud adalah kesuksesan (sukses–gagal), kesetujuan (setuju–tidak
setuju), keinginan membeli (ya–tidak), terpilih atau tidak terpilih, dan masih banyak lagi.
Pada tulisan ini akan dibahas mengenai regresi logistik biner beserta aplikasinya
dengan bantuan software SPSS. Data yang digunakan dalam tulisan ini adalah data mengenai
CHD (Coronary Heart Disease) yang dihubungkan dengan sex, kebiasaan merokok,
kelompok usia, kadar kolesterol dan obesitas.
TINJAUAN PUSTAKA
1
1. Regresi Logistik Biner
Regresi logistik adalah metode statistika yang mempelajari tentang pola hubungan
secara matematis antara satu variabel respon (y) yang bersifat nominal atau ordinal dengan
satu atau lebih variabel prediktor (x). Perbedaan yang mendasar dengan model regresi linier
yaitu pada variabel responnya. Variabel respon pada regresi logistik merupakan variabel biner
atau dikotomus. Variabel prediktor dapat berupa variabel polikotomus (kategorik maupun
interval). Sedangkan untuk regresi linier, variabel responnya minimal berskala interval.
Perbedaan lainnya terlihat pada pemilihan model parametrik dan asumsi-asumsi yang
mendasari kedua model. Walaupun demikian, prinsip-prinsip pedugaan parameter yang
digunakan dalam analisis model regresi logistik sama dengan analisis model regresi linier
(Hosmer and Lemeshow, 1989). Menurut jenis skala dan variabel respon yang digunakan
regresi logistik dibagi menjadi 3 macam, yaitu regresi ligistik biner, multinomial dan ordinal.
Analisis regresi logistik biner adalah suatu regresi logistik antara variabel respon (y)
dan variabel prediktor (x) dimana variabel y menghasilkan 2 kategori yaitu 0 dan 1 (Hosmer
dan Lemeshow, 1989). Sehingga variabel y mengikuti distribusi Bernoulli dengan fungsi
probabilitasnya sebagai berikut.
𝑓(𝑦) = 𝜋 𝑦 (1 − 𝜋)1−𝑦 ; 𝑦 = 0, 1 (1)
Dimana jika y = 0 maka 𝑓(𝑦) = 1 − 𝜋 dan jika y = 1 maka 𝑓(𝑦) = 𝜋. Fungsi regresi
logistiknya dapat dituliskan sebagai berikut.
1 𝑒𝑧
𝑓(𝑧) = 1+𝑒 −𝑧 𝑒𝑘𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑓(𝑧) = 1+𝑒 𝑧 (2)
Dengan 𝑧 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑝 𝑥𝑝
Jika nilai z antara −∞ dan ∞ maka nilai f(z) terletak antara 0 dan 1 untuk setiap nilai
z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggam-
barkan probabilitas atau resiko dari suatu obyek. Model regresi logistiknya adalah sebagai
berikut.
𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑝 𝑥𝑝
𝜋(𝑥) = (3)
1+𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑝 𝑥𝑝
2. Estimasi Parameter
2
Estimasi parameter dalam regresi logistik dapat dilakukan dengan metode Maximum
Likelihood namun apabila metode ini tidak menghasilkan solusi yang close form, maka dapat
dilanjutkan dengan menggunakan iterasi Newton Raphson, hingga menghasilkan solusi yang
konvergen.
Fungsi likelihood tersebut lebih mudah dimaksimumkan dalam bentuk log 𝑙(𝛽) yang
disebut juga log likelihood (𝐿(𝛽)). Bentuk itu dapat didefinisikan sebagai berikut.
𝐿(𝛽) = log 𝑙(𝛽)
𝑝
∑𝑗=0 𝛽𝑗 𝑥𝑖𝑗
= ∑𝑝𝑗=0(∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 ) 𝛽𝑗 − ∑𝑛𝑖=1 log (1 + 𝑒 ) (7)
Untuk mendapatkan nilai 𝛽 dari 𝐿(𝛽) yang maksimum maka dilakukan penurunan
terhadap 𝛽 dan hasilnya disamakan dengan nol.
𝑝
∑ 𝛽 𝑥
𝜕𝐿(𝛽) 𝑒 𝑗=0 𝑗 𝑖𝑗
= ∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 − ∑𝑛𝑖=1 𝑥𝑖𝑗 [ 𝑝 ]=0
𝜕𝛽𝑗 ∑ 𝛽 𝑥
1+𝑒 𝑗=0 𝑗 𝑖𝑗
3
Metode untuk mengestimasi varian dan kovarian dari estimasi koefisien parameter
dikembangkan dengan mengikuti teori Maximum Likelihood Estimation (MLE) yang
menyatakan bahwa estimasi varian dan kovarian diperoleh dari turunan kedua fungsi
likelihood dapat diperoleh hasil sebagai berikut.
𝜕𝐿(𝛽)
= ∑𝑛𝑖=1 𝑥𝑖𝑗 𝑥𝑖𝑢 𝜋(𝑥𝑖 )(1 − 𝜋(𝑥𝑖 )) (9)
𝜕𝛽𝑗 𝛽𝑢
𝜕2 𝐿(𝛽)
= − ∑𝑛𝑖=1 𝑥𝑖𝑗 𝑥𝑖𝑢 𝜋(𝑥𝑖 )(1 − 𝜋(𝑥𝑖 )) (10)
𝜕𝛽𝑗 𝜕𝛽𝑢
𝜕2 𝐿(𝛽) 𝜕2 𝐿(𝛽)
2
𝜕𝛽𝑗 𝜕𝛽𝑗 𝛽𝑢
𝐻 = [𝜕2𝐿(𝛽) 𝜕2 𝐿(𝛽)
]
2
𝜕𝛽𝑗 𝛽𝑢 𝜕𝛽𝑢
a. Uji Serentak
Uji serentak dilakukan untuk mengetahui signifikansi parameter 𝛽 secara keseluruhan atau
serentak. Pengujian yang dilakukan sebagai berikut.
4
Hipotesis :
𝐻0 ∶ 𝛽1 = 𝛽2 = . . . = 𝛽𝑗 = 0
𝐻1 ∶ Paling tidak ada satu 𝛽𝑗 ≠ 0
Statistik uji (Likelihood Ratio Test) :
𝑛 𝑛1 𝑛 𝑛0
( 1) ( 0)
𝑛 𝑛
𝐺 = −2𝑙𝑛 ∑𝑛 𝑦𝑖 (12)
̂𝑖
𝑖=1 𝜋 ̂ 𝑖 )(1−𝑦𝑖 )
(1−𝜋
b. Uji Individu
Uji individu ini dilakukan untuk mengetahui signifikansi parameter 𝛽 secara individu
(Hosmer dan Lemeshow, 1989).
Hipotesis :
𝐻0 ∶ 𝛽𝑗 = 0
𝐻1 ∶ 𝛽𝑗 ≠ 0 ; j = 1, 2, …, p
Statistik uji (Uji Wald) :
̂𝑗 2
𝛽
2
𝑊 = ̂𝑗 )2 (13)
𝑆𝐸(𝛽
Daerah Penolakan :
Tolak H0 apabila Wi2 > 2(v, ) atau P-value < dengan v adalah derajat bebas
banyaknya prediktor.
5
a. –2 log likelihood
𝑥
𝐺 2 = 2 ∑𝐼𝑖=1 ∑𝐽𝑗=1 𝑥𝑖𝑗 log (𝑚𝑖𝑗 ) (14)
𝑖𝑗
b. Goodness of fit
2
(𝑥𝑖𝑗 −𝑚𝑖𝑗 )
𝜒 2 = ∑𝐼𝑖=1 ∑𝐽𝑗=1 (15)
𝑚𝑖𝑗
Dari kedua statistik uji di atas, untuk menguji hipotesis adalah sebagai berikut.
Hipotesis :
H0 : model yang dihipotesakan sesuai dengan data
H1 : model yang dihipotesakan tidak sesuai dengan data
Daerah Penolakan :
Tolak H0 apabila 2 hitung > 2 (,b) atau G2 hitung > 2 (,b) dimana b merupakan
selisih variabel prediktor dari kedua model yang dibandingkan atau p value < .
c. Improvement
Uji ini digunakan untuk mengetahui variabel prediktor yang belum masuk ke dalam model
apakah memiliki signifikansi dalam model.
Hipotesis :
H0 : model ringkas adalah model terbaik
H1 : model lengkap adalah model terbaik
Statistik uji :
𝐺 2 = −2(𝐿0 − 𝐿1 ) (16)
dimana :
L0 = log likelihood untuk model ringkas (tanpa variabel tertentu)
6
- Untuk menjelaskan kecenderungan/hubungan fungsional antara variabel-variabel prediktor
dengan variabel respon.
- Untuk menentukan unit perubahan setiap variabel prediktor.
Interpretasi variabel prediktor (x) dibagi menjadi 2 yaitu :
𝑒 𝛽0 +𝛽1
𝜓= sehingga 𝜓 = 𝑒 𝛽1 maka ln 𝜓 = 𝛽1
𝑒 𝛽0
Variabel prediktor (x) tidak selalu dikategorikan dalam 2 kategori bisa lebih misalnya
dalam 5 kategori atau k = 5 sehingga setiap variabelnya merupakan variabel diskrit dengan
skala pengukuran nominal. Untuk k = 5 digunakan variabel dummy k - 1 = 4. Dapat dijelaskan
dalam Tabel 2 sebagai berikut :
7
Desain variabel di atas untuk membandingkan variabel dengan kategori 2, 3, 4, 5
dengan kategori 1 dengan 𝜓 sama seperti pada variabel x dikotomus yang memandang satu
sebagai pembanding.
8
umumnya dipilih berdasarkan Kategori yang memiliki Resiko Paling Kecil seperti
pendidikan Perguruan Tinggi, hal ini bertujuan untuk memudahkan dalam pembacaan
hasil analisa. Untuk variabel dependen Status Kridit, kategori resiko diberi kode lebih
besar dari pada kategori tidak beresiko.
Berikut adalah analisis dan pembahasan untuk data pada Lampiran 1, sedangkan
hasil output SPSS selengkapya dapat dilihat pada Lampiran 2.
9
4. Klik categorical pilih variabel covariates dp dan Pendidikan kedalam categorical
covariates, klik reference category first kemudian klik change.
5. Klik Menu Options ➔Muncul Menu Dialog berikut : Centang Hosmer-Lemeshow dan
CI for exp(B).
10
6. Klik Continue ➔ Oke, berikut outputnya,
11
Tabel 4. Estimasi Parameter
95% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step 1a Uang Muka(1) 2.739 1.336 4.202 1 .040 15.474 1.128 212.375
Jangka Waktu -.141 .065 4.613 1 .032 .869 .764 .988
Pembayaran
Umur Pemohon -.100 .119 .712 1 .399 .905 .717 1.142
Pendidikan Pemohon 5.419 2 .067
Pendidikan .411 1.189 .119 1 .730 1.508 .147 15.523
Pemohon(1)
Pendidikan 2.761 1.267 4.748 1 .029 15.818 1.320 189.572
Pemohon(2)
Constant 3.233 4.287 .569 1 .451 25.345
• Nilai Exp(B) pada variabel dp 15,474 yang artinya nilai dp ≤ 1,5 juta cenderung
lebih beresiko mengalami macet jika dibandingkan dengan yang dp > 1,5 juta
(reference Category-nya) sebesar 15,474 kali.
• Nilai Exp(B) pada variabel Jangka waktu 0,869 yang artinya semakin lama
Jangka_waktu pembayaran akan semakin kecil resiko untuk mengalami macet.
• Nilai Exp(B) pada variabel “pendidikan(2)” 15,818 yang artinya pemohon yang
pendidikannya “≤ SMP” lebih beresiko 15,818 mengalami macet jika
dibandingkan dengan yang pendidikannya “Perguruan Tinggi”.
12
a. Uji Serentak Parameter Regresi Logistik
Adapun hipotesis untuk pengujian signifikansi parameter regresi secara serentak yaitu:
Ho : β1 = β2 = … = β5 = 0
Ha : Minimal ada satu βj ≠ 0; j = 1, 2, …, 5
Statistik uji yang digunakan yaitu uji 𝜒 2 . Ho ditolak bila p-value < α, untuk α = 0.05.
Dari Tabel 5, 𝜒 2 =113.789 dan p-value = 0.000, sehingga dapat disimpulkan untuk
menolak Ho. Jadi minimal ada satu parameter regresi logistik tidak sama dengan nol.
Chi-square df Sig.
Step 1 Step 19.368 5 .002
Block 19.368 5 .002
Model 19.368 5 .002
atau jika p-value < α, untuk α = 0.05. Estimasi parameter yang diperoleh dari output
SPSS dapat dilihat pada Tabel 4. Dari 6 parameter yang ada, diketahui bahwa pada α =
0.05, hanya 3 parameter yang signifikan jangka uang muka (dp), waktu pembayaran,
dan Pendidikan (2) “≤ SMP”.
13
Tabel 6. Uji Hosmer dan Lemeshow
14
E. Sensitivitas atau Spesifisitas
Tabel 9 menunjukkan bahwa model regresi logistik yang terbentuk bisa
membuat klasifikasi dalam penaksiran nilai Y yaitu sebesar 82.9%. Artinya dengan
model persamaan regresi logistik ini bisa memprediksi seseorang Kreditnya macet
dimana pada kenyataannya dia memang kreditnya macet, atau memprediksi seseorang
tidak macet kreditnya dimana pada kenyataannnya dia memang tidak macet kreditnya
adalah sebesar 82.9%.
Predicted
Status Kridit Percentage
Observed Tdk Macet Macet Correct
Step 1 Status Kridit Tdk Macet 18 2 90.0
Macet 4 11 73.3
Overall Percentage 82.9
a. The cut value is .500
KESIMPULAN
Kesimpulan dari tulisan ini adalah regresi logistik biner digunakan untuk data yang
variabel responnya merupakan data yang terdiri dari dua kategori, dengan satu variabel
prediktor atau lebih, baik yang bersifat kategorik maupun kontinu. Dari contoh kasus kredit di
atas, dapat diambil kesimpulan bahwa status status kreditnya dapat dihubungkan dengan
variabel prediktornya sebagai berikut.
𝑙𝑙𝑜𝑔𝑖𝑡 (𝑃𝑖 ) = 3.233 + 2.739 𝑈𝑎𝑛𝑔 𝑀𝑢𝑘𝑎(1) − 0.141 𝐽𝑎𝑛𝑔𝑘𝑎 𝑊𝑎𝑘𝑡𝑢 𝑃𝑒𝑚𝑏𝑎𝑦𝑎𝑟𝑎𝑛
− 0.1 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛 + 0.411 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛(1)
+ 2.761 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛(2)
Sehingga model regresi logistiknya didapat sebagai berikut.
𝑒 −4.264+0.158𝑠𝑒𝑥(1)+1.997𝑚𝑒𝑟𝑜𝑘𝑜𝑘(1)+0.915𝑙𝑎𝑛𝑠𝑖𝑎(1)+3.230ℎ𝑦𝑝𝑒𝑟𝑐ℎ𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙(1)+1.294𝑜𝑏𝑒𝑠𝑖𝑡𝑎𝑠(1)
𝜋(𝑥) =
1 + 𝑒 (1)
DAFTAR PUSTAKA
Casella, G. and Berger, R.L. (2002), Statistik Inference, Duxbury Thomson Learning, USA.
15
Hosmer, D.W. dan Lemeshow, S. (1989), Applied Logistic Regression, John Wiley & Sons,
Inc., New York.
16