Regresi Logistik Biner

REGRESI LOGISTIK BINER DAN APLIKASINYA
PENDAHULUAN
Seringkali di dalam penelitian, seseorang ingin memodelkan hubungan antara variabel
X (prediktor; bebas) dan Y (respon; terikat). Metode yang paling sering dipakai dalam kasus
seperti itu adalah regresi linier, baik sederhana maupun berganda. Namun, adakalanya regresi
linier dengan metode OLS (Ordinary Least Square) yang sering dipakai tersebut kurang
sesuai untuk digunakan. Dikatakan kurang sesuai karena jika regresi linier biasa digunakan
akan terjadi pelanggaran asumsi Gauss-Markov. Misalnya pada kasus dimana variabel respon
bertipe data nominal, sedangkan variabel prediktornya bertipe data interval atau rasio.
Untuk mengatasi masalah ini, diperkenalkan metode Regresi Logistik. Sebagaimana
metode regresi biasa, regresi logistik dapat dibedakan menjadi 2, yaitu: Binary Logistic
Regression (Regresi Logistik Biner) dan Multinomial Logistic Regression (Regresi Logistik
Multinomial). Regresi Logistik biner digunakan ketika hanya ada 2 kemungkinan variabel
respon. Sedangkan Regresi Logistik Multinomial digunakan ketika pada variabel respon
terdapat lebih dari 2 kategori. Pendugaan koefisien model regresi logistik tidak dapat
dilakukan dengan metode OLS halnya regresi linear karena pelanggaran asumsi kehomogenan
varians. Casella and Berger (2002) mengatakan bahwa metode estimasi yang biasanya dipakai
adalah metode Maximum Likelihood, yang merupakan salah satu alternatif untuk
memaksimalkan peluang pengklasifikasian obyek yang diamati menjadi kategori yang sesuai
kemudian mengubahnya menjadi koefisien regresi yang sederhana. Metode ini
mengasumsikan bahwa nilai 𝜀 mengikuti distribusi binomial.
Regresi logistik biner telah banyak digunakan secara luas sebagai salah satu alat
analisis pemodelan ketika variabel responnya bersifat biner, yang merujuk pada penggunaan
dua buah bilangan 0 dan 1 untuk menggantikan dua kategori pada variabel respon. Contoh
variabel respon yang dimaksud adalah kesuksesan (sukses–gagal), kesetujuan (setuju–tidak
setuju), keinginan membeli (ya–tidak), terpilih atau tidak terpilih, dan masih banyak lagi.
Pada tulisan ini akan dibahas mengenai regresi logistik biner beserta aplikasinya
dengan bantuan software SPSS. Data yang digunakan dalam tulisan ini adalah data mengenai
CHD (Coronary Heart Disease) yang dihubungkan dengan sex, kebiasaan merokok,
kelompok usia, kadar kolesterol dan obesitas.
TINJAUAN PUSTAKA
1
1. Regresi Logistik Biner
Regresi logistik adalah metode statistika yang mempelajari tentang pola hubungan
secara matematis antara satu variabel respon (y) yang bersifat nominal atau ordinal dengan
satu atau lebih variabel prediktor (x). Perbedaan yang mendasar dengan model regresi linier
yaitu pada variabel responnya. Variabel respon pada regresi logistik merupakan variabel biner
atau dikotomus. Variabel prediktor dapat berupa variabel polikotomus (kategorik maupun
interval). Sedangkan untuk regresi linier, variabel responnya minimal berskala interval.
Perbedaan lainnya terlihat pada pemilihan model parametrik dan asumsi-asumsi yang
mendasari kedua model. Walaupun demikian, prinsip-prinsip pedugaan parameter yang
digunakan dalam analisis model regresi logistik sama dengan analisis model regresi linier
(Hosmer and Lemeshow, 1989). Menurut jenis skala dan variabel respon yang digunakan
regresi logistik dibagi menjadi 3 macam, yaitu regresi ligistik biner, multinomial dan ordinal.
Analisis regresi logistik biner adalah suatu regresi logistik antara variabel respon (y)
dan variabel prediktor (x) dimana variabel y menghasilkan 2 kategori yaitu 0 dan 1 (Hosmer
dan Lemeshow, 1989). Sehingga variabel y mengikuti distribusi Bernoulli dengan fungsi
probabilitasnya sebagai berikut.
𝑓(𝑦) = 𝜋 𝑦 (1 − 𝜋)1−𝑦 ; 𝑦 = 0, 1 (1)
Dimana jika y = 0 maka 𝑓(𝑦) = 1 − 𝜋 dan jika y = 1 maka 𝑓(𝑦) = 𝜋. Fungsi regresi
logistiknya dapat dituliskan sebagai berikut.
1 𝑒𝑧
𝑓(𝑧) = 1+𝑒 −𝑧 𝑒𝑘𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑓(𝑧) = 1+𝑒 𝑧 (2)
Dengan 𝑧 = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑝 𝑥𝑝
Jika nilai z antara −∞ dan ∞ maka nilai f(z) terletak antara 0 dan 1 untuk setiap nilai
z yang diberikan. Hal tersebut menunjukkan bahwa model logistik sebenarnya menggam-
barkan probabilitas atau resiko dari suatu obyek. Model regresi logistiknya adalah sebagai
berikut.
𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑝 𝑥𝑝
𝜋(𝑥) = (3)
1+𝑒 𝛽0 +𝛽1 𝑥1 +⋯+𝛽𝑝 𝑥𝑝
Dimana p = banyaknya variabel prediktor

Bila model persamaan di atas ditranformasi dengan tranformasi logit, maka didapatkan
bentuk logit seperti pada persamaan (4).
𝜋(𝑥)
𝑔(𝑥) = ln ( ) = 𝛽0 + 𝛽1 𝑥1 + ⋯ + 𝛽𝑝 𝑥𝑝 (4)
1−𝜋(𝑥)
2. Estimasi Parameter
2
Estimasi parameter dalam regresi logistik dapat dilakukan dengan metode Maximum
Likelihood namun apabila metode ini tidak menghasilkan solusi yang close form, maka dapat
dilanjutkan dengan menggunakan iterasi Newton Raphson, hingga menghasilkan solusi yang
konvergen.
Metode Maximum Likelihood

Pada suatu model dengan respon biner atau dikotom (bernilai 0 atau 1) dimana antar
pengamatan diasumsikan saling bebas maka penduga parameter 𝛽 dapat diperoleh dengan
metode Maximum Likelihood Estimation (MLE) dimana dengan metode ini parameter
diestimasi dengan memaksimumkan fungsi turunan pertama. Estimasi varian dan kovarian
diperoleh dari turunan kedua fungsi log likelihood.
Jika xi dan yi merupakan pasangan variabel bebas dan terikat pada pengamatan ke-i
dan diasumsikan bahwa setiap pasangan pengamatan saling independen dengan pasangan
pengamatan lainnya, i = 1, 2, ..., n maka fungsi probabilitas untuk setiap pasangan adalah se-
bagai berikut.
𝑓(𝛽, 𝑥𝑖 ) = 𝜋(𝑥𝑖 )𝑦𝑖 (1 − 𝜋(𝑥𝑖 ))𝑦𝑖 ; 𝑦𝑖 = 0, 1 (5)
𝑝
(∑ 𝛽 𝑥 )
𝑒 𝑗=0 𝑗 𝑖𝑗
Dengan (𝑥𝑖 ) = 𝑝 , dimana ketika j = 0 maka nilai xij = xi0 = 1. Setiap pasangan
(∑ 𝛽 𝑥 )
1+𝑒 𝑗=0 𝑗 𝑖𝑗
pengamatan diasumsikan saling bebas (independen) sehingga fungsi likelihood merupakan

gabungan dari fungsi distribusi masing-masing pasangan yaitu sebagai berikut:
𝑙 (𝛽) = ∏𝑛𝑖=1 𝑓(𝛽, 𝑥𝑖 )
= ∏𝑛𝑖=1 𝜋(𝑥𝑖 )𝑦𝑖 (1 − 𝜋(𝑥𝑖 ))1−𝑦𝑖
𝑝
[∑𝑗=0(∑𝑛
𝑖=1 𝑦𝑖 𝑥𝑖𝑗 )𝛽𝑗 ]
1
=𝑒 [∏𝑛𝑖=1 ( ∑
𝑝
𝛽 𝑥
)] (6)
Fungsi likelihood tersebut lebih mudah dimaksimumkan dalam bentuk log 𝑙(𝛽) yang
disebut juga log likelihood (𝐿(𝛽)). Bentuk itu dapat didefinisikan sebagai berikut.
𝐿(𝛽) = log 𝑙(𝛽)
𝑝
∑𝑗=0 𝛽𝑗 𝑥𝑖𝑗
= ∑𝑝𝑗=0(∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 ) 𝛽𝑗 − ∑𝑛𝑖=1 log (1 + 𝑒 ) (7)
Untuk mendapatkan nilai 𝛽 dari 𝐿(𝛽) yang maksimum maka dilakukan penurunan
terhadap 𝛽 dan hasilnya disamakan dengan nol.
𝑝
∑ 𝛽 𝑥
𝜕𝐿(𝛽) 𝑒 𝑗=0 𝑗 𝑖𝑗
= ∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 − ∑𝑛𝑖=1 𝑥𝑖𝑗 [ 𝑝 ]=0
𝜕𝛽𝑗 ∑ 𝛽 𝑥
∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 − ∑𝑛𝑛=1 𝑥𝑖𝑗 𝜋̂(𝑥𝑖 ) = 0 ; j = 0, 1, . . ., p (8)
3
Metode untuk mengestimasi varian dan kovarian dari estimasi koefisien parameter
dikembangkan dengan mengikuti teori Maximum Likelihood Estimation (MLE) yang
menyatakan bahwa estimasi varian dan kovarian diperoleh dari turunan kedua fungsi
likelihood dapat diperoleh hasil sebagai berikut.
𝜕𝐿(𝛽)
= ∑𝑛𝑖=1 𝑥𝑖𝑗 𝑥𝑖𝑢 𝜋(𝑥𝑖 )(1 − 𝜋(𝑥𝑖 )) (9)
𝜕𝛽𝑗 𝛽𝑢
𝜕2 𝐿(𝛽)
= − ∑𝑛𝑖=1 𝑥𝑖𝑗 𝑥𝑖𝑢 𝜋(𝑥𝑖 )(1 − 𝜋(𝑥𝑖 )) (10)
𝜕𝛽𝑗 𝜕𝛽𝑢
Apabila u = j, maka estimasi varian dapat ditulis.

𝜕2 𝐿(𝛽)
= − ∑𝑛𝑖=1 𝑥𝑖𝑗 2 𝜋𝑖 (1 − 𝜋𝑖 ) ; j, u = 0, 1, …, p (11)
𝜕(𝛽𝑗 )2
Metode Newton Raphson

Untuk memperoleh dugaan maksimum bagi parameter 𝛽 karena pada persamaan
likelihood didapatkan 𝜋(𝑥) yang non linier terhadap 𝛽 maka digunakan metode Newton
Raphson melalui iterasi 𝛽 (𝑡+1) = 𝛽 (𝑡) − (𝐻 (𝑡) )(−1) 𝑞 (𝑡) , dimana t = 0, 1, …sampai konvergen,
𝜕𝐿(𝛽) 𝜕𝐿(𝛽) 𝜕𝐿(𝛽)
dengan 𝑞 𝑇 = [ , ,… , ] dan H merupakan matriks Hessian.
𝜕𝛽0 𝜕𝛽1 𝜕𝛽𝑘
𝜕2 𝐿(𝛽) 𝜕2 𝐿(𝛽)
2
𝜕𝛽𝑗 𝜕𝛽𝑗 𝛽𝑢
𝐻 = [𝜕2𝐿(𝛽) 𝜕2 𝐿(𝛽)
]
2
𝜕𝛽𝑗 𝛽𝑢 𝜕𝛽𝑢
Langkah-langkah iterasi Newton Raphson adalah sebagai berikut.

- Gunakan nilai dugaan awal 𝛽 (0) dan dimasukan pada Persamaan (3) untuk mendapatkan
𝜋 (0) . Kemudian masukkan dalam Persamaan (10) dan (11).
- Selanjutnya untuk t > 0 digunakan nilai 𝛽̂ (1) = 𝛽 (0) − [𝐻 (0) ]−1 𝑞 (0) , nilai 𝛽̂ digunakan
untuk mencari 𝜋 (1) sehingga mendapatkan 𝑞 (1) dan 𝐻 (1) untuk memperoleh 𝛽̂ (2) sampai
konvergen.
3. Pengujian Estimasi Parameter

Setelah parameter hasil estimasi diperoleh, maka dilakukan pengujian keberartian
terhadap koefisien 𝛽 secara univariat terhadap variabel respon yaitu dengan membandingkan
parameter hasil maksimum likelihood, dugaan 𝛽 dengan standar error parameter tersebut.
Pengujian yang dilakukan adalah sebagai berikut.
a. Uji Serentak
Uji serentak dilakukan untuk mengetahui signifikansi parameter 𝛽 secara keseluruhan atau
serentak. Pengujian yang dilakukan sebagai berikut.
4
Hipotesis :
𝐻0 ∶ 𝛽1 = 𝛽2 = . . . = 𝛽𝑗 = 0
𝐻1 ∶ Paling tidak ada satu 𝛽𝑗 ≠ 0
Statistik uji (Likelihood Ratio Test) :
𝑛 𝑛1 𝑛 𝑛0
( 1) ( 0)
𝑛 𝑛
𝐺 = −2𝑙𝑛 ∑𝑛 𝑦𝑖 (12)
̂𝑖
𝑖=1 𝜋 ̂ 𝑖 )(1−𝑦𝑖 )
(1−𝜋
dimana : 𝑛1 = ∑𝑛𝑖=1 𝑦𝑖 ; 𝑛0 = ∑𝑛𝑖=1(1 − 𝑦𝑖 ) ; 𝑛 = 𝑛1 + 𝑛0

Daerah Penolakan :
Tolak H0 apabila nilai G > 2(v, ) atau P-value < , dimana v adalah derajat bebas
(banyak variabel prediktor yang ada di dalam model tanpa 𝛽0).
b. Uji Individu
Uji individu ini dilakukan untuk mengetahui signifikansi parameter 𝛽 secara individu
(Hosmer dan Lemeshow, 1989).
Hipotesis :
𝐻0 ∶ 𝛽𝑗 = 0
𝐻1 ∶ 𝛽𝑗 ≠ 0 ; j = 1, 2, …, p
Statistik uji (Uji Wald) :
̂𝑗 2
𝛽
2
𝑊 = ̂𝑗 )2 (13)
𝑆𝐸(𝛽
Daerah Penolakan :
Tolak H0 apabila Wi2 > 2(v, ) atau P-value <  dengan v adalah derajat bebas
banyaknya prediktor.
4. Uji Kesesuaian Model

Uji kesesuaian model berguna untuk mengetahui apakah model tanpa variabel-variabel
yang tidak signifikan adalah model terbaik. Terdapat beberapa statistik uji yang dapat
digunakan antara lain.
5
a. –2 log likelihood
𝑥
𝐺 2 = 2 ∑𝐼𝑖=1 ∑𝐽𝑗=1 𝑥𝑖𝑗 log (𝑚𝑖𝑗 ) (14)
𝑖𝑗
dimana : xij = nilai pengamatan

mij = frekuensi harapan
b. Goodness of fit
2
(𝑥𝑖𝑗 −𝑚𝑖𝑗 )
𝜒 2 = ∑𝐼𝑖=1 ∑𝐽𝑗=1 (15)
𝑚𝑖𝑗
Dari kedua statistik uji di atas, untuk menguji hipotesis adalah sebagai berikut.
Hipotesis :
H0 : model yang dihipotesakan sesuai dengan data
H1 : model yang dihipotesakan tidak sesuai dengan data
Daerah Penolakan :
Tolak H0 apabila 2 hitung > 2 (,b) atau G2 hitung > 2 (,b) dimana b merupakan
selisih variabel prediktor dari kedua model yang dibandingkan atau p value < .
c. Improvement
Uji ini digunakan untuk mengetahui variabel prediktor yang belum masuk ke dalam model
apakah memiliki signifikansi dalam model.
Hipotesis :
H0 : model ringkas adalah model terbaik
H1 : model lengkap adalah model terbaik
Statistik uji :
𝐺 2 = −2(𝐿0 − 𝐿1 ) (16)
dimana :
L0 = log likelihood untuk model ringkas (tanpa variabel tertentu)
L1 = log likelihood untuk model lengkap (dengan variabel tertentu)

Daerah Penolakan :
Tolak H0 apabila nilai G2 > 2 (,b) dimana b merupakan selisih variabel prediktor dari
kedua model yang dibandingkan.
5. Interpretasi Koefisien Parameter

Dengan diperolehnya kesesuaian model pada parameter yang signifikan maka selan-
jutnya nilai parameter tersebut diinterpretasikan untuk menjelaskan dua persoalan berikut :
6
- Untuk menjelaskan kecenderungan/hubungan fungsional antara variabel-variabel prediktor
dengan variabel respon.
- Untuk menentukan unit perubahan setiap variabel prediktor.
Interpretasi variabel prediktor (x) dibagi menjadi 2 yaitu :
a. Untuk Variabel Diskrit

Odds ratio (𝜓) merupakan salah satu ukuran tingkat resiko yang digunakan dalam
menginterpretasikan parameter. Misalkan variabel prediktor yang bersifat ordinal dibagi
dalam dua kategori yang dinyatakan dengan kode 0 dan 1, disini kategori pertama
dibandingkan dengan kategori kedua berdasarkan nilai 𝜓-nya yang menyatakan kategori
pertama berpengaruh 𝜓 kali kategori kedua terhadap variabel respon. Nilai- nilai tersebut
dapat dinyatakan dalam Tabel 1.
Tabel 1. Nilai Probabilitas Pengaruh x terhadap y

Variabel Prediktor (x)
x=1 x=0
𝛽0 +𝛽1
𝑒 𝑒 𝛽0
Variabel 𝜋(1) = 𝜋(0) =
y =1 1 + 𝑒𝛽0+𝛽1 1 + 𝑒 𝛽0
respon
1 1
(y) 1 − 𝜋(1) = 1 − 𝜋(0) =
y =0 1 + 𝑒𝛽0+𝛽1 1 + 𝑒𝛽0
Nilai Odds ratio untuk x = 1 dan x = 0 didefinisikan sebagai berikut.

𝜋(1)
1−𝜋(1) 𝜋(1)(1−𝜋(0))
𝜓= 𝜋(0) = 𝜋(0)(1−𝜋(1))
1−𝜋(0)
𝑒 𝛽0 +𝛽1
𝜓= sehingga 𝜓 = 𝑒 𝛽1 maka ln 𝜓 = 𝛽1
𝑒 𝛽0
Variabel prediktor (x) tidak selalu dikategorikan dalam 2 kategori bisa lebih misalnya
dalam 5 kategori atau k = 5 sehingga setiap variabelnya merupakan variabel diskrit dengan
skala pengukuran nominal. Untuk k = 5 digunakan variabel dummy k - 1 = 4. Dapat dijelaskan
dalam Tabel 2 sebagai berikut :
Tabel 2. Variabel Dummy Untuk x Dengan 5 Kategori

Variabel x D1 D2 D3 D4
1 0 0 0 0
2 1 0 0 0
3 0 1 0 0
4 0 0 1 0
5 0 0 0 1
7
Desain variabel di atas untuk membandingkan variabel dengan kategori 2, 3, 4, 5
dengan kategori 1 dengan 𝜓 sama seperti pada variabel x dikotomus yang memandang satu
sebagai pembanding.
b. Untuk Variabel Kontinu

Jika variabel prediktor yang masuk ke dalam model regresi logistik adalah kontinu
maka interpretasi dari parameter tergantung pada unit variabel bebas yang masuk misalkan
fungsi 𝑔(𝑥) = 𝛽0 + 𝛽1 (𝑥) di mana koefisien 𝛽1 akan memberi perubahan pada g(x) sebesar
satu unit pada setiap perubahan satu unit level x dan secara matematis dinyatakan dengan
g(x+1)-g(x). Jika x berubah sebesar t unit maka g(x) berubah sebesar t1 yang secara
matematis dinyatakan dengan g(x+t)-g(x) = t1. Odds ratio dari 𝜓(𝑡) = 𝜓(𝑥 + 𝑡, 𝑥) =
𝐸𝑥𝑝(𝑡𝛽1 ).
STUDI KASUS DAN PEMBAHASAN

Sebuah perusahaan pembiayaan sepeda motor ingin mengetahui faktor-faktor apa saja
yang mempengaruhi sebuah kridit kendaraan dapat mengalami kemacetan. Data digunakan
sampel sebanyak 35 peminjam untuk mencari penyebab dimana faktor-faktor yang dicurigai
diantaranya, DP (Besar uang muka), jangka waktu pembayaran, umur peminjam dan
pendidikan peminjam
Pada contoh kasus, variabel prediktornya lebih dari satu. Dalam data ini, yang
merupakan variabel respon adalah status Kredit (“Macet” = 1 dan “Tidak Macet” = 0).
Variabel prediktor untuk contoh kasus ini bersifat nominal, yaitu.
Tabel 3. Variabel prediktor untuk CHD

Variabel Prediktor Kategori Nilai
x1 ≤ Rp 1.5 juta 1
(DP Uang Muka) > Rp 1.5 juta 0
x2
Numerik
Jangka waktu
x3
Numerik
Umur
Perguruan tinggi 0
x4
SMA 1
Pendidikan
≤ SMP 2
Tabel diatas menunjukan nama variabel. Untuk variabel independen Kategorik

seperti Dp (Uang Muka) dan Pendidikan diberi kode kategorinya dimana kategori yang
diberi kode nol “0”, nantinya dijadikan sebagai Reference Category. Reference Category
8
umumnya dipilih berdasarkan Kategori yang memiliki Resiko Paling Kecil seperti
pendidikan Perguruan Tinggi, hal ini bertujuan untuk memudahkan dalam pembacaan
hasil analisa. Untuk variabel dependen Status Kridit, kategori resiko diberi kode lebih
besar dari pada kategori tidak beresiko.
Berikut adalah analisis dan pembahasan untuk data pada Lampiran 1, sedangkan
hasil output SPSS selengkapya dapat dilihat pada Lampiran 2.
A. Langkah-langkah Analisis Regresi Logistik

1. Masukkan nilai pada Variabel View
2. Klik Analyze ➔ Regression➔ Binary Logistic
3. Masukan Variabel : Status Kridit ke Dependent Uang Muka , Jangka Waktu

Pembayaran, Umur Pemohon dan Pendidikan ke Covariates.
9
4. Klik categorical pilih variabel covariates dp dan Pendidikan kedalam categorical
covariates, klik reference category first kemudian klik change.
5. Klik Menu Options ➔Muncul Menu Dialog berikut : Centang Hosmer-Lemeshow dan
CI for exp(B).
10
6. Klik Continue ➔ Oke, berikut outputnya,
Berikut interpretasi hasil uji regresi logistik
B. Estimasi Parameter Regresi Logistik

Dari Tabel 4, diperoleh estimasi parameter regresi logistik, sehingga model regresi
logistik biner dapat dituliskan sebagai berikut:
𝑙𝑜𝑔𝑖𝑡 (𝑃𝑖 ) = 3.233 + 2.739 𝑈𝑎𝑛𝑔 𝑀𝑢𝑘𝑎(1) − 0.141 𝐽𝑎𝑛𝑔𝑘𝑎 𝑊𝑎𝑘𝑡𝑢 𝑃𝑒𝑚𝑏𝑎𝑦𝑎𝑟𝑎𝑛
− 0.1 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛 + 0.411 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛(1)
+ 2.761 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛(2)
dimana:
𝑃𝑖 = 𝑃(𝑌 = 1)
𝑃
𝑔(𝑥) = 𝑙𝑜𝑔𝑖𝑡 (𝑃) = log( )
1−𝑃
sehingga
𝑒 𝛽0+𝛽1𝑥1 +⋯+𝛽𝑝𝑥𝑝
𝜋(𝑥) =
1 + 𝑒 𝛽0+𝛽1𝑥1+⋯+𝛽𝑝 𝑥𝑝
11
Tabel 4. Estimasi Parameter
95% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step 1a Uang Muka(1) 2.739 1.336 4.202 1 .040 15.474 1.128 212.375
Jangka Waktu -.141 .065 4.613 1 .032 .869 .764 .988
Pembayaran
Umur Pemohon -.100 .119 .712 1 .399 .905 .717 1.142
Pendidikan Pemohon 5.419 2 .067
Pendidikan .411 1.189 .119 1 .730 1.508 .147 15.523
Pemohon(1)
Pendidikan 2.761 1.267 4.748 1 .029 15.818 1.320 189.572
Pemohon(2)
Constant 3.233 4.287 .569 1 .451 25.345
Kolom Sig menginformasikan signifikan pengaruh variabel Independen terhadap Variabel

Dependen. Terjadi pengaruh yang signifikan jika nilai sig < 0,05. Tampak variabel yang
berpengaruh terhadap Macet/Tidak dari Kridit seorang Pemohon diantaranya dp (sig 0,040),
Jangka_waktu (sig 0,032), dan pendidikan(2)/ ≤ SMP (sig 0,029). Untuk Pendidikan (1)
merupakan kategori pendidiikan “SMA” dibanding dengan yang pendidikan “Perguruan
Tinggi” (Reference Category) tidak signifikan berbeda resiko macetnya, namun dengan
pendidikan(2) yang merupakan kategori pendidikan “≤ SMP” ada perbedaan signifikan resiko
macetnya dengan yang pendidikan “Perguruan Tinggi”.
Interpretasi model regresi dari Tabel 4 adalah:
• Nilai Exp(B) pada variabel dp 15,474 yang artinya nilai dp ≤ 1,5 juta cenderung
lebih beresiko mengalami macet jika dibandingkan dengan yang dp > 1,5 juta
(reference Category-nya) sebesar 15,474 kali.
• Nilai Exp(B) pada variabel Jangka waktu 0,869 yang artinya semakin lama
Jangka_waktu pembayaran akan semakin kecil resiko untuk mengalami macet.
• Nilai Exp(B) pada variabel “pendidikan(2)” 15,818 yang artinya pemohon yang
pendidikannya “≤ SMP” lebih beresiko 15,818 mengalami macet jika
dibandingkan dengan yang pendidikannya “Perguruan Tinggi”.
12
a. Uji Serentak Parameter Regresi Logistik
Adapun hipotesis untuk pengujian signifikansi parameter regresi secara serentak yaitu:
Ho : β1 = β2 = … = β5 = 0
Ha : Minimal ada satu βj ≠ 0; j = 1, 2, …, 5
Statistik uji yang digunakan yaitu uji 𝜒 2 . Ho ditolak bila p-value < α, untuk α = 0.05.
Dari Tabel 5, 𝜒 2 =113.789 dan p-value = 0.000, sehingga dapat disimpulkan untuk
menolak Ho. Jadi minimal ada satu parameter regresi logistik tidak sama dengan nol.
Tabel 5. Uji Omnibus Koefisien Model
Chi-square df Sig.
Step 1 Step 19.368 5 .002
Block 19.368 5 .002
Model 19.368 5 .002
b. Uji Parsial Parameter Regresi Logistik

Adapun hipotesis untuk pengujian signifikansi parameter regresi secara parsial yaitu:
Ho : βj = 0
Ha : βj ≠ 0; j = 1, 2, …, 5
χ2 χ2
Statistik uji yang digunakan yaitu uji chi-square, Ho ditolak apabila hitung > Tabel(α/2)
atau jika p-value < α, untuk α = 0.05. Estimasi parameter yang diperoleh dari output
SPSS dapat dilihat pada Tabel 4. Dari 6 parameter yang ada, diketahui bahwa pada α =
0.05, hanya 3 parameter yang signifikan jangka uang muka (dp), waktu pembayaran,
dan Pendidikan (2) “≤ SMP”.
C. Uji Kesesuaian Model

Tahap selanjutnya yaitu menguji kesesuaian model (goodness of fit). Adapun hipotesis
dari uji kesesuaian model yaitu:
Ho : model yang dihipotesakan sesuai dengan data
Ha : model yang dihipotesakan tidak sesuai dengan data
Tabel 6 menunjukkan pengujian kesesuaian model regresi logistik biner. Untuk
pengujian ditampilkan uji Hosmer-Lemeshow. Dimana p-value = 0.404, lebih besar
bila dibandingkan dengan α (α = 0.05), sehingga dapat disimpulkan bahwa model
yang dihipotesakan sesuai dengan data.
13
Tabel 6. Uji Hosmer dan Lemeshow
Step Chi-square df Sig.

1 7.243 7 .404
D. Ekspektasi dan Pengukuran Asosiasi

Pada Tabel 7 dapat dilihat frekuensi amatan dan harapan dari data, sedangkan
pada Tabel 8, dapat dilihat sejauh mana keragaman variabel respon Y dapat dijelaskan
oleh variabel prediktor Xi dengan melihat Nagelkerke R-square. Pada kasus ini
diperoleh nilainya sebesar 57.1% yang berarti bahwa sebesar 57.1% keragaman
variabel respon Kredit macet dapat dijelaskan oleh variabel prediktor.
Tabel 7. Tabel Kontingensi Uji Hosmer dan Lemeshow
Status Kridit = Tdk Macet Status Kridit = Macet

Total
Observed Expected Observed Expected
1 4 3.953 0 .047 4
2 4 3.717 0 .283 4
3 2 3.436 2 .564 4
4 3 3.009 1 .991 4
Step 1 5 4 2.629 0 1.371 4
6 2 1.822 2 2.178 4
7 1 .961 3 3.039 4
8 0 .406 5 4.594 5
9 0 .067 2 1.933 2
Tabel 8. Ringkasan Model
Cox & Snell R Nagelkerke R

Step -2 Log likelihood
Square Square
1 28.435a .425 .571
a. Estimation terminated at iteration number 6 because
parameter estimates changed by less than .001.
14
E. Sensitivitas atau Spesifisitas
Tabel 9 menunjukkan bahwa model regresi logistik yang terbentuk bisa
membuat klasifikasi dalam penaksiran nilai Y yaitu sebesar 82.9%. Artinya dengan
model persamaan regresi logistik ini bisa memprediksi seseorang Kreditnya macet
dimana pada kenyataannya dia memang kreditnya macet, atau memprediksi seseorang
tidak macet kreditnya dimana pada kenyataannnya dia memang tidak macet kreditnya
adalah sebesar 82.9%.
Tabel 9. Tabel Klasifikasi
Predicted
Status Kridit Percentage
Observed Tdk Macet Macet Correct
Step 1 Status Kridit Tdk Macet 18 2 90.0
Macet 4 11 73.3
Overall Percentage 82.9
a. The cut value is .500
KESIMPULAN
Kesimpulan dari tulisan ini adalah regresi logistik biner digunakan untuk data yang
variabel responnya merupakan data yang terdiri dari dua kategori, dengan satu variabel
prediktor atau lebih, baik yang bersifat kategorik maupun kontinu. Dari contoh kasus kredit di
atas, dapat diambil kesimpulan bahwa status status kreditnya dapat dihubungkan dengan
variabel prediktornya sebagai berikut.
𝑙𝑙𝑜𝑔𝑖𝑡 (𝑃𝑖 ) = 3.233 + 2.739 𝑈𝑎𝑛𝑔 𝑀𝑢𝑘𝑎(1) − 0.141 𝐽𝑎𝑛𝑔𝑘𝑎 𝑊𝑎𝑘𝑡𝑢 𝑃𝑒𝑚𝑏𝑎𝑦𝑎𝑟𝑎𝑛
− 0.1 𝑢𝑚𝑢𝑟 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛 + 0.411 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛(1)
+ 2.761 𝑝𝑒𝑛𝑑𝑖𝑑𝑖𝑘𝑎𝑛 𝑝𝑒𝑚𝑜ℎ𝑜𝑛𝑎𝑛(2)
Sehingga model regresi logistiknya didapat sebagai berikut.
𝑒 −4.264+0.158𝑠𝑒𝑥(1)+1.997𝑚𝑒𝑟𝑜𝑘𝑜𝑘(1)+0.915𝑙𝑎𝑛𝑠𝑖𝑎(1)+3.230ℎ𝑦𝑝𝑒𝑟𝑐ℎ𝑜𝑙𝑒𝑠𝑡𝑒𝑟𝑜𝑙(1)+1.294𝑜𝑏𝑒𝑠𝑖𝑡𝑎𝑠(1)
𝜋(𝑥) =
1 + 𝑒 (1)
DAFTAR PUSTAKA
Casella, G. and Berger, R.L. (2002), Statistik Inference, Duxbury Thomson Learning, USA.
15
Hosmer, D.W. dan Lemeshow, S. (1989), Applied Logistic Regression, John Wiley & Sons,
Inc., New York.
16

Regresi Logistik Biner

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Regresi Logistik Biner

Diunggah oleh

Hak Cipta:

Format Tersedia

REGRESI LOGISTIK BINER DAN APLIKASINYA

Dimana p = banyaknya variabel prediktor

Metode Maximum Likelihood

pengamatan diasumsikan saling bebas (independen) sehingga fungsi likelihood merupakan

∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑗 − ∑𝑛𝑛=1 𝑥𝑖𝑗 𝜋̂(𝑥𝑖 ) = 0 ; j = 0, 1, . . ., p (8)

Apabila u = j, maka estimasi varian dapat ditulis.

Metode Newton Raphson

Langkah-langkah iterasi Newton Raphson adalah sebagai berikut.

3. Pengujian Estimasi Parameter

dimana : 𝑛1 = ∑𝑛𝑖=1 𝑦𝑖 ; 𝑛0 = ∑𝑛𝑖=1(1 − 𝑦𝑖 ) ; 𝑛 = 𝑛1 + 𝑛0

4. Uji Kesesuaian Model

dimana : xij = nilai pengamatan

L1 = log likelihood untuk model lengkap (dengan variabel tertentu)

5. Interpretasi Koefisien Parameter

a. Untuk Variabel Diskrit

Tabel 1. Nilai Probabilitas Pengaruh x terhadap y

Nilai Odds ratio untuk x = 1 dan x = 0 didefinisikan sebagai berikut.

Tabel 2. Variabel Dummy Untuk x Dengan 5 Kategori

b. Untuk Variabel Kontinu

STUDI KASUS DAN PEMBAHASAN

Tabel 3. Variabel prediktor untuk CHD

Tabel diatas menunjukan nama variabel. Untuk variabel independen Kategorik

A. Langkah-langkah Analisis Regresi Logistik

2. Klik Analyze ➔ Regression➔ Binary Logistic

3. Masukan Variabel : Status Kridit ke Dependent Uang Muka , Jangka Waktu

Berikut interpretasi hasil uji regresi logistik

B. Estimasi Parameter Regresi Logistik

Kolom Sig menginformasikan signifikan pengaruh variabel Independen terhadap Variabel

Interpretasi model regresi dari Tabel 4 adalah:

Tabel 5. Uji Omnibus Koefisien Model

b. Uji Parsial Parameter Regresi Logistik

C. Uji Kesesuaian Model

Step Chi-square df Sig.

D. Ekspektasi dan Pengukuran Asosiasi

Tabel 7. Tabel Kontingensi Uji Hosmer dan Lemeshow

Status Kridit = Tdk Macet Status Kridit = Macet

Tabel 8. Ringkasan Model

Cox & Snell R Nagelkerke R

Tabel 9. Tabel Klasifikasi

Anda mungkin juga menyukai