Regresi Logistik
Regresi Logistik
http://ariyoso.wordpress.com/2009/11/11/regresi-logistik
Regresi linier seperti yang kita ketahui tidak dapat menyelesaikan kasus dimana variabel
dependent bersifat dikotomi dan kategori dengan dua atau lebih kemungkinan (ex. sukses
atau Gagal; terpilih atau tidak terpilih; lulus atau tidak lulus; melakukan pembelian atau
tidak; mendapat promosi atau tidak, dan lain-lain). Regresi logistik umumnya melibatkan
berbagai macam variabel prediktor baik numerik ataupun kategorik, termasuk variabel
dummy. Pada regresi linier, variabel prediktor yang digunakan biasanya numerik, tetapi jika
kita melibatkan campuran antara numerik maupun kategorik kita dapat menggunakan regresi
logistik.
Regresi logistik membentuk persamaan atau fungsi dengan pendekatan maximum likelihood,
yang memaksimalkan peluang pengklasifikasian objek yang diamati menjadi kategori yang
sesuai kemudian mengubahnya menjadi koefisien regresi yang sederhana. Dua nilai yang
biasa digunakan sebagai variabel dependen yang diprediksi adalah 0 dan 1 (ex. 1=berhasil,
0=gagal).
Regresi logistik menghasilkan rasio peluang (odds ratios) antara keberhasilan atau kegagalan
suatu dari analisis. Dapat kita contohkan dengan seorang tokoh yang ingin menjadi presiden,
akan lebih baik peluangnya jika menjadi ketua partai politik tertentu. Disini odds ratio yang
dimaksud adalah seberapa besar peluang tokoh tersebut dengan mempertimbangkan variabel
prediktor yang ada.
Regresi logistik akan membentuk variabel prediktor/respon (log (p/(1-p)) yang merupakan
kombinasi linier dari variabel independen. Nilai variabel prediktor ini kemudian
ditransformasikan menjadi probabilitas dengan fungsi logit.
Regresi logistik menghasilkan rasio peluang yang dinyatakan dengan transformasi fungsi
logaritma (log), dengan demikian fungsi transformasi log ataupun ln diperlukan untuk p-
value, dengan demikian dapat dinyatakan bahwa logit(p) merupakan log dari peluang (odds
ratio) atau likelihood ratio dengan kemungkinan terbesar nilai peluang adalah 1, dengan
demikian persamaan regresi logistik menjadi:
logit(p) = log (p/1-p) = ln (p/1-p)
Dimana p adalah kemungkinan bahwa Y = 1, dan X1, X2, X3 adalah variabel independen,
dan b adalah koefisien regresi.
Data berikut ini diberikan oleh pengurus mesjid di yang terletak diantara 2 kampung, data
tersebut dapat dilihat sebagai berikut:
- Persepsi pengurus mesjid terhadap 100 orang warga di kedua kampung yang memiliki
penyakit “PELIT” dalam memberikan sumbangan bagi keropak amal mesjid mereka,
Dari data diatas konsep odds (peluang) dapat dijelaskan sebagai berikut:
- Warga kampung A yang memiliki kecenderungan tidak “PELIT” adalah 20/80 = 0,25
terhadap 1 (dalam konsep taruhan artinya 1: 4).
- Demikian juga dengan warga kampung B yang memiliki kecenderungan “PELIT” dan tidak
“PELIT” adalah 27/73 = 0,37 terhadap 1 (dalam konsep taruhan artinya 1 : 2)
Sedangkan konsep Relative Odds berdasarkan data diatas menunjukkan bahwa warga
kampung A memiliki kecenderungan “PELIT” daripada warga kampung B sebesar 4/0,73 =
5,5 terhadap 1, dengan kata lain warga kampung A lebih pelit 5,5 kali daripada warga
kampung B, atau dengan kata lain pengurus mesjid mempersepsikan bahwa warga yang
memiliki penyakit “PELIT” kebanyakan berasal dari kampung A yaitu 5,5 kali daripada
warga kampung B.
Likelihood berarti juga peluang atau probabilitas untuk hipotesis tertentu. Seperti yang kita
ketahui pada kurva regresi linier kita lihat adanya hubungan linier, peningkatan pada sumbu
Y akan diikuti dengan peningkatan pada sumbu X dan sebaliknya. Tetapi pada regresi logistik
dengan nilai Y antara 0 dan 1, pendekatan linier tidak bisa kita gunakan. Oleh karena itu
metode maximum likelihood sangat berguna dalam menentukan kecocokan model yang tepat
bagi persamaan yang kita miliki.
Regresi logistik merupakan regresi non linier dimana model yang ditentukan akan mengikuti
pola kurva linier seperti gambar di bawah ini.
Regresi logistik juga menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap
prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul
yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang
(odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio
peluang bagi predictor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio
peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar
1 unit.
Lebih jelasnya kita dapat mengikuti ilustrasi berikut ini:
Jika kita ingin mengetahui pembelian kosmetik merk tertentu oleh beberapa orang wanita
dengan beberapa variabel penjelas antara lain adalah umur, tingkat pendapatan (low, medium,
high), dan status (M – menikah; S untuk single). Pada data tersebut, pembelian merupakan
variabel prediktor yang dijelaskan dengan angka 1 sebagai membeli dan 0 sebagai tidak
membeli.
2. Setelah data diinput, pilih Analyze – Regression – Binary logistic seperti berikut:
3. Setelah muncul kotak dialog logistic regression, masukkan variabel dependen purchase ke
kolom Dependent, dan ketiga variabel independen ke dalam kolom covariates, lalu pilih
button categorical untuk memasukkan variabel kategorik yaitu pendapatan dan status – klik
continue:
4. Setelah itu pilih option, checklist classification plot dan Hosmer-lemeshow goodness of fit,
kemudian continue:
5. Kemudian pada method pilih enter, kemudian klik OK:
Output classification table diatas menjelaskan bahwa persentase variabel yang diprediksi
sebesar 88,9 persen adalah baik, dan dari perbandingan antara kedua nilai mengindikasikan
tidak terdapatnya masalah homoskedastisitas.
Pada output variables in equation signifikansi adalah 0,05 artinya model tidak signifikan dan
dengan demikian terima H0.
Pada output omnibus test menyatakan bahwa hasil uji chi-square goodness of fit lebih kecil
dari 0,05, ini mengindikasikan bahwa model adalah signifikan.
Hasil output pada Cox-Snell R2 dan Nagelkerke R memiliki analogi sama dengan nilai R-
square pada regresi linier, menyakatan bahwa sebanyak 50,2 persen keragaman dapat
dijelaskan oleh model, sedangkan sisanya diluar model.
Hasil pada output Hosmer and Lemeshow Goodness-of-Fit Test mengindikasikan bahwa kita
dapat menerima H0 karena lebih dari 0,05 (1 > 0,05).
output classification table mengindikasikan dalam model regresi logistik, masih terdapat
masalah homoskedastisitas karena nilai persentase keseluruhan adalah sama (100%).
output variables in the equation menunjukkan nilai signifikansi berdasarkan Wald Statistic,
jika model signifikan, maka nilai sig. adalah kurang dari 0,05.
Kolom Exp(B) menunjukkan nilai odds ratio yang dihasilkan. Nilai odds ratio yang
mendekati 1,0 mengindikasikan bahwa variabel independen tidak mempengaruhi variabel
dependen.