Rudi Salam
rudisalam@stis.ac.id - 1
Pengantar
• Keterbatasan krusial dari regresi linier adalah bahwa
ia tidak dapat menangani DV yang bersifat dikotomi
dan kategori.
• Banyak variabel menarik dalam dunia bisnis bersifat
dikotomi.
• Misalnya konsumen membuat keputusan untuk
membeli atau tidak membeli, suatu produk mungkin
lolos atau gagal kontrol kualitas, ada risiko kredit baik
atau buruk, seorang karyawan mungkin
dipromosikan atau tidak.
rudisalam@stis.ac.id - 2
Pengantar
• Berbagai teknik regresi telah dikembangkan untuk
menganalisis data dengan variabel dependen
kategorikal, termasuk regresi logistik.
• Dalam kasus di mana variabel independen adalah
kategori, atau campuran kontinu dan kategori, dan DV
adalah kategori, maka regresi logistik diperlukan.
• Regresi logistik. Menentukan pengaruh dari beberapa
variabel independen yang disajikan secara bersamaan
untuk memprediksi keanggotaan salah satu dari dua
kategori pada variabel dependen.
rudisalam@stis.ac.id - 3
Pengantar
• Since the dependent variable is dichotomous we
cannot predict a numerical value for it using logistic
regression, so the usual regression least squares
deviations criteria for best fit approach of minimizing
error around the line of best fit is inappropriate.
• Logistic regression employs binomial probability
theory in which there are only two values to predict:
that probability (p) is 1 rather than 0, i.e. the
event/person belongs to one group rather than the
other.
rudisalam@stis.ac.id - 4
Pengantar
• Logistic regression forms a best fitting equation or
function using the maximum likelihood method, which
maximizes the probability of classifying the observed
data into the appropriate category given the regression
coefficients.
• Like ordinary regression, logistic regression provides a
coefficient ‘b’, which measures each IV’s partial
contribution to variations in the DV.
• The goal is to correctly predict the category of outcome
for individual cases using the most parsimonious model.
rudisalam@stis.ac.id - 5
Pengantar
• To accomplish this goal, a model (i.e. an
equation) is created that includes all predictor
variables that are useful in predicting the
response variable.
• Variables can, if necessary, be entered into the
model in the order specified by the researcher
in a stepwise fashion like regression.
rudisalam@stis.ac.id - 6
Pengantar
Ada dua kegunaan utama dari regresi logistik:
• Pertama adalah prediksi keanggotaan dari suatu
grup. Karena regresi logistik menghitung
peluang sukses dibandingkan dengan peluang
gagal, hasil dari analisis adalah dalam bentuk
odds ratio.
• Regresi logistik juga memberikan pengetahuan
mengenai hubungan dan kekuatan diantara
variabel.
rudisalam@stis.ac.id - 7
Asumsi
• Regresi logistik tidak mengasumsikan
hubungan linier antara variabel dependen dan
independen.
• Variabel dependen adalah dikotomi (dua
kategori).
• Variabel independen bisa kategori atau
kontinu, atau campuran antara kontinu dan
kategori.
rudisalam@stis.ac.id - 8
Asumsi
• Kategori-kategori (groups) harus mutually
exclusive dan exhaustive; a case can only be in
one group and every case must be a member of
one of the groups.
• Dibandingkan regresi linier, regresi logistik
membutuhkan sampel yang lebih besar karena
koefisien maksimum likelihood adalah estimasi
menggunakan sampel besar. Direkomendasikan
minimum 50 baris per prediktor.
rudisalam@stis.ac.id - 9
Ilustrasi non-matematis dari regresi logistik
rudisalam@stis.ac.id - 16
Persamaan regresi logistic
• Kita dapat melihat dari Gambar 1 bahwa dari 'x' yang
diplot, ada kemungkinan yang agak lebih besar bahwa
mereka yang memperoleh nilai di atas rata-rata hingga
tinggi pada tes matematika lulus kursus akuntansi,
sementara yang mendapat nilai di bawah rata-rata hingga
rendah cenderung gagal.
• Ada juga tumpang tindih di area tengah. Tetapi jika kita
mencoba menggambar garis lurus (best fitting), seperti
pada regresi linier, itu tidak akan berhasil, karena
perpotongan dari hasil matematika dan hasil akuntansi
lulus/gagal membentuk dua garis x, seperti pada Gambar 1.
rudisalam@stis.ac.id - 17
Persamaan regresi logistic
• Gambar 2
rudisalam@stis.ac.id - 18
Persamaan regresi logistic
• Solusinya adalah mentrasformasi hasil ini menjadi
probabilitas.
• Kita dapat menghitung rata-rata nilai Y pada setiap titik
pada sumbu X. Kami kemudian dapat memplot
probabilitas Y pada setiap nilai X dan itu akan terlihat
seperti garis grafik bergelombang yang ditumpangkan
pada data asli pada Gambar 2.
• Ini adalah kurva yang lebih halus, dan mudah untuk
melihat bahwa kemungkinan lulus kursus akuntansi
(sumbu Y) meningkat seiring dengan peningkatan nilai X.
rudisalam@stis.ac.id - 19
Persamaan regresi logistic
• Seperti yang Anda lihat, kurva ini bukanlah
garis lurus; itu lebih merupakan kurva
berbentuk S.
• Nilai diprediksi diinterpretasikan sebagai
probabilitas dan sekarang bukan hanya dua
kondisi dengan nilai 0 atau 1 tetapi data
kontinu yang dapat mengambil nilai
berapapun dari 0 hingga 1.
rudisalam@stis.ac.id - 20
Persamaan regresi logistic
• Outcome-nya bukanlah prediksi dari nilai Y,
seperti dalam regresi linier, tetapi peluang
menjadi milik salah satu dari dua kondisi Y,
yang dapat mengambil nilai apa pun antara 0
dan 1 daripada hanya 0 dan 1 seperti pada
Gambar 1.
rudisalam@stis.ac.id - 21
Persamaan regresi logistic
• Sayangnya, transformasi matematis lebih lanjut –
transformasi log – diperlukan untuk menormalkan
distribusi (transformasi log dan transformasi akar
kuadrat memindahkan distribusi miring mendekati
normalitas).
• Transformasi log dari nilai p ke distribusi log ini
memungkinkan kita membuat tautan dengan
persamaan regresi normal. Distribusi log (atau
transformasi logistik p) disebut juga logit p atau
logit(p).
rudisalam@stis.ac.id - 22
Persamaan regresi logistic
• Logit(p) adalah log (basis e) dari rasio odds atau
rasio kemungkinan bahwa variabel
dependennya adalah 1. Dalam simbol
didefinisikan sebagai:
logit(p) = log[p/(1-p)] = ln[p/(1-p)]
• Nilai p hanya dapat berkisar dari 0 hingga 1,
semetara skala logit(p) berkisar dari negative
tak hingga sampai positif tak hingga dan
simetris di sekitar logit 0,5 (yaitu nol).
rudisalam@stis.ac.id - 23
Persamaan regresi logistic
• Rumus berikut ini menunjukkan hubungan
antara persamaan regresi biasa (a + bx … dst.),
yang merupakan rumus garis lurus, dan
persamaan regresi logistik.
• Bentuk persamaan regresi logistik adalah:
The logistic regression equation
• Ini terlihat seperti regresi linier dan meskipun
regresi logistik menemukan persamaan yang
‘best fitting', seperti halnya regresi linier,
prinsip-prinsipnya agak berbeda.
• Alih-alih menggunakan kriteria deviasi kuadrat
terkecil untuk best fit, ia menggunakan metode
kemungkinan maksimum, yang memaksimalkan
kemungkinan mendapatkan hasil yang diamati
dengan koefisien regresi yang sesuai.
rudisalam@stis.ac.id - 25
The logistic regression equation
• A consequence of this is that the goodness of fi t and
overall significance statistics used in logistic regression
are different from those used in linear regression.
• Konsekuensi dari ini adalah bahwa kebaikan fit dan
statistik signifikansi keseluruhan yang digunakan dalam
regresi logistik berbeda dengan yang digunakan dalam
regresi linier.
• p can be calculated with the following formula (formula
2) which is simply another rearrangement of formula 1:
rudisalam@stis.ac.id - 26
The logistic regression equation
Where:
p = the probability that a case is in a particular
category,
exp = the base of natural logarithms (approx 2.72),
a = the constant of the equation and,
b = the coefficient of the predictor variables.
rudisalam@stis.ac.id - 27
The logistic regression equation
• Formula 2 involves another mathematic
function, exp, the exponential function. ln, the
natural logarithm, and exp are opposites.
• The exponential function is a constant with the
value of 2.71828182845904 (roughly 2.72).
When we take the exponential function of a
number, we take 2.72 raised to the power of
the number. So, exp(3) equals 2.72 cubed or
(2.72)^3 = 20.09.
rudisalam@stis.ac.id - 28
The logistic regression equation
• The natural logarithm is the opposite of the
exp function.
• If we take ln(20.09), we get the number 3.
These are common mathematical functions on
many calculators.
rudisalam@stis.ac.id - 29
What is Logistic Regression?
Logistic regression seek to:
• Model the probability of an event occuring depending on
the values of the independent variables, which can be
categorical or numerical.
• Estimate the probability that an event occurs for a
randomly selected observation versus the probability that
an event does not occur.
• Predict the effect of a series of variables on a binary
response variable.
• Classify observations by estimating the probability that an
observation is in a particular category (such as passed or
failed in our problem).
rudisalam@stis.ac.id - 30
Why Not Other Regression Methods?
rudisalam@stis.ac.id - 31
Why Not Other Regression Methods?
• Running a typical linear regression in the same way
has major problems:
• Binary data does not have a normal distribution,
which is a condition needed for most other type of
regression
• Predicted values of the DV can be beyond 0 and 1
which violates the definition of probability
• Probabilities are often not linear such as “U” shapes
where probability is very low or very high at the
extremes of x-values
rudisalam@stis.ac.id - 32
Key Components of Output:
Model Statistics
• Log-likelihood statistic (-2LL)
Indicates how much unexplained variation exists after
the predictors have been entered in the model
Large values represent poor fitting models
Can be used to compare different models
• Cox & Snell R2, Nagelkerke R2
Estimate the amount of improvement in the model
from the previous step/model
• Hosmer and Lemeshow test
Assesses the overall fit of the model
rudisalam@stis.ac.id - 33
Key Components of Output:
Coefficient Statistics
• b-coefficient
Coefficient values that can be used when reporting
the prediction equation
Negative values indicate a reduction in the probability
of the event being predicted
• Wald statistic
Associated with the coefficients for the predictor
variables
Used to determine whether the contribution of the
predictor to the model is statistically significant
rudisalam@stis.ac.id - 34
Key Components of Output:
• Odds ratio
Calculated as exp(b), where exp = 2.71828
For dichotomus predictors, it represents
the increase or decrease in the odds of an
event occuring
rudisalam@stis.ac.id - 35
Model Regresi Logistik
• Model regresi logistik:
log it P Yi 1 0 1 X 1i 2 X 2 i p X pi
rudisalam@stis.ac.id - 36
Model Regresi Logistik
log it ln 0 1 X 1 2 X 2 p X p
1
Dari model:
• Y adalah log natural dari odds saat Yi = 1.
• Log natural dari odds berubah secara linier
dengan X.
• Tetapi, bentuk log natural dari odds agak susah
untuk diinterpretasikan perlu di bentuk ulang.
rudisalam@stis.ac.id - 37
Model Regresi Logistik
• Model menjadi:
exp ln exp 0 1 X 1 2 X 2 p X p
1 1
pX p
e 0 e 1 X1 e 2 X 2 e
rudisalam@stis.ac.id - 38
Model Regresi Logistik
• Ingat:
odds
odds
1 1 odds
• Sehingga:
exp 0 1 X 1 2 X 2 p X p
1 exp 0 1 X 1 2 X 2 p X p
rudisalam@stis.ac.id - 39
Interpretasi Parameter
• Misal diketahui variabel dependen untuk
mahasiwa ke-i dinyatakan sebagai Yi = 1 jika
siswa tersebut profisiens atau pandai dalam
matematika dan 0 jika siswa tidak.
• Variabel independennya adalah skor suatu test
(skala kontinu).
• Model:
exp ln exp
0 1 X
1 e 0 1 X1
e
1 1
rudisalam@stis.ac.id - 40
Interpretasi Parameter
• eβ0 dapat diinterpretasikan sebagai odds hasil prediksi
saat Yi =1 (melawan Yi = 0) ketika variabel independen
adalah nol. Atau, eβ0 diinterpretasikan sebagai odds
prediksi bahwa seorang siswa yang mendapatkan skor
0 pada suatu test adalah pandai (sebagai lawan dari
tidak pandai) dalam matematika.
• Misal β0 = -2, maka odds bahwa seorang siswa yang
memperoleh skor 0 pada suatu test adalah pandai
dalam matematika adalah sebesar e-2 = (2.718)-2 = 0.14
rudisalam@stis.ac.id - 41
Interpretasi Parameter
• Jika β0 = 2, maka odds bahwa seorang siswa
yang memperoleh skor 0 pada suatu test
adalah pandai dalam matematika adalah
sebesar e2 = (2.718)2 = 7.39
• Jika β0 = 2, maka prediksi peluang bahwa
seorang siswa dengan skor tes 0 adalah pandai
dalam matematika adalah 88%
exp 2 0 e2 7.39
0.88
1 exp 2 0 1 e 2
8.39
rudisalam@stis.ac.id - 42
Interpretasi Parameter - Slope
• Dari model:
ln 0 1 X 1
1
rudisalam@stis.ac.id - 43
Interpretasi Parameter - Slope
• Model di ubah
exp ln exp
0 1 X
1 e 0 1 X1
e
1 1
rudisalam@stis.ac.id - 45
Interpretasi Parameter - Slope
Illustrasi jika β0=-4, β1=0.5, dan beberapa nilai X
• Untuk X=10: exp
4 0.5 10
e 4 0.510
e 2.72
1
rudisalam@stis.ac.id - 46
Interpretasi Parameter - Slope
• Peningkatan skor test dari 10 ke 11
(peningkatan 1 satuan pada X) akan
menghasilkan peningkatan sebesar 165% pada
prediksi odds karena (2.72)(1.65)=4.48 dan
4.48/2.72 = 1.65 = 165%, demikian juga untuk
perubahan X dari 11 ke 12.
• Sehingga untuk setiap 1 unit peningkatan pada
X, odds akan meningkat sebesar e0.5 = 1.65 =
165%
rudisalam@stis.ac.id - 47
Interpretasi Parameter - Slope
• Secara umum, jika X meningkat sebesar c unit (poin),
prediksi (ekspektasi) odds adalah sebesar ecβ kali.
• Misal, jika β=0.5, untuk peningkatan 3 point pada skor
test maka odds pandai dalam matematika meningkat
sebesar e3(0.5) = 4.5 kali.
• Jika seorang siswa mendapatkan skor test 13 maka
odds dia pandai dalam matematika adalah 4.5 kali
lebih tinggi dibandingkan odds siswa yang mempunyai
skor 10 (dan 4.5 kali lebih kecil dibandingkan odds
siswa dengan skor 16).
rudisalam@stis.ac.id - 48
Interpretasi Parameter - Slope
Note:
• Ketika β=0 atau eβ=1, odds dikalikan dengan 1
(atau tidak berubah) ketika X meningkat.
• Ketika β>0 atau eβ>1, odds meningkat seiring
dengan X yang meningkat
• Ketika β<0 atau eβ<1, odds menurun seiring
dengan X yang meningkat
rudisalam@stis.ac.id - 49
Uji Hipotesis Slope
• Hipotesis:
H0 : 0
• Uji parsial menggunakan uji Wald (analog
dengan uji t pada regresi linier).
• Uji overall menggunakan uji likelihood ratio
(analog dengan uji F pada regresi)
rudisalam@stis.ac.id - 50
Uji Wald
• Statistik uji Wald:
2
ˆ
2
X 2 1
sˆ
• Statistik X^2 mengikuti distribusi chi-square
untuk sampel besar dengan derajat bebas
satu.
• Identik dengan statistik uji z yang dikuadratkan
rudisalam@stis.ac.id - 51
Uji Likelihood Ratio
• Membandingkan likelihood dari dua model
regresi logistik, yaitu model yang memuat β=0
(merefleksikan H0) dan model yang
menggunakan estimasi ML, βhat untuk β (dari
data).
• Model dengan estimasi ML (nonrestricted)
(L1):
log it ln 0 X
1
rudisalam@stis.ac.id - 52
Uji Likelihood Ratio
• Model restricted (L0)
log it ln 0
1
• Rasio L0 / L1 merepresentasikan likelihood
ratio.
• Jika L1 lebih besar dari L0, maka likelihood
ratio akan kurang dari 1 dan akan memberikan
bukti untuk menolak H0.
rudisalam@stis.ac.id - 53
Uji Likelihood Ratio
• Statistik uji likelihood ratio:
L0
G 2 ln 2 ln L0 ln L1 2 ln L0 2 ln L1
2
L1
• G2 mengikuti distribusi chi-square dengan derajat
bebas = banyaknya parameter restricted di
bawah H0.
• Statistik uji likelihood yang semakin besar akan
memberikan bukti yang lebih kuat untuk menolak
H0.
rudisalam@stis.ac.id - 54
Contoh
• Data: http://nces.ed.gov/surveys/pisa/index.asp
• Dari 5251 siswa, sebanyak 4614 yang profisiens (cakap)
dalam matematika dan 637 tidak.
• Predictor adalah skor tes yang diperoleh dengan melakukan
scaling response delapan item yang bisa mengukur
kepercayaan siswa dengan memberikan tugas matematika
yang bervariasi.
• Semakin tinggi nilai mengindikasikan level self-efficacy yang
lebih tinggi pada matematika, dan rentang skor pada ukuran
ini adalah -3.89 sampai 2.53 dengan rata-rata 0.24 dan
standar deviasi 1.05.
rudisalam@stis.ac.id - 55
Contoh
• Akan dicari bukti apakah ada hubungan antara
self-efficacy pada matematika dan profisiensi
pada matematika.
• Hasil olah menggunakan software:
rudisalam@stis.ac.id - 57
Contoh
• Oleh karena itu, seorang siswa adalah 7.3 kali untuk
mungkin profisiens dalam matematika dibandingkan tidak
profisiens ketika level self-efficacy-nya pada matematika
agak di bawah rata-rata.
• Estimasi slope mengindikasikan bahwa ketika skor self-
efficacy matematika siswa meningkat satu, log natural
odds menjadi profisiens (dibandingkan tidak profisiens)
dalam matematika meningkat sebesar 0.72 dan odds
menjadi profisiens (dibandingkan tidak profisiens) dalam
matematika adalah e0.72=2.05 kali (i.e., meningkat sebesar
205%) atau hampir meningkat dua kali lipatnya.
rudisalam@stis.ac.id - 58
Contoh
• Untuk menguji signigfinkansi slope menggunakan uji Wald,
digunakan ASE (asymptotic SE) dari slope, yaitu 0.049
• Statistik uji Wald:
2
2
ˆ 0.72 0 2
X 215.91
sˆ 0.049
• P-value <0.0001 tolak H0
• Terdapat hubungan signifikan antara self-efficacy siswa
dalam matematika dan peluang menjadi profisien dalam
matematika
rudisalam@stis.ac.id - 59
Contoh
• Lebih spesifik, jika self-efficacy meningkat,
maka peluang menjadi profisiens dalam
matematika juga akan meningkat.
• Statistik uji Likelihood ratio:
L0
G 2 ln 2 ln L0 ln L1 2ln L0 2 ln L1
2
L1
3880.777 3619.840 260.94
rudisalam@stis.ac.id - 60
Contoh
• Kesimpulan: Terdapat hubungan positif
signifikan antara skor self-efficacy dalam
matematika dan peluang menjadi profisiens
dalam matematika.
• Untuk sampel besar, uji Wald dan uji
Likelihood ratio dari parameter model akan
cenderung menghasilkan hasil yang sama.
rudisalam@stis.ac.id - 61
Model Fit
• Fit pada model logistik dievaluasi dengan
membandingkan hasil prediksi dari model
logistik dengan observasi yang sebenarnya
dari data.
• Statistik uji yang digunakan adalah X2 atau G2.
2
observed predicted
2
X predicted
dan
observed
G observed x ln
2
predicted
rudisalam@stis.ac.id - 62
Model Fit
• Statistik uji X2 dan G2 mengikuti distribusi chi-square
dengan derajat bebas adalah perbedaan antara jumlah
nilai yang mungkin dari prediktor dan jumlah parameter
yang diestimasi oleh model.
• Hipotesis nol yang diuji oleh statistik uji ini adalah bahwa
nilai prediksi dan observasi adalah sama atau
mengindikasikanbahwa model fit dengan data observasi.
• Nilai statistik uji yang besar mengindikasikan bahwa
prediksi model tidak memberikan fit yang baik dengan
data observasi.
rudisalam@stis.ac.id - 63
Model Fit
Illustrasi:
• Misal 389 individu dari data sampel mempunyai skor
self-efficacy matematika X=-0.4317 dan 325
diantaranya profisiens dalam matematika
(berkategori 1) serta 64 tidak.
• Dengan β0=1.99 dan β1=0.72, prediksi peluang
seorang siswa akan profisien dalam matematika jika
dia mempunyai skor efikasi -0.4317 adalah
exp 1.99 0.72 0.4317 exp 1.68 5.366
ˆ 0.84
1 exp 1.99 0.72 0.4317 1 exp 1.68 6.366
rudisalam@stis.ac.id - 64
Model Fit
• Sehingga, banyak individu dengan skor X=-
0.4317 yang diprediksi oleh model akan menjadi
profisien adalah 389*0.84=326.76.
• Jadi, untuk nilai X ini, prediksi jumlahnya adalah
326.76 dan jumlah observasi adalah 325.
• Jika penghitungan diulang untuk setiap nilai unik
dari X, dan tidak ada jumlah prediksi yang
kurang dari 5, maka kita bisa menguji fit model
menggunakan statistik X2 dan G2.
rudisalam@stis.ac.id - 65
Model Fit – Prediktor Kontinu
• Untuk model dengan X kontinu, setting dari X akan
menghasilkan jumlah fitted yang sangat kecil.
• Akibatnya, pendekatan chi-square untuk statistik uji
tidak akan terpenuhi dan uji fit-nya tidak akan valid.
• e.g. pada data Horseshoe crab, width menghasilkan 66
nilai dari 173 observasi.
• Hal yang dilakukan adalah membandingkan observasi
dan nilai fit dalam bentuk kelompok/grup.
• Ketika X kontinu, agak sulit untuk menganalisis lack of
fit tanpa melakukan pengelompokkan.
rudisalam@stis.ac.id - 66
Model Fit – Prediktor Kontinu
• Cara cepat untuk mendapatkan statistik GOF
untuk prediktor kontinu adalah menggunakan
uji GOF Hosmer and Lemeshow
• Formula
Observed Expected
2
10
2 j j
G
Expected 1 Expected / n
HL
j 1 j j j
rudisalam@stis.ac.id - 67
Model Fit – Prediktor Kontinu
• Partisi untuk menghitung statisik uji GOF-HL
rudisalam@stis.ac.id - 68
Model Fit – Prediktor Kontinu
• Hasil kalkulasi : G2 = 26.53 dengan derajat
bebas = 10-2 dan p-value = 0.0009.
• Tolak H0 Ada indikasi lack of fit antara
model dan data.
rudisalam@stis.ac.id - 69