AKB Pertemuan 11-12 Regresi Logistik

Regresi Logistik
Rudi Salam
rudisalam@stis.ac.id - 1
Pengantar
• Keterbatasan krusial dari regresi linier adalah bahwa
ia tidak dapat menangani DV yang bersifat dikotomi
dan kategori.
• Banyak variabel menarik dalam dunia bisnis bersifat
dikotomi.
• Misalnya konsumen membuat keputusan untuk
membeli atau tidak membeli, suatu produk mungkin
lolos atau gagal kontrol kualitas, ada risiko kredit baik
atau buruk, seorang karyawan mungkin
dipromosikan atau tidak.
Pengantar
• Berbagai teknik regresi telah dikembangkan untuk
menganalisis data dengan variabel dependen
kategorikal, termasuk regresi logistik.
• Dalam kasus di mana variabel independen adalah
kategori, atau campuran kontinu dan kategori, dan DV
adalah kategori, maka regresi logistik diperlukan.
• Regresi logistik. Menentukan pengaruh dari beberapa
variabel independen yang disajikan secara bersamaan
untuk memprediksi keanggotaan salah satu dari dua
kategori pada variabel dependen.
Pengantar
• Since the dependent variable is dichotomous we
cannot predict a numerical value for it using logistic
regression, so the usual regression least squares
deviations criteria for best fit approach of minimizing
error around the line of best fit is inappropriate.
• Logistic regression employs binomial probability
theory in which there are only two values to predict:
that probability (p) is 1 rather than 0, i.e. the
event/person belongs to one group rather than the
other.
Pengantar
• Logistic regression forms a best fitting equation or
function using the maximum likelihood method, which
maximizes the probability of classifying the observed
data into the appropriate category given the regression
coefficients.
• Like ordinary regression, logistic regression provides a
coefficient ‘b’, which measures each IV’s partial
contribution to variations in the DV.
• The goal is to correctly predict the category of outcome
for individual cases using the most parsimonious model.
Pengantar
• To accomplish this goal, a model (i.e. an
equation) is created that includes all predictor
variables that are useful in predicting the
response variable.
• Variables can, if necessary, be entered into the
model in the order specified by the researcher
in a stepwise fashion like regression.
Pengantar
Ada dua kegunaan utama dari regresi logistik:
• Pertama adalah prediksi keanggotaan dari suatu
grup. Karena regresi logistik menghitung
peluang sukses dibandingkan dengan peluang
gagal, hasil dari analisis adalah dalam bentuk
odds ratio.
• Regresi logistik juga memberikan pengetahuan
mengenai hubungan dan kekuatan diantara
variabel.
Asumsi
• Regresi logistik tidak mengasumsikan
hubungan linier antara variabel dependen dan
independen.
• Variabel dependen adalah dikotomi (dua
kategori).
• Variabel independen bisa kategori atau
kontinu, atau campuran antara kontinu dan
kategori.
Asumsi
• Kategori-kategori (groups) harus mutually
exclusive dan exhaustive; a case can only be in
one group and every case must be a member of
one of the groups.
• Dibandingkan regresi linier, regresi logistik
membutuhkan sampel yang lebih besar karena
koefisien maksimum likelihood adalah estimasi
menggunakan sampel besar. Direkomendasikan
minimum 50 baris per prediktor.
Ilustrasi non-matematis dari regresi logistik
• Variabel dependen yang kami coba prediksi

adalah apakah email yang tidak diminta yang
memberikan penawaran melalui email dibuka
atau tidak oleh penerima.
• Ada dua variabel independen:
• Ada atau tidak adanya nama depan penerima
di baris subjek.
• Ada atau tidak adanya penawaran di baris
subjek.
• Jadi ada empat kemungkinan kombinasi yang

menarik:
• Ada nama depan, ada penawaran di baris subjek.
• Tidak adanya nama depan, adanya penawaran di
baris subjek.
• Ada nama depan, tidak adanya penawaran di
baris subjek.
• Tidak adanya nama depan, tidak adanya
penawaran di baris subjek.
• Untuk setiap opsi, sebuah email dikirim ke sampel acak

dari 5.000 penerima untuk memastikan margin kesalahan
yang rendah dan tingkat kepercayaan yang tinggi.
• Setelah minimal delapan jam, hasil apakah email dibuka
dianalisis dan persamaan regresi logistik dibuat untuk
setiap opsi.
• Setiap persamaan memprediksi dampak variabel
independen dalam mendorong konsumen untuk
mengambil tindakan yang diinginkan: membuka dan
membaca email.
• Anda dapat menentukan kombinasi variabel

independen mana yang mengarahkan
konsumen untuk membuka email paling
sering. Analisis ini juga dapat dijalankan
terhadap segmen pelanggan individu.
Beberapa segmen pelanggan mungkin
merespons kombinasi variabel independen
yang tidak responsif terhadap segmen
pelanggan lainnya.
• Misalnya, Anda mungkin menemukan bahwa

variabel independen dari nama depan yang ada
hanya berdampak positif pada penerima yang
berusia 39 tahun atau lebih muda; variabel
independen nama depan yang muncul tanpa
penawaran tidak berdampak pada penerima
berusia 40 tahun ke atas. Kemudian Anda tahu
variabel mana yang akan digunakan atau tidak saat
mengirim email ke penerima dari kelompok usia
yang berbeda.
Persamaan regresi logistic
Perhatikan contoh berikut:
• 200 mahasiswa akuntansi tahun pertama dinilai berdasarkan
dikotomi lulus-gagal pada ujian akhir semester akuntansi.
• Pada awal kursus, mereka semua mengikuti pre-test
matematika dengan hasil yang dilaporkan dalam data interval
berkisar antara 0-50 – semakin tinggi skor pretest, semakin
tinggi kompetensi dalam matematika.
• Regresi logistik diterapkan untuk menentukan hubungan
antara skor pretest matematika (IV atau prediktor) dan
apakah seorang siswa lulus kursus (DV).
• Mahasiswa yang lulus mata kuliah akuntansi diberi kode 1
sedangkan yang tidak lulus diberi kode 0.
• Gambar 1
• Kita dapat melihat dari Gambar 1 bahwa dari 'x' yang
diplot, ada kemungkinan yang agak lebih besar bahwa
mereka yang memperoleh nilai di atas rata-rata hingga
tinggi pada tes matematika lulus kursus akuntansi,
sementara yang mendapat nilai di bawah rata-rata hingga
rendah cenderung gagal.
• Ada juga tumpang tindih di area tengah. Tetapi jika kita
mencoba menggambar garis lurus (best fitting), seperti
pada regresi linier, itu tidak akan berhasil, karena
perpotongan dari hasil matematika dan hasil akuntansi
lulus/gagal membentuk dua garis x, seperti pada Gambar 1.
• Gambar 2
• Solusinya adalah mentrasformasi hasil ini menjadi
probabilitas.
• Kita dapat menghitung rata-rata nilai Y pada setiap titik
pada sumbu X. Kami kemudian dapat memplot
probabilitas Y pada setiap nilai X dan itu akan terlihat
seperti garis grafik bergelombang yang ditumpangkan
pada data asli pada Gambar 2.
• Ini adalah kurva yang lebih halus, dan mudah untuk
melihat bahwa kemungkinan lulus kursus akuntansi
(sumbu Y) meningkat seiring dengan peningkatan nilai X.
• Seperti yang Anda lihat, kurva ini bukanlah
garis lurus; itu lebih merupakan kurva
berbentuk S.
• Nilai diprediksi diinterpretasikan sebagai
probabilitas dan sekarang bukan hanya dua
kondisi dengan nilai 0 atau 1 tetapi data
kontinu yang dapat mengambil nilai
berapapun dari 0 hingga 1.
• Outcome-nya bukanlah prediksi dari nilai Y,
seperti dalam regresi linier, tetapi peluang
menjadi milik salah satu dari dua kondisi Y,
yang dapat mengambil nilai apa pun antara 0
dan 1 daripada hanya 0 dan 1 seperti pada
Gambar 1.
• Sayangnya, transformasi matematis lebih lanjut –
transformasi log – diperlukan untuk menormalkan
distribusi (transformasi log dan transformasi akar
kuadrat memindahkan distribusi miring mendekati
normalitas).
• Transformasi log dari nilai p ke distribusi log ini
memungkinkan kita membuat tautan dengan
persamaan regresi normal. Distribusi log (atau
transformasi logistik p) disebut juga logit p atau
logit(p).
• Logit(p) adalah log (basis e) dari rasio odds atau
rasio kemungkinan bahwa variabel
dependennya adalah 1. Dalam simbol
didefinisikan sebagai:
logit(p) = log[p/(1-p)] = ln[p/(1-p)]
• Nilai p hanya dapat berkisar dari 0 hingga 1,
semetara skala logit(p) berkisar dari negative
tak hingga sampai positif tak hingga dan
simetris di sekitar logit 0,5 (yaitu nol).
• Rumus berikut ini menunjukkan hubungan
antara persamaan regresi biasa (a + bx … dst.),
yang merupakan rumus garis lurus, dan
persamaan regresi logistik.
• Bentuk persamaan regresi logistik adalah:
The logistic regression equation
• Ini terlihat seperti regresi linier dan meskipun
regresi logistik menemukan persamaan yang
‘best fitting', seperti halnya regresi linier,
prinsip-prinsipnya agak berbeda.
• Alih-alih menggunakan kriteria deviasi kuadrat
terkecil untuk best fit, ia menggunakan metode
kemungkinan maksimum, yang memaksimalkan
kemungkinan mendapatkan hasil yang diamati
dengan koefisien regresi yang sesuai.
• A consequence of this is that the goodness of fi t and
overall significance statistics used in logistic regression
are different from those used in linear regression.
• Konsekuensi dari ini adalah bahwa kebaikan fit dan
statistik signifikansi keseluruhan yang digunakan dalam
regresi logistik berbeda dengan yang digunakan dalam
regresi linier.
• p can be calculated with the following formula (formula
2) which is simply another rearrangement of formula 1:
Where:
p = the probability that a case is in a particular
category,
exp = the base of natural logarithms (approx 2.72),
a = the constant of the equation and,
b = the coefficient of the predictor variables.
• Formula 2 involves another mathematic
function, exp, the exponential function. ln, the
natural logarithm, and exp are opposites.
• The exponential function is a constant with the
value of 2.71828182845904 (roughly 2.72).
When we take the exponential function of a
number, we take 2.72 raised to the power of
the number. So, exp(3) equals 2.72 cubed or
(2.72)^3 = 20.09.
• The natural logarithm is the opposite of the
exp function.
• If we take ln(20.09), we get the number 3.
These are common mathematical functions on
many calculators.
What is Logistic Regression?
Logistic regression seek to:
• Model the probability of an event occuring depending on
the values of the independent variables, which can be
categorical or numerical.
• Estimate the probability that an event occurs for a
randomly selected observation versus the probability that
an event does not occur.
• Predict the effect of a series of variables on a binary
response variable.
• Classify observations by estimating the probability that an
observation is in a particular category (such as passed or
failed in our problem).
Why Not Other Regression Methods?
Why other regression procedures will not work?

• Simple linear regression is one quantitative
variable predicting another
• Multiple regression is simple linear regression
with more independent variables
• Nonlinear regression is still two quantitative
variables, but still the data is curvelinear.
Why Not Other Regression Methods?
• Running a typical linear regression in the same way
has major problems:
• Binary data does not have a normal distribution,
which is a condition needed for most other type of
regression
• Predicted values of the DV can be beyond 0 and 1
which violates the definition of probability
• Probabilities are often not linear such as “U” shapes
where probability is very low or very high at the
extremes of x-values
Key Components of Output:
Model Statistics
• Log-likelihood statistic (-2LL)
 Indicates how much unexplained variation exists after
the predictors have been entered in the model
 Large values represent poor fitting models
 Can be used to compare different models
• Cox & Snell R2, Nagelkerke R2
 Estimate the amount of improvement in the model
from the previous step/model
• Hosmer and Lemeshow test
 Assesses the overall fit of the model
Coefficient Statistics
• b-coefficient
 Coefficient values that can be used when reporting
the prediction equation
 Negative values indicate a reduction in the probability
of the event being predicted
• Wald statistic
 Associated with the coefficients for the predictor
variables
 Used to determine whether the contribution of the
predictor to the model is statistically significant
• Odds ratio
 Calculated as exp(b), where exp = 2.71828
 For dichotomus predictors, it represents
the increase or decrease in the odds of an
event occuring
Model Regresi Logistik
• Model regresi logistik:
log it  P Yi  1   0  1  X 1i    2  X 2 i      p  X pi 
• Untuk kemudahan, subscripts didrop sehingga

model menjadi:
  
log it    ln     0  1  X 1    2  X 2      p  X p 
 1  
  
log it    ln     0  1  X 1    2  X 2      p  X p 
 1  
Dari model:
• Y adalah log natural dari odds saat Yi = 1.
• Log natural dari odds berubah secara linier
dengan X.
• Tetapi, bentuk log natural dari odds agak susah
untuk diinterpretasikan  perlu di bentuk ulang.
• Model menjadi:
      
exp ln       exp   0  1  X 1    2  X 2      p  X p 
 1    1   
pX p
 e 0 e 1 X1 e 2 X 2  e
• Dengan menggunakan odds sebagai outcome,

maka bisa ditentukan pengaruh dari tiap-tiap
variabel independen pada odds saat Yi = 1.
• Ingat:
 odds
odds   
1  1  odds
• Sehingga:
exp   0  1  X 1    2  X 2      p  X p 

1  exp   0  1  X 1    2  X 2      p  X p 
Interpretasi Parameter
• Misal diketahui variabel dependen untuk
mahasiwa ke-i dinyatakan sebagai Yi = 1 jika
siswa tersebut profisiens atau pandai dalam
matematika dan 0 jika siswa tidak.
• Variabel independennya adalah skor suatu test
(skala kontinu).
• Model:
      
exp ln       exp  
 0  1  X 
1   e  0 1 X1
e
  1     1   
• eβ0 dapat diinterpretasikan sebagai odds hasil prediksi
saat Yi =1 (melawan Yi = 0) ketika variabel independen
adalah nol. Atau, eβ0 diinterpretasikan sebagai odds
prediksi bahwa seorang siswa yang mendapatkan skor
0 pada suatu test adalah pandai (sebagai lawan dari
tidak pandai) dalam matematika.
• Misal β0 = -2, maka odds bahwa seorang siswa yang
memperoleh skor 0 pada suatu test adalah pandai
dalam matematika adalah sebesar e-2 = (2.718)-2 = 0.14
• Jika β0 = 2, maka odds bahwa seorang siswa
yang memperoleh skor 0 pada suatu test
adalah pandai dalam matematika adalah
sebesar e2 = (2.718)2 = 7.39
• Jika β0 = 2, maka prediksi peluang bahwa
seorang siswa dengan skor tes 0 adalah pandai
dalam matematika adalah 88%
exp  2  0  e2 7.39
    0.88
1  exp  2  0  1  e 2
8.39
Interpretasi Parameter - Slope
• Dari model:
  
ln     0  1  X 1 
 1  
• Pada regresi logistik dengan satu variabel prediktor,

slope dapat diinterpretasikan sebagai prediksi
perubahan pada log natural dari odds saat Yi = 1
(melawan Yi = 0) ketika X meningkat satu satuan.
• Tetapi agak janggal jika interpretasi perubahan
outcome menggunakan log natural dari odds.
• Model di ubah
      
exp ln       exp  
 0  1  X 
1   e 0 1 X1
e
  1     1   
• Arti  Jika X meningkat satu satuan maka akan

membuat peningkatan sebesar eβ kali pada odds
saat Yi = 1.
• Misal, jika β=0.5, maka jika X meningkat satu
satuan, odds saat Yi = 1 akan menjadi e0.5 = 1.65
kali
• Atau, jika β=0.5 maka odds pandai dalam
matematika akan meningkat 1.65 kali untuk
tiap satu penambahan poin yang diperoleh
oleh siswa dari test.
• Atau, untuk setiap peningkatan 1 poin dari
skor test, odds pandai dalam matematika
meningkat sebesar 165%
Illustrasi jika β0=-4, β1=0.5, dan beberapa nilai X
  
• Untuk X=10:    exp 
  4  0.5 10  
  e 4 0.510 
e  2.72
 1  
• Untuk X=11:    4 0.511

   exp 
 4  0.5  
11   e e  4.48
 1  
• Untuk X=12:    4 0.512 

   exp 
 4  0.5  
12   e e  7.39
 1  
• Peningkatan skor test dari 10 ke 11
(peningkatan 1 satuan pada X) akan
menghasilkan peningkatan sebesar 165% pada
prediksi odds karena (2.72)(1.65)=4.48 dan
4.48/2.72 = 1.65 = 165%, demikian juga untuk
perubahan X dari 11 ke 12.
• Sehingga untuk setiap 1 unit peningkatan pada
X, odds akan meningkat sebesar e0.5 = 1.65 =
165%
• Secara umum, jika X meningkat sebesar c unit (poin),
prediksi (ekspektasi) odds adalah sebesar ecβ kali.
• Misal, jika β=0.5, untuk peningkatan 3 point pada skor
test maka odds pandai dalam matematika meningkat
sebesar e3(0.5) = 4.5 kali.
• Jika seorang siswa mendapatkan skor test 13 maka
odds dia pandai dalam matematika adalah 4.5 kali
lebih tinggi dibandingkan odds siswa yang mempunyai
skor 10 (dan 4.5 kali lebih kecil dibandingkan odds
siswa dengan skor 16).
Note:
• Ketika β=0 atau eβ=1, odds dikalikan dengan 1
(atau tidak berubah) ketika X meningkat.
• Ketika β>0 atau eβ>1, odds meningkat seiring
dengan X yang meningkat
• Ketika β<0 atau eβ<1, odds menurun seiring
dengan X yang meningkat
Uji Hipotesis Slope
• Hipotesis:
H0 :   0
• Uji parsial menggunakan uji Wald (analog
dengan uji t pada regresi linier).
• Uji overall menggunakan uji likelihood ratio
(analog dengan uji F pada regresi)
Uji Wald
• Statistik uji Wald:
2
 ˆ   
2
X     2 1
 sˆ 
  
• Statistik X^2 mengikuti distribusi chi-square
untuk sampel besar dengan derajat bebas
satu.
• Identik dengan statistik uji z yang dikuadratkan
Uji Likelihood Ratio
• Membandingkan likelihood dari dua model
regresi logistik, yaitu model yang memuat β=0
(merefleksikan H0) dan model yang
menggunakan estimasi ML, βhat untuk β (dari
data).
• Model dengan estimasi ML (nonrestricted)
(L1):
  
log it    ln    0   X
 1  
• Model restricted (L0)
  
log it    ln    0
 1  
• Rasio L0 / L1 merepresentasikan likelihood
ratio.
• Jika L1 lebih besar dari L0, maka likelihood
ratio akan kurang dari 1 dan akan memberikan
bukti untuk menolak H0.
• Statistik uji likelihood ratio:
 L0 
G  2 ln    2 ln  L0   ln  L1   2 ln  L0    2 ln  L1 
2
 L1 
• G2 mengikuti distribusi chi-square dengan derajat
bebas = banyaknya parameter restricted di
bawah H0.
• Statistik uji likelihood yang semakin besar akan
memberikan bukti yang lebih kuat untuk menolak
H0.
Contoh
• Data: http://nces.ed.gov/surveys/pisa/index.asp
• Dari 5251 siswa, sebanyak 4614 yang profisiens (cakap)
dalam matematika dan 637 tidak.
• Predictor adalah skor tes yang diperoleh dengan melakukan
scaling response delapan item yang bisa mengukur
kepercayaan siswa dengan memberikan tugas matematika
yang bervariasi.
• Semakin tinggi nilai mengindikasikan level self-efficacy yang
lebih tinggi pada matematika, dan rentang skor pada ukuran
ini adalah -3.89 sampai 2.53 dengan rata-rata 0.24 dan
standar deviasi 1.05.
Contoh
• Akan dicari bukti apakah ada hubungan antara
self-efficacy pada matematika dan profisiensi
pada matematika.
• Hasil olah menggunakan software:
• Model:  ˆ  ˆ ˆ X  1.99  0.72 X

ln     0   1
ˆ
 1  
Contoh
• πhat adalah estimasi peluang mencapai profisiensi
matematika, X adalah skor self-efficacy, dan estimasi
ML diperoleh β0=1.99 dan β1=0.72.
• β0=1.99 mengindikasikan bahwa ketika self-efficacy
matematika dari siswa adalah nol (atau agak dibawah
rata-rata), ekspektasi log natural odds bahwa dia
adalah profisiens (dibandingkan tidak profisiens)
dalam matematika adalah 1.99 dan ekspektasi odds
bahwa dia adalah profisiens (dibandingkan tidak
profisiens) dalam matematika adalah e1.99=7.3.
Contoh
• Oleh karena itu, seorang siswa adalah 7.3 kali untuk
mungkin profisiens dalam matematika dibandingkan tidak
profisiens ketika level self-efficacy-nya pada matematika
agak di bawah rata-rata.
• Estimasi slope mengindikasikan bahwa ketika skor self-
efficacy matematika siswa meningkat satu, log natural
odds menjadi profisiens (dibandingkan tidak profisiens)
dalam matematika meningkat sebesar 0.72 dan odds
menjadi profisiens (dibandingkan tidak profisiens) dalam
matematika adalah e0.72=2.05 kali (i.e., meningkat sebesar
205%) atau hampir meningkat dua kali lipatnya.
Contoh
• Untuk menguji signigfinkansi slope menggunakan uji Wald,
digunakan ASE (asymptotic SE) dari slope, yaitu 0.049
• Statistik uji Wald:
2
2
 ˆ     0.72  0  2
X      215.91
 sˆ   0.049 
  
• P-value <0.0001  tolak H0
• Terdapat hubungan signifikan antara self-efficacy siswa
dalam matematika dan peluang menjadi profisien dalam
matematika
Contoh
• Lebih spesifik, jika self-efficacy meningkat,
maka peluang menjadi profisiens dalam
matematika juga akan meningkat.
• Statistik uji Likelihood ratio:
 L0 
G  2 ln    2 ln  L0   ln  L1    2ln  L0    2 ln  L1 
2
 L1 
 3880.777  3619.840  260.94
• P-value < 0.0001  tolak H0
Contoh
• Kesimpulan: Terdapat hubungan positif
signifikan antara skor self-efficacy dalam
matematika dan peluang menjadi profisiens
dalam matematika.
• Untuk sampel besar, uji Wald dan uji
Likelihood ratio dari parameter model akan
cenderung menghasilkan hasil yang sama.
Model Fit
• Fit pada model logistik dievaluasi dengan
membandingkan hasil prediksi dari model
logistik dengan observasi yang sebenarnya
dari data.
• Statistik uji yang digunakan adalah X2 atau G2.
 
2
observed  predicted
2
X   predicted
dan
 observed 
G   observed x ln 
2

 predicted 
Model Fit
• Statistik uji X2 dan G2 mengikuti distribusi chi-square
dengan derajat bebas adalah perbedaan antara jumlah
nilai yang mungkin dari prediktor dan jumlah parameter
yang diestimasi oleh model.
• Hipotesis nol yang diuji oleh statistik uji ini adalah bahwa
nilai prediksi dan observasi adalah sama atau
mengindikasikanbahwa model fit dengan data observasi.
• Nilai statistik uji yang besar mengindikasikan bahwa
prediksi model tidak memberikan fit yang baik dengan
data observasi.
Model Fit
Illustrasi:
• Misal 389 individu dari data sampel mempunyai skor
self-efficacy matematika X=-0.4317 dan 325
diantaranya profisiens dalam matematika
(berkategori 1) serta 64 tidak.
• Dengan β0=1.99 dan β1=0.72, prediksi peluang
seorang siswa akan profisien dalam matematika jika
dia mempunyai skor efikasi -0.4317 adalah
exp 1.99  0.72  0.4317  exp 1.68  5.366
ˆ     0.84
1  exp 1.99  0.72  0.4317  1  exp 1.68  6.366
Model Fit
• Sehingga, banyak individu dengan skor X=-
0.4317 yang diprediksi oleh model akan menjadi
profisien adalah 389*0.84=326.76.
• Jadi, untuk nilai X ini, prediksi jumlahnya adalah
326.76 dan jumlah observasi adalah 325.
• Jika penghitungan diulang untuk setiap nilai unik
dari X, dan tidak ada jumlah prediksi yang
kurang dari 5, maka kita bisa menguji fit model
menggunakan statistik X2 dan G2.
Model Fit – Prediktor Kontinu
• Untuk model dengan X kontinu, setting dari X akan
menghasilkan jumlah fitted yang sangat kecil.
• Akibatnya, pendekatan chi-square untuk statistik uji
tidak akan terpenuhi dan uji fit-nya tidak akan valid.
• e.g. pada data Horseshoe crab, width menghasilkan 66
nilai dari 173 observasi.
• Hal yang dilakukan adalah membandingkan observasi
dan nilai fit dalam bentuk kelompok/grup.
• Ketika X kontinu, agak sulit untuk menganalisis lack of
fit tanpa melakukan pengelompokkan.
• Cara cepat untuk mendapatkan statistik GOF
untuk prediktor kontinu adalah menggunakan
uji GOF Hosmer and Lemeshow
• Formula
 Observed  Expected 
2
10

2 j j
G
Expected 1  Expected / n 
HL
j 1 j j j
• Partisi untuk menghitung statisik uji GOF-HL
• Hasil kalkulasi : G2 = 26.53 dengan derajat
bebas = 10-2 dan p-value = 0.0009.
• Tolak H0  Ada indikasi lack of fit antara
model dan data.

AKB Pertemuan 11-12 Regresi Logistik

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

AKB Pertemuan 11-12 Regresi Logistik

Diunggah oleh

Hak Cipta:

Format Tersedia

Regresi Logistik

• Variabel dependen yang kami coba prediksi

• Jadi ada empat kemungkinan kombinasi yang

• Untuk setiap opsi, sebuah email dikirim ke sampel acak

• Anda dapat menentukan kombinasi variabel

• Misalnya, Anda mungkin menemukan bahwa

Why other regression procedures will not work?

• Untuk kemudahan, subscripts didrop sehingga

• Dengan menggunakan odds sebagai outcome,

• Pada regresi logistik dengan satu variabel prediktor,

• Arti  Jika X meningkat satu satuan maka akan

• Untuk X=11:    4 0.511

• Untuk X=12:    4 0.512 

• Model:  ˆ  ˆ ˆ X  1.99  0.72 X

• P-value < 0.0001  tolak H0

Anda mungkin juga menyukai