Substitusi
1
dan
0
kemudian bagi pembilang dan
penyebut dengan P(Y=0 | x) sehingga
Lalu bagi pembilang dan penyebut dengan
0
dan
gunakan bentuk
1
/
0
= exp [log (
1
/
0
)]
dengan
*
= + log (
1
/
0
)
1
0 1
exp( )
( 1| 1, )
exp( )
x
P Y z x
x
o |
o |
+
= = =
+ +
*
log [ ( 1| 1, )] it P Y z x x o | = = = +
*
log [ ( 1| 1, )] it P Y z x x o | = = = +
Model regresi tersebut memiliki efek yang sama dengan parameter
sebagai model pada P(Y=1 | x). Pada model case-control, salah satu
saja tidak dapat mengestimasi nilai pada model binary-response
yang lain. Tidak seperti odd rasio, efek conditional distribution dari
X given Y tidak sama dengan Y given X.
Regresi logistik terkadang bisa atau tidak bisa untuk
mendeskripsikan suatu hubungan variabel dengan baik. Pada suatu
kasus spesial, misalkan nilai Y = i dan X berdistribusi N(
i
, o
2
)
dimana i = 0,1. Lalu bayes teori, P(Y=1 | X=x) sama dengan (5.1),
= (
1
-
0
)/o
2
. Ketika suatu populasi adalah sebuah campuran dari 2
tipe subjek, tipe pertama nilai Y=1 kira-kira berdistribusi normal
pada X dan tipe lainnya Y=0 dengan kira-kira berdistribusi normal
juga pada X dengan nilai varians yang sama maka fungsi regresi
logistiknya seperti pada (5.1) dengan bentuk kurva t(x) yang baik.
Jika keduanya berdistribusi normal dengan variansnya berbeda maka
kurva yang terbentuk adalah kuadrat. Pada kasus tersebut, hubungan
variabelnya nonmonotone dengan t(x) menaik dan menurun atau
sebaliknya.
Tipe Inferensi
Untuk model dengan sebuah predictor:
Uji signifikansi fokus pada H
0
: = 0 (hipotesis independensi).
Uji Wald menggunakan log Likelihood pada , dengan statistik
uji atau kuadratnya. Di bawah H
0
, z
2
adalah asimtotik
Uji Likelihood-rasio menggunakan dua kali deferens di antara
maximized log likelihood pada dan pada = 0 dan juga
mempunyai asimtotik .
Uji score menggunakan log likelihood pada = 0 melalui
derivatif log likelihood pada titik tersebut. Statistik uji
membandingkan sufisien statistik untuk dengan nilai
harapannya, standardized yang sesuai [N(0,1) atau ].
Tipe Inferensi
Untuk sampel besar, ketiga tes tersebut biasanya memberikan
hasil yang sama. Uji Likelihood-rasio lebih disukai daripada Uji
Wald. Likelihood-rasio menggunakan informasi yang lebih
karena hal itu menggabungkan log likelihood pada H
0
sebaik
pada . Ketika | | relatif besar, maka uji Wald tidak sekuat
uji Likelihood-rasio dan bahkan dapat menunjukkan perilaku
menyimpang.
Selang kepercayaan lebih informatif daripada uji-uji. Selang
untuk dihasilkan dari pembalikan uji dari H
0
: =
0
. Interval
adalah kumpulan dari
0
dimana statistik uji Chi-Squarenya
tidak lebih besar daripada . Untuk pendekatan Wald,
hal ini berarti ; intervalnya adalah .
Tipe Inferensi
Untuk meringkas hubungan, karakteristik lain mungkin
memiliki kepentingan yang lebih besar daripada , seperti (x)
pada berbagai nilai x. Untuk fixed , ,
memiliki SE sampel besar yang diberikan oleh estimasi square
root dari:
Selang kepercayaan 95% untuk adalah .
Substitusi setiap endpoint ke transformasi inverse
memberikan interval yang sesuai untuk .
Tiap metode inferensi juga dapat menghasilkan selang
kepercayaan dan uji untuk sampel kecil.
Checking Goodness of Fit; Ungrouped and Grouped Data
Dalam prakteknya, tidak ada jaminan bahwa model regresi logistik
tertentu sesuai dengan data. Untuk beberapa tipe data biner, salah
satu cara untuk mendeteksi lack of fit adalah menggunakan uji
Likelihood-rasio untuk membandingkan model dengan model yang
lebih kompleks. Model yang lebih kompleks mungkin berisi sebuah
efek nonlinier, seperti bentuk kuadratik. Model-model dengan
multiple prediction akan mempertimbangkan interaksi. Jika model
yang lebih kompleks tidak memberikan kesesuaian yang lebih baik,
maka ini akan menyediakan beberapa jaminan bahwa model yang
dipilih adalah masuk akal.
Pendekatan lain untuk mendeteksi lack of fit search untuk banyak
cara model gagal. Hali ini simpel ketika variabel penjelas hanya
kategori. Pada masing-masing pengaturan x, salah satu akan
mengalikan perkiraan probability dari dua hasil banyaknya subjek
yang diatur untuk memenuhi frekuensi ekspektasi estimasi untuk y =
0 dan y = 1. Itu semua adalah fitted value.
Checking Goodness of Fit; Ungrouped and Grouped Data
Uji dari model membandingkan jumlah observasi dan fitted
value menggunakan statistik Pearson X
2
atau Likelihood-rasio
G
2
. Untuk jumlah pengaturan yang tetap, sebagai peningkatan
jumlah, X
2
dan G
2
mendekati distribusi Chi-Square. Derajat
bebas disebut residual df untuk model, mengurangi banyaknya
parameter di dalam model dari banyaknya parameter di dalam
saturated model.
Alasan pembatasan untuk prediktor kategori untuk uji secara
umum berhubungan dengan perbedaan di Section 4.5.3 bahwa
kita menyebutkan diantara grouped and ungrouped data untuk
model binomial. Saturated model berbeda pada dua kasus.
Sebuah asimtotik distribusi Chi-Square hasil deviance sebagai
dengan banyaknya parameter yang tetap di dalam model dan
karenanya sebuah jumlah yang tetap dari pengaturan nilai
prediktor.
Pengecekan kebaikan suai (goodness of fit) data tidak
berkelompok dengan cara pengelompokan
Sebagai catatan,:
dengan data tidak berkelompok atau penduga yang kontinu
atau hampir kontinu, dan tidak mempunyai batas pada
distribusi chi square, akan tetapi masih berguna dalam
membandingkan model untuk memeriksa bentuk kuadrat
dapat diterapkan dalam berbagai perkiraan untuk pengamatan
berkelompok dan nilai yang cocok untuk sebuah partisi dari
nilai x. seumpama jumlah variabel penjelas meningkat,
meskipun kelompok nilai secara keseluruhan untuk setiap
variabel dapat menghasilkan sebuah tabel kontingensi dengan
jumlah sel yang besar, sebagian besar memiliki perhitungan
yang sangat kecil
Pembentukan ini merupakan dasar dari uji Hosmer dan
Lemeshow (19980) yang mengemukakan statistik pearson
yang membandingkan pengamatan dengan perhitungan yang
pas untuk partisi ini.
Menunjukan hasil biner untuk pengamatan j dalam group
i pada partisi, i=1,,g, j=1,..,... .
Menunjukan coresponding fitted probability untuk model
yang tepat dari data yang tidak berkelompok.
ij
y
i
n
ij
t
2
1
( )
( )[1 ( ) / ]
g
ij ij
j j
i
ij ij
j j
y
n
t
t t
=
Ketika banyak pengamatan yang memiliki peluang estimasi
yang sama, ada beberapa kesewenang2an dalam pembentukan
kelompok, dan berbeda software dapat menghasilkan nilai
yang berebda. Statistik ini tidak memiliki batas distribusi chi
square, karena pengamatan dalam kelompok merupakan
percobaan yang tidak identik. Dan karena pengamatan dalam
kelompok tidak memiliki sebaran peluang yang umum.
Bagaimanapun, Hosmer dan Lemeshow mencatat bahwa
ketika jumlah perbedaan pola nilai kovariat sama dengan
ukuran sampel, distribusi nol mendekati distribusi chisquare
dengan derajat bebas. Df = g-2.
5.3 MODEL LOGIT DENGAN
PREDIKTOR KATEGORIK
5.3.1 ANOVA-Type Representasi Faktor
Pertimbangkan faktor X tunggal, dengan
kategori I. Dalam baris i dari tabel I x 2, y
i
adalah jumlah hasil kolom pertama
(sukses) dari uji coba n
i
. Nyatakan Yi sebagai
binomial dengan parameter
i
. Model logit
dengan faktor adalah
Sisi kanan persamaan (5.4) menyerupai rumus
model untuk cara sel dalam ANOVA satu arah.
Dengan kategori I, X memiliki I-1 parameter
nonredundan. Salah satu parameter dapat
diatur ke 0, katakanlah
i
= 0. Jika nilainya
tidak memenuhi, kita dapat merecode sehingga
menjadi benar. Misalnya, bentuk
=
i
1
dan =
+
1
yang memenuhi
1
=0. Maka
Ketika
1
=0, sama dengan logit dalam baris I,
dan
i
adalah perbedaan antara logits dalam baris
i dan I. Jadi,
i
sama dengan rasio log odds untuk
pasangan baris-baris itu.
Untuk setiap {
i
> 0}, {
i
} berlaku seperti model
(5.4). Model ini mempunyai banyak parameter
I sebagai pengamatan binomial. Ketika sebuah
faktor tidak berpengaruh,
1
=
2
= ... =
I
. Karena
ini setara dengan
1
= ... =
I
, model ini hanya
dengan sebuah intersep menentukan independensi
dari X dan Y secara statistik.
5.3.2 Dummy Variabel dalam Model Logit
Sebuah persamaan setara model (5.4)
menggunakan variabel dummy. Misalkan x
i
=1
untuk pengamatan di baris i dan x
i
=0 untuk
lainnya, i = 1, ..., I - 1. Modelnya adalah
Cara lain untuk memaksakan kendala bentuk
2
=
1
; Sebaliknya, untuk efek coding dengan 11 variabel
dummy maka
1
-
2
= 0 , rasio log odds yang sama
1
-
2
=
1
(-
1
) = 2
1
. Sebuah parameter atau estimasinya masuk
akal hanya dengan dibandingkan dengan satu untuk kategori
lain.
.
Joint probability nya untuk N fungsi binomial adalah
1
= log
=1
1
=1
= exp log
1
1
1
ketika ada lebih dari 1 observasi/ percobaan pada nilai xi maka jumlah observasi dinyatakan ni dan
jumlah sukses adalah xi . Yi menunjukan sukses yang dihitung dari sekian percobaan dimana YiYN
adalah independent binomial dengan mean E(Yi)= , dimana , 2, , = .
Joint probability nya untuk N fungsi binomial adalah
Likelihood equation
pada model, logit ke i adalah
= exp
1
, maka
log likelihoodnya sama dengan :
=
log 1 +exp
turunanan dari fungsi log nya
()
= 0 , karena
()
=
exp
1 +exp
dimana =
exp
1+exp
= 0, = 1, , ,
Distribution of Probability Estimator
Menggunakan , kita dapat melakukan inferensia terhadap
dan dihubungkan pada efek, seperti pada odds rasio. Kita
dapat juga membuat convidence interval untuk peluang
respon pada pengaturan x tertentu.
Estimasi varians dari logit adalah . Untuk
jumlah sampel yang besar, logit adalah
convidence interval untuk logit yang benar. Titik akhir
kebalikan pada interval yang sesuai untuk menggunakan
transformasi =exp(logit)/[1+exp(logit)].
,
Newton-Raphson Method Applied to logistik regresion
Kita kembali ke Section 4.6.1 untuk metode ITERATIVE
Newton-Raphson. Misalkan
Disini, , perkiraan t untuk , diperoleh dari melalui
Kita menggunakan
()
dan
()
dengan formula (4.39) untuk memperoleh nilai
(+1)
berikutnya, yang mana dalam konteks ini adalah:
(+1)
=
()
+{
}
1
, (5.22)
Dimana
()
=
()
. Ini digunakan untuk memperoleh
(+1)
, dan juga seterusnya.
Dengan perkiraan pertama
(0)
, persamaan (5.21) menghasilkan
(0)
, dan untuk t > 0
diproses berulang-ulang sebagaimana yang diperlihatkan menggunakan (5.22) dan (5.21).
Dalam
perbatasan,
()
dan
()
, menuju ke estimasi ML dan
()
menuju ke
1
.
Dari argument di Section 4.6.3,
(+1)
memiliki iterative reweighted least squares dari
(
1
)
1
()
, dimana
()
mempunyai elemen
()
=
()
1
()
+
()
(1
)
, (5.23)
Dan dimana
(1
) }. Ekspresi di dini,
()
adalah bentuk linear dari fungsi link logit untuk data sampel, dievaluasi pada
()
[lihat
(4.42)]. Dari Section 3.1.6 elemen