Anda di halaman 1dari 10

5.

1 INTERPRETING PARAMETER IN LOGISTIC REGRESSION

Untuk variabel respon biner Y dan variabel explanatory X, misalkan


π ( x ) =P ( Y =1| x=x )=1−P ( Y =0|X =x ) . Model regresi logistiknya adalah

exp ( α+ βx )
π (x )= (5.1). Log odds mempunyai hubungan linear
1+exp ( α + βx )

π (x)
logit [ π ( x ) ]=log =α + βx (5.2).
1−π ( x )

5.1.1 Interpreting β: Odds, Probabilities, and Linear Approximations

Bagaimana cara menginterpretasikan β? Tanda ini yang menentukan π ( x )


akan naik atau turun selagi x naik. Ketika β=0, Y independent terhadap X. Untuk
x kuantitatif dengan β >0 , kurva π ( x ) memiliki bentuk cdf dari distribusi logistic.
Sehubungan dengan density logistic adalah simetrik, π ( x ) mendekati 1 di saat
mendekati 0 juga. Eksponensialkan kedua sisi dari (5.2) menunjukkan odds adalah
fungsi eksponensial dari x. Interpretasinya menjadi odds dikalikan e β untuk setiap
kenaikan 1 unit pada x. dengan kata lain, e β adalah odds ratio, odds di X =x+ 1
dibagi dengan odds X =x .

Interpretasi yang lebih sederhana adalah slope (kemiringan) yang


menggunakan argument linear dengan formula β π ( x ) [ 1−π ( x ) ] . Contoh x yang
mempunyai π ( x ) =0.5 memiliki slope 0.25 β, ketika π ( x ) =0.9 atau 0.1 memiliki
slope 0.01 β. Slope akan mendekatti 0 saat π ( x ) mendekati 1 atau 0. Kemiringan
paling curam terjadi pada x saat π ( x ) =0.5 yang biasa disebut level median efektif.

Cara interpretasi lainnya adalah melaporkan hasil dari π ( x ) di x tertentu,


misal nilai maksimum dan minimum. Dengan cara menukar π ( x ) dengan x di
persamaan (5.1). Persamaan ini lebih tahan terhadap outlier di x untuk melaporkan
hasil dari π ( x ) pada kuartil x dari pada di titik ekstrim.
Perpotongan parameter α biasanya tidak diperhatikan. Tapi dengan


memusatkan predictor di 0, α menjadi logit di x=x́, dan π ( x́ ) = .
1+e α

5.1.2 Looking at the Data

Sebelum memfit model dan membuat interpretasi, data dilihat untuk


mengecek apakah model regresinya sudah sesuai. Karena nilai y berupa 0 dan 1,
akan sulit untuk mengecek hal ini dengan scatterplot biasa. Akan lebih membantu
jika kita memplot proporsi sampel atau logit terhadap x. Misalkan n i merupakan
jumlah observasi sebanyak i dari x, yi merupakan jumlah hasil “1”, dengan pi =
yi/ni. Log sampel i adalah log[pi/(1-pi)] = log[yi/(ni-yi)]. Scatterplot dari log sampel
haruslah linier. Log sampel tidak terbatas ketika yi = 0 atau ni. Sebuah pengaturan
menambahkan konstanta positif terhadap jumlah hasil dari kedua tipe. Pengaturan
tersebut adalah

yaitu merupakan estimator yang setidaknya bias dari bentuk tersebut untuk log
yang sebenarnya.

Ketika x kontinu dan seluruh ni = 1, atau ketika x pada dasarnya adalah


kontinu dan seluruh ni kecil maka hal ini tidak memuaskan. Data dapat
dikelompokkan dengan nilai x terdekat kedalam kategori sebelum menghitung
proporsi sampel dan log sampel. Pendektan yang lebih baik agar tidak memilih
kategori dengan seenaknya yaitu dengan metode smoothing, dimana metode ini
memfit generalized additive model yang menggantikan prediktor linier dari GLM.
Plot dari fit ini menunjukkan apakah perbedaan yang terjadi dari tren bentuk S
dapat diprediksi oleh regresi logistik.
5.1.3 Example : The Crab Horsesshoe Crab Mating

 Untuk mengilustrasikan regresi logistik, akan digunakan data ”the horseshoe


crab”. Yang menjadi respon binary adalah satellite pada female crab.
1 , minimal memiliki satu satelit
Untuk crab ke-I, y i :{ 0 ,tidak memiliki satelit
Dengan predictor linear yaitu female crab carapace width

 Plot 5.2 berisi titik titik dengan y i=0 dan y i=1 ,garis x yang menunjukan
female crab carapace width dan simbol yang bernomer menunjukan banyaknya
observasi dari setiap titik. Dari plot dapat terlihat bahwa y i=1 (female crab
minimal memiliki satu satelit) cenderung lebih sering terjadi pada nilai x
(female crab carapace width) yang lebih besar. Dengan catatan bahwa setiap
crab dengan carapace width lebih dari 29 cm memiliki satelit.
 Dari setiap carapace width akan dibuat proporsi sampel dari crab yang
mempunyai sateit dan rata rata carapace width untuk setiap kategori. Plot 5.2
menunjukan 8 titik yang memperlihatkan proporsi sampel dari female crab
yang memiliki satelit diplot terhadap rata rata carapace width.
 Plot 5.2 juga memperlihatkan kurva berdasarkan smoothing dengan
menggunakan metode generalized additive modelling dengan asumsi respon
binomial dan link logit. Kurva ini membentuk tren yang meningkat. Ini
menunjukan bahwa regresi s-shaped dapat menjelaskan hubungan secara baik,
karena baik 8 titik sampel proporsi maupun metode generalized additive
modelling (GAM) memperlihatkan tren yang meningkat sehingga akan
digunakan model regresi logistik dengan carapace width sebagai predictor
linear.

 Misalkan ^π ( x) adalah probabilitas dimana female horseshoe crab dengan


carapace width memiliki satelit. Sehingga ML,
exp ⁡(−12.35+ 0.497)
^π ( x ) =
1+exp ⁡(−12.351+0.497)
Misalnya x=26.3 cm sehingga didapat nilai ^π ( x ) =0.674 dan estimated

1 α^ 12.351
probability sama dengan ketika x= ^ = =24.8
2 β 0.497

 Plot 5.3 adalah plot ^π ( x ) dari regresi logistic terhadap carapace width. Terlihat
bahwa kurva mengikuti tren dengan cukup baik dalam proporsi tersebut.
Estimated odds dari satelit dikalikan dengan exp ( β^ ) =exp ( 0.497 )=1.64 untuk
setiap peningkatan satu satuan pada carapace width (yaitu 64% peningkatan).
 Pada rata rata carapace width ^π ( x ) =0.674 dan ^π ( x ) meningkat sekitar
^β ¿¿=0.497 (0.674)(0.326)=0.11

Untuk setiap peningkatan satu satuan carapace width. Misalkan ingin dilihat
berdasarkan quantil. Quantil bawah, median da quantil atas dari carapace width
yaitu 24.9,26.1, dan 27.7 sehingga ^π ( x ) untuk setiap quantil yaitu 0.51,0.65, dan
0.81, meningkat sebesar 0.30.
 Akan dilihat juga perbandingan dari efek predictor dari setiap unit. Misalnya
female crab weight sebagai predictor, logit [ ^π ( x ) ] =−3.695+1.815 x
Untuk peningkatan 1 kg carapace width tidak sebanding dengan peningkatan 1
cm carapace width sehingga ^β=1.815 untuk x=carapace width tidak
sebanding dengan ^β=0.497 untuk x=carapace width.

5.1.4 Regresi Logistik dengan Studi Retrospektif

Pada studi retrospektif, kita dapat mengestimasi odds ratio. Efek pada model
regresi logistik mengacu pada odds ratio. Kita dapat mengkonstruksi model dan
mengestimasi efek pada studi kasus kontrol.

Misal Z mengindikasikan apakah subjek termasuk dalam sampel (1 = yes, 0


= no). Misal ρ1=P(Z=1∨ y=1) adalah probabilitas dari sampling sebuah kasus,
dan ρ0 =P (Z =1∨ y=0) adalah adalah probabilitas sampling sebuah control.
Distribusi Y bersyarat X = x tidak disampelkan. Diasumsikan P ( Y =1|x )
mengikuti model logistik, maka menurut teorema Bayes,

P(Z=1∨ y =1 , x ) P(Y =1∨x)


P ( Y =1|z=1 , x )= 1

∑ [ P ( Z=1| y= j , x ) P ( Y = j|x ) ]
j=0

Misal P ( Z=1| y , x )=P(Z=1∨ y ) untuk y = 0 dan 1, dimana untuk setiap y


probabilitas samplingnya tidak bergantung pada x. Substitusi ρ1dan ρ0 dan bagi
pembilang dan penyebut dengan P ( Y =0|x ) , sehingga

ρ1 exp ⁡( α + βx)
P ( Y =1|z=1 , x )=
ρ0+ ρ 1 exp ⁡(α + βx)

Lalu bagi pembilang dan penyebut dengan ρ0 dan gunakan


ρ1 / ρ0=exp ⁡[ log ( ρ1 / ρ0 ) ] sehingga

logit [ P ( Y =1|z=1 , x ) ] =α ¿ + βx
¿
dengan α =α + log ⁡( ρ1 / ρ0 ). Model regresi logistik memiliki efek parameter β yang
sama seperti pada model untuk P ( Y =1|x ). Jika rasio sampling dari kasus lebih
besar dari yang control, estimasi intercept akan lebih besar daripada yang
diestimasi dengan stusi prospektif.

Dalam studi kasus control, tidak dapat diestimasi β pada model respon
berpasangan dengan hubungan yang bukan logit. Tidak seperti odds ratio, efek
dari distribusi X bersyarat y tidak sama dengan Y bersyarat x.

5.1.5 Logistic Regression is Implied by Normal Explanatory Variable

Regresi logistic tidak menjelaskan hubungan secara baik. Diberikan Y =i,

misalkan X N ( μi , σ 2 ) untuk i=0,1. Maka teorema bayes, P ( Y =1|X =x ) memenuhi

model logistic dengan β=(μ1−μ0 )/σ 2. Jadi, jika populasinya adalah mixture dari
dua tipe subjek, yang pertama y=1 berdistribusi normal dan yang kedua y=0
berdistribusi normal dengan variansi yang serupa, regresi logistic akan memiliki
aproksimasi yang baik untuk kurva π ( x ) . Jika berdistribusi normal tetapi memili
variansi yang jauh berbeda, maka model menerapkan bentuk quadratic. Pada kasus
ini hubungan yang terjadi tidak monoton, dengan π ( x ) meningkat kemudian
menurun, atau sebaliknya.

5.2 INFERENCE UNTUK REGRESI LOGISTIK

Dengan hasil standar, parameter estimator ML regresi logistic memiliki distribusi


normal dengan sampel yang besar. Inferece ini dapat menggunakan metode Wald,
likelihood-ratio, dan score seperti di bab 1.3.3.

5.2.1 Inference Tentang Parameter Model dan Probabilitas

Model logistic dengan satu prediktor: logit [ π ( x ) ]=α+ βx. Tes signifikansi
dengan Hipotesis: H 0 : β=0 , hipotesis independensi
 Uji Wald menggunakan log likelihood ^β , dengan statistic uji

β^
z= atau kuadratnya dibawah H 0
SE
 Uji Likelihood-ratio menggunakan dua kali perbedaan antara maksimum log
pada ^β dan pada β=0 dan memiliki distribusi null X 12
 Uji Score memiliki log likelihood saat β=0 melalui turunan log likelihood
pada titik itu.

Statistik Uji membandingkan statistic cukup untuk β dengan nilai nol yang
diharapkan sesuai standar ¿

Interval kepercayaan untuk β hasil dari invers tes H 0 : β=β 0. Intervalnya

adalah himpunan β 0 yang uji statistic chi-squarednya tidak lebih dari X 12 ( α ) =z 2α /2 .

^ 2
β−β ^
] ≤ z α / 2 maka intervalnya adalah β ± z α ( SE ) .
0 2
Untuk pendekatan Wald, [
SE 2

Karakteristik lainnya bisa saja lebih penting daripada β , seperti π ( x) pada


berbagai nilai x. Untuk x=x 0, logit [ ^π ( x ) ] = α^ + β^ x memiliki sampel SE yang besar
2
dengan estimasi akar kuadrat dari var ( α^ + β^ x 0 )=var ( α^ ) + x 0 var ( ^β ) +2 x0 cov ( α^ , ^β).

95% Interval kepercayaan untuk logit [ π ( x 0 ) ] adalah ( α^ + ^β x0 ) ± 1.96 ( SE ). Substitusi

setiap titik akhir ke dalam invers transformasi π ( x0 ) =exp ( logit ) /[1+ exp ( logit ) ]

memberikan hasil interval untuk π ( x0 ) .

5.2.2 Example: Inference for Horseshoe Crab Mating Data

Ilustrasikan kesimpulan regresi logistik dengan model untuk probabilitas


bahwa kepiting tapal kuda / belangkas memiliki satelit, dengan lebar kepiting
sebagai prediktor.
Statistik Wald chi-squared, z^2 = 23.89, memiliki df = 1. Nilai statistik
likelihood-ratio bernilai -2[-112.88 – (-97.23)] = 31.31 dengan df =1. Nilai ini
menunjukkan bukti yang lebih kuat dari Uji Wald.

Tabel 5.1 menunjukkan interval kepercayaan likelihood-ratio dari (0.308,


0.709), dengan didasarkan pada fungsi likelihoodnya. Interval kepercayaan untuk
efek penambahan 1 cm pada lebar kepiting bernilai (e0.308 , e0.709) = (1.36 ,
2.03).

Dengan software, dapat dihitung estimasi dan interval kepercayaan untuk


π(x). Misalkan lebar kepiting x = 26.5, yang bernilai dekat dengan mean lebarnya.
Nilai estimasi logit adalah -12.351 + 0.497(26.5) = 0.826, dan π ̂(x) = 0.695.
Software menunjukkan nilai:

dimana

Karena nilai corr(α ̂, β ̂) mendekati 1.0, untuk penghitungan yang lebih baik,
gunakan model dengan prediktor x* = x – 26.5, sehingga α ̂ dan SE nya menjadi
estimasi logit dan SE. Gambar 5.4 menunjukkan confidence bands di sekitar nilai
prediksi untuk π(x) sebagai fungsi dari x.
Kita dapat menggunakan hanya proporsi sampel. Enam kepiting perempuan
pada sampel memiliki x = 26.5 dan empat dari mereka memiliki satelit. CI 95%
berdasarkan dari 6 observasi ini bernilai (0.30 , 0.90); sementara CI 95% untuk
model bernilai (0.61 , 0.77). Daripada menggunakan hanya 6 observasi, model
yang menggunakan seluruh 173 observasi menghasilkan estimasi parameter yang
lebih tepat.

Anda mungkin juga menyukai