Parameter Interpretation in Logistic Regression Models For Dicotomus Independent Variable

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
ISSN 2085-7829
Interpretasi Parameter dalam Model Regresi Logistik untuk Variabel Bebas Dikotomus
Parameter Interpretation in Logistic Regression Models for Dicotomus Independent Variable
Darnah A. Nohe
Program Studi Statistika FMIPA Universitas Mulawarman
Abstract
Logistic regression is a specialized form of regression that is formulated to predict and explain a binary
categorical variable rather than a metric dependent measure. Interpretation of coefficients in a logistic
regression model relies on the ability of researchers to put meaning to the difference between the two logit, and
these differences will directly connect to the definition and meaning of a unit change in independent variable.
This paper present parameters interpretation in logistic regression models for dicotomus independent variable
using odds ratio. Data will be presented in a 2x2 contingency table for ease of understanding. Logistic
regression were applied to data of Malaria case.
Keywords: Binary, Dicotomus Independent Variable, Logistic Regression.
Pendahuluan
Setiap model dugaan yang terbentuk
memerlukan
interpretasi
yang
dapat
menggambarkan inferensi praktis dari koefisien
taksiran didalam model yang direlevansikan dengan
tujuan yang ingin dicapai dalam suatu penelitian.
Koefisien
taksiran
untuk
variabel
bebas
menggambarkan slope atau tingkat perubahan dari
fungsi variabel tak bebas per satuan unit perubahan
di dalam variabel bebas. Jadi interpretasi ini akan
menyangkut dua hal, yaitu: penentuan hubungan
fungsional antara variabel tak bebas dan variabel
bebas, serta pendefinisian satuan unit perubahan
untuk variabel bebas.
Langkah pertama untuk menentukan
bagaimana bentuk fungsi dari variabel tak bebas
yang menghasilkan fungsi linier dari variabelvariabel bebas adalah dengan menggunakan fungsi
penghubung (link function). Dalam model regresi
logistik, fungsi penghubungnya adalah transformasi
logit yang berbentuk g(x) = ln{(x)/[1 - (x)]} =
0 + 1x. (McCullagh dan Nelder, 1983).
Sedangkan model regresi linier adalah fungsi
identitas karena variabel tak bebasnya linier dalam
parameter-parameternya.
Untuk model regresi linier, diketahui
bahwa koefisien slope, 1, adalah sama dengan
perbedaan antara nilai dari variabel tak bebas pada
x + 1 dengan nilai dari variabel bebas pada x, untuk
setiap nilai x. Untuk menggambarkan hal itu, kita
misalkan y(x) = 0 + 1x dimana 1 = y(x + 1) - y(x).
Dalam hal ini, interpretasi dari koefisien ini adalah
jelas yaitu menyatakan hasil perubahan dalam skala
pengukuran dari variabel tak bebas untuk suatu unit
perubahan dalam variabel bebas.
Dalam model regresi logistik maka
1 = g(x + 1) - g(x), yaitu koefisien slope yang
menggambarkan perubahan dalam logit untuk
perubahan dari satu unit di dalam variabel bebas x.

Interpretasi yang tepat dari koefisien dalam model
regresi logistik bergantung pada kemampuan untuk
menempatkan makna dari perbedaaan antara dua
buah logit. Pada makalah ini, hanya akan dibahas
khusus untuk variabel-variabel bebas yang
dikotomus dengan menyajikan data pada tabel
kontingensi 2x2. Kasus yang digunakan adalah
Pemberantasan Sarang Nyamuk (PSN).
Regresi Logistik
Regresi logistik digunakan jika variabel
terikat bersifat kategorik (nominal atau ordinal)
dengan variabel-variabel terikat kontinu maupun
kategorik (Agresti, 1990). Variabel terikat Y yang
bersifat random dan dikotomus, yakni bernilai 1
dengan probabilitas dan bernilai 0 dengan
probabilitas 1- , disebut sebagai point-binomial
(Le, 1998).
Untuk pengamatan ke-i dari
sampel
(i = 1,2,...,n), Yi adalah variabel Bernoulli dengan
distribusi probabilitas (Le, 1998):
y
1 y
PYi yi x i i 1 x i i ; yi = 0,1 dan
n = jumlah sampel.
Fungsi basis logistik adalah :
f z
1 , z
1 e z
dimana z 0 1x .
Untuk z
untuk
...(1)
maka Lim f ( z) 0 , sedangkan

z
z maka Lim f ( z ) 1 . Dengan melihat

z
kemungkinan nilai f z yang berkisar antara 0 dan

1, menunjukkan bahwa regresi logistik sebenarnya
menggambarkan probabilitas terjadinya suatu event.
ISSN 2085-7829
Analisis regresi logistik mengasumsikan
Metode estimasi yang mengarah pada fungsi

least squares dalam model regresi linier (jika
residual berdistribusi normal) disebut maximum
likelihood (Hosmer and Lemeshow, 1989). Jika
parameter pada model regresi logistik dinotasikan
sebagai berikut:
bahwa
hubungan
antara
x i dan
x i dapat
dijelaskan oleh fungsi logistik pada persamaan (2)

berikut (Le, 1998).
x i
1
, i = 1,2,...,n
1 exp 0 1x i
exp 0 1 x i
1 exp 0 1 x i exp 0 1 x i
1
exp 0 1x i
1 exp 0 1x i
...(2)
Secara umum, model regresi logistik yang

dinyatakan sebagai fungsi x adalah (Hosmer and
Lemeshow, 1989)
( x )
0

1
...

k
exp( 0 1x )
1 exp( 0 1x )
...(3)
maka pada dasarnya metode maximum likelihood

mengestimasi nilai dengan memaksimumkan
fungsi Likelihood (Hosmer and Lemeshow, 1989).
Fungsi distribusi probabilitas untuk setiap
pasangan (xi, yi), adalah (Hosmer and Lemeshow,
1989)
y
1 y
...(5)
f x i x i i 1 x i i
dimana,
exp j x ij
j 0
(x i )
k
1 exp j x ij
j 0
Untuk mempermudah penaksiran parameter

regresi, maka digunakan transformasi logit
terhadap ( x ) sehingga menjadi bentuk logit
seperti pada persamaan (4) berikut:
( x )
exp( 0 1x )
1 exp( 0 1x )
(x)1 exp( 0 1x)= exp( 0 1x)

(x) (x) exp( 0 1x)= exp( 0 1x)
( x ) = exp( 0 1x) - (x) exp( 0 1x)
( x ) = 1 (x) exp( 0 1x)
l f x i x i y 1 x i 1 y
n
g(x) = 0 1x
i 1
i 1
x yi
n
n
i
= 1 x i exp ln

1
i
n
n
x i ...(6)

=
1 x i exp yi ln
i
i 1
1 x i
1x)}
Untuk model pada persamaan (6), logit ke-i
...(4)
adalah
Estimasi parameter
Diasumsikan sebuah sampel berukuran n dan
terdiri atas pengamatan independen berpasangan
(xi, yi), i = 1,2,...,n, dengan yi menyatakan nilai
variabel terikat dan xi adalah nilai variabel bebas
untuk subjek ke-i. Pada regresi linier, metode
penaksiran parameter yang lazim digunakan adalah
least squares, dengan konsep meminimumkan
jumlah kuadrat residual. Jika asumsi IIDN
terpenuhi, maka metode ini akan menghasilkan
estimator yang dapat dianggap valid. Namun, jika
diaplikasikan pada model dengan variabel terikat
dikotomus, maka estimator yang dihasilkan akan
bersifat bias (Hosmer and Lemeshow, 1989).
10
( x ) = exp( x)
0
1
1 ( x )
( x ) = ln {exp(
0
ln
1 ( x )
( x ) = x
0
1
ln
1 ( x )
Karena antar pengamatan diasumsikan

independen, maka fungsi likelihood merupakan
perkalian dari masing-masing fungsi distribusi
probabilitas pada persamaan (5) (Hosmer and
Lemeshow, 1989).
x
j 0
ij
, sehingga suku eksponensial
terakhir menjadi:
n k
n
x i
exp yi j x ij
exp yi ln
i 1 j 0
1 x i
i 1
k n

exp yi x ij j

j 0 i 1
Selain itu, untuk suku pertama berlaku
j x ij
exp
i 1
i 1
j 0
Secara matematis,
memaksimumkan ln l
lebih mudah untuk

atau disebut juga ln
likelihood yang dinotasikan sebagai

1990).
L( ) (Agresti,
L lnl
k
n
yi x ij j ln 1 exp j x ij
j 0 i 1
i 1
j 0
Maksimum ln likelihood dapat diperoleh

dengan cara men-differensialkan L( ) terhadap
dan menyamakannya dengan nol (Agresti,

1990).
k

exp j x ij
n
n
L
j 0

y i x ia x ia
k
a
i 1
i 1
1 exp j x ij
j 0
i 1
i 1
x i x ia ; a = 0, 1, , k
0 yi x ia
...(7)
dimana,
exp j x ij
j 0
x i
k
1 exp j x ij
j 0
menyatakan
estimasi
ISSN 2085-7829
x i dengan
dari
menggunakan metode maximum likelihood.

Dari hasil penurunan pertama pada
persamaan (7), nilai diestimasi dengan metode
numerik karena persamaannya ber-sifat nonlinier.
Sedangkan metode untuk mengestimasi varians dan
kovarians dari taksiran dikembangkan menurut
teori MLE (Maximum Likelihood Estimator) yang
menyatakan bahwa estimasi varians dan kovarians
diperoleh dari turunan kedua fungsi ln Likelihood
(Agresti, 1990).
Turunan kedua dari fungsi ln likelihood yaitu:
n
2 L
x ia2 x i 1 x i
a2
i 1
x ia x ib exp j x ij
L
j 0

k
a b
i 1
1 exp j x ij
j 0
x
i 1
x xi i 1 xi ;
ia ib
dimana a, b = 0, 1,,k
Sehingga
diperoleh
matriks
varianskovarians dari estimasi parameter melalui invers
matriks (Agresti, 1990),
1
ov xT Diag[ (x )(1 (x ))] x
(8)
C
i
i
Dengan
1 x11 ... x1k

1 x
... x 2 k
21
x
... ...
...
1 x n1 ... x nk
Diag[ (x i )(1 (x i ))]
merupakan n x n
matriks diagonal dengan elemen diagonal utama

[ (x i )(1 (x i ))] . Akar kuadrat dari elemenelemen diagonal utama adalah estimasi standar eror
dari taksiran parameter model (Agresti, 1990).
Dimana untuk mendapatkan nilai taksiran dari
penyelesaian turunan pertama fungsi ln likelihood
yang non linier digunakan metode iterasi NewtonRaphson (Agresti, 1990).
Metodologi Penelitian
Penelitian ini menggunakan studi literatur dan
contoh kasus menggunakan data hasil penelitian
Wijiati (2011) dengan Kejadian Malaria sebagai
variabel terikat, dan Kebiasaan di Luar Rumah
sebagai variabel bebas.
Hasil dan Pembahasan
Pada variabel bebas yang berbentuk
dikotomus atau biner, kita asumsikan bahwa x
diberi kode 1 atau 0. Di bawah model tersebut,
maka akan terdapat dua buah nilai (x) dan dua
buah nilai 1 - (x). Nilai-nilai tersebut secara jelas
dapat dijelaskan dalam tabel 2x2 sebagaimana
ditunjukkan pada Tabel 1.
Tabel 1. Nilai-nilai Model Logistik Untuk Variabel
Bebas Dikotomus
Variabel Bebas
x=1
x=0
0 1
Variabel
e
e 0
Respon y = 1
(
0
)
(1)

1 e
1 e
y=0
1 (1)
1
1
1 ( 0)
0 1
1 e
1 e 0
Total
1
1
Odds dari variabel terikat yang muncul
diantara data pengamatan dengan x = 1
11
ISSN 2085-7829
didefinisikan sebagai (1)/[1 - (1)]. Demikian juga

halnya, odds dari variable terikat yang muncul
diantara data pengamatan dengan x = 0
didefinisikan sebagai (0)/[1 - (0)]. Logaritma dari
odds disebut sebagai logit, dalam hal ini adalah:
Secara teori, untuk ukuran sampel yang

cukup besar, maka distribusi dari akan normal.
Tentu saja, syarat-syarat tentang ukuran sampel ini
dalam kebanyakan penelitian selalu menjadi
kendala. Sehingga, inferensi yang biasa dilakukan
adalah berdasarkan pada distribusi dari ln{ ) =
, yang cenderung untuk mengikuti distribusi
1
normal untuk ukuran sampel yang relatif lebih
kecil.
Penaksir untuk interval kepercayaan
100(1-)% bagi odds rasio diperoleh melalui
perhitungan titik akhir dari interval kepercayaan
untuk koefisien 1, kemudian dibuat harga
eksponennya. Secara umum, dapat juga ditulis
sebagai berikut:
exp[ 1 z1 / 2SE ( 1)]
g(1) = ln {(1)/[1 - (1)]}

dan
g(0) = ln {(0)/[1 - (0)]}
Odds rasio, yang dinotasikan oleh , didefinisikan
sebagai rasio dari odss untuk untuk x = 1 terhadap
x = 0 yang diberikan dalam persamaan berikut:
(1) /[1 (1)]

(0) /[1 (0)]
... (13)
Logaritma dari odds rasio (kadang-kadang disebut

juga sebagai log-odds rasio atau log-odds) adalah:
(1) /[1 (1)]

= g(1) - g(0)
(0) /[1 (0)]
ln( ) ln
Selanjutnya, dengan menggunakan bentuk model

regresi logistik yang ditunjukkan dalam Tabel 1,
maka odds rasionya adalah:
e 0 1 1
1 e 0 1 1 e 0
1 (a b)
(a, b) exp 1(a b)

... (14)
ln e 1 = 1.
Kenyataan tersebut yang berkenaan dengan

interpretabilitas koefisien merupakan alasan yang
sangat mendasar mengapa regresi logistik
mempunyai kemampuan alat analitis yang kuasa
untuk penelitian-penelitian di bidang epidemiologi.
Sejalan dengan penaksiran titik parameter,
maka penaksir interval kepercayaan juga dapat
digunakan untuk memberikan informasi tambahan.
Odds rasio, , biasanya merupakan parameter yang
banyak diamati dalam regresi logistik karena
kemudahannya dalam menginterpretasikannya.
Akan tetapi, penaksir akan cenderung
mempunyai distribusi yang kemiringan tertentu.
Kemiringan distribusi sampling disebabkan oleh
kenyataannya bahwa penaksir tersebut dibatasi oleh
nol.
12
... (15)
dan penaksir odds rasionya adalah:
dan perbedaan logit atau log-oddsnya adalah

ln() =
e0
1
0
0 1
1 e 1 e
e 0 1
e 1
e0
Penaksir odds rasio untuk setiap variabel

bebas pada dua level yang berbeda, katakan x = a
dan x = b, adalah perbedaan antara penaksir logit
yang dihitung pada kedua nilai tersebut. (Kleibaum,
1994). Persamaan yang menyatakan perhitungan
tersebut adalah sebagai berikut:
ln (a, b) g ( x a) g ( x b)
= 0 1a 0 1b
... (16)
Bentuk di atas akan sama dengan exp( 1) hanya

jika (a - b) =1. Dalam persamaan (15) dan (16),
notasi (a,b) digunakan untuk menggambarkan
odds rasio dalam bentuk:
(a , b)
( x a ) / [1 ( x a )]
( x b) / [1 ( x b)]
... (17)
dan jika a = 1 dan b = 0, maka dapat ditentukan

= (1,0).
Suatu contoh kasus untuk interpretasi
parameter dalam regresi logistik untuk variabel
bebas dikotomus akan disajikan dalam tabel 2x2. Di
sini akan diamati tentang ada tidaknya suatu
penyakit, yaitu kejadian malaria, dengan variabel
bebasnya adalah kebiasaan di luar rumah, dimana
untuk responden yang menjawab Ya diberi kode 0
dan Tidak diberi kode 1, seperti yang ditunjukkan
dalam Tabel 2.
ISSN 2085-7829
Tabel 2. Data Tentang Kejadian Malaria dan

Kebiasaan di Luar Untuk 80 data
Kejadian
Berada Diluar
Malaria
Rumah(x)
Total
(y)
Ya
Tidak
Ya
26
15
41
Tidak
14
25
39
Total
40
40
80
Data pada Tabel 2 menggambarkan bahwa
terdapat 26 subyek dengan nilai (x=1, y=1),
15 subyek dengan (x=0, y=1), 14 subyek dengan
(x=0, y=0), dan 25 subyek dengan (x=0, y=0).
Ali, M. (2006). Psikologi Remaja : PT Bumi

Aksara. Jakarta.
Hosmer, D.W. and S. Lemeshow (1989). Applied
Logistic Regression. New York: John
Wiley and Sons.
Le, C. T. (1998). Applied Categorical Data
Analysis. John Wiley and Sons, Inc. USA.
Nursiah. (2010). Hubungan Antara Pengetahuan
Dan Pendidikan Kesehatan Reproduksi
Dengan Perilaku Seksual Pada Siswa Sma
Kesatuan 1 Samarinda Tahun 2010,
Skripsi. UWGM
Notoatmodjo, S. (2003). Pendidikan Dan Perilaku
Kesehatan. Jakarta: PT. Rineka Cipta.
Sedangkan hasil estimasi parameter model regresi

logistik disajikan pada Tabel 3 berikut:
Tabel 3. Hasil Perhitungan Pendugaan Model
Regresi Logistik
Variabel
Penaksir
koefisien
1.130
Galat
Baku
0.465
Kebiasaan
diluar
3.095
rumah
Konstanta
-1.680
0.729
Besaran merupakan penaksir kemungkinan
maksimum dari odds rasio, = e1.130 = 3.095. Jika
dihitung secara langsung akan diperoleh nilai yang
sama seperti ditunjukkan sebagai berikut:
26 / 14

3.095
15 / 25
Artinya, resiko terjadinya penyakit malaria pada
seseorang yang mempunyai kebiasaan diluar rumah
adalah 3.095 kali dibandingkan yang tidak
mempunyai kebiasaan diluar rumah.
Penaksir koefisien dapat dihitung secara langsung,
yaitu:
= ln[(26/14)/(15/25)] = 1.130.
Interval kepercayaan 95% untuk data di atas adalah:
exp(1.130 1.96 x 0.465) = (2.184;4.006).
Nilai batas bawah interval kepercayaan lebih besar
dari 1 sehingga memperkuat dugaan bahwa Berada
di Luar Rumah merupakan faktor resiko terhadap
terjadinya Penyakit Malaria.
Kesimpulan
Berdasarkan hasil dan pembahasan
tersebut, maka dapat disimpulkan bahwa
interpretasi parameter dalam model regresi logistik
untuk variabel bebas dikotomus dapat dilihat dari
koefisien regresi logistik dengan menentukan nilai
odds rasio. Hal ini dapat memberikan suatu
landasan bagi interpretasi dari semua hasil-hasil
yang diperoleh melalui analisis regresi logistik.
Daftar Pustaka
Agresti, A. (1990). Categorical Data Analysis. New
York: John Wiley and Sons.
13
14
ISSN 2085-7829

Parameter Interpretation in Logistic Regression Models For Dicotomus Independent Variable

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Parameter Interpretation in Logistic Regression Models For Dicotomus Independent Variable

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

perubahan dari satu unit di dalam variabel bebas x.

maka Lim f ( z) 0 , sedangkan

z maka Lim f ( z ) 1 . Dengan melihat

kemungkinan nilai f z yang berkisar antara 0 dan

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

Analisis regresi logistik mengasumsikan

Metode estimasi yang mengarah pada fungsi

dijelaskan oleh fungsi logistik pada persamaan (2)

Secara umum, model regresi logistik yang

maka pada dasarnya metode maximum likelihood

Untuk mempermudah penaksiran parameter

(x)1 exp( 0 1x)= exp( 0 1x)

Untuk model pada persamaan (6), logit ke-i

Karena antar pengamatan diasumsikan

, sehingga suku eksponensial

Program Studi Statistika FMIPA Universitas Mulawarman

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

lebih mudah untuk

likelihood yang dinotasikan sebagai

Maksimum ln likelihood dapat diperoleh

dan menyamakannya dengan nol (Agresti,

menggunakan metode maximum likelihood.

1 x11 ... x1k

matriks diagonal dengan elemen diagonal utama

Program Studi Statistika FMIPA Universitas Mulawarman

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

didefinisikan sebagai (1)/[1 - (1)]. Demikian juga

Secara teori, untuk ukuran sampel yang

g(1) = ln {(1)/[1 - (1)]}

(1) /[1 (1)]

Logaritma dari odds rasio (kadang-kadang disebut

(1) /[1 (1)]

Selanjutnya, dengan menggunakan bentuk model

(a, b) exp 1(a b)

Kenyataan tersebut yang berkenaan dengan

dan penaksir odds rasionya adalah:

dan perbedaan logit atau log-oddsnya adalah

Penaksir odds rasio untuk setiap variabel

Bentuk di atas akan sama dengan exp( 1) hanya

dan jika a = 1 dan b = 0, maka dapat ditentukan

Program Studi Statistika FMIPA Universitas Mulawarman

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

Tabel 2. Data Tentang Kejadian Malaria dan

Ali, M. (2006). Psikologi Remaja : PT Bumi

Sedangkan hasil estimasi parameter model regresi

Program Studi Statistika FMIPA Universitas Mulawarman

Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012

Program Studi Statistika FMIPA Universitas Mulawarman

Anda mungkin juga menyukai