Anda di halaman 1dari 6

J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829

Program Studi Statistika FMI PA Universitas Mulawarman 9



Interpretasi Parameter dalam Model Regresi Logistik untuk Variabel Bebas Dikotomus

Parameter Interpretation in Logistic Regression Models for Dicotomus Independent Variable


Darnah A. Nohe
Program Studi Statistika FMIPA Universitas Mulawarman

Abstract
Logistic regression is a specialized form of regression that is formulated to predict and explain a binary
categorical variable rather than a metric dependent measure. Interpretation of coefficients in a logistic
regression model relies on the ability of researchers to put meaning to the difference between the two logit, and
these differences will directly connect to the definition and meaning of a unit change in independent variable.
This paper present parameters interpretation in logistic regression models for dicotomus independent variable
using odds ratio. Data will be presented in a 2x2 contingency table for ease of understanding. Logistic
regression were applied to data of Malaria case.

Keywords: Binary, Dicotomus Independent Variable, Logistic Regression.


Pendahuluan
Setiap model dugaan yang terbentuk
memerlukan interpretasi yang dapat
menggambarkan inferensi praktis dari koefisien
taksiran didalam model yang direlevansikan dengan
tujuan yang ingin dicapai dalam suatu penelitian.
Koefisien taksiran untuk variabel bebas
menggambarkan slope atau tingkat perubahan dari
fungsi variabel tak bebas per satuan unit perubahan
di dalam variabel bebas. Jadi interpretasi ini akan
menyangkut dua hal, yaitu: penentuan hubungan
fungsional antara variabel tak bebas dan variabel
bebas, serta pendefinisian satuan unit perubahan
untuk variabel bebas.
Langkah pertama untuk menentukan
bagaimana bentuk fungsi dari variabel tak bebas
yang menghasilkan fungsi linier dari variabel-
variabel bebas adalah dengan menggunakan fungsi
penghubung (link function). Dalam model regresi
logistik, fungsi penghubungnya adalah transformasi
logit yang berbentuk g(x) = ln{t(x)/[1 - t(x)]} =
|
0
+ |
1
x. (McCullagh dan Nelder, 1983).
Sedangkan model regresi linier adalah fungsi
identitas karena variabel tak bebasnya linier dalam
parameter-parameternya.
Untuk model regresi linier, diketahui
bahwa koefisien slope, |
1
, adalah sama dengan
perbedaan antara nilai dari variabel tak bebas pada
x + 1 dengan nilai dari variabel bebas pada x, untuk
setiap nilai x. Untuk menggambarkan hal itu, kita
misalkan y(x) = |
0
+ |
1
x dimana |
1
= y(x + 1) - y(x).
Dalam hal ini, interpretasi dari koefisien ini adalah
jelas yaitu menyatakan hasil perubahan dalam skala
pengukuran dari variabel tak bebas untuk suatu unit
perubahan dalam variabel bebas.
Dalam model regresi logistik maka
|
1
= g(x + 1) - g(x), yaitu koefisien slope yang
menggambarkan perubahan dalam logit untuk
perubahan dari satu unit di dalam variabel bebas x.
Interpretasi yang tepat dari koefisien dalam model
regresi logistik bergantung pada kemampuan untuk
menempatkan makna dari perbedaaan antara dua
buah logit. Pada makalah ini, hanya akan dibahas
khusus untuk variabel-variabel bebas yang
dikotomus dengan menyajikan data pada tabel
kontingensi 2x2. Kasus yang digunakan adalah
Pemberantasan Sarang Nyamuk (PSN).

Regresi Logistik
Regresi logistik digunakan jika variabel
terikat bersifat kategorik (nominal atau ordinal)
dengan variabel-variabel terikat kontinu maupun
kategorik (Agresti, 1990). Variabel terikat Y yang
bersifat random dan dikotomus, yakni bernilai 1
dengan probabilitas dan bernilai 0 dengan
probabilitas 1- , disebut sebagai point-binomial
(Le, 1998).
Untuk pengamatan ke-i dari sampel
(i = 1,2,...,n), Y
i
adalah variabel Bernoulli dengan
distribusi probabilitas (Le, 1998):
( ) ( ) ( ) ( )
i i
i i
y 1
i
y
i
x 1 x y Y P

= = ; y
i
= 0,1 dan
n = jumlah sampel.
Fungsi basis logistik adalah :
( )
z
e
z f

+
=
1
1
, < < z ...(1)
dimana x
1 0
| | + = z .
Untuk = z maka
0 ) ( =

z f Lim
z
, sedangkan
untuk = z maka
1 ) ( =

z f Lim
z
. Dengan melihat
kemungkinan nilai ( ) z f yang berkisar antara 0 dan
1, menunjukkan bahwa regresi logistik sebenarnya
menggambarkan probabilitas terjadinya suatu event.
J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829


10 Program Studi Statistika FMI PA Universitas Mulawarman

Analisis regresi logistik mengasumsikan
bahwa hubungan antara ( )
i
x dan
i
x dapat
dijelaskan oleh fungsi logistik pada persamaan (2)
berikut (Le, 1998).
( )
( ) | |
i
i
x exp 1
1
x
1 0
| | + +
=
, i = 1,2,...,n


( ) | |
( )
( )
(

+
+
+ +
=
i
i
i
x exp
x exp
x exp 1
1
1 0
1 0
1 0
| |
| |
| |


( )
( )
i
i
x exp 1
x exp
1 0
1 0
| |
| |
+ +
+
=
...(2)
Secara umum, model regresi logistik yang
dinyatakan sebagai fungsi x adalah (Hosmer and
Lemeshow, 1989)
) x exp( 1
) x exp(
) x (
1 0
1 0
| |
| |
+ +
+
=
...(3)
Untuk mempermudah penaksiran parameter
regresi, maka digunakan transformasi logit
terhadap ) x ( sehingga menjadi bentuk logit
seperti pada persamaan (4) berikut:
) x exp( 1
) x exp(
) x (
1 0
1 0
| |
| |
+ +
+
=

{ }{ } ) x exp( 1 ) x (
1 0
| | + + = ) x exp(
1 0
| | +
{ } { } ) x exp( ) x ( ) x (
1 0
| | + + = ) x exp(
1 0
| | +
) x ( = ) x exp(
1 0
| | + - ) x exp( ) x (
1 0
| | +
) x ( = { } ) x exp( ) x ( 1
1 0
| | +
) x ( 1
) x (

= ) x exp(
1 0
| | +
|
|
.
|

\
|
) x ( 1
) x (
ln
= ln )} x {exp(
1 0
| | +
|
|
.
|

\
|
) x ( 1
) x (
ln
= x
1 0
| | +
g(x) = x
1 0
| | + ...(4)

Estimasi parameter
Diasumsikan sebuah sampel berukuran n dan
terdiri atas pengamatan independen berpasangan
(x
i
, y
i
), i = 1,2,...,n, dengan y
i
menyatakan nilai
variabel terikat dan x
i
adalah nilai variabel bebas
untuk subjek ke-i. Pada regresi linier, metode
penaksiran parameter yang lazim digunakan adalah
least squares, dengan konsep meminimumkan
jumlah kuadrat residual. Jika asumsi IIDN
terpenuhi, maka metode ini akan menghasilkan
estimator yang dapat dianggap valid. Namun, jika
diaplikasikan pada model dengan variabel terikat
dikotomus, maka estimator yang dihasilkan akan
bersifat bias (Hosmer and Lemeshow, 1989).
Metode estimasi yang mengarah pada fungsi
least squares dalam model regresi linier (jika
residual berdistribusi normal) disebut maximum
likelihood (Hosmer and Lemeshow, 1989). Jika
parameter pada model regresi logistik dinotasikan
sebagai berikut:
(
(
(
(

=
k
1
0
|
|
|
...


maka pada dasarnya metode maximum likelihood
mengestimasi nilai dengan memaksimumkan
fungsi Likelihood (Hosmer and Lemeshow, 1989).
Fungsi distribusi probabilitas untuk setiap
pasangan (x
i
, y
i
), adalah (Hosmer and Lemeshow,
1989)
( ) ( ) ( ) ( )
i i
i i
f
y 1 y
i
x 1 x x

= ...(5)
dimana,
(
(

|
|
.
|

\
|
+
|
|
.
|

\
|
=

=
=
k
0
k
0
x exp 1
x exp
) (x
j
ij j
j
ij j
i
|
|


Karena antar pengamatan diasumsikan
independen, maka fungsi likelihood merupakan
perkalian dari masing-masing fungsi distribusi
probabilitas pada persamaan (5) (Hosmer and
Lemeshow, 1989).
( ) = l
( ) ( ) ( ) ( )
i i
i i
i
i
i
f
y 1 y
n
1
n
1
x 1 x x

= =
=
[ [

=
( ) | |
( )
( )

)

(
(

|
|
.
|

\
|

[
)
`

[
= =
i
i
i
i
i
i
y
n
1
n
1
x 1
x
ln exp x 1

=
( ) | |
( )
( )
(

|
|
.
|

\
|

)
`

[

=
=
i
i
i
i i
i
x 1
x
ln y exp x 1
n
1
n
1
...(6)
Untuk model pada persamaan (6), logit ke-i
adalah

=
k
0
x
j
ij j
|
, sehingga suku eksponensial
terakhir menjadi:
( )
( )
(
(

|
|
.
|

\
|
=
(

|
|
.
|

\
|


= = =
n
1
k
0
n
1
x y exp
x 1
x
ln y exp
i j
ij j i
i
i
i
i
|

(

|
|
.
|

\
|
=

= =
k
0
n
1
x y exp
j
j
i
ij i
|

Selain itu, untuk suku pertama berlaku
( ) | |
1
k
0
n
1
n
1 i
x exp 1 x 1

=
= =
(
(

|
|
.
|

\
|
+
[
=
[

j
ij j
i
i
|


J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829

Program Studi Statistika FMI PA Universitas Mulawarman 11

Secara matematis, lebih mudah untuk
memaksimumkan ln ( ) l atau disebut juga ln
likelihood yang dinotasikan sebagai ) ( L (Agresti,
1990).
( ) ( ) | | l L ln =


= = = = (
(

|
|
.
|

\
|
+
(

=
n
1
k
0
k
0
n
1
x exp 1 ln x y
i j
ij j j
j i
ij i
| |

Maksimum ln likelihood dapat diperoleh
dengan cara men-differensialkan ) ( L terhadap
dan menyamakannya dengan nol (Agresti,
1990).
( )
(
(
(
(
(

|
|
.
|

\
|
+
|
|
.
|

\
|
=
c
c


=
=
= =
k
0
k
0
n
1
n
1
x exp 1
x exp
x x y
j
ij j
j
ij j
i
ia ia
i
i
a
L
|
|
|


( )

= =
=
n
1
n
1
x x x y 0
i
ia i
i
ia i
; a = 0, 1, , k
...(7)
dimana,
( )
|
|
.
|

\
|
+
|
|
.
|

\
|
=

=
=
k
0
k
0
x exp 1
x exp
x
j
ij j
j
ij j
i
|
|


menyatakan estimasi dari ( )
i
x dengan
menggunakan metode maximum likelihood.
Dari hasil penurunan pertama pada
persamaan (7), nilai diestimasi dengan metode
numerik karena persamaannya ber-sifat nonlinier.
Sedangkan metode untuk mengestimasi varians dan
kovarians dari taksiran dikembangkan menurut
teori MLE (Maximum Likelihood Estimator) yang
menyatakan bahwa estimasi varians dan kovarians
diperoleh dari turunan kedua fungsi ln Likelihood
(Agresti, 1990).
Turunan kedua dari fungsi ln likelihood yaitu:

( )
( ) ( ) ( )
i i
i
ia
a
L
x 1 x x
n
1
2
2
2
=
c
c

=
|



( )

=
=
=
(
(

|
|
.
|

\
|
+
|
|
.
|

\
|
=
c c
c
n
1
k
0
k
0
2
x exp 1
x exp x x
i
j
ij j
j
ij j ib ia
b a
L
|
|
| |


= ( ) ( ) ( )

=

n
x x x x
1
1
i
i i i ib ia
;
dimana a, b = 0, 1,,k
Sehingga diperoleh matriks varians-
kovarians dari estimasi parameter melalui invers
matriks (Agresti, 1990),
( ) { }
1
))] (x 1 )( (x [ Diag

ov C


= x x
i i
T
(8)
Dengan
(
(
(
(

=
k 1
k 2 21
k 1 11
x x 1
x x 1
x x 1
n n
...
... ... ...
...
...
x

))] (x 1 )( (x Diag[
i i
merupakan n x n
matriks diagonal dengan elemen diagonal utama
))] (x 1 )( (x [
i i
. Akar kuadrat dari elemen-
elemen diagonal utama adalah estimasi standar eror
dari taksiran parameter model (Agresti, 1990).
Dimana untuk mendapatkan nilai taksiran dari
penyelesaian turunan pertama fungsi ln likelihood
yang non linier digunakan metode iterasi Newton-
Raphson (Agresti, 1990).

Metodologi Penelitian
Penelitian ini menggunakan studi literatur dan
contoh kasus menggunakan data hasil penelitian
Wijiati (2011) dengan Kejadian Malaria sebagai
variabel terikat, dan Kebiasaan di Luar Rumah
sebagai variabel bebas.

Hasil dan Pembahasan
Pada variabel bebas yang berbentuk
dikotomus atau biner, kita asumsikan bahwa x
diberi kode 1 atau 0. Di bawah model tersebut,
maka akan terdapat dua buah nilai t(x) dan dua
buah nilai 1 - t(x). Nilai-nilai tersebut secara jelas
dapat dijelaskan dalam tabel 2x2 sebagaimana
ditunjukkan pada Tabel 1.

Tabel 1. Nilai-nilai Model Logistik Untuk Variabel
Bebas Dikotomus
Variabel Bebas
x = 1 x = 0
Variabel
Respon

y = 1
1 0
1 0
1
) 1 (
| |
| |
t
+
+
+
=
e
e

0
0
1
) 0 (
|
|
t
e
e
+
=


y = 0
1 0
1
1
) 1 ( 1
| |
t
+
+
=
e

0
1
1
) 0 ( 1
|
t
e +
=

Total 1 1
Odds dari variabel terikat yang muncul
diantara data pengamatan dengan x = 1
J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829


12 Program Studi Statistika FMI PA Universitas Mulawarman

didefinisikan sebagai t(1)/[1 - t(1)]. Demikian juga
halnya, odds dari variable terikat yang muncul
diantara data pengamatan dengan x = 0
didefinisikan sebagai t(0)/[1 - t(0)]. Logaritma dari
odds disebut sebagai logit, dalam hal ini adalah:

g(1) = ln {t(1)/[1 - t(1)]}
dan
g(0) = ln {t(0)/[1 - t(0)]}

Odds rasio, yang dinotasikan oleh , didefinisikan
sebagai rasio dari odss untuk untuk x = 1 terhadap
x = 0 yang diberikan dalam persamaan berikut:

)] 0 ( 1 /[ ) 0 (
)] 1 ( 1 /[ ) 1 (
t t
t t

= ... (13)

Logaritma dari odds rasio (kadang-kadang disebut
juga sebagai log-odds rasio atau log-odds) adalah:
)
`

=
)] 0 ( 1 /[ ) 0 (
)] 1 ( 1 /[ ) 1 (
ln ) ln(
t t
t t
= g(1) - g(0)
Selanjutnya, dengan menggunakan bentuk model
regresi logistik yang ditunjukkan dalam Tabel 1,
maka odds rasionya adalah:

| |
| | |
|
| | |
=
+
|
\

|
.
|
+
|
\

|
.
|
+
|
\

|
.
|
+
|
\

|
.
|
+
+
+
e
e e
e
e e
0 1
0 1 0
0
0 0 1
1
1
1
1
1
1

| |
|
|
= =
+
e
e
e
0 1
0
1
... (14)

dan perbedaan logit atau log-oddsnya adalah
ln() =
( )
ln e
|
1
= |
1
.
Kenyataan tersebut yang berkenaan dengan
interpretabilitas koefisien merupakan alasan yang
sangat mendasar mengapa regresi logistik
mempunyai kemampuan alat analitis yang kuasa
untuk penelitian-penelitian di bidang epidemiologi.
Sejalan dengan penaksiran titik parameter,
maka penaksir interval kepercayaan juga dapat
digunakan untuk memberikan informasi tambahan.
Odds rasio, , biasanya merupakan parameter yang
banyak diamati dalam regresi logistik karena
kemudahannya dalam menginterpretasikannya.
Akan tetapi, penaksir akan cenderung
mempunyai distribusi yang kemiringan tertentu.
Kemiringan distribusi sampling disebabkan oleh
kenyataannya bahwa penaksir tersebut dibatasi oleh
nol.
Secara teori, untuk ukuran sampel yang
cukup besar, maka distribusi dari akan normal.
Tentu saja, syarat-syarat tentang ukuran sampel ini
dalam kebanyakan penelitian selalu menjadi
kendala. Sehingga, inferensi yang biasa dilakukan
adalah berdasarkan pada distribusi dari ln{ ) =
1

| , yang cenderung untuk mengikuti distribusi


normal untuk ukuran sampel yang relatif lebih
kecil.
Penaksir untuk interval kepercayaan
100(1-o)% bagi odds rasio diperoleh melalui
perhitungan titik akhir dari interval kepercayaan
untuk koefisien |
1
, kemudian dibuat harga
eksponennya. Secara umum, dapat juga ditulis
sebagai berikut:
)]
1

(
2 / 1 1

exp[ |
o
| SE z



Penaksir odds rasio untuk setiap variabel
bebas pada dua level yang berbeda, katakan x = a
dan x = b, adalah perbedaan antara penaksir logit
yang dihitung pada kedua nilai tersebut. (Kleibaum,
1994). Persamaan yang menyatakan perhitungan
tersebut adalah sebagai berikut:
| | ) ( ) ( ) , ( ln b x g a x g b a = = =
= ( ) ( ) b a
1

| | | | + +
=

( ) |
1
a b ... (15)

dan penaksir odds rasionya adalah:

| | ) (
1

exp ) , ( b a b a = = | ... (16)


Bentuk di atas akan sama dengan )
1

exp(| hanya
jika (a - b) =1. Dalam persamaan (15) dan (16),
notasi

(a,b) digunakan untuk menggambarkan


odds rasio dalam bentuk:

( , )

( ) / [

( )]

( ) / [

( )]

t t
t t
a b
x a x a
x b x b
=
= =
= =
1
1
... (17)
dan jika a = 1 dan b = 0, maka dapat ditentukan

(1,0).

Suatu contoh kasus untuk interpretasi
parameter dalam regresi logistik untuk variabel
bebas dikotomus akan disajikan dalam tabel 2x2. Di
sini akan diamati tentang ada tidaknya suatu
penyakit, yaitu kejadian malaria, dengan variabel
bebasnya adalah kebiasaan di luar rumah, dimana
untuk responden yang menjawab Ya diberi kode 0
dan Tidak diberi kode 1, seperti yang ditunjukkan
dalam Tabel 2.
J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829

Program Studi Statistika FMI PA Universitas Mulawarman 13

Tabel 2. Data Tentang Kejadian Malaria dan
Kebiasaan di Luar Untuk 80 data
Kejadian
Malaria
(y)
Berada Diluar
Rumah(x) Total
Ya Tidak
Ya 26 15 41
Tidak 14 25 39
Total 40 40 80
Data pada Tabel 2 menggambarkan bahwa
terdapat 26 subyek dengan nilai (x=1, y=1),
15 subyek dengan (x=0, y=1), 14 subyek dengan
(x=0, y=0), dan 25 subyek dengan (x=0, y=0).

Sedangkan hasil estimasi parameter model regresi
logistik disajikan pada Tabel 3 berikut:
Tabel 3. Hasil Perhitungan Pendugaan Model
Regresi Logistik

Variabel Penaksir
koefisien
Galat
Baku


Kebiasaan diluar
rumah
1.130 0.465 3.095
Konstanta -1.680 0.729
Besaran
merupakan penaksir kemungkinan
maksimum dari odds rasio,
= e
1.130
= 3.095. Jika
dihitung secara langsung akan diperoleh nilai yang
sama seperti ditunjukkan sebagai berikut:
095 . 3
25 / 15
14 / 26
= =
Artinya, resiko terjadinya penyakit malaria pada
seseorang yang mempunyai kebiasaan diluar rumah
adalah 3.095 kali dibandingkan yang tidak
mempunyai kebiasaan diluar rumah.
Penaksir koefisien dapat dihitung secara langsung,
yaitu:

| = ln[(26/14)/(15/25)] = 1.130.
Interval kepercayaan 95% untuk data di atas adalah:
exp(1.130 1.96 x 0.465) = (2.184;4.006).
Nilai batas bawah interval kepercayaan lebih besar
dari 1 sehingga memperkuat dugaan bahwa Berada
di Luar Rumah merupakan faktor resiko terhadap
terjadinya Penyakit Malaria.

Kesimpulan
Berdasarkan hasil dan pembahasan
tersebut, maka dapat disimpulkan bahwa
interpretasi parameter dalam model regresi logistik
untuk variabel bebas dikotomus dapat dilihat dari
koefisien regresi logistik dengan menentukan nilai
odds rasio. Hal ini dapat memberikan suatu
landasan bagi interpretasi dari semua hasil-hasil
yang diperoleh melalui analisis regresi logistik.

Daftar Pustaka
Agresti, A. (1990). Categorical Data Analysis. New
York: John Wiley and Sons.
Ali, M. (2006). Psikologi Remaja : PT Bumi
Aksara. Jakarta.
Hosmer, D.W. and S. Lemeshow (1989). Applied
Logistic Regression. New York: John
Wiley and Sons.
Le, C. T. (1998). Applied Categorical Data
Analysis. John Wiley and Sons, Inc. USA.
Nursiah. (2010). Hubungan Antara Pengetahuan
Dan Pendidikan Kesehatan Reproduksi
Dengan Perilaku Seksual Pada Siswa Sma
Kesatuan 1 Samarinda Tahun 2010,
Skripsi. UWGM
Notoatmodjo, S. (2003). Pendidikan Dan Perilaku
Kesehatan. Jakarta: PT. Rineka Cipta.

J urnal EKSPONENSI AL Volume3, Nomor 1, Mei 2012 ISSN 2085-7829


14 Program Studi Statistika FMI PA Universitas Mulawarman

Anda mungkin juga menyukai