Tugas Epidemologi

BAB 22
ANALISIS REGRESI GANDA LOGISTIK
Analisis regresi ganda linier yang telah kita kupas pada Bab 21 bermanfaat
untuk menilai hubungan antara variabel respons dan sejumlah variabel prediktor
secara simultan, dengan variabel respons diukur dalam skala kontinu dan
mempunyai distribusi normal. Analisis regresi ganda linier tidak dapat dipakai
dalam banyak riset etiologi, tatkala pusat perhatian ditujukan kepada penemuan
determinan- determinan penyakit atau kematian yang lazim diukur dalam skala
biner (dikotomi). Variabel penyakit dikategorikan sebagai sakit atau tidak sakit;
kematian dikategorikan meninggal atau hidup; berat badan lahir dikategorikan
normal atau rendah; dan sebagainya. Variabel respons yang bersifat dikotomi
tidak lagi mengikuti distribusi normal, tetapi binomial. Oleh karena itu sebagai
gantinya perlu dicari model regresi lain yang bisa diterapkan untuk distribusi
binomial. Andaikata model yang menggambarkan hubungan antar
variabel sebagai berikut:
p=a+b; X₁ + b2 X2+......+ by Xk
Perhatikan, ruas kanan persamaan di atas terdiri dari konstanta (a) dan
sejumlah koefisien regresi (b,) dari masing-masing variabel prediktor. Ruas kanan
bisa bernilai < 0, yakni ketika konstanta a dikurangi dengan angka hasil
penjumlahan perkalian koefisien regresi dan variabel-variabel prediktor yang
lebih besar daripada a. Tetapi, ruas kanan bisa juga bernilai > 1, yakni ketika
konstanta a ditambah dengan hasil penjumlahan perkalian koefisien regresi dan
variabel predi yang cukup besar. Sebaliknya, ruas kiri adalah p. yang merupakan
pro babilitas bahwa suatu "peristiwa" akan terjadi (misalnya, sakit atau
meninggal). Karena merupakan probabilitas, maka nilainya selalu ber kisar antara
0 hingga 1. Ketidakcocokan ruas kiri dan kanan persamaan tersebut
mengisyaratkan bahwa model di atas tidak dapat kita pakai.
MODEL REGRESI GANDA LOGISTIK
Model p = a + bi X1 + b2 X2+…..+ bk Xk baru dapat kita pakai apabila p

kita transformasikan dalam bentuk logodds. Apakah logodds ?, Logodds, atau
disebut juga logit, adalah logaritme natural dari odds. Sedang odds sendiri adalah
rasio antara probabilitas suatu "peristiwa untuk terjadi (keadaan yang lazim
disebut juga "sukses"), dan probabilitas "peristiwa" itu untuk tidak terjadi (lazim
disebut "gagal"). Dalam penerapan riset epidemiologi yang sesungguhnya,
"peristiwa tersebut bisa berupa penyakit, kematian, berat badan lahir (normal atau
rendah), dan sebagainya. Jika probabilitas suatu "peristiwa untuk terjadi disebut p,
maka probabilitas "peristiwa itu untuk tidak terjadi adalah 1 - p. dan odds (p)
adalah p/(1 - p). Jadi logodds (p) adalah In [p/(1 - p)].
Berbeda dengan p pada persamaan di atas, transformasi logodds bisa

bernilai mulai dari-tak terhingga sampai + tak terhingga. Jika bentuk logodds (p)
tersebut kita buat sebagai sebuah model fungsi linier dari sejumlah variabel
prediktor, maka kita memperoleh model persamaan yang disebut regresi logistik
ganda. Dengan model regres logistik ganda, maka ruas kanan maupun kiri
persamaan mempunyai kemungkinan kisaran nilai yang sama, yakni antara
sampai + tak terhingga, sebagai berikut:
Hubungan antara logodds (p) itu sendiri dengan probabilitas penyakit (atau
kematian) mempunyai karakteristik yang bersifat sigmoid, seperti yang
ditunjukkan
Gambar.22.1.
Gambar 22.1 Hubungan antara logodds dan probabilitas penyakit (atau

kematian).
Analisis regresi ganda logistik adalah alat statistik yang sangat kuat untuk
menganalisis hubungan antara sebuah paparan dan penyakit (yang diukur biner)
dan dengan serentak mengontrol pengaruh sejumlah faktor perancu potensial.
Analisis regresi ganda logistik sebenarnya telah lama dikenal dalam statistik,
tetapi popularitasnya dalam riset epidemiologi baru "terdengar" sejak studi
jantung berskala besar Framingham tahun 1950-an (Truett et al., 1967). Tujuan
analisis regresi ganda logistik sama dengan analisis regre si ganda linier, yaitu
menemukan model regresi yang paling sesuai. ling irit, sekaligus masuk akal
secara biologik, untuk menggambarka hubungan antara variabel respons dan satu
set variabel prediktor dalam populasi. Model regresi itu selanjutnya dapat
dipergunakan untuk:
1. Meramalkan terjadinya variabel respons (misalnya, sakit ata meninggal) pada

individu berdasarkan nilai-nilai sejumlah variabel prediktor yang diukur padanya.
2. Mengukur hubungan antara variabel respons dan variabel prediktor, setelah

mengontrol pengaruh prediktor (kovariat) lainnya. Perbedaan antara model regresi
logistik dan model regresi linier adalah bahwa variabel hasil pada model regresi
logistik diukur dalam skala biner (dikotomi). Perbedaan itu berimplikasi kepada
perbedaa dalam pilihan model parametrik serta asumsi-asumsi yang digunakan.
Setelah perbedaan itu diperhitungkan, maka metode-metode yang dipergunakan
dalam analisis regresi ganda logistik sebenarnya meng ikuti prinsip-prinsip yang
sama dengan yang digunakan dalam analisis regresi ganda linier. Metode, teknik,
dan pendekatan yang digunakan dalam analisis regresi ganda linier juga
digunakan pada analisis regresi ganda logistik.
Ada beberapa keistimewaan analisis regresi ganda logistik dir dingkan

dengan analisis regresi ganda linier. Salah satu diantaranya adalah kemampuannya
mengkonversikan koefisien regresi (b) menjadi rasio odds (OR). Untuk variabel
prediktor yang berskala kategorikal maka rumus OR sebagai berikut:
OR = exp [bi]
Dengan:
OR= rasio odds paparan (variabel prediktor Xi) terhadap penyakit (variabel hasil
Y), setelah memperhitungkan kovariat Xi lainnya
bi = koefisien regresi variabel prediktor Xi
exp = exponensial, atau inversi dari logaritme natural (In)
Sedang batas-batas keyakinan OR sebagaimana biasa dihitung dengan

menggunakan koefisien regresi serta kesalahan baku (standard error), sebagai
berikut:
IK 95% = exp [b-i +/- 1.96 SE (bi)]
Untuk variabel prediktor berskala kontinu, maka rumus OR sebagai berikut:
OR = exp [bi ∆ ]
dengan:
∆ adalah banyaknya penambahan nilai variabel prediktor Xi, dengan

catatan semua nilai variabel prediktor lainnya tetap.
Sedang batas-batas keyakinan OR sebagaimana biasa dihitung dengan

menggunakan koefisien regresi serta kesalahan baku (standard error), sebagai
berikut:
IK 95% = exp [bi +/- 1.96 SE (bi) ] ∆
Keistimewaan lainnya dari analisis regresi ganda logistik adalah

kemampuannya menaksir probabilitas individu untuk sakit (atau meninggal)
berdasarkan nilai-nilai sejumlah variabel independen yang diukur padanya.
Manfaat prediktif analisis regresi ganda logistik tersebut dirumuskan sebagai
berikut:
MEMBANGUN MODEL REGRESI GANDA LOGISTIK
Seperti pada analisis regresi ganda linier, pembangunan model regresi

ganda logistik hendaknya tidak terjebak oleh penggunaan variabel prediktor yang
terlalu banyak, dengan maksud hanya untuk memperoleh R2 yang mendekati nilai
100 persen, dengan kata lain hanya untuk memperoleh garis regresi yang paling
sesuai menggambarkan data sampel tentang hubungan variabel respons Y dan
sejumlah variabel prediktor X, Pemilihan variabel sebaiknya dilakukan dengan
cara-cara yang lebih purposif, dan tidak terpaku pada pendekatan yang sifatnya
deterministik menurut kemaknaan statistik Dalam membangun model regresi
ganda logistik hendaknya memperhatikan aspek biologik dan aspek statistik,
sedemikian rupa sehingga diperoleh model yang paling hemat menggunakan
variabel, tetapi cukup baik menjelaskan determinan-determinan penting yang
menentukan kejadian variabel respons (penyakit) dalam populasi (Hosmer dan
Lemeshow, 1989). Rasional pendekatan ini adalah bahwa angka-angka resultante
model yang diperoleh akan lebih stabil dan lebih mudah digeneralisasikan,
daripada jika menggunakan terlalu banyak variabel.
Makin banyak variabel yang dimasukkan ke dalam model secara

keseluruhan hanya meningkatkan kesesuaian garis regresi dengan hubungan
antara variabel respons dan sejumlah variabel prediktor pada data sampel, tetapi
belum tentu memperbaiki prediksi tentang hubungan antara variabel respons dan
sejumlah variabel prediktor yang sesungguhnya pada populasi. Sebab,
bertambahnya variabel prediktor (baik yang relevan maupun tak relevan) hanya
akan menggembungkan taksiran kesalahan baku, sehingga membuat model
tersebut sangat tergantung kepada data pengamatan sampel. Dengan kata lain,
model itu makin jauh dari realitas dalam upayanya menerjemahkan hubungan
variabel respons dan variabel-variabel prediktor dalam populasi yang
sesungguhnya
PROSEDUR PEMILIHAN VARIABEL
Agar diperoleh model regresi yang hemat dan mampu menjelaskan
hubungan variabel prediktor dan respons dalam populasi, dibutuhkan suatu
prosedur formal pemilihan variabel, sebagai berikut:
(1) Melakukan analisis univariat untuk menyaring variabel-variabel yang penting;
(2).Memasukkan dan/ atau mengeluarkan variabel-variabel dalam model

multivariat
(3) Memasukkan dan memeriksa kemungkinan ada interaksi variabel dalam

model.
MELAKUKAN ANALISIS UNIVARIAT UNTUK PENYARINGAN AWAL.
Satu metode penyaringan awal yang sederhana untuk memperoleh variabel-

variabel penting adalah melakukan analisis univariat. Dalam analisis univariat parameter
yang perlu diketahui tergantung kepada jenis variabel prediktor. Untuk variabel berskala
diskret (nominal dan ordinal), parameter yang perlu diperhatikan ialah statistik uji kai
kuadrat rasio likelihood dengan derajat bebas k-1, di mana k = banyaknya (kategori)
tingkat variabel prediktor. Statistik uji kai kuadrat ini nilainya ekivalen dengan statistik
uji rasio likelihood G.
Statistik uji kai kuadrat Pearson bisa juga digunakan, karena secara asimtotik
ekivalen dengan statistik uji kai kuadrat rasio likelihood (Hosmer dan Lemeshow, 1989).
Selain statistik uji, ada baiknya diperhatikan rasio odds (OR) masing-masing variabel
prediktor, beserta interval keyakinannya. Jika ada variabel yang bersifat politomi (yakni
mempunyai lebih dari dua kategori), maka kita buat variabel-variabel rancangan (dummy
variable, design variable) sebanyak k-1, di mana k = banyaknya kategori (tingkat) dari
variabel tersebut. Rasio odds masing-masing kategori dibuat berdasarkan suatu rasio odds
acuan (referensi). Dalam hal ini sebuah kategori yang dipakai acuan dianggap memiliki
OR=1.
Untuk variabel berskala kontinu, parameter yang perlu diperhatikan adalah: (1)
Taksiran koefisien regresi (b.); (2) Taksiran kesalahan baku (S.E.), (3) Statistik uji rasio
likelihood G: dan (4) Statistik univariat Wald. Statistik Wald ialah rasio antara taksiran
koefisien regresi dan taksiran kesalahan baku dari koefisien regresi bersangkutan.
sehingga dirumuskan sebagai b,/S.E.
Sesuai dengan anjuran Mickey dan Greenland (1989), variabel- variabel yang melalui uji
univariat memiliki p < 0.25 dan memiliki kemaknaan biologik, hendaknya
dipertimbangkan untuk dimasukkan ke dalam model multivariat.
Salah satu problem dalam analisis univariat adalah pengabaiannya terhadap kemungkinan
bahwa variabel-variabel secara kolektif dapat menjadi prediktor penting bagi variabel
hasil, meski secara sendiri sendiri merupakan prediktor lemah. Oleh karena itulah
dianjurkan untuk menggunakan kriteria kemaknaan statistik yang cukup besar (misalnya,
0.25) yang memungkinkan variabel-variabel yang secara terselubung sesungguhnya
penting untuk dimasukkan ke dalam model multivaria
MEMASUKKAN DAN/ATAU MENGELUARKAN VARIA BEL DALAM ANALISIS

MULTIVARIAT.
Setelah melewati analisis univariat, maka variabel-variabel kita masukkan untuk

analisis multivariat. Seperti pada analisis regresi ganda linier, ada beberapa pilihan teknik
yang dapat dilakukan untuk memilih variabel, sebagai berikut:
(1) MEMASUKKAN SEMUA VARIABEL INDEPENDEN SECARA

SERENTAK. Teknik ini memasukkan semua variabel independen dengan serentak ke
dalam model regresi. Satu-satunya kriteria untuk dimasukkan ke dalam model adalah
kriteria tingkat kemaknaan statistik tertentu. Dalam program statistik SPSS, teknik
tersebut dijalankan dengan memilih metode enter.
(2) MEMASUKKAN SEKELOMPOK VARIABEL BIOLO- GIK PENTING.
Ciri-ciri teknik ini adalah menetapkan sekelompok (cluster) variabel yang secara
biologik dianggap penting dalam hu- bungannya dengan variabel dependen (penyakit)
dan paparan. Ke lompok variabel ini mendapat perlakuan "istimewa" dengan dimasukkan
ke dalam model tanpa perlu melewati kriteria tingkat kemaknan statistik. Variabel-
variabel yang secara biologik penting tersebut meru pakan subset dari keseluruhan set
variabel, yang akan dipertahankan terus di dalam model. Terhadap subset dasar itu
kemudian ditambahkan kovariat-kovariat berikutnya, baik dengan metode pemilihan
maju pemilihan mundur, ataupun pemilihan stepwise.
(3). SELEKSI MAJU
Teknik yang lebih terkenal dengan sebutan forward selection ini memasukkan satu per
satu variabel hasil analisis univariat dan memenuhi kriteria kemaknaan statistik untuk ke
dalam model, sampai semua variabel yang memenuhi kriteria tersebut masuk ke dalan
model itu.
(4). SELEKSI MUNDUR.
Teknik yang lebih populer dengan sebutan backward selection ini memasukkan semua
variabel hasil analisis univariat ke dalam model, tetapi kemudian disingkirkan satu
persatu dari model berdasarkan kriteria kemaknaan statistik tertentu, sampai tidak ada
lagi variabel dalam model yang dapat disingkirkan oleh kriteria penyingkiran itu.
(5). SELEKSI STEPWISE. Teknik yang paling banyak digunakan ini lebih termashur
dengan sebutan stepwise selection. Teknik ini merupakan kombinasi antara seleksi maju
dan seleksi mundur. Seperti halnya seleksi maju, seleksi stepwise dimulai dari tanpa
variabel sama sekali di dalam model. Lalu satu per satu variabel hasil analisis univariat
dimasukkan ke dalam model dan dikeluarkan dari model dengan kriteria tertentu.
Kriteria pemasukan dan/ atau pengeluaran variabel dibuat berdasarkan
kemaknaan statistik (nilai p). Pertanyaannya, uji statistik apa yang digunakan. Pembaca
tentu masih ingat, bahwa dalam regresi ganda linier, kita menguji kemaknaan koefisien
regresi (b) dengan menggunakan rasio F. Rasio F diperoleh melalui tabel ANOVA
(analisis varians). Rasio F mengikuti distribusi F dengan derajat bebas k dan n-k-1, di
mana k = banyaknya variabel independen dan n = banyaknya pengamatan. Rasio F
(disebut juga statistik F) hanya digunakan untuk menguji kemaknaan koefisien pada
regesi ganda linier, di mana variabel respons berskala kontinu dan mengikuti distribusi
normal. Statistik F tidak dapat digunakan untuk menguji kemaknaan koefisien dalam
regresi ganda logistik, sebab variabel respons berskala dikotomi dan mengikuti distribusi
binomial.
Ada beberapa metode uji statistik yang digunakan dalam analisis regresi ganda
logistik, dua di antaranya yang sering dijumpai pada paket perangkat lunak statistik
komputer ialah: (1) Statistik G, dan(2) Statistik Wald. Kedua statistik itu menguji
kemaknaan koefisien regresi (bi) yang diperoleh dengan teknik kemungkinan maksimum
(maximum likelihood) Statistik G ialah rasio logaritmik antara likelihood model
tanpa variabel dan likelihood model dengan variabel. Rumusnya sebagai berikut:
Penggunaan perkalian dengan angka (-2) semata-mata berdasarkan alasan

matematik, supaya diperoleh suatu kuantitas yang distribusinya diketahui, sehingga bisa
digunakan untuk tujuan uji hipotesis. Statistik G, oleh karena itu, disebut juga statistik uji
rasio likelihood. Statistik G ternyata mengikuti distribusi kai kuadrat, dengan derajat
bebas sebanyak variabel yang dikeluarkan dari model. Penghitungan log-likelihood
maupun statistik uji rasio likelihood merupakan sediaan standar dalam paket regresi
logistik komputer, misalnya SPSS.
Statistik uji Wald diperoleh dengan membandingkan taksiran likelihood maksimum
koefisien regresi (b;) dengan taksiran kesalahan baku (SE). Rumusnya adalah sebagai
berikut:
Statistik W mengikuti distribusi normal, pada hipotesis nol bahwa b = 0. Nilai-p dua sisi
ialah P [/z/> W hitung], di mana z adalah variabel acak yang mengikuti distribusi normal
standar. Hauck dan Donner (1977) dan Jennings (1986) telah memeriksa kelayakan
penggunaan statistik W dalam inferensi dengan analisis regresi ganda logistik. Mereka
mendapatkan, statistik W mempunyai sifat agak menyimpang, dalam arti sering kali
gagal menolak hipotesis nol mes n koefisien tersebut cukup bermakna. Karena itu mereka
meng kipun anjurkan penggunaan statistik uji rasio likelihood (G).
MEMERIKSA KEMUNGKINAN INTERAKSI. Setelah memperoleh model yang

memuat variabel-variabel penting, maka langkah terakhir adalah memeriksa
kemungkinan interaksi variabel ke dalam model. Pada model apapun, interaksi antara dua
buah atau lebih variabel prediktor mengacu kepada suatu fenomena perubahan pengaruh
satu variabel prediktor sesuai dengan tingkat variabel prediktor lainnya. Sebagai contoh,
jika ada interaksi antara gender dan umur, maka itu berarti bahwa koefisien regresi
variabel umur adalah berbeda antara laki-laki dan perempuan. Penilaian perlu tidaknya
memasukkan interaksi dilakukan pertama-tama dengan menciptakan perkalian variabel-
variabel yang mungkin berinteraksi (interaksi multiplikatif), kemudian menilai
kemaknaannya dengan menggunakan uji rasio likelihood. Rasio likelihood ini
membandingkan log-likelihood dari model tanpa interaksi dan log-likelihood dari model
dengan interaksi. Jika dengan uji itu interaksi menunjukkan kemaknaan statistik, maka
kita katakan interaksi tersebut memberikan kontribusi penting kepada model. Jika suatu
interaksi hanya memperbesar taksiran kesalahan baku (S. E.) dan tidak mengubah
taksiran koefisien regresi (bi), maka interaksi tersebut mungkin tidak penting.
VARIABEL RANCANGAN
Dalam analisis regresi ganda, variabel-variabel prediktor yang berskala diskret

(nominal), seperti ras, gender, kebiasaan merokok, dan sebagainya, tidak layak
dimasukkan ke dalam model sebagai variabel berskala interval. Sebab pemberian angka-
angka kepada berbagai tingkat (kategori) variabel itu hanya dimaksudkan sebagai tanda,
dan tidak mempunyai makna numerik yang sesungguhnya. Untuk mengatasi keadaan ini
ada sebuah metode yang dapat dipilih, yaitu penggunaan variabel rancangan (dummy
variable, design variable). Pada umumnya, Jika variabel berskala nominal mempunyai
sebanyak k kemungkinan tingkat (kategori), maka jumlah variabel rancangan yang dapat
dibuat adalah k - 1.
Agar lebih jelas tentang pembuatan variabel rancangan, kita ikuti contoh
berikut. Sebuah studi kohor prospektif berminat meneliti pengaruh aktivitas fisik (AF)
terhadap kejadian infark otot jantung (MI). Sejumlah kovariat diperhitungkan sebagai
faktor perancu potensial dalam penilaian itu, yaitu kategori umur (AGRP) dan kebiasaan
merokok (MRK). Semua variabel penelitian berskala nominal, sehingga kita perlu
membuat variabel rancangan. Tetapi terlebih dulu kita buat kategorisasi nilai variabel-
variabel nominal seperti disajikan Tabel 22.1.
Jumlah variabel rancangan yang dibutuhkan mempunyai rumus k - 1. di mana k ialah
banyaknya tingkat (kategori) variabel yang bersangkutan. Dalam hal variabel MRK,
maka variabel rancangan yang dibutuhkan ialah 2 (yakni, 3-1), dan kita sebut D, dan D2.
Sedang salah satu rancangan pengkodean variabel rancangan tersebut ialah menentukan
responden bukan perokok/bekas perokok (yang tidak terpapar kebiasaan merokok)
sebagai acuan, dengan kode D₁ = 0 dan D2=0. Selanjutnya, responden perokok sigaret <
15 batang/hari diberi kode D₁ = 1 dan D=2 0. Responden perokok sigaret > = 15
batang/hari diberi kode D1 = 0 dan D2 = 1. Tabel 22.2 menyajikan rencana pengkodean
variabel kebiasaan merokok (MRK) menjadi variabel rancangan.
Tabel 22.2 Rencana pengkodean variabel kebiasaan merokok (MRK) menjadi variabel
rancangan, dalam studi kohor prospektif tentang pengaruh aktivitas fisik (AF) terhadap
infark otot jantung (MI), dengan mengontrol pengaruh umur AGE). dan kebiasaan
merokok (MRK)
Terhadap variabel asli dapat dibuat berbagai rencana pengkodean. Interpretasi variabel
rancangan tentu saja harus mengacu kepada rencana pengkodean yang sudah dipilih.
Sekarang perhatikan hasil pengamatan dalam studi kohor prospektif tersebut. Tabel 22.3.
menyajikan data pengamatan terhadap sampel sebesar 55 subyek dalam studi kohor
prospektif tentang pengaruh aktivitas fisik (AF) terhadap infark otot jantung (MI), dengan
memperhitungkan kovariat kategori umur (AGRP), dan kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2.
PENYARINGAN AWAL DENGAN ANALISIS UNIVARIAT
Perhatikan, Tabel 22.3 hanya menyajikan pengamatan tentang dua kovariat, yakni umur
dan kebiasaan merokok. Dalam riset yang sesungguhnya, peneliti mungkin melihat
sejumlah kovariat lainnya yang relevan dengan infark otot jantung (MI) dan aktivitas fisik
(AF).
Tabel 22.3 Data pengamatan terhadap sampel sebesar 55 subyek dalam stad jantung
(MI), dengan memperhitungkan kovariat kategori umur (AGRP). dan kohor prospektif
tentang pengaruh aktivitas fisik (AF) terhadap infark otot kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2.
Tabel 22.3 Data pengamatan terhadap sampel sebesar 55 subyek dalam studi kehor
prospektif tentang pengaruh aktivitas fisik (AF) terhadap infark ett jantung (MI), dengan
memperhitungkan kovariat kategori umor (AGRP), dan kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2
(Lanjutan).
misalnya gender, ras, kelas sosial (diukur dengan indeks sosial), tekanan darah sistolik,
obesitas (diukur dengan indeks Quetelet). Untuk menentukan kovariat yang penting untuk
dimasukkan ke dalam model multivariat dibutuhkan penyaringan awal dengan analisis
univariat Tabel 22.4 menyajikan cetak komputer hasil analisis univariat terhadap variabel
AF, AGRP, D1 dan D1.
Artinya, kegiatan fisik >= 2500 kcal/hari mempunyai risiko terkena MI
sepertigapuluh kali (lebih kecil) daripada kegiatan fisik < 2500 kcal/hari, tanpa
mengontrol pengaruh variabel-variabel luar lainnya. Perhatikan, semua variabel prediktor
secara individual sangat bermakna, di mana nilai-p lebih kecil dari kriteria tingkat
kemaknaan yang kita pergunakan, yakni < 0.25. Disamping itu, secara biologik baik umur
dan kebiasaan merokok diketahui relevan dengan infark otot jantung. Karena itu semua
variabel prediktor tersebut kita masukkan ke dalam model multivariat, sebagai berikut:
Perhatikan pula, kita memperoleh sejumlah OR hasil analisis multivariat, baik untuk AF,
AGRP, Di, maupun D2. Rumusnya adalah OR = exp (bi) untuk variabel nominal, atau OR
= exp (bi ∆ ) untuk variabel kontinu.
MEMASUKKAN DAN/ATAU MENGELUARKAN VARIA BEL DALAM MODEL

MULTIVARIAT
Sekarang kita masukkan variabel prediktor AF, AGRP, D1, D2 dalam analisis
regresi logistik dengan metode stepwise. PIN kita set pada 0.15 dan POUT pada 0.20.
Cetak komputer hasil analisis regresi ganda logistik dengan metode stepwise program
SPSS terhadap variabel prediktor AF, AGRP, Di dan D2 disajikan Tabel 22.5.
MEMASUKKAN DAN MEMERIKSA KEMUNGKINAN INTERAKSI

Setelah memperoleh variabel-variabel prediktor penting dalam model regresi
ganda logistik, maka kita mencoba memasukkan dan memeriksa kemungkinan interaksi
variabel. Andaikata kita menduga AF berinteraksi dengan AGRP, dalam model sebagai
berikut:
Untuk memeriksa signifikansi kontribusi interaksi AF X AGRP, kita bandingkan

model dengan AF × AGRP dan model tanpa AF x AGRP. Kita lakukan langkah-langkah
sebagai berikut. Subset yang meliputi variabel-variabel penting, yakni AF, AGRP, D1 dan
D2, kita pertahankan dalam model. Dalam SPSS, subset tersebut dianalisis dalam tahap
blok I. Pada blok ke II, kita tambahkan interaksi AF x AGRP, dengan metode forward
stepwise. PIN diset pada) 0.15, sedang POUT pada 0.20. Hasil analisis regresi dengan
program SPSS disajikan Tabel 22.6.
Perhatikan, secara statistik interaksi aktivitas fisik dan kategori umur tidak bermakna,
oleh karena itu kita singkirkan dari model. Sehingga model regresi yang kita pakai
selanjutnya adalah:
Ketiadaan interaksi mengisyaratkan perlunya menilai dan mengontrol pengaruh AGRP,

D1, dan D2, sebagai faktor perancu potensial.
PENGARUH SPESIFIK VARIABEL PREDIKTOR, SETE LAH MENGONTROL PENGARUH
KOVARIAT LAINNYA
PENGARUH SPESIFIK VARIABEL PREDIKTOR KATE- GORIKAL. Interpretasi tentang

pengaruh spesifik variabel kategorikal, misalnya AF, sebagai berikut. Perhatikan Tabel
22.5, OR untuk AF = exp (-2.2431) = 0.1061. Artinya, aktivitas fisik >= 2500 kcal/hari
mempunyai risiko terkena infark otot jantung sepersepuluh kali (lebih kecil) daripada
aktivitas fisik < 2500 kcal/hari, setelah mengontrol pengaruh aktivitas fisik dan kebiasaan
merokok.
PENGARUH SPESIFIK VARIABEL RANCANGAN.
Interpretasi tentang pengaruh spesifik variabel rancangan, misalnya kebiasaan merokok

(D1 dan D2), sebagai berikut. Variabel MRK telah ditransformasikan ke dalam variabel
rancangan D, dan D. Subyek bukan perokok/bekas perokok telah dipakai sebagai acuan.
Perhatikan Tabel 22.5, OR untuk kebiasaan merokok adalah sebagai berikut: (1) Bukan
perokok/bekas perokok, D1 = 0 dan D₂ = OR = exp (0) = 1.
(2) Perokok < 15 batang sigaret per hari OR= exp (2.4782) D₁ = 1 dan D2=0 11.9198.
Artinya, perokok < 15 batang sigaret mempunyai risiko terkena infark otot jantung
sebesar 12 kali lebih besar daripada bukan perokok/bekas perokok, setelah mem-
perhitungkan pengaruh aktivitas fisik dan kategori umur.
(3) Perokok >= 15 batang sigaret per hari OR D₁ = 0 dan D=1 exp (2.6734) = 14.4891.
Artinya, perokok >= 15 batang sigaret per hari mempunyai risiko terkena infark otot
jantung sebesar 14 kali lebih besar daripada bukan perokok/bekas perokok, setelah
memperhitungkan pengaruh aktivitas fisik dan kategori umur.
PENGARUH SPESIFIK VARIABEL PREDIKTOR KONTINU.
Pengaruh spesifik variabel prediktor berskala kontinu dihitung dengan rumus OR = exp
(bix ∆ ). Delta adalah perbedaan antara satu nilai dan nilai lainnya dari variabel kontinu
yang hendak dibandingkan.
Sebagai contoh, kalau saja umur dalam Tabel 22.3 diukur dalam skala kontinu, maka kita
dapat menghitung OR umur 40 tahun dibandingka umur 30 tahun, yaitu OR = exp (bi x
10).
PENGARUH VARIABEL PREDIKTOR DALAM INTERVAL KEYAKINAN
Di samping taksiran titik, penting juga untuk mengetahui taksin interval. Taksiran OR
dalam Interval Keyakinan 100% (1-a) dibua dengan menggunakan distribusi z, atau
distribusi dengan derajat bebas n-k-1. Sebagai contoh, OR 95% untuk AF adalah sebagai
berikut:
IK 95% = exp (-2.2431 +/- 1.96 (1.0190)] = (0.78,0.01)
Artinya, dengan tingkat keyakinan sebesar 95% dan setelah mengontrol pengaruh
kategori umur dan kebiasaan merokok, kita dapat mengatakan bahwa kegiatan fisik >=
2500 kcal/hari mempunyai risiko MI 78/100 hingga 1/100 kali (lebih kecil) dari pada
kegiatan fisik < 2500 kcal/han Dengan rumus IK 95% = exp [bi +/- 1.96 SE (b;)] delta, kita
dapat menghitung OR dalam interval keyakinan 95% untuk variabel prediktor berskala
kontinu.
MENGUJI KEMAKNAAN PENGARUH VARIABEL PRE-DIKTOR, SETELAH MENGONTROL

PENGARUH KOVARIAT LAINNYA
Perhatikan, kontribusi masing-masing variabel prediktor, baik AF. AGRP. D 1 maupun D2,
terhadap model keseluruhan ternyat secara statistik cukup bermakna, di mana
kemaknaan rasio likelihood (lihat significance of log LR) kurang dari 0.05. Sebagai
contoh, nilai untuk AF ialah 0.0213. Angka tersebut diperoleh dari rumus rasio
likelihood, sebagai berikut:
Statistik G= 5.304 mempunyai distribusi kai kuadrat dengan derajat bebas sebanyak
variabel yang (diandaikan) dikeluarkan (yakni, satu variabel AF itu sendiri). Sehingga
nilai-p [X2 (1) = 5.304] dalam tabel kai kuadrat ialah 0.01 < p < .025. Nilai-p pasti yang
dihitung komputer ialah 0.0213.
MENILAI DAN MENGONTROL KERANCUAN
Analisis regresi ganda logistik mampu menaksir pengaruh paparan terhadap penyakit,
dan sekaligus memperhitungkan pengaruh sejumlah kovariat. Jika kovariat tersebut
adalah faktor perancu, maka analisis regresi ganda logistik mampu mengendalikan
pengaruh faktor perancu tersebut. Taksiran pengaruh paparan dengan analisis multiva-
riat dengan demikian disebut taksiran terkontrol (bebas kerancuan). Sebaliknya, taksiran
pengaruh paparan dengan analisis univariat (tanpa memperhitungkan pengaruh kovariat
lainnya), disebut taksiran kasar.
Seperti biasanya, penilaian kerancuan adalah membandingkan taksiran

terkontrol dengan taksiran kasar. Dikatakan terdapat kerancuan jika terdapat perbedaan
antara kedua taksiran itu. Contoh, kita ingin mengetahui apakah variabel-variabel
kategori umur dan kebiasaan merokok menciptakan kerancuan dalam penilaian
pengaruh aktivitas fisik terhadap infark otot jantung.
Perhatikan Tabel 22.4 dan 22.5. Karena OR terkontrol = 0.1061 (baca:

sepersepuluh!) secara substansial berbeda dengan OR kasar = 0.0345 (baca:
sepertigapuluh!), maka kategori umur dan kebiasaan merokok secara bersama-sama
menimbulkan kerancuan (bias) menjauhi nilai nol. Dengan kata lain, kategori umur dan
kebiasaan merokok. Jika tidak dikontrol. menimbulkan distorsi taksiran yang lebih besar
daripada nilai sesungguhnya.
Sebagai contoh, kalau saja umur dalam Tabel 22.3 diukur dalam skala kontinu, maka kita
dapat menghitung OR umur 40 tahun dibandingkan umur 30 tahun, yaitu OR = exp (bi x
10).
PENGARUH VARIABEL PREDIKTOR DALAM INTERVAL KEYAKINAN
Di samping taksiran titik, penting juga untuk mengetahui taksiran interval. Taksiran OR
dalam Interval Keyakinan 100% (1-a) dibuat dengan menggunakan distribusi z, atau
distribusi t dengan derajat bebas n-k-1. Sebagai contoh, OR 95% untuk AF adalah
sebagai berikut: IK 95% = exp (-2.2431 +/- 1.96 (1.0190)] =(0.78,0.01)
Artinya, dengan tingkat keyakinan sebesar 95% dan setelah mengontrol pengaruh
kategori umur dan kebiasaan merokok, kita dapat mengatakan bahwa kegiatan fisik >=
2500 kcal/hari mempunyai risiko MI 78/100 hingga 1/100 kali (lebih kecil) dari pada
kegiatan fisik < 2500 kcal/har Dengan rumus IK 95% = exp [bi +/- 1.25 SE (b)) delta, kita
dapat menghitung OR dalam interval keyakina 95% untuk variabel prediktor berskala
kontinu
MENGUJI KEMAKNAAN PENGARUH VARIABEL PRE DIKTOR, SETELAH MENGONTROL

PENGARUH KOVARIAT LAINNYA
Perhatikan, kontribusi masing-masing variabel prediktor, baik AF, AGRP. D. maupun D2.
terhadap model keseluruhan ternyata secara statistik cukup bermakna, di mana
kemaknaan rasio likelihood (lihat significance of log LR) kurang dari 0.05. Sebagai
contoh, nilai-p untuk AF ialah 0.0213. Angka tersebut diperoleh dari rumus rasio
likelihood, sebagai berikut:
Statistik G 5.304 mempunyai distribusi kai kuadrat dengan derajat bebas
sebanyak variabel yang (diandaikan) dikeluarkan (yakni, satu variabel AF itu sendiri).
Sehingga nilai-p [X2 (1)= 5.304) dalam tabel kai kuadrat ialah 0.01 < p < .025. Nilai-p pasti
yang dihitung komputer ialah 0.0213.
MENILAI DAN MENGONTROL KERANCUAN
Analisis regresi ganda logistik mampu menaksir pengaruh paparan terhadap

penyakit, dan sekaligus memperhitungkan pengaruh sejumlah kovariat. Jika kovariat
tersebut adalah faktor perancu, maka analisis regresi ganda logistik mampu
mengendalikan pengaruh faktor perancu tersebut. Taksiran pengaruh paparan dengan
analisis multivariat dengan demikian disebut taksiran terkontrol (bebas kerancuan).
Sebaliknya, taksiran pengaruh paparan dengan analisis univariat (tanpa
memperhitungkan pengaruh kovariat lainnya), disebut taksiran kasar. Seperti biasanya,
penilaian kerancuan adalah membandingkan taksiran terkontrol dengan taksiran kasar.
Dikatakan terdapat kerancuan jika terdapat perbedaan antara kedua taksiran itu.
Contoh, kita ingin mengetahui apakah variabel-variabel kategori umur dan kebiasaan
merokok menciptakan kerancuan dalam penilaian pengaruh aktivitas fisik terhadap
infark otot jantung. Perhatikan Tabel 22.4 dan 22.5. Karena OR terkontrol = 0.1061
(baca: sepersepuluh!) secara substansial berbeda dengan OR kusar kategori 0.0345
(baca: sepertigapuluh!), maka urmur dan kebiasaan merokok secara bersama-sama
menimbulkan kerancuan (bias) inenjauhi nilai nol. Dengan kata lain, kategori umur dan
kebiasaan merokok, jika tidak dikontrol, menimbulkan distorsi taksiran yang lebih besar
dari pada nilai sesungguhnya.
MERAMALKAN PROBABILITAS INDIVIDU UNTUK MENGALAMI PENYAKIT
Kita telah memiliki persamaan regresi sebagai berikut:
Dengan persamaan tersebut kita dapat membuat ramalan tentang probabilitas

(risiko) individu untuk mengalami MI, berdasarkan nilai nilai variabel prediktor yang
diukurkan kepadanya. Contoh: Andaikata individu memiliki nilai-nilai variabel prediktor
sebagai berikut: (1) Melakukan aktivitas fisik 2,000 kcal/hari (2) Berumur 45 tahun
(3) Mempunyai kebiasaan merokok rata-rata 5 batang sigaret/hari. Maka
probabilitas individu untuk terkena MI dapat dihitung sebagai berikut:
Artinya, individu berumur 45 tahun yang hanya melakukan aktivitas fisik sebesar
2.000 kcal/hari dan mempunyai kebiasaan merokok rata -rata 5 batang sigaret/ hari,
memiliki probabilitas untuk terkena MI sebesar 64%.
REFERENSI
Hauck, W.W., dan Donner, A. (1977). Wald's test as applied to hypo- theses in logit
analysis. J. Am. Stat. Assoc. 72: 851-853.
Hosmer, W.H., dan Lemeshow, S. (1989). Applied logistic regres sion. New York: John
Wiley and Sons.
kings, D.E. (1986). Judging inference adequacy in logistic regression. J. Am. Stat. Assoc.,
81: 471-76.
Mickey, J. dan Greenland, S. (1989). A study of the impact of confounder selection

criteria on effect estimation. Am. J. Epid, 129: 125-137.
Inett, J, Cornfield, J, dan Kannel, W. (1967). A multivariate analysis of the risk of

coronary heart disease in Framingham. J. Chronic Dis. 20: 511-524.

Tugas Epidemologi

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Epidemologi

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 22

ANALISIS REGRESI GANDA LOGISTIK

Model p = a + bi X1 + b2 X2+…..+ bk Xk baru dapat kita pakai apabila p

Berbeda dengan p pada persamaan di atas, transformasi logodds bisa

Gambar 22.1 Hubungan antara logodds dan probabilitas penyakit (atau

1. Meramalkan terjadinya variabel respons (misalnya, sakit ata meninggal) pada

2. Mengukur hubungan antara variabel respons dan variabel prediktor, setelah

Ada beberapa keistimewaan analisis regresi ganda logistik dir dingkan

bi = koefisien regresi variabel prediktor Xi

exp = exponensial, atau inversi dari logaritme natural (In)

Sedang batas-batas keyakinan OR sebagaimana biasa dihitung dengan

IK 95% = exp [b-i +/- 1.96 SE (bi)]

Untuk variabel prediktor berskala kontinu, maka rumus OR sebagai berikut:

∆ adalah banyaknya penambahan nilai variabel prediktor Xi, dengan

Sedang batas-batas keyakinan OR sebagaimana biasa dihitung dengan

IK 95% = exp [bi +/- 1.96 SE (bi) ] ∆

Keistimewaan lainnya dari analisis regresi ganda logistik adalah

MEMBANGUN MODEL REGRESI GANDA LOGISTIK

Seperti pada analisis regresi ganda linier, pembangunan model regresi

Makin banyak variabel yang dimasukkan ke dalam model secara

PROSEDUR PEMILIHAN VARIABEL

(1) Melakukan analisis univariat untuk menyaring variabel-variabel yang penting;

(2).Memasukkan dan/ atau mengeluarkan variabel-variabel dalam model

(3) Memasukkan dan memeriksa kemungkinan ada interaksi variabel dalam

MELAKUKAN ANALISIS UNIVARIAT UNTUK PENYARINGAN AWAL.

Satu metode penyaringan awal yang sederhana untuk memperoleh variabel-

MEMASUKKAN DAN/ATAU MENGELUARKAN VARIA BEL DALAM ANALISIS

Setelah melewati analisis univariat, maka variabel-variabel kita masukkan untuk

(1) MEMASUKKAN SEMUA VARIABEL INDEPENDEN SECARA

(2) MEMASUKKAN SEKELOMPOK VARIABEL BIOLO- GIK PENTING.

(3). SELEKSI MAJU

(4). SELEKSI MUNDUR.

Penggunaan perkalian dengan angka (-2) semata-mata berdasarkan alasan

MEMERIKSA KEMUNGKINAN INTERAKSI. Setelah mem- peroleh model yang

Dalam analisis regresi ganda, variabel-variabel prediktor yang berskala diskret

PENYARINGAN AWAL DENGAN ANALISIS UNIVARIAT

MEMASUKKAN DAN/ATAU MENGELUARKAN VARIA BEL DALAM MODEL

MEMASUKKAN DAN MEMERIKSA KEMUNGKINAN INTERAKSI

Untuk memeriksa signifikansi kontribusi interaksi AF X AGRP, kita bandingkan

Ketiadaan interaksi mengisyaratkan perlunya menilai dan mengontrol pengaruh AGRP,

PENGARUH SPESIFIK VARIABEL PREDIKTOR KATE- GORIKAL. Interpretasi tentang

PENGARUH SPESIFIK VARIABEL RANCANGAN.

Interpretasi tentang pengaruh spesifik variabel rancangan, misalnya kebiasaan merokok

PENGARUH SPESIFIK VARIABEL PREDIKTOR KONTINU.

IK 95% = exp (-2.2431 +/- 1.96 (1.0190)] = (0.78,0.01)

MENGUJI KEMAKNAAN PENGARUH VARIABEL PRE-DIKTOR, SETELAH MENGONTROL

MENILAI DAN MENGONTROL KERANCUAN

Seperti biasanya, penilaian kerancuan adalah membandingkan taksiran

Perhatikan Tabel 22.4 dan 22.5. Karena OR terkontrol = 0.1061 (baca:

PENGARUH VARIABEL PREDIKTOR DALAM INTERVAL KEYAKINAN

MENGUJI KEMAKNAAN PENGARUH VARIABEL PRE DIKTOR, SETELAH MENGONTROL

MENILAI DAN MENGONTROL KERANCUAN

Analisis regresi ganda logistik mampu menaksir pengaruh paparan terhadap

MERAMALKAN PROBABILITAS INDIVIDU UNTUK MENGALAMI PENYAKIT

Kita telah memiliki persamaan regresi sebagai berikut:

Dengan persamaan tersebut kita dapat membuat ramalan tentang probabilitas

Mickey, J. dan Greenland, S. (1989). A study of the impact of confounder selection

Inett, J, Cornfield, J, dan Kannel, W. (1967). A multivariate analysis of the risk of

Anda mungkin juga menyukai