Analisis regresi ganda linier yang telah kita kupas pada Bab 21 bermanfaat
untuk menilai hubungan antara variabel respons dan sejumlah variabel prediktor
secara simultan, dengan variabel respons diukur dalam skala kontinu dan
mempunyai distribusi normal. Analisis regresi ganda linier tidak dapat dipakai
dalam banyak riset etiologi, tatkala pusat perhatian ditujukan kepada penemuan
determinan- determinan penyakit atau kematian yang lazim diukur dalam skala
biner (dikotomi). Variabel penyakit dikategorikan sebagai sakit atau tidak sakit;
kematian dikategorikan meninggal atau hidup; berat badan lahir dikategorikan
normal atau rendah; dan sebagainya. Variabel respons yang bersifat dikotomi
tidak lagi mengikuti distribusi normal, tetapi binomial. Oleh karena itu sebagai
gantinya perlu dicari model regresi lain yang bisa diterapkan untuk distribusi
binomial. Andaikata model yang menggambarkan hubungan antar
variabel sebagai berikut:
p=a+b; X₁ + b2 X2+......+ by Xk
Perhatikan, ruas kanan persamaan di atas terdiri dari konstanta (a) dan
sejumlah koefisien regresi (b,) dari masing-masing variabel prediktor. Ruas kanan
bisa bernilai < 0, yakni ketika konstanta a dikurangi dengan angka hasil
penjumlahan perkalian koefisien regresi dan variabel-variabel prediktor yang
lebih besar daripada a. Tetapi, ruas kanan bisa juga bernilai > 1, yakni ketika
konstanta a ditambah dengan hasil penjumlahan perkalian koefisien regresi dan
variabel predi yang cukup besar. Sebaliknya, ruas kiri adalah p. yang merupakan
pro babilitas bahwa suatu "peristiwa" akan terjadi (misalnya, sakit atau
meninggal). Karena merupakan probabilitas, maka nilainya selalu ber kisar antara
0 hingga 1. Ketidakcocokan ruas kiri dan kanan persamaan tersebut
mengisyaratkan bahwa model di atas tidak dapat kita pakai.
MODEL REGRESI GANDA LOGISTIK
Analisis regresi ganda logistik adalah alat statistik yang sangat kuat untuk
menganalisis hubungan antara sebuah paparan dan penyakit (yang diukur biner)
dan dengan serentak mengontrol pengaruh sejumlah faktor perancu potensial.
Analisis regresi ganda logistik sebenarnya telah lama dikenal dalam statistik,
tetapi popularitasnya dalam riset epidemiologi baru "terdengar" sejak studi
jantung berskala besar Framingham tahun 1950-an (Truett et al., 1967). Tujuan
analisis regresi ganda logistik sama dengan analisis regre si ganda linier, yaitu
menemukan model regresi yang paling sesuai. ling irit, sekaligus masuk akal
secara biologik, untuk menggambarka hubungan antara variabel respons dan satu
set variabel prediktor dalam populasi. Model regresi itu selanjutnya dapat
dipergunakan untuk:
OR = exp [bi]
Dengan:
OR= rasio odds paparan (variabel prediktor Xi) terhadap penyakit (variabel hasil
Y), setelah memperhitungkan kovariat Xi lainnya
OR = exp [bi ∆ ]
dengan:
Agar diperoleh model regresi yang hemat dan mampu menje- laskan
hubungan variabel prediktor dan respons dalam populasi, dibutuhkan suatu
prosedur formal pemilihan variabel, sebagai berikut:
Statistik uji kai kuadrat Pearson bisa juga digunakan, karena secara asimtotik
ekivalen dengan statistik uji kai kuadrat rasio likelihood (Hosmer dan Lemeshow, 1989).
Selain statistik uji, ada baiknya diperhatikan rasio odds (OR) masing-masing variabel
prediktor, beserta interval keyakinannya. Jika ada variabel yang bersifat politomi (yakni
mempunyai lebih dari dua kategori), maka kita buat variabel-variabel rancangan (dummy
variable, design variable) sebanyak k-1, di mana k = banyaknya kategori (tingkat) dari
variabel tersebut. Rasio odds masing-masing kategori dibuat berdasarkan suatu rasio odds
acuan (referensi). Dalam hal ini sebuah kategori yang dipakai acuan dianggap memiliki
OR=1.
Untuk variabel berskala kontinu, parameter yang perlu diper- hatikan adalah: (1)
Taksiran koefisien regresi (b.); (2) Taksiran kesalahan baku (S.E.), (3) Statistik uji rasio
likelihood G: dan (4) Statistik univariat Wald. Statistik Wald ialah rasio antara taksiran
koefisien regresi dan taksiran kesalahan baku dari koefisien regresi bersangkutan.
sehingga dirumuskan sebagai b,/S.E.
Sesuai dengan anjuran Mickey dan Greenland (1989), variabel- variabel yang melalui uji
univariat memiliki p < 0.25 dan memiliki kemaknaan biologik, hendaknya
dipertimbangkan untuk dimasukkan ke dalam model multivariat.
Salah satu problem dalam analisis univariat adalah pengabaiannya terhadap kemungkinan
bahwa variabel-variabel secara kolektif dapat menjadi prediktor penting bagi variabel
hasil, meski secara sendiri sendiri merupakan prediktor lemah. Oleh karena itulah
dianjurkan untuk menggunakan kriteria kemaknaan statistik yang cukup besar (misalnya,
0.25) yang memungkinkan variabel-variabel yang secara terselubung sesungguhnya
penting untuk dimasukkan ke dalam model multivaria
Ciri-ciri teknik ini adalah menetapkan sekelompok (cluster) variabel yang secara
biologik dianggap penting dalam hu- bungannya dengan variabel dependen (penyakit)
dan paparan. Ke lompok variabel ini mendapat perlakuan "istimewa" dengan dimasukkan
ke dalam model tanpa perlu melewati kriteria tingkat kemaknan statistik. Variabel-
variabel yang secara biologik penting tersebut meru pakan subset dari keseluruhan set
variabel, yang akan dipertahankan terus di dalam model. Terhadap subset dasar itu
kemudian ditambahkan kovariat-kovariat berikutnya, baik dengan metode pemilihan
maju pemilihan mundur, ataupun pemilihan stepwise.
Teknik yang lebih terkenal dengan sebutan forward selection ini memasukkan satu per
satu variabel hasil analisis univariat dan memenuhi kriteria kemaknaan statistik untuk ke
dalam model, sampai semua variabel yang memenuhi kriteria tersebut masuk ke dalan
model itu.
Teknik yang lebih populer dengan sebutan backward selection ini memasukkan semua
variabel hasil analisis univariat ke dalam model, tetapi kemudian disingkirkan satu
persatu dari model berdasarkan kriteria kemaknaan statistik tertentu, sampai tidak ada
lagi variabel dalam model yang dapat disingkirkan oleh kriteria penyingkiran itu.
(5). SELEKSI STEPWISE. Teknik yang paling banyak digunakan ini lebih termashur
dengan sebutan stepwise selection. Teknik ini meru- pakan kombinasi antara seleksi maju
dan seleksi mundur. Seperti halnya seleksi maju, seleksi stepwise dimulai dari tanpa
variabel sama sekali di dalam model. Lalu satu per satu variabel hasil analisis univariat
dimasukkan ke dalam model dan dikeluarkan dari model dengan kriteria tertentu.
Kriteria pemasukan dan/ atau pengeluaran variabel dibuat berda- sarkan
kemaknaan statistik (nilai p). Pertanyaannya, uji statistik apa yang digunakan. Pembaca
tentu masih ingat, bahwa dalam regresi ganda linier, kita menguji kemaknaan koefisien
regresi (b) dengan menggunakan rasio F. Rasio F diperoleh melalui tabel ANOVA
(analisis varians). Rasio F mengikuti distribusi F dengan derajat bebas k dan n-k-1, di
mana k = banyaknya variabel independen dan n = banyaknya pengamatan. Rasio F
(disebut juga statistik F) hanya digunakan untuk menguji kemaknaan koefisien pada
regesi ganda linier, di mana variabel respons berskala kontinu dan mengikuti distribusi
normal. Statistik F tidak dapat digunakan untuk menguji kemaknaan koefisien dalam
regresi ganda logistik, sebab variabel respons berskala dikotomi dan mengikuti distribusi
binomial.
Ada beberapa metode uji statistik yang digunakan dalam analisis regresi ganda
logistik, dua di antaranya yang sering dijumpai pada paket perangkat lunak statistik
komputer ialah: (1) Statistik G, dan(2) Statistik Wald. Kedua statistik itu menguji
kemaknaan koefisien regresi (bi) yang diperoleh dengan teknik kemungkinan maksimum
(maximum likelihood) Statistik G ialah rasio logaritmik antara likelihood model
tanpa variabel dan likelihood model dengan variabel. Rumusnya sebagai berikut:
Statistik W mengikuti distribusi normal, pada hipotesis nol bahwa b = 0. Nilai-p dua sisi
ialah P [/z/> W hitung], di mana z adalah variabel acak yang mengikuti distribusi normal
standar. Hauck dan Donner (1977) dan Jennings (1986) telah memeriksa kelayakan
penggunaan statistik W dalam inferensi dengan analisis regresi ganda logistik. Mereka
mendapatkan, statistik W mempunyai sifat agak menyimpang, dalam arti sering kali
gagal menolak hipotesis nol mes n koefisien tersebut cukup bermakna. Karena itu mereka
meng kipun anjurkan penggunaan statistik uji rasio likelihood (G).
Agar lebih jelas tentang pembuatan variabel rancangan, kita ikuti contoh
berikut. Sebuah studi kohor prospektif berminat meneliti pengaruh aktivitas fisik (AF)
terhadap kejadian infark otot jantung (MI). Sejumlah kovariat diperhitungkan sebagai
faktor perancu poten- sial dalam penilaian itu, yaitu kategori umur (AGRP) dan kebiasaan
merokok (MRK). Semua variabel penelitian berskala nominal, sehingga kita perlu
membuat variabel rancangan. Tetapi terlebih dulu kita buat kategorisasi nilai variabel-
variabel nominal seperti disajikan Tabel 22.1.
Jumlah variabel rancangan yang dibutuhkan mempunyai rumus k - 1. di mana k ialah
banyaknya tingkat (kategori) variabel yang bersangkutan. Dalam hal variabel MRK,
maka variabel rancangan yang dibutuhkan ialah 2 (yakni, 3-1), dan kita sebut D, dan D2.
Sedang salah satu rancangan pengkodean variabel rancangan tersebut ialah menentukan
responden bukan perokok/bekas perokok (yang tidak terpapar kebiasaan merokok)
sebagai acuan, dengan kode D₁ = 0 dan D2=0. Selanjutnya, responden perokok sigaret <
15 batang/hari diberi kode D₁ = 1 dan D=2 0. Responden perokok sigaret > = 15
batang/hari diberi kode D1 = 0 dan D2 = 1. Tabel 22.2 menyajikan rencana pengkodean
variabel kebiasaan merokok (MRK) menjadi variabel rancangan.
Tabel 22.2 Rencana pengkodean variabel kebiasaan merokok (MRK) menjadi variabel
rancangan, dalam studi kohor prospektif tentang pengaruh aktivitas fisik (AF) terhadap
infark otot jantung (MI), dengan mengontrol pengaruh umur AGE). dan kebiasaan
merokok (MRK)
Terhadap variabel asli dapat dibuat berbagai rencana pengkodean. Interpretasi variabel
rancangan tentu saja harus mengacu kepada rencana pengkodean yang sudah dipilih.
Sekarang perhatikan hasil pengamatan dalam studi kohor prospektif tersebut. Tabel 22.3.
menyajikan data pengamatan terhadap sampel sebesar 55 subyek dalam studi kohor
prospektif tentang pengaruh aktivitas fisik (AF) terhadap infark otot jantung (MI), dengan
memperhitungkan kovariat kategori umur (AGRP), dan kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2.
Perhatikan, Tabel 22.3 hanya menyajikan pengamatan tentang dua kovariat, yakni umur
dan kebiasaan merokok. Dalam riset yang sesungguhnya, peneliti mungkin melihat
sejumlah kovariat lainnya yang relevan dengan infark otot jantung (MI) dan aktivitas fisik
(AF).
Tabel 22.3 Data pengamatan terhadap sampel sebesar 55 subyek dalam stad jantung
(MI), dengan memperhitungkan kovariat kategori umur (AGRP). dan kohor prospektif
tentang pengaruh aktivitas fisik (AF) terhadap infark otot kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2.
Tabel 22.3 Data pengamatan terhadap sampel sebesar 55 subyek dalam studi kehor
prospektif tentang pengaruh aktivitas fisik (AF) terhadap infark ett jantung (MI), dengan
memperhitungkan kovariat kategori umor (AGRP), dan kebiasaan merokok (MRK).
Perhatikan, kebiasaan merokok sudah diubah menjadi variabel rancangan D1 dan D2
(Lanjutan).
misalnya gender, ras, kelas sosial (diukur dengan indeks sosial), tekanan darah sistolik,
obesitas (diukur dengan indeks Quetelet). Untuk menentukan kovariat yang penting untuk
dimasukkan ke dalam model multivariat dibutuhkan penyaringan awal dengan analisis
univariat Tabel 22.4 menyajikan cetak komputer hasil analisis univariat terhadap variabel
AF, AGRP, D1 dan D1.
Artinya, kegiatan fisik >= 2500 kcal/hari mempunyai risiko terkena MI
sepertigapuluh kali (lebih kecil) daripada kegiatan fisik < 2500 kcal/hari, tanpa
mengontrol pengaruh variabel-variabel luar lainnya. Perhatikan, semua variabel prediktor
secara individual sangat bermakna, di mana nilai-p lebih kecil dari kriteria tingkat
kemaknaan yang kita pergunakan, yakni < 0.25. Disamping itu, secara biologik baik umur
dan kebiasaan merokok diketahui relevan dengan infark otot jantung. Karena itu semua
variabel prediktor tersebut kita masukkan ke dalam model multivariat, sebagai berikut:
Perhatikan pula, kita memperoleh sejumlah OR hasil analisis multivariat, baik untuk AF,
AGRP, Di, maupun D2. Rumusnya adalah OR = exp (bi) untuk variabel nominal, atau OR
= exp (bi ∆ ) untuk variabel kontinu.
Sekarang kita masukkan variabel prediktor AF, AGRP, D1, D2 dalam analisis
regresi logistik dengan metode stepwise. PIN kita set pada 0.15 dan POUT pada 0.20.
Cetak komputer hasil analisis regresi ganda logistik dengan metode stepwise program
SPSS terhadap variabel prediktor AF, AGRP, Di dan D2 disajikan Tabel 22.5.
Perhatikan, secara statistik interaksi aktivitas fisik dan kategori umur tidak bermakna,
oleh karena itu kita singkirkan dari model. Sehingga model regresi yang kita pakai
selanjutnya adalah:
(2) Perokok < 15 batang sigaret per hari OR= exp (2.4782) D₁ = 1 dan D2=0 11.9198.
Artinya, perokok < 15 batang sigaret mempunyai risiko terkena infark otot jantung
sebesar 12 kali lebih besar daripada bukan perokok/bekas perokok, setelah mem-
perhitungkan pengaruh aktivitas fisik dan kategori umur.
(3) Perokok >= 15 batang sigaret per hari OR D₁ = 0 dan D=1 exp (2.6734) = 14.4891.
Artinya, perokok >= 15 ba- tang sigaret per hari mempunyai risiko terkena infark otot
jantung sebesar 14 kali lebih besar daripada bukan perokok/bekas perokok, setelah
memperhitungkan pengaruh aktivitas fisik dan kategori umur.
Pengaruh spesifik variabel prediktor berskala kontinu dihitung dengan rumus OR = exp
(bix ∆ ). Delta adalah perbedaan antara satu nilai dan nilai lainnya dari variabel kontinu
yang hendak dibandingkan.
Sebagai contoh, kalau saja umur dalam Tabel 22.3 diukur dalam skala kontinu, maka kita
dapat menghitung OR umur 40 tahun dibandingka umur 30 tahun, yaitu OR = exp (bi x
10).
PENGARUH VARIABEL PREDIKTOR DALAM INTERVAL KEYAKINAN
Di samping taksiran titik, penting juga untuk mengetahui taksin interval. Taksiran OR
dalam Interval Keyakinan 100% (1-a) dibua dengan menggunakan distribusi z, atau
distribusi dengan derajat bebas n-k-1. Sebagai contoh, OR 95% untuk AF adalah sebagai
berikut:
Artinya, dengan tingkat keyakinan sebesar 95% dan setelah mengontrol pengaruh
kategori umur dan kebiasaan merokok, kita dapat mengatakan bahwa kegiatan fisik >=
2500 kcal/hari mempunyai risiko MI 78/100 hingga 1/100 kali (lebih kecil) dari pada
kegiatan fisik < 2500 kcal/han Dengan rumus IK 95% = exp [bi +/- 1.96 SE (b;)] delta, kita
dapat menghitung OR dalam interval keyakinan 95% untuk variabel prediktor berskala
kontinu.
Perhatikan, kontribusi masing-masing variabel prediktor, baik AF. AGRP. D 1 maupun D2,
terhadap model keseluruhan ternyat secara statistik cukup bermakna, di mana
kemaknaan rasio likelihood (lihat significance of log LR) kurang dari 0.05. Sebagai
contoh, nilai untuk AF ialah 0.0213. Angka tersebut diperoleh dari rumus rasio
likelihood, sebagai berikut:
Statistik G= 5.304 mempunyai distribusi kai kuadrat dengan derajat bebas sebanyak
variabel yang (diandaikan) dikeluarkan (yakni, satu variabel AF itu sendiri). Sehingga
nilai-p [X2 (1) = 5.304] dalam tabel kai kuadrat ialah 0.01 < p < .025. Nilai-p pasti yang
dihitung komputer ialah 0.0213.
Analisis regresi ganda logistik mampu menaksir pengaruh paparan terhadap penyakit,
dan sekaligus memperhitungkan pengaruh sejumlah kovariat. Jika kovariat tersebut
adalah faktor perancu, maka analisis regresi ganda logistik mampu mengendalikan
pengaruh faktor perancu tersebut. Taksiran pengaruh paparan dengan analisis multiva-
riat dengan demikian disebut taksiran terkontrol (bebas kerancuan). Sebaliknya, taksiran
pengaruh paparan dengan analisis univariat (tanpa memperhitungkan pengaruh kovariat
lainnya), disebut taksiran kasar.
Sebagai contoh, kalau saja umur dalam Tabel 22.3 diukur dalam skala kontinu, maka kita
dapat menghitung OR umur 40 tahun dibandingkan umur 30 tahun, yaitu OR = exp (bi x
10).
Di samping taksiran titik, penting juga untuk mengetahui taksiran interval. Taksiran OR
dalam Interval Keyakinan 100% (1-a) dibuat dengan menggunakan distribusi z, atau
distribusi t dengan derajat bebas n-k-1. Sebagai contoh, OR 95% untuk AF adalah
sebagai berikut: IK 95% = exp (-2.2431 +/- 1.96 (1.0190)] =(0.78,0.01)
Artinya, dengan tingkat keyakinan sebesar 95% dan setelah mengontrol pengaruh
kategori umur dan kebiasaan merokok, kita dapat mengatakan bahwa kegiatan fisik >=
2500 kcal/hari mempunyai risiko MI 78/100 hingga 1/100 kali (lebih kecil) dari pada
kegiatan fisik < 2500 kcal/har Dengan rumus IK 95% = exp [bi +/- 1.25 SE (b)) delta, kita
dapat menghitung OR dalam interval keyakina 95% untuk variabel prediktor berskala
kontinu
Perhatikan, kontribusi masing-masing variabel prediktor, baik AF, AGRP. D. maupun D2.
terhadap model keseluruhan ternyata secara statistik cukup bermakna, di mana
kemaknaan rasio likelihood (lihat significance of log LR) kurang dari 0.05. Sebagai
contoh, nilai-p untuk AF ialah 0.0213. Angka tersebut diperoleh dari rumus rasio
likelihood, sebagai berikut:
Statistik G 5.304 mempunyai distribusi kai kuadrat dengan derajat bebas
sebanyak variabel yang (diandaikan) dikeluarkan (yakni, satu variabel AF itu sendiri).
Sehingga nilai-p [X2 (1)= 5.304) dalam tabel kai kuadrat ialah 0.01 < p < .025. Nilai-p pasti
yang dihitung komputer ialah 0.0213.
Artinya, individu berumur 45 tahun yang hanya melakukan aktivitas fisik sebesar
2.000 kcal/hari dan mempunyai kebiasaan merokok rata -rata 5 batang sigaret/ hari,
memiliki probabilitas untuk terkena MI sebesar 64%.
REFERENSI
Hauck, W.W., dan Donner, A. (1977). Wald's test as applied to hypo- theses in logit
analysis. J. Am. Stat. Assoc. 72: 851-853.
Hosmer, W.H., dan Lemeshow, S. (1989). Applied logistic regres sion. New York: John
Wiley and Sons.
kings, D.E. (1986). Judging inference adequacy in logistic regression. J. Am. Stat. Assoc.,
81: 471-76.