Dosen Pembimbing:
Prof. Dr. dr. H.M. Tahir Abdullah, M.Sc., MSPH
Disusun Oleh:
Kelompok 7
Hardianti K012202047
Nuristha Febrianti K012201052
Syamsia K012202057
Maspa Lapui K012211076
PROGRAM PASCASARJANA
FAKULTAS KESEHATAN MASYARAKAT
UNIVERSITAS HASANUDDIN
MAKASSAR
2021
[ Syamsia, Hal 163-166]
Pembaur dan interaksi dalam Regresi
11.1. Pratinjau
Dua tujuan yang berbeda dari analisis regresi adalah (1) untuk memprediksi
variabel dependen menggunakan satu set variabel independen dan (2) untuk
mengukur hubungan satu atau lebih variabel independen dengan variabel dependen.
Tujuannya berbeda karena yang pertama berfokus pada menemukan model yang
sesuai dengan data yang diamati dan memprediksi data masa depan sebaik mungkin,
sedangkan yang kedua berkaitan dengan menghasilkan perkiraan yang akurat dari satu
atau lebih koefisien regresi dalam model. Selain itu, tujuan kedua menjadi perhatian
khusus ketika peneliti mempertanyakan etiologi penyakit, seperti mencoba
mengidentifikasi satu atau lebih determinan penyakit atau hasil terkait kesehatan
lainnya.
Pembaur dan interaksi adalah dua konsep metodologis yang relevan untuk
mencapai tujuan kedua. Dalam bab ini, kami menjelaskan konsep-konsep ini
menggunakan terminologi regresi. Diskusi yang lebih umum tentang subjek ini dapat
ditemukan di tempat lain (misalnya, Kleinbaum, Kupper, dan Morgenstern, 1982)
dalam konteks penelitian epidemiologi, yang biasanya membahas pertanyaan etiologi
yang melibatkan tujuan kedua di atas. Kami mulai di sini dengan gambaran umum
konsep-konsep ini, setelah itu kami membahas prosedur regresi, analisis kovarians
(ANACOVA), yang dapat digunakan untuk menyesuaikan atau mengoreksi masalah
pengganggu. Selanjutnya, dalam bab 16, kami akan menjelaskan secara singkat
strategi untuk mendapatkan model regresi "terbaik" yang menggabungkan penilaian
perancu dan interaksi.
11.2. Gambaran
Counfounding dan interaksi, meskipun konsepnya berbeda, keduanya
melibatkan penilaian hubungan antara dua variabel atau lebih sehingga variabel
tambahan yang mungkin mempengaruhi hubungan ini diperhitungkan. Ukuran
asosiasi yang dipilih biasanya tergantung pada karakteristik variabel yang diminati.
Misalnya, jika kedua variabel kontinu, seperti dalam konteks regresi klasik, ukuran
asosiasi biasanya berupa koefisien regresi. Variabel tambahan untuk dipertimbangkan
secara sinonim disebut sebagai variabel asing, variabel kontrol, atau kovariat.
Pertanyaan penting mengenai variabel-variabel ini adalah apakah dan bagaimana
mereka harus dimasukkan ke dalam model yang dengannya asosiasi kepentingan
dapat diperkirakan.
Dalam istilah yang lebih praktis, misalkan kita mempertimbangkan studi untuk
menilai apakah tingkat aktivitas fisik (PAL) dikaitkan dengan tekanan darah sistolik
(SBP), akuntansi (yaitu mengendalikan) untuk AGE. Variabel asing di sini adalah
AGE. Kami perlu menentukan apakah kami dapat mengabaikan AGE dalam analisis
kami dan masih menilai hubungan PAL-SBP dengan benar. Secara khusus, kita perlu
menjawab pertanyaan-pertanyaan berikut: (1) apakah perkiraan hubungan antara PAL
dan SBP berbeda secara bermakna tergantung pada apakah kita mengabaikan AGE?
(2) Apakah perkiraan hubungan antara PAL dan SBP berbeda secara bermakna untuk
nilai AGE yang berbeda? Pertanyaan pertama berkaitan dengan perancu, pertanyaan
kedua dengan interaksi.
Secara umum, perancu ada jika interpretasi yang berbeda secara bermakna
dari hubungan kepentingan hasil ketika variabel asing diabaikan atau dimasukkan
dalam analisis data. Dalam praktiknya, penilaian perancu membutuhkan
perbandingan antara perkiraan kasar dari suatu asosiasi (yang mengabaikan variabel
asing yang diminati) dan perkiraan asosiasi yang disesuaikan (yang dengan cara
tertentu memperhitungkan variabel asing). Jika perkiraan kasar dan perkiraan yang
disesuaikan berbeda secara bermakna, maka kami mengatakan bahwa pengganggu
hadir dan satu atau lebih variabel asing harus dimasukkan dalam analisis data kami.
Catatan hadir dan satu atau lebih variabel asing harus dimasukkan dalam analisis data
kami. Perhatikan bahwa definisi ini tidak memerlukan uji statistik melainkan
perbandingan perkiraan yang diperoleh dari data (lihat Kleinbaum, Kupper, dan
Morgenstern, 1982, bab 13, untuk pembahasan lebih lanjut tentang poin ini).
Misalnya, dengan menggunakan ilustrasi di atas, perkiraan kasar dari
hubungan antara PAL dan SBP (mengabaikan AGE) diberikan oleh koefisien regresi,
katakanlah B1, dari variabel PAL dalam model garis lurus yang memprediksi SBP
hanya dengan menggunakan PAL. Sebaliknya, perkiraan yang disesuaikan diberikan
oleh koefisien regresi, Bi, dari variabel yang sama, PAL, dalam model regresi
berganda yang memprediksi SBP menggunakan PAL dan AGE. Secara khusus, jika
PAL didefinisikan secara dikotomis (misalnya, PAL = 1 atau 0 untuk aktivitas fisik
tinggi atau rendah, masing-masing), maka perkiraan kasar hanyalah perbedaan kasar
antara tekanan darah sistolik rata-rata di setiap kelompok aktivitas fisik, dan tekanan
darah sistolik yang disesuaikan. perkiraan mewakili perbedaan yang disesuaikan
dalam dua tekanan darah sistolik rata-rata yang mengontrol AGE ini. Secara umum,
Interaksi adalah kondisi di mana hubungan kepentingan berbeda pada tingkat
yang berbeda (yaitu, nilai) dari variabel asing (s). Berbeda dengan perancu, penilaian
interaksi tidak mempertimbangkan perkiraan kasar atau perkiraan yang disesuaikan
(keseluruhan), melainkan berfokus pada menggambarkan hubungan kepentingan pada
nilai yang berbeda dari yang asing.
Misalnya, dalam menilai interaksi karena AGE dalam menggambarkan
hubungan PAL-SBP, masalahnya adalah apakah beberapa deskripsi (yaitu, perkiraan)
dari hubungan ini bervariasi dengan nilai AGE yang berbeda (misalnya, apakah
hubungan itu kuat pada usia yang lebih tua dan lemah pada usia yang lebih muda).
Jika hubungan PAL-SBP memang berbeda dengan AGE, maka kita katakan bahwa
ada interaksi PAL AGE X (baca "oleh"). Untuk menilai interaksi uji statistik dapat
digunakan di samping evaluasi subjektif kebermaknaan (misalnya, kepentingan klinis)
dari efek interaksi diperkirakan. Sekali lagi, untuk diskusi lebih lanjut, lihat
Kleinbaum, Kupper, dan Morgenstern (1982).
Ketika perancu dan interaksi dipertimbangkan untuk kumpulan data yang
sama, penggunaan perkiraan keseluruhan (disesuaikan) sebagai indeks ringkasan dari
hubungan yang diminati akan cenderung menutupi efek interaksi (kuat) yang mungkin
ada. Misalnya, jika asosiasi PAL-SBP berbeda secara bermakna pada nilai AGE yang
berbeda, penggunaan perkiraan keseluruhan tunggal, seperti koefisien regresi PAL
dalam model regresi berganda yang mengandung AGE dan PAL, akan
menyembunyikan temuan interaksi ini. Ini menggambarkan prinsip penting berikut:
Interaksi harus dinilai sebelum perancu; penggunaan ringkasan (disesuaikan)
perkiraan bahwa kontrol untuk perancu dianjurkan hanya ketika tidak ada interaksi
yang berarti (Kleinbaum, Kupper, dan Morgenstern, 1982, bab 13).
Jadi, secara umum, perancu dan interaksi adalah fenomena yang berbeda.
Sebuah variabel dapat memanifestasikan perancu dan interaksi, tidak keduanya, atau
hanya salah satu dari keduanya. Namun demikian, jika interaksi yang kuat ditemukan,
penyesuaian untuk perancu tidak tepat.
Kami sekarang siap untuk membahas bagaimana konsep-konsep ini dapat
digunakan menggunakan terminologi regresi, dengan asumsi model linier dan variabel
dependen kontinu. Sebuah analog regresi untuk variabel hasil dikotomis bisa,
misalnya, melibatkan logistik daripada model linier. Pemodelan logistik dibahas
secara singkat di Bab 21; diskusi yang lebih rinci di mana perancu dan interaksi
dipertimbangkan dapat ditemukan di Kleinbaum, Kupper, dan Morgenstern (1982,
bab 20-24).
Sekarang, mari kita perhatikan dua grafik berdasarkan dua kumpulan data
hipotetis untuk skema percobaan yang dijelaskan di atas. Gambar 11-1a menunjukkan
bahwa laju perubahan laju pertumbuhan sebagai fungsi suhu adalah sama terlepas dari
tingkat konsentrasi katalis; dengan kata lain, hubungan antara Y dan T sama sekali
tidak bergantung pada C.
(Bagi pembaca yang akrab dengan kalkulus, frasa "laju perubahan" terkait dengan gagasan turunan dari
suatu fungsi. Secara khusus, Gambar 11-1a menggambarkan situasi di mana turunan parsial sehubungan
dengan T dari fungsi yang berkaitan dengan rata-rata dari Y ke T dan C tidak tergantung pada C).
Di sini perubahan nilai rata-rata Y untuk perubahan 1 unit di Tis sama dengan B1 +
B12C, yang jelas tergantung pada tingkat C. Dengan kata lain, memperkenalkan istilah
produk seperti B12 TC dalam model regresi tipe (11.2) adalah salah satu cara untuk
menjelaskan fakta bahwa dua faktor seperti T dan C tidak beroperasi secara independen satu
sama lain. Untuk contoh khusus kami, ketika C = Co, model (11.2) dapat ditulis sebagai
Secara khusus, Gambar 11-1b menunjukkan bahwa efek interaksi B12 adalah negatif, dengan
efek linier (B1 + B12CO) dari T pada Co menjadi positif dan efek linier (B1 + B12C1) dari T
pada C1 menjadi negatif. Efek interaksi negatif diharapkan di sini, karena Gambar 11-1b
menunjukkan bahwa kemiringan hubungan linier antara Y dan T berkurang (yaitu, berubah
dari tanda positif ke negatif) ketika C berubah dari Co ke C1. Tentu saja, B12 mungkin
positif, dalam hal ini efek interaksi akan muncul sebagai nilai positif yang lebih besar untuk
kemiringan ketika C = C1 daripada ketika C = Co.
Istilah X1X2 dan X1 X3 menggambarkan interaksi X2 dan X3, masing-masing, dengan X1.
Sebaliknya, istilah X2X3, yang tidak terdapat dalam model (11,4), tidak menyangkut
interaksi yang melibatkan X1. Dalam menggunakan pengujian statistik untuk mengevaluasi
interaksi untuk model regresi tertentu, tersedia sejumlah opsi. (Pembahasan yang lebih rinci
tentang bagaimana memilih variabel diberikan dalam Bab 16.) Salah satu pendekatan adalah
menguji secara global untuk keberadaan segala jenis interaksi dan kemudian, jika interaksi
yang signifikan ditemukan, untuk mengidentifikasi istilah interaksi tertentu yang penting
dengan menggunakan yang lain. tes. Misalnya, dalam mempertimbangkan model (11.3),
pertama-tama kita dapat menguji Ho: B4 = Bs = B6 = B7 = 0 menggunakan statistik F multi-
parsial %3D %3
yang memiliki distribusi F4-8 ketika Ho benar. Jika statistik F ini ditemukan signifikan,
istilah interaksi yang penting secara individual kemudian dapat diidentifikasi dengan
menggunakan uji F parsial yang dipilih. Cara kedua untuk menilai interaksi adalah menguji
interaksi dalam urutan hierarkis, dimulai dengan suku tingkat tertinggi dan kemudian
dilanjutkan secara berurutan ke suku tingkat rendah jika suku tingkat tinggi tidak signifikan.
Dengan menggunakan model (11.3), misalnya, pertama-tama seseorang dapat menguji Ho: B,
= 0, yang mempertimbangkan interaksi orde kedua, dan kemudian menguji Ho: B4 = Bs = B6
= 0 dalam model tereduksi (tidak termasuk model tiga-arah istilah produk X1X2X3) jika
pengujian pertama tidak signifikan. %3D %3D
1 Adalah mungkin, bagaimanapun, untuk menilai perancu untuk variabel yang bukan komponen dari
istilah interaksi. Misalnya, jika seseorang mempertimbangkan model Y = Bo + B,X1 + B2X2 + 3 X3 +
B4X1 X3 + E, di mana X1 adalah variabel studi yang diminati, kita mungkin ingin mempertimbangkan
apakah X2 adalah perancu, karena bukan komponen X1X3, satu-satunya istilah interaksi dalam model.
Untuk contoh yang lebih realistis, lihat Kleinbaum, Kupper, dan Morgenstern (1982, bab 23).
Jadi, kita memiliki aturan umum berikut untuk menilai adanya perancu ketika hanya satu
variabel independen yang akan dikontrol: Pengganggu hadir jika estimasi koefisien (B1) dari
variabel studi T berubah secara bermakna ketika variabel C dihilangkan dari model (11,5),
yaitu, jika (11,7) di mana Bc menunjukkan estimasi (disesuaikan) dari B, dengan
menggunakan model (11,5) dan B1 menunjukkan estimasi (mentah) dari B1 dengan
menggunakan model (11,6). Tanda + dalam ekspresi (11.7) menunjukkan bahwa keputusan
subjektif diperlukan apakah kedua estimasi tersebut berbeda secara bermakna; yaitu,
seseorang perlu menentukan secara subyektif apakah kedua perkiraan masing-masing
menggambarkan interpretasi yang berbeda dari asosiasi T-Y yang bersangkutan. Uji statistik
tidak diperlukan atau tidak sesuai (Kleinbaum, Kupper, dan Morgenstern, 1982, bab 13).
Sebagai contoh, misalkan Y menunjukkan SBP, T menunjukkan PAL, dan C menunjukkan
AGE. Untuk beberapa kumpulan data, misalkan ditemukan bahwa BIAGE = 4,1 dan B =
15,9 %3D
Kemudian, dapat disimpulkan bahwa perubahan 1 unit pada PAL menghasilkan perubahan 16
unit pada SBP ketika AGE diabaikan, sedangkan ketika AGE dikontrol, perubahan 1 unit
pada PAL hanya menghasilkan perubahan 4,1 unit pada SBP. : yaitu, hubungan antara PAL
dan SBP jauh lebih lemah setelah mengontrol AGE. (Sebagai kasus khusus, jika PAL adalah
variabel 0-1, maka B1 memberikan perbedaan kasar dalam tekanan darah sistolik rata-rata
antara kedua kelompok PAL, dan B1AGE memberikan perbedaan [untuk AGE] yang
disesuaikan dalam tekanan darah rata-rata.) Jadi, AGE akan diberi label sebagai pembaur
dan harus dikontrol dalam analisis. Sebagai contoh lain, misalkan BIAGE 6.2 dan B1 = 6.1
Di sini, kita cenderung mengatakan bahwa AGE bukan pembaur karena tidak ada perbedaan
yang berarti antara perkiraan 6.2 dan 6.1. Sayangnya, penyidik mungkin harus berurusan
dengan perbandingan yang jauh lebih sulit, seperti BAGE = 4.1 versus B1 = 5.5. Ketika
membandingkan perkiraan tersebut secara numerik, kita juga harus mempertimbangkan
kepentingan klinis dari perbedaan numerik antara perkiraan berdasarkan (apriori)
pengetahuan tentang variabel yang terlibat. Misalnya, karena koefisien 4.1 dan 5.5
memperkirakan, masing-masing, perbedaan yang disesuaikan dan kasar dalam tekanan darah
rata-rata antara kelompok PAL tinggi dan rendah, penting untuk memutuskan apakah
perbedaan rata-rata 5,5 secara klinis lebih penting daripada perbedaan rata-rata 4.1. Salah
satu pendekatan untuk masalah ini adalah untuk mengontrol variabel apapun (sebagai
pembaur) yang mengubah perkiraan efek kasar dengan beberapa jumlah yang ditentukan
sebelumnya yang ditentukan oleh penilaian klinis.
(Salah satu pendekatan yang kadang-kadang digunakan untuk menilai perancu adalah, misalnya, untuk
melakukan uji statistik Ho: B2 = 0 dalam model (11,5). Pengujian semacam itu tidak membahas perancu,
melainkan presisi; yaitu, tes semacam itu mengevaluasi apakah variasi tambahan yang signifikan dalam Y
dijelaskan dengan menambahkan C ke model yang sudah mengandung T. Pendekatan yang hampir setara adalah
untuk menentukan apakah interval kepercayaan untuk B1, koefisien T, jauh lebih sempit ketika C ada dalam
model daripada ketika itu tidak. Presisi sering menjadi masalah penting ketika mempertimbangkan faktor-faktor
asing, tetapi ini adalah masalah yang berbeda dari perancu. Faktanya, untuk pertanyaan etiologi, perancu, yang
menyangkut validitas (yaitu, apakah Anda memiliki hak jawaban?), biasanya lebih diutamakan daripada presisi.
Alasan lain untuk tidak fokus pada B2 adalah jika B2 + 0, tidak mengikuti Bc + B1. Artinya, B2 + 0 bukanlah
kondisi yang cukup untuk perancu.)²
(Seperti model (11.5), model (11.8) mengasumsikan tidak ada interaksi yang melibatkan T
karena tidak ada suku produk dalam bentuk TC, yang disertakan.) Dengan menggunakan
model ini, kita dapat mendefinisikan perancu yang melibatkan beberapa variabel sebagai
berikut: Pengganggu hadir jika estimasi dari koefisien regresi (B1) dari T dalam model
regresi seperti (11,6), yang mengabaikan variabel C1, C2,..., Cp, berbeda secara bermakna
dari perkiraan Bi yang sesuai berdasarkan model seperti (11,8), yang kontrol untuk C1,
C2, ..., Cp, yaitu, jika
2 Misalkan n = 6 dan kita memiliki data berikut untuk (T, C, Y): (1, 0, 4), (1, 1, 5), (1, 2, 6), (0, 0, 1 ), (0, 1, 2), dan (0, 2, 3).
Kemudian pemasangan kuadrat terkecil tidak tertimbang memberikan Y = 1 + 3T + C ketika T dan C adalah prediktor,
sedangkan = 2 + 3T ketika C diabaikan. Jadi, B2 = 1 ( 0), namun tidak ada perancu, karena B1 = 3 = Bic. %3D %3D
Sebagai peringatan untuk rekomendasi di atas, variabel tertentu biasanya disebut sebagai variabel intervensi tidak boleh
dianggap sebagai pembaur potensial (Kleinbaum, Kupper, dan Morgenster, 1982). Sebuah variabel Cis disebut intervening
antara T dan Y jika T menyebabkan C dan kemudian C menyebabkan Y. Mengontrol variabel intervening dapat secara palsu
mengurangi atau menghilangkan setiap manifestasi dalam data dari hubungan yang benar antara T dan Y. 3
4 Masalah lain menyangkut bagaimana menilai perancu ketika ada dua atau lebih variabel penelitian,
katakanlah, t, dan t2, yang menarik. Untuk situasi umum ini, perancu dapat didefinisikan untuk hadir jika (11,9)
puas dengan koefisien variabel studi yang menarik, mengingat model yang berisi semua variabel penelitian dan
semua variabel kontrol. Sayangnya, definisi ini memiliki kelemahan praktis dari membutuhkan beberapa
keputusan subjektif, satu untuk setiap variabel studi yang menarik. (Sebuah pendekatan alternatif, tetapi tidak persis sama,
untuk mengevaluasi presisi adalah dengan melakukan uji statistik untuk signifikansi penambahan C3, C4, dan Cs ke model yang
mengandung T, C1, dan C2. Hipotesis nol untuk pengujian ini mungkin dinyatakan sebagai Ho: B4 = Bs = B6 = 0 dalam model (11.8)
dengan p 5. Jika pengujian ini tidak signifikan, maka dapat dikatakan bahwa mempertahankan C3, C4, dan Cs tidak memberikan presisi
tambahan (yaitu, penjelasan varians). Ini akan menunjukkan bahwa hanya C, dan C2 yang harus dikontrol untuk presisi yang lebih besar.
Karena pendekatan pengujian ini tidak akan selalu mengarah pada kesimpulan yang sama dengan pendekatan interval estimasi, penyelidik
mungkin perlu memilih di antara mereka. Namun, dalam kebanyakan situasi, kedua pendekatan biasanya akan menghasilkan hasil yang
serupa.)
Mengingat model tanpa interaksi ini, langkah selanjutnya adalah menilai perancu; yaitu,
apakah koefisien PAL berubah ketika AGE dan/atau SEX dikeluarkan dari model? Untuk
menjawab ini, kita dapat menguji estimasi koefisien PAL dalam empat model, yaitu, satu
termasuk AGE dan SEX, satu melibatkan AGE atau SEX tetapi tidak keduanya, dan satu
tidak melibatkan keduanya. Model standar emas untuk perbandingan adalah model
(diberikan di atas) yang berisi variabel kontrol dan PAL. Kemudian, misalnya, jika estimasi
B1 berubah secara signifikan ketika setidaknya satu variabel kontrol dikeluarkan dari model
standar emas ini, kita perlu mengontrol AGE dan SEX. Namun, jika pada dasarnya kita
memperoleh perkiraan B1 yang sama (seperti yang diperoleh dengan menggunakan model
standar emas) ketika hanya AGE dalam model, maka kita tidak perlu mempertahankan SEX
dalam model untuk mengontrol perancu. Namun, dimasukkannya variabel jenis kelamin
selain AGE dapat meningkatkan atau menurunkan presisi. Dengan demikian, keputusan
apakah akan mengontrol hanya AGE atau untuk AGE dan SEX akan bergantung, misalnya,
pada perbandingan interval kepercayaan untuk B1. Jika interval kepercayaan jauh lebih
sempit ketika hanya AGE yang dikontrol, maka kami tidak akan mempertahankan SEX
dalam model. Akhirnya, setelah keputusan dibuat tentang variabel mana yang akan dikontrol
(yaitu, model terbaik untuk memberikan estimasi koefisien PAL yang valid dan tepat), kami
kemudian membuat kesimpulan statistik tentang hubungan PAL-SBP yang sebenarnya.
Mengingat model tanpa interaksi, ini melibatkan pengujian Ho: B1 = 0 dalam model terbaik
dan kemudian memperoleh estimasi interval B1.