KELOMPOK 7-Confounding and Interaction in Regression

CONFOUNDING AND INTERACTION IN REGRESSION
Untuk memenuhi nilai tugas pada Mata Kuliah Biostatistik Lanjut
Dosen Pembimbing:
Prof. Dr. dr. H.M. Tahir Abdullah, M.Sc., MSPH
Disusun Oleh:
Kelompok 7
Hardianti K012202047
Nuristha Febrianti K012201052
Syamsia K012202057
Maspa Lapui K012211076
PROGRAM PASCASARJANA
FAKULTAS KESEHATAN MASYARAKAT
UNIVERSITAS HASANUDDIN
MAKASSAR
2021
[ Syamsia, Hal 163-166]
Pembaur dan interaksi dalam Regresi
11.1. Pratinjau
Dua tujuan yang berbeda dari analisis regresi adalah (1) untuk memprediksi
variabel dependen menggunakan satu set variabel independen dan (2) untuk
mengukur hubungan satu atau lebih variabel independen dengan variabel dependen.
Tujuannya berbeda karena yang pertama berfokus pada menemukan model yang
sesuai dengan data yang diamati dan memprediksi data masa depan sebaik mungkin,
sedangkan yang kedua berkaitan dengan menghasilkan perkiraan yang akurat dari satu
atau lebih koefisien regresi dalam model. Selain itu, tujuan kedua menjadi perhatian
khusus ketika peneliti mempertanyakan etiologi penyakit, seperti mencoba
mengidentifikasi satu atau lebih determinan penyakit atau hasil terkait kesehatan
lainnya.
Pembaur dan interaksi adalah dua konsep metodologis yang relevan untuk
mencapai tujuan kedua. Dalam bab ini, kami menjelaskan konsep-konsep ini
menggunakan terminologi regresi. Diskusi yang lebih umum tentang subjek ini dapat
ditemukan di tempat lain (misalnya, Kleinbaum, Kupper, dan Morgenstern, 1982)
dalam konteks penelitian epidemiologi, yang biasanya membahas pertanyaan etiologi
yang melibatkan tujuan kedua di atas. Kami mulai di sini dengan gambaran umum
konsep-konsep ini, setelah itu kami membahas prosedur regresi, analisis kovarians
(ANACOVA), yang dapat digunakan untuk menyesuaikan atau mengoreksi masalah
pengganggu. Selanjutnya, dalam bab 16, kami akan menjelaskan secara singkat
strategi untuk mendapatkan model regresi "terbaik" yang menggabungkan penilaian
perancu dan interaksi.
11.2. Gambaran
Counfounding dan interaksi, meskipun konsepnya berbeda, keduanya
melibatkan penilaian hubungan antara dua variabel atau lebih sehingga variabel
tambahan yang mungkin mempengaruhi hubungan ini diperhitungkan. Ukuran
asosiasi yang dipilih biasanya tergantung pada karakteristik variabel yang diminati.
Misalnya, jika kedua variabel kontinu, seperti dalam konteks regresi klasik, ukuran
asosiasi biasanya berupa koefisien regresi. Variabel tambahan untuk dipertimbangkan
secara sinonim disebut sebagai variabel asing, variabel kontrol, atau kovariat.
Pertanyaan penting mengenai variabel-variabel ini adalah apakah dan bagaimana
mereka harus dimasukkan ke dalam model yang dengannya asosiasi kepentingan
dapat diperkirakan.
Dalam istilah yang lebih praktis, misalkan kita mempertimbangkan studi untuk
menilai apakah tingkat aktivitas fisik (PAL) dikaitkan dengan tekanan darah sistolik
(SBP), akuntansi (yaitu mengendalikan) untuk AGE. Variabel asing di sini adalah
AGE. Kami perlu menentukan apakah kami dapat mengabaikan AGE dalam analisis
kami dan masih menilai hubungan PAL-SBP dengan benar. Secara khusus, kita perlu
menjawab pertanyaan-pertanyaan berikut: (1) apakah perkiraan hubungan antara PAL
dan SBP berbeda secara bermakna tergantung pada apakah kita mengabaikan AGE?
(2) Apakah perkiraan hubungan antara PAL dan SBP berbeda secara bermakna untuk
nilai AGE yang berbeda? Pertanyaan pertama berkaitan dengan perancu, pertanyaan
kedua dengan interaksi.
Secara umum, perancu ada jika interpretasi yang berbeda secara bermakna
dari hubungan kepentingan hasil ketika variabel asing diabaikan atau dimasukkan
dalam analisis data. Dalam praktiknya, penilaian perancu membutuhkan
perbandingan antara perkiraan kasar dari suatu asosiasi (yang mengabaikan variabel
asing yang diminati) dan perkiraan asosiasi yang disesuaikan (yang dengan cara
tertentu memperhitungkan variabel asing). Jika perkiraan kasar dan perkiraan yang
disesuaikan berbeda secara bermakna, maka kami mengatakan bahwa pengganggu
hadir dan satu atau lebih variabel asing harus dimasukkan dalam analisis data kami.
Catatan hadir dan satu atau lebih variabel asing harus dimasukkan dalam analisis data
kami. Perhatikan bahwa definisi ini tidak memerlukan uji statistik melainkan
perbandingan perkiraan yang diperoleh dari data (lihat Kleinbaum, Kupper, dan
Morgenstern, 1982, bab 13, untuk pembahasan lebih lanjut tentang poin ini).
Misalnya, dengan menggunakan ilustrasi di atas, perkiraan kasar dari
hubungan antara PAL dan SBP (mengabaikan AGE) diberikan oleh koefisien regresi,
katakanlah B1, dari variabel PAL dalam model garis lurus yang memprediksi SBP
hanya dengan menggunakan PAL. Sebaliknya, perkiraan yang disesuaikan diberikan
oleh koefisien regresi, Bi, dari variabel yang sama, PAL, dalam model regresi
berganda yang memprediksi SBP menggunakan PAL dan AGE. Secara khusus, jika
PAL didefinisikan secara dikotomis (misalnya, PAL = 1 atau 0 untuk aktivitas fisik
tinggi atau rendah, masing-masing), maka perkiraan kasar hanyalah perbedaan kasar
antara tekanan darah sistolik rata-rata di setiap kelompok aktivitas fisik, dan tekanan
darah sistolik yang disesuaikan. perkiraan mewakili perbedaan yang disesuaikan
dalam dua tekanan darah sistolik rata-rata yang mengontrol AGE ini. Secara umum,
Interaksi adalah kondisi di mana hubungan kepentingan berbeda pada tingkat
yang berbeda (yaitu, nilai) dari variabel asing (s). Berbeda dengan perancu, penilaian
interaksi tidak mempertimbangkan perkiraan kasar atau perkiraan yang disesuaikan
(keseluruhan), melainkan berfokus pada menggambarkan hubungan kepentingan pada
nilai yang berbeda dari yang asing.
Misalnya, dalam menilai interaksi karena AGE dalam menggambarkan
hubungan PAL-SBP, masalahnya adalah apakah beberapa deskripsi (yaitu, perkiraan)
dari hubungan ini bervariasi dengan nilai AGE yang berbeda (misalnya, apakah
hubungan itu kuat pada usia yang lebih tua dan lemah pada usia yang lebih muda).
Jika hubungan PAL-SBP memang berbeda dengan AGE, maka kita katakan bahwa
ada interaksi PAL AGE X (baca "oleh"). Untuk menilai interaksi uji statistik dapat
digunakan di samping evaluasi subjektif kebermaknaan (misalnya, kepentingan klinis)
dari efek interaksi diperkirakan. Sekali lagi, untuk diskusi lebih lanjut, lihat
Kleinbaum, Kupper, dan Morgenstern (1982).
Ketika perancu dan interaksi dipertimbangkan untuk kumpulan data yang
sama, penggunaan perkiraan keseluruhan (disesuaikan) sebagai indeks ringkasan dari
hubungan yang diminati akan cenderung menutupi efek interaksi (kuat) yang mungkin
ada. Misalnya, jika asosiasi PAL-SBP berbeda secara bermakna pada nilai AGE yang
berbeda, penggunaan perkiraan keseluruhan tunggal, seperti koefisien regresi PAL
dalam model regresi berganda yang mengandung AGE dan PAL, akan
menyembunyikan temuan interaksi ini. Ini menggambarkan prinsip penting berikut:
Interaksi harus dinilai sebelum perancu; penggunaan ringkasan (disesuaikan)
perkiraan bahwa kontrol untuk perancu dianjurkan hanya ketika tidak ada interaksi
yang berarti (Kleinbaum, Kupper, dan Morgenstern, 1982, bab 13).
Jadi, secara umum, perancu dan interaksi adalah fenomena yang berbeda.
Sebuah variabel dapat memanifestasikan perancu dan interaksi, tidak keduanya, atau
hanya salah satu dari keduanya. Namun demikian, jika interaksi yang kuat ditemukan,
penyesuaian untuk perancu tidak tepat.
Kami sekarang siap untuk membahas bagaimana konsep-konsep ini dapat
digunakan menggunakan terminologi regresi, dengan asumsi model linier dan variabel
dependen kontinu. Sebuah analog regresi untuk variabel hasil dikotomis bisa,
misalnya, melibatkan logistik daripada model linier. Pemodelan logistik dibahas
secara singkat di Bab 21; diskusi yang lebih rinci di mana perancu dan interaksi
dipertimbangkan dapat ditemukan di Kleinbaum, Kupper, dan Morgenstern (1982,
bab 20-24).
11.3. Interaksi dalam Regresi

Pada bagian ini, kami akan menjelaskan bagaimana variabel independen dapat
berinteraksi untuk mempengaruhi variabel dependen dan bagaimana interaksi tersebut
dapat diwakili oleh model regresi yang sesuai.
11.3.1. Sebuah contoh

Untuk mengilustrasikan konsep interaksi, kita akan mempertimbangkan
contoh sederhana berikut. Misalkan menarik untuk menentukan bagaimana dua
variabel independen, suhu (T) dan konsentrasi katalis (C), bersama-sama
mempengaruhi laju pertumbuhan (Y) organisme dalam sistem biologis tertentu.
Selanjutnya, anggaplah bahwa dua tingkat suhu tertentu (T o dan T1) dan dua tingkat
konsentrasi katalis tertentu (Co dan C) akan diperiksa, dan bahwa percobaan
dilakukan di mana pengamatan pada Y diperoleh untuk masing-masing dari empat
kombinasi tingkat konsentrasi katalis suhu, (To, Co), (To, C), (T1, Co), dan (T1, C1).
(Dalam bahasa statistik, percobaan ini disebut percobaan faktorial lengkap, karena pengamatan pada Y
diperoleh untuk semua kombinasi pengaturan untuk variabel bebas (atau faktor). Keuntungan dari
percobaan faktorial adalah bahwa setiap efek interaksi yang ada dapat dideteksi dan diukur secara
efisien.)
Sekarang, mari kita perhatikan dua grafik berdasarkan dua kumpulan data
hipotetis untuk skema percobaan yang dijelaskan di atas. Gambar 11-1a menunjukkan
bahwa laju perubahan laju pertumbuhan sebagai fungsi suhu adalah sama terlepas dari
tingkat konsentrasi katalis; dengan kata lain, hubungan antara Y dan T sama sekali
tidak bergantung pada C.
(Bagi pembaca yang akrab dengan kalkulus, frasa "laju perubahan" terkait dengan gagasan turunan dari
suatu fungsi. Secara khusus, Gambar 11-1a menggambarkan situasi di mana turunan parsial sehubungan
dengan T dari fungsi yang berkaitan dengan rata-rata dari Y ke T dan C tidak tergantung pada C).
Penting untuk menunjukkan bahwa kita tidak mengatakan bahwa Y dan C

tidak berhubungan, tetapi bahwa hubungan antara Y dan T tidak bervariasi sebagai
fungsi dari C. Jika demikian halnya, kita katakan bahwa T dan C tidak berinteraksi
atau, secara ekuivalen, tidak ada pengaruh interaksi TXC. Secara praktis, ini berarti
bahwa kita dapat menyelidiki efek T dan C pada Y secara independen satu sama lain
dan bahwa kita dapat secara sah berbicara tentang pengaruh terpisah (kadang-kadang
disebut efek utama) T dan C pada Y.
Salah satu cara untuk mengukur hubungan yang digambarkan pada gambar
11-1a dengan model regresi dari bentuk.
C = 0 + 1T+2C
Di sini, perubahan rata-rata Y untuk perubahan 1 unit di T sama dengan 1,

terlepas dari level C. sebenarnya, mengubah level C pada (11.1) hanya memiliki efek
menggeser garis lurus yang berkaitan Cdan T baik naik atau turun tanpa
mempengaruhi nilai kemiringan 1, seperti yang terlihat pada Gambar 11.1a. secara
khusus,C0 = (0 + 2C0)+1T dan C1= (0 + 2C1)+1T.
Secara umum, dapat dikatakan bahwa tidak ada interaksi yang identik dengan
parallelis, dalam arti bahwa kurva respons Y versus T untuk nilai-nilai tetap C adalah
paralel; dengan kata lain, kurva respons ini (yang mungkin linier atau nonlinier)
semuanya memiliki bentuk umum yang sama, hanya berbeda satu sama lain oleh
konstanta aditif yang tidak bergantung pada T (misalnya, lihat gambar 11-2).
Sebaliknya, Gambar 11-1b menggambarkan situasi di mana hubungan antara
Y dan T bergantung pada C ; khususnya, Y tampak meningkat dengan meningkatnya
T ketika C= C0 tetapi menurun dengan meningkatnya T ketika C=C1. Dengan kata
lain, perilaku Y sebagai fungsi suhu tidak dapat dianggap terlepas dari konsentrasi
katalis. Jika demikian halnya, kita katakan bahwa T dan C berinteraksi atau, secara
ekuivalen , bahwa ada efek interaksi T x C. Secara praktis, ini berarti bahwa sangat
tidak masuk akal untuk membicarakan efek terpisah (atau utama) dari T dan C pada
Y, karena T dan C tidak beroperasi secara independen satu sama lain dalam efeknya
pada Y.
Salah satu cara untuk menyajikan efek interaksi seperti itu secara metematis adalah dengan
mempertimbangkan model regresi dari bentuk
Di sini perubahan nilai rata-rata Y untuk perubahan 1 unit di Tis sama dengan B1 +
B12C, yang jelas tergantung pada tingkat C. Dengan kata lain, memperkenalkan istilah
produk seperti B12 TC dalam model regresi tipe (11.2) adalah salah satu cara untuk
menjelaskan fakta bahwa dua faktor seperti T dan C tidak beroperasi secara independen satu
sama lain. Untuk contoh khusus kami, ketika C = Co, model (11.2) dapat ditulis sebagai
Secara khusus, Gambar 11-1b menunjukkan bahwa efek interaksi B12 adalah negatif, dengan
efek linier (B1 + B12CO) dari T pada Co menjadi positif dan efek linier (B1 + B12C1) dari T
pada C1 menjadi negatif. Efek interaksi negatif diharapkan di sini, karena Gambar 11-1b
menunjukkan bahwa kemiringan hubungan linier antara Y dan T berkurang (yaitu, berubah
dari tanda positif ke negatif) ketika C berubah dari Co ke C1. Tentu saja, B12 mungkin
positif, dalam hal ini efek interaksi akan muncul sebagai nilai positif yang lebih besar untuk
kemiringan ketika C = C1 daripada ketika C = Co.
11-3-2 Interaction Modeling in General

Seperti ilustrasi sebelumnya menunjukkan, interaksi antara variabel independen umumnya
dapat dijelaskan dalam model regresi yang melibatkan istilah produk. Sayangnya, tidak ada
aturan yang tepat untuk menentukan istilah tersebut. Misalnya, jika interaksi yang
melibatkan tiga variabel X1, X2, dan X3 menarik, satu model yang perlu dipertimbangkan
adalah:
Dalam model ini, produk dua faktor dari bentuk X,X, sering disebut sebagai interaksi orde
pertama, sedangkan produk tiga faktor seperti X, X, X, disebut interaksi orde kedua, dan
seterusnya. untuk produk tingkat tinggi. Semakin tinggi urutan interaksi, semakin sulit untuk
menafsirkan maknanya. Model (11.3) bukanlah model yang paling umum jika
mempertimbangkan ketiga variabel X1, X2, dan X3. Istilah produk tambahan seperti X,X;,
X,X, X;X}, dan seterusnya juga dapat disertakan. Namun demikian, ada batasan pada jumlah
total istilah tersebut: Model tidak dapat berisi lebih dari n-1 variabel independen ketika n
adalah jumlah total pengamatan dalam data. Selain itu, bahkan tidak mungkin untuk
menyesuaikan model yang andal dengan variabel kurang dari n - 1 jika beberapa variabel
(misalnya, produk tingkat tinggi) sangat berkorelasi dengan variabel lain dalam model,
seperti yang akan terjadi ketika model model berisi beberapa istilah interaksi. Masalah ini,
yang disebut collinearity, dibahas dalam Bab 12. Model (11.3), di sisi lain, dapat dianggap
terlalu umum jika seseorang berfokus pada interaksi tertentu yang menarik. Misalnya, jika
tujuan studi seseorang adalah untuk menggambarkan hubungan antara X1 dan Y yang
mengendalikan kemungkinan efek pengganggu dan/atau interaksi X2 dan X3, model yang
lebih sederhana berikut mungkin lebih menarik daripada (11.3):
Istilah X1X2 dan X1 X3 menggambarkan interaksi X2 dan X3, masing-masing, dengan X1.
Sebaliknya, istilah X2X3, yang tidak terdapat dalam model (11,4), tidak menyangkut
interaksi yang melibatkan X1. Dalam menggunakan pengujian statistik untuk mengevaluasi
interaksi untuk model regresi tertentu, tersedia sejumlah opsi. (Pembahasan yang lebih rinci
tentang bagaimana memilih variabel diberikan dalam Bab 16.) Salah satu pendekatan adalah
menguji secara global untuk keberadaan segala jenis interaksi dan kemudian, jika interaksi
yang signifikan ditemukan, untuk mengidentifikasi istilah interaksi tertentu yang penting
dengan menggunakan yang lain. tes. Misalnya, dalam mempertimbangkan model (11.3),
pertama-tama kita dapat menguji Ho: B4 = Bs = B6 = B7 = 0 menggunakan statistik F multi-
parsial %3D %3
yang memiliki distribusi F4-8 ketika Ho benar. Jika statistik F ini ditemukan signifikan,
istilah interaksi yang penting secara individual kemudian dapat diidentifikasi dengan
menggunakan uji F parsial yang dipilih. Cara kedua untuk menilai interaksi adalah menguji
interaksi dalam urutan hierarkis, dimulai dengan suku tingkat tertinggi dan kemudian
dilanjutkan secara berurutan ke suku tingkat rendah jika suku tingkat tinggi tidak signifikan.
Dengan menggunakan model (11.3), misalnya, pertama-tama seseorang dapat menguji Ho: B,
= 0, yang mempertimbangkan interaksi orde kedua, dan kemudian menguji Ho: B4 = Bs = B6
= 0 dalam model tereduksi (tidak termasuk model tiga-arah istilah produk X1X2X3) jika
pengujian pertama tidak signifikan. %3D %3D
11-3-3 A Second Example

Kami sekarang mempertimbangkan penelitian untuk menilai tingkat aktivitas fisik (PAL)
sebagai prediktor tekanan darah sistolik (SBP), mengendalikan AGE dan SEX. Model yang
memungkinkan kemungkinan interaksi AGE dengan PAL dan SEX dengan PAL diberikan
oleh
Perhatikan tidak adanya istilah yang melibatkan AGE x SEX; istilah tersebut tidak
menunjukkan interaksi yang terkait dengan variabel studi minat (PAL). Untuk menilai
interaksi untuk model ini, pertama-tama seseorang mungkin melakukan uji F parsial ganda
dari Ho: B4 = Bs = 0; jika uji signifikan, maka uji F parsial dapat dilakukan untuk
menentukan apakah satu atau lebih dari istilah produk ini harus disimpan dalam model. Jika
pengujian pertama ditemukan tidak signifikan, maka model lengkap akan disederhanakan
dengan menghapus kedua suku produk ini seluruhnya, memberikan model tereduksi SBP =
B, + B1 (PAL) + B2(AGE) + B3 (SEX) + E. Pada titik ini fase interaksi pembangunan
model akan selesai. Langkah selanjutnya akan melibatkan penilaian perancu, yang akan kita
bahas di bagian selanjutnya.
11-4 Confounding in regression

Kami telah menekankan sebelumnya (Bagian 11-1) bahwa penilaian perancu dipertanyakan
dengan adanya interaksi. Jadi, dalam diskusi kita tentang perancu di sini, kita akan berasumsi
bahwa tidak ada interaksi.!
11-4-1 Controlling for one Extraneous Variable

Mari kita anggap bahwa kita tertarik untuk menggambarkan hubungan antara variabel
independen T dan variabel dependen kontinu Y, dengan mempertimbangkan kemungkinan
efek pengganggu dari variabel ketiga C. Seperti yang dijelaskan di bagian sebelumnya,
penilaian perancu membutuhkan perbandingan estimasi kasar dari hubungan TY, yang
mengabaikan pengaruh variabel kontrol (C), dengan estimasi hubungan yang
memperhitungkan (atau mengontrol) variabel ini. Perbandingan ini dapat dinyatakan dalam
dua model regresi berikut:
Asumsi tidak ada interaksi T x C menghalangi kebutuhan untuk mempertimbangkan istilah

produk dari bentuk TC dalam model ini. Dari model (11,5), hubungan antara T dan Y yang
disesuaikan untuk variabel C dapat dinyatakan dalam koefisien regresi (parsial) (B1) dari
variabel T. Estimasi B1, yang akan kita nyatakan dengan Bc, diperoleh dari penyesuaian
kuadrat terkecil dari model (11,5), adalah ukuran efek yang disesuaikan dalam arti
memberikan estimasi perubahan Y per unit perubahan T setelah memperhitungkan C (yaitu,
dengan C dalam model). Estimasi kasar dari hubungan T-Y adalah estimasi koefisien T
(yaitu, Bi) berdasarkan model (11,6), model yang tidak melibatkan variabel C
1 Adalah mungkin, bagaimanapun, untuk menilai perancu untuk variabel yang bukan komponen dari
istilah interaksi. Misalnya, jika seseorang mempertimbangkan model Y = Bo + B,X1 + B2X2 + 3 X3 +
B4X1 X3 + E, di mana X1 adalah variabel studi yang diminati, kita mungkin ingin mempertimbangkan
apakah X2 adalah perancu, karena bukan komponen X1X3, satu-satunya istilah interaksi dalam model.
Untuk contoh yang lebih realistis, lihat Kleinbaum, Kupper, dan Morgenstern (1982, bab 23).
Jadi, kita memiliki aturan umum berikut untuk menilai adanya perancu ketika hanya satu
variabel independen yang akan dikontrol: Pengganggu hadir jika estimasi koefisien (B1) dari
variabel studi T berubah secara bermakna ketika variabel C dihilangkan dari model (11,5),
yaitu, jika (11,7) di mana Bc menunjukkan estimasi (disesuaikan) dari B, dengan
menggunakan model (11,5) dan B1 menunjukkan estimasi (mentah) dari B1 dengan
menggunakan model (11,6). Tanda + dalam ekspresi (11.7) menunjukkan bahwa keputusan
subjektif diperlukan apakah kedua estimasi tersebut berbeda secara bermakna; yaitu,
seseorang perlu menentukan secara subyektif apakah kedua perkiraan masing-masing
menggambarkan interpretasi yang berbeda dari asosiasi T-Y yang bersangkutan. Uji statistik
tidak diperlukan atau tidak sesuai (Kleinbaum, Kupper, dan Morgenstern, 1982, bab 13).
Sebagai contoh, misalkan Y menunjukkan SBP, T menunjukkan PAL, dan C menunjukkan
AGE. Untuk beberapa kumpulan data, misalkan ditemukan bahwa BIAGE = 4,1 dan B =
15,9 %3D
Kemudian, dapat disimpulkan bahwa perubahan 1 unit pada PAL menghasilkan perubahan 16
unit pada SBP ketika AGE diabaikan, sedangkan ketika AGE dikontrol, perubahan 1 unit
pada PAL hanya menghasilkan perubahan 4,1 unit pada SBP. : yaitu, hubungan antara PAL
dan SBP jauh lebih lemah setelah mengontrol AGE. (Sebagai kasus khusus, jika PAL adalah
variabel 0-1, maka B1 memberikan perbedaan kasar dalam tekanan darah sistolik rata-rata
antara kedua kelompok PAL, dan B1AGE memberikan perbedaan [untuk AGE] yang
disesuaikan dalam tekanan darah rata-rata.) Jadi, AGE akan diberi label sebagai pembaur
dan harus dikontrol dalam analisis. Sebagai contoh lain, misalkan BIAGE 6.2 dan B1 = 6.1
Di sini, kita cenderung mengatakan bahwa AGE bukan pembaur karena tidak ada perbedaan
yang berarti antara perkiraan 6.2 dan 6.1. Sayangnya, penyidik mungkin harus berurusan
dengan perbandingan yang jauh lebih sulit, seperti BAGE = 4.1 versus B1 = 5.5. Ketika
membandingkan perkiraan tersebut secara numerik, kita juga harus mempertimbangkan
kepentingan klinis dari perbedaan numerik antara perkiraan berdasarkan (apriori)
pengetahuan tentang variabel yang terlibat. Misalnya, karena koefisien 4.1 dan 5.5
memperkirakan, masing-masing, perbedaan yang disesuaikan dan kasar dalam tekanan darah
rata-rata antara kelompok PAL tinggi dan rendah, penting untuk memutuskan apakah
perbedaan rata-rata 5,5 secara klinis lebih penting daripada perbedaan rata-rata 4.1. Salah
satu pendekatan untuk masalah ini adalah untuk mengontrol variabel apapun (sebagai
pembaur) yang mengubah perkiraan efek kasar dengan beberapa jumlah yang ditentukan
sebelumnya yang ditentukan oleh penilaian klinis.
(Salah satu pendekatan yang kadang-kadang digunakan untuk menilai perancu adalah, misalnya, untuk
melakukan uji statistik Ho: B2 = 0 dalam model (11,5). Pengujian semacam itu tidak membahas perancu,
melainkan presisi; yaitu, tes semacam itu mengevaluasi apakah variasi tambahan yang signifikan dalam Y
dijelaskan dengan menambahkan C ke model yang sudah mengandung T. Pendekatan yang hampir setara adalah
untuk menentukan apakah interval kepercayaan untuk B1, koefisien T, jauh lebih sempit ketika C ada dalam
model daripada ketika itu tidak. Presisi sering menjadi masalah penting ketika mempertimbangkan faktor-faktor
asing, tetapi ini adalah masalah yang berbeda dari perancu. Faktanya, untuk pertanyaan etiologi, perancu, yang
menyangkut validitas (yaitu, apakah Anda memiliki hak jawaban?), biasanya lebih diutamakan daripada presisi.
Alasan lain untuk tidak fokus pada B2 adalah jika B2 + 0, tidak mengikuti Bc + B1. Artinya, B2 + 0 bukanlah
kondisi yang cukup untuk perancu.)²
Sebelum beralih ke kriteria pengganggu yang melibatkan beberapa kovariat, kami

mengomentari masalah praktis memutuskan jenis variabel (yaitu, kovariat) yang harus
dipertimbangkan untuk kontrol sebagai pembaur potensial. Meskipun jawabannya di sini
agak bisa diperdebatkan, kami mengambil posisi bahwa daftar variabel yang memenuhi
syarat harus dibangun berdasarkan pengetahuan sebelumnya dan/atau penelitian tentang
hubungan variabel dependen dengan setiap kovariat yang dipertimbangkan. Secara khusus,
kami merekomendasikan bahwa hanya variabel yang diketahui cukup prediktif (yaitu, terkait
dengan) variabel dependen yang harus dianggap sebagai pembaur potensial dan/atau
pengubah efek. Dalam istilah epidemiologi, variabel tersebut umumnya disebut sebagai
faktor risiko (Kleinbaum, Kupper, dan Morgenstern, 1982). Idenya di sini adalah untuk
membatasi perhatian pada kontrol hanya variabel-variabel asing (yang dipelajari sebelumnya)
yang diantisipasi peneliti dapat menjelaskan hubungan hipotesis antara T dan Y yang saat ini
sedang dipelajari. Untuk mengembangkan daftar seperti itu, para penyelidik harus membuat
keputusan subjektif.
11-4-2 Controlling for several Extraneous Variables

Misalkan kita ingin menggambarkan hubungan antara T dan Y, dengan mempertimbangkan
beberapa kovariat C1, C2, .. ., Cp. Analog dengan prosedur yang dijelaskan untuk satu
kovariat, kita dapat menilai perancu dengan membandingkan perkiraan kasar dari hubungan
T-Y dengan beberapa perkiraan yang disesuaikan. Seperti sebelumnya, estimasi kasar dapat
didefinisikan dalam model regresi seperti (11.6), yang menggambarkan hubungan antara T
dan Y dengan mengabaikan semua kovariat. Namun, untuk mendapatkan estimasi yang
disesuaikan, sekarang kita harus mempertimbangkan model yang diperluas yang
didefinisikan sebagai berikut:
(Seperti model (11.5), model (11.8) mengasumsikan tidak ada interaksi yang melibatkan T
karena tidak ada suku produk dalam bentuk TC, yang disertakan.) Dengan menggunakan
model ini, kita dapat mendefinisikan perancu yang melibatkan beberapa variabel sebagai
berikut: Pengganggu hadir jika estimasi dari koefisien regresi (B1) dari T dalam model
regresi seperti (11,6), yang mengabaikan variabel C1, C2,..., Cp, berbeda secara bermakna
dari perkiraan Bi yang sesuai berdasarkan model seperti (11,8), yang kontrol untuk C1,
C2, ..., Cp, yaitu, jika
2 Misalkan n = 6 dan kita memiliki data berikut untuk (T, C, Y): (1, 0, 4), (1, 1, 5), (1, 2, 6), (0, 0, 1 ), (0, 1, 2), dan (0, 2, 3).
Kemudian pemasangan kuadrat terkecil tidak tertimbang memberikan Y = 1 + 3T + C ketika T dan C adalah prediktor,
sedangkan = 2 + 3T ketika C diabaikan. Jadi, B2 = 1 ( 0), namun tidak ada perancu, karena B1 = 3 = Bic. %3D %3D
Sebagai peringatan untuk rekomendasi di atas, variabel tertentu biasanya disebut sebagai variabel intervensi tidak boleh
dianggap sebagai pembaur potensial (Kleinbaum, Kupper, dan Morgenster, 1982). Sebuah variabel Cis disebut intervening
antara T dan Y jika T menyebabkan C dan kemudian C menyebabkan Y. Mengontrol variabel intervening dapat secara palsu
mengurangi atau menghilangkan setiap manifestasi dalam data dari hubungan yang benar antara T dan Y. 3
di mana Bic,,C,.c, menunjukkan estimasi (disesuaikan) dari 1 menggunakan (11.8) dan B1

adalah estimasi (mentah) dari B1 menggunakan (11.6). Satu masalah dengan menerapkan
definisi di atas, bagaimanapun, adalah bahwa hal itu menjawab pertanyaan apakah perancu
hadir tanpa secara langsung mengidentifikasi variabel tertentu yang akan dikendalikan.
Dengan kata lain, ketika perancu dianggap ada berdasarkan (11.9), mungkin masih terjadi
bahwa hanya sebagian dari C1, C2, ..., C, yang diperlukan untuk kontrol yang memadai.
Bagaimana cara mengidentifikasi subset seperti itu? Lebih khusus lagi, mengapa repot-repot
mengidentifikasi subset seperti itu daripada sekadar mengontrol semua variabel C1, C2, . ..,
C,? Jawaban atas pertanyaan terakhir adalah bahwa, ketika menangani kontrol kovariat,
kemungkinan keuntungan dalam presisi harus dipertimbangkan selain kontrol perancu.
Secara khusus, subset dari C; variabel mungkin lebih disukai daripada seluruh himpunan
karena subset dapat memberikan kontrol pembaur yang setara (yaitu, dapat memberikan
perkiraan penyesuaian yang sama) sambil memberikan presisi yang lebih besar dalam
memperkirakan asosiasi minat yang disesuaikan. Namun, tidak ada jaminan bahwa presisi
akan ditingkatkan dengan menggunakan subset; pada kenyataannya, presisi dapat dikurangi.
Bagaimanapun, perancu harus didahulukan daripada presisi dalam arti bahwa tidak ada subset
yang harus dipertimbangkan kecuali memberikan perkiraan efek yang disesuaikan yang sama
seperti yang diperoleh saat mengendalikan semua Cs. Sebagai ilustrasi, misalkan p = 5;
yaitu, kami mempertimbangkan untuk mengontrol C1, C2, ..., Cs menggunakan model (11.8).
Anggap juga bahwa perkiraan 1 mengambil nilai-nilai berikut tergantung pada himpunan C1,
C2, ..., C; dikendalikan.
Kemudian, karena 16.0 jauh berbeda dari 4.0, seseorang dapat berpendapat bahwa
perancu hadir. Namun sejak 4.0 tidak berbeda dari 4.3, dapat juga dikatakan bahwa C3, C4,
dan CS tidak perlu dikontrol, karena pada dasarnya estimasi (disesuaikan) yang sama
diperoleh saat hanya mengendalikan untuk semua C. Dengan demikian, untuk contoh ini,
kami telah mengidentifikasi dua set C; variabel yang dapat kita gunakan untuk kontrol. Set
mana yang kita pilih? Jawabannya tergantung pada evaluasi presisi. Salah satu pendekatan
adalah untuk membandingkan perkiraan interval untuk beberapa parameter bunga, satu
interval yang berasal dari model yang hanya mengontrol C1 dan C2, dan interval lainnya dari
model yang mengontrol C, melalui CS. Parameter logis untuk contoh ini adalah koefisien
regresi populasi, B1, dari variabel T ketika mengendalikan kumpulan CS tertentu. Artinya,
kami dapat membandingkan estimasi interval untuk B1 ketika hanya C dan C2 yang
dikendalikan dengan estimasi interval yang sesuai untuk B1 ketika C melalui CS
dikendalikan. Interval keduanya yang lebih sempit kemudian interval yang mencerminkan
yang paling presisi. Misalnya, jika estimasi interval 95% adalah (2,6, 7,4) untuk BIC ,, C, dan
(1,7, 7,6) untuk BIC, C.C, maka interval sebelumnya lebih sempit; Dalam hal ini, beberapa
presisi diperoleh dengan menjatuhkan C3, C4, dan C5 dari model.
4 Masalah lain menyangkut bagaimana menilai perancu ketika ada dua atau lebih variabel penelitian,
katakanlah, t, dan t2, yang menarik. Untuk situasi umum ini, perancu dapat didefinisikan untuk hadir jika (11,9)
puas dengan koefisien variabel studi yang menarik, mengingat model yang berisi semua variabel penelitian dan
semua variabel kontrol. Sayangnya, definisi ini memiliki kelemahan praktis dari membutuhkan beberapa
keputusan subjektif, satu untuk setiap variabel studi yang menarik. (Sebuah pendekatan alternatif, tetapi tidak persis sama,
untuk mengevaluasi presisi adalah dengan melakukan uji statistik untuk signifikansi penambahan C3, C4, dan Cs ke model yang
mengandung T, C1, dan C2. Hipotesis nol untuk pengujian ini mungkin dinyatakan sebagai Ho: B4 = Bs = B6 = 0 dalam model (11.8)
dengan p 5. Jika pengujian ini tidak signifikan, maka dapat dikatakan bahwa mempertahankan C3, C4, dan Cs tidak memberikan presisi
tambahan (yaitu, penjelasan varians). Ini akan menunjukkan bahwa hanya C, dan C2 yang harus dikontrol untuk presisi yang lebih besar.
Karena pendekatan pengujian ini tidak akan selalu mengarah pada kesimpulan yang sama dengan pendekatan interval estimasi, penyelidik
mungkin perlu memilih di antara mereka. Namun, dalam kebanyakan situasi, kedua pendekatan biasanya akan menghasilkan hasil yang
serupa.)
[21.50, 4/11/2021] Nuris: (Sebuah pendekatan alternatif, tetapi tidak persis

sama, untuk mengevaluasi presisi adalah dengan melakukan uji statistik untuk
signifikansi penambahan C3, C4, dan Cs ke model yang mengandung T, C1,
dan C2. Hipotesis nol untuk pengujian ini mungkin dinyatakan sebagai Ho: B4
= Bs = B6 = 0 dalam model (11.8) dengan p 5. Jika pengujian ini tidak
signifikan, maka dapat dikatakan bahwa mempertahankan C3, C4, dan Cs tidak
memberikan presisi tambahan (yaitu, penjelasan varians). Ini akan
menunjukkan bahwa hanya C, dan C2 yang harus dikontrol untuk presisi yang
lebih besar. Karena pendekatan pengujian ini tidak akan selalu mengarah pada
kesimpulan yang sama dengan pendekatan interval estimasi, penyelidik
mungkin perlu memilih di antara mereka. Namun, dalam kebanyakan situasi,
kedua pendekatan biasanya akan menghasilkan hasil yang serupa.)
[21.51, 4/11/2021] Nuris: Sekarang kita akan menjawab pertanyaan tentang
mengidentifikasi set mana yang akan dikontrol. Kita telah melihat, sebagai
contoh, bahwa pertama-tama kita harus mengidentifikasi perkiraan yang
disesuaikan dengan garis dasar (yaitu, "standar emas") yang dapat kita gunakan
untuk membuat perbandingan. Standar emas yang ideal adalah perkiraan
koefisien regresi yang mengontrol semua C{ Kemudian, setiap subset dari C
yang pada dasarnya memberikan estimasi penyesuaian yang sama (yaitu,
estimasi yang tidak berbeda secara bermakna dari standar emas ketika hanya C}
dalam subset yang dikontrol) adalah kandidat set untuk kontrol. Bahkan dapat
dibayangkan bahwa beberapa kandidat seperti itu mungkin (Kleinbaum,
Kupper, dan Morgenstern, 1982, bab 14) Himpunan mana yang akhirnya
digunakan? Jawabannya, sekali lagi, didasarkan pada presisi: Gunakan
himpunan yang memberikan presisi paling (misalnya, interval kepercayaan
yang paling ketat untuk efek yang disesuaikan yang diteliti) (Untuk alasan
"politik", yaitu untuk meyakinkan orang bahwa semua variabel telah
dikendalikan, mungkin lebih baik untuk mengontrol C1, C2,..., Cp kecuali
beberapa subset dari C/ mengarah ke peningkatan yang besar dalam presisi.)
Sebagai ilustrasi, misalkan himpunan kandidat pada Tabel 11-1 dapat
diidentifikasi ketika p = 5 dalam model (11.8). Ketiga himpunan bagian yang
tepat dari C, C2, C3, C4, dan Cs dapat dianggap sebagai kandidat untuk kontrol
karena semuanya memberikan perkiraan yang disesuaikan kira-kira sama
dengan standar emas Bic,,C.C; = 4.0. Dari kandidat-kandidat ini, subset yang
melibatkan C1, C2, dan C4 memberikan presisi terbaik (interval kepercayaan
tersempit); oleh karena itu subset ini dapat digunakan baik untuk mengontrol
perancu dan untuk meningkatkan presisi.
11-4-3 An Example Revisited

Dalam Bagian 11-3-3 kami mempertimbangkan studi hipotetis untuk menilai hubungan
antara tingkat aktivitas fisik (PAL) dan tekanan darah sistolik (SBP) sambil mengontrol AGE
dan SEX. Sebuah model yang memungkinkan kemungkinan interaksi AGE dan SEX dengan
PAL dipertimbangkan, dan metode pengujian untuk interaksi tersebut dijelaskan. Dengan
asumsi tidak
Mengingat model tanpa interaksi ini, langkah selanjutnya adalah menilai perancu; yaitu,
apakah koefisien PAL berubah ketika AGE dan/atau SEX dikeluarkan dari model? Untuk
menjawab ini, kita dapat menguji estimasi koefisien PAL dalam empat model, yaitu, satu
termasuk AGE dan SEX, satu melibatkan AGE atau SEX tetapi tidak keduanya, dan satu
tidak melibatkan keduanya. Model standar emas untuk perbandingan adalah model
(diberikan di atas) yang berisi variabel kontrol dan PAL. Kemudian, misalnya, jika estimasi
B1 berubah secara signifikan ketika setidaknya satu variabel kontrol dikeluarkan dari model
standar emas ini, kita perlu mengontrol AGE dan SEX. Namun, jika pada dasarnya kita
memperoleh perkiraan B1 yang sama (seperti yang diperoleh dengan menggunakan model
standar emas) ketika hanya AGE dalam model, maka kita tidak perlu mempertahankan SEX
dalam model untuk mengontrol perancu. Namun, dimasukkannya variabel jenis kelamin
selain AGE dapat meningkatkan atau menurunkan presisi. Dengan demikian, keputusan
apakah akan mengontrol hanya AGE atau untuk AGE dan SEX akan bergantung, misalnya,
pada perbandingan interval kepercayaan untuk B1. Jika interval kepercayaan jauh lebih
sempit ketika hanya AGE yang dikontrol, maka kami tidak akan mempertahankan SEX
dalam model. Akhirnya, setelah keputusan dibuat tentang variabel mana yang akan dikontrol
(yaitu, model terbaik untuk memberikan estimasi koefisien PAL yang valid dan tepat), kami
kemudian membuat kesimpulan statistik tentang hubungan PAL-SBP yang sebenarnya.
Mengingat model tanpa interaksi, ini melibatkan pengujian Ho: B1 = 0 dalam model terbaik
dan kemudian memperoleh estimasi interval B1.
11-5 Summary and Conclusion

Pembaur dan interaksi adalah dua konsep metodologis yang berkaitan dengan penilaian
hubungan antara variabel independen dan dependen. Interaksi, yang lebih diutamakan
daripada pengganggu, ada ketika hubungan kepentingan berbeda pada tingkat variabel asing
(kontrol) yang berbeda. Dalam regresi linier, interaksi dievaluasi menggunakan uji statistik
tentang istilah produk yang melibatkan variabel independen dasar dalam model. Pembaur,
yang tidak dievaluasi dengan pengujian statistik, hadir ketika pengaruh kepentingan berbeda
tergantung pada apakah variabel asing diabaikan atau dipertahankan dalam analisis. Dalam
istilah regresi, perancu dinilai dengan membandingkan koefisien regresi kasar versus
disesuaikan dari model yang berbeda. Ketika beberapa pembaur potensial sedang
dipertimbangkan, mungkin bermanfaat untuk mengidentifikasi pembaur yang dapat
dikeluarkan dari model untuk mendapatkan presisi; ini mungkin tidak mungkin (yaitu,
presisi mungkin hilang dengan menjatuhkan variabel) dalam beberapa situasi. Ketika ada
interaksi kuat yang melibatkan variabel asing tertentu, penilaian perancu untuk variabel asing
itu tidak relevan. Selain itu, dalam situasi seperti penilaian perancu yang melibatkan variabel
asing lainnya, meskipun mungkin, cukup kompleks dan sangat subjektif. Akibatnya,
penilaian perancu biasanya tidak direkomendasikan ketika efek interaksi penting telah
diidentifikasi.

KELOMPOK 7-Confounding and Interaction in Regression

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

KELOMPOK 7-Confounding and Interaction in Regression

Diunggah oleh

Hak Cipta:

Format Tersedia

CONFOUNDING AND INTERACTION IN REGRESSION

Untuk memenuhi nilai tugas pada Mata Kuliah Biostatistik Lanjut

11.3. Interaksi dalam Regresi

11.3.1. Sebuah contoh

Penting untuk menunjukkan bahwa kita tidak mengatakan bahwa Y dan C

Di sini, perubahan rata-rata Y untuk perubahan 1 unit di T sama dengan 1,

11-3-2 Interaction Modeling in General

11-3-3 A Second Example

11-4 Confounding in regression

11-4-1 Controlling for one Extraneous Variable

Asumsi tidak ada interaksi T x C menghalangi kebutuhan untuk mempertimbangkan istilah

Sebelum beralih ke kriteria pengganggu yang melibatkan beberapa kovariat, kami

11-4-2 Controlling for several Extraneous Variables

di mana Bic,,C,.c, menunjukkan estimasi (disesuaikan) dari 1 menggunakan (11.8) dan B1

[21.50, 4/11/2021] Nuris: (Sebuah pendekatan alternatif, tetapi tidak persis

11-4-3 An Example Revisited

11-5 Summary and Conclusion

Anda mungkin juga menyukai