Perancu Dan Interaksi Dalam Regresi

Perancu dan Interaksi dalam Regresi
Pratinjau 11-1
Dua tujuan yang berbeda dari analisis regresi adalah (1) untuk memprediksi variabel dependen
menggunakan seperangkat variabel independen dan (2) untuk mengukur hubungan satu atau lebih
variabel independen dengan variabel dependen. Tujuan ini berbeda karena yang pertama berfokus
pada menemukan model yang sesuai dengan data yang diamati dan memprediksi data masa depan
sebaik mungkin, sedangkan yang kedua berkaitan dengan menghasilkan perkiraan yang akurat dari
satu atau lebih koefisien regresi dalam model. Tujuan kedua, apalagi, adalah1 kepentingan khusus
ketika pertanyaan penelitian menyangkut etiologi penyakit, seperti mencoba untuk mengidentifikasi
satu atau lebih penentu penyakit atau hasil lain yang berhubungan dengan kesehatan.
Pembaur dan interaksi adalah dua konsep metodologis yang relevan untuk mencapai gol kedua.
Dalam bab ini, kami menjelaskan konsep-konsep ini menggunakan terminologi regresi. Diskusi yang
lebih umum dari subjek ini dapat ditemukan di tempat lain (misalnya, Kleinbaum, Kupper, dan
Morgenstern, 1982) dalam konteks penelitian epidemiologi epidemi, yang biasanya menjawab
pertanyaan etiologi yang melibatkan tujuan kedua di atas. Kita mulai di sini dengan gambaran umum
dari konsep-konsep ini, setelah itu kita membahas rumusan regresi dari setiap konsep secara
terpisah. Dalam Bab 15 kami akan menjelaskan prosedur regresi populer, analisis kovarians
(ANACOVA), yang dapat digunakan untuk menyesuaikan atau mengoreksi masalah kerancuan.
Selanjutnya, dalam Bab 16, kami akan menjelaskan secara singkat strategi untuk mendapatkan
model regresi "terbaik" yang menggabungkan penilaian perancu dan interaksi.
Ringkasan
Perancu dan interaksi, meskipun konsep yang berbeda, keduanya melibatkan penilaian hubungan
antara dua atau lebih variabel sehingga variabel tambahan yang dapat mempengaruhi hubungan ini
diperhitungkan. Ukuran asosiasi yang dipilih biasanya tergantung pada karakteristik variabel yang
menarik. Misalnya, jika kedua variabel kontinu, seperti dalam konteks regresi klasik, ukuran asosiasi
biasanya adalah koefisien regresi. Variabel tambahan yang harus dipertimbangkan adalah sinonim
yang biasanya disebut sebagai variabel asing, variabel kontrol, atau kovariat. Pertanyaan penting
mengenai variabel-variabel ini adalah apakah dan bagaimana mereka harus dimasukkan ke dalam
model yang dengannya asosiasi kepentingan dapat diperkirakan.
Dalam istilah yang lebih praktis, misalkan kita mempertimbangkan sebuah penelitian untuk menilai
apakah tingkat aktivitas fisik (PAL) dikaitkan dengan tekanan darah sistolik (SBP), akuntansi (yaitu,
mengendalikan) untuk AGE. Variabel asing di sini adalah AGE. Kami perlu menentukan apakah kami
dapat mengabaikan AGE dalam analisis kami dan masih menilai hubungan PAL-SBP dengan benar.
Secara khusus, kita perlu menjawab dua pertanyaan berikut: (1) Apakah perkiraan hubungan antara
PAL dan SBP berbeda secara bermakna tergantung pada apakah kita mengabaikan AGE? (2) Apakah
perkiraan hubungan antara PAL dan SBP berbeda secara bermakna untuk nilai AGE yang berbeda?
Pertanyaan pertama berkaitan dengan perancu, pertanyaan kedua dengan interaksi.
Secara umum, perancu ada jika interpretasi yang berbeda secara bermakna dari hubungan
kepentingan hasil ketika variabel asing diabaikan atau dimasukkan dalam analisis data. Dalam
prakteknya, penilaian perancu memerlukan perbandingan antara perkiraan kasar dari sebuah
asosiasi (yang mengabaikan variabel asing yang menarik) dan perkiraan yang disesuaikan dari
asosiasi (yang menjelaskan dalam beberapa cara untuk variabel asing). Jika waktu mentah dan
perkiraan waktu yang disesuaikan berbeda secara bermakna, maka kami mengatakan bahwa
pengganggu hadir dan satu atau lebih variabel asing harus dimasukkan dalam analisis data kami.
Perhatikan bahwa definisi ini tidak memerlukan uji statistik melainkan perbandingan perkiraan yang
diperoleh dari data (lihat Kleinbaum, Kupper, dan Morgenstern, 1982, bab 13, untuk diskusi lebih
lanjut tentang poin ini).
Misalnya, dengan menggunakan ilustrasi di atas, perkiraan kasar dari hubungan antara PAL dan SBP
(mengabaikan AGE) diberikan oleh koefisien regresi, katakanlah 1 , dari variabel PAL dalam model
garis lurus yang memprediksi SBP menggunakan juse PAL. Sebaliknya, estimasi yang disesuaikan
diberikan oleh koefisien regresi, t, dari variabel yang sama, PAL, dalam model regresi berganda yang
memprediksi SBP menggunakan PAL dan AGE. Secara khusus, jika PAL didefinisikan secara dikotomis
(misalnya, PAL = 1 atau O untuk aktivitas fisik tinggi atau rendah), maka perkiraan kasar hanyalah
perbedaan kasar antara tekanan darah sistolik rata-rata di setiap kelompok aktivitas fisik, dan
perkiraan yang disesuaikan mewakili perbedaan yang disesuaikan dalam dua tekanan darah sistolik
rata-rata yang mengontrol AGE ini. Secara umum, pengganggu hadir jika ada perbedaan yang berarti
antara uji perkiraan mentah dan disesuaikan.
Interaksi adalah kondisi di mana hubungan kepentingan berbeda pada tingkat yang berbeda (yaitu,
nilai) dari variabel asing (s) . Berbeda dengan perancu, penilaian interaksi tidak mempertimbangkan
baik perkiraan kasar atau perkiraan (keseluruhan) disesuaikan, melainkan berfokus pada
menggambarkan hubungan kepentingan pada nilai yang berbeda dari variabel asing. Misalnya,
dalam menilai interaksi karena AGE dalam menggambarkan hubungan PAL-SBP, masalahnya adalah
apakah beberapa deskripsi (yaitu, perkiraan) dari hubungan ini bervariasi dengan nilai AGE yang
berbeda (misalnya, apakah hubungan itu kuat pada usia yang lebih tua dan lemah pada usia yang
lebih muda). Jika hubungan PAL-SBP memang berbeda dengan AGE, maka kita katakan bahwa ada
interaksi PAL dengan AGE x (dibaca "oleh"). Untuk menilai interaksi, uji statistik dapat digunakan di
samping evaluasi subjektif dari kebermaknaan (misalnya, kepentingan klinis) dari efek interaksi yang
diperkirakan. Sekali lagi, untuk diskusi lebih lanjut, lihat Klein baum, Kup per, dan Morgenstern
(1982).
Ketika perancu dan interaksi dipertimbangkan untuk kumpulan data yang sama, penggunaan
perkiraan keseluruhan (disesuaikan) sebagai indeks ringkasan dari kapal hubungan yang diminati
akan cenderung menutupi setiap efek interaksi (kuat } yang mungkin ada. , jika asosiasi PAL-SBP
berbeda secara bermakna pada nilai t yang berbeda dari AGE, penggunaan perkiraan keseluruhan
tunggal, seperti koefisien regresi PAL dalam model regresi berganda yang mengandung AGE dan PAL,
akan menyembunyikan temuan interaksi ini. mengilustrasikan prinsip penting berikut: Interaksi
harus dinilai sebelum pengganggu; penggunaan ringkasan. (disesuaikan ) memperkirakan bahwa
kontrol untuk perancu direkomendasikan hanya jika tidak ada interaksi yang bermakna (Kle inbau m,
Kuppe r, dan Morgenstern, 1982, bab 13).
Dengan demikian, secara umum, kebingungan dan interaksi adalah fenomena yang berbeda. Sebuah
variabel dapat memanifestasikan perancu dan interaksi, keduanya, atau hanya salah satu dari
keduanya. Namun demikian, jika interaksi yang kuat ditemukan, penyesuaian untuk pengganggu
tidak tepat.
Kami sekarang siap untuk membahas bagaimana konsep-konsep ini dapat digunakan menggunakan
terminologi regresi, dengan asumsi model linier dan variabel dependen kontinu. Sebuah analog
regresi untuk variabel hasil dikotomis dapat, misalnya, melibatkan logistik daripada model linier.
Pemodelan logistik dibahas secara singkat di Bab 21; diskusi yang lebih rinci di mana perancu dan
interaksi dianggap dapat ditemukan di Klein ba um, Kupper, dan Morgenstern (1982, bab 20-24).
Interaksi dalam Regresi
Pada bagian ini, kami akan menjelaskan bagaimana dua variabel independen dapat berinteraksi
untuk mempengaruhi variabel dependen dan bagaimana interaksi tersebut dapat diwakili oleh
model regresi yang sesuai.
Contoh
Untuk mengilustrasikan konsep interaksi, kita akan memperhatikan contoh sederhana berikut.
Misalkan menarik untuk menentukan bagaimana dua variabel independen, suhu (T ) dan konsentrasi
katalis (C), secara bersama-sama mempengaruhi laju pertumbuhan (Y) organisme dalam suatu
sistem biologis tertentu. Selanjutnya, anggaplah bahwa dua tingkat suhu tertentu (Untuk d T 1) dan
dua tingkat tertentu dari konsentrasi katalis (Co dan Ct) akan diperiksa, dan bahwa percobaan
dilakukan di mana pengamatan pada Y diperoleh untuk masing-masing dari empat kombinasi tingkat
konsentrasi katalis suhu, (T o, Co), (To, C i ), (T , , Co), dan (T 1 , C1 ) .
(Dalam bahasa statistik, percobaan ini disebut percobaan faktorial lengkap, karena pengamatan
pada Y diperoleh untuk semua kombinasi pengaturan untuk variabel bebas (atau faktor).
Keuntungan dari percobaan fakta adalah bahwa setiap interaksi yang ada mempengaruhi dapat
dideteksi dan diukur secara efisien.)•
Sekarang, mari kita perhatikan dua grafik berdasarkan dua himpunan dat hipotetis untuk skema
eksperimen yang dijelaskan di atas. Gambar 11-la menunjukkan bahwa laju perubahan laju
pertumbuhan sebagai fungsi suhu adalah sama terlepas dari tingkat konsentrasi katalis; di lain ;
dengan kata lain, hubungan antara Y dan T sama sekali tidak bergantung pada C.
(Bagi pembaca yang akrab dengan kalkulus, frasa "laju perubahan" terkait dengan gagasan turunan
suatu fungsi. Secara khusus, Gambar 11-1a menggambarkan situasi di mana turunan parsial
terhadap T dari fungsi respon yang menghubungkan mean dari Y ke T dan C tidak tergantung pada
C.)
Penting untuk menunjukkan bahwa kita tidak mengatakan bahwa Y dan C tidak berhubungan, tetapi
hubungan antara Y dan T tidak bervariasi sebagai fungsi dari C. Jika demikian halnya, kita katakan
bahwa T dan C tidak berinteraksi atau, setara, bahwa tidak ada efek interaksi T x C. Secara praktis, ini
berarti bahwa kita dapat menyelidiki efek T dan C o n Y secara independen satu sama lain dan bahwa
kita dapat secara sah berbicara tentang efek terpisah (kadang-kadang disebut efek utama) dari T dan
Con Y. •
Salah satu cara untuk mengukur hubungan yang digambarkan pada Gambar 11-la adalah dengan
model regresi bentuk
(11. 1)
Di sini, perubahan mean Y untuk perubahan 1 unit di Tis sama dengan /31 , terlepas dari tingkat C.
Sebenarnya, mengubah tingkat C di (11 .1) hanya memiliki efek pergeseran garis lurus yang
menghubungkan /J-YIT,c dan T baik ke atas maupun ke bawah tanpa mempengaruhi nilai kemiringan
{31 , ;terlihat pada Gambar 11-1a. Khususnya, /J-YJT ,Co = (/3o + f32Co) + /31 Tand JLY\T,c , = ( /3o
+ /32C1) + /31T .
Secara umum, kemudian, dapat dikatakan bahwa tidak ada interaksi yang identik dengan
paralelisme dalam arti bahwa kurva respons Y versus T untuk nilai-nilai tetap C adalah paralel;
dengan kata lain, kurva respons ini (yang mungkin linier atau, nonlinier) semuanya memiliki bentuk
umum yang sama, hanya berbeda satu sama lain oleh konstanta aditif yang tidak bergantung pada T
(misalnya, lihat Gambar 11-2).
Sebaliknya, Gambar 11-16 menggambarkan situasi di mana hubungan antara Y dan T bergantung
pada C; khususnya, Y tampaknya meningkat dengan meningkatnya T ketika C = C0 tetapi menurun
dengan meningkatnya T ketika C = C1 • Dengan kata lain, perilaku Y sebagai fungsi suhu tidak dapat
dianggap terlepas dari konsentrasi katalis. Ketika ini adalah kasus, kita katakan bahwa T dan C
berinteraksi atau, secara ekuivalen, th ada efek interaksi T X C. Secara praktis, ini berarti bahwa
sangat tidak masuk akal untuk membicarakan efek terpisah (atau utama ) dari T dan C pada Y, karena
T dan C tidak beroperasi secara independen satu sama lain dalam efeknya pada Y.
(a) Tidak ada interaksi versus (b) interaksi
11-3 Interaksi dalam Regresi
Gambar -2 Ilustrasi tanpa interaksi
Salah satu cara untuk mewakili efek interaksi seperti itu secara matematis adalah dengan
mempertimbangkan model regresi dari bentuk
MYIT,c = /3o + /31T + /31C + /312TC (11.2)
Di sini perubahan nilai rata-rata Y untuk perubahan 1 unit di Tis sama dengan /31 + /312 C, yang jelas
tergantung pada tingkat C. Dengan kata lain, memperkenalkan istilah produk seperti {312TC dalam
model regresi dari tipe (11,2 } adalah salah satu cara untuk menjelaskan fakta bahwa dua faktor
seperti T dan C tidak beroperasi secara independen satu sama lain.Untuk contoh khusus kami, ketika
C = C0, model (11 .2) dapat ditulis sebagai
MYIT,c = (/3o + /32.Co} + (/31 + /312Co)T
dan ketika C = C1 , model (11. 2} menjadi
MYIT,c = (/3o + /32Ci) + (/31 + /312C1)T
Secara khusus, Gambar 11-1b menunjukkan bahwa efek interaksi /312 adalah negatif, dengan efek
linier (/31 + f312 Co) dari Tat C0 menjadi positif dan efek linier ( /31 + f312 C 1 ) dari Tat C1 menjadi
negatif. Efek interaksi negatif diharapkan di sini, karena Gambar 11-1b menunjukkan bahwa
kemiringan hubungan linier antara Y dan T berkurang (yaitu, berubah dari tanda positif ke negatif)
ketika C berubah dari Co ke C1. Tentu saja, mungkin /312 menjadi positif, dalam hal ini efek interaksi
akan terwujud sebagai nilai positif yang lebih besar untuk kemiringan ketika C = C1 daripada ketika C
= Co.
Pemodelan Interaksi Secara Umum
Seperti ilustrasi sebelumnya menunjukkan, interaksi antara variabel independen umumnya dapat
dijelaskan dalam model regresi yang melibatkan istilah produk. Sayangnya, tidak ada aturan pasti
untuk menentukan istilah tersebut. Misalnya, jika interaksi yang melibatkan tiga variabel X1, X2 , dan
X3 menarik, satu model yang perlu dipertimbangkan adalah:
Y = /3o + /31X 1 + /32X2 + /32X3 + /34X1X2 + /3s X1 X3 + /36X2X3 + /37X1X2X3 + E (1 1 .3)
Pembaur dan Perlawanan Era dalam Regresi Ch. saya saya
Dalam model ini, produk dua faktor berbentuk X;Xi sering disebut sebagai interaksi orde pertama,
sedangkan produk tiga faktor seperti X1 X 2 X.1 disebut interaksi orde kedua. s, dan seterusnya
untuk produk tingkat tinggi. Semakin tinggi orde interaksi, semakin sulit untuk menafsirkan
maknanya.
Model (11. 3 ) bukanlah model yang paling umum jika mempertimbangkan ketiga variabel X 1, X2 ,
dan X3• Penambahan suku produk seperti X,X f , X; X,1,X! X,2, dan seterusnya juga dapat
dimasukkan. Namun demikian, ada batasan pada jumlah total istilah tersebut: Model tidak dapat
berisi lebih dari n - 1 variabel independen ketika n adalah jumlah total pengamatan dalam data.
Selain itu, bahkan mungkin tidak mungkin untuk menyesuaikan dengan andal model dengan lebih
sedikit dari n n - 1 variabel jika saya dari variabel (misalnya, produk tingkat tinggi) sangat
berkorelasi dengan variabel lain dalam model, seperti yang akan terjadi ketika model berisi beberapa
istilah interaksi. Masalah ini, yang disebut collinearity , dibahas dalam Bab 12.
Model (11 .3) mungkin, di sisi lain, dianggap terlalu umum jika seseorang berfokus pada 1 interaksi
tertentu yang menarik. Sebagai contoh, jika tujuan dari studi seseorang adalah untuk
menggambarkan hubungan antara X1 dan Y yang mengendalikan kemungkinan efek pembauran
dan/atau interaksi dari X2 dan X3 , model yang lebih sederhana berikut ini mungkin lebih istirahat
lebih dari (11,3 ):
(11 .4)
Istilah X1 X2 dan X1 X3 menggambarkan interaksi dari X2 dan X3 , berturut-turut, dengan X1•

Sebaliknya, istilah X2 X3 , yang tidak terdapat dalam model (11,4), tidak berkaitan melibatkan X1•
Dalam menggunakan uji statistik untuk mengevaluasi interaksi untuk model regresi tertentu,
tersedia sejumlah opsi. (Diskusi yang lebih rinci tentang bagaimana memilih variabel diberikan dalam
Bab 16.) Salah satu pendekatan adalah untuk menguji secara global adanya jenis interaksi dan
kemudian, jika interaksi yang signifikan ditemukan, untuk mengidentifikasi interaksi tertentu. ms
penting
dengan menggunakan tes lain. Sebagai contoh , dalam mempertimbangkan model (1 1. 3 ), pertama-
tama kita dapat menguji H o: {34 = {35 = /36 = /37 = 0 dengan menggunakan statistik F berganda-
parsial
yang memiliki distribusi F4,n - 8 jika Ho benar. Jika F sta t ini adalah tic ditemukan t signifikan. istilah
interaksi yang penting secara individu dapat diidentifikasi dengan menggunakan F te sc parsial yang
dipilih.
Cara kedua untuk menilai interaksi adalah dengan menguji interaksi dalam urutan hierarkis. dimulai
dengan suku orde t tinggi dan kemudian dilanjutkan secara berurutan ke suku orde lebih rendah jika
suku orde tinggi tidak signifikan. Menggunakan model (1 1.3 ), misalnya, seseorang mungkin
uji pertama Ho: {37 = 0, yang mempertimbangkan interaksi orde kedua, dan kemudian uji Ho: {34 =
{35 = {36 = 0 dalam model tereduksi (tidak termasuk suku produk tiga arah X1X2 X3) jika tes yang
pertama tidak signifikan.
Contoh Kedua
Kami sekarang mempertimbangkan penelitian untuk menilai tingkat aktivitas fisik (PAL) sebagai
prediktor tekanan darah sistolik (SBP), yang mengontrol AGE dan SEX. Sebuah model yang
memungkinkan kemungkinan interaksi AGE dengan PAL dan SEX dengan PAL diberikan oleh
SBP = /3o + /31(PAL) + /32{AGE) + J33(SEX) + J34(PAL x AGE) + /3s (PAL x SEX) + E
Perhatikan tidak adanya istilah yang melibatkan AGE x SEX; istilah tersebut tidak menunjukkan
interaksi yang terkait dengan variabel studi minat (PAL).
Untuk menilai interaksi untuk model ini, pertama-tama seseorang mungkin melakukan uji F parsial
ganda dari Ho: /34 = /3s = O; jika uji signifikan, maka uji F parsial dapat dilakukan untuk menentukan
apakah satu atau lebih istilah produk ini harus disimpan dalam model l. jika
pengujian pertama tidak signifikan, selanjutnya akan menguji model lengkap dengan menghapus
kedua suku produk ditemukan secara keseluruhan, memberikan model tereduksi SBP = {30 + {31
(PAL) + f32 (AGE) + /33(SEX) + E. Pada titik ini fase interaksi pembangunan model akan selesai.
Langkah selanjutnya akan melibatkan penilaian kebingungan, yang akan kita bahas di bagian
berikutnya.
Perancu dalam Regresi
Kami sebelumnya (Bagian 11-1) bahwa perancu dipertanyakan dengan adanya interaksi. Jadi, dalam
diskusi kita tentang perancu di sini, kita akan berasumsi bahwa tidak ada interaksi
Kontrol untuk Satu Variabel Asing
Mari kita menganggap bahwa kita tertarik untuk menggambarkan hubungan antara variabel
independen T dan variabel dependen kontinu Y, dengan mempertimbangkan kemungkinan efek
pengganggu dari variabel ketiga C. Seperti yang dijelaskan di bagian sebelumnya, hal tersebut
membutuhkan perbandingan kasar dari hubungan TY, yang mempengaruhi pengaruh variabel
kontrol (C), dengan perkiraan hubungan yang direncanakan (atau mengontrol) untuk variabel ini.
Perbandingan ini dapat dinyatakan dalam dua model regresi berikut:
Y = /3o + /31T + /32C + E (11,5)
dan
Y = /3o + /31T + £ ( 11.6 )
Asumsi interaksi tidak x C menghalangi kebutuhan untuk mempertimbangkan suku hasil dari bentuk
TC dalam model ini.
Dari model (11.5), hubungan antara T dan Y yang disesuaikan untuk variabel C dapat dinyatakan
dalam koefisien regresi (parsial) (/31) dari variabel T. Estimasi dari /31, yang akan kita nyatakan
dengan ,B11c , yang diperoleh dari pemasangan kuadrat-terkecil model (11,5), adalah ukuran efek
yang disesuaikan dalam arti memberikan perkiraan perubahan Y per unit perubahan dalam T setelah
memperhitungkan C (yaitu, dengan C dalam model). Estimasi kasar dari hubungan T-Y adalah
estimasi koefisien T (yaitu, /Ji) berdasarkan model (1 1.6), model yang tidak melibatkan variabel C.
1 Namun, dimungkinkan untuk menilai perancu untuk variabel yang bukan merupakan komponen
dari istilah interaksi. Misalnya, jika kita mempertimbangkan model Y = {30 + {31 X1 + f32 X2 + /33 X3
+ /34 X 1 X 3 + E, di mana X1 adalah variabel studi yang diminati, orang mungkin ingin
mempertimbangkan apakah X2 adalah perancu, karena bukan merupakan komponen dari X1 X3 ,
satu-satunya istilah interaksi dalam model. Untuk contoh yang lebih realistis, lihat Kleinbaum,
Kupper, dan Morgenstern (1982, bab 23).
Dengan demikian, kita memiliki aturan umum berikut untuk menilai adanya perancu ketika hanya
satu variabel independen yang akan dikontrol: Pengganggu hadir [;jika estimasi koefisien (/3i) dari
variabel studi T berubah secara bermakna w'/Jen variabel C dikeluarkan dari model (11,5), yaitu jika
f1i1 c =I= fi, ( 11.7 )
dimana ,B1 c menunjukkan (menyesuaikan d) perkiraan waktu /31 menggunakan g mod el (11,5) dan
,81 d e mencatat (mentah) perkiraan harga f31. menggunakan model (11. 6).
Tanda ≠ dalam ekspresi (11.7) menunjukkan bahwa keputusan subjektif diperlukan apakah kedua
estimasi tersebut berbeda secara bermakna; yaitu, seseorang perlu menentukan subjek apakah
kedua perkiraan masing-masing menggambarkan interpretasi yang berbeda dari mereka' - Y
asosiasi/hubungan yang dimaksud. Uji statistik juga tidak diperlukan dan tidak sesuai (Kleinbaum,
Kupper, dan Morgenstern, 1982, bab 13).
Sebagai contoh, memperkirakan Y menunjukkan SBP, T menunjukkan PAL, dan C menunjukkan AGE.
Untuk beberapa kumpulan data, misalkan ditemukan bahwa •
f1iI USIA = 4,1 dan fi1 = 15,9
Kemudian, dapat disimpulkan bahwa perubahan 1 unit pada PAL menghasilkan perubahan 16 unit
pada SBP ketika AGE diabaikan, sedangkan ketika AGE dikontrol, perubahan 1 unit pada PAL hanya
menghasilkan perubahan 4,1 unit pada SBP. : yaitu, hubungan antara PAL dan SBP jauh lebih lemah
setelah mengendalikan AGE. (Sebagai kasus khusus, jika PAL adalah variabel 0-1, maka ,memberikan
perbedaan kasar perbedaan tekanan darah sistolik rata-rata antara dua kelompok PAL, dan J31IAGE
memberikan perbedaan [untuk AGE] yang disesuaikan dalam tekanan darah rata-rata.) Dengan
demikian, AGE akan diberi label pembaur dan harus dikontrol dalam analisis.
Sebagai contoh lain, anggaplah itu
fitl USIA = 6,2 dan fi1 = 6,1
Di sini , kami cenderung mengatakan bahwa AGE bukan pembaur karena tidak ada perbedaan yang
berarti antara perkiraan 6.2 dan 6.1. Sayangnya, penyidik mungkin harus berurusan dengan
perbandingan yang jauh lebih sulit, seperti j31I AGE = 4,1 versus /31 = 5,5. Ketika membandingkan
perkiraan tersebut secara numerik, kita juga harus mempertimbangkan kepentingan klinis
perbedaan numerik antara perkiraan berdasarkan (apriori) pengetahuan tentang variabel yang
terlibat. Misalnya, karena koefisien 4.1 dan 5.5 memperkirakan, masing-masing, perbedaan yang
disesuaikan dan kasar dalam tekanan darah rata-rata antara kelompok PAL tinggi dan rendah,
penting untuk memutuskan apakah perbedaan rata-rata 5,5 secara klinis lebih penting daripada
perbedaan rata-rata 4.1. Salah satu pendekatan untuk masalah ini adalah untuk mengontrol variabel
apapun (sebagai pembaur) yang mengubah perkiraan efek kasar dengan beberapa jumlah yang
ditentukan sebelumnya yang ditentukan oleh penilaian klinis.
(Salah satu pendekatan yang kadang-kadang digunakan untuk menilai perancu adalah, misalnya,
untuk melakukan uji statistik H0 : {32 = 0 dalam model (1 1. 5).Pengujian seperti itu tidak membahas
perancu, melainkan presisi; yaitu, tes tersebut mengevaluasi apakah variasi tambahan yang
signifikan dalam Y dijelaskan dengan menambahkan C ke model yang sudah mengandung T. Kecoa
aplikasi yang hampir setara adalah untuk menentukan apakah selang kepercayaan untuk /31 ,
koefisien T, jauh lebih sempit ketika C ada dalam model daripada ketika tidak. Presisi sering menjadi
masalah penting ketika mempertimbangkan faktor-faktor asing, tetapi ini adalah masalah yang
berbeda dari perancu. Bahkan, untuk pertanyaan etiologi, perancu, yang menyangkut validitas
(yaitu, apakah Anda memiliki hak jawaban?), biasanya lebih diutamakan daripada presisi. Alasan
lain untuk tidak fokus pada (32 adalah jika /32 -:/= 0, itu tidak berarti bahwa /311c -:/= /31 . Artinya,
/32 * 0 bukan kondisi yang cukup untuk perancu.)2
Sebelum beralih ke kriteria untuk pengganggu yang melibatkan beberapa kovariat, kami
mengomentari masalah praktis memutuskan jenis variabel (yaitu, kovariat) yang harus
dipertimbangkan untuk kontrol sebagai pembaur potensial. Meskipun jawabannya di sini sangat
dapat diperdebatkan, kami mengambil posisi bahwa daftar variabel yang memenuhi syarat harus
dibuat berdasarkan pengetahuan sebelumnya dan/atau penelitian tentang hubungan variabel terikat
untuk setiap kovariat yang sedang dipertimbangkan. n. Khususnya, kami merekomendasikan hanya
variabel yang diketahui sebagai prediktif yang masuk akal dari (yaitu, terkait dengan ) variabel
dependen harus dianggap sebagai confo under potensial dan/atau pengubah efek. Dalam istilah
epidemiologi, variabel tersebut umumnya disebut sebagai faktor risiko (Kleinbaum, Kupper, dan Mo
rgenstern, 1982). Idenya di sini adalah untuk membatasi perhatian pada kontrol hanya variabel-
variabel asing (yang telah dipelajari sebelumnya) yang dapat dijelaskan oleh tes-tes investigasi untuk
hipotesis hubungan antara T dan Y yang saat ini sedang dipelajari. Untuk mengembangkan daftar
seperti itu, penyelidikan ke RS akan membuat keputusan subjektif .
Mengontrol untuk Beberapa Variabel Asing
Misalkan kita ingin mendeskripsikan hubungan antara T dan Y, dengan memperhitungkan beberapa
kovariat Ci, C2, ••. , Cp, Analog dengan prosedur yang dijelaskan untuk satu kovariat, kita dapat
menilai perancu dengan membandingkan perkiraan kasar dari hubungan T-Y ip co jadi penyesuaian.
Seperti sebelumnya, perkiraan kasar dapat didefinisikan dalam model regresi seperti (11.6), yang
menggambarkan hubungan antara T dan Y abaikan ring semua kovariat. Namun, untuk mendapatkan
estimasi penyesuaian d, kita sekarang harus mempertimbangkan model yang diperluas yang
didefinisikan sebagai berikut:
(11.8 )
(Seperti model (11.5) , model (11.8) mengasumsikan tidak ada interaksi yang melibatkan T karena
tidak ada suku produk dari bentuk TC; yang disertakan.)
Dengan menggunakan model ini, kita dapat mendefinisikan penduga yang melibatkan beberapa
variabel sebagai berikut: Pendugaan ada jika pendugaan koefisien regresi ( /31 ) dari T dalam model
regresi seperti (11:6), yang mengabaikan variabel Ci , C 2 , ..• , Cp, sangat berbeda dari estimasi yang
sesuai dari /31 berdasarkan model seperti (11.8 ), yang merupakan kontrol untuk Ci , C2 , ••• , Cr,
yang adalah, jika
(11.9)
2 Misalkan n = 6 dan kita memiliki data berikut untuk (T , C, Y ): (1, 0, 4 ), (1, 1, 5), (1 , 2, 6 ),
(0, 0, 1), (0, 1, 2), dan (0, 2, 3). Kemudian pemasangan kuadrat terkecil tidak tertimbang memberikan
Y = 1 + 3T + C ketika T dan C adalah prediktor, sedangkan Y = 2 + 3T ketika C diabaikan. Jadi,{32 = 1
(:/:: 0), namun tidak ada perancu, karena /31 = 3 = S11c -
3 Sebagai peringatan untuk rekomendasi di atas, variabel-variabel tertentu yang biasanya disebut
sebagai variabel intervensi tidak boleh dianggap sebagai pembaur potensial (Kleinbaum, Kupper,
dan Morgen stern, 1982). VariabelC disebut intervensi antara T dan Y jika T menyebabkan C dan
kemudian C menyebabkan Y. Variabel intervening cont rolling mungkin secara tidak sengaja
mengurangi atau menghilangkan manifestasi apa pun dalam data dari asosiasi sejati antara T dan Y.
dimana /311c, , c , 2• •. ,cs, menunjukkan estimasi (disesuaikan) dari {31 menggunakan (11.8) dan
/31 adalah estimasi (mentah) dari {31 menggunakan (11. 6).
Satu masalah dengan menerapkan definisi di atas, bagaimanapun, adalah bahwa hal itu menjawab
pertanyaan apakah pengganggu hadir tanpa secara langsung mengidentifikasi variabel tertentu
untuk dikendalikan.4 Dengan kata lain, ketika pengganggu dianggap hadir berdasarkan (11.9 ), dia
mungkin masih terjadi bahwa hanya subset dari C1, C2, .•. , Cp diperlukan untuk kontrol yang
memadai. Bagaimana cara mengidentifikasi subset seperti itu? Lebih khusus lagi, mengapa repot-
repot mengidentifikasi subset seperti itu daripada sekadar mengontrol semua variabel Ci, C2, ... , Cp?
Jawaban untuk pertanyaan terakhir adalah obrolan, ketika membahas kontrol kovariat,
kemungkinan keuntungan dalam presisi harus dipertimbangkan di samping kontrol perancu. Dalam
pa rtikula r, subset dari C; variabel mungkin lebih disukai daripada seluruh himpunan karena subset
dapat memberikan kontrol pembaur yang setara (yaitu, dapat memberikan perkiraan penyesuaian
yang sama) sambil memberikan presisi yang lebih besar dalam memperkirakan asosiasi minat yang
disesuaikan. Namun, tidak ada jaminan bahwa presisi akan ditingkatkan dengan menggunakan
subset; pada kenyataannya, presisi dapat dikurangi. Bagaimanapun, perancu harus didahulukan
daripada presisi dalam arti bahwa tidak ada subset yang harus dipertimbangkan kecuali jika
memberikan perkiraan efek penyesuaian yang sama seperti yang diperoleh saat mengontrol semua
C/s.
Sebagai ilustrasi, misalkan p = 5; yaitu, kami mempertimbangkan untuk mengontrol C1, C2, ... , C5
menggunakan
model (11.8). Anggap juga bahwa estimasi {31 mengambil nilai-nilai berikut tergantung pada
himpunan Ci, C2, . . . , C 5 dikendalikan.
{A3It C 1, C2,,..,Cs = 4 • 0 , I = 16,0
Kemudian, karena 16.0 jauh berbeda dari 4.0, orang dapat berargumen bahwa pengganggu hadir.
Namun karena 4.0 tidak berarti berbeda secara signifikan dari 4.3, dapat juga dikatakan bahwa C3,
C4, dan C5 tidak perlu dikontrol, karena pada dasarnya estimasi yang sama (disesuaikan) diperoleh
ketika mengontrol hanya untuk C1 dan C2 seperti ketika menyesuaikan untuk semua C;'s.
Jadi, untuk contoh ini, kami telah mengidentifikasi dua set C; variabel yang bisa kita gunakan untuk
kontrol. Set mana yang kita pilih? Jawabannya tergantung pada evaluasi presisi. Salah satu
pendekatan adalah membandingkan estimasi interval untuk beberapa parameter yang diminati, satu
interval diturunkan dari model yang mengontrol C1 dan C2 saja, dan interval lainnya dari model yang
mengontrol C1 hingga Cs . Parameter logis untuk contoh ini adalah populasi koefisien regresi, {31 ,
dari variabel T ketika mengontrol set tertentu dari C/ . Artinya, kita dapat membandingkan estimasi
interval untuk {31 ketika hanya C1 dan C2 yang dikontrol dengan estimasi interval yang sesuai untuk
{31 ketika C1 hingga C5 dilanjutkan. Interval yang lebih sempit dari keduanya adalah interval yang
mencerminkan paling presisi. Misalnya, jika keduanya 95% estimasi interv l adalah (2.6, 7.4) untuk
f31Ic,,c2 dan (1.7, 7.6) untuk /311c" c 2 , •••,cn maka interval sebelumnya lebih sempit; dalam hal
ini, beberapa presisi diperoleh dengan menjatuhkan C3, C4, dan dari modelnya.
4 Masalah lain m menyangkut bagaimana menilai perancu ketika ada dua atau lebih variabel
penelitian, katakanlah, T1 dan T2, yang menarik. Untuk situasi umum ini, pengganggu dapat
didefinisikan hadir jika (11.9) dipenuhi untuk koefisien dari setiap variabel studi yang menarik,
diberikan model
mengandung semua variabel studi tersebut dan semua variabel kontrol . Sayangnya, definisi ini
memiliki latar belakang praktis yang mensyaratkan beberapa keputusan subyektif, satu untuk setiap
variabel penelitian yang diminati.
(Sebuah pendekatan alternatif, tetapi tidak persis sama, untuk mengevaluasi presisi adalah dengan
melakukan uji statistik untuk signifikansi penambahan C3 , C4 , dan C5 ke model yang mengandung
T, C, , dan C2. Hipotesis nol untuk uji chi dapat dinyatakan sebagai Ho: /34 = /35 = {36 = 0 in
model (l 1,8} dengan p = 5. Jika t ujinya tidak signifikan, maka dapat dikatakan bahwa
• mempertahankan C3 , C4, dan C5 juga tidak memberikan presisi tambahan (yaitu, penjelasan
varians). Ini akan menunjukkan bahwa hanya C1 dan C2 yang harus dikontrol untuk presisi yang
lebih besar. Karena pendekatan pengujian ini tidak selalu mengarah pada kesimpulan yang sama
dengan pendekatan estimasi interval, peneliti mungkin perlu memilih di antara keduanya. Di dalam
kebanyakan situasi, bagaimanapun, kedua pendekatan biasanya akan mengarah pada hasil yang
serupa. )
Sekarang kita akan membahas pertanyaan tentang mengidentifikasi set mana yang akan dikontrol.
Kita telah melihat, dengan contoh, bahwa pertama-tama kita harus mengidentifikasi perkiraan yang
disesuaikan dengan garis dasar (yaitu, "standar emas") yang dengannya kita dapat membuat
perbandingan. Ide l gold• standard adalah estimasi koefisien regresi yang mengontrol AU C yang
sedang dipertimbangkan. Kemudian, setiap subset dari C; yang pada dasarnya memberikan estimasi
ad juste,d yang sama (yaitu, estimasi yang tidak berbeda secara bermakna dari standar emas ketika
hanya C/s dalam subset tersebut yang dikontrol) adalah set kandidat untuk kontrol. Bahkan dapat
dibayangkan bahwa beberapa kandidat seperti itu mungkin (Kleinbaum, Kupper, dan Morgenstern,
1982, bab 14).
Set mana yang akhirnya digunakan? Jawabannya, sekali lagi, didasarkan pada presisi: Gunakan set
yang memberikan presisi paling tinggi (misalnya, interval kepercayaan paling ketat untuk efek yang
disesuaikan yang sedang dipelajari). (Untuk alasan "politik", yaitu, untuk meyakinkan orang bahwa
semua variabel telah dikendalikan, mungkin lebih baik untuk mengontrol C1, C2, . . ., Cp kecuali
beberapa subset dari C; mengarah ke peningkatan besar dalam presisi n.)
Untuk mengilustrasikan, misalkan himpunan kandidat pada Tabel 11-1 dapat diidentifikasi ketika p =
5 dalam model (11. 8). A11 tiga himpunan bagian yang tepat dari C1, C2, C3, C4, dan C5 dapat
dianggap sebagai kandidat untuk kontrol karena semuanya memberikan perkiraan penyesuaian yang
kira-kira sama dengan standar emas /311c ,, c2 , .. ,c, = 4.0 . Dari kandidat-kandidat ini, subset yang
melibatkan C1, C2, dan C4 memberikan presisi terbaik (interva kepercayaan narro west); oleh karena
itu subset ini dapat digunakan baik untuk
mengontrol perancu dan untuk meningkatkan presisi.
TABEL 11-1 Contoh set kandidat untuk kontrol
Kandidat Ser 95% Keyakinan

Interval
C1, C 2, C 3, C 4, Cs (baseline) 4.0 (2.37,.
2)
C,, C2 4 .3 (2.6, 7.6)
C1, C4 4.2 (2.1, 7.0)
C,, C2, C4 3.8 (1.9, 6.2)
3 Melihat Kembali Contoh
Dalam Bagian 11-3-3 kami mempertimbangkan studi hipotetis untuk menilai hubungan antara
tingkat aktivitas fisik (PAL) dan tekanan darah sistolik (SBP) sambil mengontrol AGE dan SEX. Sebuah
model yang memungkinkan kemungkinan interaksi AGE dan SEX dengan PAL dipertimbangkan, dan
metode untuk beristirahat untuk interaksi tersebut dijelaskan.
Dengan asumsi tidak ada efek interaksi yang signifikan ditemukan, model tereduksi yang dihasilkan
adalah sebagai berikut: SBP + /30 + /31(PAL) + /32(AGE) + {33(SEX) + E
Mengingat model tanpa interaksi ini, langkah selanjutnya adalah menilai perancu; yaitu, apakah
koefisien PAL berubah ketika AGE dan/atau SEX dikeluarkan dari model? Untuk menjawabnya, kita
dapat menguji estimasi koefisien PAL dalam empat model, yaitu, satu termasuk AGE dan SEX, satu
melibatkan AGE atau SEX tetapi tidak keduanya, dan satu tidak melibatkan keduanya. Model standar
emas untuk perbandingan adalah satu (diberikan di atas) yang berisi variabel kontrol dan PAL.
Kemudian, misalnya, jika estimasi /31 c h a nges jauh ketika setidaknya satu variabel kontrol
dijatuhkan dari model standar emas ini, kita perlu mengontrol AGE dan SEX. Namun, jika pada
dasarnya kita memperoleh perkiraan yang sama dari /31 (seperti yang diperoleh dengan
menggunakan model standar emas) ketika hanya AGE dalam model, maka kita tidak perlu
mempertahankan SEX dalam model untuk mengontrol perancu. Namun, dimasukkannya variabel
jenis kelamin di samping AGE dapat meningkatkan atau menurunkan presisi. Dengan demikian,
keputusan untuk apakah akan mengontrol hanya AGE atau untuk AGE dan SEX akan tergantung,
misalnya, pada 2 / perbandingan interval kepercayaan untuk {31 • Jika interval kepercayaan jauh
lebih sempit ketika hanya AGE yang dikontrol, maka kita tidak akan mempertahankan SEX dalam
model.
Akhirnya, setelah keputusan dibuat tentang variabel mana yang akan dikendalikan (yaitu, model
mana yang terbaik untuk memberikan perkiraan yang valid dan tepat dari koefisien PAL), kami
kemudian membuat kesimpulan statistik tentang hubungan PAL-SBP yang sebenarnya. Mengingat
model tanpa interaksi, ini melibatkan pengujian Ho: {31 = 0 dalam model terbaik dan kemudian
memperoleh estimasi interval /31 .
Ringkasan dan Kesimpulan
Pembaur dan interaksi adalah dua konsep metodologis yang berkaitan dengan penilaian hubungan
antara variabel independen dan dependen.
Interaksi, yang lebih diutamakan daripada perancu, ada ketika hubungan o: minat berbeda pada
tingkat variabel asing (kontrol) yang berbeda. Dalam regresi linier. ion interaksi dievaluasi
menggunakan uji statistik tentang istilah produk yang melibatkan variabel dasar independen dalam
model.
Pembaur, yang tidak dievaluasi dengan pengujian statistik, hadir ketika efek kepentingan berbeda
tergantung pada apakah variabel asing diabaikan atau dipertahankan dalam analisis. Dalam istilah
regresi, perancu dinilai dengan membandingkan koefisien regresi kasar versus disesuaikan dari
model yang berbeda.
Ketika beberapa pembaur potensial sedang dipertimbangkan, mungkin ada baiknya untuk
mengidentifikasi nonconfounders yang dapat dikeluarkan dari model untuk mendapatkan presisi; ini
mungkin tidak mungkin (yaitu, presisi mungkin hilang dengan menjatuhkan variabel) dalam
beberapa situasi.
Ketika ada interaksi kuat yang melibatkan variabel asing tertentu, penilaian perancu untuk variabel
asing itu tidak relevan. Selain itu•, dalam situasi seperti itu penilaian kebingungan yang melibatkan
variabel asing lainnya, meskipun mungkin, cukup kompleks dan sangat subjektif. Akibatnya,
penilaian pembaur biasanya direkomendasikan ketika efek interaksi penting telah diidentifikasi.

Perancu Dan Interaksi Dalam Regresi

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Perancu Dan Interaksi Dalam Regresi

Diunggah oleh

Hak Cipta:

Format Tersedia

Perancu dan Interaksi dalam Regresi

Interaksi dalam Regresi

(a) Tidak ada interaksi versus (b) interaksi

11-3 Interaksi dalam Regresi

Gambar -2 Ilustrasi tanpa interaksi

MYIT,c = (/3o + /32.Co} + (/31 + /312Co)T

dan ketika C = C1 , model (11. 2} menjadi

MYIT,c = (/3o + /32Ci) + (/31 + /312C1)T

Pemodelan Interaksi Secara Umum

Y = /3o + /31X 1 + /32X2 + /32X3 + /34X1X2 + /3s X1 X3 + /36X2X3 + /37X1X2X3 + E (1 1 .3)

Pembaur dan Perlawanan Era dalam Regresi Ch. saya saya

Istilah X1 X2 dan X1 X3 menggambarkan interaksi dari X2 dan X3 , berturut-turut, dengan X1•

Perancu dalam Regresi

Kontrol untuk Satu Variabel Asing

Y = /3o + /31T + /32C + E (11,5)

Y = /3o + /31T + £ ( 11.6 )

f1iI USIA = 4,1 dan fi1 = 15,9

Sebagai contoh lain, anggaplah itu

fitl USIA = 6,2 dan fi1 = 6,1

Mengontrol untuk Beberapa Variabel Asing

{A3It C 1, C2,,..,Cs = 4 • 0 , I = 16,0

Kandidat Ser 95% Keyakinan

3 Melihat Kembali Contoh

Ringkasan dan Kesimpulan

Anda mungkin juga menyukai