Survey Data Integration For Regression Analysis Us PDF
Survey Data Integration For Regression Analysis Us PDF
15 Juli 2021
Abstrak
arXiv:2107.06448v1
[stat.ME]
2021
Jul
14
Kata kunci: Data besar, Kemungkinan empiris, Model kesalahan pengukuran, Kovariat yang hilang
ÿPenulis berterima kasih atas dukungan dari National Science Foundation (no. 1733572) dan
Yayasan Ilmu Pengetahuan Alam Nasional Tiongkok (no. 11901487).
1
Machine Translated by Google
1. Perkenalan
Integrasi data adalah bidang penelitian yang muncul dalam pengambilan sampel survei. Dengan memasukkan
informasi parsial dari sampel eksternal, seseorang dapat meningkatkan efisiensi yang dihasilkan
estimator dan mendapatkan analisis yang lebih andal. Lohr dan Raghunathan (2017), Yang dan
Kim (2020), dan Rao (2021) memberikan ulasan tentang metode statistik integrasi data
untuk inferensi populasi terbatas. Banyak metode yang ada (misalnya, Hidiroglou, 2001; Merkouris,
2010; Zubizarreta, 2015) terutama berkaitan dengan memperkirakan rata-rata populasi atau total
sementara menggabungkan informasi untuk inferensi analitik seperti analisis regresi tidak sepenuhnya
Dalam makalah ini, kami mempertimbangkan analisis regresi dalam konteks integrasi data. Kapan
kami menggabungkan sumber data untuk melakukan analisis regresi gabungan, yang mungkin kami temui
beberapa masalah: kovariat mungkin tidak sepenuhnya diamati atau mengalami kesalahan pengukuran.
Dengan demikian, seseorang dapat menganggap masalah tersebut sebagai masalah regresi kovariat yang hilang. Robins et al.
(1994) dan Wang et al. (1997) membahas estimasi semiparametrik dalam analisis regresi
dengan data kovariat yang hilang di bawah asumsi kovariat yang hilang secara acak. Dalam data kami
pengaturan integrasi, sumber data eksternal dengan kovariat yang hilang dapat berupa sensus atau besar
data. Kami akan menyajikan metode integrasi data yang diusulkan terlebih dahulu dengan pengaturan sederhana
di mana tidak ada bias seleksi dalam data eksternal, maka di bawah pengaturan umum di mana
bias seleksi dalam data eksternal juga diatasi dengan penyesuaian probablistik.
Untuk menggabungkan informasi parsial dari sumber eksternal, kami menggunakan ide model
kalibrasi (Wu dan Sitter, 2001) yang memperkenalkan model yang direduksi "bekerja" berdasarkan
kovariat yang diamati. Parameter model dalam model tereduksi diperkirakan dari
sumber eksternal dan kemudian digabungkan melalui aplikasi baru dari kemungkinan empiris
metode (Owen, 1991; Qin dan Lawless, 1994). Model pengurangan kerja belum tentu
2
Machine Translated by Google
ditentukan dengan benar, tetapi model kerja yang baik dapat meningkatkan efisiensi yang dihasilkan
analisis. Metode yang diusulkan sangat menarik untuk menggabungkan informasi dari
beberapa sumber data dengan pola hilang yang berbeda. Dalam hal ini, kita hanya perlu menentukan
Di bawah pengaturan serupa, Chatterjee et al. (2016) juga mengembangkan metode kalibrasi
berdasarkan kemungkinan maksimum yang dibatasi, yang menggunakan model parametrik penuh untuk
spesifikasi kemungkinan dan batasan yang dikembangkan dari model yang direduksi untuk data
ditentukan dengan benar tetapi tidak berlaku bila sulit atau tidak mungkin untuk ditentukan
fungsi densitas yang benar. Di sisi lain, metode yang kami usulkan didasarkan pada
kondisi momen pertama seperti analisis regresi biasa, sehingga asumsi yang lemah dapat meluas
penerapan metode yang diusulkan untuk banyak masalah praktis. Secara khusus,
metode yang diusulkan dapat langsung diterapkan pada data sampel survei yang menjadi fokus utama
dari kertas kami. Baru-baru ini, Xu dan Shao (2020) mengembangkan metode integrasi data menggunakan
metode umum teknik momen, tetapi metode mereka secara implisit mengasumsikan bahwa
model yang dikurangi ditentukan dengan benar. Sheng dkk. (2021) mengembangkan empiris yang dihukum
pendekatan kemungkinan untuk menggabungkan informasi tersebut dalam pengaturan regresi logistik. Zhang
et al. (2021) juga mengembangkan kerangka kemungkinan empiris retrospektif untuk diperhitungkan
bias pengambilan sampel dalam studi kasus-kontrol. Kami mempertimbangkan pengaturan regresi yang lebih umum dan milik kami
metode kemungkinan empiris yang diusulkan berbeda dari metode kemungkinan empiris mereka
dan tidak mensyaratkan bahwa model pengurangan kerja ditentukan dengan benar.
Kami menyoroti kontribusi makalah kami sebagai berikut. Pertama, kami mengusulkan kesatuan
kerangka kerja untuk menggabungkan sumber data eksternal dalam analisis regresi. Yang diusulkan
metode menggunakan asumsi yang lebih lemah daripada metode yang ada dari Chatterjee et al. (2016)
3
Machine Translated by Google
dan dengan demikian memberikan hasil estimasi yang lebih kuat. Kedua, metode yang diusulkan secara luas
berlaku karena dapat dengan mudah menangani beberapa sumber data eksternal seperti yang ditunjukkan dalam Bagian
5. Dapat juga diterapkan pada kasus di mana sumber data eksternal dapat dipilih
bias. Dalam aplikasi data nyata di Bagian 7, kami menunjukkan bahwa metode yang kami usulkan bisa
memanfaatkan data besar eksternal dengan probabilitas seleksi yang tidak diketahui dengan menerapkan kecenderungan
penyesuaian bobot skor. Akhirnya, metode yang kami usulkan mudah diterapkan dan sepenuhnya
dibenarkan secara teoritis. Komputasi adalah aplikasi langsung dari standar empiris
metode likelihood dan dapat dengan mudah diimplementasikan menggunakan perangkat lunak yang ada.
Makalah ini disusun sebagai berikut. Di Bagian 2, pengaturan dasar diperkenalkan, dan
metode yang ada disajikan. Bagian 3 menyajikan pendekatan yang diusulkan dan Bagian 4
memberikan sifat asimtotiknya. Dalam Bagian 5, aplikasi untuk integrasi beberapa data
Dipersembahkan. Bagian 6 menyajikan dua studi simulasi terbatas, diikuti dengan penerapannya
dari metode yang diusulkan ke data nyata di Bagian 7. Beberapa kesimpulan dibuat di
Bagian 8.
2 Pengaturan Dasar
Pertimbangkan populasi terbatas U = {1, . . . , N} dengan ukuran N. Dikaitkan dengan record ke-i,
misalkan yi menunjukkan variabel studi yang diminati dan xi = (xi1, xi2) bantu yang sesuai
vektor panjang p. Kami tertarik untuk mengestimasi parameter populasi ÿ0 , yang dipecahkan
U1(ÿ) = iÿU U1(ÿ; xi , yi) = 0 di mana U1(ÿ; x, y) adalah fungsi estimasi yang ditentukan sebelumnya
untuk ÿ. Salah satu contoh fungsi penduga adalah U1(ÿ; xi , yi) = {yi ÿm1(xi ; ÿ)}h1(xi ; ÿ),
yang secara implisit didasarkan pada model regresi E(Yi | xi) = m1(xi ; ÿ) pada super
tingkat populasi untuk beberapa h1(xi ; ÿ) yang memenuhi kondisi identifikasi tertentu (misalnya, Kim
4
Machine Translated by Google
dan Rao, 2009). Dari populasi hingga sampel probabilitas S1 ÿ U dihasilkan, dan estimator Z ÿˆ dapat
Selain S1, misalkan kita mengamati xi1 dan yi di seluruh populasi terbatas dan ingin memasukkan
Chen dan Chen (2000) pertama menganggap masalah ini dalam konteks kesalahan pengukuran
model. Untuk menjelaskan ide mereka dalam penyiapan kami, pertama-tama kami mempertimbangkan model yang direduksi "berfungsi",
untuk beberapa ÿ. Di bawah model kerja (2), kita dapat memperoleh estimator ÿˆ dari arus
di mana U2(ÿ; xi1, yi) = {yiÿm2(xi1; ÿ)}h2(xi1; ÿ) untuk beberapa h2(xi1; ÿ) kondisi yang memuaskan serupa
dengan yang dikenakan pada h1(xi ; ÿ). Perhatikan bahwa pengaturan kami mempertimbangkan situasi di mana
subset dari data individu (xi1, yi) diamati sepenuhnya di seluruh populasi terbatas U.
Oleh karena itu, seseorang bisa mendapatkan ÿÿ yang memecahkan Ni=1 U2(ÿ; xi1, yi) = 0. Chen dan Chen (2000)
diusulkan menggunakan
ÿ
ÿ1
ÿˆ = ÿˆ + Cov (ÿˆ, ÿˆ ){Vˆ (ÿˆ )} (ÿ ÿ ÿ ÿˆ )
sebagai estimator ÿ yang efisien, di mana Vˆ (·) dan Cov (·) menunjukkan varian berbasis desain dan
ditentukan, tetapi model kerja yang baik dapat meningkatkan efisiensi estimator akhir.
5
Machine Translated by Google
Seseorang juga dapat mengadopsi kemungkinan maksimum terbatas (CML) yang mirip dengan Chatterjee
et al. (2016), yang awalnya disarankan dalam konteks pengambilan sampel non-survei. Dibawah
pengaturan pengambilan sampel survei, kita dapat menafsirkan Chatterjee et al. (2016) sebagai estimasi CML
pendekatan ketika ÿ adalah parameter dalam distribusi bersyarat Yi diberikan Xi dengan kepadatan
f(yi | xi ; ÿ), dan estimasi CML dapat dinyatakan sebagai menemukan ÿ yang maksimal
tunduk pada
Kendala (5) dapat dipahami sebagai kendala bagi parameter ÿ untuk memenuhi E{U2(ÿÿ ; xi1, Yi) |
Metode CML tidak secara langsung dapat diterapkan pada model rata-rata bersyarat kami di (1) sebagai
fungsi kemungkinan untuk ÿ tidak ditentukan dalam pengaturan kami. Meskipun demikian, seseorang dapat menggunakan tujuan
fungsi seperti itu dalam Metode Momen Umum untuk menerapkan opsi terkendala
masalah misasi, yang secara asimtotik ekuivalen dengan metode kemungkinan empiris
(Imbens, 2002). Chatterjee dkk. (2016) juga mencatat bahwa pendekatan CML dapat diformulasikan
menggunakan metode kemungkinan empiris dari Qin dan Lawless (1994) dan Qin (2000).
Namun, mereka tidak secara eksplisit membahas bagaimana merumuskan CML sebagai aplikasi
6
Machine Translated by Google
3 Usulan Pendekatan
Kami sekarang menggunakan kerangka kemungkinan empiris untuk memasukkan informasi tambahan.
w = {wi : i ÿ S1} berdasarkan fungsi objektif tertentu Q(d, w) dengan beberapa kalibrasi
kendala (Deville dan S¨ardal, 1992) di mana d = {di : i ÿ S1}. Untuk fungsi tujuan,
dipertimbangkan oleh Wu dan Rao (2006) atau fungsi entropi maksimum Q(d, w) = dalam Kim iÿS1 wi log(wi/di)
(2010). Kendala kalibrasi kami adalah
di mana ÿÿ adalah informasi eksternal untuk model tereduksi yang berfungsi. Ini adalah semangat yang sama
menggunakan (5) tetapi tanpa memperkenalkan fungsi kerapatan bersyarat f(y | x; ÿ). Jadi, kami
dapat menggunakan metode kalibrasi model berikut untuk estimasi ÿ yang efisien sebagai berikut:
1. Gunakan model pengurangan kerja (2) untuk mendapatkan ÿÿ dari populasi hingga.
2. Tentukan bobot kalibrasi wˆ = {wˆi : i ÿ S1} dengan memaksimumkan Q(d, w) sesuai dengan persamaan (7).
Jika tolok ukur ÿÿ tidak tersedia dari populasi terbatas tetapi dapat diestimasi
dari sampel eksternal independen, kita dapat menggunakan informasi dari kedua aslinya
7
Machine Translated by Google
sampel internal dan sampel eksternal untuk mendapatkan estimasi benchmark. Secara praktis
situasi, kita mungkin tidak memiliki akses ke data mentah dari sampel eksternal tetapi sering
estimator ÿˆ 2 dan penaksir variannya V 2 = Vˆ (ÿˆ 2) untuk model kerja tereduksi pada (2).
ÿ1 ÿ1 ÿ1 ÿ1 ÿ1
ÿˆ ÿ = (V +V 2 ) (V ÿˆ 1 + V ÿˆ 2) (9)
1 1 2
dimana ÿˆ
1
dan V1 diperkirakan dengan sampel internal S1. Sekali ÿˆ ÿ
diperoleh dengan (9),
Mirip dengan Wu dan Sitter (2001), metode yang diusulkan tidak memerlukan model kerja yang “benar”
seperti yang dijelaskan di bawah ini. Biarkan Uˆ ext(ÿ) = 0 menjadi persamaan estimasi untuk mendapatkan
ÿÿ dihitung dari sampel eksternal S2. Sekarang, fungsi estimasi akhir untuk ÿ menggunakan kalibrasi model
untuk beberapa K di mana Uˆ 1(ÿ) dan Uˆ 2(ÿ) masing-masing dihitung dengan (1) dan (3), dari
sampel internal S1. Perkiraan dalam (10) dapat dengan mudah diturunkan menggunakan asymp
kesetaraan totik dari estimator kalibrasi dan estimator regresi. Jadi, bahkan jika E{Uˆ ext(ÿÿ )} tidak sama
dengan nol, solusi untuk Uˆ cal(ÿ) = 0 konsisten selama E{Uˆ ext(ÿÿ ) ÿ Uˆ 2(ÿÿ )} = 0.
Meskipun model kerja E(Yi |xi1) = m2(xi1; ÿ) tidak perlu ditentukan dengan benar, kita dapat secara
sistematis menemukan U2(ÿ; xi1, yi) dengan memasukkan konstruksinya sebagai hilang
bahwa xi = (xi1, xi2), kami menetapkan prediktor ˆxi2 = ÿ0 + ÿ1xi1, dan persamaan estimasi adalah
8
Machine Translated by Google
ditulis oleh
U1(ÿ; xi1, xˆi2, yi) = {yi ÿ m1(xi1, xˆi2; ÿ)}h1(xi1, xˆi2; ÿ) (11)
untuk fungsi kontrol metode kalibrasi model di mana ÿ = (ÿ0, ÿ1). Kita juga bisa
perkirakan ÿ dari sampel S1 atau gunakan nilai parameter tetap apa pun selama solusinya
iÿS1 diU1(ÿ; xi1, xˆi2, yi) = 0 unik. Estimator patokan ÿ dapat diperoleh
menggunakan sampel eksternal untuk menerapkan metode kalibrasi model yang diusulkan. Jika kita menggunakan
fungsi kontrol pada (11), maka pada dasarnya kita memperlakukan regresi y pada x1 dan ˆx2
sebagai model "berfungsi" untuk kalibrasi model. Ini hanya layak jika kita memiliki langsung
4 Sifat teoritis
Pada bagian ini, kami menyelidiki sifat asimtotik dari estimator yang diusulkan ÿˆ
ke (8). Karena parameter populasi termasuk ÿ0 dan ÿÿ ditentukan oleh yang terbatas
populasi ukuran N, kami secara eksplisit menggunakan subskrip N untuk yang ada di bagian ini, misalnya, ÿ0N dan
ÿÿN , tetapi kami menghilangkan subskrip ini untuk (dixi , , yi) untuk kesederhanaan. Kami mempertimbangkan dua skenario:
ketika ÿÿ
N tersedia dari populasi yang terbatas dan ketika kita hanya memiliki sampel eksternal
untuk memperkirakan ÿÿ
N oleh kuadrat terkecil yang digeneralisasikan dalam (9).
4.1 ÿÿ N tersedia
ukuran N. Mengganti di dengan ˜di dalam (6), kami mempertimbangkan masalah Lagrangian yang memaksimalkan
9
Machine Translated by Google
˜di
ÿ U1(ÿ; xi , yi) ÿ
1 ÿ ÿ U2(ÿÿ N ; xi1, yi)
g(ÿ,ÿ) = . (12)
˜di
U2(ÿ ÿN ; xi1, yi)
iÿS1iÿS11 ÿ ÿ U2(ÿÿ N ; xi1, yi)
ÿÿÿÿÿ ÿÿÿÿÿ
Nyatakan solusi untuk (12) sebagai ÿˆ = ÿˆ ,ÿˆ . Untuk menyelidiki sifat asimtotik dari
ÿˆ, kami mengusulkan kondisi keteraturan berikut.
ZS = supÿÿA maxiÿS1 U2(ÿ; xi1, yi) = op(n 1/2 ) di mana · menunjukkan Euclidean
sebuah. Ada himpunan kompak ÿ sehingga ÿ0N ÿ ÿ untuk N ÿ N dan titik interior
dari ÿ, ÿp , sehingga limNÿÿ ÿ0N = ÿp .
c. iÿS1 ˜diÿU1(ÿ0N ; xi , yi)/ÿÿ = I11 + op(1) di mana I11 non-stokastik dan dalam
vertikal.
10
Machine Translated by Google
ÿ2
e. iÿS1 ˜diU2(ÿÿ N ; xi1, yi) = I22 +op(1) di mana Aÿ2 = AA untuk sembarang matriks A dan
dalam distribusi di mana N (0, ÿu) adalah distribusi normal dengan rata-rata nol dan kovarians
matriks
ÿ11 ÿ12
ÿ ÿ
ÿu =
ÿ21 ÿ22
ÿ ÿ.
C1 adalah syarat teknis untuk memperoleh orde asimtotik ÿˆ, dan syarat serupa adalah
juga diasumsikan oleh Wu dan Rao (2006); lihat kondisi mereka C1 untuk detailnya. C2 mengasumsikan beberapa
hasil konvergensi untuk dua fungsi estimasi. Secara khusus, C2a menunjukkan parameternya
ruang parameter populasi hingga ÿ0N , dan konvergensi ÿ0N dapat dipenuhi dalam kondisi keteraturan. Kondisi
C2b diperlukan untuk menunjukkan probabilitas ÿˆ ÿÿp ÿ 0, kemudian probabilitas ÿˆ ÿ ÿ0N ÿ 0, ditambah dengan
teorema limit pusat untuk ÿˆ. Perhatikan bahwa I22 simetris dengan C2e, tetapi I11 dalam C2c mungkin simetris
asimetris untuk fungsi estimasi tertentu U1(ÿ; x, y). Kondisi C3 terpenuhi di bawah
kondisi keteraturan untuk desain pengambilan sampel umum; lihat Fuller (2009, Bagian 1.3) untuk detailnya.
Lemma 4.1 Misalkan kondisi C1, C2e dan C3 terpenuhi. Maka, ÿˆ = Op(n ÿ1/2 ).
Bukti Lemma 4.1 disajikan pada Bagian ?? dari Bahan Tambahan. Lemma 4.1 menetapkan bahwa ÿˆ = op(1),
ÿˆ.
11
Machine Translated by Google
Lemma 4.2 Misalkan kondisi C1, C2a–C2e dan C3 terpenuhi. Maka, ÿˆ ÿ ÿ0N = op(1).
Bukti Lemma 4.2 disajikan pada Bagian ?? dari Bahan Tambahan. Oleh
Lemma 4.1–4.2, kita simpulkan bahwa ÿˆ ÿ ÿ0 = op(1) dimana ÿ0 = (0 , ÿ 0N ) . Jadi, kita bisa
gunakan ekspansi Taylor untuk menetapkan teorema limit pusat berikut untuk ÿˆ.
Teorema 1 Misalkan kondisi C1–C3 berlaku. Lalu, n 1/2 (ÿˆ ÿ ÿ0 ) ÿ N (0, ÿÿ) dalam
ÿ 0 I22 ÿ.
Pembuktian Teorema 1 disajikan pada Bagian ?? dari Bahan Tambahan. Dengan 1/2 (ÿˆ ÿ ÿ0N ) ÿ N (0, ÿÿ)
ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 T
ÿÿ = I 11 ÿ11(I 11 ) TÿI 11 I12I 22 ÿ21(I 11 ) TÿI 11 ÿ12I 22
Saya
12 (I 11 ) T+I 11 I12I 22 ÿ22I 22
Saya
12(Saya11 )
1/2
sesuai dengan varian asimptotik dari n , yi) dan ˜diU2(ÿÿ N ; xi1, yi), masing-masing. Dalam kondisi keteraturan,
˜diU1(ÿ0N
itu dapat
iÿS1 ; xi ditampilkan
dan ÿ11 dan ÿ22
n 1/2
iÿS1
ÿ1 ÿ1 ÿ1
bahwa ÿÿ = I 11 (ÿ11 ÿ ÿ12ÿ 22 ÿ21)(I 11 ) untuk pengambilan sampel acak sederhana dengan atau
ÿ1 ÿ1
penggantian. Sejak aku 11 ÿ11(I varian asimtotik dari n tanpa 1/2mana
(ÿˆ mÿˆÿ 11
ÿ0N) adalah
) di m
memecahkan
iÿS1 diU1(ÿ; xi , yi) = 0, yang
pendekatan
diusulkan mencapai estimasi efisien di bawah
contoh acak sederhana; lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya.
12
Machine Translated by Google
ÿ
Ketika ÿÿ tidak tersedia tetapi sampel eksternal tersedia untuk mendapatkan ÿˆ dalam (9), kami mempertimbangkan
Nyatakan ÿ˜ sebagai solusi dari ˜g(ÿ) = 0. Kemudian, asumsi tambahan berikut adalah
C4. ˜diÿU2(ÿ; xi1, yi)/ÿÿ = I(ÿ)+op(1) secara seragam untuk ÿ ÿ A di mana I(ÿ) bukan
iÿS1
stokastik. Selain itu, terdapat matriks I0 yang dapat dibalik sehingga limNÿÿ I(ÿÿ N )=
saya0.
C5. Desain pengambilan sampel dan sampel eksternal memenuhi hasil konvergensi berikut.
(b)V 1 dan V 2 adalah estimator varians desain yang konsisten dari ÿˆ 1 dan ÿˆ 2, masing-masing.
ÿ1 ÿ1 ÿ1
(CV 1,
V 2, dan (V 1 + V2 )ÿ1 ÿ1
ada dalam probabilitas.
ÿ1 ÿ1 ÿ1
(d) (V 1 +V 2 ) ÿ1V = W + op(1) di mana W non-stokastik.
2
Kondisi ini digunakan oleh Yuan dan Jennrich (1998). C5a dan C5b mengasumsikan konsistensi dari
13
Machine Translated by Google
di bawah desain pengambilan sampel umum; lihat Fuller (2009, Bab 1) untuk detailnya. jaminan C5c
adanya ÿˆ ÿ
untuk metode yang diusulkan. C5e menunjukkan teorema limit pusat dengan
sehubungan dengan ringkasan statistik ÿˆ 2, dan digunakan untuk mendapatkan hasil yang sama dengan C3
ÿ1
, yang
ÿ
ÿÿ diganti dengan ÿˆ . Secara khusus, tingkat konvergensi (ÿˆ 2 ÿ ÿÿ ) adalah ÿ(n)
Teorema berikut menetapkan distribusi asimtotik yang mirip dengan yang ada di C3.
ÿ˜ 21 ÿ˜ 22
ÿ ÿ
Kasus 1. Khususnya, jika ada matriks non-stokastik ÿc sehingga nV 2 = ÿc +
T
op(1), lalu ÿ˜ 11 = ÿ11, ÿ˜ 12 = ÿ12(I
ÿ1
) WI ÿ˜ 21 = ÿ˜ dan ÿ˜ 22 = I0W{ÿc +
0 0, 12
ÿ1 ÿ1
Saya
0 ÿ22(I 0 ) T}WTI T ; Hai
Kasus 1, jika ÿˆ2 diperkirakan dari sampel eksternal jauh lebih efisien daripada ÿˆ dalam arti ) = op(n ÿ1/2 ),
Dengan demikian, kita dapat mengabaikan variabilitas statistik ringkasan ÿˆ2 dari sampel eksternal
dan dapatkan distribusi asimtotik yang sama seperti di C3. Meskipun distribusi asimtotik
14
Machine Translated by Google
sama, C3 dengan ÿÿ yang diketahui bukan kasus khusus dari Teorema 2 karena ÿˆ = ÿÿ
N 2 N
memiliki varians nol, yang melanggar C5c–C5e. Sebaliknya, jika (ÿˆ 2 ÿ ÿÿ n ÿ1/2 in)
N
probabilitas, maka ÿˆ 2
seefisien ÿˆ 1. Jadi, W bukan matriks identitas atau nol
ÿ
matriks, dan metode yang diusulkan lebih efisien daripada mengganti ÿÿ dengan ÿˆ = ÿˆ 2 jatuh tempo
informasi tambahan yang diberikan oleh sampel eksternal. Itu sepele yang tidak bisa kita gunakan
ÿˆ 1 untuk mengganti ÿÿ di (7); jika tidak, kita mendapatkan ˆwi , dan (8) setara dengan tradisional
dari ÿˆ 1 dalam hal tingkat konvergensi, maka kita sebaiknya tidak menggunakan sampel eksternal seperti itu untuk
op(1); lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya. Dengan C5, kita dapat memperoleh hasil konsistensi
yang sama pada Lemmas 4.1–4.2 untuk (13) dalam kondisi yang sama. Jadi, oleh
Konsekuensi 1 Misalkan kondisi C1–C5 berlaku. Kemudian, kami memiliki n dalam 1/2 (ÿ˜ÿÿ0 ) ÿ N (0, ÿ˜ ÿ)
ÿ˜ dalam Teorema 2.
ÿ
Akibat wajar 1 dapat dibuktikan dengan prosedur serupa untuk Teorema 1, sehingga pembuktiannya dihilangkan.
Kami sekarang mempertimbangkan analisis regresi yang menggabungkan informasi parsial dari sampel eksternal.
Untuk menjelaskan ide tersebut, Tabel 1 menunjukkan contoh struktur data dengan tiga sumber data (A,
B, C) di mana Sampel A berisi semua pengamatan sedangkan sampel B dan C berisi sebagian
observasi.
15
Machine Translated by Google
SEBUAH
da
B db
C dc
dalam model regresi E(Y |x1, x2) = m1(ÿ0 + ÿ1x1 + ÿ2x2) dimana m1(·) diketahui tetapi ÿ = (ÿ0, ÿ1, ÿ2) tidak
sebagai
untuk beberapa h(xi1, xi2; ÿ) sehingga Uˆ a(ÿ) bebas linier hampir di semua tempat.
Sekarang, kami ingin memasukkan sebagian informasi dari sampel B. Untuk melakukannya, misalkan
untuk beberapa ÿ. Perhatikan bahwa, sejak (zi , x1i , yi) diamati, kita dapat menggunakan sampel B untuk memperkirakan
pemecahan iÿB ÿ dengan db,iUb(ÿ; xi1, zi , yi) = 0 untuk beberapa Ub yang memenuhi E{Ub(ÿ; x1, z, Y )|x1, z} = 0
Demikian pula, untuk memasukkan informasi parsial dari sampel C, anggaplah kita memilikinya
16
Machine Translated by Google
untuk beberapa ÿ. Kami juga dapat membuat persamaan estimasi yang tidak bias iÿC dc,iUc(ÿ; xi2, zi , yi) = 0
untuk beberapa Uc yang memuaskan E{Uc(ÿ; x2, z, Y ) | x2, z} = 0 di bawah model kerja (16).
Setelah ÿˆ dan ÿˆ diperoleh, kita dapat menggunakan informasi tambahan ini untuk meningkatkan efisiensi ÿˆ
dalam (14). Untuk memasukkan informasi tambahan, kita dapat merumuskannya sebagai memaksimalkan Q(da,
di mana da dan w adalah himpunan yang berisi bobot sampling dan bobot kalibrasi dengan
sehubungan dengan sampel A. Kendala (17) memasukkan informasi tambahan. Setelah solusi wˆi{yiÿm(xi1, xi2;
wˆi diperoleh, kita bisa menggunakan iÿA ÿ)}h(xi1, xi2; ÿ) = 0 untuk memperkirakan ÿ. Itu
6 Studi simulasi
Untuk mengevaluasi kinerja sampel terbatas dari estimator yang diusulkan, kami melakukan sim
studi ulasi dengan asumsi beberapa skenario. Kami menghasilkan populasi terbatas dengan ukuran N =
100.000, setiap record terdiri dari variabel pembantu xi = (xi1, xi2) dengan panjang p = 2 dan variabel respon yi .
Kita asumsikan bahwa (xi , yi) tersedia untuk sampel internal S1 while
hanya (xi1, yi) yang tersedia untuk populasi terbatas U atau sampel eksternal S2. Sebagai perbandingan
ison, kami mengasumsikan model regresi linier dan model regresi logistik untuk U1(ÿ; xi , yi),
pertimbangkan skenario di mana xi1 dan xi2 independen atau dependen, dan perkenalkan
17
Machine Translated by Google
Kami pertama-tama mengevaluasi kinerja estimator yang diusulkan di bawah regresi linier
mempersiapkan. Dalam hal ini, kami tertarik untuk membuat inferensi statistik untuk ÿ = (ÿ0, ÿ1, ÿ2)
yang memecahkan N
i=1(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0.
Pertama, kami mempertimbangkan dua skenario untuk menghasilkan kovariat untuk populasi terbatas: (i)
2
xi1 ÿ N(3, 1) dan xi2 ÿ N(11, 6.5 ) dimana xi1 dan xi2 saling bebas; (ii) xi1 ÿ N(3, 1) i1+N(0, 1).
dan xi2 = x 2
Parameter simulasi dipilih sedemikian rupa sehingga rata-rata marjinal
dan varian xi2 serupa dalam pengaturan independen dan dependen. Kedua,
variabel respon dihasilkan sebagai Yi = 1 + 2xi1 + xi2 + kÿi dalam dua skenario: (i) ÿi ÿ N(0, 1) dengan k = 3
3 derajat kebebasan. Terakhir, kami mempertimbangkan dua desain pengambilan sampel untuk menghasilkan probabilitas
sampel S1 dengan ukuran n1 = 1.000: (i) pengambilan sampel Poisson dengan probabilitas inklusi yang
N
memenuhi ÿi ÿ (yi ÿ mini yi + 10)1/2 dan i=1 ÿi = n1, dan (ii) pengambilan sampel acak sederhana (SRS)
tanpa penggantian.
N
Untuk estimator yang diusulkan, kami mempertimbangkan model pengurangan kerja berikut, i=1(yiÿ
ÿ0 ÿ ÿ1xi1)(1, xi1) = 0, yang solusinya dilambangkan dengan ÿÿ . Untuk ketersediaan data, kami
asumsikan dua skenario: (i) ÿÿ tersedia dengan populasi terbatas U di mana (8) digunakan
mengandalkan Teorema 1, dan (ii) hanya sampel eksternal S2 dengan ukuran sampel n2 = 10.000 yang
ditarik oleh SRS tanpa penggantian yang tersedia di mana ÿÿ diganti dengan estimatornya di (9) untuk
Dalam studi simulasi, estimator yang diusulkan dibandingkan dengan beberapa alterna
tives. Pertama, kami mempertimbangkan penaksir dengan sampel probabilitas S1 saja, solusinya
dari di(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0. Kedua, kita menganggap sebuah konstrain
iÿS1
estimator kemungkinan maksimum (CML) dengan mengutak-atik Chatterjee et al. (2016) untuk survei
18
Machine Translated by Google
konteks pengambilan sampel, dengan mengandalkan (4) dan (5). Kita asumsikan distribusi normal untuk
simulasi dengan ÿi ÿ N(0, 9) sedangkan misspecified untuk data simulasi dengan ÿi ÿ t3. Kami juga menganggap
bahwa seorang analis mengasumsikan yi | xi1 ÿ N{(1, xi1)ÿ, ÿ2 red} untuk model kerja tereduksi dan temukan
N N 2
1 1 {yi ÿ (1, xi1)ÿ}
yiÿ (1, xi1)ÿ ÿ ÿ = 0 dan ÿ
+ = 0.
4
2ÿ 2 2ÿ 2ÿ
merah _
xi1 merah merah
saya=1
ÿ ÿ saya=1
Lihat Bagian A6.1 dari Bahan Pelengkap untuk rincian perhitungan. Ketiga, kami
pertimbangkan estimator CML di bawah pengaturan di mana informasi tambahan dari (yi , xi1) berada
Tabel 2 dan 3 menunjukkan hasil simulasi untuk estimator dengan probabilitas internal
sampel S1 saja (hanya S1), metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U)
Metode seperti Chatterjee menggunakan informasi tambahan dari populasi terbatas (CML-U) dan
dari sampel eksternal (CML-S2). Kami melakukan 1.000 simulasi Monte Carlo untuk setiap skenario, dan
menghitung bias Monte Carlo dari ÿˆ, kesalahan kuadrat rata-rata akarnya, dan cakupan
tingkat interval kepercayaan 95%. Untuk estimasi varians, kami menggunakan sandwich standar
rumus untuk S1-Saja dan Proposisi 1 dari Chatterjee et al. (2016) untuk CML-U. Namun,
karena ÿÿ diperkirakan dengan menggabungkan dua sampel, estimasi varian CML-S2 tidak
Tabel 2 menunjukkan hasil simulasi di bawah pengambilan sampel Poisson untuk sampel internal S1. Kapan
xi1 dan xi2 dihasilkan secara independen dalam data simulasi (Pengaturan 1 dan 2), semua ap
proaches menunjukkan bias yang dapat diabaikan sementara empat pendekatan yang menggunakan informasi tambahan lebih banyak
efisien dalam memperkirakan ÿ0 dan ÿ1 daripada hanya menggunakan sampel internal (hanya S1). Ketika xi1
19
Machine Translated by Google
Tabel 2: Kinerja regresi linier di bawah pengambilan sampel Poisson yang diukur dengan Monte
Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.
cakupan (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U dan Prop
S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan eksternal
sampel, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.
ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI
S1-hanya 0,020 0,330 0,960 -0,006 0,089 0,961 0,000 0,015 0,952
Prop-U 0,013 0,305 0,957 -0,005 0,081 0,966 0,000 0,015 0,949
CML-U 0,014 0,303 - -0,005 0,081 - 0,000 0,014 -
Prop-S2 0,012 0,301 0,961 CML-S2 -0,005 0,080 0,964 0,000 0,015 0,950
0,006 0,287 0,953 -0,005 0,079 0,967 0,001 0,012 0,958
S1 saja -0,027 0,345 0,954 Prop-U 0,008 0,099 0,941 0,000 0,015 0,955
-0,032 0,315 0,945 CML-U -0,044 0,317 0,009 0,088 0,936 0,000 0,015 0,955
- 0,010 0,086 - 0,001 0,015 -
Prop-S2 -0,032 0,310 0,945 CML-S2 0,009 0,086 0,941 0,000 0,015 0,953
-0,040 0,313 0,942 0,010 0,085 0,949 0,000 0,015 0,917
Hanya 0,000 0,532 0,945 0,007 0,357 0,948 -0,002 0,054 0,941
S1 Prop- 0,019 0,477 0,935 -0,006 0,347 0,943 0,000 0,055 0,940
U CML-U 0,446 0,642 Prop-S2 - -0,167 0,374 - 0,007 0,053 -
0,022 0,472 0,939 -0,007 0,346 0,944 CML-S2 0,478 0,634 0,758 0,000 0,055 0,940
-0,192 0,345 0,890 0,011 0,046 0,944
S1-hanya 0,025 0,482 0,950 -0,039 0,335 0,954 0,008 0,054 0,956
Prop-U 0,050 0,438 0,955 -0,056 0,332 0,950 0,010 0,054 0,945
CML-U 0,163 0,504 - -0,102 0,388 - 0,013 0,062 -
Prop-S2 0,053 0,434 0,947 -0,057 0,331 0,952 CML-S2 0,231 0,782 0,010 0,054 0,946
0,655 -0,170 0,655 0,579 0,024 0,108 0,572
20
Machine Translated by Google
dan xi2 dalam data simulasi bergantung (Pengaturan 3 dan 4), estimator CML (CML
U dan CML-S2) mengalami bias besar yang menghasilkan MSE besar dan kepercayaan yang salah
cakupan interval untuk CML-S2. Dalam kasus kovariat dependen, estimator yang diusulkan
masih menunjukkan bias yang dapat diabaikan dan cakupan interval kepercayaan yang benar, dan rMSE mereka untuk
ÿ0 dan ÿ1 juga lebih kecil dari S1 saja. Perhatikan bahwa tidak ada keuntungan efisiensi dalam memperkirakan
ÿ2 dengan metode yang diusulkan seperti yang diharapkan karena data eksternal hanya terdiri dari xi1 .
Di bawah pengaturan SRS yang hasilnya ditunjukkan pada Tabel 3, metode yang diusulkan masih ditampilkan
kinerja yang lebih baik daripada hanya S1 di semua pengaturan dalam hal rMSE ÿ0 dan ÿ1 dan timbal
untuk mengoreksi cakupan interval kepercayaan, yaitu estimasi varians yang benar. Namun, CML-S2
menghasilkan perkiraan varians yang terlalu rendah di Pengaturan 4 di mana xi1 dan xi2 bergantung dan
Studi simulasi kedua mengasumsikan bahwa respon yang menarik adalah hasil biner. Itu
kovariat xi = (xi1, xi2) dihasilkan oleh pengaturan yang sama di bagian sebelumnya. Kemudian, yi dihasilkan oleh
distribusi Bernoulli dengan probabilitas sukses Pr(Yi = 1 | xi1, xi2) = logitÿ1 (ÿ0 + ÿ1xi1 + ÿ2xi2) dengan parameter
Kami mempertimbangkan dua skema pengambilan sampel untuk menghasilkan sampel probabilitas S1 dengan ukuran n1 = 5.000:
(i) Pengambilan sampel Poisson dengan probabilitas inklusi yang memenuhi ÿi ÿ 0,9I(yi = 1) + 0,1I(yi = 0)
N
dan
i=1 ÿi = n1 dan (ii) SRS tanpa penggantian.
Untuk pendekatan yang diusulkan, kami mempertimbangkan model reduksi kerja yang ditulis oleh U2(ÿ; xi1, yi) = {yi ÿ
ÿ1
expit(ÿ0 + ÿ1xi1)}(1, xi1) di mana expit(x) = {1 + exp(ÿx )} . Mirip dengan yang pertama
simulasi, kami membandingkan kinerja lima pendekatan: (i) estimator dengan probabilitas
21
Machine Translated by Google
Tabel 3: Kinerja regresi linier dengan sampling acak sederhana yang diukur dengan
Bias Monte Carlo (Bias), root mean squared error (rMSE), dan kepercayaan 95%.
cakupan interval (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U
dan Prop-S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan an
sampel eksternal, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.
ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI
S1-hanya 0,001 0,329 0,957 0,000 0,094 0,952 0,000 0,015 0,940
Prop-U 0,000 0,310 0,948 0,000 0,085 0,952 0,000 0,015 0,939
CML-U 0,000 0,310 - 0,000 0,085 - 0,000 0,015 -
Prop-S2 0,000 0,310 0,948 CML-S2 0,000 0,085 0,950 0,000 0,015 0,939
-0,006 0,300 0,949 0,000 0,085 0,954 0,001 0,013 0,932
S1 saja -0,035 0,340 0,942 Prop-U 0,011 0,094 0,954 0,000 0,015 0,935
-0,036 0,324 0,944 CML-U -0,036 0,321 0,011 0,088 0,949 0,000 0,015 0,933
- 0,011 0,087 - 0,000 0,015 -
Prop-S2 -0,035 0,322 0,942 CML-S2 0,010 0,088 0,945 0,000 0,015 0,933
-0,017 0,353 0,929 0,010 0,087 0,954 -0,001 0,019 0,871
Hanya 0,010 0,489 0,950 -0,010 0,345 0,946 0,002 0,055 0,938
S1 Prop- 0,021 0,446 0,945 -0,021 0,341 0,948 0,004 0,056 0,934
U CML-U 0,023 0,448 Prop-S2 - -0,022 0,342 - 0,004 0,056 -
0,024 0,442 0,945 CML-S2 0,032 0,392 -0,022 0,340 0,949 0,004 0,056 0,933
0,945 -0,028 0,286 0,946 0,005 0,046 0,943
S1-hanya 0,021 0,479 0,941 -0,036 0,339 0,950 0,008 0,055 0,945
Prop-U 0,029 0,442 0,936 -0,046 0,337 0,942 0,010 0,055 0,943
CML-U 0,033 0,442 - -0,049 0,338 - 0,010 0,056 -
Prop-S2 0,032 0,442 0,929 CML-S2 -0,048 0,338 0,938 0,010 0,055 0,936
-0,003 0,905 0,670 -0,026 0,773 0,578 0,006 0,129 0,562
22
Machine Translated by Google
diperkirakan dari sampel eksternal S2 dengan ukuran n2 = 50.000, (iv) penaksir CML dengan mengandalkan
(4) dan (5) dengan informasi parsial dari U, dan (iv) estimator CML dengan S2.
unit sampel dipilih dengan sampling Poisson. Ketika kovariat independen, semua
metode yang menggunakan data eksternal menghasilkan estimator yang lebih efisien daripada metode S1 saja.
Ketika kovariat bergantung, estimator CML menghasilkan estimator yang bias, yang mana
Tabel 4: Kinerja regresi logistik di bawah pengambilan sampel Poisson diukur dengan Monte
Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.
cakupan (CI) diukur untuk estimasi dengan sampel internal saja (hanya S1); diajukan
metode ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U) dan untuk sampel eksternal (Prop-S2); dan
ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI
S1 saja -0,002 0,128 0,950 Prop-U 0,001 0,037 0,933 0,000 0,007 0,953
-0,003 0,097 0,944 CML-U -0,024 0,082 0,001 0,025 0,934 0,000 0,007 0,952
- 0,006 0,020 - 0,000 0,006 -
Prop-S2 -0,001 0,093 0,939 CML-S2 0,000 0,024 0,934 0,000 0,007 0,952
-0,022 0,076 0,959 0,006 0,018 0,971 0,000 0,006 0,996
Prop-U 0,002 0,174 0,947 0,000 0,126 0,949 0,000 0,024 0,946
khusus S1 0,000 0,112 0,948 CML-U 0,000 0,109 0,946 0,000 0,024 0,945
0,504 0,511 - -0,409 0,417 - 0,073 0,075 -
Prop-S2 0,001 0,107 0,949 CML-S2 -0,001 0,108 0,948 0,000 0,024 0,945
0,505 0,511 0,002 -0,410 0,417 0,054 0,073 0,075 0,229
23
Machine Translated by Google
7 Studi Aplikasi
Sebagai contoh aplikasi, kami menerapkan metode yang diusulkan untuk menganalisis subset data
dari Survei Pemeriksaan Kesehatan dan Gizi Nasional Korea (KNHANES). Itu
survei tahunan mencakup sekitar 5.000 orang setiap tahun dan mengumpulkan informasi
mengenai perilaku yang berhubungan dengan kesehatan dengan wawancara, kondisi kesehatan dasar dengan fisik dan
tes darah, dan asupan makanan dengan survei nutrisi. Desain pengambilan sampel KNHANES adalah a
stratified sampling menggunakan usia, jenis kelamin, dan wilayah sebagai variabel stratifikasi. Pengambilan sampel terakhir
Untuk meningkatkan efisiensi analisis data dengan ukuran KNHANES n1 = 4,929, kami menggunakan
database publik eksternal yang disediakan oleh National Health Insurance Sharing Service
(NHISS) di Korea. Data besar yang disediakan oleh NHISS berisi sekitar n2 = satu juta indi
viduals dengan informasi yang berhubungan dengan kesehatan, beberapa variabel yang merupakan subset dari variabel
di KHANES.
Struktur data ini, dengan n1 kecil , n2 besar , dan data besar memiliki a
subset variabel dalam sampel internal, cocok dengan pengaturan yang kami bahas
Bagian 2. Namun, ada komplikasi lain dalam penerapan metode yang diusulkan
aplikasi sebenarnya. Dalam data NHISS, probabilitas pemilihannya tidak diketahui, sehingga
desain estimator yang konsisten ÿˆ 2 dalam (9) tidak tersedia. Bagian 7.2 membahas masalah ini dengan
menggunakan pendekatan pembobotan kecenderungan dan Bagian 7.3 menyajikan hasil analisis dari
studi aplikasi.
24
Machine Translated by Google
Probabilitas leksi
Kami sekarang mempertimbangkan perluasan metode yang diusulkan untuk kasus di mana eksternal
sampel S2 adalah data besar dengan probabilitas seleksi yang tidak diketahui. Dalam hal ini, bekerja
model untuk E(Yi | xi1) = m(ÿxi1) mungkin tidak berlaku untuk sampel S2. Meskipun demikian, kita mungkin
masih memecahkan
untuk mendapatkan ˆÿ0 dan ˆÿ1. Jika mekanisme sampling untuk S2 diabaikan atau tidak informatif,
maka solusi dari (7.2) tidak bias; jika tidak, estimator yang dihasilkan bias.
Untuk menghapus bias seleksi dalam perkiraan data besar, Kim dan Wang (2019) menyarankan
gested menggunakan bobot skor kecenderungan di (7.2) untuk mendapatkan penduga yang tidak bias dari ÿ. Ke
membangun bobot skor kecenderungan, kami menggunakan model nonresponse yang tidak dapat diabaikan,
P(ÿi = 1 | xi1, yi) = ÿ(xi1, yi ; ÿ), di mana ÿi = 1 jika i ÿ S2 dan nol jika tidak. Catatan
yang dapat kita nyatakan ÿ(xi1, yi) 0)/ ÿ1 = 1 + (N0/N1)r(xi1, yi) dimana r(xi1, yi) = f(xi1, yi |ÿi =
f(xi1, yi |ÿi = 1) adalah fungsi rasio kerapatan dengan N1 = Ni=1 ÿi dan N0 = N ÿ N1.
Menggunakan motivasi Wang dan Kim (2021), kita dapat mengasumsikan log-linear densitas ra
tio model, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1xi1 + ÿ2yi . Estimator entropi maksimum ÿ ÿi exp(ÿ0 + ÿ1xi1 + ÿ2yi)(1, xi1, yi)
N
yˆ¯) = (1/Nˆ 0) sampel internal. Setelah ÿˆ saya=1
diperoleh,
= 1, xˆ¯1,
kitayˆ¯dapat
dimana
menyusun
diperoleh
ˆÿ(xi1,
dengan
yi) dan
menyelesaikan
menyelesaikannya
(1/N1) (xˆ¯1,
di(xi1, yi) ÿ
=
iÿS1 Ni=1 ÿi(xi1, yi) dan Nˆ 0 di ÿ N1 di mana S1 adalah iÿS1
1
{yi ÿ m(ÿ0 + ÿ1xi1)}(1, xi1) = (0, 0) ÿˆ(xi1, yi) (16)
iÿS2
25
Machine Translated by Google
Selain itu, kita dapat menggunakan sampel internal S1 agar sesuai dengan model kerja yang sama untuk diperoleh
ÿ
ÿˆ 1. Setelah itu, kami memperoleh ÿˆ menggunakan (9) dan menerapkan pembobotan kalibrasi yang diusulkan
metode untuk menggabungkan informasi dari data besar. Dalam prakteknya V 2 dalam (9) sulit untuk
menghitung, tetapi sangat kecil jika ukuran sampel untuk S2 sangat besar. Dalam hal ini, kita mungkin
ÿ
cukup gunakan ÿˆ = ÿˆ 2 dalam masalah kalibrasi.
Dalam studi aplikasi ini, kami menggunakan n1 = 4.929 record data KNHANES yang memiliki no
nilai yang hilang dalam empat variabel: Kolesterol total, Hemoglobin, Trigliserida, dan HDL
kolesterol. Untuk tujuan demonstrasi, kami berasumsi bahwa seorang analis tertarik pada perilaku
Dalam data kami, nilai absolut terbesar dari korelasi berpasangan antar kovariat adalah -
0,40 diamati antara Trigliserida dan kolesterol HDL, yang mirip dengan skenario
n2 = satu juta catatan data NHISS dengan item yang diamati sepenuhnya dalam Kolesterol total ,
Hemoglobin, dan Trigliserida. Model kerja yang diasumsikan untuk menghubungkan sampel eksternal
26
Machine Translated by Google
Dalam studi aplikasi ini, kami menerapkan metode yang kami usulkan dengan sampel eksternal
dimana ÿˆ digunakan sebagai pengganti ÿÿ yang tidak tersedia karena kami tidak memiliki informasi terkait
2
seluruh penduduk. Dengan sampel eksternal yang probabilitas seleksinya tidak diketahui,
kami menyiapkan dua versi metode yang diusulkan: (i) mempertimbangkan S2 sebagai SRS, yaitu, tanpa bobot
hal 7.2. Untuk pembobotan kecenderungan, kami menyesuaikan model rasio densitas log-linear dengan exter
data akhir, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3Total Kolesterol hitung ˆÿ(xi1, yi) diberikan ÿˆ, ,
Metode tersebut dibandingkan dengan metode referensi yang menggunakan sampel internal S1 saja
dapatkan taksiran kuadrat terkecil tertimbang dengan mempertimbangkan bobot pengambilan sampel.
Gambar 1 menunjukkan perkiraan titik dan interval kepercayaan 95% dari ÿˆ = (ÿˆ 0, ÿˆ 1, ÿˆ 2, ÿˆ 3)
untuk setiap metode. Metode yang diusulkan menunjukkan varian yang lebih kecil untuk ÿˆ 0, ÿˆ 1 dan ÿˆ 2 dibandingkan
menggunakan sampel internal saja. Hasil ini bertepatan dengan temuan kami dalam simulasi
kajian pada bagian sebelumnya. Untuk ÿ2, estimator dari metode yang diusulkan tanpa
bobot kecenderungan menunjukkan perbedaan sistematis dari dua estimator lainnya. Kapan
interval ÿ2 terkandung dengan menggunakan sampel internal saja. Hasil ini menyiratkan
bahwa bias sistematis karena pengabaian probabilitas pengambilan sampel diatasi oleh
penyesuaian pembobotan kecenderungan. Tidak ada keuntungan efisiensi dalam memperkirakan ÿ3 yang diharapkan
data eksternal mengandung informasi xi1 (Hemoglobin) dan xi2 (Trigliserida), bukan xi3
(HDL).
27
Machine Translated by Google
Survei Pemeriksaan Kesehatan dan Gizi didukung oleh data eksternal yang besar dari
Database Layanan Berbagi Asuransi Kesehatan Nasional. Untuk setiap panel, lingkaran adalah titik es
timate dan garis adalah interval kepercayaan 95% mereka untuk menggunakan sampel internal S1 saja
dengan kuadrat terkecil tertimbang (garis solid atas), metode yang diusulkan tanpa penyesuaian
(garis putus-putus tengah), dan metode yang diusulkan dengan penyesuaian bobot skor kecenderungan
28
Machine Translated by Google
8 Kesimpulan
Memasukkan sumber data eksternal ke dalam analisis regresi sampel internal adalah sebuah
masalah praktis yang penting. Kami telah mengatasi masalah ini menggunakan aplikasi baru dari
pembobotan kalibrasi model (Wu dan Sitter, 2001). Metode yang diusulkan secara langsung
berlaku untuk pengambilan sampel survei dan dapat dengan mudah diperluas ke beberapa integrasi data. Itu
metode yang diusulkan mudah diimplementasikan dan tidak memerlukan akses langsung ke data eksternal.
model tereduksi tersedia, kami dapat memasukkan informasi tambahan ke dalam analisis kami.
Ada beberapa kemungkinan arah pada ekstensi penelitian di masa depan. Pertama, seorang Bayesian
pendekatan dapat dikembangkan di bawah pengaturan yang sama. Seseorang dapat menggunakan empiris Bayesian
metode kemungkinan Zhao et al. (2020) dalam pengaturan ini. Metode yang diusulkan berpotensi
digunakan untuk menggabungkan data uji klinis acak dengan data dunia nyata yang besar (Yang et al.,
2020); ekstensi tersebut akan disajikan di tempat lain. Menarik juga untuk menghubungkan pendekatan yang diusulkan
dengan desain pengambilan sampel dua fase (ganda) yang desain dan efisiensinya efisien
estimasi baru-baru ini dipelajari secara aktif (Rivera-Rodriguez et al., 2019, 2020; Wang
et al., 2020). Struktur data sampling dua fase dengan besar-n, kecil-p terlebih dahulu
sampel tahap dan sampel tahap kedua kecil-n, besar-p sangat cocok untuk pengaturan
MATERI TAMBAHAN
Lampiran: Pembuktian Lemma 4.1, Lemma 4.2, Teorema 1, dan Teorema 2; keterangan
tentang kasus khusus dengan pengambilan sampel acak sederhana; dan penerapan Chatterjee
29
Machine Translated by Google
Referensi
Chatterjee, N., Y.-H. Chen, P. Maas, dan R. Carroll (2016). Dibatasi maksimal like
estimasi lihood untuk kalibrasi model menggunakan informasi tingkat ringkasan dari eksternal
Chen, YH dan H. Chen (2000). Pendekatan terpadu untuk analisis regresi di bawah ganda
Deville, J.-C. dan C.-E. S¨ardal (1992). Estimator kalibrasi dalam pengambilan sampel survei. Jurnal
Kim, JK (2010). Estimasi kalibrasi menggunakan kemiringan eksponensial dalam survei sampel.
Kim, JK dan JNK Rao (2009). Pendekatan terpadu untuk estimasi varian linearisasi
dari data survei setelah imputasi untuk item nonresponse. Biometrika 96, 917–932.
Kim, JK dan Z.Wang (2019). Teknik pengambilan sampel untuk analisis data besar dalam populasi terbatas
Lohr, SL dan TE Raghunathan (2017). Menggabungkan data survei dengan sumber data lainnya.
30
Machine Translated by Google
Merkouris, T. (2010). Menggabungkan informasi dari beberapa survei dengan menggunakan regresi untuk
estimasi domain kecil yang efisien. Jurnal Masyarakat Statistik Kerajaan: Seri B 72,
27–48.
Owen, A. (1991). Kemungkinan empiris untuk model linier. Sejarah Statistik 19,
1725–1747.
Qin, J. (2000). Menggabungkan kemungkinan parametrik dan empiris. Biometrika 87, 484–490.
Qin, J. dan J. Lawless (1994). Kemungkinan empiris dan persamaan estimasi umum. Itu
Rao, J. (2021). Tentang membuat kesimpulan yang valid dengan mengintegrasikan data dari survei dan lainnya
estimasi kemungkinan semu untuk studi dua fase. Metode statistik dalam re medis
Rivera-Rodriguez, C., D. Spiegelman, dan S. Haneuse (2019). Pada analisis dua fase
desain dalam pengaturan data berkorelasi cluster. Statistik dalam kedokteran 38, 4611–4624.
Sheng, Y., Y. Sun, C.-Y. Huang, dan M.-O. Kim (2021). Sintesis agregat eksternal
31
Machine Translated by Google
Wang, CY, S.Wang, L.-P. Zhao, dan S.-T. Ou (1997). Es semiparametrik tertimbang
waktu dalam analisis regresi dengan data kovariat yang hilang. Jurnal Amerika
Wang, H. dan JK Kim (2021). Estimasi skor kecenderungan menggunakan model rasio kepadatan
Wang, L., ML Williams, Y. Chen, and J. Chen (2020). Desain pengambilan sampel dua fase yang baru
Wu, C. dan J. Rao (2006). Interval kepercayaan rasio kemungkinan empiris semu untuk kompleks
Wu, C. dan RR Sitter (2001). Pendekatan kalibrasi model untuk menggunakan alat bantu lengkap
informasi dari data survei. Jurnal Asosiasi Statistik Amerika 96, 185–
193.
Xu, M. dan J. Shao (2020). Meta-analisis dataset independen menggunakan gen yang dibatasi
Yang, S. dan JK Kim (2020). Integrasi data statistik dalam pengambilan sampel survei: Tinjauan.
Yang, S., D.Zheng, dan X.Wang (2020). Analisis acak terpadu elastis
uji coba dan data dunia nyata untuk estimasi heterogenitas pengobatan. pracetak arXiv
arXiv:2005.10579v2 .
Yuan, K.-H. dan RI Jennrich (1998). Asimtotik memperkirakan persamaan di bawah alami
32
Machine Translated by Google
Zhang, H., L. Deng, W. Wheeler, J. Qin, and K. Yu (2021). Analisis integratif dari banyak
Zhao, P., M. Ghosh, J. Rao, and C. Wu (2020). Inferensi kemungkinan empiris Bayesian
dengan data survei yang kompleks. Jurnal Masyarakat Statistik Kerajaan: Seri B 82, 155–174.
Zubizarreta, JR (2015). Bobot stabil yang menyeimbangkan kovariat untuk estimasi dengan in
33