Survey Data Integration For Regression Analysis Us PDF

Machine Translated by Google
Integrasi data survei untuk analisis regresi

menggunakan kalibrasi model
Hang J. Kimÿ
Divisi Statistik dan Ilmu Data, Universitas Cincinnati, Zhonglei
Wang Wang Yanan Institute for Studies
in Economics, Universitas Xiamen, dan Departemen Statistik Jae
Kwang Kim, Universitas Negeri Iowa
15 Juli 2021
Abstrak
arXiv:2107.06448v1
[stat.ME]
2021
Jul
14
Kami mempertimbangkan analisis regresi dalam konteks integrasi data. Untuk

menggabungkan informasi parsial dari sumber eksternal, kami menggunakan ide kalibrasi
model yang memperkenalkan model tereduksi yang "berfungsi" berdasarkan kovariat
yang diamati. Model tereduksi yang berfungsi belum tentu ditentukan dengan benar tetapi
dapat menjadi perangkat yang berguna untuk memasukkan informasi parsial dari data
eksternal. Implementasi sebenarnya didasarkan pada aplikasi baru dari metode
kemungkinan empiris. Metode yang diusulkan sangat menarik untuk menggabungkan
informasi dari beberapa sumber dengan pola hilang yang berbeda. Metode yang diusulkan
diterapkan pada contoh data nyata yang menggabungkan data survei dari Survei
Pemeriksaan Kesehatan dan Gizi Nasional Korea dan data besar dari Layanan Berbagi
Asuransi Kesehatan Nasional di Korea.
Kata kunci: Data besar, Kemungkinan empiris, Model kesalahan pengukuran, Kovariat yang hilang
ÿPenulis berterima kasih atas dukungan dari National Science Foundation (no. 1733572) dan
Yayasan Ilmu Pengetahuan Alam Nasional Tiongkok (no. 11901487).
1
1. Perkenalan
Integrasi data adalah bidang penelitian yang muncul dalam pengambilan sampel survei. Dengan memasukkan
informasi parsial dari sampel eksternal, seseorang dapat meningkatkan efisiensi yang dihasilkan
estimator dan mendapatkan analisis yang lebih andal. Lohr dan Raghunathan (2017), Yang dan
Kim (2020), dan Rao (2021) memberikan ulasan tentang metode statistik integrasi data
untuk inferensi populasi terbatas. Banyak metode yang ada (misalnya, Hidiroglou, 2001; Merkouris,
2010; Zubizarreta, 2015) terutama berkaitan dengan memperkirakan rata-rata populasi atau total
sementara menggabungkan informasi untuk inferensi analitik seperti analisis regresi tidak sepenuhnya
dieksplorasi dalam literatur yang ada.
Dalam makalah ini, kami mempertimbangkan analisis regresi dalam konteks integrasi data. Kapan
kami menggabungkan sumber data untuk melakukan analisis regresi gabungan, yang mungkin kami temui
beberapa masalah: kovariat mungkin tidak sepenuhnya diamati atau mengalami kesalahan pengukuran.
Dengan demikian, seseorang dapat menganggap masalah tersebut sebagai masalah regresi kovariat yang hilang. Robins et al.
(1994) dan Wang et al. (1997) membahas estimasi semiparametrik dalam analisis regresi
dengan data kovariat yang hilang di bawah asumsi kovariat yang hilang secara acak. Dalam data kami
pengaturan integrasi, sumber data eksternal dengan kovariat yang hilang dapat berupa sensus atau besar
data. Kami akan menyajikan metode integrasi data yang diusulkan terlebih dahulu dengan pengaturan sederhana
di mana tidak ada bias seleksi dalam data eksternal, maka di bawah pengaturan umum di mana
bias seleksi dalam data eksternal juga diatasi dengan penyesuaian probablistik.
Untuk menggabungkan informasi parsial dari sumber eksternal, kami menggunakan ide model
kalibrasi (Wu dan Sitter, 2001) yang memperkenalkan model yang direduksi "bekerja" berdasarkan
kovariat yang diamati. Parameter model dalam model tereduksi diperkirakan dari
sumber eksternal dan kemudian digabungkan melalui aplikasi baru dari kemungkinan empiris
metode (Owen, 1991; Qin dan Lawless, 1994). Model pengurangan kerja belum tentu
2
ditentukan dengan benar, tetapi model kerja yang baik dapat meningkatkan efisiensi yang dihasilkan
analisis. Metode yang diusulkan sangat menarik untuk menggabungkan informasi dari
beberapa sumber data dengan pola hilang yang berbeda. Dalam hal ini, kita hanya perlu menentukan
model kerja yang berbeda untuk pola yang hilang berbeda.
Di bawah pengaturan serupa, Chatterjee et al. (2016) juga mengembangkan metode kalibrasi
berdasarkan kemungkinan maksimum yang dibatasi, yang menggunakan model parametrik penuh untuk
spesifikasi kemungkinan dan batasan yang dikembangkan dari model yang direduksi untuk data
integrasi. Metode kemungkinan maksimum terkendala efisien ketika model
ditentukan dengan benar tetapi tidak berlaku bila sulit atau tidak mungkin untuk ditentukan
fungsi densitas yang benar. Di sisi lain, metode yang kami usulkan didasarkan pada
kondisi momen pertama seperti analisis regresi biasa, sehingga asumsi yang lemah dapat meluas
penerapan metode yang diusulkan untuk banyak masalah praktis. Secara khusus,
metode yang diusulkan dapat langsung diterapkan pada data sampel survei yang menjadi fokus utama
dari kertas kami. Baru-baru ini, Xu dan Shao (2020) mengembangkan metode integrasi data menggunakan
metode umum teknik momen, tetapi metode mereka secara implisit mengasumsikan bahwa
model yang dikurangi ditentukan dengan benar. Sheng dkk. (2021) mengembangkan empiris yang dihukum
pendekatan kemungkinan untuk menggabungkan informasi tersebut dalam pengaturan regresi logistik. Zhang
et al. (2021) juga mengembangkan kerangka kemungkinan empiris retrospektif untuk diperhitungkan
bias pengambilan sampel dalam studi kasus-kontrol. Kami mempertimbangkan pengaturan regresi yang lebih umum dan milik kami
metode kemungkinan empiris yang diusulkan berbeda dari metode kemungkinan empiris mereka
dan tidak mensyaratkan bahwa model pengurangan kerja ditentukan dengan benar.
Kami menyoroti kontribusi makalah kami sebagai berikut. Pertama, kami mengusulkan kesatuan
kerangka kerja untuk menggabungkan sumber data eksternal dalam analisis regresi. Yang diusulkan
metode menggunakan asumsi yang lebih lemah daripada metode yang ada dari Chatterjee et al. (2016)
3
dan dengan demikian memberikan hasil estimasi yang lebih kuat. Kedua, metode yang diusulkan secara luas
berlaku karena dapat dengan mudah menangani beberapa sumber data eksternal seperti yang ditunjukkan dalam Bagian
5. Dapat juga diterapkan pada kasus di mana sumber data eksternal dapat dipilih
bias. Dalam aplikasi data nyata di Bagian 7, kami menunjukkan bahwa metode yang kami usulkan bisa
memanfaatkan data besar eksternal dengan probabilitas seleksi yang tidak diketahui dengan menerapkan kecenderungan
penyesuaian bobot skor. Akhirnya, metode yang kami usulkan mudah diterapkan dan sepenuhnya
dibenarkan secara teoritis. Komputasi adalah aplikasi langsung dari standar empiris
metode likelihood dan dapat dengan mudah diimplementasikan menggunakan perangkat lunak yang ada.
Makalah ini disusun sebagai berikut. Di Bagian 2, pengaturan dasar diperkenalkan, dan
metode yang ada disajikan. Bagian 3 menyajikan pendekatan yang diusulkan dan Bagian 4
memberikan sifat asimtotiknya. Dalam Bagian 5, aplikasi untuk integrasi beberapa data
Dipersembahkan. Bagian 6 menyajikan dua studi simulasi terbatas, diikuti dengan penerapannya
dari metode yang diusulkan ke data nyata di Bagian 7. Beberapa kesimpulan dibuat di
Bagian 8.
2 Pengaturan Dasar
Pertimbangkan populasi terbatas U = {1, . . . , N} dengan ukuran N. Dikaitkan dengan record ke-i,
misalkan yi menunjukkan variabel studi yang diminati dan xi = (xi1, xi2) bantu yang sesuai
vektor panjang p. Kami tertarik untuk mengestimasi parameter populasi ÿ0 , yang dipecahkan
U1(ÿ) = iÿU U1(ÿ; xi , yi) = 0 di mana U1(ÿ; x, y) adalah fungsi estimasi yang ditentukan sebelumnya
untuk ÿ. Salah satu contoh fungsi penduga adalah U1(ÿ; xi , yi) = {yi ÿm1(xi ; ÿ)}h1(xi ; ÿ),
yang secara implisit didasarkan pada model regresi E(Yi | xi) = m1(xi ; ÿ) pada super
tingkat populasi untuk beberapa h1(xi ; ÿ) yang memenuhi kondisi identifikasi tertentu (misalnya, Kim
4
dan Rao, 2009). Dari populasi hingga sampel probabilitas S1 ÿ U dihasilkan, dan estimator Z ÿˆ dapat
diperoleh dengan menyelesaikan
Uˆ 1(ÿ) ÿ diU1(ÿ; xi , yi) = 0, (1)

iÿS1
di mana di adalah bobot sampling untuk unit i ÿ S1.
Selain S1, misalkan kita mengamati xi1 dan yi di seluruh populasi terbatas dan ingin memasukkan
informasi tambahan ini untuk meningkatkan efisiensi estimasi ÿˆ.
Chen dan Chen (2000) pertama menganggap masalah ini dalam konteks kesalahan pengukuran
model. Untuk menjelaskan ide mereka dalam penyiapan kami, pertama-tama kami mempertimbangkan model yang direduksi "berfungsi",
E(Yi | xi1) = m2(xi1; ÿ) (2)
untuk beberapa ÿ. Di bawah model kerja (2), kita dapat memperoleh estimator ÿˆ dari arus
sampel S1 dengan memecahkan
Uˆ 2(ÿ) ÿ diU2(ÿ; xi1, yi) = 0, (3)

iÿS1
di mana U2(ÿ; xi1, yi) = {yiÿm2(xi1; ÿ)}h2(xi1; ÿ) untuk beberapa h2(xi1; ÿ) kondisi yang memuaskan serupa
dengan yang dikenakan pada h1(xi ; ÿ). Perhatikan bahwa pengaturan kami mempertimbangkan situasi di mana
subset dari data individu (xi1, yi) diamati sepenuhnya di seluruh populasi terbatas U.
Oleh karena itu, seseorang bisa mendapatkan ÿÿ yang memecahkan Ni=1 U2(ÿ; xi1, yi) = 0. Chen dan Chen (2000)
diusulkan menggunakan
ÿ
ÿ1
ÿˆ = ÿˆ + Cov (ÿˆ, ÿˆ ){Vˆ (ÿˆ )} (ÿ ÿ ÿ ÿˆ )
sebagai estimator ÿ yang efisien, di mana Vˆ (·) dan Cov (·) menunjukkan varian berbasis desain dan
estimator kovarians, masing-masing. Model kerja di (2) belum tentu benar
ditentukan, tetapi model kerja yang baik dapat meningkatkan efisiensi estimator akhir.
5
Seseorang juga dapat mengadopsi kemungkinan maksimum terbatas (CML) yang mirip dengan Chatterjee
et al. (2016), yang awalnya disarankan dalam konteks pengambilan sampel non-survei. Dibawah
pengaturan pengambilan sampel survei, kita dapat menafsirkan Chatterjee et al. (2016) sebagai estimasi CML
pendekatan ketika ÿ adalah parameter dalam distribusi bersyarat Yi diberikan Xi dengan kepadatan
f(yi | xi ; ÿ), dan estimasi CML dapat dinyatakan sebagai menemukan ÿ yang maksimal
lp(ÿ) = di log f(yi | xi ; ÿ) (4)

iÿS1
tunduk pada
di U2(ÿ ÿ ; xi1, y)f(y | xi ; ÿ)dy = 0. (5)

iÿS1
Kendala (5) dapat dipahami sebagai kendala bagi parameter ÿ untuk memenuhi E{U2(ÿÿ ; xi1, Yi) |
xi ; ÿ} = 0. Dengan menerapkan batasan ini ke dalam estimasi kemungkinan maksimum, ex
informasi internal ÿÿ dapat digabungkan secara alami.
Metode CML tidak secara langsung dapat diterapkan pada model rata-rata bersyarat kami di (1) sebagai
fungsi kemungkinan untuk ÿ tidak ditentukan dalam pengaturan kami. Meskipun demikian, seseorang dapat menggunakan tujuan
fungsi seperti itu dalam Metode Momen Umum untuk menerapkan opsi terkendala
masalah misasi, yang secara asimtotik ekuivalen dengan metode kemungkinan empiris
(Imbens, 2002). Chatterjee dkk. (2016) juga mencatat bahwa pendekatan CML dapat diformulasikan
menggunakan metode kemungkinan empiris dari Qin dan Lawless (1994) dan Qin (2000).
Namun, mereka tidak secara eksplisit membahas bagaimana merumuskan CML sebagai aplikasi
metode kemungkinan empiris.
6
3 Usulan Pendekatan
Kami sekarang menggunakan kerangka kemungkinan empiris untuk memasukkan informasi tambahan.
Masalah kalibrasi klasik dapat dirumuskan sebagai menemukan bobot kalibrasi
w = {wi : i ÿ S1} berdasarkan fungsi objektif tertentu Q(d, w) dengan beberapa kalibrasi
kendala (Deville dan Särdal, 1992) di mana d = {di : i ÿ S1}. Untuk fungsi tujuan,
kita dapat menggunakan fungsi kemungkinan empiris semu
P(d, w) = di log(wi) (6)

iÿS1
dipertimbangkan oleh Wu dan Rao (2006) atau fungsi entropi maksimum Q(d, w) = dalam Kim iÿS1 wi log(wi/di)
(2010). Kendala kalibrasi kami adalah
wiU2(ÿ ÿ ; xi1, yi) = 0, (7)

iÿS1
di mana ÿÿ adalah informasi eksternal untuk model tereduksi yang berfungsi. Ini adalah semangat yang sama
menggunakan (5) tetapi tanpa memperkenalkan fungsi kerapatan bersyarat f(y | x; ÿ). Jadi, kami
dapat menggunakan metode kalibrasi model berikut untuk estimasi ÿ yang efisien sebagai berikut:
1. Gunakan model pengurangan kerja (2) untuk mendapatkan ÿÿ dari populasi hingga.
2. Tentukan bobot kalibrasi wˆ = {wî : i ÿ S1} dengan memaksimumkan Q(d, w) sesuai dengan persamaan (7).
3. Setelah solusi wˆ diperoleh dari kalibrasi, perkirakan ÿ dengan pemecahan
wîU1(ÿ; xi , yi) = 0. (8)

iÿS1
Jika tolok ukur ÿÿ tidak tersedia dari populasi terbatas tetapi dapat diestimasi
dari sampel eksternal independen, kita dapat menggunakan informasi dari kedua aslinya
7
sampel internal dan sampel eksternal untuk mendapatkan estimasi benchmark. Secara praktis
situasi, kita mungkin tidak memiliki akses ke data mentah dari sampel eksternal tetapi sering
dapat memiliki statistik ringkasannya. Misalkan sampel eksternal memberikan titik
estimator ÿˆ 2 dan penaksir variannya V 2 = Vˆ (ÿˆ 2) untuk model kerja tereduksi pada (2).
Kemudian, estimator dari benchmark ÿÿ dapat diperoleh dengan
ÿ1 ÿ1 ÿ1 ÿ1 ÿ1
ÿˆ ÿ = (V +V 2 ) (V ÿˆ 1 + V ÿˆ 2) (9)
1 1 2
dimana ÿˆ
1
dan V1 diperkirakan dengan sampel internal S1. Sekali ÿˆ ÿ
diperoleh dengan (9),
itu menggantikan ÿÿ dalam persamaan kalibrasi pada (7).
Mirip dengan Wu dan Sitter (2001), metode yang diusulkan tidak memerlukan model kerja yang “benar”
seperti yang dijelaskan di bawah ini. Biarkan Uˆ ext(ÿ) = 0 menjadi persamaan estimasi untuk mendapatkan
ÿÿ dihitung dari sampel eksternal S2. Sekarang, fungsi estimasi akhir untuk ÿ menggunakan kalibrasi model
Uˆ cal(ÿ) = iÿS1 wîU1(ÿ; xi , yi) dapat didekati dengan
Uˆ kal(ÿ) .= Uˆ 1(ÿ) + K Uˆ ext(ÿ) ÿ Uˆ 2(ÿ) (10)
untuk beberapa K di mana Uˆ 1(ÿ) dan Uˆ 2(ÿ) masing-masing dihitung dengan (1) dan (3), dari
sampel internal S1. Perkiraan dalam (10) dapat dengan mudah diturunkan menggunakan asymp
kesetaraan totik dari estimator kalibrasi dan estimator regresi. Jadi, bahkan jika E{Uˆ ext(ÿÿ )} tidak sama
dengan nol, solusi untuk Uˆ cal(ÿ) = 0 konsisten selama E{Uˆ ext(ÿÿ ) ÿ Uˆ 2(ÿÿ )} = 0.
Meskipun model kerja E(Yi |xi1) = m2(xi1; ÿ) tidak perlu ditentukan dengan benar, kita dapat secara
sistematis menemukan U2(ÿ; xi1, yi) dengan memasukkan konstruksinya sebagai hilang
masalah kovariat, mengandalkan teknik kalibrasi regresi. Misalnya, misalkan
bahwa xi = (xi1, xi2), kami menetapkan prediktor ˆxi2 = ÿ0 + ÿ1xi1, dan persamaan estimasi adalah
8
ditulis oleh
U1(ÿ; xi1, xî2, yi) = {yi ÿ m1(xi1, xî2; ÿ)}h1(xi1, xî2; ÿ) (11)
untuk fungsi kontrol metode kalibrasi model di mana ÿ = (ÿ0, ÿ1). Kita juga bisa
perkirakan ÿ dari sampel S1 atau gunakan nilai parameter tetap apa pun selama solusinya
iÿS1 diU1(ÿ; xi1, xî2, yi) = 0 unik. Estimator patokan ÿ dapat diperoleh
menggunakan sampel eksternal untuk menerapkan metode kalibrasi model yang diusulkan. Jika kita menggunakan
fungsi kontrol pada (11), maka pada dasarnya kita memperlakukan regresi y pada x1 dan ˆx2
sebagai model "berfungsi" untuk kalibrasi model. Ini hanya layak jika kita memiliki langsung
akses ke sampel eksternal S2 selain sampel internal S1.
4 Sifat teoritis
Pada bagian ini, kami menyelidiki sifat asimtotik dari estimator yang diusulkan ÿˆ
ke (8). Karena parameter populasi termasuk ÿ0 dan ÿÿ ditentukan oleh yang terbatas
populasi ukuran N, kami secara eksplisit menggunakan subskrip N untuk yang ada di bagian ini, misalnya, ÿ0N dan
ÿÿN , tetapi kami menghilangkan subskrip ini untuk (dixi , , yi) untuk kesederhanaan. Kami mempertimbangkan dua skenario:
ketika ÿÿ
N tersedia dari populasi yang terbatas dan ketika kita hanya memiliki sampel eksternal
untuk memperkirakan ÿÿ
N oleh kuadrat terkecil yang digeneralisasikan dalam (9).
4.1 ÿÿ N tersedia
Misalkan ˜di = Nˆ ÿ1di di mana Nˆ = iÿS1 di adalah penaksir populasi Horvitz–Thompson
ukuran N. Mengganti di dengan ˜di dalam (6), kami mempertimbangkan masalah Lagrangian yang memaksimalkan
l(w,ÿ,ÿ) = ˜di log(wi) + ÿ wiU2(ÿ ÿ N ; xi1, yi) + ÿ wi ÿ 1

iÿS1 iÿS1 iÿS1
9
di mana ÿ dan ÿ adalah pengali Lagrange.

Dengan mengatur ÿl(w,ÿ, ÿ)/ÿÿ = 0, ÿl(w,ÿ, ÿ)/ÿÿ = 0 dan ÿl(w,ÿ, ÿ)/ÿwi = 0 untuk i ÿ S1 ,
ÿ1
kita mendapatkan ÿˆ = ÿ1 dan ˆwi = ˜di{1 ÿ ÿ U2(ÿÿN ; xi1, yi)} . Kemudian, metode yang diusulkan adalah
setara dengan memecahkan g(ÿ,ÿ) = 0 dimana
˜di
ÿ U1(ÿ; xi , yi) ÿ
1 ÿ ÿ U2(ÿÿ N ; xi1, yi)
g(ÿ,ÿ) = . (12)
˜di
U2(ÿ ÿN ; xi1, yi)
iÿS1iÿS11 ÿ ÿ U2(ÿÿ N ; xi1, yi)
ÿÿÿÿÿ ÿÿÿÿÿ
Nyatakan solusi untuk (12) sebagai ÿˆ = ÿˆ ,ÿˆ . Untuk menyelidiki sifat asimtotik dari
ÿˆ, kami mengusulkan kondisi keteraturan berikut.
C1. Terdapat himpunan kompak A sehingga ÿÿN ÿ A untuk N ÿ N dan
ZS = supÿÿA maxiÿS1 U2(ÿ; xi1, yi) = op(n 1/2 ) di mana · menunjukkan Euclidean
norma dan urutan stokastik sehubungan dengan desain sampling.
C2. Desain pengambilan sampel memenuhi hasil konvergensi berikut.
sebuah. Ada himpunan kompak ÿ sehingga ÿ0N ÿ ÿ untuk N ÿ N dan titik interior
dari ÿ, ÿp , sehingga limNÿÿ ÿ0N = ÿp .
˜diU1(ÿ; xidi mana

b. Ada fungsi kontinu U0(ÿ) di atas ÿ sehingga supÿÿÿ iÿS1 , yi)ÿ U0(ÿ) ÿ 0 dalam probabilitas
ÿp adalah solusi unik untuk U0(ÿ) = 0.
c. iÿS1 ˜diÿU1(ÿ0N ; xi , yi)/ÿÿ = I11 + op(1) di mana I11 non-stokastik dan dalam
vertikal.
d. iÿS1 ˜diU1(ÿ0N ; xi , yi)U2(ÿÿ N ; xi1, yi) = I12+op(1) di mana I12 non-stokastik.
10
ÿ2
e. iÿS1 ˜diU2(ÿÿ N ; xi1, yi) = I22 +op(1) di mana Aÿ2 = AA untuk sembarang matriks A dan
I22 non-stokastik dan definitif positif.
C3. Desain sampling memenuhi
n 1/2 ÿ U1(ÿ0N ; xi , yi) ÿ

˜di ÿ N (0, ÿu)
N ; xi1, yi)
ÿ U2(ÿÿ
iÿS1
ÿ
dalam distribusi di mana N (0, ÿu) adalah distribusi normal dengan rata-rata nol dan kovarians
matriks
ÿ11 ÿ12
ÿ ÿ
ÿu =
ÿ21 ÿ22
ÿ ÿ.
C1 adalah syarat teknis untuk memperoleh orde asimtotik ÿˆ, dan syarat serupa adalah
juga diasumsikan oleh Wu dan Rao (2006); lihat kondisi mereka C1 untuk detailnya. C2 mengasumsikan beberapa
hasil konvergensi untuk dua fungsi estimasi. Secara khusus, C2a menunjukkan parameternya
ruang parameter populasi hingga ÿ0N , dan konvergensi ÿ0N dapat dipenuhi dalam kondisi keteraturan. Kondisi
C2b diperlukan untuk menunjukkan probabilitas ÿˆ ÿÿp ÿ 0, kemudian probabilitas ÿˆ ÿ ÿ0N ÿ 0, ditambah dengan
C2a. Kondisi C2c–C2e menjamin
teorema limit pusat untuk ÿˆ. Perhatikan bahwa I22 simetris dengan C2e, tetapi I11 dalam C2c mungkin simetris
asimetris untuk fungsi estimasi tertentu U1(ÿ; x, y). Kondisi C3 terpenuhi di bawah
kondisi keteraturan untuk desain pengambilan sampel umum; lihat Fuller (2009, Bagian 1.3) untuk detailnya.
Lemma 4.1 Misalkan kondisi C1, C2e dan C3 terpenuhi. Maka, ÿˆ = Op(n ÿ1/2 ).
Bukti Lemma 4.1 disajikan pada Bagian ?? dari Bahan Tambahan. Lemma 4.1 menetapkan bahwa ÿˆ = op(1),
dan penting untuk menyelidiki distribusi asimptotik dari
ÿˆ.
11
Lemma 4.2 Misalkan kondisi C1, C2a–C2e dan C3 terpenuhi. Maka, ÿˆ ÿ ÿ0N = op(1).
Bukti Lemma 4.2 disajikan pada Bagian ?? dari Bahan Tambahan. Oleh
Lemma 4.1–4.2, kita simpulkan bahwa ÿˆ ÿ ÿ0 = op(1) dimana ÿ0 = (0 , ÿ 0N ) . Jadi, kita bisa
gunakan ekspansi Taylor untuk menetapkan teorema limit pusat berikut untuk ÿˆ.
Teorema 1 Misalkan kondisi C1–C3 berlaku. Lalu, n 1/2 (ÿˆ ÿ ÿ0 ) ÿ N (0, ÿÿ) dalam
distribusi di mana ÿÿ = I ÿ1ÿu(I ÿ1 ) dan
saya = ÿ I11 I12 ÿ
ÿ 0 I22 ÿ.
Pembuktian Teorema 1 disajikan pada Bagian ?? dari Bahan Tambahan. Dengan 1/2 (ÿˆ ÿ ÿ0N ) ÿ N (0, ÿÿ)
dalam distribusi di mana Teorema 1, kita dapat memperoleh n
ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 T
ÿÿ = I 11 ÿ11(I 11 ) TÿI 11 I12I 22 ÿ21(I 11 ) TÿI 11 ÿ12I 22
Saya
12 (I 11 ) T+I 11 I12I 22 ÿ22I 22
Saya
12(Saya11 )
1/2
sesuai dengan varian asimptotik dari n , yi) dan ˜diU2(ÿÿ N ; xi1, yi), masing-masing. Dalam kondisi keteraturan,
˜diU1(ÿ0N
itu dapat
iÿS1 ; xi ditampilkan
dan ÿ11 dan ÿ22
n 1/2
iÿS1
ÿ1 ÿ1 ÿ1
bahwa ÿÿ = I 11 (ÿ11 ÿ ÿ12ÿ 22 ÿ21)(I 11 ) untuk pengambilan sampel acak sederhana dengan atau
ÿ1 ÿ1
penggantian. Sejak aku 11 ÿ11(I varian asimtotik dari n tanpa 1/2mana
(ÿˆ mÿˆÿ 11
ÿ0N) adalah
) di m
memecahkan
iÿS1 diU1(ÿ; xi , yi) = 0, yang
pendekatan
diusulkan mencapai estimasi efisien di bawah
contoh acak sederhana; lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya.
12
4.2 Estimator eksternal ÿˆ 2 tersedia
ÿ
Ketika ÿÿ tidak tersedia tetapi sampel eksternal tersedia untuk mendapatkan ÿˆ dalam (9), kami mempertimbangkan
ÿ ÿ U1(ÿ; xi , yi) ; xi1, yi) ÿ

˜di 1 ÿ ÿ U2(ÿˆ
g˜(ÿ) = . (13)
˜di ÿ
ÿ U2(ÿˆ ; ; xi1, yi)

iÿS1iÿS1
1 ÿ ÿ U2(ÿˆ xi1, yi)
ÿÿÿÿÿ ÿÿÿÿÿ
Nyatakan ÿ˜ sebagai solusi dari ˜g(ÿ) = 0. Kemudian, asumsi tambahan berikut adalah
diperlukan untuk mendapatkan sifat asimtotik untuk ÿ˜.
C4. ˜diÿU2(ÿ; xi1, yi)/ÿÿ = I(ÿ)+op(1) secara seragam untuk ÿ ÿ A di mana I(ÿ) bukan
iÿS1
stokastik. Selain itu, terdapat matriks I0 yang dapat dibalik sehingga limNÿÿ I(ÿÿ N )=
saya0.
C5. Desain pengambilan sampel dan sampel eksternal memenuhi hasil konvergensi berikut.
(a) Keduanya ÿˆ 1 dan ÿˆ 2 konsisten untuk ÿÿ .
(b)V 1 dan V 2 adalah estimator varians desain yang konsisten dari ÿˆ 1 dan ÿˆ 2, masing-masing.
ÿ1 ÿ1 ÿ1
(CV 1,
V 2, dan (V 1 + V2 )ÿ1 ÿ1
ada dalam probabilitas.
ÿ1 ÿ1 ÿ1
(d) (V 1 +V 2 ) ÿ1V = W + op(1) di mana W non-stokastik.
2
(e) Terdapat fungsi penskalaan ÿ(n) sehingga ÿ(n)(ÿˆ 2 ÿ ÿÿ ) ÿ N (0, ÿ2) di
distribusi di mana ÿ2 memenuhi ÿ(n) 2V 2 = ÿ2 + op(1).
C4 digunakan untuk mendapatkan orde asimtotik dan varian ÿˆ

ÿ
ÿ ÿÿ N,
dan serupa
Kondisi ini digunakan oleh Yuan dan Jennrich (1998). C5a dan C5b mengasumsikan konsistensi dari
13
ÿˆ 2 dan V 2 diperoleh dari sampel eksternal. Untuk konsistensi ÿˆ 1, kondisi cukup
mirip dengan C2b. Konsistensi desain estimator varians V 1 dapat diperoleh
di bawah desain pengambilan sampel umum; lihat Fuller (2009, Bab 1) untuk detailnya. jaminan C5c
adanya ÿˆ ÿ
untuk metode yang diusulkan. C5e menunjukkan teorema limit pusat dengan
sehubungan dengan ringkasan statistik ÿˆ 2, dan digunakan untuk mendapatkan hasil yang sama dengan C3
ÿ1
, yang
ÿ
ÿÿ diganti dengan ÿˆ . Secara khusus, tingkat konvergensi (ÿˆ 2 ÿ ÿÿ ) adalah ÿ(n)
ditentukan oleh sampel eksternal.
Teorema berikut menetapkan distribusi asimtotik yang mirip dengan yang ada di C3.
Teorema 2 Misalkan kondisi C1 dan C3–C5 terpenuhi. Kemudian,
n 1/2 ÿ U1(ÿ0 ; xi , yi) ÿ

˜di ÿ N (0, ÿ˜ u) ÿ
ÿ
iÿS1 ÿ U2(ÿˆ ; xi1, yi)
dalam distribusi di mana

ÿ˜ 11 ÿ˜ 12
ÿ˜ = ÿ ÿ
kamu
ÿ˜ 21 ÿ˜ 22
ÿ ÿ
Kasus 1. Khususnya, jika ada matriks non-stokastik ÿc sehingga nV 2 = ÿc +
T
op(1), lalu ÿ˜ 11 = ÿ11, ÿ˜ 12 = ÿ12(I
ÿ1
) WI ÿ˜ 21 = ÿ˜ dan ÿ˜ 22 = I0W{ÿc +
0 0, 12
ÿ1 ÿ1
Saya
0 ÿ22(I 0 ) T}WTI T ; Hai
Kasus 2. Jika W = 0, maka ÿ˜ aku j

= 0 untuk (i, j) = (1, 1) dan ÿ˜ 11 = ÿ11.
Bukti Teorema 2 disajikan pada Bagian ?? dari Bahan Tambahan. Untuk
Kasus 1, jika ÿˆ2 diperkirakan dari sampel eksternal jauh lebih efisien daripada ÿˆ dalam arti ) = op(n ÿ1/2 ),
dari (ÿˆ 2 ÿ ÿÿN maka W adalah matriks identitas dan ÿ˜ aku j

= ÿij untuk i, j = 1, 2.
Dengan demikian, kita dapat mengabaikan variabilitas statistik ringkasan ÿˆ2 dari sampel eksternal
dan dapatkan distribusi asimtotik yang sama seperti di C3. Meskipun distribusi asimtotik
14
sama, C3 dengan ÿÿ yang diketahui bukan kasus khusus dari Teorema 2 karena ÿˆ = ÿÿ
N 2 N
memiliki varians nol, yang melanggar C5c–C5e. Sebaliknya, jika (ÿˆ 2 ÿ ÿÿ n ÿ1/2 in)
N
probabilitas, maka ÿˆ 2
seefisien ÿˆ 1. Jadi, W bukan matriks identitas atau nol
ÿ
matriks, dan metode yang diusulkan lebih efisien daripada mengganti ÿÿ dengan ÿˆ = ÿˆ 2 jatuh tempo
informasi tambahan yang diberikan oleh sampel eksternal. Itu sepele yang tidak bisa kita gunakan
ÿˆ 1 untuk mengganti ÿÿ di (7); jika tidak, kita mendapatkan ˆwi , dan (8) setara dengan tradisional
persamaan estimasi = ˜di ˜diU1(ÿ; xi

tanpa
, yi) kalibrasi.
=0 Jika ÿˆ 2
kurang efisien
iÿS1
dari ÿˆ 1 dalam hal tingkat konvergensi, maka kita sebaiknya tidak menggunakan sampel eksternal seperti itu untuk
metode yang diusulkan karena ÿˆ ÿÿÿÿ = ÿˆ 1ÿÿÿ+op(n ÿ1/2 ) dan n 1/2

iÿS1 ˜diU2(ÿˆ ÿ ; xi1, yi) =
op(1); lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya. Dengan C5, kita dapat memperoleh hasil konsistensi
yang sama pada Lemmas 4.1–4.2 untuk (13) dalam kondisi yang sama. Jadi, oleh
Teorema 2, diperoleh distribusi asimptotik berikut untuk ÿ˜.
Konsekuensi 1 Misalkan kondisi C1–C5 berlaku. Kemudian, kami memiliki n dalam 1/2 (ÿ˜ÿÿ0 ) ÿ N (0, ÿ˜ ÿ)
distribusi di mana ÿ˜ = I ÿ1ÿ˜ u(I

ÿ1
) , bentuk I ada pada Teorema 1, dan bentuk dari
ÿ
ÿ˜ dalam Teorema 2.
ÿ
Akibat wajar 1 dapat dibuktikan dengan prosedur serupa untuk Teorema 1, sehingga pembuktiannya dihilangkan.
5 Integrasi beberapa data
Kami sekarang mempertimbangkan analisis regresi yang menggabungkan informasi parsial dari sampel eksternal.
Untuk menjelaskan ide tersebut, Tabel 1 menunjukkan contoh struktur data dengan tiga sumber data (A,
B, C) di mana Sampel A berisi semua pengamatan sedangkan sampel B dan C berisi sebagian
observasi.
15
Tabel 1: Struktur data untuk integrasi survei
Sampel Bobot Sampling z x1 x2 y
SEBUAH
da
B db
C dc
Di bawah pengaturan Tabel 1, misalkan kita tertarik untuk memperkirakan parameter
dalam model regresi E(Y |x1, x2) = m1(ÿ0 + ÿ1x1 + ÿ2x2) dimana m1(·) diketahui tetapi ÿ = (ÿ0, ÿ1, ÿ2) tidak
diketahui. Persamaan estimasi untuk ÿ menggunakan sampel A dapat ditulis
sebagai
Uˆ a(ÿ) ÿ da,i{yi ÿ m(xi1, xi2; ÿ)}h(xi1, xi2; ÿ) = 0, (14)

iÿA
untuk beberapa h(xi1, xi2; ÿ) sehingga Uˆ a(ÿ) bebas linier hampir di semua tempat.
Sekarang, kami ingin memasukkan sebagian informasi dari sampel B. Untuk melakukannya, misalkan
bahwa kami memiliki model "berfungsi" untuk E(Y |x1, z):
E(Y |x1, z) = m2(x1, z; ÿ) (15)
untuk beberapa ÿ. Perhatikan bahwa, sejak (zi , x1i , yi) diamati, kita dapat menggunakan sampel B untuk memperkirakan
pemecahan iÿB ÿ dengan db,iUb(ÿ; xi1, zi , yi) = 0 untuk beberapa Ub yang memenuhi E{Ub(ÿ; x1, z, Y )|x1, z} = 0
di bawah model kerja (15).
Demikian pula, untuk memasukkan informasi parsial dari sampel C, anggaplah kita memilikinya
model "berfungsi" untuk E(Y |x2, z):
E(Y |x2, z) = m3(x2, z; ÿ) (16)
16
untuk beberapa ÿ. Kami juga dapat membuat persamaan estimasi yang tidak bias iÿC dc,iUc(ÿ; xi2, zi , yi) = 0
untuk beberapa Uc yang memuaskan E{Uc(ÿ; x2, z, Y ) | x2, z} = 0 di bawah model kerja (16).
Setelah ÿˆ dan ÿˆ diperoleh, kita dapat menggunakan informasi tambahan ini untuk meningkatkan efisiensi ÿˆ
dalam (14). Untuk memasukkan informasi tambahan, kita dapat merumuskannya sebagai memaksimalkan Q(da,
w) = da,i log (wi) tunduk

iÿA pada iÿA wi = N dan
wi [Ub(ÿˆ ; xi1, zi , yi), Uc(ÿˆ; xi2, zi , yi)] = 0 (17)

iÿA
di mana da dan w adalah himpunan yang berisi bobot sampling dan bobot kalibrasi dengan
sehubungan dengan sampel A. Kendala (17) memasukkan informasi tambahan. Setelah solusi wî{yiÿm(xi1, xi2;
wî diperoleh, kita bisa menggunakan iÿA ÿ)}h(xi1, xi2; ÿ) = 0 untuk memperkirakan ÿ. Itu
hasil asimtotik dapat diperoleh dengan cara yang sama di Bagian 4.
6 Studi simulasi
Untuk mengevaluasi kinerja sampel terbatas dari estimator yang diusulkan, kami melakukan sim
studi ulasi dengan asumsi beberapa skenario. Kami menghasilkan populasi terbatas dengan ukuran N =
100.000, setiap record terdiri dari variabel pembantu xi = (xi1, xi2) dengan panjang p = 2 dan variabel respon yi .
Kita asumsikan bahwa (xi , yi) tersedia untuk sampel internal S1 while
hanya (xi1, yi) yang tersedia untuk populasi terbatas U atau sampel eksternal S2. Sebagai perbandingan
ison, kami mengasumsikan model regresi linier dan model regresi logistik untuk U1(ÿ; xi , yi),
pertimbangkan skenario di mana xi1 dan xi2 independen atau dependen, dan perkenalkan
beberapa kesalahan pengukuran dalam komponen acak.
17
6.1 Penyiapan model regresi linier
Kami pertama-tama mengevaluasi kinerja estimator yang diusulkan di bawah regresi linier
mempersiapkan. Dalam hal ini, kami tertarik untuk membuat inferensi statistik untuk ÿ = (ÿ0, ÿ1, ÿ2)
yang memecahkan N
i=1(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0.
Pertama, kami mempertimbangkan dua skenario untuk menghasilkan kovariat untuk populasi terbatas: (i)
2
xi1 ÿ N(3, 1) dan xi2 ÿ N(11, 6.5 ) dimana xi1 dan xi2 saling bebas; (ii) xi1 ÿ N(3, 1) i1+N(0, 1).
dan xi2 = x 2
Parameter simulasi dipilih sedemikian rupa sehingga rata-rata marjinal
dan varian xi2 serupa dalam pengaturan independen dan dependen. Kedua,
variabel respon dihasilkan sebagai Yi = 1 + 2xi1 + xi2 + kÿi dalam dua skenario: (i) ÿi ÿ N(0, 1) dengan k = 3
dan (ii) ÿi ÿ t3 dengan k = ÿ 3 di mana t3 adalah a t-distribusi dengan
3 derajat kebebasan. Terakhir, kami mempertimbangkan dua desain pengambilan sampel untuk menghasilkan probabilitas
sampel S1 dengan ukuran n1 = 1.000: (i) pengambilan sampel Poisson dengan probabilitas inklusi yang
N
memenuhi ÿi ÿ (yi ÿ mini yi + 10)1/2 dan i=1 ÿi = n1, dan (ii) pengambilan sampel acak sederhana (SRS)
tanpa penggantian.
N
Untuk estimator yang diusulkan, kami mempertimbangkan model pengurangan kerja berikut, i=1(yiÿ
ÿ0 ÿ ÿ1xi1)(1, xi1) = 0, yang solusinya dilambangkan dengan ÿÿ . Untuk ketersediaan data, kami
asumsikan dua skenario: (i) ÿÿ tersedia dengan populasi terbatas U di mana (8) digunakan
mengandalkan Teorema 1, dan (ii) hanya sampel eksternal S2 dengan ukuran sampel n2 = 10.000 yang
ditarik oleh SRS tanpa penggantian yang tersedia di mana ÿÿ diganti dengan estimatornya di (9) untuk
kalibrasi model, mengandalkan Teorema 2.
Dalam studi simulasi, estimator yang diusulkan dibandingkan dengan beberapa alterna
tives. Pertama, kami mempertimbangkan penaksir dengan sampel probabilitas S1 saja, solusinya
dari di(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0. Kedua, kita menganggap sebuah konstrain
iÿS1
estimator kemungkinan maksimum (CML) dengan mengutak-atik Chatterjee et al. (2016) untuk survei
18
konteks pengambilan sampel, dengan mengandalkan (4) dan (5). Kita asumsikan distribusi normal untuk
fungsi likeli hood, yaitu yi | xi ÿ N{(1, x saya

)ÿ, ÿ2 full}, sehingga merupakan model yang tepat untuk data
simulasi dengan ÿi ÿ N(0, 9) sedangkan misspecified untuk data simulasi dengan ÿi ÿ t3. Kami juga menganggap
bahwa seorang analis mengasumsikan yi | xi1 ÿ N{(1, xi1)ÿ, ÿ2 red} untuk model kerja tereduksi dan temukan
solusinya (ÿÿ , ÿ2ÿ red) untuk
N N 2
1 1 {yi ÿ (1, xi1)ÿ}
yiÿ (1, xi1)ÿ ÿ ÿ = 0 dan ÿ
+ = 0.
4
2ÿ 2 2ÿ 2ÿ
merah _
xi1 merah merah
saya=1
ÿ ÿ saya=1
Lihat Bagian A6.1 dari Bahan Pelengkap untuk rincian perhitungan. Ketiga, kami
pertimbangkan estimator CML di bawah pengaturan di mana informasi tambahan dari (yi , xi1) berada
tersedia untuk sampel eksternal, bukan untuk seluruh populasi.
Tabel 2 dan 3 menunjukkan hasil simulasi untuk estimator dengan probabilitas internal
sampel S1 saja (hanya S1), metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U)
dan untuk sampel eksternal (Prop-S2), dan estimator CML berdasarkan
Metode seperti Chatterjee menggunakan informasi tambahan dari populasi terbatas (CML-U) dan
dari sampel eksternal (CML-S2). Kami melakukan 1.000 simulasi Monte Carlo untuk setiap skenario, dan
menghitung bias Monte Carlo dari ÿˆ, kesalahan kuadrat rata-rata akarnya, dan cakupan
tingkat interval kepercayaan 95%. Untuk estimasi varians, kami menggunakan sandwich standar
rumus untuk S1-Saja dan Proposisi 1 dari Chatterjee et al. (2016) untuk CML-U. Namun,
karena ÿÿ diperkirakan dengan menggabungkan dua sampel, estimasi varian CML-S2 tidak
dengan mudah dihitung.
Tabel 2 menunjukkan hasil simulasi di bawah pengambilan sampel Poisson untuk sampel internal S1. Kapan
xi1 dan xi2 dihasilkan secara independen dalam data simulasi (Pengaturan 1 dan 2), semua ap
proaches menunjukkan bias yang dapat diabaikan sementara empat pendekatan yang menggunakan informasi tambahan lebih banyak
efisien dalam memperkirakan ÿ0 dan ÿ1 daripada hanya menggunakan sampel internal (hanya S1). Ketika xi1
19
Tabel 2: Kinerja regresi linier di bawah pengambilan sampel Poisson yang diukur dengan Monte
Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.
cakupan (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U dan Prop
S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan eksternal
sampel, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.
ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI
Setting 1: xi1 dan xi2 independen dan ÿi mengikuti distribusi normal
S1-hanya 0,020 0,330 0,960 -0,006 0,089 0,961 0,000 0,015 0,952
Prop-U 0,013 0,305 0,957 -0,005 0,081 0,966 0,000 0,015 0,949
CML-U 0,014 0,303 - -0,005 0,081 - 0,000 0,014 -
Prop-S2 0,012 0,301 0,961 CML-S2 -0,005 0,080 0,964 0,000 0,015 0,950
0,006 0,287 0,953 -0,005 0,079 0,967 0,001 0,012 0,958
Setting 2: xi1 dan xi2 independen dan ÿi mengikuti distribusi-t
S1 saja -0,027 0,345 0,954 Prop-U 0,008 0,099 0,941 0,000 0,015 0,955
-0,032 0,315 0,945 CML-U -0,044 0,317 0,009 0,088 0,936 0,000 0,015 0,955
- 0,010 0,086 - 0,001 0,015 -
Prop-S2 -0,032 0,310 0,945 CML-S2 0,009 0,086 0,941 0,000 0,015 0,953
-0,040 0,313 0,942 0,010 0,085 0,949 0,000 0,015 0,917
Pengaturan 3: xi1 dan xi2 bergantung dan ÿi mengikuti distribusi normal
Hanya 0,000 0,532 0,945 0,007 0,357 0,948 -0,002 0,054 0,941
S1 Prop- 0,019 0,477 0,935 -0,006 0,347 0,943 0,000 0,055 0,940
U CML-U 0,446 0,642 Prop-S2 - -0,167 0,374 - 0,007 0,053 -
0,022 0,472 0,939 -0,007 0,346 0,944 CML-S2 0,478 0,634 0,758 0,000 0,055 0,940
-0,192 0,345 0,890 0,011 0,046 0,944
Setting 4: xi1 dan xi2 adalah dependen dan ÿi mengikuti distribusi-t
S1-hanya 0,025 0,482 0,950 -0,039 0,335 0,954 0,008 0,054 0,956
Prop-U 0,050 0,438 0,955 -0,056 0,332 0,950 0,010 0,054 0,945
CML-U 0,163 0,504 - -0,102 0,388 - 0,013 0,062 -
Prop-S2 0,053 0,434 0,947 -0,057 0,331 0,952 CML-S2 0,231 0,782 0,010 0,054 0,946
0,655 -0,170 0,655 0,579 0,024 0,108 0,572
20
dan xi2 dalam data simulasi bergantung (Pengaturan 3 dan 4), estimator CML (CML
U dan CML-S2) mengalami bias besar yang menghasilkan MSE besar dan kepercayaan yang salah
cakupan interval untuk CML-S2. Dalam kasus kovariat dependen, estimator yang diusulkan
masih menunjukkan bias yang dapat diabaikan dan cakupan interval kepercayaan yang benar, dan rMSE mereka untuk
ÿ0 dan ÿ1 juga lebih kecil dari S1 saja. Perhatikan bahwa tidak ada keuntungan efisiensi dalam memperkirakan
ÿ2 dengan metode yang diusulkan seperti yang diharapkan karena data eksternal hanya terdiri dari xi1 .
Di bawah pengaturan SRS yang hasilnya ditunjukkan pada Tabel 3, metode yang diusulkan masih ditampilkan
kinerja yang lebih baik daripada hanya S1 di semua pengaturan dalam hal rMSE ÿ0 dan ÿ1 dan timbal
untuk mengoreksi cakupan interval kepercayaan, yaitu estimasi varians yang benar. Namun, CML-S2
menghasilkan perkiraan varians yang terlalu rendah di Pengaturan 4 di mana xi1 dan xi2 bergantung dan
ÿi yang disimulasikan dihasilkan dari distribusi-t sedangkan fungsi kemungkinan CML-S2
salah ditentukan sebagai distribusi normal.
6.2 Penyiapan model regresi logistik
Studi simulasi kedua mengasumsikan bahwa respon yang menarik adalah hasil biner. Itu
kovariat xi = (xi1, xi2) dihasilkan oleh pengaturan yang sama di bagian sebelumnya. Kemudian, yi dihasilkan oleh
distribusi Bernoulli dengan probabilitas sukses Pr(Yi = 1 | xi1, xi2) = logitÿ1 (ÿ0 + ÿ1xi1 + ÿ2xi2) dengan parameter
simulasi (ÿ0, ÿ1, ÿ2) = (ÿ0.5, 0.1 , ÿ0.2).
Kami mempertimbangkan dua skema pengambilan sampel untuk menghasilkan sampel probabilitas S1 dengan ukuran n1 = 5.000:
(i) Pengambilan sampel Poisson dengan probabilitas inklusi yang memenuhi ÿi ÿ 0,9I(yi = 1) + 0,1I(yi = 0)
N
dan
i=1 ÿi = n1 dan (ii) SRS tanpa penggantian.
Untuk pendekatan yang diusulkan, kami mempertimbangkan model reduksi kerja yang ditulis oleh U2(ÿ; xi1, yi) = {yi ÿ
ÿ1
expit(ÿ0 + ÿ1xi1)}(1, xi1) di mana expit(x) = {1 + exp(ÿx )} . Mirip dengan yang pertama
simulasi, kami membandingkan kinerja lima pendekatan: (i) estimator dengan probabilitas
21
Tabel 3: Kinerja regresi linier dengan sampling acak sederhana yang diukur dengan
Bias Monte Carlo (Bias), root mean squared error (rMSE), dan kepercayaan 95%.
cakupan interval (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U
dan Prop-S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan an
sampel eksternal, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.
ÿ0 ÿ1 ÿ2
Setting 1: xi1 dan xi2 independen dan ÿi mengikuti distribusi normal
S1-hanya 0,001 0,329 0,957 0,000 0,094 0,952 0,000 0,015 0,940
Prop-U 0,000 0,310 0,948 0,000 0,085 0,952 0,000 0,015 0,939
CML-U 0,000 0,310 - 0,000 0,085 - 0,000 0,015 -
Prop-S2 0,000 0,310 0,948 CML-S2 0,000 0,085 0,950 0,000 0,015 0,939
-0,006 0,300 0,949 0,000 0,085 0,954 0,001 0,013 0,932
Setting 2: xi1 dan xi2 independen dan ÿi mengikuti distribusi-t
S1 saja -0,035 0,340 0,942 Prop-U 0,011 0,094 0,954 0,000 0,015 0,935
-0,036 0,324 0,944 CML-U -0,036 0,321 0,011 0,088 0,949 0,000 0,015 0,933
- 0,011 0,087 - 0,000 0,015 -
Prop-S2 -0,035 0,322 0,942 CML-S2 0,010 0,088 0,945 0,000 0,015 0,933
-0,017 0,353 0,929 0,010 0,087 0,954 -0,001 0,019 0,871
Pengaturan 3: xi1 dan xi2 bergantung dan ÿi mengikuti distribusi normal
Hanya 0,010 0,489 0,950 -0,010 0,345 0,946 0,002 0,055 0,938
S1 Prop- 0,021 0,446 0,945 -0,021 0,341 0,948 0,004 0,056 0,934
U CML-U 0,023 0,448 Prop-S2 - -0,022 0,342 - 0,004 0,056 -
0,024 0,442 0,945 CML-S2 0,032 0,392 -0,022 0,340 0,949 0,004 0,056 0,933
0,945 -0,028 0,286 0,946 0,005 0,046 0,943
Setting 4: xi1 dan xi2 adalah dependen dan ÿi mengikuti distribusi-t
S1-hanya 0,021 0,479 0,941 -0,036 0,339 0,950 0,008 0,055 0,945
Prop-U 0,029 0,442 0,936 -0,046 0,337 0,942 0,010 0,055 0,943
CML-U 0,033 0,442 - -0,049 0,338 - 0,010 0,056 -
Prop-S2 0,032 0,442 0,929 CML-S2 -0,048 0,338 0,938 0,010 0,055 0,936
-0,003 0,905 0,670 -0,026 0,773 0,578 0,006 0,129 0,562
22
sampel S1 saja, solusi dari iÿS

diexpit(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0, (ii)
ÿ
penaksir yang diusulkan dengan ÿÿ dari populasi terbatas U, (iii) penaksir yang diusulkan dengan ÿˆ
diperkirakan dari sampel eksternal S2 dengan ukuran n2 = 50.000, (iv) penaksir CML dengan mengandalkan
(4) dan (5) dengan informasi parsial dari U, dan (iv) estimator CML dengan S2.
Tabel 4 menunjukkan hasil simulasi dengan analisis regresi logistik saat
unit sampel dipilih dengan sampling Poisson. Ketika kovariat independen, semua
metode yang menggunakan data eksternal menghasilkan estimator yang lebih efisien daripada metode S1 saja.
Ketika kovariat bergantung, estimator CML menghasilkan estimator yang bias, yang mana
memiliki pola yang sama diamati dalam studi simulasi pertama.
Tabel 4: Kinerja regresi logistik di bawah pengambilan sampel Poisson diukur dengan Monte
Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.
cakupan (CI) diukur untuk estimasi dengan sampel internal saja (hanya S1); diajukan
metode ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U) dan untuk sampel eksternal (Prop-S2); dan
penaksir CLM seperti Chatterjee (CML-U dan CML-S2).
ÿ0 ÿ1 ÿ2
Pengaturan 1: xi1 dan xi2 independen
S1 saja -0,002 0,128 0,950 Prop-U 0,001 0,037 0,933 0,000 0,007 0,953
-0,003 0,097 0,944 CML-U -0,024 0,082 0,001 0,025 0,934 0,000 0,007 0,952
- 0,006 0,020 - 0,000 0,006 -
Prop-S2 -0,001 0,093 0,939 CML-S2 0,000 0,024 0,934 0,000 0,007 0,952
-0,022 0,076 0,959 0,006 0,018 0,971 0,000 0,006 0,996
Pengaturan 2: xi1 dan xi2 bergantung
Prop-U 0,002 0,174 0,947 0,000 0,126 0,949 0,000 0,024 0,946
khusus S1 0,000 0,112 0,948 CML-U 0,000 0,109 0,946 0,000 0,024 0,945
0,504 0,511 - -0,409 0,417 - 0,073 0,075 -
Prop-S2 0,001 0,107 0,949 CML-S2 -0,001 0,108 0,948 0,000 0,024 0,945
0,505 0,511 0,002 -0,410 0,417 0,054 0,073 0,075 0,229
23
7 Studi Aplikasi
7.1 Deskripsi Data dan Rumusan Masalah
Sebagai contoh aplikasi, kami menerapkan metode yang diusulkan untuk menganalisis subset data
dari Survei Pemeriksaan Kesehatan dan Gizi Nasional Korea (KNHANES). Itu
survei tahunan mencakup sekitar 5.000 orang setiap tahun dan mengumpulkan informasi
mengenai perilaku yang berhubungan dengan kesehatan dengan wawancara, kondisi kesehatan dasar dengan fisik dan
tes darah, dan asupan makanan dengan survei nutrisi. Desain pengambilan sampel KNHANES adalah a
stratified sampling menggunakan usia, jenis kelamin, dan wilayah sebagai variabel stratifikasi. Pengambilan sampel terakhir
bobot dihitung melalui nonresponse adjustment dan post-stratification, kemudian disediakan
kepada pengguna data dengan variabel survei.
Untuk meningkatkan efisiensi analisis data dengan ukuran KNHANES n1 = 4,929, kami menggunakan
database publik eksternal yang disediakan oleh National Health Insurance Sharing Service
(NHISS) di Korea. Data besar yang disediakan oleh NHISS berisi sekitar n2 = satu juta indi
viduals dengan informasi yang berhubungan dengan kesehatan, beberapa variabel yang merupakan subset dari variabel
di KHANES.
Struktur data ini, dengan n1 kecil , n2 besar , dan data besar memiliki a
subset variabel dalam sampel internal, cocok dengan pengaturan yang kami bahas
Bagian 2. Namun, ada komplikasi lain dalam penerapan metode yang diusulkan
aplikasi sebenarnya. Dalam data NHISS, probabilitas pemilihannya tidak diketahui, sehingga
desain estimator yang konsisten ÿˆ 2 dalam (9) tidak tersedia. Bagian 7.2 membahas masalah ini dengan
menggunakan pendekatan pembobotan kecenderungan dan Bagian 7.3 menyajikan hasil analisis dari
studi aplikasi.
24
7.2 Kecenderungan Menimbang Data Eksternal dengan Se yang Tidak Diketahui
Probabilitas leksi
Kami sekarang mempertimbangkan perluasan metode yang diusulkan untuk kasus di mana eksternal
sampel S2 adalah data besar dengan probabilitas seleksi yang tidak diketahui. Dalam hal ini, bekerja
model untuk E(Yi | xi1) = m(ÿxi1) mungkin tidak berlaku untuk sampel S2. Meskipun demikian, kita mungkin
masih memecahkan
{yi ÿ m(ÿ xi1)}xi1 = 0 (16)

iÿS2
untuk mendapatkan ˆÿ0 dan ˆÿ1. Jika mekanisme sampling untuk S2 diabaikan atau tidak informatif,
maka solusi dari (7.2) tidak bias; jika tidak, estimator yang dihasilkan bias.
Untuk menghapus bias seleksi dalam perkiraan data besar, Kim dan Wang (2019) menyarankan
gested menggunakan bobot skor kecenderungan di (7.2) untuk mendapatkan penduga yang tidak bias dari ÿ. Ke
membangun bobot skor kecenderungan, kami menggunakan model nonresponse yang tidak dapat diabaikan,
P(ÿi = 1 | xi1, yi) = ÿ(xi1, yi ; ÿ), di mana ÿi = 1 jika i ÿ S2 dan nol jika tidak. Catatan
yang dapat kita nyatakan ÿ(xi1, yi) 0)/ ÿ1 = 1 + (N0/N1)r(xi1, yi) dimana r(xi1, yi) = f(xi1, yi |ÿi =
f(xi1, yi |ÿi = 1) adalah fungsi rasio kerapatan dengan N1 = Ni=1 ÿi dan N0 = N ÿ N1.
Menggunakan motivasi Wang dan Kim (2021), kita dapat mengasumsikan log-linear densitas ra
tio model, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1xi1 + ÿ2yi . Estimator entropi maksimum ÿ ÿi exp(ÿ0 + ÿ1xi1 + ÿ2yi)(1, xi1, yi)
N
yˆ¯) = (1/Nˆ 0) sampel internal. Setelah ÿˆ saya=1
diperoleh,
= 1, xˆ¯1,
kitayˆ¯dapat
dimana
menyusun
diperoleh
ˆÿ(xi1,
dengan
yi) dan
menyelesaikan
menyelesaikannya
(1/N1) (xˆ¯1,
di(xi1, yi) ÿ
=
iÿS1 Ni=1 ÿi(xi1, yi) dan Nˆ 0 di ÿ N1 di mana S1 adalah iÿS1
1
{yi ÿ m(ÿ0 + ÿ1xi1)}(1, xi1) = (0, 0) ÿˆ(xi1, yi) (16)
iÿS2
untuk mendapatkan ÿˆ = (ˆÿ0, ÿˆ1).

2
25
Selain itu, kita dapat menggunakan sampel internal S1 agar sesuai dengan model kerja yang sama untuk diperoleh
ÿ
ÿˆ 1. Setelah itu, kami memperoleh ÿˆ menggunakan (9) dan menerapkan pembobotan kalibrasi yang diusulkan
metode untuk menggabungkan informasi dari data besar. Dalam prakteknya V 2 dalam (9) sulit untuk
menghitung, tetapi sangat kecil jika ukuran sampel untuk S2 sangat besar. Dalam hal ini, kita mungkin
ÿ
cukup gunakan ÿˆ = ÿˆ 2 dalam masalah kalibrasi.
7.3 Hasil Studi Aplikasi: Kesehatan Nasional Korea dan Nu

Survei Pemeriksaan Trisi
Dalam studi aplikasi ini, kami menggunakan n1 = 4.929 record data KNHANES yang memiliki no
nilai yang hilang dalam empat variabel: Kolesterol total, Hemoglobin, Trigliserida, dan HDL
kolesterol. Untuk tujuan demonstrasi, kami berasumsi bahwa seorang analis tertarik pada perilaku
melakukan analisis regresi berikut,
E(Total Kolesterol |xi) = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3HDLi untuk i ÿ S1.
Dalam data kami, nilai absolut terbesar dari korelasi berpasangan antar kovariat adalah -
0,40 diamati antara Trigliserida dan kolesterol HDL, yang mirip dengan skenario
di Bagian 6 di mana kovariat sangat berkorelasi. Data eksternal besar terdiri
n2 = satu juta catatan data NHISS dengan item yang diamati sepenuhnya dalam Kolesterol total ,
Hemoglobin, dan Trigliserida. Model kerja yang diasumsikan untuk menghubungkan sampel eksternal
untuk sampel internal adalah
E(Total Kolesterol |xi1) = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei untuk i ÿ S1 ÿ S2.
26
Dalam studi aplikasi ini, kami menerapkan metode yang kami usulkan dengan sampel eksternal
dimana ÿˆ digunakan sebagai pengganti ÿÿ yang tidak tersedia karena kami tidak memiliki informasi terkait
2
seluruh penduduk. Dengan sampel eksternal yang probabilitas seleksinya tidak diketahui,
kami menyiapkan dua versi metode yang diusulkan: (i) mempertimbangkan S2 sebagai SRS, yaitu, tanpa bobot
kecenderungan, dan (ii) dengan penyesuaian bobot kecenderungan diperkenalkan di Sec
hal 7.2. Untuk pembobotan kecenderungan, kami menyesuaikan model rasio densitas log-linear dengan exter
data akhir, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3Total Kolesterol hitung ˆÿ(xi1, yi) diberikan ÿˆ, ,
kemudian selesaikan (7.2) untuk mendapatkan ÿˆ 2. Pertunjukan yang diusulkan
Metode tersebut dibandingkan dengan metode referensi yang menggunakan sampel internal S1 saja
dapatkan taksiran kuadrat terkecil tertimbang dengan mempertimbangkan bobot pengambilan sampel.
Gambar 1 menunjukkan perkiraan titik dan interval kepercayaan 95% dari ÿˆ = (ÿˆ 0, ÿˆ 1, ÿˆ 2, ÿˆ 3)
untuk setiap metode. Metode yang diusulkan menunjukkan varian yang lebih kecil untuk ÿˆ 0, ÿˆ 1 dan ÿˆ 2 dibandingkan
menggunakan sampel internal saja. Hasil ini bertepatan dengan temuan kami dalam simulasi
kajian pada bagian sebelumnya. Untuk ÿ2, estimator dari metode yang diusulkan tanpa
bobot kecenderungan menunjukkan perbedaan sistematis dari dua estimator lainnya. Kapan
penyesuaian pembobotan kecenderungan digabungkan dengan metode yang diusulkan, kepercayaannya
interval ÿ2 terkandung dengan menggunakan sampel internal saja. Hasil ini menyiratkan
bahwa bias sistematis karena pengabaian probabilitas pengambilan sampel diatasi oleh
penyesuaian pembobotan kecenderungan. Tidak ada keuntungan efisiensi dalam memperkirakan ÿ3 yang diharapkan
data eksternal mengandung informasi xi1 (Hemoglobin) dan xi2 (Trigliserida), bukan xi3
(HDL).
27
Gambar 1: Perbandingan analisis regresi untuk E(Kolesterol Total |xi) = ÿ0 +
ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3HDLi menggunakan data internal dari Korea National
Survei Pemeriksaan Kesehatan dan Gizi didukung oleh data eksternal yang besar dari
Database Layanan Berbagi Asuransi Kesehatan Nasional. Untuk setiap panel, lingkaran adalah titik es
timate dan garis adalah interval kepercayaan 95% mereka untuk menggunakan sampel internal S1 saja
dengan kuadrat terkecil tertimbang (garis solid atas), metode yang diusulkan tanpa penyesuaian
(garis putus-putus tengah), dan metode yang diusulkan dengan penyesuaian bobot skor kecenderungan
(garis putus-putus paling bawah).
28
8 Kesimpulan
Memasukkan sumber data eksternal ke dalam analisis regresi sampel internal adalah sebuah
masalah praktis yang penting. Kami telah mengatasi masalah ini menggunakan aplikasi baru dari
pembobotan kalibrasi model (Wu dan Sitter, 2001). Metode yang diusulkan secara langsung
berlaku untuk pengambilan sampel survei dan dapat dengan mudah diperluas ke beberapa integrasi data. Itu
metode yang diusulkan mudah diimplementasikan dan tidak memerlukan akses langsung ke data eksternal.
Selama estimasi koefisien regresi dan kesalahan standarnya untuk bekerja
model tereduksi tersedia, kami dapat memasukkan informasi tambahan ke dalam analisis kami.
Ada beberapa kemungkinan arah pada ekstensi penelitian di masa depan. Pertama, seorang Bayesian
pendekatan dapat dikembangkan di bawah pengaturan yang sama. Seseorang dapat menggunakan empiris Bayesian
metode kemungkinan Zhao et al. (2020) dalam pengaturan ini. Metode yang diusulkan berpotensi
digunakan untuk menggabungkan data uji klinis acak dengan data dunia nyata yang besar (Yang et al.,
2020); ekstensi tersebut akan disajikan di tempat lain. Menarik juga untuk menghubungkan pendekatan yang diusulkan
dengan desain pengambilan sampel dua fase (ganda) yang desain dan efisiensinya efisien
estimasi baru-baru ini dipelajari secara aktif (Rivera-Rodriguez et al., 2019, 2020; Wang
et al., 2020). Struktur data sampling dua fase dengan besar-n, kecil-p terlebih dahulu
sampel tahap dan sampel tahap kedua kecil-n, besar-p sangat cocok untuk pengaturan
diasumsikan oleh pendekatan kalibrasi model yang disarankan.
MATERI TAMBAHAN
Lampiran: Pembuktian Lemma 4.1, Lemma 4.2, Teorema 1, dan Teorema 2; keterangan
tentang kasus khusus dengan pengambilan sampel acak sederhana; dan penerapan Chatterjee
et al. (2016) dalam studi simulasi di teks utama. (.File pdf)
29
Referensi
Chatterjee, N., Y.-H. Chen, P. Maas, dan R. Carroll (2016). Dibatasi maksimal like
estimasi lihood untuk kalibrasi model menggunakan informasi tingkat ringkasan dari eksternal
sumber data besar. Jurnal Asosiasi Statistik Amerika 111, 107–117.
Chen, YH dan H. Chen (2000). Pendekatan terpadu untuk analisis regresi di bawah ganda
desain sampel. Jurnal Masyarakat Statistik Kerajaan: Seri B 62, 449–460.
Deville, J.-C. dan C.-E. Särdal (1992). Estimator kalibrasi dalam pengambilan sampel survei. Jurnal
dari Asosiasi Statistik Amerika 87, 376–382.
Fuller, WA (2009). Statistik Pengambilan Sampel. Wiley, Hoboken, NJ.
Hidiroglou, M. (2001). Pengambilan sampel ganda. Metodologi survei 27, 143–154.
Imbens, GW (2002). Metode momen umum dan kemungkinan empiris. Jurnal
Statistik Bisnis dan Ekonomi 20, 493–506.
Kim, JK (2010). Estimasi kalibrasi menggunakan kemiringan eksponensial dalam survei sampel.
Metodologi Survei 36, 145–155.
Kim, JK dan JNK Rao (2009). Pendekatan terpadu untuk estimasi varian linearisasi
dari data survei setelah imputasi untuk item nonresponse. Biometrika 96, 917–932.
Kim, JK dan Z.Wang (2019). Teknik pengambilan sampel untuk analisis data besar dalam populasi terbatas
inferensi lasi. Tinjauan Statistik Internasional 87, S177–S191.
Lohr, SL dan TE Raghunathan (2017). Menggabungkan data survei dengan sumber data lainnya.
Ilmu Statistik 32, 293–312.
30
Merkouris, T. (2010). Menggabungkan informasi dari beberapa survei dengan menggunakan regresi untuk
estimasi domain kecil yang efisien. Jurnal Masyarakat Statistik Kerajaan: Seri B 72,
27–48.
Owen, A. (1991). Kemungkinan empiris untuk model linier. Sejarah Statistik 19,
1725–1747.
Qin, J. (2000). Menggabungkan kemungkinan parametrik dan empiris. Biometrika 87, 484–490.
Qin, J. dan J. Lawless (1994). Kemungkinan empiris dan persamaan estimasi umum. Itu
Sejarah Statistik 22, 300–325.
Rao, J. (2021). Tentang membuat kesimpulan yang valid dengan mengintegrasikan data dari survei dan lainnya
sumber. Sankhya B 83, 242–272.
Rivera-Rodriguez, C., S. Haneuse, M. Wang, and D. Spiegelman (2020). Ditambah
estimasi kemungkinan semu untuk studi dua fase. Metode statistik dalam re medis
cari 29, 344–358.
Rivera-Rodriguez, C., D. Spiegelman, dan S. Haneuse (2019). Pada analisis dua fase
desain dalam pengaturan data berkorelasi cluster. Statistik dalam kedokteran 38, 4611–4624.
Robins, JM, A. Rotnitzky, dan LP Zhao (1994). Estimasi koefisien regresi
ketika beberapa regressor tidak selalu diamati. Jurnal Statistik Amerika As
sosialisasi 89, 846–866.
Sheng, Y., Y. Sun, C.-Y. Huang, dan M.-O. Kim (2021). Sintesis agregat eksternal
informasi di hadapan heterogenitas populasi: Kemungkinan empiris yang dihukum
mendekati. Biometrik. DOI: 10.1111/biom.13429.
31
Wang, CY, S.Wang, L.-P. Zhao, dan S.-T. Ou (1997). Es semiparametrik tertimbang
waktu dalam analisis regresi dengan data kovariat yang hilang. Jurnal Amerika
Asosiasi Statistik 92, 512–525.
Wang, H. dan JK Kim (2021). Estimasi skor kecenderungan menggunakan model rasio kepadatan
di bawah item non-respons. pracetak arXiv arXiv:2104.13469 .
Wang, L., ML Williams, Y. Chen, and J. Chen (2020). Desain pengambilan sampel dua fase yang baru
untuk mempelajari hasil biner. Biometrik 76, 210–223.
Wu, C. dan J. Rao (2006). Interval kepercayaan rasio kemungkinan empiris semu untuk kompleks
survei. Jurnal Statistik Kanada 34, 359–375.
Wu, C. dan RR Sitter (2001). Pendekatan kalibrasi model untuk menggunakan alat bantu lengkap
informasi dari data survei. Jurnal Asosiasi Statistik Amerika 96, 185–
193.
Xu, M. dan J. Shao (2020). Meta-analisis dataset independen menggunakan gen yang dibatasi
metode momen terhapus. Teori Statistik dan Bidang Terkait 4, 109–116.
Yang, S. dan JK Kim (2020). Integrasi data statistik dalam pengambilan sampel survei: Tinjauan.
Jurnal Statistik dan Ilmu Data Jepang 3, 625–650.
Yang, S., D.Zheng, dan X.Wang (2020). Analisis acak terpadu elastis
uji coba dan data dunia nyata untuk estimasi heterogenitas pengobatan. pracetak arXiv
arXiv:2005.10579v2 .
Yuan, K.-H. dan RI Jennrich (1998). Asimtotik memperkirakan persamaan di bawah alami
kondisi. Jurnal Analisis Multivariat 65 (2), 245–260.
32
Zhang, H., L. Deng, W. Wheeler, J. Qin, and K. Yu (2021). Analisis integratif dari banyak
studi kasus-kontrol. Biometrik. https://doi.org/10.1111/biom.13461.
Zhao, P., M. Ghosh, J. Rao, and C. Wu (2020). Inferensi kemungkinan empiris Bayesian
dengan data survei yang kompleks. Jurnal Masyarakat Statistik Kerajaan: Seri B 82, 155–174.
Zubizarreta, JR (2015). Bobot stabil yang menyeimbangkan kovariat untuk estimasi dengan in
melengkapi data hasil. Jurnal Asosiasi Statistik Amerika 110, 910–922.
33

Survey Data Integration For Regression Analysis Us PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Survey Data Integration For Regression Analysis Us PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Integrasi data survei untuk analisis regresi

Kami mempertimbangkan analisis regresi dalam konteks integrasi data. Untuk

dieksplorasi dalam literatur yang ada.

model kerja yang berbeda untuk pola yang hilang berbeda.

integrasi. Metode kemungkinan maksimum terkendala efisien ketika model

diperoleh dengan menyelesaikan

Uˆ 1(ÿ) ÿ diU1(ÿ; xi , yi) = 0, (1)

di mana di adalah bobot sampling untuk unit i ÿ S1.

informasi tambahan ini untuk meningkatkan efisiensi estimasi ÿˆ.

E(Yi | xi1) = m2(xi1; ÿ) (2)

sampel S1 dengan memecahkan

Uˆ 2(ÿ) ÿ diU2(ÿ; xi1, yi) = 0, (3)

estimator kovarians, masing-masing. Model kerja di (2) belum tentu benar

lp(ÿ) = di log f(yi | xi ; ÿ) (4)

di U2(ÿ ÿ ; xi1, y)f(y | xi ; ÿ)dy = 0. (5)

xi ; ÿ} = 0. Dengan menerapkan batasan ini ke dalam estimasi kemungkinan maksimum, ex

informasi internal ÿÿ dapat digabungkan secara alami.

metode kemungkinan empiris.

Masalah kalibrasi klasik dapat dirumuskan sebagai menemukan bobot kalibrasi

kita dapat menggunakan fungsi kemungkinan empiris semu

P(d, w) = di log(wi) (6)

wiU2(ÿ ÿ ; xi1, yi) = 0, (7)

3. Setelah solusi wˆ diperoleh dari kalibrasi, perkirakan ÿ dengan pemecahan

wˆiU1(ÿ; xi , yi) = 0. (8)

dapat memiliki statistik ringkasannya. Misalkan sampel eksternal memberikan titik

Kemudian, estimator dari benchmark ÿÿ dapat diperoleh dengan

itu menggantikan ÿÿ dalam persamaan kalibrasi pada (7).

Uˆ cal(ÿ) = iÿS1 wˆiU1(ÿ; xi , yi) dapat didekati dengan

Uˆ kal(ÿ) .= Uˆ 1(ÿ) + K Uˆ ext(ÿ) ÿ Uˆ 2(ÿ) (10)

masalah kovariat, mengandalkan teknik kalibrasi regresi. Misalnya, misalkan

akses ke sampel eksternal S2 selain sampel internal S1.

Misalkan ˜di = Nˆ ÿ1di di mana Nˆ = iÿS1 di adalah penaksir populasi Horvitz–Thompson

l(w,ÿ,ÿ) = ˜di log(wi) + ÿ wiU2(ÿ ÿ N ; xi1, yi) + ÿ wi ÿ 1

di mana ÿ dan ÿ adalah pengali Lagrange.

setara dengan memecahkan g(ÿ,ÿ) = 0 dimana

C1. Terdapat himpunan kompak A sehingga ÿÿN ÿ A untuk N ÿ N dan

norma dan urutan stokastik sehubungan dengan desain sampling.

C2. Desain pengambilan sampel memenuhi hasil konvergensi berikut.

˜diU1(ÿ; xidi mana

ÿp adalah solusi unik untuk U0(ÿ) = 0.

d. iÿS1 ˜diU1(ÿ0N ; xi , yi)U2(ÿÿ N ; xi1, yi) = I12+op(1) di mana I12 non-stokastik.

I22 non-stokastik dan definitif positif.

C3. Desain sampling memenuhi

n 1/2 ÿ U1(ÿ0N ; xi , yi) ÿ

C2a. Kondisi C2c–C2e menjamin

dan penting untuk menyelidiki distribusi asimptotik dari

distribusi di mana ÿÿ = I ÿ1ÿu(I ÿ1 ) dan

saya = ÿ I11 I12 ÿ

dalam distribusi di mana Teorema 1, kita dapat memperoleh n

4.2 Estimator eksternal ÿˆ 2 tersedia

ÿ ÿ U1(ÿ; xi , yi) ; xi1, yi) ÿ

ÿ U2(ÿˆ ; ; xi1, yi)

diperlukan untuk mendapatkan sifat asimtotik untuk ÿ˜.

(a) Keduanya ÿˆ 1 dan ÿˆ 2 konsisten untuk ÿÿ .

(e) Terdapat fungsi penskalaan ÿ(n) sehingga ÿ(n)(ÿˆ 2 ÿ ÿÿ ) ÿ N (0, ÿ2) di

distribusi di mana ÿ2 memenuhi ÿ(n) 2V 2 = ÿ2 + op(1).

C4 digunakan untuk mendapatkan orde asimtotik dan varian ÿˆ

ÿˆ 2 dan V 2 diperoleh dari sampel eksternal. Untuk konsistensi ÿˆ 1, kondisi cukup

mirip dengan C2b. Konsistensi desain estimator varians V 1 dapat diperoleh

ditentukan oleh sampel eksternal.

Teorema 2 Misalkan kondisi C1 dan C3–C5 terpenuhi. Kemudian,

n 1/2 ÿ U1(ÿ0 ; xi , yi) ÿ