Unduh sebagai pdf atau txt
Unduh sebagai pdf atau txt
Anda di halaman 1dari 33

Machine Translated by Google

Integrasi data survei untuk analisis regresi


menggunakan kalibrasi model
Hang J. Kimÿ
Divisi Statistik dan Ilmu Data, Universitas Cincinnati, Zhonglei
Wang Wang Yanan Institute for Studies
in Economics, Universitas Xiamen, dan Departemen Statistik Jae
Kwang Kim, Universitas Negeri Iowa

15 Juli 2021

Abstrak
arXiv:2107.06448v1
[stat.ME]
2021
Jul
14

Kami mempertimbangkan analisis regresi dalam konteks integrasi data. Untuk


menggabungkan informasi parsial dari sumber eksternal, kami menggunakan ide kalibrasi
model yang memperkenalkan model tereduksi yang "berfungsi" berdasarkan kovariat
yang diamati. Model tereduksi yang berfungsi belum tentu ditentukan dengan benar tetapi
dapat menjadi perangkat yang berguna untuk memasukkan informasi parsial dari data
eksternal. Implementasi sebenarnya didasarkan pada aplikasi baru dari metode
kemungkinan empiris. Metode yang diusulkan sangat menarik untuk menggabungkan
informasi dari beberapa sumber dengan pola hilang yang berbeda. Metode yang diusulkan
diterapkan pada contoh data nyata yang menggabungkan data survei dari Survei
Pemeriksaan Kesehatan dan Gizi Nasional Korea dan data besar dari Layanan Berbagi
Asuransi Kesehatan Nasional di Korea.

Kata kunci: Data besar, Kemungkinan empiris, Model kesalahan pengukuran, Kovariat yang hilang
ÿPenulis berterima kasih atas dukungan dari National Science Foundation (no. 1733572) dan
Yayasan Ilmu Pengetahuan Alam Nasional Tiongkok (no. 11901487).

1
Machine Translated by Google

1. Perkenalan

Integrasi data adalah bidang penelitian yang muncul dalam pengambilan sampel survei. Dengan memasukkan

informasi parsial dari sampel eksternal, seseorang dapat meningkatkan efisiensi yang dihasilkan

estimator dan mendapatkan analisis yang lebih andal. Lohr dan Raghunathan (2017), Yang dan

Kim (2020), dan Rao (2021) memberikan ulasan tentang metode statistik integrasi data

untuk inferensi populasi terbatas. Banyak metode yang ada (misalnya, Hidiroglou, 2001; Merkouris,

2010; Zubizarreta, 2015) terutama berkaitan dengan memperkirakan rata-rata populasi atau total

sementara menggabungkan informasi untuk inferensi analitik seperti analisis regresi tidak sepenuhnya

dieksplorasi dalam literatur yang ada.

Dalam makalah ini, kami mempertimbangkan analisis regresi dalam konteks integrasi data. Kapan

kami menggabungkan sumber data untuk melakukan analisis regresi gabungan, yang mungkin kami temui

beberapa masalah: kovariat mungkin tidak sepenuhnya diamati atau mengalami kesalahan pengukuran.

Dengan demikian, seseorang dapat menganggap masalah tersebut sebagai masalah regresi kovariat yang hilang. Robins et al.

(1994) dan Wang et al. (1997) membahas estimasi semiparametrik dalam analisis regresi

dengan data kovariat yang hilang di bawah asumsi kovariat yang hilang secara acak. Dalam data kami

pengaturan integrasi, sumber data eksternal dengan kovariat yang hilang dapat berupa sensus atau besar

data. Kami akan menyajikan metode integrasi data yang diusulkan terlebih dahulu dengan pengaturan sederhana

di mana tidak ada bias seleksi dalam data eksternal, maka di bawah pengaturan umum di mana

bias seleksi dalam data eksternal juga diatasi dengan penyesuaian probablistik.

Untuk menggabungkan informasi parsial dari sumber eksternal, kami menggunakan ide model

kalibrasi (Wu dan Sitter, 2001) yang memperkenalkan model yang direduksi "bekerja" berdasarkan

kovariat yang diamati. Parameter model dalam model tereduksi diperkirakan dari

sumber eksternal dan kemudian digabungkan melalui aplikasi baru dari kemungkinan empiris

metode (Owen, 1991; Qin dan Lawless, 1994). Model pengurangan kerja belum tentu

2
Machine Translated by Google

ditentukan dengan benar, tetapi model kerja yang baik dapat meningkatkan efisiensi yang dihasilkan

analisis. Metode yang diusulkan sangat menarik untuk menggabungkan informasi dari

beberapa sumber data dengan pola hilang yang berbeda. Dalam hal ini, kita hanya perlu menentukan

model kerja yang berbeda untuk pola yang hilang berbeda.

Di bawah pengaturan serupa, Chatterjee et al. (2016) juga mengembangkan metode kalibrasi

berdasarkan kemungkinan maksimum yang dibatasi, yang menggunakan model parametrik penuh untuk

spesifikasi kemungkinan dan batasan yang dikembangkan dari model yang direduksi untuk data

integrasi. Metode kemungkinan maksimum terkendala efisien ketika model

ditentukan dengan benar tetapi tidak berlaku bila sulit atau tidak mungkin untuk ditentukan

fungsi densitas yang benar. Di sisi lain, metode yang kami usulkan didasarkan pada

kondisi momen pertama seperti analisis regresi biasa, sehingga asumsi yang lemah dapat meluas

penerapan metode yang diusulkan untuk banyak masalah praktis. Secara khusus,

metode yang diusulkan dapat langsung diterapkan pada data sampel survei yang menjadi fokus utama

dari kertas kami. Baru-baru ini, Xu dan Shao (2020) mengembangkan metode integrasi data menggunakan

metode umum teknik momen, tetapi metode mereka secara implisit mengasumsikan bahwa

model yang dikurangi ditentukan dengan benar. Sheng dkk. (2021) mengembangkan empiris yang dihukum

pendekatan kemungkinan untuk menggabungkan informasi tersebut dalam pengaturan regresi logistik. Zhang

et al. (2021) juga mengembangkan kerangka kemungkinan empiris retrospektif untuk diperhitungkan

bias pengambilan sampel dalam studi kasus-kontrol. Kami mempertimbangkan pengaturan regresi yang lebih umum dan milik kami

metode kemungkinan empiris yang diusulkan berbeda dari metode kemungkinan empiris mereka

dan tidak mensyaratkan bahwa model pengurangan kerja ditentukan dengan benar.

Kami menyoroti kontribusi makalah kami sebagai berikut. Pertama, kami mengusulkan kesatuan

kerangka kerja untuk menggabungkan sumber data eksternal dalam analisis regresi. Yang diusulkan

metode menggunakan asumsi yang lebih lemah daripada metode yang ada dari Chatterjee et al. (2016)

3
Machine Translated by Google

dan dengan demikian memberikan hasil estimasi yang lebih kuat. Kedua, metode yang diusulkan secara luas

berlaku karena dapat dengan mudah menangani beberapa sumber data eksternal seperti yang ditunjukkan dalam Bagian

5. Dapat juga diterapkan pada kasus di mana sumber data eksternal dapat dipilih

bias. Dalam aplikasi data nyata di Bagian 7, kami menunjukkan bahwa metode yang kami usulkan bisa

memanfaatkan data besar eksternal dengan probabilitas seleksi yang tidak diketahui dengan menerapkan kecenderungan

penyesuaian bobot skor. Akhirnya, metode yang kami usulkan mudah diterapkan dan sepenuhnya

dibenarkan secara teoritis. Komputasi adalah aplikasi langsung dari standar empiris

metode likelihood dan dapat dengan mudah diimplementasikan menggunakan perangkat lunak yang ada.

Makalah ini disusun sebagai berikut. Di Bagian 2, pengaturan dasar diperkenalkan, dan

metode yang ada disajikan. Bagian 3 menyajikan pendekatan yang diusulkan dan Bagian 4

memberikan sifat asimtotiknya. Dalam Bagian 5, aplikasi untuk integrasi beberapa data

Dipersembahkan. Bagian 6 menyajikan dua studi simulasi terbatas, diikuti dengan penerapannya

dari metode yang diusulkan ke data nyata di Bagian 7. Beberapa kesimpulan dibuat di

Bagian 8.

2 Pengaturan Dasar

Pertimbangkan populasi terbatas U = {1, . . . , N} dengan ukuran N. Dikaitkan dengan record ke-i,

misalkan yi menunjukkan variabel studi yang diminati dan xi = (xi1, xi2) bantu yang sesuai

vektor panjang p. Kami tertarik untuk mengestimasi parameter populasi ÿ0 , yang dipecahkan

U1(ÿ) = iÿU U1(ÿ; xi , yi) = 0 di mana U1(ÿ; x, y) adalah fungsi estimasi yang ditentukan sebelumnya

untuk ÿ. Salah satu contoh fungsi penduga adalah U1(ÿ; xi , yi) = {yi ÿm1(xi ; ÿ)}h1(xi ; ÿ),

yang secara implisit didasarkan pada model regresi E(Yi | xi) = m1(xi ; ÿ) pada super

tingkat populasi untuk beberapa h1(xi ; ÿ) yang memenuhi kondisi identifikasi tertentu (misalnya, Kim

4
Machine Translated by Google

dan Rao, 2009). Dari populasi hingga sampel probabilitas S1 ÿ U dihasilkan, dan estimator Z ÿˆ dapat

diperoleh dengan menyelesaikan

Uˆ 1(ÿ) ÿ diU1(ÿ; xi , yi) = 0, (1)


iÿS1

di mana di adalah bobot sampling untuk unit i ÿ S1.

Selain S1, misalkan kita mengamati xi1 dan yi di seluruh populasi terbatas dan ingin memasukkan

informasi tambahan ini untuk meningkatkan efisiensi estimasi ÿˆ.

Chen dan Chen (2000) pertama menganggap masalah ini dalam konteks kesalahan pengukuran

model. Untuk menjelaskan ide mereka dalam penyiapan kami, pertama-tama kami mempertimbangkan model yang direduksi "berfungsi",

E(Yi | xi1) = m2(xi1; ÿ) (2)

untuk beberapa ÿ. Di bawah model kerja (2), kita dapat memperoleh estimator ÿˆ dari arus

sampel S1 dengan memecahkan

Uˆ 2(ÿ) ÿ diU2(ÿ; xi1, yi) = 0, (3)


iÿS1

di mana U2(ÿ; xi1, yi) = {yiÿm2(xi1; ÿ)}h2(xi1; ÿ) untuk beberapa h2(xi1; ÿ) kondisi yang memuaskan serupa

dengan yang dikenakan pada h1(xi ; ÿ). Perhatikan bahwa pengaturan kami mempertimbangkan situasi di mana

subset dari data individu (xi1, yi) diamati sepenuhnya di seluruh populasi terbatas U.

Oleh karena itu, seseorang bisa mendapatkan ÿÿ yang memecahkan Ni=1 U2(ÿ; xi1, yi) = 0. Chen dan Chen (2000)

diusulkan menggunakan
ÿ
ÿ1
ÿˆ = ÿˆ + Cov (ÿˆ, ÿˆ ){Vˆ (ÿˆ )} (ÿ ÿ ÿ ÿˆ )

sebagai estimator ÿ yang efisien, di mana Vˆ (·) dan Cov (·) menunjukkan varian berbasis desain dan

estimator kovarians, masing-masing. Model kerja di (2) belum tentu benar

ditentukan, tetapi model kerja yang baik dapat meningkatkan efisiensi estimator akhir.

5
Machine Translated by Google

Seseorang juga dapat mengadopsi kemungkinan maksimum terbatas (CML) yang mirip dengan Chatterjee

et al. (2016), yang awalnya disarankan dalam konteks pengambilan sampel non-survei. Dibawah

pengaturan pengambilan sampel survei, kita dapat menafsirkan Chatterjee et al. (2016) sebagai estimasi CML

pendekatan ketika ÿ adalah parameter dalam distribusi bersyarat Yi diberikan Xi dengan kepadatan

f(yi | xi ; ÿ), dan estimasi CML dapat dinyatakan sebagai menemukan ÿ yang maksimal

lp(ÿ) = di log f(yi | xi ; ÿ) (4)


iÿS1

tunduk pada

di U2(ÿ ÿ ; xi1, y)f(y | xi ; ÿ)dy = 0. (5)


iÿS1

Kendala (5) dapat dipahami sebagai kendala bagi parameter ÿ untuk memenuhi E{U2(ÿÿ ; xi1, Yi) |

xi ; ÿ} = 0. Dengan menerapkan batasan ini ke dalam estimasi kemungkinan maksimum, ex

informasi internal ÿÿ dapat digabungkan secara alami.

Metode CML tidak secara langsung dapat diterapkan pada model rata-rata bersyarat kami di (1) sebagai

fungsi kemungkinan untuk ÿ tidak ditentukan dalam pengaturan kami. Meskipun demikian, seseorang dapat menggunakan tujuan

fungsi seperti itu dalam Metode Momen Umum untuk menerapkan opsi terkendala

masalah misasi, yang secara asimtotik ekuivalen dengan metode kemungkinan empiris

(Imbens, 2002). Chatterjee dkk. (2016) juga mencatat bahwa pendekatan CML dapat diformulasikan

menggunakan metode kemungkinan empiris dari Qin dan Lawless (1994) dan Qin (2000).

Namun, mereka tidak secara eksplisit membahas bagaimana merumuskan CML sebagai aplikasi

metode kemungkinan empiris.

6
Machine Translated by Google

3 Usulan Pendekatan
Kami sekarang menggunakan kerangka kemungkinan empiris untuk memasukkan informasi tambahan.

Masalah kalibrasi klasik dapat dirumuskan sebagai menemukan bobot kalibrasi

w = {wi : i ÿ S1} berdasarkan fungsi objektif tertentu Q(d, w) dengan beberapa kalibrasi

kendala (Deville dan S¨ardal, 1992) di mana d = {di : i ÿ S1}. Untuk fungsi tujuan,

kita dapat menggunakan fungsi kemungkinan empiris semu

P(d, w) = di log(wi) (6)


iÿS1

dipertimbangkan oleh Wu dan Rao (2006) atau fungsi entropi maksimum Q(d, w) = dalam Kim iÿS1 wi log(wi/di)
(2010). Kendala kalibrasi kami adalah

wiU2(ÿ ÿ ; xi1, yi) = 0, (7)


iÿS1

di mana ÿÿ adalah informasi eksternal untuk model tereduksi yang berfungsi. Ini adalah semangat yang sama

menggunakan (5) tetapi tanpa memperkenalkan fungsi kerapatan bersyarat f(y | x; ÿ). Jadi, kami

dapat menggunakan metode kalibrasi model berikut untuk estimasi ÿ yang efisien sebagai berikut:

1. Gunakan model pengurangan kerja (2) untuk mendapatkan ÿÿ dari populasi hingga.

2. Tentukan bobot kalibrasi wˆ = {wˆi : i ÿ S1} dengan memaksimumkan Q(d, w) sesuai dengan persamaan (7).

3. Setelah solusi wˆ diperoleh dari kalibrasi, perkirakan ÿ dengan pemecahan

wˆiU1(ÿ; xi , yi) = 0. (8)


iÿS1

Jika tolok ukur ÿÿ tidak tersedia dari populasi terbatas tetapi dapat diestimasi

dari sampel eksternal independen, kita dapat menggunakan informasi dari kedua aslinya

7
Machine Translated by Google

sampel internal dan sampel eksternal untuk mendapatkan estimasi benchmark. Secara praktis

situasi, kita mungkin tidak memiliki akses ke data mentah dari sampel eksternal tetapi sering

dapat memiliki statistik ringkasannya. Misalkan sampel eksternal memberikan titik

estimator ÿˆ 2 dan penaksir variannya V 2 = Vˆ (ÿˆ 2) untuk model kerja tereduksi pada (2).

Kemudian, estimator dari benchmark ÿÿ dapat diperoleh dengan

ÿ1 ÿ1 ÿ1 ÿ1 ÿ1
ÿˆ ÿ = (V +V 2 ) (V ÿˆ 1 + V ÿˆ 2) (9)
1 1 2

dimana ÿˆ
1
dan V1 diperkirakan dengan sampel internal S1. Sekali ÿˆ ÿ
diperoleh dengan (9),

itu menggantikan ÿÿ dalam persamaan kalibrasi pada (7).

Mirip dengan Wu dan Sitter (2001), metode yang diusulkan tidak memerlukan model kerja yang “benar”

seperti yang dijelaskan di bawah ini. Biarkan Uˆ ext(ÿ) = 0 menjadi persamaan estimasi untuk mendapatkan

ÿÿ dihitung dari sampel eksternal S2. Sekarang, fungsi estimasi akhir untuk ÿ menggunakan kalibrasi model

Uˆ cal(ÿ) = iÿS1 wˆiU1(ÿ; xi , yi) dapat didekati dengan

Uˆ kal(ÿ) .= Uˆ 1(ÿ) + K Uˆ ext(ÿ) ÿ Uˆ 2(ÿ) (10)

untuk beberapa K di mana Uˆ 1(ÿ) dan Uˆ 2(ÿ) masing-masing dihitung dengan (1) dan (3), dari

sampel internal S1. Perkiraan dalam (10) dapat dengan mudah diturunkan menggunakan asymp

kesetaraan totik dari estimator kalibrasi dan estimator regresi. Jadi, bahkan jika E{Uˆ ext(ÿÿ )} tidak sama

dengan nol, solusi untuk Uˆ cal(ÿ) = 0 konsisten selama E{Uˆ ext(ÿÿ ) ÿ Uˆ 2(ÿÿ )} = 0.

Meskipun model kerja E(Yi |xi1) = m2(xi1; ÿ) tidak perlu ditentukan dengan benar, kita dapat secara

sistematis menemukan U2(ÿ; xi1, yi) dengan memasukkan konstruksinya sebagai hilang

masalah kovariat, mengandalkan teknik kalibrasi regresi. Misalnya, misalkan

bahwa xi = (xi1, xi2), kami menetapkan prediktor ˆxi2 = ÿ0 + ÿ1xi1, dan persamaan estimasi adalah

8
Machine Translated by Google

ditulis oleh

U1(ÿ; xi1, xˆi2, yi) = {yi ÿ m1(xi1, xˆi2; ÿ)}h1(xi1, xˆi2; ÿ) (11)

untuk fungsi kontrol metode kalibrasi model di mana ÿ = (ÿ0, ÿ1). Kita juga bisa

perkirakan ÿ dari sampel S1 atau gunakan nilai parameter tetap apa pun selama solusinya

iÿS1 diU1(ÿ; xi1, xˆi2, yi) = 0 unik. Estimator patokan ÿ dapat diperoleh

menggunakan sampel eksternal untuk menerapkan metode kalibrasi model yang diusulkan. Jika kita menggunakan

fungsi kontrol pada (11), maka pada dasarnya kita memperlakukan regresi y pada x1 dan ˆx2

sebagai model "berfungsi" untuk kalibrasi model. Ini hanya layak jika kita memiliki langsung

akses ke sampel eksternal S2 selain sampel internal S1.

4 Sifat teoritis
Pada bagian ini, kami menyelidiki sifat asimtotik dari estimator yang diusulkan ÿˆ

ke (8). Karena parameter populasi termasuk ÿ0 dan ÿÿ ditentukan oleh yang terbatas

populasi ukuran N, kami secara eksplisit menggunakan subskrip N untuk yang ada di bagian ini, misalnya, ÿ0N dan

ÿÿN , tetapi kami menghilangkan subskrip ini untuk (dixi , , yi) untuk kesederhanaan. Kami mempertimbangkan dua skenario:

ketika ÿÿ
N tersedia dari populasi yang terbatas dan ketika kita hanya memiliki sampel eksternal

untuk memperkirakan ÿÿ
N oleh kuadrat terkecil yang digeneralisasikan dalam (9).

4.1 ÿÿ N tersedia

Misalkan ˜di = Nˆ ÿ1di di mana Nˆ = iÿS1 di adalah penaksir populasi Horvitz–Thompson

ukuran N. Mengganti di dengan ˜di dalam (6), kami mempertimbangkan masalah Lagrangian yang memaksimalkan

l(w,ÿ,ÿ) = ˜di log(wi) + ÿ wiU2(ÿ ÿ N ; xi1, yi) + ÿ wi ÿ 1


iÿS1 iÿS1 iÿS1

9
Machine Translated by Google

di mana ÿ dan ÿ adalah pengali Lagrange.


Dengan mengatur ÿl(w,ÿ, ÿ)/ÿÿ = 0, ÿl(w,ÿ, ÿ)/ÿÿ = 0 dan ÿl(w,ÿ, ÿ)/ÿwi = 0 untuk i ÿ S1 ,
ÿ1
kita mendapatkan ÿˆ = ÿ1 dan ˆwi = ˜di{1 ÿ ÿ U2(ÿÿN ; xi1, yi)} . Kemudian, metode yang diusulkan adalah

setara dengan memecahkan g(ÿ,ÿ) = 0 dimana

˜di
ÿ U1(ÿ; xi , yi) ÿ
1 ÿ ÿ U2(ÿÿ N ; xi1, yi)
g(ÿ,ÿ) = . (12)
˜di
U2(ÿ ÿN ; xi1, yi)
iÿS1iÿS11 ÿ ÿ U2(ÿÿ N ; xi1, yi)
ÿÿÿÿÿ ÿÿÿÿÿ

Nyatakan solusi untuk (12) sebagai ÿˆ = ÿˆ ,ÿˆ . Untuk menyelidiki sifat asimtotik dari
ÿˆ, kami mengusulkan kondisi keteraturan berikut.

C1. Terdapat himpunan kompak A sehingga ÿÿN ÿ A untuk N ÿ N dan

ZS = supÿÿA maxiÿS1 U2(ÿ; xi1, yi) = op(n 1/2 ) di mana · menunjukkan Euclidean

norma dan urutan stokastik sehubungan dengan desain sampling.

C2. Desain pengambilan sampel memenuhi hasil konvergensi berikut.

sebuah. Ada himpunan kompak ÿ sehingga ÿ0N ÿ ÿ untuk N ÿ N dan titik interior
dari ÿ, ÿp , sehingga limNÿÿ ÿ0N = ÿp .

˜diU1(ÿ; xidi mana


b. Ada fungsi kontinu U0(ÿ) di atas ÿ sehingga supÿÿÿ iÿS1 , yi)ÿ U0(ÿ) ÿ 0 dalam probabilitas

ÿp adalah solusi unik untuk U0(ÿ) = 0.

c. iÿS1 ˜diÿU1(ÿ0N ; xi , yi)/ÿÿ = I11 + op(1) di mana I11 non-stokastik dan dalam
vertikal.

d. iÿS1 ˜diU1(ÿ0N ; xi , yi)U2(ÿÿ N ; xi1, yi) = I12+op(1) di mana I12 non-stokastik.

10
Machine Translated by Google

ÿ2
e. iÿS1 ˜diU2(ÿÿ N ; xi1, yi) = I22 +op(1) di mana Aÿ2 = AA untuk sembarang matriks A dan

I22 non-stokastik dan definitif positif.

C3. Desain sampling memenuhi

n 1/2 ÿ U1(ÿ0N ; xi , yi) ÿ


˜di ÿ N (0, ÿu)
N ; xi1, yi)
ÿ U2(ÿÿ
iÿS1
ÿ

dalam distribusi di mana N (0, ÿu) adalah distribusi normal dengan rata-rata nol dan kovarians

matriks
ÿ11 ÿ12
ÿ ÿ
ÿu =
ÿ21 ÿ22
ÿ ÿ.

C1 adalah syarat teknis untuk memperoleh orde asimtotik ÿˆ, dan syarat serupa adalah

juga diasumsikan oleh Wu dan Rao (2006); lihat kondisi mereka C1 untuk detailnya. C2 mengasumsikan beberapa

hasil konvergensi untuk dua fungsi estimasi. Secara khusus, C2a menunjukkan parameternya

ruang parameter populasi hingga ÿ0N , dan konvergensi ÿ0N dapat dipenuhi dalam kondisi keteraturan. Kondisi

C2b diperlukan untuk menunjukkan probabilitas ÿˆ ÿÿp ÿ 0, kemudian probabilitas ÿˆ ÿ ÿ0N ÿ 0, ditambah dengan

C2a. Kondisi C2c–C2e menjamin

teorema limit pusat untuk ÿˆ. Perhatikan bahwa I22 simetris dengan C2e, tetapi I11 dalam C2c mungkin simetris

asimetris untuk fungsi estimasi tertentu U1(ÿ; x, y). Kondisi C3 terpenuhi di bawah

kondisi keteraturan untuk desain pengambilan sampel umum; lihat Fuller (2009, Bagian 1.3) untuk detailnya.

Lemma 4.1 Misalkan kondisi C1, C2e dan C3 terpenuhi. Maka, ÿˆ = Op(n ÿ1/2 ).

Bukti Lemma 4.1 disajikan pada Bagian ?? dari Bahan Tambahan. Lemma 4.1 menetapkan bahwa ÿˆ = op(1),

dan penting untuk menyelidiki distribusi asimptotik dari

ÿˆ.

11
Machine Translated by Google

Lemma 4.2 Misalkan kondisi C1, C2a–C2e dan C3 terpenuhi. Maka, ÿˆ ÿ ÿ0N = op(1).

Bukti Lemma 4.2 disajikan pada Bagian ?? dari Bahan Tambahan. Oleh

Lemma 4.1–4.2, kita simpulkan bahwa ÿˆ ÿ ÿ0 = op(1) dimana ÿ0 = (0 , ÿ 0N ) . Jadi, kita bisa

gunakan ekspansi Taylor untuk menetapkan teorema limit pusat berikut untuk ÿˆ.

Teorema 1 Misalkan kondisi C1–C3 berlaku. Lalu, n 1/2 (ÿˆ ÿ ÿ0 ) ÿ N (0, ÿÿ) dalam

distribusi di mana ÿÿ = I ÿ1ÿu(I ÿ1 ) dan

saya = ÿ I11 I12 ÿ

ÿ 0 I22 ÿ.

Pembuktian Teorema 1 disajikan pada Bagian ?? dari Bahan Tambahan. Dengan 1/2 (ÿˆ ÿ ÿ0N ) ÿ N (0, ÿÿ)

dalam distribusi di mana Teorema 1, kita dapat memperoleh n

ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 ÿ1 ÿ1 ÿ1 T ÿ1 T
ÿÿ = I 11 ÿ11(I 11 ) TÿI 11 I12I 22 ÿ21(I 11 ) TÿI 11 ÿ12I 22
Saya
12 (I 11 ) T+I 11 I12I 22 ÿ22I 22
Saya
12(Saya11 )

1/2
sesuai dengan varian asimptotik dari n , yi) dan ˜diU2(ÿÿ N ; xi1, yi), masing-masing. Dalam kondisi keteraturan,
˜diU1(ÿ0N
itu dapat
iÿS1 ; xi ditampilkan
dan ÿ11 dan ÿ22

n 1/2
iÿS1
ÿ1 ÿ1 ÿ1
bahwa ÿÿ = I 11 (ÿ11 ÿ ÿ12ÿ 22 ÿ21)(I 11 ) untuk pengambilan sampel acak sederhana dengan atau
ÿ1 ÿ1
penggantian. Sejak aku 11 ÿ11(I varian asimtotik dari n tanpa 1/2mana
(ÿˆ mÿˆÿ 11
ÿ0N) adalah
) di m
memecahkan
iÿS1 diU1(ÿ; xi , yi) = 0, yang
pendekatan
diusulkan mencapai estimasi efisien di bawah

contoh acak sederhana; lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya.

12
Machine Translated by Google

4.2 Estimator eksternal ÿˆ 2 tersedia

ÿ
Ketika ÿÿ tidak tersedia tetapi sampel eksternal tersedia untuk mendapatkan ÿˆ dalam (9), kami mempertimbangkan

ÿ ÿ U1(ÿ; xi , yi) ; xi1, yi) ÿ


˜di 1 ÿ ÿ U2(ÿˆ
g˜(ÿ) = . (13)
˜di ÿ

ÿ U2(ÿˆ ; ; xi1, yi)


iÿS1iÿS1
1 ÿ ÿ U2(ÿˆ xi1, yi)
ÿÿÿÿÿ ÿÿÿÿÿ

Nyatakan ÿ˜ sebagai solusi dari ˜g(ÿ) = 0. Kemudian, asumsi tambahan berikut adalah

diperlukan untuk mendapatkan sifat asimtotik untuk ÿ˜.

C4. ˜diÿU2(ÿ; xi1, yi)/ÿÿ = I(ÿ)+op(1) secara seragam untuk ÿ ÿ A di mana I(ÿ) bukan
iÿS1

stokastik. Selain itu, terdapat matriks I0 yang dapat dibalik sehingga limNÿÿ I(ÿÿ N )=

saya0.

C5. Desain pengambilan sampel dan sampel eksternal memenuhi hasil konvergensi berikut.

(a) Keduanya ÿˆ 1 dan ÿˆ 2 konsisten untuk ÿÿ .

(b)V 1 dan V 2 adalah estimator varians desain yang konsisten dari ÿˆ 1 dan ÿˆ 2, masing-masing.

ÿ1 ÿ1 ÿ1
(CV 1,
V 2, dan (V 1 + V2 )ÿ1 ÿ1
ada dalam probabilitas.

ÿ1 ÿ1 ÿ1
(d) (V 1 +V 2 ) ÿ1V = W + op(1) di mana W non-stokastik.
2

(e) Terdapat fungsi penskalaan ÿ(n) sehingga ÿ(n)(ÿˆ 2 ÿ ÿÿ ) ÿ N (0, ÿ2) di

distribusi di mana ÿ2 memenuhi ÿ(n) 2V 2 = ÿ2 + op(1).

C4 digunakan untuk mendapatkan orde asimtotik dan varian ÿˆ


ÿ
ÿ ÿÿ N,
dan serupa

Kondisi ini digunakan oleh Yuan dan Jennrich (1998). C5a dan C5b mengasumsikan konsistensi dari

13
Machine Translated by Google

ÿˆ 2 dan V 2 diperoleh dari sampel eksternal. Untuk konsistensi ÿˆ 1, kondisi cukup

mirip dengan C2b. Konsistensi desain estimator varians V 1 dapat diperoleh

di bawah desain pengambilan sampel umum; lihat Fuller (2009, Bab 1) untuk detailnya. jaminan C5c
adanya ÿˆ ÿ
untuk metode yang diusulkan. C5e menunjukkan teorema limit pusat dengan

sehubungan dengan ringkasan statistik ÿˆ 2, dan digunakan untuk mendapatkan hasil yang sama dengan C3

ÿ1
, yang
ÿ
ÿÿ diganti dengan ÿˆ . Secara khusus, tingkat konvergensi (ÿˆ 2 ÿ ÿÿ ) adalah ÿ(n)

ditentukan oleh sampel eksternal.

Teorema berikut menetapkan distribusi asimtotik yang mirip dengan yang ada di C3.

Teorema 2 Misalkan kondisi C1 dan C3–C5 terpenuhi. Kemudian,

n 1/2 ÿ U1(ÿ0 ; xi , yi) ÿ


˜di ÿ N (0, ÿ˜ u) ÿ
ÿ

iÿS1 ÿ U2(ÿˆ ; xi1, yi)

dalam distribusi di mana


ÿ˜ 11 ÿ˜ 12
ÿ˜ = ÿ ÿ
kamu

ÿ˜ 21 ÿ˜ 22
ÿ ÿ
Kasus 1. Khususnya, jika ada matriks non-stokastik ÿc sehingga nV 2 = ÿc +
T
op(1), lalu ÿ˜ 11 = ÿ11, ÿ˜ 12 = ÿ12(I
ÿ1
) WI ÿ˜ 21 = ÿ˜ dan ÿ˜ 22 = I0W{ÿc +
0 0, 12

ÿ1 ÿ1
Saya
0 ÿ22(I 0 ) T}WTI T ; Hai

Kasus 2. Jika W = 0, maka ÿ˜ aku j


= 0 untuk (i, j) = (1, 1) dan ÿ˜ 11 = ÿ11.

Bukti Teorema 2 disajikan pada Bagian ?? dari Bahan Tambahan. Untuk

Kasus 1, jika ÿˆ2 diperkirakan dari sampel eksternal jauh lebih efisien daripada ÿˆ dalam arti ) = op(n ÿ1/2 ),

dari (ÿˆ 2 ÿ ÿÿN maka W adalah matriks identitas dan ÿ˜ aku j


= ÿij untuk i, j = 1, 2.

Dengan demikian, kita dapat mengabaikan variabilitas statistik ringkasan ÿˆ2 dari sampel eksternal

dan dapatkan distribusi asimtotik yang sama seperti di C3. Meskipun distribusi asimtotik

14
Machine Translated by Google

sama, C3 dengan ÿÿ yang diketahui bukan kasus khusus dari Teorema 2 karena ÿˆ = ÿÿ
N 2 N

memiliki varians nol, yang melanggar C5c–C5e. Sebaliknya, jika (ÿˆ 2 ÿ ÿÿ n ÿ1/2 in)
N

probabilitas, maka ÿˆ 2
seefisien ÿˆ 1. Jadi, W bukan matriks identitas atau nol
ÿ
matriks, dan metode yang diusulkan lebih efisien daripada mengganti ÿÿ dengan ÿˆ = ÿˆ 2 jatuh tempo

informasi tambahan yang diberikan oleh sampel eksternal. Itu sepele yang tidak bisa kita gunakan

ÿˆ 1 untuk mengganti ÿÿ di (7); jika tidak, kita mendapatkan ˆwi , dan (8) setara dengan tradisional

persamaan estimasi = ˜di ˜diU1(ÿ; xi


tanpa
, yi) kalibrasi.
=0 Jika ÿˆ 2
kurang efisien
iÿS1

dari ÿˆ 1 dalam hal tingkat konvergensi, maka kita sebaiknya tidak menggunakan sampel eksternal seperti itu untuk

metode yang diusulkan karena ÿˆ ÿÿÿÿ = ÿˆ 1ÿÿÿ+op(n ÿ1/2 ) dan n 1/2


iÿS1 ˜diU2(ÿˆ ÿ ; xi1, yi) =

op(1); lihat Bagian ?? dari Bahan Pelengkap untuk rinciannya. Dengan C5, kita dapat memperoleh hasil konsistensi

yang sama pada Lemmas 4.1–4.2 untuk (13) dalam kondisi yang sama. Jadi, oleh

Teorema 2, diperoleh distribusi asimptotik berikut untuk ÿ˜.

Konsekuensi 1 Misalkan kondisi C1–C5 berlaku. Kemudian, kami memiliki n dalam 1/2 (ÿ˜ÿÿ0 ) ÿ N (0, ÿ˜ ÿ)

distribusi di mana ÿ˜ = I ÿ1ÿ˜ u(I


ÿ1
) , bentuk I ada pada Teorema 1, dan bentuk dari
ÿ

ÿ˜ dalam Teorema 2.
ÿ

Akibat wajar 1 dapat dibuktikan dengan prosedur serupa untuk Teorema 1, sehingga pembuktiannya dihilangkan.

5 Integrasi beberapa data

Kami sekarang mempertimbangkan analisis regresi yang menggabungkan informasi parsial dari sampel eksternal.

Untuk menjelaskan ide tersebut, Tabel 1 menunjukkan contoh struktur data dengan tiga sumber data (A,

B, C) di mana Sampel A berisi semua pengamatan sedangkan sampel B dan C berisi sebagian

observasi.

15
Machine Translated by Google

Tabel 1: Struktur data untuk integrasi survei

Sampel Bobot Sampling z x1 x2 y

SEBUAH
da

B db

C dc

Di bawah pengaturan Tabel 1, misalkan kita tertarik untuk memperkirakan parameter

dalam model regresi E(Y |x1, x2) = m1(ÿ0 + ÿ1x1 + ÿ2x2) dimana m1(·) diketahui tetapi ÿ = (ÿ0, ÿ1, ÿ2) tidak

diketahui. Persamaan estimasi untuk ÿ menggunakan sampel A dapat ditulis

sebagai

Uˆ a(ÿ) ÿ da,i{yi ÿ m(xi1, xi2; ÿ)}h(xi1, xi2; ÿ) = 0, (14)


iÿA

untuk beberapa h(xi1, xi2; ÿ) sehingga Uˆ a(ÿ) bebas linier hampir di semua tempat.

Sekarang, kami ingin memasukkan sebagian informasi dari sampel B. Untuk melakukannya, misalkan

bahwa kami memiliki model "berfungsi" untuk E(Y |x1, z):

E(Y |x1, z) = m2(x1, z; ÿ) (15)

untuk beberapa ÿ. Perhatikan bahwa, sejak (zi , x1i , yi) diamati, kita dapat menggunakan sampel B untuk memperkirakan

pemecahan iÿB ÿ dengan db,iUb(ÿ; xi1, zi , yi) = 0 untuk beberapa Ub yang memenuhi E{Ub(ÿ; x1, z, Y )|x1, z} = 0

di bawah model kerja (15).

Demikian pula, untuk memasukkan informasi parsial dari sampel C, anggaplah kita memilikinya

model "berfungsi" untuk E(Y |x2, z):

E(Y |x2, z) = m3(x2, z; ÿ) (16)

16
Machine Translated by Google

untuk beberapa ÿ. Kami juga dapat membuat persamaan estimasi yang tidak bias iÿC dc,iUc(ÿ; xi2, zi , yi) = 0

untuk beberapa Uc yang memuaskan E{Uc(ÿ; x2, z, Y ) | x2, z} = 0 di bawah model kerja (16).

Setelah ÿˆ dan ÿˆ diperoleh, kita dapat menggunakan informasi tambahan ini untuk meningkatkan efisiensi ÿˆ

dalam (14). Untuk memasukkan informasi tambahan, kita dapat merumuskannya sebagai memaksimalkan Q(da,

w) = da,i log (wi) tunduk


iÿA pada iÿA wi = N dan

wi [Ub(ÿˆ ; xi1, zi , yi), Uc(ÿˆ; xi2, zi , yi)] = 0 (17)


iÿA

di mana da dan w adalah himpunan yang berisi bobot sampling dan bobot kalibrasi dengan

sehubungan dengan sampel A. Kendala (17) memasukkan informasi tambahan. Setelah solusi wˆi{yiÿm(xi1, xi2;

wˆi diperoleh, kita bisa menggunakan iÿA ÿ)}h(xi1, xi2; ÿ) = 0 untuk memperkirakan ÿ. Itu

hasil asimtotik dapat diperoleh dengan cara yang sama di Bagian 4.

6 Studi simulasi
Untuk mengevaluasi kinerja sampel terbatas dari estimator yang diusulkan, kami melakukan sim

studi ulasi dengan asumsi beberapa skenario. Kami menghasilkan populasi terbatas dengan ukuran N =

100.000, setiap record terdiri dari variabel pembantu xi = (xi1, xi2) dengan panjang p = 2 dan variabel respon yi .

Kita asumsikan bahwa (xi , yi) tersedia untuk sampel internal S1 while

hanya (xi1, yi) yang tersedia untuk populasi terbatas U atau sampel eksternal S2. Sebagai perbandingan

ison, kami mengasumsikan model regresi linier dan model regresi logistik untuk U1(ÿ; xi , yi),

pertimbangkan skenario di mana xi1 dan xi2 independen atau dependen, dan perkenalkan

beberapa kesalahan pengukuran dalam komponen acak.

17
Machine Translated by Google

6.1 Penyiapan model regresi linier

Kami pertama-tama mengevaluasi kinerja estimator yang diusulkan di bawah regresi linier

mempersiapkan. Dalam hal ini, kami tertarik untuk membuat inferensi statistik untuk ÿ = (ÿ0, ÿ1, ÿ2)

yang memecahkan N
i=1(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0.

Pertama, kami mempertimbangkan dua skenario untuk menghasilkan kovariat untuk populasi terbatas: (i)
2
xi1 ÿ N(3, 1) dan xi2 ÿ N(11, 6.5 ) dimana xi1 dan xi2 saling bebas; (ii) xi1 ÿ N(3, 1) i1+N(0, 1).

dan xi2 = x 2
Parameter simulasi dipilih sedemikian rupa sehingga rata-rata marjinal

dan varian xi2 serupa dalam pengaturan independen dan dependen. Kedua,

variabel respon dihasilkan sebagai Yi = 1 + 2xi1 + xi2 + kÿi dalam dua skenario: (i) ÿi ÿ N(0, 1) dengan k = 3

dan (ii) ÿi ÿ t3 dengan k = ÿ 3 di mana t3 adalah a t-distribusi dengan

3 derajat kebebasan. Terakhir, kami mempertimbangkan dua desain pengambilan sampel untuk menghasilkan probabilitas

sampel S1 dengan ukuran n1 = 1.000: (i) pengambilan sampel Poisson dengan probabilitas inklusi yang
N
memenuhi ÿi ÿ (yi ÿ mini yi + 10)1/2 dan i=1 ÿi = n1, dan (ii) pengambilan sampel acak sederhana (SRS)

tanpa penggantian.
N
Untuk estimator yang diusulkan, kami mempertimbangkan model pengurangan kerja berikut, i=1(yiÿ

ÿ0 ÿ ÿ1xi1)(1, xi1) = 0, yang solusinya dilambangkan dengan ÿÿ . Untuk ketersediaan data, kami

asumsikan dua skenario: (i) ÿÿ tersedia dengan populasi terbatas U di mana (8) digunakan

mengandalkan Teorema 1, dan (ii) hanya sampel eksternal S2 dengan ukuran sampel n2 = 10.000 yang

ditarik oleh SRS tanpa penggantian yang tersedia di mana ÿÿ diganti dengan estimatornya di (9) untuk

kalibrasi model, mengandalkan Teorema 2.

Dalam studi simulasi, estimator yang diusulkan dibandingkan dengan beberapa alterna

tives. Pertama, kami mempertimbangkan penaksir dengan sampel probabilitas S1 saja, solusinya

dari di(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0. Kedua, kita menganggap sebuah konstrain
iÿS1

estimator kemungkinan maksimum (CML) dengan mengutak-atik Chatterjee et al. (2016) untuk survei

18
Machine Translated by Google

konteks pengambilan sampel, dengan mengandalkan (4) dan (5). Kita asumsikan distribusi normal untuk

fungsi likeli hood, yaitu yi | xi ÿ N{(1, x saya


)ÿ, ÿ2 full}, sehingga merupakan model yang tepat untuk data

simulasi dengan ÿi ÿ N(0, 9) sedangkan misspecified untuk data simulasi dengan ÿi ÿ t3. Kami juga menganggap

bahwa seorang analis mengasumsikan yi | xi1 ÿ N{(1, xi1)ÿ, ÿ2 red} untuk model kerja tereduksi dan temukan

solusinya (ÿÿ , ÿ2ÿ red) untuk

N N 2
1 1 {yi ÿ (1, xi1)ÿ}
yiÿ (1, xi1)ÿ ÿ ÿ = 0 dan ÿ

+ = 0.
4
2ÿ 2 2ÿ 2ÿ
merah _
xi1 merah merah
saya=1
ÿ ÿ saya=1

Lihat Bagian A6.1 dari Bahan Pelengkap untuk rincian perhitungan. Ketiga, kami

pertimbangkan estimator CML di bawah pengaturan di mana informasi tambahan dari (yi , xi1) berada

tersedia untuk sampel eksternal, bukan untuk seluruh populasi.

Tabel 2 dan 3 menunjukkan hasil simulasi untuk estimator dengan probabilitas internal

sampel S1 saja (hanya S1), metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U)

dan untuk sampel eksternal (Prop-S2), dan estimator CML berdasarkan

Metode seperti Chatterjee menggunakan informasi tambahan dari populasi terbatas (CML-U) dan

dari sampel eksternal (CML-S2). Kami melakukan 1.000 simulasi Monte Carlo untuk setiap skenario, dan

menghitung bias Monte Carlo dari ÿˆ, kesalahan kuadrat rata-rata akarnya, dan cakupan

tingkat interval kepercayaan 95%. Untuk estimasi varians, kami menggunakan sandwich standar

rumus untuk S1-Saja dan Proposisi 1 dari Chatterjee et al. (2016) untuk CML-U. Namun,

karena ÿÿ diperkirakan dengan menggabungkan dua sampel, estimasi varian CML-S2 tidak

dengan mudah dihitung.

Tabel 2 menunjukkan hasil simulasi di bawah pengambilan sampel Poisson untuk sampel internal S1. Kapan

xi1 dan xi2 dihasilkan secara independen dalam data simulasi (Pengaturan 1 dan 2), semua ap

proaches menunjukkan bias yang dapat diabaikan sementara empat pendekatan yang menggunakan informasi tambahan lebih banyak

efisien dalam memperkirakan ÿ0 dan ÿ1 daripada hanya menggunakan sampel internal (hanya S1). Ketika xi1

19
Machine Translated by Google

Tabel 2: Kinerja regresi linier di bawah pengambilan sampel Poisson yang diukur dengan Monte

Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.

cakupan (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U dan Prop

S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan eksternal

sampel, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.

ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI

Setting 1: xi1 dan xi2 independen dan ÿi mengikuti distribusi normal

S1-hanya 0,020 0,330 0,960 -0,006 0,089 0,961 0,000 0,015 0,952
Prop-U 0,013 0,305 0,957 -0,005 0,081 0,966 0,000 0,015 0,949
CML-U 0,014 0,303 - -0,005 0,081 - 0,000 0,014 -

Prop-S2 0,012 0,301 0,961 CML-S2 -0,005 0,080 0,964 0,000 0,015 0,950
0,006 0,287 0,953 -0,005 0,079 0,967 0,001 0,012 0,958

Setting 2: xi1 dan xi2 independen dan ÿi mengikuti distribusi-t

S1 saja -0,027 0,345 0,954 Prop-U 0,008 0,099 0,941 0,000 0,015 0,955
-0,032 0,315 0,945 CML-U -0,044 0,317 0,009 0,088 0,936 0,000 0,015 0,955
- 0,010 0,086 - 0,001 0,015 -

Prop-S2 -0,032 0,310 0,945 CML-S2 0,009 0,086 0,941 0,000 0,015 0,953
-0,040 0,313 0,942 0,010 0,085 0,949 0,000 0,015 0,917

Pengaturan 3: xi1 dan xi2 bergantung dan ÿi mengikuti distribusi normal

Hanya 0,000 0,532 0,945 0,007 0,357 0,948 -0,002 0,054 0,941
S1 Prop- 0,019 0,477 0,935 -0,006 0,347 0,943 0,000 0,055 0,940
U CML-U 0,446 0,642 Prop-S2 - -0,167 0,374 - 0,007 0,053 -

0,022 0,472 0,939 -0,007 0,346 0,944 CML-S2 0,478 0,634 0,758 0,000 0,055 0,940
-0,192 0,345 0,890 0,011 0,046 0,944

Setting 4: xi1 dan xi2 adalah dependen dan ÿi mengikuti distribusi-t

S1-hanya 0,025 0,482 0,950 -0,039 0,335 0,954 0,008 0,054 0,956
Prop-U 0,050 0,438 0,955 -0,056 0,332 0,950 0,010 0,054 0,945
CML-U 0,163 0,504 - -0,102 0,388 - 0,013 0,062 -

Prop-S2 0,053 0,434 0,947 -0,057 0,331 0,952 CML-S2 0,231 0,782 0,010 0,054 0,946
0,655 -0,170 0,655 0,579 0,024 0,108 0,572

20
Machine Translated by Google

dan xi2 dalam data simulasi bergantung (Pengaturan 3 dan 4), estimator CML (CML

U dan CML-S2) mengalami bias besar yang menghasilkan MSE besar dan kepercayaan yang salah

cakupan interval untuk CML-S2. Dalam kasus kovariat dependen, estimator yang diusulkan

masih menunjukkan bias yang dapat diabaikan dan cakupan interval kepercayaan yang benar, dan rMSE mereka untuk

ÿ0 dan ÿ1 juga lebih kecil dari S1 saja. Perhatikan bahwa tidak ada keuntungan efisiensi dalam memperkirakan

ÿ2 dengan metode yang diusulkan seperti yang diharapkan karena data eksternal hanya terdiri dari xi1 .

Di bawah pengaturan SRS yang hasilnya ditunjukkan pada Tabel 3, metode yang diusulkan masih ditampilkan

kinerja yang lebih baik daripada hanya S1 di semua pengaturan dalam hal rMSE ÿ0 dan ÿ1 dan timbal

untuk mengoreksi cakupan interval kepercayaan, yaitu estimasi varians yang benar. Namun, CML-S2

menghasilkan perkiraan varians yang terlalu rendah di Pengaturan 4 di mana xi1 dan xi2 bergantung dan

ÿi yang disimulasikan dihasilkan dari distribusi-t sedangkan fungsi kemungkinan CML-S2

salah ditentukan sebagai distribusi normal.

6.2 Penyiapan model regresi logistik

Studi simulasi kedua mengasumsikan bahwa respon yang menarik adalah hasil biner. Itu

kovariat xi = (xi1, xi2) dihasilkan oleh pengaturan yang sama di bagian sebelumnya. Kemudian, yi dihasilkan oleh

distribusi Bernoulli dengan probabilitas sukses Pr(Yi = 1 | xi1, xi2) = logitÿ1 (ÿ0 + ÿ1xi1 + ÿ2xi2) dengan parameter

simulasi (ÿ0, ÿ1, ÿ2) = (ÿ0.5, 0.1 , ÿ0.2).

Kami mempertimbangkan dua skema pengambilan sampel untuk menghasilkan sampel probabilitas S1 dengan ukuran n1 = 5.000:

(i) Pengambilan sampel Poisson dengan probabilitas inklusi yang memenuhi ÿi ÿ 0,9I(yi = 1) + 0,1I(yi = 0)
N
dan
i=1 ÿi = n1 dan (ii) SRS tanpa penggantian.

Untuk pendekatan yang diusulkan, kami mempertimbangkan model reduksi kerja yang ditulis oleh U2(ÿ; xi1, yi) = {yi ÿ
ÿ1
expit(ÿ0 + ÿ1xi1)}(1, xi1) di mana expit(x) = {1 + exp(ÿx )} . Mirip dengan yang pertama

simulasi, kami membandingkan kinerja lima pendekatan: (i) estimator dengan probabilitas

21
Machine Translated by Google

Tabel 3: Kinerja regresi linier dengan sampling acak sederhana yang diukur dengan

Bias Monte Carlo (Bias), root mean squared error (rMSE), dan kepercayaan 95%.

cakupan interval (CI). S1-saja menunjukkan estimasi dengan sampel internal saja; Prop-U

dan Prop-S2, metode yang diusulkan ketika (yi , xi1) tersedia untuk seluruh populasi dan an

sampel eksternal, masing-masing; dan CML-U dan CML-S2, estimator CLM mirip Chatterjee.

ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI

Setting 1: xi1 dan xi2 independen dan ÿi mengikuti distribusi normal

S1-hanya 0,001 0,329 0,957 0,000 0,094 0,952 0,000 0,015 0,940
Prop-U 0,000 0,310 0,948 0,000 0,085 0,952 0,000 0,015 0,939
CML-U 0,000 0,310 - 0,000 0,085 - 0,000 0,015 -

Prop-S2 0,000 0,310 0,948 CML-S2 0,000 0,085 0,950 0,000 0,015 0,939
-0,006 0,300 0,949 0,000 0,085 0,954 0,001 0,013 0,932

Setting 2: xi1 dan xi2 independen dan ÿi mengikuti distribusi-t

S1 saja -0,035 0,340 0,942 Prop-U 0,011 0,094 0,954 0,000 0,015 0,935
-0,036 0,324 0,944 CML-U -0,036 0,321 0,011 0,088 0,949 0,000 0,015 0,933
- 0,011 0,087 - 0,000 0,015 -

Prop-S2 -0,035 0,322 0,942 CML-S2 0,010 0,088 0,945 0,000 0,015 0,933
-0,017 0,353 0,929 0,010 0,087 0,954 -0,001 0,019 0,871

Pengaturan 3: xi1 dan xi2 bergantung dan ÿi mengikuti distribusi normal

Hanya 0,010 0,489 0,950 -0,010 0,345 0,946 0,002 0,055 0,938
S1 Prop- 0,021 0,446 0,945 -0,021 0,341 0,948 0,004 0,056 0,934
U CML-U 0,023 0,448 Prop-S2 - -0,022 0,342 - 0,004 0,056 -

0,024 0,442 0,945 CML-S2 0,032 0,392 -0,022 0,340 0,949 0,004 0,056 0,933
0,945 -0,028 0,286 0,946 0,005 0,046 0,943

Setting 4: xi1 dan xi2 adalah dependen dan ÿi mengikuti distribusi-t

S1-hanya 0,021 0,479 0,941 -0,036 0,339 0,950 0,008 0,055 0,945
Prop-U 0,029 0,442 0,936 -0,046 0,337 0,942 0,010 0,055 0,943
CML-U 0,033 0,442 - -0,049 0,338 - 0,010 0,056 -

Prop-S2 0,032 0,442 0,929 CML-S2 -0,048 0,338 0,938 0,010 0,055 0,936
-0,003 0,905 0,670 -0,026 0,773 0,578 0,006 0,129 0,562

22
Machine Translated by Google

sampel S1 saja, solusi dari iÿS


diexpit(yi ÿ ÿ0 ÿ ÿ1xi1 ÿ ÿ2xi2)(1, xi1, xi2) = 0, (ii)
ÿ
penaksir yang diusulkan dengan ÿÿ dari populasi terbatas U, (iii) penaksir yang diusulkan dengan ÿˆ

diperkirakan dari sampel eksternal S2 dengan ukuran n2 = 50.000, (iv) penaksir CML dengan mengandalkan

(4) dan (5) dengan informasi parsial dari U, dan (iv) estimator CML dengan S2.

Tabel 4 menunjukkan hasil simulasi dengan analisis regresi logistik saat

unit sampel dipilih dengan sampling Poisson. Ketika kovariat independen, semua

metode yang menggunakan data eksternal menghasilkan estimator yang lebih efisien daripada metode S1 saja.

Ketika kovariat bergantung, estimator CML menghasilkan estimator yang bias, yang mana

memiliki pola yang sama diamati dalam studi simulasi pertama.

Tabel 4: Kinerja regresi logistik di bawah pengambilan sampel Poisson diukur dengan Monte

Carlo bias (Bias), root mean squared error (rMSE), dan interval kepercayaan 95%.

cakupan (CI) diukur untuk estimasi dengan sampel internal saja (hanya S1); diajukan

metode ketika (yi , xi1) tersedia untuk seluruh populasi (Prop-U) dan untuk sampel eksternal (Prop-S2); dan

penaksir CLM seperti Chatterjee (CML-U dan CML-S2).

ÿ0 ÿ1 ÿ2
Bias rMSE CI Bias rMSE CI Bias rMSE CI

Pengaturan 1: xi1 dan xi2 independen

S1 saja -0,002 0,128 0,950 Prop-U 0,001 0,037 0,933 0,000 0,007 0,953
-0,003 0,097 0,944 CML-U -0,024 0,082 0,001 0,025 0,934 0,000 0,007 0,952
- 0,006 0,020 - 0,000 0,006 -

Prop-S2 -0,001 0,093 0,939 CML-S2 0,000 0,024 0,934 0,000 0,007 0,952
-0,022 0,076 0,959 0,006 0,018 0,971 0,000 0,006 0,996

Pengaturan 2: xi1 dan xi2 bergantung

Prop-U 0,002 0,174 0,947 0,000 0,126 0,949 0,000 0,024 0,946
khusus S1 0,000 0,112 0,948 CML-U 0,000 0,109 0,946 0,000 0,024 0,945
0,504 0,511 - -0,409 0,417 - 0,073 0,075 -

Prop-S2 0,001 0,107 0,949 CML-S2 -0,001 0,108 0,948 0,000 0,024 0,945
0,505 0,511 0,002 -0,410 0,417 0,054 0,073 0,075 0,229

23
Machine Translated by Google

7 Studi Aplikasi

7.1 Deskripsi Data dan Rumusan Masalah

Sebagai contoh aplikasi, kami menerapkan metode yang diusulkan untuk menganalisis subset data

dari Survei Pemeriksaan Kesehatan dan Gizi Nasional Korea (KNHANES). Itu

survei tahunan mencakup sekitar 5.000 orang setiap tahun dan mengumpulkan informasi

mengenai perilaku yang berhubungan dengan kesehatan dengan wawancara, kondisi kesehatan dasar dengan fisik dan

tes darah, dan asupan makanan dengan survei nutrisi. Desain pengambilan sampel KNHANES adalah a

stratified sampling menggunakan usia, jenis kelamin, dan wilayah sebagai variabel stratifikasi. Pengambilan sampel terakhir

bobot dihitung melalui nonresponse adjustment dan post-stratification, kemudian disediakan

kepada pengguna data dengan variabel survei.

Untuk meningkatkan efisiensi analisis data dengan ukuran KNHANES n1 = 4,929, kami menggunakan

database publik eksternal yang disediakan oleh National Health Insurance Sharing Service

(NHISS) di Korea. Data besar yang disediakan oleh NHISS berisi sekitar n2 = satu juta indi

viduals dengan informasi yang berhubungan dengan kesehatan, beberapa variabel yang merupakan subset dari variabel

di KHANES.

Struktur data ini, dengan n1 kecil , n2 besar , dan data besar memiliki a

subset variabel dalam sampel internal, cocok dengan pengaturan yang kami bahas

Bagian 2. Namun, ada komplikasi lain dalam penerapan metode yang diusulkan

aplikasi sebenarnya. Dalam data NHISS, probabilitas pemilihannya tidak diketahui, sehingga

desain estimator yang konsisten ÿˆ 2 dalam (9) tidak tersedia. Bagian 7.2 membahas masalah ini dengan

menggunakan pendekatan pembobotan kecenderungan dan Bagian 7.3 menyajikan hasil analisis dari

studi aplikasi.

24
Machine Translated by Google

7.2 Kecenderungan Menimbang Data Eksternal dengan Se yang Tidak Diketahui

Probabilitas leksi

Kami sekarang mempertimbangkan perluasan metode yang diusulkan untuk kasus di mana eksternal

sampel S2 adalah data besar dengan probabilitas seleksi yang tidak diketahui. Dalam hal ini, bekerja

model untuk E(Yi | xi1) = m(ÿxi1) mungkin tidak berlaku untuk sampel S2. Meskipun demikian, kita mungkin

masih memecahkan

{yi ÿ m(ÿ xi1)}xi1 = 0 (16)


iÿS2

untuk mendapatkan ˆÿ0 dan ˆÿ1. Jika mekanisme sampling untuk S2 diabaikan atau tidak informatif,

maka solusi dari (7.2) tidak bias; jika tidak, estimator yang dihasilkan bias.

Untuk menghapus bias seleksi dalam perkiraan data besar, Kim dan Wang (2019) menyarankan

gested menggunakan bobot skor kecenderungan di (7.2) untuk mendapatkan penduga yang tidak bias dari ÿ. Ke

membangun bobot skor kecenderungan, kami menggunakan model nonresponse yang tidak dapat diabaikan,

P(ÿi = 1 | xi1, yi) = ÿ(xi1, yi ; ÿ), di mana ÿi = 1 jika i ÿ S2 dan nol jika tidak. Catatan

yang dapat kita nyatakan ÿ(xi1, yi) 0)/ ÿ1 = 1 + (N0/N1)r(xi1, yi) dimana r(xi1, yi) = f(xi1, yi |ÿi =

f(xi1, yi |ÿi = 1) adalah fungsi rasio kerapatan dengan N1 = Ni=1 ÿi dan N0 = N ÿ N1.

Menggunakan motivasi Wang dan Kim (2021), kita dapat mengasumsikan log-linear densitas ra

tio model, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1xi1 + ÿ2yi . Estimator entropi maksimum ÿ ÿi exp(ÿ0 + ÿ1xi1 + ÿ2yi)(1, xi1, yi)
N
yˆ¯) = (1/Nˆ 0) sampel internal. Setelah ÿˆ saya=1
diperoleh,
= 1, xˆ¯1,
kitayˆ¯dapat
dimana
menyusun
diperoleh
ˆÿ(xi1,
dengan
yi) dan
menyelesaikan
menyelesaikannya
(1/N1) (xˆ¯1,

di(xi1, yi) ÿ
=
iÿS1 Ni=1 ÿi(xi1, yi) dan Nˆ 0 di ÿ N1 di mana S1 adalah iÿS1

1
{yi ÿ m(ÿ0 + ÿ1xi1)}(1, xi1) = (0, 0) ÿˆ(xi1, yi) (16)
iÿS2

untuk mendapatkan ÿˆ = (ˆÿ0, ÿˆ1).


2

25
Machine Translated by Google

Selain itu, kita dapat menggunakan sampel internal S1 agar sesuai dengan model kerja yang sama untuk diperoleh
ÿ
ÿˆ 1. Setelah itu, kami memperoleh ÿˆ menggunakan (9) dan menerapkan pembobotan kalibrasi yang diusulkan

metode untuk menggabungkan informasi dari data besar. Dalam prakteknya V 2 dalam (9) sulit untuk

menghitung, tetapi sangat kecil jika ukuran sampel untuk S2 sangat besar. Dalam hal ini, kita mungkin
ÿ
cukup gunakan ÿˆ = ÿˆ 2 dalam masalah kalibrasi.

7.3 Hasil Studi Aplikasi: Kesehatan Nasional Korea dan Nu


Survei Pemeriksaan Trisi

Dalam studi aplikasi ini, kami menggunakan n1 = 4.929 record data KNHANES yang memiliki no

nilai yang hilang dalam empat variabel: Kolesterol total, Hemoglobin, Trigliserida, dan HDL

kolesterol. Untuk tujuan demonstrasi, kami berasumsi bahwa seorang analis tertarik pada perilaku

melakukan analisis regresi berikut,

E(Total Kolesterol |xi) = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3HDLi untuk i ÿ S1.

Dalam data kami, nilai absolut terbesar dari korelasi berpasangan antar kovariat adalah -

0,40 diamati antara Trigliserida dan kolesterol HDL, yang mirip dengan skenario

di Bagian 6 di mana kovariat sangat berkorelasi. Data eksternal besar terdiri

n2 = satu juta catatan data NHISS dengan item yang diamati sepenuhnya dalam Kolesterol total ,

Hemoglobin, dan Trigliserida. Model kerja yang diasumsikan untuk menghubungkan sampel eksternal

untuk sampel internal adalah

E(Total Kolesterol |xi1) = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei untuk i ÿ S1 ÿ S2.

26
Machine Translated by Google

Dalam studi aplikasi ini, kami menerapkan metode yang kami usulkan dengan sampel eksternal

dimana ÿˆ digunakan sebagai pengganti ÿÿ yang tidak tersedia karena kami tidak memiliki informasi terkait
2

seluruh penduduk. Dengan sampel eksternal yang probabilitas seleksinya tidak diketahui,

kami menyiapkan dua versi metode yang diusulkan: (i) mempertimbangkan S2 sebagai SRS, yaitu, tanpa bobot

kecenderungan, dan (ii) dengan penyesuaian bobot kecenderungan diperkenalkan di Sec

hal 7.2. Untuk pembobotan kecenderungan, kami menyesuaikan model rasio densitas log-linear dengan exter

data akhir, log{r(xi1, yi ; ÿ)} = ÿ0 + ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3Total Kolesterol hitung ˆÿ(xi1, yi) diberikan ÿˆ, ,

kemudian selesaikan (7.2) untuk mendapatkan ÿˆ 2. Pertunjukan yang diusulkan

Metode tersebut dibandingkan dengan metode referensi yang menggunakan sampel internal S1 saja

dapatkan taksiran kuadrat terkecil tertimbang dengan mempertimbangkan bobot pengambilan sampel.

Gambar 1 menunjukkan perkiraan titik dan interval kepercayaan 95% dari ÿˆ = (ÿˆ 0, ÿˆ 1, ÿˆ 2, ÿˆ 3)

untuk setiap metode. Metode yang diusulkan menunjukkan varian yang lebih kecil untuk ÿˆ 0, ÿˆ 1 dan ÿˆ 2 dibandingkan

menggunakan sampel internal saja. Hasil ini bertepatan dengan temuan kami dalam simulasi

kajian pada bagian sebelumnya. Untuk ÿ2, estimator dari metode yang diusulkan tanpa

bobot kecenderungan menunjukkan perbedaan sistematis dari dua estimator lainnya. Kapan

penyesuaian pembobotan kecenderungan digabungkan dengan metode yang diusulkan, kepercayaannya

interval ÿ2 terkandung dengan menggunakan sampel internal saja. Hasil ini menyiratkan

bahwa bias sistematis karena pengabaian probabilitas pengambilan sampel diatasi oleh

penyesuaian pembobotan kecenderungan. Tidak ada keuntungan efisiensi dalam memperkirakan ÿ3 yang diharapkan

data eksternal mengandung informasi xi1 (Hemoglobin) dan xi2 (Trigliserida), bukan xi3

(HDL).

27
Machine Translated by Google

Gambar 1: Perbandingan analisis regresi untuk E(Kolesterol Total |xi) = ÿ0 +

ÿ1Hemoglobini + ÿ2Trigliserei + ÿ3HDLi menggunakan data internal dari Korea National

Survei Pemeriksaan Kesehatan dan Gizi didukung oleh data eksternal yang besar dari

Database Layanan Berbagi Asuransi Kesehatan Nasional. Untuk setiap panel, lingkaran adalah titik es

timate dan garis adalah interval kepercayaan 95% mereka untuk menggunakan sampel internal S1 saja

dengan kuadrat terkecil tertimbang (garis solid atas), metode yang diusulkan tanpa penyesuaian

(garis putus-putus tengah), dan metode yang diusulkan dengan penyesuaian bobot skor kecenderungan

(garis putus-putus paling bawah).

28
Machine Translated by Google

8 Kesimpulan

Memasukkan sumber data eksternal ke dalam analisis regresi sampel internal adalah sebuah

masalah praktis yang penting. Kami telah mengatasi masalah ini menggunakan aplikasi baru dari

pembobotan kalibrasi model (Wu dan Sitter, 2001). Metode yang diusulkan secara langsung

berlaku untuk pengambilan sampel survei dan dapat dengan mudah diperluas ke beberapa integrasi data. Itu

metode yang diusulkan mudah diimplementasikan dan tidak memerlukan akses langsung ke data eksternal.

Selama estimasi koefisien regresi dan kesalahan standarnya untuk bekerja

model tereduksi tersedia, kami dapat memasukkan informasi tambahan ke dalam analisis kami.

Ada beberapa kemungkinan arah pada ekstensi penelitian di masa depan. Pertama, seorang Bayesian

pendekatan dapat dikembangkan di bawah pengaturan yang sama. Seseorang dapat menggunakan empiris Bayesian

metode kemungkinan Zhao et al. (2020) dalam pengaturan ini. Metode yang diusulkan berpotensi

digunakan untuk menggabungkan data uji klinis acak dengan data dunia nyata yang besar (Yang et al.,

2020); ekstensi tersebut akan disajikan di tempat lain. Menarik juga untuk menghubungkan pendekatan yang diusulkan

dengan desain pengambilan sampel dua fase (ganda) yang desain dan efisiensinya efisien

estimasi baru-baru ini dipelajari secara aktif (Rivera-Rodriguez et al., 2019, 2020; Wang

et al., 2020). Struktur data sampling dua fase dengan besar-n, kecil-p terlebih dahulu

sampel tahap dan sampel tahap kedua kecil-n, besar-p sangat cocok untuk pengaturan

diasumsikan oleh pendekatan kalibrasi model yang disarankan.

MATERI TAMBAHAN

Lampiran: Pembuktian Lemma 4.1, Lemma 4.2, Teorema 1, dan Teorema 2; keterangan

tentang kasus khusus dengan pengambilan sampel acak sederhana; dan penerapan Chatterjee

et al. (2016) dalam studi simulasi di teks utama. (.File pdf)

29
Machine Translated by Google

Referensi

Chatterjee, N., Y.-H. Chen, P. Maas, dan R. Carroll (2016). Dibatasi maksimal like

estimasi lihood untuk kalibrasi model menggunakan informasi tingkat ringkasan dari eksternal

sumber data besar. Jurnal Asosiasi Statistik Amerika 111, 107–117.

Chen, YH dan H. Chen (2000). Pendekatan terpadu untuk analisis regresi di bawah ganda

desain sampel. Jurnal Masyarakat Statistik Kerajaan: Seri B 62, 449–460.

Deville, J.-C. dan C.-E. S¨ardal (1992). Estimator kalibrasi dalam pengambilan sampel survei. Jurnal

dari Asosiasi Statistik Amerika 87, 376–382.

Fuller, WA (2009). Statistik Pengambilan Sampel. Wiley, Hoboken, NJ.

Hidiroglou, M. (2001). Pengambilan sampel ganda. Metodologi survei 27, 143–154.

Imbens, GW (2002). Metode momen umum dan kemungkinan empiris. Jurnal

Statistik Bisnis dan Ekonomi 20, 493–506.

Kim, JK (2010). Estimasi kalibrasi menggunakan kemiringan eksponensial dalam survei sampel.

Metodologi Survei 36, 145–155.

Kim, JK dan JNK Rao (2009). Pendekatan terpadu untuk estimasi varian linearisasi

dari data survei setelah imputasi untuk item nonresponse. Biometrika 96, 917–932.

Kim, JK dan Z.Wang (2019). Teknik pengambilan sampel untuk analisis data besar dalam populasi terbatas

inferensi lasi. Tinjauan Statistik Internasional 87, S177–S191.

Lohr, SL dan TE Raghunathan (2017). Menggabungkan data survei dengan sumber data lainnya.

Ilmu Statistik 32, 293–312.

30
Machine Translated by Google

Merkouris, T. (2010). Menggabungkan informasi dari beberapa survei dengan menggunakan regresi untuk

estimasi domain kecil yang efisien. Jurnal Masyarakat Statistik Kerajaan: Seri B 72,
27–48.

Owen, A. (1991). Kemungkinan empiris untuk model linier. Sejarah Statistik 19,
1725–1747.

Qin, J. (2000). Menggabungkan kemungkinan parametrik dan empiris. Biometrika 87, 484–490.

Qin, J. dan J. Lawless (1994). Kemungkinan empiris dan persamaan estimasi umum. Itu

Sejarah Statistik 22, 300–325.

Rao, J. (2021). Tentang membuat kesimpulan yang valid dengan mengintegrasikan data dari survei dan lainnya

sumber. Sankhya B 83, 242–272.

Rivera-Rodriguez, C., S. Haneuse, M. Wang, and D. Spiegelman (2020). Ditambah

estimasi kemungkinan semu untuk studi dua fase. Metode statistik dalam re medis

cari 29, 344–358.

Rivera-Rodriguez, C., D. Spiegelman, dan S. Haneuse (2019). Pada analisis dua fase

desain dalam pengaturan data berkorelasi cluster. Statistik dalam kedokteran 38, 4611–4624.

Robins, JM, A. Rotnitzky, dan LP Zhao (1994). Estimasi koefisien regresi

ketika beberapa regressor tidak selalu diamati. Jurnal Statistik Amerika As

sosialisasi 89, 846–866.

Sheng, Y., Y. Sun, C.-Y. Huang, dan M.-O. Kim (2021). Sintesis agregat eksternal

informasi di hadapan heterogenitas populasi: Kemungkinan empiris yang dihukum

mendekati. Biometrik. DOI: 10.1111/biom.13429.

31
Machine Translated by Google

Wang, CY, S.Wang, L.-P. Zhao, dan S.-T. Ou (1997). Es semiparametrik tertimbang

waktu dalam analisis regresi dengan data kovariat yang hilang. Jurnal Amerika

Asosiasi Statistik 92, 512–525.

Wang, H. dan JK Kim (2021). Estimasi skor kecenderungan menggunakan model rasio kepadatan

di bawah item non-respons. pracetak arXiv arXiv:2104.13469 .

Wang, L., ML Williams, Y. Chen, and J. Chen (2020). Desain pengambilan sampel dua fase yang baru

untuk mempelajari hasil biner. Biometrik 76, 210–223.

Wu, C. dan J. Rao (2006). Interval kepercayaan rasio kemungkinan empiris semu untuk kompleks

survei. Jurnal Statistik Kanada 34, 359–375.

Wu, C. dan RR Sitter (2001). Pendekatan kalibrasi model untuk menggunakan alat bantu lengkap

informasi dari data survei. Jurnal Asosiasi Statistik Amerika 96, 185–
193.

Xu, M. dan J. Shao (2020). Meta-analisis dataset independen menggunakan gen yang dibatasi

metode momen terhapus. Teori Statistik dan Bidang Terkait 4, 109–116.

Yang, S. dan JK Kim (2020). Integrasi data statistik dalam pengambilan sampel survei: Tinjauan.

Jurnal Statistik dan Ilmu Data Jepang 3, 625–650.

Yang, S., D.Zheng, dan X.Wang (2020). Analisis acak terpadu elastis

uji coba dan data dunia nyata untuk estimasi heterogenitas pengobatan. pracetak arXiv
arXiv:2005.10579v2 .

Yuan, K.-H. dan RI Jennrich (1998). Asimtotik memperkirakan persamaan di bawah alami

kondisi. Jurnal Analisis Multivariat 65 (2), 245–260.

32
Machine Translated by Google

Zhang, H., L. Deng, W. Wheeler, J. Qin, and K. Yu (2021). Analisis integratif dari banyak

studi kasus-kontrol. Biometrik. https://doi.org/10.1111/biom.13461.

Zhao, P., M. Ghosh, J. Rao, and C. Wu (2020). Inferensi kemungkinan empiris Bayesian

dengan data survei yang kompleks. Jurnal Masyarakat Statistik Kerajaan: Seri B 82, 155–174.

Zubizarreta, JR (2015). Bobot stabil yang menyeimbangkan kovariat untuk estimasi dengan in

melengkapi data hasil. Jurnal Asosiasi Statistik Amerika 110, 910–922.

33

Anda mungkin juga menyukai