Data Kosong & Imputasi Ganda
Data Kosong & Imputasi Ganda
IMPUTASI GANDA
Johan Harlan
PENERBIT GUNADARMA
Data Kosong dan Imputasi Ganda
Penulis : Johan Harlan
KATA PENGANTAR
Buku ini membahas mengenai data kosong (missing data)
dan metode penanganannya secara kontemporer, yaitu imputasi
ganda (multiple imputation). Data kosong merupakan masalah
lama bidang penelitian, sama usianya dengan riwayat
pengumpulan data sendiri untuk penelitian, sebaliknya imputasi
ganda adalah teknik statistik yang praktis baru berkembang dalam
tiga dekade terakhir. Perkembangan teknik imputasi ganda
dimungkinkan oleh kemajuan mutakhir di bidang Informatika dan
Ilmu Komputer, dan perkembangan ini masih diharapkan untuk
berlanjut dan mengalami penyempurnaan di masa mendatang.
Teknik imputasi ganda terutama bermanfaat untuk data
survei yang berukuran besar, walaupun dapat juga dimanfaatkan
dalam studi eksperimental. Data survei biasa dikumpulkan dalam
jumlah besar dengan biayanya umumnya lebih rendah daripada
studi eksperimental. Pada studi eksperimental dengan biaya yang
biasanya lebih besar pengumpulan data umumnya dilakukan
secara lebih giat sehingga umumnya jarang didapatkan data
kosong.
Pembaca buku ini diharapkan sedikit banyak telah memiliki
penguasaan mengenai dasar-dasar model regresi. Penulis mencoba
membahas beberapa aspek dasar mengenai kekosongan data dan
teknik imputasi ganda dengan menggunakan program statistik
Stata secara sederhana, tetapi diharapkan dapat memberi bekal
dasar bagi pembaca untuk mendalami mengenai topik tersebut.
Penulis
v
Daftar Isi
DAFTAR ISI
Kata Pengantar v
Daftar Isi vi
Bab I Pendahuluan 1
Data Kosong 1
Imputasi Data 2
vi
Daftar Isi
Kepustakaan 59
Lampiran 60
vii
Bab 1. Pendahuluan
BAB I
PENDAHULUAN
Data Kosong
Dalam pemrosesan dan analisis data seringkali didapatkan
adanya variabel yang nilainya kosong untuk satu atau beberapa
subjek penelitian, yang dikenal sebagai data kosong (missing
data).
1
Bab 1. Pendahuluan
Imputasi Data
Standar umum di waktu lampau ialah menghapus
responden (record) dengan data kosong dari dataset. Hand et al
(1994) mengumpulkan 510 dataset dari literatur statistik; hanya
13 di antaranya yang menyertakan pedoman yang digunakan
untuk menangani data kosong. Pada sebagian besar kasus,
masalah data kosong telah “dipecahkan” dengan cara tertentu,
tanpa penjelasan seberapa banyak entri kosong yang semula ada.
Jika jumlah responden dengan data kosong yang dihapus
dari dataset relatif kecil, misalkan hanya 1% dari keseluruhan
responden semula, hasil akhir dapat dikatakan praktis tak
terpengaruh, sebaliknya jika jumlah responden yang dihapus
besar, misalkan 50% dari keseluruhan responden semula, hasil
akhir yang diperoleh dapat bersifat sangat bias. Terbuangnya data
2
Bab 1. Pendahuluan
Contoh 1.1
Dalam contoh ini dilakukan perbandingan hasil analisis
regresi terhadap 3 datasets:
- hsb2.dta: Dataset full → Memuat data 200 kasus dengan
entri lengkap.
- hsb2_mar.dta: Memuat data hsb2 dengan sebagian
berupa entri kosong, yang setelah menjalani listwise
deletion, menyisakan dataset cc (complete cases) yang
hanya memuat 145 kasus dengan entri lengkap.
- mvn_imputation.dta: Berasal dari data hsb2_mar yang
telah menjalani persiapan seperlunya, siap untuk menjalani
proses imputasi ganda. Setelah menjalani imputasi
diperoleh dataset mi (multiple imputation).
3
Bab 1. Pendahuluan
. sum
4
Bab 1. Pendahuluan
-------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------------
write | .3757491 .0852101 4.41 0.000 .2076975 .5438007
read | .3696825 .0775725 4.77 0.000 .2166938 .5226712
female | -.2340534 1.207995 -0.19 0.847 -2.616465 2.148358
math | .1209005 .0861526 1.40 0.162 -.0490101 .2908111
_cons | 7.029076 3.562453 1.97 0.050 .003192 14.05496
-------------------------------------------------------------------
. sum
5
Bab 1. Pendahuluan
---------+-----------------------------------------------
prog | 182 2.027473 .6927511 1 3
read | 191 52.28796 10.21072 28 76
write | 183 52.95082 9.257773 31 67
math | 185 52.8973 9.360837 33 75
science | 184 51.30978 9.817833 26 74
---------+-----------------------------------------------
socst | 200 52.405 10.73579 26 71
--------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
write | .3212789 .1020247 3.15 0.002 .1195706 .5229871
read | .3047733 .0899709 3.39 0.001 .1268961 .4826505
female | .2233572 1.404163 0.16 0.874 -2.552749 2.999463
math | .1988131 .1016747 1.96 0.053 -.0022031 .3998294
_cons | 9.358279 4.262397 2.20 0.030 .9312916 17.78527
--------------------------------------------------------------------
. estimates store cc
. use D:\Data\mvn_imputation, clear
. mi estimate, post: reg socst write read female math
-------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------------
write | .3472116 .0956238 3.63 0.000 .1572004 .5372228
read | .3673822 .0803328 4.57 0.000 .2086775 .5260869
female | .525372 1.375176 0.38 0.704 -2.225667 3.276411
math | .1508523 .0908884 1.66 0.099 -.0290372 .3307417
_cons | 6.59747 3.707945 1.78 0.077 -.7188551 13.9138
-------------------------------------------------------------------
. estimates store mi
. estimates table cc full mi, b se p
-------------------------------------------------
Variable | cc full mi
-----------+-------------------------------------
write | .32127885 .3757491 .34721159
| .10202467 .08521005 .09562376
| 0.0020 0.0000 0.0004
read | .30477331 .36968249 .36738221
| .08997086 .07757247 .08033285
| 0.0009 0.0000 0.0000
female | .22335724 -.23405342 .52537204
7
Bab 1. Pendahuluan
legend: b/se/p
8
Bab II. Tipe Kekosongan
BAB II
TIPE KEKOSONGAN
Rubin (1976) mengemukakan teori tentang kekosongan
data, yaitu setiap titik data memiliki peluang tertentu untuk
kosong.
9
Bab II. Tipe Kekosongan
10
Bab II. Tipe Kekosongan
Contoh 2.1:
Dataset pada tabel 2.1 memuat data sejumlah calon
karyawan (dan sebagian yang lolos seleksi selanjutnya menjadi
karyawan). Variabelnya yaitu nilai tes IQ dan kepuasan psikologis
(psychological well-being) pada saat seleksi. Mereka yang nilai
IQ lebih daripada 98 diterima menjadi karyawan dan setelah 6
bulan bekerja dinilai kinerjanya (job performance).
11
Bab II. Tipe Kekosongan
12
Bab II. Tipe Kekosongan
(Enders, 2010)
Contoh 2.2:
Contoh berikutnya adalah data mengenai kelompok
responden yang sama, diperlihatkan pada tabel 2.2. Data kinerja
(job performance) terdiri atas yang lengkap (complete; diandaikan
seluruh calon diterima), MCAR (misalnya sebagian karyawan
mengundurkan diri, pengunduran diri tak terkait nilai IQ), MAR
(calon karyawan yang diterima hanya yang nilai IQ-nya di atas
90), dan MNAR (misalnya karyawan yang menunjukkan kinerja
buruk di bawah 9 telah dikeluarkan, sehingga kekosongan terkait
dengan nilai kinerja itu sendiri).
112 10 − 10 10
113 12 12 12 12
115 14 14 14 14
118 16 16 16 16
134 12 − 12 12
(Enders, 2010)
Contoh 2.3:
Lihat data pada tabel 2.2, beberapa nilai statistik untuk
dataset lengkap, MCAR, MAR, dan MNAR diperlihatkan pada
tabel 2.3.
14
Bab II. Tipe Kekosongan
Tipe kekosongan
No Metode MCAR MAR MNAR
1 Complete cases Tak bias Bias Bias
analysis
2 Imputasi ganda Tak bias Tak bias Bias*)
Contoh 2.4:
Adakalanya diperlukan indikator untuk menunjukkan
keberadaan entri kosong. Contoh untuk itu diperlihatkan pada
tabel 2.5, yang menyajikan contoh indikator entri kosong untuk
kinerja MAR. Indikator bernilai 0 jika entri kosong dan sama
dengan 1 jika entri terisi.
Job performance
Complete MAR Indicator
9 − 0
13 − 0
10 − 0
8 − 0
7 − 0
7 7 1
9 9 1
9 9 1
11 11 1
7 7 1
15
Bab II. Tipe Kekosongan
7 7 1
10 10 1
11 11 1
15 15 1
10 10 1
10 10 1
12 12 1
14 14 1
16 16 1
12 12 1
(Enders, 2010)
16
Bab II. Tipe Kekosongan
17
Bab II. Tipe Kekosongan
18
Bab III. Solusi Tradisional: Delesi Data
BAB III
SOLUSI TRADISIONAL:
DELESI DATA
Listwise Deletion
Setiap subjek (responden) yang entri datanya tidak lengkap
dieliminasi dari dataset, sehingga analisis data hanya akan
dilakukan terhadap himpunan kasus yang lengkap entri datanya.
19
Bab III. Solusi Tradisional: Delesi Data
106 15 15
108 10 10
112 10 10
113 12 12
115 14 14
118 16 16
134 12 12
(Enders, 2010)
20
Bab III. Solusi Tradisional: Delesi Data
21
Bab III. Solusi Tradisional: Delesi Data
Pairwise Deletion
Metode ini terutama digunakan pada estimasi statistik
untuk pasangan variabel, misalnya nilai korelasi dan kovariansi.
22
Bab IV. Solusi Tradisional: Imputasi Tunggal
BAB IV
SOLUSI TRADISIONAL:
IMPUTASI TUNGGAL
Imputasi Rerata (mean imputation)
+----------+
| iq jp |
|----------|
1. | 99 7 |
2. | 105 10 |
3. | 105 11 |
4. | 106 15 |
5. | 108 10 |
|----------|
6. | 112 10 |
7. | 113 12 |
8. | 115 14 |
9. | 118 16 |
10. | 134 12 |
+----------+
23
Bab IV. Solusi Tradisional: Imputasi Tunggal
. mean jp
-------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
-----+-------------------------------------------
-------------------------------------------
JP | 11.7 .8569973 9.761337 13.63866
-------------------------------------------------
24
Bab IV. Solusi Tradisional: Imputasi Tunggal
Imputasi Regresi
-----------------------------------------------------------------
jp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+-------------------------------------------------------
iq | .1234495 .088633 1.39 0.201 -.0809385 .3278375
_cons | -2.064619 9.916166 -0.21 0.840 -24.93134 20.8021
-----------------------------------------------------------------
25
Bab IV. Solusi Tradisional: Imputasi Tunggal
26
Bab IV. Solusi Tradisional: Imputasi Tunggal
( )
JPi = -2.025 + 0.123 IQi (Enders, 2010)
Missing
Regression equations
variables
Y1 ŷ = B0 + B1 y2 + B2 y3
1
Y2 ŷ = B0 + B1 y2 + B2 y3
2
Y3 ŷ3 = B0 + B1 y1 + B2 y2
Y1 and Y2 ŷ = B0 + B1 y3 ŷ = B0 + B1 y3
1 2
Y1 and Y3 ŷ = B0 + B1 y2
1
ŷ3 = B0 + B1 y2
Y2 and Y3 ŷ = B0 + B1 y1
2
ŷ3 = B0 + B1 y1
(Enders, 2010)
27
Bab IV. Solusi Tradisional: Imputasi Tunggal
. clear
. set obs 10
obs was 0, now 10
28
Bab IV. Solusi Tradisional: Imputasi Tunggal
. list
+-----------+
| z |
|-----------|
1. | -2.470705 |
2. | -.749728 |
3. | 2.179607 |
4. | 2.22218 |
5. | -3.143945 |
|-----------|
6. | 2.438858 |
7. | .4441902 |
8. | -3.429672 |
9. | -2.973124 |
10. | 6.489448 |
+-----------+
Diagram tebar hasil imputasi regresi stokastik terhadap
dataset tabel 3.1 diperlihatkan pada gambar 4.3.
29
Bab IV. Solusi Tradisional: Imputasi Tunggal
(Enders, 2010)
30
Bab V. Imputasi Ganda Univariat
BAB V
IMPUTASI GANDA UNIVARIAT
Pengertian Imputasi Ganda
31
Bab V. Imputasi Ganda Univariat
32
Bab V. Imputasi Ganda Univariat
1 m (k )
β̂ MI = ∑ βˆ (5.1)
m 1
33
Bab V. Imputasi Ganda Univariat
1
dan: V MI = V + 1+ (5.2)
B
m
(k )
mV
dengan V =∑ (5.2a)
1 m
dan B= ∑
m ( ( k ) MI
βˆ − βˆ ) (5.2b)
1 m −1
34
Bab V. Imputasi Ganda Univariat
35
Bab V. Imputasi Ganda Univariat
Contoh 5.1:
. sum
Variabel adalah:
attack : Outcome (heart attack)
smokes : Current smoker
37
Bab V. Imputasi Ganda Univariat
38
Bab V. Imputasi Ganda Univariat
------------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
attack | 1.71356 .7515229 2.28 0.024 .2263179 3.200801
smokes | -.5153181 .761685 -0.68 0.500 -2.02267 .9920341
age | -.033553 .0305745 -1.10 0.275 -.0940591 .026953
female | -.3072767 .8074763 -0.38 0.704 -1.905249 1.290695
hsgrad | -.4674308 .8112327 -0.58 0.566 -2.072836 1.137975
_cons | 26.96559 1.884309 14.31 0.000 23.2366 30.69458
------------------------------------------------------------------
. mi set flong
. mi register imputed bmi
(22 m=0 obs. now marked as incomplete)
39
Bab V. Imputasi Ganda Univariat
Style: mlong
last mi update 05aug2015 07:45:31, 14 seconds ago
Obs.: complete 132
incomplete 22 (M = 0 imputations)
---------------------
total 154
passive: 0
. mi misstable sum
Obs<.
+---------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+----------------------+---------------------------
bmi | 22 132 | 132 17.22643 38.24214
------------------------------------------------------------
Nearest neighbors = 1
--------------------------------------------------------
| Observations per m
|----------------------------------------------
Variable | Complete Incomplete Imputed | Total
---------+-----------------------------------+----------
40
Bab V. Imputasi Ganda Univariat
------------------------------------------------------------------
attack | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
smokes | 1.21886 .3614422 3.37 0.001 .5104437 1.927276
age | .0358003 .015487 2.31 0.021 .0054463 .0661542
bmi | .1199313 .049222 2.44 0.015 .0234209 .2164418
female | -.1124488 .4190367 -0.27 0.788 -.933747 .7088494
41
Bab V. Imputasi Ganda Univariat
Model
Variabel cc mi
1.544 1.219
smokes 0.400 0.361
0.000 0.001
0.026 0.036
age 0.017 0.015
0.125 0.021
0.113 0.120
bmi 0.050 0.049
0.024 0.015
0.226 −0.112
female 0.453 0.419
0.618 0.788
0.405 0.167
hsgrad 0.445 0.405
0.363 0.681
−5.408 −5.871
konstante 1.811 1.708
0.003 0.001
42
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
BAB VI
IMPUTASI GANDA MULTIVARIAT:
MODEL NORMAL MULTIVARIAT
43
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Pembentukan file mi
Seperti halnya pada imputasi ganda univariat, pembentukan
file mi dilakukan dengan pendeklarasian file sebagai dataset mi,
dilanjutkan dengan me-register variabel-variabel imputasi dan
variabel regular.
Contoh 6.1:
Sebagai ilustrasi, diberikan contoh imputasi ganda dengan
menggunakan program statistik komputer Stata 13. File yang
digunakan adalah chapter13_missing.dta (Acock, 2014).
File: chapter13_missing.dta
. sysuse chapter13_missing.dta
(NLS Women 14-26 in 1968)
Variabel Keterangan
ln_wagem Logaritma naturalis gaji
gradem Pendidikan tertinggi yang diselesaikan
agem Usia subjek penelitian
ttl_expm Durasi pengalaman kerja (dalam tahun)
tenurem Durasi di pekerjaan sekarang (dalam tahun
not_smsa Apakah subjek berasal dari area non-SMSA
south Apakah subjek berasal dari wilayah Selatan AS
blackm Apakah subjek tergolong kulit berwarna
44
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
+-------------------------------------------------------------+
| not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem |
|-------------------------------------------------------------|
25. | 0 0 12 28 4.923077 1.677717 . 4 |
26. | 0 0 12 19 4.5 1.321042 . 1.416667 |
27. | 0 0 15 27 3.461538 2.132606 . 1.5 |
28. | 0 0 12 21 4.711538 1.493794 . 1.25 |
29. | 1 0 15 24 3.115385 2.265503 . 1.833333 |
|-------------------------------------------------------------|
30. | 0 0 16 28 2.75 1.976338 . 2.416667 |
+-------------------------------------------------------------+
. sum
Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------------------
idcode | 1693 2545.507 1478.858 1 5157
not_smsa | 1693 .2658004 .441889 0 1
south | 1693 .3951565 .4890287 0 1
gradem | 1545 12.16634 1.830982 0 18
agem | 1528 22.77421 3.040773 18 30
---------+-------------------------------------------------
ttl_expm | 1487 3.43469 1.565412 .0833333 15.53846
ln_wagem | 1393 1.639917 .4342409 .0682788 4.242752
blackm | 1594 .2628607 .4403256 0 1
tenurem | 1493 1.752902 1.573547 0 15.5
. mi set flong
45
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
46
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Missing-value patterns
(1 means complete)
| Pattern
Percent | 1 2 3 4 5 6
------------+---------------------
51% | 1 1 1 1 1 1
|
8 | 1 1 1 1 1 0
7 | 1 1 0 1 1 1
6 | 1 1 1 0 1 1
5 | 1 1 1 1 0 1
4 | 1 0 1 1 1 1
4 | 0 1 1 1 1 1
3 | 1 1 1 1 0 0
2 | 1 0 1 1 1 0
(output omitted)
------------+---------------------
100% |
47
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Contoh 6.2:
Lihat kembali data pada contoh 6.1.
Performing EM optimization:
observed log likelihood = -5199.3214 at iteration 12
--------------------------------------------------
| Observations per m
|----------------------------------------------
Variable | Complete Incomplete Imputed | Total
-------------+-----------------------------------+----------
ln_wagem | 1393 300 300 | 1693
gradem | 1545 148 148 | 1693
agem | 1528 165 165 | 1693
ttl_expm | 1487 206 206 | 1693
tenurem | 1493 200 200 | 1693
blackm | 1594 99 99 | 1693
------------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)
48
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
Estimasi Parameter
Setelah imputasi data selesai, dataset yang dimiliki dapat
digunakan untuk mengestimasi parameter. Sintaksnya adalah:
Contoh 6.3:
Lihat kembali data pada Contoh 6.2.
49
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
------------------------------------------------------------------
ln_wagem | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
gradem | .0746216 .0064335 11.60 0.000 .061872 .0873712
agem | .02062 .0040349 5.11 0.000 .0126369 .028603
ttl_expm | .0130249 .0102512 1.27 0.207 -.0073508 .0334007
tenurem | .0628405 .0090895 6.91 0.000 .0448499 .0808311
not_smsa | -.1554712 .0244057 -6.37 0.000 -.2035786 -.1073638
south | -.1032382 .0226229 -4.56 0.000 -.1477907 -.0586857
blackm | -.037655 .0239075 -1.58 0.116 -.0846558 .0093459
_cons | .1669442 .1064046 1.57 0.119 -.0434716 .3773601
------------------------------------------------------------------
50
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
BAB VII
IMPUTASI GANDA MULTIVARIAT:
METODE PERSAMAAN BERANTAI
Tahap persiapan
Metode persamaan berantai untuk imputasi ganda
multivariat ini pada hakekatnya merupakan perluasan imputasi
ganda univariat yang telah dibahas pada bab V. Karena variabel
yang akan diimputasi lebih daripada satu dan tipe data variabel
mungkin saling berbeda, sebaiknya dilakukan pemeriksaan
dengan meregresikan tiap (bakal) variabel imputasi terhadap
seluruh variabel lainnya. Model regresi yang digunakan
disesuaikan dengan tipe data masing-masing variabel imputasi.
- Data kontinu:
. regress impvar regvars
- Data biner:
. logit impvar regvars
- Data kategorik ordinal:
. ologit impvar regvars
- Data kategorik nominal
. mlogit impvar regvars
- Data cacah dengan ekidistensi:
. poisson impvar regvars
- Data cacah dengan overdistensi:
. nbreg impvar regvars
Contoh 7.1:
Pembentukan dataset mi
Seperti pada proses imputasi ganda lainnya, perintah Stata
utama di sini adalah:
. mi set style
Opsi untuk style adalah flong, mlong, dan wide.
52
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
. misstable sum
. misstable pattern
Contoh 7.2:
Lihat kembali data pada Contoh 7.1:
. mi set wide
. mi register imputed race urban edu exp wage
. mi register regular female
. misstable sum
Obs<.
+-------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+----------------------------+-------------------------
race | 293 2,707 | 3 0 2
urban | 273 2,727 | 2 0 1
edu | 319 2,681 | 4 1 4
exp | 293 2,707 | >500 0 47.8623
wage | 299 2,701 | >500 0 227465.2
----------------------------------------------------------------
. misstable pattern
53
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
Missing-value patterns
(1 means complete)
| Pattern
Percent | 1 2 3 4 5
------------+---------------
59% | 1 1 1 1 1
|
7 | 1 1 1 1 0
7 | 1 1 0 1 1
7 | 1 1 1 0 1
6 | 1 0 1 1 1
6 | 0 1 1 1 1
<1 | 0 1 1 1 0
<1 | 1 1 0 1 0
<1 | 1 0 0 1 1
<1 | 1 1 1 0 0
<1 | 1 0 1 0 1
<1 | 0 1 1 0 1
<1 | 1 0 1 1 0
<1 | 0 0 1 1 1
<1 | 1 1 0 0 1
<1 | 0 1 0 1 1
<1 | 1 0 0 0 1
<1 | 0 0 1 0 1
<1 | 1 0 0 1 0
<1 | 1 0 1 0 0
<1 | 0 1 0 0 1
<1 | 0 1 1 0 0
<1 | 0 1 0 1 0
<1 | 0 0 0 1 1
<1 | 0 0 1 1 0
------------+---------------
100% |
Contoh 7.3:
Lihat data pada Contoh 7.2.
55
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
-----------------------------------------------------------
| Observations per m
|--------------------------------------------
Variable | Complete Incomplete Imputed | Total
--------------+-----------------------------------+--------
urban | 2727 273 273 | 3000
race | 2707 293 293 | 3000
edu | 2681 319 319 | 3000
exp | 2707 293 293 | 3000
wage | 2701 299 299 | 3000
-----------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)
Estimasi Parameter
Sintaks:
Contoh 7.3:
Lihat data pada contoh 7.2.
56
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
------------------------------------------------------------------
exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+---------------------------------------------------------
1.urban | -.7147912 .3709081 -1.93 0.055 -1.444618 .0150357
|
race |
1 | 1.111433 .4211293 2.64 0.009 .2825493 1.940317
2 | .9334521 .4083664 2.29 0.023 .1318551 1.735049
|
wage | .0001327 5.01e-06 26.49 0.000 .0001229 .0001426
|
edu |
2 | -2.011541 .4563419 -4.41 0.000 -2.907332 -1.115751
3 | -4.786797 .5076449 -9.43 0.000 -5.78437 -3.789224
4 | -7.796166 .6807551 -11.45 0.000 -9.133233 -6.459099
|
female | -1.071471 .362309 -2.96 0.003 -1.783544 -.359398
_cons | 9.50039 .603845 15.73 0.000 8.313031 10.68775
------------------------------------------------------------------
57
Kepustakaan
KEPUSTAKAAN
Enders CK. (2010). Applied Missing Data Analysis. New York:
The Guilford Press.
Kim JK & Shao J. (2014). Statistical Methods for Handling
Incomplete Data. Boca Raton, FL: CRC Press, Taylor &
Francis Group.
Little RJA & Rubin DB. (2012). Statistical Analysis with Missing
Data, 2nd Ed. Hoboken, New Jersey: John Wiley & Sons.
Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, &
Verbeke G. (2015). Handbook of Missing Data
Methodology. Boca Raton, FL: CRC Press, Taylor & Francis
Group.
Rubin DB. (1987). Multiple Imputation for Nonresponse in
Surveys. New York: John Wiley & Sons.
StataCorp LP. (2013). Stata Multiple-Imputation Reference
Manual, Release 13. College Station, Texas: Stata Press
Publication.
van Buuren S. (2012). Flexible Imputation of Missing Data. Boca
Raton, FL: CRC Press, Taylor & Francis Group.
59
Lampiran
Model: Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi + εi
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
60
Lampiran
------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
------------------------------------------------------------------
Model estimasi:
api00 = 906.74 – 2.68(acs_k3) – 3.70(meals) + 0.11(full) + e
Regresi Logistik
( )
p Yi
Model: logit Yi = ln
1− p(Yi )
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
61
Lampiran
+-------------------------------+
| hiqual cred_hl pared_hl |
|-------------------------------|
6. | not high high high |
7. | not high high low |
8. | not high low low |
9. | high high high |
10. | not high low high |
+-------------------------------+
------------------------------------------------------------------
hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
cred_hl | 2.732386 .2705825 10.10 0.000 2.202054 3.262718
pared_hl | -.1699762 .2084618 -0.82 0.415 -.5785538 .2386014
_cons | -2.470522 .246384 -10.03 0.000 -2.953425 -1.987618
------------------------------------------------------------------
62
Lampiran
Model estimasi:
logit hiqual = −2.47 + 2.73(cred_hl) – 0.17(pared_hl)
( )
p Yi
Model: logit Yi = ln
1− p(Yi )
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
+-----------------------------------------+
| apply pared public gpa |
|-----------------------------------------|
1. | very likely 0 0 3.26 |
2. | somewhat likely 1 0 3.21 |
3. | unlikely 1 1 3.94 |
4. | somewhat likely 0 0 2.81 |
5. | somewhat likely 0 0 2.53 |
+-----------------------------------------+
63
Lampiran
+-------------------------------+
| apply pared public gpa |
|-------------------------------|
1. | 2 0 0 3.26 |
2. | 1 1 0 3.21 |
3. | 0 1 1 3.94 |
4. | 1 0 0 2.81 |
5. | 1 0 0 2.53 |
+-------------------------------+
--------------------------------------------------------------
apply | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+------------------------------------------------------
pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601
public | -.0586828 .2978588 -0.20 0.844 -.6424754 .5251098
gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573
-------+------------------------------------------------------
/cut1 | 2.203323 .7795353 .6754621 3.731184
/cut2 | 4.298767 .8043147 2.72234 5.875195
--------------------------------------------------------------
64
Lampiran
Model estimasi:
apply: Unlikely vs somewhat likely ∪ very unlikely
logit apply = 2.20 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)
apply: Unlikely ∪ somewhat likely vs very unlikely
logit apply = 4.30 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)
( )
p Yi
Model: logit Yi = ln
1− p(Yi )
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
65
Lampiran
+---------------------------+
| prog ses write |
|---------------------------|
16. | general low 44 |
17. | general low 46 |
18. | vocation middle 46 |
19. | academic middle 46 |
20. | vocation high 49 |
+---------------------------+
+--------------------+
| prog ses write |
|--------------------|
16. | 1 1 44 |
17. | 1 1 46 |
18. | 3 2 46 |
19. | 2 2 46 |
20. | 3 3 49 |
+--------------------+
66
Lampiran
------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
general |
ses |
middle | -.533291 .4437321 -1.20 0.229 -1.40299 .336408
high | -1.162832 .5142195 -2.26 0.024 -2.170684 -.1549804
|
write | -.0579284 .0214109 -2.71 0.007 -.0998931 -.0159637
_cons | 2.852186 1.166439 2.45 0.014 .5660075 5.138365
---------+----------------------------------------------------------
academic | (base outcome)
---------+----------------------------------------------------------
vocation |
ses |
middle | .2913931 .4763737 0.61 0.541 -.6422822 1.225068
high | -.9826703 .5955669 -1.65 0.099 -2.14996 .1846195
|
write | -.1136026 .0222199 -5.11 0.000 -.1571528 -.0700524
_cons | 5.2182 1.163549 4.48 0.000 2.937686 7.498714
------------------------------------------------------------------
Model estimasi:
prog : general vs academic
logit prog = 2.85 − 0.53(sesmid-lo) – 1.16(seshi-lo) − 0.06(write)
prog : vocation vs academic
logit prog = 5.22 + 0.29(sesmid-lo) – 0.98(seshi-lo) − 0.11(write)
67
Lampiran
Regresi Poisson
Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi
. use "D:\Data\Stata\lahigh.dta"
+----------------------------------------+
| daysabs mathnce langnce gender |
|----------------------------------------|
1. | 4 56.98883 42.45086 male |
2. | 4 37.09416 46.82059 male |
3. | 2 32.27546 43.56657 female |
4. | 3 29.05672 43.56657 female |
5. | 3 6.748048 27.24847 female |
|----------------------------------------|
6. | 13 61.65428 48.41482 female |
7. | 11 56.98883 40.73543 female |
8. | 7 10.39049 15.35938 male |
9. | 10 50.52795 52.11514 male |
10. | 9 49.47205 42.45086 male |
+----------------------------------------+
68
Lampiran
gender | mean sd N
-------+------------------------------
female | 6.697531 8.530609 162
male | 4.876623 5.995999 154
-------+------------------------------
Total | 5.810127 7.449003 316
--------------------------------------
------------------------------------------------------------------
daysabs | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
mathnce | -.0035232 .0018213 -1.93 0.053 -.007093 .0000466
langnce | -.0121521 .0018348 -6.62 0.000 -.0157483 -.0085559
gender | -.4009209 .0484122 -8.28 0.000 -.495807 -.3060348
_cons | 3.088587 .1017365 30.36 0.000 2.889187 3.287987
------------------------------------------------------------------
Model empirik:
69
Lampiran
Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi
+-------------------------------+
| deaths cohort exposure |
|-------------------------------|
6. | 81 1941-1949 8,743.5 |
7. | 40 1941-1949 14,270.0 |
8. | 197 1960-1967 403.2 |
9. | 48 1960-1967 786.0 |
10. | 62 1960-1967 1,165.3 |
|-------------------------------|
11. | 81 1960-1967 2,294.8 |
12. | 97 1960-1967 4,500.5 |
13. | 103 1960-1967 13,201.5 |
14. | 39 1960-1967 19,525.0 |
15. | 195 1968-1976 495.3 |
+-------------------------------+
70
Lampiran
+----------------------------+
| deaths cohort exposure |
|----------------------------|
6. | 81 1 8,743.5 |
7. | 40 1 14,270.0 |
8. | 197 2 403.2 |
9. | 48 2 786.0 |
10. | 62 2 1,165.3 |
|----------------------------|
11. | 81 2 2,294.8 |
12. | 97 2 4,500.5 |
13. | 103 2 13,201.5 |
14. | 39 2 19,525.0 |
15. | 195 3 495.3 |
+----------------------------+
71
Lampiran
-------------------------------------------------------------------
deaths | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-----------+-------------------------------------------------------
cohort |
1960-1967 | .1486955 .2800229 0.53 0.595 -.4001393 .6975304
1968-1976 | -.0745488 .2753852 -0.27 0.787 -.6142939 .4651964
|
exposure | -.0000452 .000022 -2.06 0.039 -.0000882 -2.19e-06
_cons | 4.596288 .2128607 21.59 0.000 4.179089 5.013488
-----------+-------------------------------------------------------
/lnalpha | -1.377729 .3166305 -1.998314 -.7571451
-----------+-------------------------------------------------------
alpha | .2521504 .0798385 .1355637 .4690035
-------------------------------------------------------------------
72
Lampiran
73