Data Kosong & Imputasi Ganda

DATA KOSONG DAN
IMPUTASI GANDA
Johan Harlan
PENERBIT GUNADARMA
Data Kosong dan Imputasi Ganda
Penulis : Johan Harlan
Cetakan Pertama, Januari 2016
Disain cover : Joko Slameto
Diterbitkan pertama kali oleh Gunadarma

Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id
Hak cipta dilindungi undang-undang. Dilarang mengutip

atau memperbanyak dalam bentuk apapun sebagian atau
seluruh isi buku tanpa ijin tertulis dari penerbit.
Kata Pengantar
KATA PENGANTAR
Buku ini membahas mengenai data kosong (missing data)
dan metode penanganannya secara kontemporer, yaitu imputasi
ganda (multiple imputation). Data kosong merupakan masalah
lama bidang penelitian, sama usianya dengan riwayat
pengumpulan data sendiri untuk penelitian, sebaliknya imputasi
ganda adalah teknik statistik yang praktis baru berkembang dalam
tiga dekade terakhir. Perkembangan teknik imputasi ganda
dimungkinkan oleh kemajuan mutakhir di bidang Informatika dan
Ilmu Komputer, dan perkembangan ini masih diharapkan untuk
berlanjut dan mengalami penyempurnaan di masa mendatang.
Teknik imputasi ganda terutama bermanfaat untuk data
survei yang berukuran besar, walaupun dapat juga dimanfaatkan
dalam studi eksperimental. Data survei biasa dikumpulkan dalam
jumlah besar dengan biayanya umumnya lebih rendah daripada
studi eksperimental. Pada studi eksperimental dengan biaya yang
biasanya lebih besar pengumpulan data umumnya dilakukan
secara lebih giat sehingga umumnya jarang didapatkan data
kosong.
Pembaca buku ini diharapkan sedikit banyak telah memiliki
penguasaan mengenai dasar-dasar model regresi. Penulis mencoba
membahas beberapa aspek dasar mengenai kekosongan data dan
teknik imputasi ganda dengan menggunakan program statistik
Stata secara sederhana, tetapi diharapkan dapat memberi bekal
dasar bagi pembaca untuk mendalami mengenai topik tersebut.
Jakarta, Januari 2016
Penulis
v
Daftar Isi
DAFTAR ISI
Kata Pengantar v
Daftar Isi vi
Bab I Pendahuluan 1
Data Kosong 1
Imputasi Data 2
Bab II Tipe Kekosongan 9

MCAR 9
MAR 10
MNAR 11
Bab III Solusi Tradisional: Delesi Data 19

Listwise Deletion 19
Pairwise Deletion 22
Bab IV Solusi Tradisional: Imputasi Tunggal 23

Imputasi Rerata 23
Imputasi Regresi 25
Imputasi Regresi Stokastik 28
Last Observation Carried Forward 30
Bab V Imputasi Ganda Univariat 31

Pengertian Imputasi Ganda 31
Tahap-Tahap Imputasi Ganda 32
Pelaksanaan Imputasi Ganda Univariat dengan 34
Stata
vi
Daftar Isi
Bab VI Imputasi Ganda Multivariat: Model 43

Normal Multivariat
Imputasi Ganda dengan Model Normal 43
Multivariat
Pembentukan File mi 44
Imputasi Data Kosong 47
Estimasi Parameter 49
Bab VII Imputasi Ganda Multivariat: Metode 51

Persamaan Berantai
Tahap Persiapan 51
Pembentukan Dataset mi 52
Imputasi Data Kosong 55
Estimasi Parameter 56
Kepustakaan 59
Lampiran 60
vii
Bab 1. Pendahuluan
BAB I
PENDAHULUAN
Data Kosong
Dalam pemrosesan dan analisis data seringkali didapatkan
adanya variabel yang nilainya kosong untuk satu atau beberapa
subjek penelitian, yang dikenal sebagai data kosong (missing
data).
Data kosong dibedakan menjadi:

a. Data kosong terencana (planned missing data).
Kekosongan data direncanakan dengan sengaja oleh peneliti
sesuai desain penelitian (lihat tabel 1.1).
Alasannya antara lain karena jumlah pertanyaan dalam
kuesioner terlalu banyak, pengumpulan data tertentu
menggunakan pemeriksaan dengan biaya yang sangat mahal,
dan sebagainya.
Tabel 1.1 Pola Data Kosong untuk Rancangan Tiga-Form

Set item
Form X A B C
1 √ − √ √
2 √ √ − √
3 √ √ √ −
Catatan: Tanda cek menyatakan data lengkap
1
Bab 1. Pendahuluan
b. Data kosong tak terencana (unplanned missing data).

Bentuk ini yang selanjutnya akan dibahas di sini.
Data kosong tak terencana dapat terjadi antara lain karena:

- Ketidakberhasilan mendapatkan data dari subjek penelitian,
misalnya isi kuesioner tidak lengkap karena ada item yang
dengan sengaja ataupun tak sengaja tak diisi oleh responden.
- Data tercatat mungkin sengaja dihapus karena nilainya
berada di luar rentang kewajaran, sedangkan pengecekan
ulang terhadap subjek penelitian tidak dapat dilakukan.
- Pada data sekunder, data kosong merupakan hasil kerja pihak
lain yang semula mengumpulkannya sebagai data primer,
yang umumnya tidak dapat ditelusuri lagi penyebab
kekosongannya oleh pengguna data sekunder.
Imputasi Data
Standar umum di waktu lampau ialah menghapus
responden (record) dengan data kosong dari dataset. Hand et al
(1994) mengumpulkan 510 dataset dari literatur statistik; hanya
13 di antaranya yang menyertakan pedoman yang digunakan
untuk menangani data kosong. Pada sebagian besar kasus,
masalah data kosong telah “dipecahkan” dengan cara tertentu,
tanpa penjelasan seberapa banyak entri kosong yang semula ada.
Jika jumlah responden dengan data kosong yang dihapus
dari dataset relatif kecil, misalkan hanya 1% dari keseluruhan
responden semula, hasil akhir dapat dikatakan praktis tak
terpengaruh, sebaliknya jika jumlah responden yang dihapus
besar, misalkan 50% dari keseluruhan responden semula, hasil
akhir yang diperoleh dapat bersifat sangat bias. Terbuangnya data
2
Bab 1. Pendahuluan
pada entri terisi tetapi dihapus akan menurunkan efisiensi

penelitian.
Upaya untuk mengatasi data kosong antara lain ialah
melakukan imputasi (to impute = to fill in) entri kosong, sehingga
responden dengan entri yang semula kosong tidak perlu dihapus
untuk analisis. Untuk analisis regresi, sebagian ahli Statistika
berpendapat bahwa imputasi hanya diperlukan untuk variabel
independen dan tidak diperlukan untuk variabel dependen, namun
sebagian besar ahli lain tidak sepakat dan berpendapat setiap
variabel dengan entri kosong memerlukan imputasi.
Contoh 1.1
Dalam contoh ini dilakukan perbandingan hasil analisis
regresi terhadap 3 datasets:
- hsb2.dta: Dataset full → Memuat data 200 kasus dengan
entri lengkap.
- hsb2_mar.dta: Memuat data hsb2 dengan sebagian
berupa entri kosong, yang setelah menjalani listwise
deletion, menyisakan dataset cc (complete cases) yang
hanya memuat 145 kasus dengan entri lengkap.
- mvn_imputation.dta: Berasal dari data hsb2_mar yang
telah menjalani persiapan seperlunya, siap untuk menjalani
proses imputasi ganda. Setelah menjalani imputasi
diperoleh dataset mi (multiple imputation).
. use D:\Data\hsb2.dta, clear

(highschool and beyond (200 cases))
3
Bab 1. Pendahuluan
Perintah Stata untuk membuka (use) file hsb2.dta yang

memuat entri lengkap untuk 200 kasus dan membersihkan (clear)
memori dari semua hasil analisis terdahulu (jika ada).
. sum
Perintah sum (summarize) adalah untuk menampilkan

ringkasan nilai-nilai statistik tiap variabel.
Variable | Obs Mean Std. Dev. Min Max

---------+------------------------------------------------
id | 200 100.5 57.87918 1 200
female | 200 .545 .4992205 0 1
race | 200 3.43 1.039472 1 4
ses | 200 2.055 .7242914 1 3
schtyp | 200 1.16 .367526 1 2
---------+------------------------------------------------
prog | 200 2.025 .6904772 1 3
read | 200 52.23 10.25294 28 76
write | 200 52.775 9.478586 31 67
math | 200 52.645 9.368448 33 75
science | 200 51.85 9.900891 26 74
---------+------------------------------------------------
socst | 200 52.405 10.73579 26 71
. regress socst write read female math
Perintah Stata ini adalah untuk meregresikan variabel

dependen socst terhadap variabel independen write, read,
female, dan math.
4
Bab 1. Pendahuluan
Source | SS df MS Number of obs = 200

---------+------------------------------ F( 4, 195) = 44.45
Model | 10938.9795 4 2734.74487 Prob > F = 0.0000
Residual | 11997.2155 195 61.5241822 R-squared = 0.4769
---------+------------------------------ Adj R-squared = 0.4662
Total | 22936.195 199 115.257261 Root MSE = 7.8437
-------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------------
write | .3757491 .0852101 4.41 0.000 .2076975 .5438007
read | .3696825 .0775725 4.77 0.000 .2166938 .5226712
female | -.2340534 1.207995 -0.19 0.847 -2.616465 2.148358
math | .1209005 .0861526 1.40 0.162 -.0490101 .2908111
_cons | 7.029076 3.562453 1.97 0.050 .003192 14.05496
-------------------------------------------------------------------
. estimates store full
Perintah Stata ini adalah untuk menyimpan hasil estimasi

terhadap dataset full yang terdiri atas 200 kasus.
. use D:\Data\hsb2_mar, clear

(highschool and beyond (200 cases))
. sum

---------+-----------------------------------------------
id | 200 100.5 57.87918 1 200
female | 182 .5549451 .4983428 0 1
race | 200 3.43 1.039472 1 4
ses | 200 2.055 .7242914 1 3
schtyp | 200 1.16 .367526 1 2
5
Bab 1. Pendahuluan
---------+-----------------------------------------------
prog | 182 2.027473 .6927511 1 3
read | 191 52.28796 10.21072 28 76
write | 183 52.95082 9.257773 31 67
math | 185 52.8973 9.360837 33 75
science | 184 51.30978 9.817833 26 74
---------+-----------------------------------------------
socst | 200 52.405 10.73579 26 71
. regress socst write read female math

---------+------------------------------ F( 4, 140) = 28.10
Model | 6630.7694 4 1657.69235 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.4295
Total | 14890.2483 144 103.404502 Root MSE = 7.6809
--------------------------------------------------------------------
-------+------------------------------------------------------------
write | .3212789 .1020247 3.15 0.002 .1195706 .5229871
read | .3047733 .0899709 3.39 0.001 .1268961 .4826505
female | .2233572 1.404163 0.16 0.874 -2.552749 2.999463
math | .1988131 .1016747 1.96 0.053 -.0022031 .3998294
_cons | 9.358279 4.262397 2.20 0.030 .9312916 17.78527
--------------------------------------------------------------------
. estimates store cc
. use D:\Data\mvn_imputation, clear
. mi estimate, post: reg socst write read female math
Multiple-imputation estimates Imputations = 5

Linear regression Number of obs = 200
Average RVI = 0.0820
6
Bab 1. Pendahuluan
Largest FMI = 0.2201

Complete DF = 195
DF adjustment: Small sample DF: min = 59.71
avg = 121.37
max = 181.12
Model F test: Equal FMI F( 4, 163.6) = 38.78
Within VCE type: OLS Prob > F = 0.0000
-------------------------------------------------------------------
-------+-----------------------------------------------------------
write | .3472116 .0956238 3.63 0.000 .1572004 .5372228
read | .3673822 .0803328 4.57 0.000 .2086775 .5260869
female | .525372 1.375176 0.38 0.704 -2.225667 3.276411
math | .1508523 .0908884 1.66 0.099 -.0290372 .3307417
_cons | 6.59747 3.707945 1.78 0.077 -.7188551 13.9138
-------------------------------------------------------------------
. estimates store mi
. estimates table cc full mi, b se p
Perintah untuk menyajikan tabel perbandingan hasil

estimasi koefisien regresi b, SE-nya, dan nilai p-nya untuk model
cc, full, dan mi.
-------------------------------------------------
Variable | cc full mi
-----------+-------------------------------------
write | .32127885 .3757491 .34721159
| .10202467 .08521005 .09562376
| 0.0020 0.0000 0.0004
read | .30477331 .36968249 .36738221
| .08997086 .07757247 .08033285
| 0.0009 0.0000 0.0000
female | .22335724 -.23405342 .52537204
7
Bab 1. Pendahuluan
| 1.4041631 1.2079946 1.3751758

| 0.8738 0.8466 0.7028
math | .19881314 .12090052 .15085228
| .10167466 .08615264 .09088836
| 0.0525 0.1621 0.0986
_cons | 9.358279 7.0290761 6.5974704
| 4.2623968 3.5624529 3.7079453
| 0.0298 0.0499 0.0768
-------------------------------------------------
legend: b/se/p
8
Bab II. Tipe Kekosongan
BAB II
TIPE KEKOSONGAN
Rubin (1976) mengemukakan teori tentang kekosongan
data, yaitu setiap titik data memiliki peluang tertentu untuk
kosong.
Berdasarkan teori ini, tipe-tipe kekosongan dibedakan atas

MCAR (missing completely at random), MAR (missing at
random), dan MNAR (missing not at random).
MCAR (missing completely at random)

Data kosong tergolong dalam tipe MCAR (missing
completely at random) jika peluang untuk kosong sama pada
setiap titik data, yaitu untuk tiap subjek penelitian pada variabel
tertentu. Kekosongan tidak memiliki asosiasi dengan salah satu
variabel dalam dataset.
Untuk pembahasan selanjutnya mengenai tipe-tipe
kekosongan data akan digunakan contoh data pada tabel 2.2 pada
contoh 2.2.
Misalkan dimiliki Y, matriks n × p yang memuat nilai-nilai
data:
n menyatakan jumlah subjek dan
p menyatakan jumlah variabel;
dan misalkan pula R adalah matriks indikator respons biner
n × p (lihat contoh 2.4);
9
rij = 1 jika entri terisi dan

rij = 0 jika entri kosong.
i = 1, 2, . . . , n dan j = 1, 2, . . . , p
Data terisi secara kolektif dinyatakan dengan Yobs dan data

kosong secara kolektif dinyatakan dengan Ymiss . Secara bersama,
Y = (Yobs ,Ymiss ) menyatakan keseluruhan nilai data, maka:
Relasi distribusi R terhadap Y = (Yobs ,Ymiss ) dinyatakan

sebagai model data kosong (missing data model) (van Buuren,
2012).
Misalkan ψ adalah parameter model data kosong, maka

model tersebut dapat dinyatakan sebagai P ( R | Yobs ,Ymiss ,ψ ) .
Jika data MCAR, maka:
P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0 |ψ ) (2.1)
MAR (missing at random)

Data kosong tergolong dalam tipe MAR (missing at
random) jika peluang untuk kosong sama pada tiap anggota dalam
suatu kelompok tertentu, tetapi tidak sama antar anggota
kelompok berbeda.
Kekosongan di sini memiliki asosiasi dengan satu atau

lebih variabel dalam dataset, yaitu variabel yang menghasilkan
pembagian kelompok-kelompok tersebut. Sebagai contoh, pada
pengumpulan data dengan kuesioner, pria umumnya memiliki
10
kecenderungan yang lebih besar untuk tidak menjawab

dibandingkan dengan wanita (asosiasi dengan variabel gender).
Dengan pemahaman yang sama terhadap matriks indikator

R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan
parameter model data kosong ψ, jika data MAR maka:
P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0| Yobs ,ψ ) (2.2)
MNAR (missing not at random)

Pada data kosong tipe MNAR (missing not at random),
asumsi MCAR maupun MAR tidak berlaku dan kekosongan
tidak terjadi secara acak.
Dengan pemahaman yang sama terhadap matriks indikator

R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan
parameter model data kosong ψ, jika data MNAR maka:
P ( R = 0| Yobs ,Ymiss ,ψ ) (2.3)
tak dapat disederhanakan lagi.
Contoh 2.1:
Dataset pada tabel 2.1 memuat data sejumlah calon
karyawan (dan sebagian yang lolos seleksi selanjutnya menjadi
karyawan). Variabelnya yaitu nilai tes IQ dan kepuasan psikologis
(psychological well-being) pada saat seleksi. Mereka yang nilai
IQ lebih daripada 98 diterima menjadi karyawan dan setelah 6
bulan bekerja dinilai kinerjanya (job performance).
11
Kekosongan data pada psychological well-being

disebabkan tak lengkapnya pengisian kuesioner pada saat seleksi
yangterjadi secara acak, tak memiliki asosiasi dengan nilai IQ,
sehingga kekosongan data ini psychological well-being tergolong
dalam MCAR. Sebaliknya, data kosong untuk job performance
terjadi karena yang bersangkutan tidak diterima menjadi
karyawan karena nilai IQ-nya rendah, sehingga kekosongannya
terkait dengan nilai IQ dan kekosongan data job performance ini
tergolong dalam MAR.
Tabel 2.1 Dataset Seleksi Karyawan

Psychological
IQ Job performance
well-being
78 13 −
84 9 −
84 10 −
85 10 −
87 − −
91 3 −
92 12 −
94 3 −
94 13 −
96 − −
99 6 7
105 12 10
105 14 11
106 10 15
108 − 10
112 10 10
113 14 12
115 14 14
118 12 16
134 11 12
12
(Enders, 2010)
Contoh 2.2:
Contoh berikutnya adalah data mengenai kelompok
responden yang sama, diperlihatkan pada tabel 2.2. Data kinerja
(job performance) terdiri atas yang lengkap (complete; diandaikan
seluruh calon diterima), MCAR (misalnya sebagian karyawan
mengundurkan diri, pengunduran diri tak terkait nilai IQ), MAR
(calon karyawan yang diterima hanya yang nilai IQ-nya di atas
90), dan MNAR (misalnya karyawan yang menunjukkan kinerja
buruk di bawah 9 telah dikeluarkan, sehingga kekosongan terkait
dengan nilai kinerja itu sendiri).
Tabel 2.2 Rating Kinerja dengan Nilai Kosong MCAR,

MAR, dan MNAR
Job performance ratings

IQ Complete MCAR MAR MNAR
78 9 − − 9
84 13 13 − 13
84 10 − − 10
85 8 8 − −
87 7 7 − −
91 7 7 7 −
92 9 9 9 9
94 9 9 9 9
94 11 11 11 11
96 7 − 7 −
99 7 7 7 −
105 10 10 10 10
105 11 11 11 11
106 15 15 15 15
108 10 10 10 10
13
112 10 − 10 10
113 12 12 12 12
115 14 14 14 14
118 16 16 16 16
134 12 − 12 12
(Enders, 2010)
Contoh 2.3:
Lihat data pada tabel 2.2, beberapa nilai statistik untuk
dataset lengkap, MCAR, MAR, dan MNAR diperlihatkan pada
tabel 2.3.
Tabel 2.3 Beberapa Nilai Statistik Dataset Lengkap, MCAR,

MAR, dan MNAR dari Tabel 2.2
Data n Rerata Variansi SD

Lengkap 20 10.35 7.19 2.68
MCAR 15 10.60 8.54 2.92
MAR 15 10.67 7.81 2.79
MNAR 15 11.40 4.97 2.23
Perbandingan karakteristik estimator hasil analisis dataset

yang memiliki data kosong dengan listwise deletion (menghapus
data seluruh responden yang memiliki entri kosong; complete
cases analysis) dan imputasi ganda diperlihatkan pada tabel 2.4
berikut.
14
Tabel 2.4 Karakteristik estimator menurut tipe kekosongan

dan metode solusinya
Tipe kekosongan
No Metode MCAR MAR MNAR
1 Complete cases Tak bias Bias Bias
analysis
2 Imputasi ganda Tak bias Tak bias Bias*)
*) Tak bias jika peneliti mampu menginklusikan model mekanisme

kekosongan MNAR dalam metode imputasi
Contoh 2.4:
Adakalanya diperlukan indikator untuk menunjukkan
keberadaan entri kosong. Contoh untuk itu diperlihatkan pada
tabel 2.5, yang menyajikan contoh indikator entri kosong untuk
kinerja MAR. Indikator bernilai 0 jika entri kosong dan sama
dengan 1 jika entri terisi.
Tabel 2.5 Indikator Data Kosong untuk

Rating Kinerja MAR
Job performance
Complete MAR Indicator
9 − 0
13 − 0
10 − 0
8 − 0
7 − 0
7 7 1
9 9 1
9 9 1
11 11 1
7 7 1
15
7 7 1
10 10 1
11 11 1
15 15 1
10 10 1
10 10 1
12 12 1
14 14 1
16 16 1
12 12 1
(Enders, 2010)
Contoh 2.5 (Uji statistik):

Uji statistik dapat dilakukan untuk menguji apakah
kekosongan data yang dimiliki MCAR atau MAR.
Misalkan untuk variabel IQ dan MCAR pada tabel 2.2,

subjek dibagi menjadi 2 kategori, yaitu yang entri data MCAR-
nya kosong (R = 0) dan yang entri data MCAR-nya terisi (R = 1),
lalu dilakukan perbandingan rerata nilai IQ antara kedua kategori
tersebut dengan uji t.
Jika rerata IQ antara kedua kategori tidak berbeda, data
tersebut adalah MCAR, sebaliknya jika rerata IQ antara kedua
kategori berbeda, data itu adalah MAR.
16
. use “D:\Data\table 2.2”, clear

. list in 1/10
+--------------------+
| id iq jp ind |
|--------------------|
1. | 1 78 . 0 |
2. | 2 84 13 1 |
3. | 3 84 . 0 |
4. | 4 85 8 1 |
5. | 5 87 7 1 |
|--------------------|
6. | 6 91 7 1 |
7. | 7 92 9 1 |
8. | 8 94 9 1 |
9. | 9 94 11 1 |
10. | 11 96 . 0 |
+--------------------+
. ttest iq, by(ind)
Two-sample t test with equal variances

-----------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-------------------------------------------------------
0 | 5 100.8 10.13114 22.65392 72.67145 128.9286
1 | 15 99.73333 2.874298 11.13211 93.56858 105.8981
---------+-------------------------------------------------------
combined | 20 100 3.158947 14.12724 93.38825 106.6118
---------+-------------------------------------------------------
diff | 1.066667 7.490966 -14.67127 16.8046
-----------------------------------------------------------------
diff = mean(0) - mean(1) t = 0.1424
17
Ho: diff = 0 degrees of freedom = 18

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.5558 Pr(|T| > |t|) = 0.8884 Pr(T > t) = 0.4442
Tampak bahwa antara rerata IQ kedua kategori tidak

ditemukan perbedaan yang bermakna (p = 0.89), maka data
tersebut adalah MCAR.
Uji statistik tidak dapat dilakukan untuk MNAR, karena

yang harus diperbandingkan adalah rerata kinerja MNAR terisi
dengan rerata kinerja MNAR kosong, sedangkan data untuk rerata
kinerja MNAR itu tidak ada (kosong).
18
Bab III. Solusi Tradisional: Delesi Data
BAB III
SOLUSI TRADISIONAL:
DELESI DATA
Listwise Deletion
Setiap subjek (responden) yang entri datanya tidak lengkap
dieliminasi dari dataset, sehingga analisis data hanya akan
dilakukan terhadap himpunan kasus yang lengkap entri datanya.
Dalam pembahasan beberapa metode tradisional untuk

menangani kekosongan data akan digunakan dataset pada tabel
3.1 dan diagram tebarnya pada gambar 3.1.
Tabel 3.1 Dataset Seleksi Karyawan
Complete data Missing data

Job Job
IQ performance performance
78 9 −
84 13 −
84 10 −
85 8 −
87 7 −
91 7 −
92 9 −
94 9 −
94 11 −
96 7 −
99 7 7
105 10 10
105 11 11
19
106 15 15
108 10 10
112 10 10
113 12 12
115 14 14
118 16 16
134 12 12
(Enders, 2010)
Gambar 3.1 Diagram tebar data lengkap IQ dan

skor kinerja pada Tabel 3.1
Diagram tebar listwise deletion terhadap dataset tabel 3.1

diperlihatkan pada gambar 3.2.
20
Gambar 3.2 Diagram tebar listwise deletion terhadap

dataset tabel 3.1
Beberapa nilai statistik dataset lengkap dan listwise

deletion tabel 3.1 diperlihatkan pada tabel 3.2 berikut.
Tabel 3.2 Beberapa Nilai Statistik Dataset Lengkap Tabel 5

dan Listwise Deletion
Deletion-nya
Data n Rerata Variansi SD

Lengkap 20 10.35 7.19 2.68
LD 10 11.70 7.34 2.71
Dengan asumsi data MCAR MCAR, listwise deletion akan

menghasilkan estimasi rerata, variansi, dan koefisien regresi yang
tak-bias.
Jika data bukan MCAR, listwise deletion dapat

menimbulkan bias yang parah pada estimasi rerata, koefisien
regresi, dan korelasi.
21
Pairwise Deletion
Metode ini terutama digunakan pada estimasi statistik
untuk pasangan variabel, misalnya nilai korelasi dan kovariansi.
Untuk perhitungan korelasi tiap pasangan variabel,

digunakan tiap nilai pasangan subjek yang utuh, sehingga setiap
nilai pada matriks korelasi yang diperoleh mungkin berasal dari
himpunan bagian (subset) data yang berbeda, karena pada
perhitungan tiap korelasi antar dua variabel, pasangan subjek
yang dieliminasi karena salah satu atau kedua entrinya kosong
mungkin berbeda.
Metode ini valid jika asumsi MCAR benar. Sepintas lalu,

metode tampak lebih menarik dibandingkan dengan listwise
deletion, karena mengurangi jumlah data yang dihapus, namun
jika diperlukan untuk mem-pooled sejumlah analisis yang
dilakukan akan timbul masalah karena ukuran sampel yang
berbeda untuk tiap analisis yang dilakukan. Dalam praktik,
pairwise deletion umumnya dihindari dan lebih jarang digunakan
dibandingkan dengan listwise deletion.
22
Bab IV. Solusi Tradisional: Imputasi Tunggal
BAB IV
SOLUSI TRADISIONAL:
IMPUTASI TUNGGAL
Imputasi Rerata (mean imputation)
Pada variabel yang memiliki entri kosong, dihitung rerata

untuk semua entri terisi, lalu nilai rerata ini diimputasikan
(diisikan) pada setiap entri kosong pada variabel tersebut.
Perintah Stata untuk data terisi pada tabel 3.1:
. use “D:\Data\table 3.1”, clear
. list in 1/10
+----------+
| iq jp |
|----------|
1. | 99 7 |
2. | 105 10 |
3. | 105 11 |
4. | 106 15 |
5. | 108 10 |
|----------|
6. | 112 10 |
7. | 113 12 |
8. | 115 14 |
9. | 118 16 |
10. | 134 12 |
+----------+
23
. mean jp
Mean estimation Number of obs = 10
-------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
-----+-------------------------------------------
-------------------------------------------
JP | 11.7 .8569973 9.761337 13.63866
-------------------------------------------------
Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk

JP. Diagram tebar hasil imputasi rerata terhadap dataset tabel 3.1
diperlihatkan pada gambar 4.1 berikut.
Gambar 4.1 Diagram tebar hasil imputasi rerata terhadap

dataset tabel 3.1
Jika asumsi data MCAR berlaku, dengan imputasi rerata

akan diperoleh estimasi rerata yang valid, namun bias pada
hampir semua estimasi parameter lainnya.
24
Jika data bukan MCAR, estimasi rerata bersifat bias. Secara

umum, estimasi variansi yang diperoleh selalu lebih kecil
daripada seharusnya.
Imputasi Regresi
Variabel (-variabel) yang memiliki entri kosong masing-

masing diregresikan terhadap seluruh variabel yang entrinya
lengkap terisi. Persamaan regresi yang diperoleh digunakan untuk
memprediksi nilai-nilai pada entri kosong dan diimputasikan ke
situ.
Perintah Stata:
. regress jp iq

---------+--------------------------- F( 1, 8) = 1.94
Model | 12.9004725 1 12.9004725 Prob > F = 0.2012
---------+--------------------------- Adj R-squared = 0.0946
Total | 66.1 9 7.34444444 Root MSE = 2.5787
-----------------------------------------------------------------
jp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+-------------------------------------------------------
iq | .1234495 .088633 1.39 0.201 -.0809385 .3278375
_cons | -2.064619 9.916166 -0.21 0.840 -24.93134 20.8021
-----------------------------------------------------------------
Diperoleh persamaan regresi:

JP = −2.065 + 0.123 IQ
25
Selanjutnya persamaan ini digunakan untuk memprediksi entri-

entri kosong JP (kolom ke-3 tabel 4.1).
Misalnya: IQ = 78 JP = −2.065 + 0.123 (78) = 7.53

IQ = 84 JP = −2.065 + 0.123 (84) = 8.27
dan seterusnya.
Tabel 4.1 Imputasi Regresi Data Seleksi Karyawan
Job Predicted Random Stochastic

IQ performance score residual imputation
78 − 7.53 −2.47 5.06
84 − 8.27 −0.75 7.52
84 − 8.27 2.18 10.45
85 − 8.39 2.22 10.61
87 − 8.64 −3.14 5.50
91 − 9.13 2.44 11.57
92 − 9.25 0.44 9.69
94 − 9.50 −3.43 6.07
94 − 9.50 −2.97 6.53
96 − 9.74 6.49 16.23
99 7 − − −
105 10 − − −
105 11 − − −
106 15 − − −
108 10 − − −
112 10 − − −
113 12 − − −
115 14 − − −
118 16 − − −
134 12 − − −
26
Catatan. Persamaan regresi untuk menghasilkan nilai prediksi:
( )
JPi = -2.025 + 0.123 IQi (Enders, 2010)
Perhatikan kembali bahwa variabel (-variabel) yang

memiliki entri kosong masing-masing harus diregresikan terhadap
seluruh variabel yang entrinya terisi lengkap. Pada tabel 4.2
diperlihatkan contoh dataset dengan 3 variabel Y1, Y2, dan Y3,
serta model regresi yang harus digunakan, sesuai dengan variabel
mana yang memiliki entri kosong.
Tabel 4.2 Pola Data Kosong dan Persamaan yang digunakan

untuk Imputasi Regresi
Missing
Regression equations
variables
Y1 ŷ = B0 + B1 y2 + B2 y3
1
Y2 ŷ = B0 + B1 y2 + B2 y3
2
Y3 ŷ3 = B0 + B1 y1 + B2 y2
Y1 and Y2 ŷ = B0 + B1 y3 ŷ = B0 + B1 y3
1 2
Y1 and Y3 ŷ = B0 + B1 y2
1
ŷ3 = B0 + B1 y2
Y2 and Y3 ŷ = B0 + B1 y1
2
ŷ3 = B0 + B1 y1
(Enders, 2010)
Diagram tebar hasil imputasi regresi terhadap dataset tabel

3.1 diperlihatkan pada gambar 4.2.
27
Gambar 4.2 Diagram tebar imputasi regresi data IQ

dan kinerja dari tabel 3.1
Imputasi Regresi Stokastik

Pada imputasi regresi stokastik, nilai prediksi persamaan
regresi tidak langsung diimputasikan pada entri kosong dataset,
melainkan ditambahkan dulu dengan estimasi residualnya.
Residual diperoleh dari simulasi Monte Carlo dengan asumsi
residual berdistribusi normal dengan rerata nol dan variansi
diestimasikan oleh variansi residual model regresi.
Misalkan estimasi variansi residual model regresi ada

adalah
6.6499 (lihat nilai MS Residual pada hasil perintah regress di
atas), sehingga SD adalah 2.5788
2.5788, maka perintah Stata adalah:
. clear
. set obs 10
obs was 0, now 10
28
. set seed 12345
Nilai seed boleh sembarang, tetapi perlu dicatat untuk

memperoleh hasil yang sama jika analisis perlu diulangi.
. generate z = rnormal(0, 2.5788)
Ini adalah perintah untuk menghasilkan 10 nilai acak (set

obs 10) dari distribusi normal (rnormal) dengan rerata 0 dan
SD 2.5788.
. list
+-----------+
| z |
|-----------|
1. | -2.470705 |
2. | -.749728 |
3. | 2.179607 |
4. | 2.22218 |
5. | -3.143945 |
|-----------|
6. | 2.438858 |
7. | .4441902 |
8. | -3.429672 |
9. | -2.973124 |
10. | 6.489448 |
+-----------+
Diagram tebar hasil imputasi regresi stokastik terhadap
dataset tabel 3.1 diperlihatkan pada gambar 4.3.
29
Gambar 4.3 Diagram tebar imputasi regresi stokastik data IQ

dan kinerja dataset tabel 3.1
Last Observation Carried Forward

Metode ini khusus untuk digunakan pada desain
longitudinal. Contoh penggunaannya diperlihatkan pada tabel 4.3.
Tabel 4.3 Dataset Longitudinal Diimputasikan dengan Last

Observation Carried Forward
Observed data Last observation carried forward
ID Wave1 Wave2 Wave3 Wave4 Wave1 Wave2 Wave3 Wave4
1 50 53 − − 50 53 53 53
2 47 46 49 51 47 46 49 51
3 43 − − − 43 43 43 43
4 55 − 56 59 55 55 56 59
5 45 45 47 46 45 45 47 46
(Enders, 2010)
30
Bab V. Imputasi Ganda Univariat
BAB V
IMPUTASI GANDA UNIVARIAT
Pengertian Imputasi Ganda
Sejumlah ahli Statistika antara lain Rubin berpendapat

imputasi satu nilai (imputasi tunggal) secara umum tidak benar,
sehingga mereka berusaha mengembangkan metodologi untuk
imputasi ganda (van Buuren; 2012). Pengembangan teknologi
imputasi ganda yang melibatkan dataset besar sejak 1990-an
terutama dimungkinkan dengan kemajuan di bidang teknik
komputer.
Dengan imputasi ganda, yang diutamakan bukanlah nilai

imputasi tunggal untuk mengisi tiap entri kosong, melainkan
model yang dipilih untuk memperoleh beberapa dataset lengkap
yang telah terimputasi serta hasil akhir berupa estimasi yang
valid. Walaupun imputasi ganda secara teoretis telah dibahas oleh
Rubin (1976) sejak empat dekade yang lampau, kemampuan
komputer yang ada pada masa itu tidak memadai untuk
mengimplementasikannya. Imputasi ganda praktis baru tercakup
dalam beberapa program Statistika utama dalam satu dekade
terakhir.
Jika persentase kekosongan sangat kecil, imputasi ganda

tak dianjurkan, karena listwise deletion yang lebih sederhana akan
memberi hasil yang praktis hampir sama, sedangkan imputasi
ganda relatif rumit serta memerlukan waktu yang lebih lama.
Sebaliknya jika persentase kekosongan sangat besar, perlu diingat
bahwa hasil akhir akan lebih ditentukan oleh model imputasi
31
daripada data terisi. Dengan demikian, imputasi ganda terutama

bermanfaat jika persentase kekosongan tidak terlalu kecil ataupun
terlalu besar.
Imputasi ganda univariat dilakukan jika hanya ada 1

variabel dalam dataset yang memiliki entri kosong. Walaupun
dalam praktik keadaan ini sangat jarang ditemukan, pemahaman
mengenai imputasi ganda univariat merupakan modal awal yang
penting untuk mempelajari imputasi ganda multivariat.
Tahap-tahap Imputasi Ganda

Imputasi ganda (multiple imputation) adalah teknik
statistik untuk menganalisis dataset yang tak lengkap yang
memiliki sejumlah entri kosong. Aplikasi teknik ini mencakup 3
tahap, yaitu imputasi, analisis, dan pooling.
a. Imputasi:
Pada tahap imputasi, dilakukan m kali pengisian (to impute)
entri kosong pada dataset, sehingga diperoleh m dataset
yang lengkap.
b. Analisis:
Pada tahap kedua dilakukan analisis terhadap masing-
masing dari m dataset tersebut, yang akan menghasilkan m
himpunan nilai-nilai statistik.
c. Pooling:
Tahap ketiga merupakan pengkombinasian terhadap m
himpunan statistik yang diperoleh data tahap kedua untuk
menghasilkan 1 himpunan hasil inferensi.
32
Secara skematis, tahap-tahap

tahap imputasi ganda diperlihatkan
pada gambar 5.1 untuk m = 3.
Gambar 5.1 Imputasi ganda untuk m = 3 (van Buuren, 2012)
Literatur awal menyarankan penggunaan nilai m yang kecil,

umumnya dalam kisaran 33−5, namun literatur terbaru
menganjurkan nilai m sekurang
sekurang-kurangnya sama dengan
persentase subjek (responden) yang tak lengkap ddatanya, tetapi
tidak melebihi 100 (Molenberghs et al, 2015).
Analisis terhadap dataset lengkap (terimputasi) ke-k; k = 1,

2, . . . , m;; akan menghasilkan estimasi terhadap parameter β,
yaitu βˆ ( ) dan (estimasi) variansinya V ( ) . “Aturan Rubin”
k k
menyatakan estimasi gabungan parameter sebagai rerata m

estimasi yang terpisah:
1 m (k )
β̂ MI = ∑ βˆ (5.1)
m 1
33
  1
dan: V MI = V + 1+ (5.2)
 B
 m 
(k )
mV
dengan V =∑ (5.2a)
1 m
dan B= ∑
m ( ( k ) MI
βˆ − βˆ ) (5.2b)
1 m −1
Pelaksanaan Imputasi Ganda Univariat dengan

Stata
Sebelum pelaksanaan imputasi ganda, dicobakan dahulu

meregresikan variabel imputasi yang memiliki entri kosong pada
himpunan variabel regular, yaitu variabel yang terisi lengkap,
yang akan digunakan untuk memprediksi nilai entri kosong pada
variabel imputasi.
. regtype impvar regvars
Opsi regtype adalah:

- regress jika variabel imputasi berskala kontinu.
- logit jika variabel imputasi biner (dikotomi).
- ologit jika variabel imputasi kategorik ordinal.
- mlogit jika variabel imputasi kategorik nominal.
34
- poisson jika variabel imputasi data cacah dengan

ekidistensi.
- nbreg jika variabel imputasi data cacah dengan overdistensi.
Jika tidak ditemukan hambatan, tahap-tahap imputasi ganda

selanjutnya adalah:
1. Mempersiapkan file dataset untuk diimputasi.
. mi set datastyle
Perintah mi set adalah pernyataan pendeklarasian dataset
sebagai dataset mi, yaitu supaya dataset dapat menerima
perintah-perintah mi dan menjalani proses imputasi ganda.
style adalah tipe basis data yang dipilih.
Opsi untuk style adalah: flong, mlong, wide.
. mi register imputed impvar
Perintah ini merupakan penspesifikasian impvar, yaitu
variabel yang akan diimputasi.
. mi register regular regvars
Pernyataan ini merupakan penspesifikasian regvars, yaitu
variabel-variabel yang tidak akan diimputasi.
2. Pemeriksaan dataset mi.
. mi describe
Perintah untuk mendeskripsikan data yang dalam file mi.
. mi misstable sum
Perintah untuk mentabulasikan nilai-nilai kosong.
3. Pelaksanaan imputasi.
35
Metode regresi yang digunakan pada imputasi ganda

tergantung pada tipe data variabel dependennya. Beberapa
metode regresi yang digunakan dalam Stata untuk imputasi
ganda sesuai dengan tipe data variabel dependen yaitu:
- Data kontinu: Regresi linear dengan perintah mi
impute regress.
- Data kontinu dengan rentang nilai terbatas: Regresi
dengan perintah mi impute pmm (predictive mean
matching). Regresi pmm hanya dapat dilakukan dalam
konteks imputasi ganda.
- Data biner (dikotomi): Regresi logistik dengan perintah
mi impute logit.
- Data kategorik ordinal: Regresi logistik ordinal dengan
perintah mi impute ologit.
- Data kategorik nominal: Regresi logistik multinomial
dengan perintah mi impute mlogit.
- Data cacah dengan ekidistensi: Regresi Poisson dengan
perintah mi impute poisson.
- Data cacah dengan overdispersi: Regresi binomial
negatif dengan perintah mi impute nbreg.
Secara umum, sintaks untuk imputasi ganda univariat

adalah:
. mi impute regtype impvar regvars, add(M)
[rseed(#)]
add(M) menyatakan jumlah imputasi yang diinginkan.
Nilai M yang dianjurkan dalam Stata sekurang-kurangnya
adalah 20.
36
rseed(#) diperlukan supaya jika hendak dilakukan

pengulangan analisis, akan diperoleh hasil yang sama.
4. Pengestimasian parameter.
. mi estimate: regtype depvar indepvars
Perhatikan bahwa regtype di sini ditentukan oleh skala
variabel dependen, regtype belum tentu sama dengan
untuk variabel imputasi di atas.
Contoh 5.1:
File dataset yang akan digunakan pada contoh ini adalah

mheart0.dta.
. use D:\Data\mheart0, clear

(Fictional heart attack data; bmi missing)
Perintah untuk membuka file mheart0.dta.
. sum

----------+-------------------------------------------------
attack | 154 .4480519 .4989166 0 1
smokes | 154 .4155844 .4944304 0 1
age | 154 56.48829 11.73051 20.73613 87.14446
bmi | 132 25.24136 4.027137 17.22643 38.24214
female | 154 .2467532 .4325285 0 1
----------+-------------------------------------------------
hsgrad | 154 .7532468 .4325285 0 1
Variabel adalah:
attack : Outcome (heart attack)
smokes : Current smoker
37
age : Age, in years

bmi : Body Mass Index, kg/m2
female : Gender
hsgrad : High school graduate
Tampak bahwa semua variabel memiliki 154 entri, kecuali

bmi yang hanya memiliki 132 entri. Berikut diperlihatkan regresi
logistik attack terhadap smokes, age, bmi, female, dan
hsgrad. Tanpa imputasi ganda, perintah logit akan dikerjakan
dengan listwise deletion, yaitu hanya mengikutsertakan kasus
dengan entri terisi lengkap sebanyak 132.
. logit attack smokes age bmi female hsgrad
Iteration 0: log likelihood = -91.359017

Logistic regression Number of obs = 132
LR chi2(5) = 24.03
Prob > chi2 = 0.0002
Log likelihood = -79.34221 Pseudo R2 = 0.1315
------------------------------------------------------------------
attack | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+----------------------------------------------------------
smokes | 1.544053 .3998329 3.86 0.000 .7603945 2.327711
age | .026112 .017042 1.53 0.125 -.0072898 .0595137
bmi .1129938 .0500061 2.26 0.024 .0149837 .211004
female | .2255301 .4527558 0.50 0.618 -.6618549 1.112915
hsgrad | .4048251 .4446019 0.91 0.363 -.4665786 1.276229
_cons |-5.408398 1.810603 -2.99 0.003 -8.957115 -1.85968
-------------------------------------------------------------------
38
Selanjutnya akan dilakukan imputasi ganda variabel bmi,

tetapi terlebih dahulu akan dicoba meregresikan bmi terhadap
himpunan variabel regularnya.
. regress bmi attack smokes age female hsgrad

---------+------------------------------ F( 5, 126) = 1.24
Model | 99.5998228 5 19.9199646 Prob > F = 0.2946
---------+------------------------------ Adj R-squared = 0.0091
Total | 2124.5365 131 16.2178358 Root MSE = 4.0089
------------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
attack | 1.71356 .7515229 2.28 0.024 .2263179 3.200801
smokes | -.5153181 .761685 -0.68 0.500 -2.02267 .9920341
age | -.033553 .0305745 -1.10 0.275 -.0940591 .026953
female | -.3072767 .8074763 -0.38 0.704 -1.905249 1.290695
hsgrad | -.4674308 .8112327 -0.58 0.566 -2.072836 1.137975
_cons | 26.96559 1.884309 14.31 0.000 23.2366 30.69458
------------------------------------------------------------------
Tampak bahwa pada regresi variabel imputasi bmi

terhadap seluruh variabel regular tidak ditemukan sesuatu
hambatan.
. mi set flong
. mi register imputed bmi
(22 m=0 obs. now marked as incomplete)
. mi register regular attack smokes age female hsgrad

. mi describe
39
Style: mlong
last mi update 05aug2015 07:45:31, 14 seconds ago
Obs.: complete 132
incomplete 22 (M = 0 imputations)
---------------------
total 154
Vars.: imputed: 1; bmi(22)
passive: 0
regular: 5; attack smokes age female hsgrad
system: 3; _mi_m _mi_id _mi_miss
(there are no unregistered variables)
. mi misstable sum
Obs<.
+---------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+----------------------+---------------------------
bmi | 22 132 | 132 17.22643 38.24214
------------------------------------------------------------
. mi impute pmm bmi attack smokes age female

hsgrad, add(50) rseed(1500)
Univariate imputation Imputations = 50

Predictive mean matching added = 50
Imputed: m=1 through m=50 updated = 0
Nearest neighbors = 1
--------------------------------------------------------
| Observations per m
|----------------------------------------------
Variable | Complete Incomplete Imputed | Total
---------+-----------------------------------+----------
40
bmi | 132 22 22 | 154

--------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)
Note: Predictive mean matching uses the default one

nearest neighbor to impute bmi. This default is
arbitrary and may perform poorly depending on your
data. You should choose the number of neighbors
appropriate for your data and specify it in option
knn().
Khusus untuk perintah mi impute pmm sesudah add(M) dapat

ditambahkan opsi knn(#), yang menspesifikasikan # observasi
terdekat (nearest neighbors) sebagai sumber pengambilan nilai
imputasi. Nilai default adalah knn(1).
. mi estimate: logit attack smokes age bmi female

hsgrad

DF adjustment: Large sample DF: min = 3155.41
avg = 565967.10
max = 1418245.09
Model F test: Equal FMI F( 5,218097.0) = 3.77
Within VCE type: OIM Prob > F = 0.0020
------------------------------------------------------------------
attack | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
smokes | 1.21886 .3614422 3.37 0.001 .5104437 1.927276
age | .0358003 .015487 2.31 0.021 .0054463 .0661542
bmi | .1199313 .049222 2.44 0.015 .0234209 .2164418
female | -.1124488 .4190367 -0.27 0.788 -.933747 .7088494
41
hsgrad | .1668407 .405365 0.41 0.681 -.6276607 .9613422

_cons | -5.871377 1.707841 -3.44 0.001 -9.219208 -2.523546
------------------------------------------------------------------
Tabel 5.1 Perbandingan nilai-nilai estimasi model cc dan mi

untuk data mheart0.dta
Model
Variabel cc mi
1.544 1.219
smokes 0.400 0.361
0.000 0.001
0.026 0.036
age 0.017 0.015
0.125 0.021
0.113 0.120
bmi 0.050 0.049
0.024 0.015
0.226 −0.112
female 0.453 0.419
0.618 0.788
0.405 0.167
hsgrad 0.445 0.405
0.363 0.681
−5.408 −5.871
konstante 1.811 1.708
0.003 0.001
Nilai estimasi: b, SE, dan nilai-p
Tampak bahwa sebagian besar hasil untuk kedua model

tidak banyak berbeda, kecuali untuk variabel usia (age) yang tak
bermakna pada model cc menjadi bermakna pada model mi.
42
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat
BAB VI
IMPUTASI GANDA MULTIVARIAT:
MODEL NORMAL MULTIVARIAT
Imputasi Ganda dengan Model Normal

Multivariat
Jika variabel yang diimputasi lebih daripada satu,
prosedurnya adalah imputasi ganda multivariat. Dikenal dua
prosedur utama dalam imputasi ganda multivariat, yaitu imputasi
ganda dengan model normal multivariat (mi impute mvn) dan
imputasi ganda menggunakan persamaan berantai (mi impute
chained).
Dalam imputasi ganda dengan model normal multivariat

diasumsikan bahwa himpunan seluruh variabel (imputasi dan
regular) berdistribusi (atau dapat dianggap berdistribusi) bersama
normal multivariat. Dalam kenyataannya mungkin didapatkan
satu atau beberapa variabel biner, namun model normal tetap
digunakan dan hasil akhirnya pun tidak terlalu menyimpang
daripada hasil imputasi ganda menggunakan persamaan berantai.
Sintaks untuk model normal multivariat adalah:

. mi impute mvn impvars = regvars, add(M)
Langkah-langkah di sini terdiri atas pembentukan file mi,

imputasi data kosong, dan pengestimasian parameter.
43
Pembentukan file mi
Seperti halnya pada imputasi ganda univariat, pembentukan
file mi dilakukan dengan pendeklarasian file sebagai dataset mi,
dilanjutkan dengan me-register variabel-variabel imputasi dan
variabel regular.
Contoh 6.1:
Sebagai ilustrasi, diberikan contoh imputasi ganda dengan
menggunakan program statistik komputer Stata 13. File yang
digunakan adalah chapter13_missing.dta (Acock, 2014).
File: chapter13_missing.dta
. sysuse chapter13_missing.dta
(NLS Women 14-26 in 1968)
Tabel 6.1. Variabel-variabel dalam contoh dataset
Variabel Keterangan
ln_wagem Logaritma naturalis gaji
gradem Pendidikan tertinggi yang diselesaikan
agem Usia subjek penelitian
ttl_expm Durasi pengalaman kerja (dalam tahun)
tenurem Durasi di pekerjaan sekarang (dalam tahun
not_smsa Apakah subjek berasal dari area non-SMSA
south Apakah subjek berasal dari wilayah Selatan AS
blackm Apakah subjek tergolong kulit berwarna
Catatan: Variabel yang namanya diakhiri dengan huruf “m”

adalah variabel yang memiliki entri kosong (missing
values).
44
. list not_smsa south gradem agem ttl_expm

ln_wagem blackm tenurem in 25/30
+-------------------------------------------------------------+
| not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem |
|-------------------------------------------------------------|
25. | 0 0 12 28 4.923077 1.677717 . 4 |
26. | 0 0 12 19 4.5 1.321042 . 1.416667 |
27. | 0 0 15 27 3.461538 2.132606 . 1.5 |
28. | 0 0 12 21 4.711538 1.493794 . 1.25 |
29. | 1 0 15 24 3.115385 2.265503 . 1.833333 |
|-------------------------------------------------------------|
30. | 0 0 16 28 2.75 1.976338 . 2.416667 |
+-------------------------------------------------------------+
. sum
---------+-------------------------------------------------
idcode | 1693 2545.507 1478.858 1 5157
not_smsa | 1693 .2658004 .441889 0 1
south | 1693 .3951565 .4890287 0 1
gradem | 1545 12.16634 1.830982 0 18
agem | 1528 22.77421 3.040773 18 30
---------+-------------------------------------------------
ttl_expm | 1487 3.43469 1.565412 .0833333 15.53846
ln_wagem | 1393 1.639917 .4342409 .0682788 4.242752
blackm | 1594 .2628607 .4403256 0 1
tenurem | 1493 1.752902 1.573547 0 15.5
Tampak bahwa variabel yang perlu diimputasi adalah

ln_wagem, gradem, agem, ttl_expm, tenurem, dan
blackm.
. mi set flong
. mi register imputed ln_wagem gradem agem ttl_expm

tenurem blackm
45
(828 m=0 obs. now marked as incomplete)
. mi register regular not_smsa south
Perintah mi set flong (full and long) memberitahu Stata

agar mengatur dataset ganda. Perintah mi register imputed
adalah untuk mendaftarkan (me-register) seluruh variabel yang
memiliki entri kosong yang perlu di-imputasi. Perintah mi
register regular adalah untuk mendaftarkan seluruh variabel
yang tidak memiliki entri kosong atau tidak hendak diimputasi.
. misstable summarize ln_wagem gradem agem

ttl_expm tenurem not_smsa south blackm
Obs<.
+------------------------------
| | Unique
---------+------------------------------+------------------------------
ln_wagem | 300 1,393 | 393 .0682788 4.242752
gradem | 148 1,545 | 13 0 18
agem | 165 1,528 | 12 18 30
ttl_expm | 206 1,487 | >500 .0833333 15.53846
tenurem | 200 1,493 | 74 0 15.5
blackm | 99 1,594 | 2 0 1
-----------------------------------------------------------------------
Perintah misstable adalah untuk mendapatkan ringkasan

(summary) entri kosong.
. misstable patterns ln_wagem gradem agem ttl_expm

tenurem not_smsa south blackm
46
Missing-value patterns
(1 means complete)
| Pattern
Percent | 1 2 3 4 5 6
------------+---------------------
51% | 1 1 1 1 1 1
|
8 | 1 1 1 1 1 0
7 | 1 1 0 1 1 1
6 | 1 1 1 0 1 1
5 | 1 1 1 1 0 1
4 | 1 0 1 1 1 1
4 | 0 1 1 1 1 1
3 | 1 1 1 1 0 0
2 | 1 0 1 1 1 0
(output omitted)
------------+---------------------
100% |
Variables are (1) blackm (2) gradem

(3) agem (4) tenurem
(5) ttl_expm (6) ln_wagem
Imputasi Data Kosong
Setelah dimiliki file dengan dataset mi, imputasi dapat

dilakukan. Sintaksnya adalah:
. mi impute mvn impvars = regvars, add(M) [rseed(#)]
47
Contoh 6.2:
Lihat kembali data pada contoh 6.1.
. mi impute mvn ln_wagem gradem agem ttl_expm

tenurem blackm = not_smsa south, add(20)
rseed(2121)
Performing EM optimization:
observed log likelihood = -5199.3214 at iteration 12
Performing MCMC data augmentation ...

Multivariate imputation Imputations = 20
Multivariate normal regression added = 20
Prior: uniform Iterations = 2000
burn-in = 100
between = 100
--------------------------------------------------
|----------------------------------------------
-------------+-----------------------------------+----------
ln_wagem | 1393 300 300 | 1693
gradem | 1545 148 148 | 1693
agem | 1528 165 165 | 1693
ttl_expm | 1487 206 206 | 1693
tenurem | 1493 200 200 | 1693
blackm | 1594 99 99 | 1693
------------------------------------------------------------
observations.)
Perintah mi impute mvn menspesifikasikan model

normal multivariat yang digunakan untuk mengimputasikan nilai-
nilai bagi entri kosong.
48
Opsi add(20) membentuk 20 datasets sebagai tambahan

terhadap dataset awal yang memiliki nilai-nilai entri kosong. Ke-
20 datasets ini seluruhnya lengkap terisi tanpa ada entri kosong.
Nilai yang diimputasikan berbeda dari satu dataset ke yang
lainnya. Opsi rseed(#) menentukan nilai seed # tertentu yang
dipilih agar hasil dapat diduplikasi. Setiap nilai dapat dimasukkan
ke dalam rseed(#).
Estimasi Parameter
Setelah imputasi data selesai, dataset yang dimiliki dapat
digunakan untuk mengestimasi parameter. Sintaksnya adalah:
. mi estimate: regress depvar indepvars
Contoh 6.3:
Lihat kembali data pada Contoh 6.2.
. mi estimate: regress ln_wagem gradem agem

ttl_expm tenurem not_smsa south blackm
Complete DF = 1685
avg = 181.39
max = 397.74
49
------------------------------------------------------------------
ln_wagem | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
gradem | .0746216 .0064335 11.60 0.000 .061872 .0873712
agem | .02062 .0040349 5.11 0.000 .0126369 .028603
ttl_expm | .0130249 .0102512 1.27 0.207 -.0073508 .0334007
tenurem | .0628405 .0090895 6.91 0.000 .0448499 .0808311
not_smsa | -.1554712 .0244057 -6.37 0.000 -.2035786 -.1073638
south | -.1032382 .0226229 -4.56 0.000 -.1477907 -.0586857
blackm | -.037655 .0239075 -1.58 0.116 -.0846558 .0093459
_cons | .1669442 .1064046 1.57 0.119 -.0434716 .3773601
------------------------------------------------------------------
Prefiks mi estimate di depan perintah regresi

menginformasikan Stata untuk melaksanakan analisis
regresi untuk masing-masing dari 20 datasets dan mem-pool
hasilnya.
Diperoleh model akhir yaitu:
ln_wage = 0.17 + 0.07(grade) + 0.02(age) + 0.01(ttl_exp) +

0.06(tenure) – 0.16(not_smsa) – 0.10(south) –
0.04(black)
50
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai
BAB VII
IMPUTASI GANDA MULTIVARIAT:
METODE PERSAMAAN BERANTAI
Tahap persiapan
Metode persamaan berantai untuk imputasi ganda
multivariat ini pada hakekatnya merupakan perluasan imputasi
ganda univariat yang telah dibahas pada bab V. Karena variabel
yang akan diimputasi lebih daripada satu dan tipe data variabel
mungkin saling berbeda, sebaiknya dilakukan pemeriksaan
dengan meregresikan tiap (bakal) variabel imputasi terhadap
seluruh variabel lainnya. Model regresi yang digunakan
disesuaikan dengan tipe data masing-masing variabel imputasi.
- Data kontinu:
. regress impvar regvars
- Data biner:
. logit impvar regvars
- Data kategorik ordinal:
. ologit impvar regvars
- Data kategorik nominal
. mlogit impvar regvars
- Data cacah dengan ekidistensi:
. poisson impvar regvars
- Data cacah dengan overdistensi:
. nbreg impvar regvars
Contoh penggunaan masing-masing perintah dapat dilihat

pada Lampiran 1. Dengan prosedur regresi ini dapat dilihat antara
lain keberadaan kemaknaan prediktif variabel regular,
51
konvergensi pada tipe regresi dengan proses iteratif, dan

sebagainya.
Contoh 7.1:
. use “D:\Data\midata”, replace

. sum

---------+---------------------------------------------------
female | 3000 .496 .5000674 0 1
race | 2707 1.018471 .8103808 0 2
urban | 2727 .6622662 .473024 0 1
edu | 2681 2.357702 .912182 1 4
exp | 2707 15.57284 9.656566 0 47.8623
---------+---------------------------------------------------
wage | 2701 71493.95 38104.3 0 227465.2
Pemeriksaan dilakukan dengan beberapa prosedur regresi

berikut (hasil tidak ditampilkan):
. mlogit race i.urban exp wage i.edu female

. logit urban i.race exp wage i.edu female
. ologit edu i.urban i.race exp wage female
. regress exp i.urban i.race wage i.edu female
. regress wage i.urban i.race exp i.edu female
Pembentukan dataset mi
Seperti pada proses imputasi ganda lainnya, perintah Stata
utama di sini adalah:
. mi set style
Opsi untuk style adalah flong, mlong, dan wide.
52
. mi register imputed impvars

. mi register regular regvars
Perintah lain adalah untuk mengevaluasi hasil perintah-

perintah di atas:
. misstable sum
. misstable pattern
Contoh 7.2:
Lihat kembali data pada Contoh 7.1:
. mi set wide
. mi register imputed race urban edu exp wage
. mi register regular female
. misstable sum
Obs<.
+-------------------------
| | Unique
---------+----------------------------+-------------------------
race | 293 2,707 | 3 0 2
urban | 273 2,727 | 2 0 1
edu | 319 2,681 | 4 1 4
exp | 293 2,707 | >500 0 47.8623
wage | 299 2,701 | >500 0 227465.2
----------------------------------------------------------------
. misstable pattern
53
Missing-value patterns
(1 means complete)
| Pattern
Percent | 1 2 3 4 5
------------+---------------
59% | 1 1 1 1 1
|
7 | 1 1 1 1 0
7 | 1 1 0 1 1
7 | 1 1 1 0 1
6 | 1 0 1 1 1
6 | 0 1 1 1 1
<1 | 0 1 1 1 0
<1 | 1 1 0 1 0
<1 | 1 0 0 1 1
<1 | 1 1 1 0 0
<1 | 1 0 1 0 1
<1 | 0 1 1 0 1
<1 | 1 0 1 1 0
<1 | 0 0 1 1 1
<1 | 1 1 0 0 1
<1 | 0 1 0 1 1
<1 | 1 0 0 0 1
<1 | 0 0 1 0 1
<1 | 1 0 0 1 0
<1 | 1 0 1 0 0
<1 | 0 1 0 0 1
<1 | 0 1 1 0 0
<1 | 0 1 0 1 0
<1 | 0 0 0 1 1
<1 | 0 0 1 1 0
------------+---------------
100% |
Variables are (1) urban (2) race (3) exp

(4) wage (5) edu
54
Imputasi Data Kosong

Sintaks untuk melakukan imputasi dengan persamaan
berantai adalah:
. mi impute chained (regmethod1) impvar1 (regmethod2)

impvar2 . . . = regvars, add(M) rseed(#)
Contoh 7.3:
Lihat data pada Contoh 7.2.
. mi impute chained (logit) urban (mlogit) race (ologit)

edu (pmm, knn(5)) exp wage = female, add(20)
rseed(4444)
Conditional models:
urban: logit urban i.race exp wage i.edu female
race: mlogit race i.urban exp wage i.edu female
exp: pmm exp i.urban i.race wage i.edu female , knn(5)
wage: pmm wage i.urban i.race exp i.edu female , knn(5)
edu: ologit edu i.urban i.race exp wage female
Performing chained iterations ...
Multivariate imputation Imputations = 20

Chained equations added = 20
Initialization: monotone Iterations = 200

burn-in = 10
urban: logistic regression

race: multinomial logistic regression
edu: ordered logistic regression
exp: predictive mean matching
wage: predictive mean matching
55
-----------------------------------------------------------
|--------------------------------------------
--------------+-----------------------------------+--------
urban | 2727 273 273 | 3000
race | 2707 293 293 | 3000
edu | 2681 319 319 | 3000
exp | 2707 293 293 | 3000
wage | 2701 299 299 | 3000
-----------------------------------------------------------
observations.)
Estimasi Parameter
Sintaks:
. mi estimate: regmethod depvar indepvars
Contoh 7.3:
Lihat data pada contoh 7.2.
. mi estimate: regress exp i.urban i.race wage i.edu

female
Complete DF = 2991
avg = 480.57
max = 799.44
56
------------------------------------------------------------------
exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+---------------------------------------------------------
1.urban | -.7147912 .3709081 -1.93 0.055 -1.444618 .0150357
|
race |
1 | 1.111433 .4211293 2.64 0.009 .2825493 1.940317
2 | .9334521 .4083664 2.29 0.023 .1318551 1.735049
|
wage | .0001327 5.01e-06 26.49 0.000 .0001229 .0001426
|
edu |
2 | -2.011541 .4563419 -4.41 0.000 -2.907332 -1.115751
3 | -4.786797 .5076449 -9.43 0.000 -5.78437 -3.789224
4 | -7.796166 .6807551 -11.45 0.000 -9.133233 -6.459099
|
female | -1.071471 .362309 -2.96 0.003 -1.783544 -.359398
_cons | 9.50039 .603845 15.73 0.000 8.313031 10.68775
------------------------------------------------------------------
Didapatkan model regresi akhir:
exp = 9.50 – 0.71(urban_1) + 1.11(race_1) + 0.93(race_2)

+ 0.0001(wage) – 2.01(edu_2) – 4.79(edu_3)
−7.80(edu_4) – 1.07(female)
57
Kepustakaan
KEPUSTAKAAN
Enders CK. (2010). Applied Missing Data Analysis. New York:
The Guilford Press.
Kim JK & Shao J. (2014). Statistical Methods for Handling
Incomplete Data. Boca Raton, FL: CRC Press, Taylor &
Francis Group.
Little RJA & Rubin DB. (2012). Statistical Analysis with Missing
Data, 2nd Ed. Hoboken, New Jersey: John Wiley & Sons.
Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, &
Verbeke G. (2015). Handbook of Missing Data
Methodology. Boca Raton, FL: CRC Press, Taylor & Francis
Group.
Rubin DB. (1987). Multiple Imputation for Nonresponse in
Surveys. New York: John Wiley & Sons.
StataCorp LP. (2013). Stata Multiple-Imputation Reference
Manual, Release 13. College Station, Texas: Stata Press
Publication.
van Buuren S. (2012). Flexible Imputation of Missing Data. Boca
Raton, FL: CRC Press, Taylor & Francis Group.
59
Lampiran
BEBERAPA CONTOH REGRESI

DENGAN STATA
Regresi Linear
Sintaks: regress depvar indepvars [if] [in] [, options]
Model: Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi + εi
. use “ D:\Data\elemapi”, clear

. list api00 acs_k3 meals full in 1/7
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
api00 : api 2000

acs_k3 : avg class size k-3
meals : pct free meals
full : pct full credential
60
Lampiran
. regress api00 acs_k3 meals full

---------+----------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
---------+----------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153
------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
------------------------------------------------------------------
Model estimasi:
api00 = 906.74 – 2.68(acs_k3) – 3.70(meals) + 0.11(full) + e
Regresi Logistik
Sintaks: logit depvar indepvars [if] [in] [, options]
 ( )
p Yi
Model: logit Yi = ln  
1− p(Yi ) 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
. use “D:\Data\apilog”, clear

. list hiqual cred_hl pared_hl in 6/10
61
Lampiran
+-------------------------------+
| hiqual cred_hl pared_hl |
|-------------------------------|
6. | not high high high |
7. | not high high low |
8. | not high low low |
9. | high high high |
10. | not high low high |
+-------------------------------+
hiqual : High Quality School, Hi vs Not

cred_hl : Full Credent Teachers, Hi vs Lo
pared_hl : Parents Education, Hi vs Lo
. logit hiqual cred_hl pared_hl


LR chi2(2) = 157.49
Prob > chi2 = 0.0000
------------------------------------------------------------------
hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
cred_hl | 2.732386 .2705825 10.10 0.000 2.202054 3.262718
pared_hl | -.1699762 .2084618 -0.82 0.415 -.5785538 .2386014
_cons | -2.470522 .246384 -10.03 0.000 -2.953425 -1.987618
------------------------------------------------------------------
62
Lampiran
Model estimasi:
logit hiqual = −2.47 + 2.73(cred_hl) – 0.17(pared_hl)
Regresi Logistik Ordinal
Sintaks: ologit depvar indepvars [if] [in] [, options]
 ( )
p Yi
1− p(Yi )
 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
. use “D:\Data\ologit”, clear
. list apply pared public gpa in 1/5
+-----------------------------------------+
| apply pared public gpa |
|-----------------------------------------|
1. | very likely 0 0 3.26 |
2. | somewhat likely 1 0 3.21 |
3. | unlikely 1 1 3.94 |
+-----------------------------------------+
63
Lampiran
. list apply pared public gpa in 1/5, nolabel
+-------------------------------+
| apply pared public gpa |
|-------------------------------|
1. | 2 0 0 3.26 |
2. | 1 1 0 3.21 |
3. | 0 1 1 3.94 |
4. | 1 0 0 2.81 |
5. | 1 0 0 2.53 |
+-------------------------------+
. ologit apply pared public gpa

Ordered logistic regression Number of obs = 400

LR chi2(3) = 24.18
Prob > chi2 = 0.0000
--------------------------------------------------------------
apply | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+------------------------------------------------------
pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601
public | -.0586828 .2978588 -0.20 0.844 -.6424754 .5251098
gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573
-------+------------------------------------------------------
/cut1 | 2.203323 .7795353 .6754621 3.731184
/cut2 | 4.298767 .8043147 2.72234 5.875195
--------------------------------------------------------------
64
Lampiran
Model estimasi:
apply: Unlikely vs somewhat likely ∪ very unlikely
logit apply = 2.20 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)
apply: Unlikely ∪ somewhat likely vs very unlikely
logit apply = 4.30 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)
Regresi Logistik Multinomial
Sintaks: mlogit depvar indepvars [if] [in] [, options]
 ( )
p Yi
1− p(Yi )
 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi
65
Lampiran
. use “D:\Data\hsbdemo”, clear

. list prog ses write in 16/20
+---------------------------+
| prog ses write |
|---------------------------|
16. | general low 44 |
17. | general low 46 |
18. | vocation middle 46 |
19. | academic middle 46 |
20. | vocation high 49 |
+---------------------------+
. list prog ses write in 16/20, nolabel
+--------------------+
| prog ses write |
|--------------------|
16. | 1 1 44 |
17. | 1 1 46 |
18. | 3 2 46 |
19. | 2 2 46 |
20. | 3 3 49 |
+--------------------+
prog : type of program

ses : social economic status
write : writing score
. mlogit prog i.ses write, base(2)

66
Lampiran
Multinomial logistic regression Number of obs = 200

LR chi2(6) = 48.23
Prob > chi2 = 0.0000
------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
general |
ses |
middle | -.533291 .4437321 -1.20 0.229 -1.40299 .336408
high | -1.162832 .5142195 -2.26 0.024 -2.170684 -.1549804
|
write | -.0579284 .0214109 -2.71 0.007 -.0998931 -.0159637
_cons | 2.852186 1.166439 2.45 0.014 .5660075 5.138365
---------+----------------------------------------------------------
academic | (base outcome)
---------+----------------------------------------------------------
vocation |
ses |
middle | .2913931 .4763737 0.61 0.541 -.6422822 1.225068
high | -.9826703 .5955669 -1.65 0.099 -2.14996 .1846195
|
write | -.1136026 .0222199 -5.11 0.000 -.1571528 -.0700524
_cons | 5.2182 1.163549 4.48 0.000 2.937686 7.498714
------------------------------------------------------------------
Model estimasi:
prog : general vs academic
logit prog = 2.85 − 0.53(sesmid-lo) – 1.16(seshi-lo) − 0.06(write)
prog : vocation vs academic
logit prog = 5.22 + 0.29(sesmid-lo) – 0.98(seshi-lo) − 0.11(write)
67
Lampiran
Regresi Poisson
Sintaks: poisson depvar indepvars [if] [in] [, options]
Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi
. use "D:\Data\Stata\lahigh.dta"
. list daysabs mathnce langnce gender in 1/10
+----------------------------------------+
| daysabs mathnce langnce gender |
|----------------------------------------|
1. | 4 56.98883 42.45086 male |
2. | 4 37.09416 46.82059 male |
3. | 2 32.27546 43.56657 female |
4. | 3 29.05672 43.56657 female |
5. | 3 6.748048 27.24847 female |
|----------------------------------------|
6. | 13 61.65428 48.41482 female |
7. | 11 56.98883 40.73543 female |
8. | 7 10.39049 15.35938 male |
9. | 10 50.52795 52.11514 male |
10. | 9 49.47205 42.45086 male |
+----------------------------------------+
daysabs : number days absent

mathnce : ctbs math pct rank
langnce : ctbs lang pct rank
. tabstat daysabs, by(gender) stats(mean sd n)
Summary for variables: daysabs

by categories of: gender
68
Lampiran
gender | mean sd N
-------+------------------------------
female | 6.697531 8.530609 162
male | 4.876623 5.995999 154
-------+------------------------------
Total | 5.810127 7.449003 316
--------------------------------------
. poisson daysabs mathnce langnce gender

Poisson regression Number of obs = 316

LR chi2(3) = 175.27
Prob > chi2 = 0.0000
------------------------------------------------------------------
daysabs | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
mathnce | -.0035232 .0018213 -1.93 0.053 -.007093 .0000466
langnce | -.0121521 .0018348 -6.62 0.000 -.0157483 -.0085559
gender | -.4009209 .0484122 -8.28 0.000 -.495807 -.3060348
_cons | 3.088587 .1017365 30.36 0.000 2.889187 3.287987
------------------------------------------------------------------
Model empirik:
ln (dayabs) = 3.09 – 0.004(mathce) – 0.01(langnce) –

0.40(gender)
69
Lampiran
Regresi Binomial Negatif
Sintaks: nbreg depvar indepvars [if] [in] [, options]
Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi
Contoh: Sama dengan di atas (regresi Poisson).
. use "D:\Data\Stata\rod93.dta", clear

. list deaths cohort exposure in 6/15
+-------------------------------+
| deaths cohort exposure |
|-------------------------------|
6. | 81 1941-1949 8,743.5 |
7. | 40 1941-1949 14,270.0 |
8. | 197 1960-1967 403.2 |
9. | 48 1960-1967 786.0 |
10. | 62 1960-1967 1,165.3 |
|-------------------------------|
11. | 81 1960-1967 2,294.8 |
12. | 97 1960-1967 4,500.5 |
13. | 103 1960-1967 13,201.5 |
14. | 39 1960-1967 19,525.0 |
15. | 195 1968-1976 495.3 |
+-------------------------------+
70
Lampiran
. list deaths cohort exposure in 6/15, nolabel
+----------------------------+
| deaths cohort exposure |
|----------------------------|
6. | 81 1 8,743.5 |
7. | 40 1 14,270.0 |
8. | 197 2 403.2 |
9. | 48 2 786.0 |
10. | 62 2 1,165.3 |
|----------------------------|
11. | 81 2 2,294.8 |
12. | 97 2 4,500.5 |
13. | 103 2 13,201.5 |
14. | 39 2 19,525.0 |
15. | 195 3 495.3 |
+----------------------------+
. tabstat deaths, by(cohort) stats(mean sd n)

Summary for variables: deaths
by categories of: cohort (defined by
year children were born)
cohort | mean sd N
----------+------------------------------
1941-1949 | 84.42857 42.98394 7
1960-1967 | 89.57143 53.06555 7
1968-1976 | 80 56.87413 7
----------+------------------------------
Total | 84.66667 48.84192 21
-----------------------------------------
71
Lampiran
. nbreg deaths i.cohort exposure

Fitting Poisson model:

Fitting constant-only model:

Fitting full model:

Negative binomial regression Number of obs = 21

LR chi2(3) = 3.78
Dispersion = mean Prob > chi2 = 0.2864
-------------------------------------------------------------------
deaths | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-----------+-------------------------------------------------------
cohort |
1960-1967 | .1486955 .2800229 0.53 0.595 -.4001393 .6975304
1968-1976 | -.0745488 .2753852 -0.27 0.787 -.6142939 .4651964
|
exposure | -.0000452 .000022 -2.06 0.039 -.0000882 -2.19e-06
_cons | 4.596288 .2128607 21.59 0.000 4.179089 5.013488
-----------+-------------------------------------------------------
/lnalpha | -1.377729 .3166305 -1.998314 -.7571451
-----------+-------------------------------------------------------
alpha | .2521504 .0798385 .1355637 .4690035
-------------------------------------------------------------------
72
Lampiran
Likelihood-ratio test of alpha=0: chibar2(01) = 358.92

Prob>=chibar2 = 0.000
73

Data Kosong &amp; Imputasi Ganda

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Kosong &amp; Imputasi Ganda

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA KOSONG DAN

Cetakan Pertama, Januari 2016

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma

Hak cipta dilindungi undang-undang. Dilarang mengutip

Jakarta, Januari 2016

Bab II Tipe Kekosongan 9

Bab III Solusi Tradisional: Delesi Data 19

Bab IV Solusi Tradisional: Imputasi Tunggal 23

Bab V Imputasi Ganda Univariat 31

Bab VI Imputasi Ganda Multivariat: Model 43

Bab VII Imputasi Ganda Multivariat: Metode 51

Data kosong dibedakan menjadi:

Tabel 1.1 Pola Data Kosong untuk Rancangan Tiga-Form

Catatan: Tanda cek menyatakan data lengkap

b. Data kosong tak terencana (unplanned missing data).

Data kosong tak terencana dapat terjadi antara lain karena:

pada entri terisi tetapi dihapus akan menurunkan efisiensi

. use D:\Data\hsb2.dta, clear

Perintah Stata untuk membuka (use) file hsb2.dta yang

Perintah sum (summarize) adalah untuk menampilkan

Variable | Obs Mean Std. Dev. Min Max

. regress socst write read female math

Perintah Stata ini adalah untuk meregresikan variabel

Source | SS df MS Number of obs = 200

. estimates store full

Perintah Stata ini adalah untuk menyimpan hasil estimasi

. use D:\Data\hsb2_mar, clear

Variable | Obs Mean Std. Dev. Min Max

. regress socst write read female math

Source | SS df MS Number of obs = 145

Multiple-imputation estimates Imputations = 5

Largest FMI = 0.2201

Perintah untuk menyajikan tabel perbandingan hasil

| 1.4041631 1.2079946 1.3751758

Berdasarkan teori ini, tipe-tipe kekosongan dibedakan atas

MCAR (missing completely at random)

rij = 1 jika entri terisi dan

Data terisi secara kolektif dinyatakan dengan Yobs dan data

Relasi distribusi R terhadap Y = (Yobs ,Ymiss ) dinyatakan

Misalkan ψ adalah parameter model data kosong, maka

Jika data MCAR, maka:

P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0 |ψ ) (2.1)

MAR (missing at random)

Kekosongan di sini memiliki asosiasi dengan satu atau

kecenderungan yang lebih besar untuk tidak menjawab

Dengan pemahaman yang sama terhadap matriks indikator

P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0| Yobs ,ψ ) (2.2)

MNAR (missing not at random)

Dengan pemahaman yang sama terhadap matriks indikator

P ( R = 0| Yobs ,Ymiss ,ψ ) (2.3)

tak dapat disederhanakan lagi.

Kekosongan data pada psychological well-being

Tabel 2.1 Dataset Seleksi Karyawan

Tabel 2.2 Rating Kinerja dengan Nilai Kosong MCAR,

Job performance ratings

Tabel 2.3 Beberapa Nilai Statistik Dataset Lengkap, MCAR,

Data n Rerata Variansi SD

Perbandingan karakteristik estimator hasil analisis dataset

Tabel 2.4 Karakteristik estimator menurut tipe kekosongan

*) Tak bias jika peneliti mampu menginklusikan model mekanisme

Tabel 2.5 Indikator Data Kosong untuk

Contoh 2.5 (Uji statistik):

Misalkan untuk variabel IQ dan MCAR pada tabel 2.2,

Data Kosong & Imputasi Ganda

Data Kosong & Imputasi Ganda