Anda di halaman 1dari 86

DATA KOSONG DAN

IMPUTASI GANDA

Johan Harlan

PENERBIT GUNADARMA
Data Kosong dan Imputasi Ganda
Penulis : Johan Harlan

Cetakan Pertama, Januari 2016

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma


Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id

Hak cipta dilindungi undang-undang. Dilarang mengutip


atau memperbanyak dalam bentuk apapun sebagian atau
seluruh isi buku tanpa ijin tertulis dari penerbit.
Kata Pengantar

KATA PENGANTAR
Buku ini membahas mengenai data kosong (missing data)
dan metode penanganannya secara kontemporer, yaitu imputasi
ganda (multiple imputation). Data kosong merupakan masalah
lama bidang penelitian, sama usianya dengan riwayat
pengumpulan data sendiri untuk penelitian, sebaliknya imputasi
ganda adalah teknik statistik yang praktis baru berkembang dalam
tiga dekade terakhir. Perkembangan teknik imputasi ganda
dimungkinkan oleh kemajuan mutakhir di bidang Informatika dan
Ilmu Komputer, dan perkembangan ini masih diharapkan untuk
berlanjut dan mengalami penyempurnaan di masa mendatang.
Teknik imputasi ganda terutama bermanfaat untuk data
survei yang berukuran besar, walaupun dapat juga dimanfaatkan
dalam studi eksperimental. Data survei biasa dikumpulkan dalam
jumlah besar dengan biayanya umumnya lebih rendah daripada
studi eksperimental. Pada studi eksperimental dengan biaya yang
biasanya lebih besar pengumpulan data umumnya dilakukan
secara lebih giat sehingga umumnya jarang didapatkan data
kosong.
Pembaca buku ini diharapkan sedikit banyak telah memiliki
penguasaan mengenai dasar-dasar model regresi. Penulis mencoba
membahas beberapa aspek dasar mengenai kekosongan data dan
teknik imputasi ganda dengan menggunakan program statistik
Stata secara sederhana, tetapi diharapkan dapat memberi bekal
dasar bagi pembaca untuk mendalami mengenai topik tersebut.

Jakarta, Januari 2016

Penulis
v
Daftar Isi

DAFTAR ISI

Kata Pengantar v

Daftar Isi vi

Bab I Pendahuluan 1
Data Kosong 1
Imputasi Data 2

Bab II Tipe Kekosongan 9


MCAR 9
MAR 10
MNAR 11

Bab III Solusi Tradisional: Delesi Data 19


Listwise Deletion 19
Pairwise Deletion 22

Bab IV Solusi Tradisional: Imputasi Tunggal 23


Imputasi Rerata 23
Imputasi Regresi 25
Imputasi Regresi Stokastik 28
Last Observation Carried Forward 30

Bab V Imputasi Ganda Univariat 31


Pengertian Imputasi Ganda 31
Tahap-Tahap Imputasi Ganda 32
Pelaksanaan Imputasi Ganda Univariat dengan 34
Stata

vi
Daftar Isi

Bab VI Imputasi Ganda Multivariat: Model 43


Normal Multivariat
Imputasi Ganda dengan Model Normal 43
Multivariat
Pembentukan File mi 44
Imputasi Data Kosong 47
Estimasi Parameter 49

Bab VII Imputasi Ganda Multivariat: Metode 51


Persamaan Berantai
Tahap Persiapan 51
Pembentukan Dataset mi 52
Imputasi Data Kosong 55
Estimasi Parameter 56

Kepustakaan 59

Lampiran 60

vii
Bab 1. Pendahuluan

BAB I
PENDAHULUAN
Data Kosong
Dalam pemrosesan dan analisis data seringkali didapatkan
adanya variabel yang nilainya kosong untuk satu atau beberapa
subjek penelitian, yang dikenal sebagai data kosong (missing
data).

Data kosong dibedakan menjadi:


a. Data kosong terencana (planned missing data).
Kekosongan data direncanakan dengan sengaja oleh peneliti
sesuai desain penelitian (lihat tabel 1.1).
Alasannya antara lain karena jumlah pertanyaan dalam
kuesioner terlalu banyak, pengumpulan data tertentu
menggunakan pemeriksaan dengan biaya yang sangat mahal,
dan sebagainya.

Tabel 1.1 Pola Data Kosong untuk Rancangan Tiga-Form


Set item
Form X A B C
1 √ − √ √
2 √ √ − √
3 √ √ √ −

Catatan: Tanda cek menyatakan data lengkap

1
Bab 1. Pendahuluan

b. Data kosong tak terencana (unplanned missing data).


Bentuk ini yang selanjutnya akan dibahas di sini.

Data kosong tak terencana dapat terjadi antara lain karena:


- Ketidakberhasilan mendapatkan data dari subjek penelitian,
misalnya isi kuesioner tidak lengkap karena ada item yang
dengan sengaja ataupun tak sengaja tak diisi oleh responden.
- Data tercatat mungkin sengaja dihapus karena nilainya
berada di luar rentang kewajaran, sedangkan pengecekan
ulang terhadap subjek penelitian tidak dapat dilakukan.
- Pada data sekunder, data kosong merupakan hasil kerja pihak
lain yang semula mengumpulkannya sebagai data primer,
yang umumnya tidak dapat ditelusuri lagi penyebab
kekosongannya oleh pengguna data sekunder.

Imputasi Data
Standar umum di waktu lampau ialah menghapus
responden (record) dengan data kosong dari dataset. Hand et al
(1994) mengumpulkan 510 dataset dari literatur statistik; hanya
13 di antaranya yang menyertakan pedoman yang digunakan
untuk menangani data kosong. Pada sebagian besar kasus,
masalah data kosong telah “dipecahkan” dengan cara tertentu,
tanpa penjelasan seberapa banyak entri kosong yang semula ada.
Jika jumlah responden dengan data kosong yang dihapus
dari dataset relatif kecil, misalkan hanya 1% dari keseluruhan
responden semula, hasil akhir dapat dikatakan praktis tak
terpengaruh, sebaliknya jika jumlah responden yang dihapus
besar, misalkan 50% dari keseluruhan responden semula, hasil
akhir yang diperoleh dapat bersifat sangat bias. Terbuangnya data
2
Bab 1. Pendahuluan

pada entri terisi tetapi dihapus akan menurunkan efisiensi


penelitian.
Upaya untuk mengatasi data kosong antara lain ialah
melakukan imputasi (to impute = to fill in) entri kosong, sehingga
responden dengan entri yang semula kosong tidak perlu dihapus
untuk analisis. Untuk analisis regresi, sebagian ahli Statistika
berpendapat bahwa imputasi hanya diperlukan untuk variabel
independen dan tidak diperlukan untuk variabel dependen, namun
sebagian besar ahli lain tidak sepakat dan berpendapat setiap
variabel dengan entri kosong memerlukan imputasi.

Contoh 1.1
Dalam contoh ini dilakukan perbandingan hasil analisis
regresi terhadap 3 datasets:
- hsb2.dta: Dataset full → Memuat data 200 kasus dengan
entri lengkap.
- hsb2_mar.dta: Memuat data hsb2 dengan sebagian
berupa entri kosong, yang setelah menjalani listwise
deletion, menyisakan dataset cc (complete cases) yang
hanya memuat 145 kasus dengan entri lengkap.
- mvn_imputation.dta: Berasal dari data hsb2_mar yang
telah menjalani persiapan seperlunya, siap untuk menjalani
proses imputasi ganda. Setelah menjalani imputasi
diperoleh dataset mi (multiple imputation).

. use D:\Data\hsb2.dta, clear


(highschool and beyond (200 cases))

3
Bab 1. Pendahuluan

Perintah Stata untuk membuka (use) file hsb2.dta yang


memuat entri lengkap untuk 200 kasus dan membersihkan (clear)
memori dari semua hasil analisis terdahulu (jika ada).

. sum

Perintah sum (summarize) adalah untuk menampilkan


ringkasan nilai-nilai statistik tiap variabel.

Variable | Obs Mean Std. Dev. Min Max


---------+------------------------------------------------
id | 200 100.5 57.87918 1 200
female | 200 .545 .4992205 0 1
race | 200 3.43 1.039472 1 4
ses | 200 2.055 .7242914 1 3
schtyp | 200 1.16 .367526 1 2
---------+------------------------------------------------
prog | 200 2.025 .6904772 1 3
read | 200 52.23 10.25294 28 76
write | 200 52.775 9.478586 31 67
math | 200 52.645 9.368448 33 75
science | 200 51.85 9.900891 26 74
---------+------------------------------------------------
socst | 200 52.405 10.73579 26 71

. regress socst write read female math

Perintah Stata ini adalah untuk meregresikan variabel


dependen socst terhadap variabel independen write, read,
female, dan math.

4
Bab 1. Pendahuluan

Source | SS df MS Number of obs = 200


---------+------------------------------ F( 4, 195) = 44.45
Model | 10938.9795 4 2734.74487 Prob > F = 0.0000
Residual | 11997.2155 195 61.5241822 R-squared = 0.4769
---------+------------------------------ Adj R-squared = 0.4662
Total | 22936.195 199 115.257261 Root MSE = 7.8437

-------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------------
write | .3757491 .0852101 4.41 0.000 .2076975 .5438007
read | .3696825 .0775725 4.77 0.000 .2166938 .5226712
female | -.2340534 1.207995 -0.19 0.847 -2.616465 2.148358
math | .1209005 .0861526 1.40 0.162 -.0490101 .2908111
_cons | 7.029076 3.562453 1.97 0.050 .003192 14.05496
-------------------------------------------------------------------

. estimates store full

Perintah Stata ini adalah untuk menyimpan hasil estimasi


terhadap dataset full yang terdiri atas 200 kasus.

. use D:\Data\hsb2_mar, clear


(highschool and beyond (200 cases))

. sum

Variable | Obs Mean Std. Dev. Min Max


---------+-----------------------------------------------
id | 200 100.5 57.87918 1 200
female | 182 .5549451 .4983428 0 1
race | 200 3.43 1.039472 1 4
ses | 200 2.055 .7242914 1 3
schtyp | 200 1.16 .367526 1 2

5
Bab 1. Pendahuluan

---------+-----------------------------------------------
prog | 182 2.027473 .6927511 1 3
read | 191 52.28796 10.21072 28 76
write | 183 52.95082 9.257773 31 67
math | 185 52.8973 9.360837 33 75
science | 184 51.30978 9.817833 26 74
---------+-----------------------------------------------
socst | 200 52.405 10.73579 26 71

. regress socst write read female math

Source | SS df MS Number of obs = 145


---------+------------------------------ F( 4, 140) = 28.10
Model | 6630.7694 4 1657.69235 Prob > F = 0.0000
Residual | 8259.47888 140 58.9962777 R-squared = 0.4453
---------+------------------------------ Adj R-squared = 0.4295
Total | 14890.2483 144 103.404502 Root MSE = 7.6809

--------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
write | .3212789 .1020247 3.15 0.002 .1195706 .5229871
read | .3047733 .0899709 3.39 0.001 .1268961 .4826505
female | .2233572 1.404163 0.16 0.874 -2.552749 2.999463
math | .1988131 .1016747 1.96 0.053 -.0022031 .3998294
_cons | 9.358279 4.262397 2.20 0.030 .9312916 17.78527
--------------------------------------------------------------------

. estimates store cc
. use D:\Data\mvn_imputation, clear
. mi estimate, post: reg socst write read female math

Multiple-imputation estimates Imputations = 5


Linear regression Number of obs = 200
Average RVI = 0.0820
6
Bab 1. Pendahuluan

Largest FMI = 0.2201


Complete DF = 195
DF adjustment: Small sample DF: min = 59.71
avg = 121.37
max = 181.12
Model F test: Equal FMI F( 4, 163.6) = 38.78
Within VCE type: OLS Prob > F = 0.0000

-------------------------------------------------------------------
socst | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------------
write | .3472116 .0956238 3.63 0.000 .1572004 .5372228
read | .3673822 .0803328 4.57 0.000 .2086775 .5260869
female | .525372 1.375176 0.38 0.704 -2.225667 3.276411
math | .1508523 .0908884 1.66 0.099 -.0290372 .3307417
_cons | 6.59747 3.707945 1.78 0.077 -.7188551 13.9138
-------------------------------------------------------------------

. estimates store mi
. estimates table cc full mi, b se p

Perintah untuk menyajikan tabel perbandingan hasil


estimasi koefisien regresi b, SE-nya, dan nilai p-nya untuk model
cc, full, dan mi.

-------------------------------------------------
Variable | cc full mi
-----------+-------------------------------------
write | .32127885 .3757491 .34721159
| .10202467 .08521005 .09562376
| 0.0020 0.0000 0.0004
read | .30477331 .36968249 .36738221
| .08997086 .07757247 .08033285
| 0.0009 0.0000 0.0000
female | .22335724 -.23405342 .52537204

7
Bab 1. Pendahuluan

| 1.4041631 1.2079946 1.3751758


| 0.8738 0.8466 0.7028
math | .19881314 .12090052 .15085228
| .10167466 .08615264 .09088836
| 0.0525 0.1621 0.0986
_cons | 9.358279 7.0290761 6.5974704
| 4.2623968 3.5624529 3.7079453
| 0.0298 0.0499 0.0768
-------------------------------------------------

legend: b/se/p

8
Bab II. Tipe Kekosongan

BAB II
TIPE KEKOSONGAN
Rubin (1976) mengemukakan teori tentang kekosongan
data, yaitu setiap titik data memiliki peluang tertentu untuk
kosong.

Berdasarkan teori ini, tipe-tipe kekosongan dibedakan atas


MCAR (missing completely at random), MAR (missing at
random), dan MNAR (missing not at random).

MCAR (missing completely at random)


Data kosong tergolong dalam tipe MCAR (missing
completely at random) jika peluang untuk kosong sama pada
setiap titik data, yaitu untuk tiap subjek penelitian pada variabel
tertentu. Kekosongan tidak memiliki asosiasi dengan salah satu
variabel dalam dataset.
Untuk pembahasan selanjutnya mengenai tipe-tipe
kekosongan data akan digunakan contoh data pada tabel 2.2 pada
contoh 2.2.
Misalkan dimiliki Y, matriks n × p yang memuat nilai-nilai
data:
n menyatakan jumlah subjek dan
p menyatakan jumlah variabel;
dan misalkan pula R adalah matriks indikator respons biner
n × p (lihat contoh 2.4);

9
Bab II. Tipe Kekosongan

rij = 1 jika entri terisi dan


rij = 0 jika entri kosong.
i = 1, 2, . . . , n dan j = 1, 2, . . . , p

Data terisi secara kolektif dinyatakan dengan Yobs dan data


kosong secara kolektif dinyatakan dengan Ymiss . Secara bersama,
Y = (Yobs ,Ymiss ) menyatakan keseluruhan nilai data, maka:

Relasi distribusi R terhadap Y = (Yobs ,Ymiss ) dinyatakan


sebagai model data kosong (missing data model) (van Buuren,
2012).

Misalkan ψ adalah parameter model data kosong, maka


model tersebut dapat dinyatakan sebagai P ( R | Yobs ,Ymiss ,ψ ) .

Jika data MCAR, maka:

P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0 |ψ ) (2.1)

MAR (missing at random)


Data kosong tergolong dalam tipe MAR (missing at
random) jika peluang untuk kosong sama pada tiap anggota dalam
suatu kelompok tertentu, tetapi tidak sama antar anggota
kelompok berbeda.

Kekosongan di sini memiliki asosiasi dengan satu atau


lebih variabel dalam dataset, yaitu variabel yang menghasilkan
pembagian kelompok-kelompok tersebut. Sebagai contoh, pada
pengumpulan data dengan kuesioner, pria umumnya memiliki

10
Bab II. Tipe Kekosongan

kecenderungan yang lebih besar untuk tidak menjawab


dibandingkan dengan wanita (asosiasi dengan variabel gender).

Dengan pemahaman yang sama terhadap matriks indikator


R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan
parameter model data kosong ψ, jika data MAR maka:

P ( R = 0| Yobs ,Ymiss ,ψ ) = P ( R = 0| Yobs ,ψ ) (2.2)

MNAR (missing not at random)


Pada data kosong tipe MNAR (missing not at random),
asumsi MCAR maupun MAR tidak berlaku dan kekosongan
tidak terjadi secara acak.

Dengan pemahaman yang sama terhadap matriks indikator


R, data terisi kolektif Yobs , data kosong kolektif Ymiss , dan
parameter model data kosong ψ, jika data MNAR maka:

P ( R = 0| Yobs ,Ymiss ,ψ ) (2.3)

tak dapat disederhanakan lagi.

Contoh 2.1:
Dataset pada tabel 2.1 memuat data sejumlah calon
karyawan (dan sebagian yang lolos seleksi selanjutnya menjadi
karyawan). Variabelnya yaitu nilai tes IQ dan kepuasan psikologis
(psychological well-being) pada saat seleksi. Mereka yang nilai
IQ lebih daripada 98 diterima menjadi karyawan dan setelah 6
bulan bekerja dinilai kinerjanya (job performance).

11
Bab II. Tipe Kekosongan

Kekosongan data pada psychological well-being


disebabkan tak lengkapnya pengisian kuesioner pada saat seleksi
yangterjadi secara acak, tak memiliki asosiasi dengan nilai IQ,
sehingga kekosongan data ini psychological well-being tergolong
dalam MCAR. Sebaliknya, data kosong untuk job performance
terjadi karena yang bersangkutan tidak diterima menjadi
karyawan karena nilai IQ-nya rendah, sehingga kekosongannya
terkait dengan nilai IQ dan kekosongan data job performance ini
tergolong dalam MAR.

Tabel 2.1 Dataset Seleksi Karyawan


Psychological
IQ Job performance
well-being
78 13 −
84 9 −
84 10 −
85 10 −
87 − −
91 3 −
92 12 −
94 3 −
94 13 −
96 − −
99 6 7
105 12 10
105 14 11
106 10 15
108 − 10
112 10 10
113 14 12
115 14 14
118 12 16
134 11 12

12
Bab II. Tipe Kekosongan

(Enders, 2010)

Contoh 2.2:
Contoh berikutnya adalah data mengenai kelompok
responden yang sama, diperlihatkan pada tabel 2.2. Data kinerja
(job performance) terdiri atas yang lengkap (complete; diandaikan
seluruh calon diterima), MCAR (misalnya sebagian karyawan
mengundurkan diri, pengunduran diri tak terkait nilai IQ), MAR
(calon karyawan yang diterima hanya yang nilai IQ-nya di atas
90), dan MNAR (misalnya karyawan yang menunjukkan kinerja
buruk di bawah 9 telah dikeluarkan, sehingga kekosongan terkait
dengan nilai kinerja itu sendiri).

Tabel 2.2 Rating Kinerja dengan Nilai Kosong MCAR,


MAR, dan MNAR

Job performance ratings


IQ Complete MCAR MAR MNAR
78 9 − − 9
84 13 13 − 13
84 10 − − 10
85 8 8 − −
87 7 7 − −
91 7 7 7 −
92 9 9 9 9
94 9 9 9 9
94 11 11 11 11
96 7 − 7 −
99 7 7 7 −
105 10 10 10 10
105 11 11 11 11
106 15 15 15 15
108 10 10 10 10
13
Bab II. Tipe Kekosongan

112 10 − 10 10
113 12 12 12 12
115 14 14 14 14
118 16 16 16 16
134 12 − 12 12

(Enders, 2010)

Contoh 2.3:
Lihat data pada tabel 2.2, beberapa nilai statistik untuk
dataset lengkap, MCAR, MAR, dan MNAR diperlihatkan pada
tabel 2.3.

Tabel 2.3 Beberapa Nilai Statistik Dataset Lengkap, MCAR,


MAR, dan MNAR dari Tabel 2.2

Data n Rerata Variansi SD


Lengkap 20 10.35 7.19 2.68
MCAR 15 10.60 8.54 2.92
MAR 15 10.67 7.81 2.79
MNAR 15 11.40 4.97 2.23

Perbandingan karakteristik estimator hasil analisis dataset


yang memiliki data kosong dengan listwise deletion (menghapus
data seluruh responden yang memiliki entri kosong; complete
cases analysis) dan imputasi ganda diperlihatkan pada tabel 2.4
berikut.

14
Bab II. Tipe Kekosongan

Tabel 2.4 Karakteristik estimator menurut tipe kekosongan


dan metode solusinya

Tipe kekosongan
No Metode MCAR MAR MNAR
1 Complete cases Tak bias Bias Bias
analysis
2 Imputasi ganda Tak bias Tak bias Bias*)

*) Tak bias jika peneliti mampu menginklusikan model mekanisme


kekosongan MNAR dalam metode imputasi

Contoh 2.4:
Adakalanya diperlukan indikator untuk menunjukkan
keberadaan entri kosong. Contoh untuk itu diperlihatkan pada
tabel 2.5, yang menyajikan contoh indikator entri kosong untuk
kinerja MAR. Indikator bernilai 0 jika entri kosong dan sama
dengan 1 jika entri terisi.

Tabel 2.5 Indikator Data Kosong untuk


Rating Kinerja MAR

Job performance
Complete MAR Indicator
9 − 0
13 − 0
10 − 0
8 − 0
7 − 0
7 7 1
9 9 1
9 9 1
11 11 1
7 7 1

15
Bab II. Tipe Kekosongan

7 7 1
10 10 1
11 11 1
15 15 1
10 10 1
10 10 1
12 12 1
14 14 1
16 16 1
12 12 1
(Enders, 2010)

Contoh 2.5 (Uji statistik):


Uji statistik dapat dilakukan untuk menguji apakah
kekosongan data yang dimiliki MCAR atau MAR.

Misalkan untuk variabel IQ dan MCAR pada tabel 2.2,


subjek dibagi menjadi 2 kategori, yaitu yang entri data MCAR-
nya kosong (R = 0) dan yang entri data MCAR-nya terisi (R = 1),
lalu dilakukan perbandingan rerata nilai IQ antara kedua kategori
tersebut dengan uji t.
Jika rerata IQ antara kedua kategori tidak berbeda, data
tersebut adalah MCAR, sebaliknya jika rerata IQ antara kedua
kategori berbeda, data itu adalah MAR.

16
Bab II. Tipe Kekosongan

. use “D:\Data\table 2.2”, clear


. list in 1/10
+--------------------+
| id iq jp ind |
|--------------------|
1. | 1 78 . 0 |
2. | 2 84 13 1 |
3. | 3 84 . 0 |
4. | 4 85 8 1 |
5. | 5 87 7 1 |
|--------------------|
6. | 6 91 7 1 |
7. | 7 92 9 1 |
8. | 8 94 9 1 |
9. | 9 94 11 1 |
10. | 11 96 . 0 |
+--------------------+

. ttest iq, by(ind)

Two-sample t test with equal variances


-----------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-------------------------------------------------------
0 | 5 100.8 10.13114 22.65392 72.67145 128.9286
1 | 15 99.73333 2.874298 11.13211 93.56858 105.8981
---------+-------------------------------------------------------
combined | 20 100 3.158947 14.12724 93.38825 106.6118
---------+-------------------------------------------------------
diff | 1.066667 7.490966 -14.67127 16.8046
-----------------------------------------------------------------
diff = mean(0) - mean(1) t = 0.1424

17
Bab II. Tipe Kekosongan

Ho: diff = 0 degrees of freedom = 18


Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.5558 Pr(|T| > |t|) = 0.8884 Pr(T > t) = 0.4442

Tampak bahwa antara rerata IQ kedua kategori tidak


ditemukan perbedaan yang bermakna (p = 0.89), maka data
tersebut adalah MCAR.

Uji statistik tidak dapat dilakukan untuk MNAR, karena


yang harus diperbandingkan adalah rerata kinerja MNAR terisi
dengan rerata kinerja MNAR kosong, sedangkan data untuk rerata
kinerja MNAR itu tidak ada (kosong).

18
Bab III. Solusi Tradisional: Delesi Data

BAB III
SOLUSI TRADISIONAL:
DELESI DATA
Listwise Deletion
Setiap subjek (responden) yang entri datanya tidak lengkap
dieliminasi dari dataset, sehingga analisis data hanya akan
dilakukan terhadap himpunan kasus yang lengkap entri datanya.

Dalam pembahasan beberapa metode tradisional untuk


menangani kekosongan data akan digunakan dataset pada tabel
3.1 dan diagram tebarnya pada gambar 3.1.

Tabel 3.1 Dataset Seleksi Karyawan

Complete data Missing data


Job Job
IQ performance performance
78 9 −
84 13 −
84 10 −
85 8 −
87 7 −
91 7 −
92 9 −
94 9 −
94 11 −
96 7 −
99 7 7
105 10 10
105 11 11

19
Bab III. Solusi Tradisional: Delesi Data

106 15 15
108 10 10
112 10 10
113 12 12
115 14 14
118 16 16
134 12 12

(Enders, 2010)

Gambar 3.1 Diagram tebar data lengkap IQ dan


skor kinerja pada Tabel 3.1

Diagram tebar listwise deletion terhadap dataset tabel 3.1


diperlihatkan pada gambar 3.2.

20
Bab III. Solusi Tradisional: Delesi Data

Gambar 3.2 Diagram tebar listwise deletion terhadap


dataset tabel 3.1

Beberapa nilai statistik dataset lengkap dan listwise


deletion tabel 3.1 diperlihatkan pada tabel 3.2 berikut.

Tabel 3.2 Beberapa Nilai Statistik Dataset Lengkap Tabel 5


dan Listwise Deletion
Deletion-nya

Data n Rerata Variansi SD


Lengkap 20 10.35 7.19 2.68
LD 10 11.70 7.34 2.71

Dengan asumsi data MCAR MCAR, listwise deletion akan


menghasilkan estimasi rerata, variansi, dan koefisien regresi yang
tak-bias.

Jika data bukan MCAR, listwise deletion dapat


menimbulkan bias yang parah pada estimasi rerata, koefisien
regresi, dan korelasi.

21
Bab III. Solusi Tradisional: Delesi Data

Pairwise Deletion
Metode ini terutama digunakan pada estimasi statistik
untuk pasangan variabel, misalnya nilai korelasi dan kovariansi.

Untuk perhitungan korelasi tiap pasangan variabel,


digunakan tiap nilai pasangan subjek yang utuh, sehingga setiap
nilai pada matriks korelasi yang diperoleh mungkin berasal dari
himpunan bagian (subset) data yang berbeda, karena pada
perhitungan tiap korelasi antar dua variabel, pasangan subjek
yang dieliminasi karena salah satu atau kedua entrinya kosong
mungkin berbeda.

Metode ini valid jika asumsi MCAR benar. Sepintas lalu,


metode tampak lebih menarik dibandingkan dengan listwise
deletion, karena mengurangi jumlah data yang dihapus, namun
jika diperlukan untuk mem-pooled sejumlah analisis yang
dilakukan akan timbul masalah karena ukuran sampel yang
berbeda untuk tiap analisis yang dilakukan. Dalam praktik,
pairwise deletion umumnya dihindari dan lebih jarang digunakan
dibandingkan dengan listwise deletion.

22
Bab IV. Solusi Tradisional: Imputasi Tunggal

BAB IV
SOLUSI TRADISIONAL:
IMPUTASI TUNGGAL
Imputasi Rerata (mean imputation)

Pada variabel yang memiliki entri kosong, dihitung rerata


untuk semua entri terisi, lalu nilai rerata ini diimputasikan
(diisikan) pada setiap entri kosong pada variabel tersebut.
Perintah Stata untuk data terisi pada tabel 3.1:
. use “D:\Data\table 3.1”, clear
. list in 1/10

+----------+
| iq jp |
|----------|
1. | 99 7 |
2. | 105 10 |
3. | 105 11 |
4. | 106 15 |
5. | 108 10 |
|----------|
6. | 112 10 |
7. | 113 12 |
8. | 115 14 |
9. | 118 16 |
10. | 134 12 |
+----------+

23
Bab IV. Solusi Tradisional: Imputasi Tunggal

. mean jp

Mean estimation Number of obs = 10

-------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
-----+-------------------------------------------
-------------------------------------------
JP | 11.7 .8569973 9.761337 13.63866
-------------------------------------------------

Nilai rerata 11.7 diimputasikan ke setiap entri kosong untuk


JP. Diagram tebar hasil imputasi rerata terhadap dataset tabel 3.1
diperlihatkan pada gambar 4.1 berikut.

Gambar 4.1 Diagram tebar hasil imputasi rerata terhadap


dataset tabel 3.1

Jika asumsi data MCAR berlaku, dengan imputasi rerata


akan diperoleh estimasi rerata yang valid, namun bias pada
hampir semua estimasi parameter lainnya.

24
Bab IV. Solusi Tradisional: Imputasi Tunggal

Jika data bukan MCAR, estimasi rerata bersifat bias. Secara


umum, estimasi variansi yang diperoleh selalu lebih kecil
daripada seharusnya.

Imputasi Regresi

Variabel (-variabel) yang memiliki entri kosong masing-


masing diregresikan terhadap seluruh variabel yang entrinya
lengkap terisi. Persamaan regresi yang diperoleh digunakan untuk
memprediksi nilai-nilai pada entri kosong dan diimputasikan ke
situ.
Perintah Stata:
. regress jp iq

Source | SS df MS Number of obs = 10


---------+--------------------------- F( 1, 8) = 1.94
Model | 12.9004725 1 12.9004725 Prob > F = 0.2012
Residual | 53.1995275 8 6.64994093 R-squared = 0.1952
---------+--------------------------- Adj R-squared = 0.0946
Total | 66.1 9 7.34444444 Root MSE = 2.5787

-----------------------------------------------------------------
jp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+-------------------------------------------------------
iq | .1234495 .088633 1.39 0.201 -.0809385 .3278375
_cons | -2.064619 9.916166 -0.21 0.840 -24.93134 20.8021
-----------------------------------------------------------------

Diperoleh persamaan regresi:


JP = −2.065 + 0.123 IQ

25
Bab IV. Solusi Tradisional: Imputasi Tunggal

Selanjutnya persamaan ini digunakan untuk memprediksi entri-


entri kosong JP (kolom ke-3 tabel 4.1).

Misalnya: IQ = 78 JP = −2.065 + 0.123 (78) = 7.53


IQ = 84 JP = −2.065 + 0.123 (84) = 8.27
dan seterusnya.

Tabel 4.1 Imputasi Regresi Data Seleksi Karyawan

Job Predicted Random Stochastic


IQ performance score residual imputation
78 − 7.53 −2.47 5.06
84 − 8.27 −0.75 7.52
84 − 8.27 2.18 10.45
85 − 8.39 2.22 10.61
87 − 8.64 −3.14 5.50
91 − 9.13 2.44 11.57
92 − 9.25 0.44 9.69
94 − 9.50 −3.43 6.07
94 − 9.50 −2.97 6.53
96 − 9.74 6.49 16.23
99 7 − − −
105 10 − − −
105 11 − − −
106 15 − − −
108 10 − − −
112 10 − − −
113 12 − − −
115 14 − − −
118 16 − − −
134 12 − − −

26
Bab IV. Solusi Tradisional: Imputasi Tunggal

Catatan. Persamaan regresi untuk menghasilkan nilai prediksi:

( )
JPi = -2.025 + 0.123 IQi (Enders, 2010)

Perhatikan kembali bahwa variabel (-variabel) yang


memiliki entri kosong masing-masing harus diregresikan terhadap
seluruh variabel yang entrinya terisi lengkap. Pada tabel 4.2
diperlihatkan contoh dataset dengan 3 variabel Y1, Y2, dan Y3,
serta model regresi yang harus digunakan, sesuai dengan variabel
mana yang memiliki entri kosong.

Tabel 4.2 Pola Data Kosong dan Persamaan yang digunakan


untuk Imputasi Regresi

Missing
Regression equations
variables
Y1 ŷ = B0 + B1 y2 + B2 y3
1
Y2 ŷ = B0 + B1 y2 + B2 y3
2
Y3 ŷ3 = B0 + B1 y1 + B2 y2
Y1 and Y2 ŷ = B0 + B1 y3 ŷ = B0 + B1 y3
1 2
Y1 and Y3 ŷ = B0 + B1 y2
1
ŷ3 = B0 + B1 y2
Y2 and Y3 ŷ = B0 + B1 y1
2
ŷ3 = B0 + B1 y1

(Enders, 2010)

Diagram tebar hasil imputasi regresi terhadap dataset tabel


3.1 diperlihatkan pada gambar 4.2.

27
Bab IV. Solusi Tradisional: Imputasi Tunggal

Gambar 4.2 Diagram tebar imputasi regresi data IQ


dan kinerja dari tabel 3.1

Imputasi Regresi Stokastik


Pada imputasi regresi stokastik, nilai prediksi persamaan
regresi tidak langsung diimputasikan pada entri kosong dataset,
melainkan ditambahkan dulu dengan estimasi residualnya.
Residual diperoleh dari simulasi Monte Carlo dengan asumsi
residual berdistribusi normal dengan rerata nol dan variansi
diestimasikan oleh variansi residual model regresi.

Misalkan estimasi variansi residual model regresi ada


adalah
6.6499 (lihat nilai MS Residual pada hasil perintah regress di
atas), sehingga SD adalah 2.5788
2.5788, maka perintah Stata adalah:

. clear
. set obs 10
obs was 0, now 10

28
Bab IV. Solusi Tradisional: Imputasi Tunggal

. set seed 12345

Nilai seed boleh sembarang, tetapi perlu dicatat untuk


memperoleh hasil yang sama jika analisis perlu diulangi.

. generate z = rnormal(0, 2.5788)

Ini adalah perintah untuk menghasilkan 10 nilai acak (set


obs 10) dari distribusi normal (rnormal) dengan rerata 0 dan
SD 2.5788.

. list
+-----------+
| z |
|-----------|
1. | -2.470705 |
2. | -.749728 |
3. | 2.179607 |
4. | 2.22218 |
5. | -3.143945 |
|-----------|
6. | 2.438858 |
7. | .4441902 |
8. | -3.429672 |
9. | -2.973124 |
10. | 6.489448 |
+-----------+
Diagram tebar hasil imputasi regresi stokastik terhadap
dataset tabel 3.1 diperlihatkan pada gambar 4.3.

29
Bab IV. Solusi Tradisional: Imputasi Tunggal

Gambar 4.3 Diagram tebar imputasi regresi stokastik data IQ


dan kinerja dataset tabel 3.1

Last Observation Carried Forward


Metode ini khusus untuk digunakan pada desain
longitudinal. Contoh penggunaannya diperlihatkan pada tabel 4.3.

Tabel 4.3 Dataset Longitudinal Diimputasikan dengan Last


Observation Carried Forward
Observed data Last observation carried forward
ID Wave1 Wave2 Wave3 Wave4 Wave1 Wave2 Wave3 Wave4
1 50 53 − − 50 53 53 53
2 47 46 49 51 47 46 49 51
3 43 − − − 43 43 43 43
4 55 − 56 59 55 55 56 59
5 45 45 47 46 45 45 47 46

(Enders, 2010)

30
Bab V. Imputasi Ganda Univariat

BAB V
IMPUTASI GANDA UNIVARIAT
Pengertian Imputasi Ganda

Sejumlah ahli Statistika antara lain Rubin berpendapat


imputasi satu nilai (imputasi tunggal) secara umum tidak benar,
sehingga mereka berusaha mengembangkan metodologi untuk
imputasi ganda (van Buuren; 2012). Pengembangan teknologi
imputasi ganda yang melibatkan dataset besar sejak 1990-an
terutama dimungkinkan dengan kemajuan di bidang teknik
komputer.

Dengan imputasi ganda, yang diutamakan bukanlah nilai


imputasi tunggal untuk mengisi tiap entri kosong, melainkan
model yang dipilih untuk memperoleh beberapa dataset lengkap
yang telah terimputasi serta hasil akhir berupa estimasi yang
valid. Walaupun imputasi ganda secara teoretis telah dibahas oleh
Rubin (1976) sejak empat dekade yang lampau, kemampuan
komputer yang ada pada masa itu tidak memadai untuk
mengimplementasikannya. Imputasi ganda praktis baru tercakup
dalam beberapa program Statistika utama dalam satu dekade
terakhir.

Jika persentase kekosongan sangat kecil, imputasi ganda


tak dianjurkan, karena listwise deletion yang lebih sederhana akan
memberi hasil yang praktis hampir sama, sedangkan imputasi
ganda relatif rumit serta memerlukan waktu yang lebih lama.
Sebaliknya jika persentase kekosongan sangat besar, perlu diingat
bahwa hasil akhir akan lebih ditentukan oleh model imputasi

31
Bab V. Imputasi Ganda Univariat

daripada data terisi. Dengan demikian, imputasi ganda terutama


bermanfaat jika persentase kekosongan tidak terlalu kecil ataupun
terlalu besar.

Imputasi ganda univariat dilakukan jika hanya ada 1


variabel dalam dataset yang memiliki entri kosong. Walaupun
dalam praktik keadaan ini sangat jarang ditemukan, pemahaman
mengenai imputasi ganda univariat merupakan modal awal yang
penting untuk mempelajari imputasi ganda multivariat.

Tahap-tahap Imputasi Ganda


Imputasi ganda (multiple imputation) adalah teknik
statistik untuk menganalisis dataset yang tak lengkap yang
memiliki sejumlah entri kosong. Aplikasi teknik ini mencakup 3
tahap, yaitu imputasi, analisis, dan pooling.
a. Imputasi:
Pada tahap imputasi, dilakukan m kali pengisian (to impute)
entri kosong pada dataset, sehingga diperoleh m dataset
yang lengkap.
b. Analisis:
Pada tahap kedua dilakukan analisis terhadap masing-
masing dari m dataset tersebut, yang akan menghasilkan m
himpunan nilai-nilai statistik.
c. Pooling:
Tahap ketiga merupakan pengkombinasian terhadap m
himpunan statistik yang diperoleh data tahap kedua untuk
menghasilkan 1 himpunan hasil inferensi.

32
Bab V. Imputasi Ganda Univariat

Secara skematis, tahap-tahap


tahap imputasi ganda diperlihatkan
pada gambar 5.1 untuk m = 3.

Gambar 5.1 Imputasi ganda untuk m = 3 (van Buuren, 2012)

Literatur awal menyarankan penggunaan nilai m yang kecil,


umumnya dalam kisaran 33−5, namun literatur terbaru
menganjurkan nilai m sekurang
sekurang-kurangnya sama dengan
persentase subjek (responden) yang tak lengkap ddatanya, tetapi
tidak melebihi 100 (Molenberghs et al, 2015).

Analisis terhadap dataset lengkap (terimputasi) ke-k; k = 1,


2, . . . , m;; akan menghasilkan estimasi terhadap parameter β,
yaitu βˆ ( ) dan (estimasi) variansinya V ( ) . “Aturan Rubin”
k k

menyatakan estimasi gabungan parameter sebagai rerata m


estimasi yang terpisah:

1 m (k )
β̂ MI = ∑ βˆ (5.1)
m 1

33
Bab V. Imputasi Ganda Univariat

  1
dan: V MI = V + 1+ (5.2)
 B
 m 
(k )
mV
dengan V =∑ (5.2a)
1 m

dan B= ∑
m ( ( k ) MI
βˆ − βˆ ) (5.2b)
1 m −1

Pelaksanaan Imputasi Ganda Univariat dengan


Stata

Sebelum pelaksanaan imputasi ganda, dicobakan dahulu


meregresikan variabel imputasi yang memiliki entri kosong pada
himpunan variabel regular, yaitu variabel yang terisi lengkap,
yang akan digunakan untuk memprediksi nilai entri kosong pada
variabel imputasi.

. regtype impvar regvars

Opsi regtype adalah:


- regress jika variabel imputasi berskala kontinu.
- logit jika variabel imputasi biner (dikotomi).
- ologit jika variabel imputasi kategorik ordinal.
- mlogit jika variabel imputasi kategorik nominal.

34
Bab V. Imputasi Ganda Univariat

- poisson jika variabel imputasi data cacah dengan


ekidistensi.
- nbreg jika variabel imputasi data cacah dengan overdistensi.

Jika tidak ditemukan hambatan, tahap-tahap imputasi ganda


selanjutnya adalah:
1. Mempersiapkan file dataset untuk diimputasi.
. mi set datastyle
Perintah mi set adalah pernyataan pendeklarasian dataset
sebagai dataset mi, yaitu supaya dataset dapat menerima
perintah-perintah mi dan menjalani proses imputasi ganda.
style adalah tipe basis data yang dipilih.
Opsi untuk style adalah: flong, mlong, wide.
. mi register imputed impvar
Perintah ini merupakan penspesifikasian impvar, yaitu
variabel yang akan diimputasi.
. mi register regular regvars
Pernyataan ini merupakan penspesifikasian regvars, yaitu
variabel-variabel yang tidak akan diimputasi.
2. Pemeriksaan dataset mi.
. mi describe
Perintah untuk mendeskripsikan data yang dalam file mi.
. mi misstable sum
Perintah untuk mentabulasikan nilai-nilai kosong.
3. Pelaksanaan imputasi.

35
Bab V. Imputasi Ganda Univariat

Metode regresi yang digunakan pada imputasi ganda


tergantung pada tipe data variabel dependennya. Beberapa
metode regresi yang digunakan dalam Stata untuk imputasi
ganda sesuai dengan tipe data variabel dependen yaitu:
- Data kontinu: Regresi linear dengan perintah mi
impute regress.
- Data kontinu dengan rentang nilai terbatas: Regresi
dengan perintah mi impute pmm (predictive mean
matching). Regresi pmm hanya dapat dilakukan dalam
konteks imputasi ganda.
- Data biner (dikotomi): Regresi logistik dengan perintah
mi impute logit.
- Data kategorik ordinal: Regresi logistik ordinal dengan
perintah mi impute ologit.
- Data kategorik nominal: Regresi logistik multinomial
dengan perintah mi impute mlogit.
- Data cacah dengan ekidistensi: Regresi Poisson dengan
perintah mi impute poisson.
- Data cacah dengan overdispersi: Regresi binomial
negatif dengan perintah mi impute nbreg.

Secara umum, sintaks untuk imputasi ganda univariat


adalah:
. mi impute regtype impvar regvars, add(M)
[rseed(#)]
add(M) menyatakan jumlah imputasi yang diinginkan.
Nilai M yang dianjurkan dalam Stata sekurang-kurangnya
adalah 20.
36
Bab V. Imputasi Ganda Univariat

rseed(#) diperlukan supaya jika hendak dilakukan


pengulangan analisis, akan diperoleh hasil yang sama.
4. Pengestimasian parameter.
. mi estimate: regtype depvar indepvars
Perhatikan bahwa regtype di sini ditentukan oleh skala
variabel dependen, regtype belum tentu sama dengan
untuk variabel imputasi di atas.

Contoh 5.1:

File dataset yang akan digunakan pada contoh ini adalah


mheart0.dta.

. use D:\Data\mheart0, clear


(Fictional heart attack data; bmi missing)

Perintah untuk membuka file mheart0.dta.

. sum

Variable | Obs Mean Std. Dev. Min Max


----------+-------------------------------------------------
attack | 154 .4480519 .4989166 0 1
smokes | 154 .4155844 .4944304 0 1
age | 154 56.48829 11.73051 20.73613 87.14446
bmi | 132 25.24136 4.027137 17.22643 38.24214
female | 154 .2467532 .4325285 0 1
----------+-------------------------------------------------
hsgrad | 154 .7532468 .4325285 0 1

Variabel adalah:
attack : Outcome (heart attack)
smokes : Current smoker

37
Bab V. Imputasi Ganda Univariat

age : Age, in years


bmi : Body Mass Index, kg/m2
female : Gender
hsgrad : High school graduate

Tampak bahwa semua variabel memiliki 154 entri, kecuali


bmi yang hanya memiliki 132 entri. Berikut diperlihatkan regresi
logistik attack terhadap smokes, age, bmi, female, dan
hsgrad. Tanpa imputasi ganda, perintah logit akan dikerjakan
dengan listwise deletion, yaitu hanya mengikutsertakan kasus
dengan entri terisi lengkap sebanyak 132.

. logit attack smokes age bmi female hsgrad

Iteration 0: log likelihood = -91.359017


Iteration 1: log likelihood = -79.374749
Iteration 2: log likelihood = -79.342218
Iteration 3: log likelihood = -79.34221
Logistic regression Number of obs = 132
LR chi2(5) = 24.03
Prob > chi2 = 0.0002
Log likelihood = -79.34221 Pseudo R2 = 0.1315
------------------------------------------------------------------
attack | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+----------------------------------------------------------
smokes | 1.544053 .3998329 3.86 0.000 .7603945 2.327711
age | .026112 .017042 1.53 0.125 -.0072898 .0595137
bmi .1129938 .0500061 2.26 0.024 .0149837 .211004
female | .2255301 .4527558 0.50 0.618 -.6618549 1.112915
hsgrad | .4048251 .4446019 0.91 0.363 -.4665786 1.276229
_cons |-5.408398 1.810603 -2.99 0.003 -8.957115 -1.85968
-------------------------------------------------------------------

38
Bab V. Imputasi Ganda Univariat

Selanjutnya akan dilakukan imputasi ganda variabel bmi,


tetapi terlebih dahulu akan dicoba meregresikan bmi terhadap
himpunan variabel regularnya.

. regress bmi attack smokes age female hsgrad

Source | SS df MS Number of obs = 132


---------+------------------------------ F( 5, 126) = 1.24
Model | 99.5998228 5 19.9199646 Prob > F = 0.2946
Residual | 2024.93667 126 16.070926 R-squared = 0.0469
---------+------------------------------ Adj R-squared = 0.0091
Total | 2124.5365 131 16.2178358 Root MSE = 4.0089

------------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
attack | 1.71356 .7515229 2.28 0.024 .2263179 3.200801
smokes | -.5153181 .761685 -0.68 0.500 -2.02267 .9920341
age | -.033553 .0305745 -1.10 0.275 -.0940591 .026953
female | -.3072767 .8074763 -0.38 0.704 -1.905249 1.290695
hsgrad | -.4674308 .8112327 -0.58 0.566 -2.072836 1.137975
_cons | 26.96559 1.884309 14.31 0.000 23.2366 30.69458
------------------------------------------------------------------

Tampak bahwa pada regresi variabel imputasi bmi


terhadap seluruh variabel regular tidak ditemukan sesuatu
hambatan.

. mi set flong
. mi register imputed bmi
(22 m=0 obs. now marked as incomplete)

. mi register regular attack smokes age female hsgrad


. mi describe

39
Bab V. Imputasi Ganda Univariat

Style: mlong
last mi update 05aug2015 07:45:31, 14 seconds ago
Obs.: complete 132
incomplete 22 (M = 0 imputations)
---------------------
total 154

Vars.: imputed: 1; bmi(22)

passive: 0

regular: 5; attack smokes age female hsgrad

system: 3; _mi_m _mi_id _mi_miss

(there are no unregistered variables)

. mi misstable sum
Obs<.
+---------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+----------------------+---------------------------
bmi | 22 132 | 132 17.22643 38.24214
------------------------------------------------------------

. mi impute pmm bmi attack smokes age female


hsgrad, add(50) rseed(1500)

Univariate imputation Imputations = 50


Predictive mean matching added = 50
Imputed: m=1 through m=50 updated = 0

Nearest neighbors = 1

--------------------------------------------------------
| Observations per m
|----------------------------------------------
Variable | Complete Incomplete Imputed | Total
---------+-----------------------------------+----------

40
Bab V. Imputasi Ganda Univariat

bmi | 132 22 22 | 154


--------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)

Note: Predictive mean matching uses the default one


nearest neighbor to impute bmi. This default is
arbitrary and may perform poorly depending on your
data. You should choose the number of neighbors
appropriate for your data and specify it in option
knn().

Khusus untuk perintah mi impute pmm sesudah add(M) dapat


ditambahkan opsi knn(#), yang menspesifikasikan # observasi
terdekat (nearest neighbors) sebagai sumber pengambilan nilai
imputasi. Nilai default adalah knn(1).

. mi estimate: logit attack smokes age bmi female


hsgrad

Multiple-imputation estimates Imputations = 50


Logistic regression Number of obs = 154
Average RVI = 0.0295
Largest FMI = 0.1252
DF adjustment: Large sample DF: min = 3155.41
avg = 565967.10
max = 1418245.09
Model F test: Equal FMI F( 5,218097.0) = 3.77
Within VCE type: OIM Prob > F = 0.0020

------------------------------------------------------------------
attack | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------
smokes | 1.21886 .3614422 3.37 0.001 .5104437 1.927276
age | .0358003 .015487 2.31 0.021 .0054463 .0661542
bmi | .1199313 .049222 2.44 0.015 .0234209 .2164418
female | -.1124488 .4190367 -0.27 0.788 -.933747 .7088494

41
Bab V. Imputasi Ganda Univariat

hsgrad | .1668407 .405365 0.41 0.681 -.6276607 .9613422


_cons | -5.871377 1.707841 -3.44 0.001 -9.219208 -2.523546
------------------------------------------------------------------

Tabel 5.1 Perbandingan nilai-nilai estimasi model cc dan mi


untuk data mheart0.dta

Model
Variabel cc mi
1.544 1.219
smokes 0.400 0.361
0.000 0.001
0.026 0.036
age 0.017 0.015
0.125 0.021
0.113 0.120
bmi 0.050 0.049
0.024 0.015
0.226 −0.112
female 0.453 0.419
0.618 0.788
0.405 0.167
hsgrad 0.445 0.405
0.363 0.681
−5.408 −5.871
konstante 1.811 1.708
0.003 0.001

Nilai estimasi: b, SE, dan nilai-p

Tampak bahwa sebagian besar hasil untuk kedua model


tidak banyak berbeda, kecuali untuk variabel usia (age) yang tak
bermakna pada model cc menjadi bermakna pada model mi.

42
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

BAB VI
IMPUTASI GANDA MULTIVARIAT:
MODEL NORMAL MULTIVARIAT

Imputasi Ganda dengan Model Normal


Multivariat
Jika variabel yang diimputasi lebih daripada satu,
prosedurnya adalah imputasi ganda multivariat. Dikenal dua
prosedur utama dalam imputasi ganda multivariat, yaitu imputasi
ganda dengan model normal multivariat (mi impute mvn) dan
imputasi ganda menggunakan persamaan berantai (mi impute
chained).

Dalam imputasi ganda dengan model normal multivariat


diasumsikan bahwa himpunan seluruh variabel (imputasi dan
regular) berdistribusi (atau dapat dianggap berdistribusi) bersama
normal multivariat. Dalam kenyataannya mungkin didapatkan
satu atau beberapa variabel biner, namun model normal tetap
digunakan dan hasil akhirnya pun tidak terlalu menyimpang
daripada hasil imputasi ganda menggunakan persamaan berantai.

Sintaks untuk model normal multivariat adalah:


. mi impute mvn impvars = regvars, add(M)

Langkah-langkah di sini terdiri atas pembentukan file mi,


imputasi data kosong, dan pengestimasian parameter.

43
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

Pembentukan file mi
Seperti halnya pada imputasi ganda univariat, pembentukan
file mi dilakukan dengan pendeklarasian file sebagai dataset mi,
dilanjutkan dengan me-register variabel-variabel imputasi dan
variabel regular.

Contoh 6.1:
Sebagai ilustrasi, diberikan contoh imputasi ganda dengan
menggunakan program statistik komputer Stata 13. File yang
digunakan adalah chapter13_missing.dta (Acock, 2014).

File: chapter13_missing.dta
. sysuse chapter13_missing.dta
(NLS Women 14-26 in 1968)

Tabel 6.1. Variabel-variabel dalam contoh dataset

Variabel Keterangan
ln_wagem Logaritma naturalis gaji
gradem Pendidikan tertinggi yang diselesaikan
agem Usia subjek penelitian
ttl_expm Durasi pengalaman kerja (dalam tahun)
tenurem Durasi di pekerjaan sekarang (dalam tahun
not_smsa Apakah subjek berasal dari area non-SMSA
south Apakah subjek berasal dari wilayah Selatan AS
blackm Apakah subjek tergolong kulit berwarna

Catatan: Variabel yang namanya diakhiri dengan huruf “m”


adalah variabel yang memiliki entri kosong (missing
values).

44
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

. list not_smsa south gradem agem ttl_expm


ln_wagem blackm tenurem in 25/30

+-------------------------------------------------------------+
| not_smsa south gradem agem ttl_expm ln_wagem blackm tenurem |
|-------------------------------------------------------------|
25. | 0 0 12 28 4.923077 1.677717 . 4 |
26. | 0 0 12 19 4.5 1.321042 . 1.416667 |
27. | 0 0 15 27 3.461538 2.132606 . 1.5 |
28. | 0 0 12 21 4.711538 1.493794 . 1.25 |
29. | 1 0 15 24 3.115385 2.265503 . 1.833333 |
|-------------------------------------------------------------|
30. | 0 0 16 28 2.75 1.976338 . 2.416667 |
+-------------------------------------------------------------+

. sum
Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------------------
idcode | 1693 2545.507 1478.858 1 5157
not_smsa | 1693 .2658004 .441889 0 1
south | 1693 .3951565 .4890287 0 1
gradem | 1545 12.16634 1.830982 0 18
agem | 1528 22.77421 3.040773 18 30
---------+-------------------------------------------------
ttl_expm | 1487 3.43469 1.565412 .0833333 15.53846
ln_wagem | 1393 1.639917 .4342409 .0682788 4.242752
blackm | 1594 .2628607 .4403256 0 1
tenurem | 1493 1.752902 1.573547 0 15.5

Tampak bahwa variabel yang perlu diimputasi adalah


ln_wagem, gradem, agem, ttl_expm, tenurem, dan
blackm.

. mi set flong

. mi register imputed ln_wagem gradem agem ttl_expm


tenurem blackm

45
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

(828 m=0 obs. now marked as incomplete)

. mi register regular not_smsa south

Perintah mi set flong (full and long) memberitahu Stata


agar mengatur dataset ganda. Perintah mi register imputed
adalah untuk mendaftarkan (me-register) seluruh variabel yang
memiliki entri kosong yang perlu di-imputasi. Perintah mi
register regular adalah untuk mendaftarkan seluruh variabel
yang tidak memiliki entri kosong atau tidak hendak diimputasi.

. misstable summarize ln_wagem gradem agem


ttl_expm tenurem not_smsa south blackm
Obs<.
+------------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+------------------------------+------------------------------
ln_wagem | 300 1,393 | 393 .0682788 4.242752
gradem | 148 1,545 | 13 0 18
agem | 165 1,528 | 12 18 30
ttl_expm | 206 1,487 | >500 .0833333 15.53846
tenurem | 200 1,493 | 74 0 15.5
blackm | 99 1,594 | 2 0 1
-----------------------------------------------------------------------

Perintah misstable adalah untuk mendapatkan ringkasan


(summary) entri kosong.

. misstable patterns ln_wagem gradem agem ttl_expm


tenurem not_smsa south blackm

46
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

Missing-value patterns
(1 means complete)

| Pattern
Percent | 1 2 3 4 5 6
------------+---------------------
51% | 1 1 1 1 1 1
|
8 | 1 1 1 1 1 0
7 | 1 1 0 1 1 1
6 | 1 1 1 0 1 1
5 | 1 1 1 1 0 1
4 | 1 0 1 1 1 1
4 | 0 1 1 1 1 1
3 | 1 1 1 1 0 0
2 | 1 0 1 1 1 0
(output omitted)
------------+---------------------
100% |

Variables are (1) blackm (2) gradem


(3) agem (4) tenurem
(5) ttl_expm (6) ln_wagem

Imputasi Data Kosong

Setelah dimiliki file dengan dataset mi, imputasi dapat


dilakukan. Sintaksnya adalah:

. mi impute mvn impvars = regvars, add(M) [rseed(#)]

47
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

Contoh 6.2:
Lihat kembali data pada contoh 6.1.

. mi impute mvn ln_wagem gradem agem ttl_expm


tenurem blackm = not_smsa south, add(20)
rseed(2121)

Performing EM optimization:
observed log likelihood = -5199.3214 at iteration 12

Performing MCMC data augmentation ...


Multivariate imputation Imputations = 20
Multivariate normal regression added = 20
Imputed: m=1 through m=20 updated = 0
Prior: uniform Iterations = 2000
burn-in = 100
between = 100

--------------------------------------------------
| Observations per m
|----------------------------------------------
Variable | Complete Incomplete Imputed | Total
-------------+-----------------------------------+----------
ln_wagem | 1393 300 300 | 1693
gradem | 1545 148 148 | 1693
agem | 1528 165 165 | 1693
ttl_expm | 1487 206 206 | 1693
tenurem | 1493 200 200 | 1693
blackm | 1594 99 99 | 1693
------------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)

Perintah mi impute mvn menspesifikasikan model


normal multivariat yang digunakan untuk mengimputasikan nilai-
nilai bagi entri kosong.

48
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

Opsi add(20) membentuk 20 datasets sebagai tambahan


terhadap dataset awal yang memiliki nilai-nilai entri kosong. Ke-
20 datasets ini seluruhnya lengkap terisi tanpa ada entri kosong.
Nilai yang diimputasikan berbeda dari satu dataset ke yang
lainnya. Opsi rseed(#) menentukan nilai seed # tertentu yang
dipilih agar hasil dapat diduplikasi. Setiap nilai dapat dimasukkan
ke dalam rseed(#).

Estimasi Parameter
Setelah imputasi data selesai, dataset yang dimiliki dapat
digunakan untuk mengestimasi parameter. Sintaksnya adalah:

. mi estimate: regress depvar indepvars

Contoh 6.3:
Lihat kembali data pada Contoh 6.2.

. mi estimate: regress ln_wagem gradem agem


ttl_expm tenurem not_smsa south blackm
Multiple-imputation estimates Imputations = 20
Linear regression Number of obs = 1693
Average RVI = 0.4819
Largest FMI = 0.4570
Complete DF = 1685
DF adjustment: Small sample DF: min = 86.89
avg = 181.39
max = 397.74
Model F test: Equal FMI F( 7, 685.4) = 73.38
Within VCE type: OLS Prob > F = 0.0000

49
Bab VI. Imputasi Ganda Multivariat: Model Normal Multivariat

------------------------------------------------------------------
ln_wagem | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
gradem | .0746216 .0064335 11.60 0.000 .061872 .0873712
agem | .02062 .0040349 5.11 0.000 .0126369 .028603
ttl_expm | .0130249 .0102512 1.27 0.207 -.0073508 .0334007
tenurem | .0628405 .0090895 6.91 0.000 .0448499 .0808311
not_smsa | -.1554712 .0244057 -6.37 0.000 -.2035786 -.1073638
south | -.1032382 .0226229 -4.56 0.000 -.1477907 -.0586857
blackm | -.037655 .0239075 -1.58 0.116 -.0846558 .0093459
_cons | .1669442 .1064046 1.57 0.119 -.0434716 .3773601
------------------------------------------------------------------

Prefiks mi estimate di depan perintah regresi


menginformasikan Stata untuk melaksanakan analisis
regresi untuk masing-masing dari 20 datasets dan mem-pool
hasilnya.

Diperoleh model akhir yaitu:

ln_wage = 0.17 + 0.07(grade) + 0.02(age) + 0.01(ttl_exp) +


0.06(tenure) – 0.16(not_smsa) – 0.10(south) –
0.04(black)

50
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

BAB VII
IMPUTASI GANDA MULTIVARIAT:
METODE PERSAMAAN BERANTAI
Tahap persiapan
Metode persamaan berantai untuk imputasi ganda
multivariat ini pada hakekatnya merupakan perluasan imputasi
ganda univariat yang telah dibahas pada bab V. Karena variabel
yang akan diimputasi lebih daripada satu dan tipe data variabel
mungkin saling berbeda, sebaiknya dilakukan pemeriksaan
dengan meregresikan tiap (bakal) variabel imputasi terhadap
seluruh variabel lainnya. Model regresi yang digunakan
disesuaikan dengan tipe data masing-masing variabel imputasi.

- Data kontinu:
. regress impvar regvars
- Data biner:
. logit impvar regvars
- Data kategorik ordinal:
. ologit impvar regvars
- Data kategorik nominal
. mlogit impvar regvars
- Data cacah dengan ekidistensi:
. poisson impvar regvars
- Data cacah dengan overdistensi:
. nbreg impvar regvars

Contoh penggunaan masing-masing perintah dapat dilihat


pada Lampiran 1. Dengan prosedur regresi ini dapat dilihat antara
lain keberadaan kemaknaan prediktif variabel regular,
51
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

konvergensi pada tipe regresi dengan proses iteratif, dan


sebagainya.

Contoh 7.1:

. use “D:\Data\midata”, replace


. sum

Variable | Obs Mean Std. Dev. Min Max


---------+---------------------------------------------------
female | 3000 .496 .5000674 0 1
race | 2707 1.018471 .8103808 0 2
urban | 2727 .6622662 .473024 0 1
edu | 2681 2.357702 .912182 1 4
exp | 2707 15.57284 9.656566 0 47.8623
---------+---------------------------------------------------
wage | 2701 71493.95 38104.3 0 227465.2

Pemeriksaan dilakukan dengan beberapa prosedur regresi


berikut (hasil tidak ditampilkan):

. mlogit race i.urban exp wage i.edu female


. logit urban i.race exp wage i.edu female
. ologit edu i.urban i.race exp wage female
. regress exp i.urban i.race wage i.edu female
. regress wage i.urban i.race exp i.edu female

Pembentukan dataset mi
Seperti pada proses imputasi ganda lainnya, perintah Stata
utama di sini adalah:

. mi set style
Opsi untuk style adalah flong, mlong, dan wide.
52
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

. mi register imputed impvars


. mi register regular regvars

Perintah lain adalah untuk mengevaluasi hasil perintah-


perintah di atas:

. misstable sum
. misstable pattern

Contoh 7.2:
Lihat kembali data pada Contoh 7.1:

. mi set wide
. mi register imputed race urban edu exp wage
. mi register regular female
. misstable sum

Obs<.
+-------------------------
| | Unique
Variable | Obs=. Obs>. Obs<. | values Min Max
---------+----------------------------+-------------------------
race | 293 2,707 | 3 0 2
urban | 273 2,727 | 2 0 1
edu | 319 2,681 | 4 1 4
exp | 293 2,707 | >500 0 47.8623
wage | 299 2,701 | >500 0 227465.2
----------------------------------------------------------------

. misstable pattern

53
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

Missing-value patterns
(1 means complete)

| Pattern
Percent | 1 2 3 4 5
------------+---------------
59% | 1 1 1 1 1
|
7 | 1 1 1 1 0
7 | 1 1 0 1 1
7 | 1 1 1 0 1
6 | 1 0 1 1 1
6 | 0 1 1 1 1
<1 | 0 1 1 1 0
<1 | 1 1 0 1 0
<1 | 1 0 0 1 1
<1 | 1 1 1 0 0
<1 | 1 0 1 0 1
<1 | 0 1 1 0 1
<1 | 1 0 1 1 0
<1 | 0 0 1 1 1
<1 | 1 1 0 0 1
<1 | 0 1 0 1 1
<1 | 1 0 0 0 1
<1 | 0 0 1 0 1
<1 | 1 0 0 1 0
<1 | 1 0 1 0 0
<1 | 0 1 0 0 1
<1 | 0 1 1 0 0
<1 | 0 1 0 1 0
<1 | 0 0 0 1 1
<1 | 0 0 1 1 0
------------+---------------
100% |

Variables are (1) urban (2) race (3) exp


(4) wage (5) edu
54
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

Imputasi Data Kosong


Sintaks untuk melakukan imputasi dengan persamaan
berantai adalah:

. mi impute chained (regmethod1) impvar1 (regmethod2)


impvar2 . . . = regvars, add(M) rseed(#)

Contoh 7.3:
Lihat data pada Contoh 7.2.

. mi impute chained (logit) urban (mlogit) race (ologit)


edu (pmm, knn(5)) exp wage = female, add(20)
rseed(4444)
Conditional models:
urban: logit urban i.race exp wage i.edu female
race: mlogit race i.urban exp wage i.edu female
exp: pmm exp i.urban i.race wage i.edu female , knn(5)
wage: pmm wage i.urban i.race exp i.edu female , knn(5)
edu: ologit edu i.urban i.race exp wage female

Performing chained iterations ...

Multivariate imputation Imputations = 20


Chained equations added = 20
Imputed: m=1 through m=20 updated = 0

Initialization: monotone Iterations = 200


burn-in = 10

urban: logistic regression


race: multinomial logistic regression
edu: ordered logistic regression
exp: predictive mean matching
wage: predictive mean matching

55
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

-----------------------------------------------------------
| Observations per m
|--------------------------------------------
Variable | Complete Incomplete Imputed | Total
--------------+-----------------------------------+--------
urban | 2727 273 273 | 3000
race | 2707 293 293 | 3000
edu | 2681 319 319 | 3000
exp | 2707 293 293 | 3000
wage | 2701 299 299 | 3000
-----------------------------------------------------------
(complete + incomplete = total; imputed is the
minimum across m of the number of filled-in
observations.)

Estimasi Parameter
Sintaks:

. mi estimate: regmethod depvar indepvars

Contoh 7.3:
Lihat data pada contoh 7.2.

. mi estimate: regress exp i.urban i.race wage i.edu


female
Multiple-imputation estimates Imputations = 20
Linear regression Number of obs = 3000
Average RVI = 0.2367
Largest FMI = 0.2448
Complete DF = 2991
DF adjustment: Small sample DF: min = 287.80
avg = 480.57
max = 799.44
Model F test: Equal FMI F( 8, 1631.5) = 123.83
Within VCE type: OLS Prob > F = 0.0000

56
Bab VII. Imputasi Ganda Multivariat: Metode Persamaan Berantai

------------------------------------------------------------------
exp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+---------------------------------------------------------
1.urban | -.7147912 .3709081 -1.93 0.055 -1.444618 .0150357
|
race |
1 | 1.111433 .4211293 2.64 0.009 .2825493 1.940317
2 | .9334521 .4083664 2.29 0.023 .1318551 1.735049
|
wage | .0001327 5.01e-06 26.49 0.000 .0001229 .0001426
|
edu |
2 | -2.011541 .4563419 -4.41 0.000 -2.907332 -1.115751
3 | -4.786797 .5076449 -9.43 0.000 -5.78437 -3.789224
4 | -7.796166 .6807551 -11.45 0.000 -9.133233 -6.459099
|
female | -1.071471 .362309 -2.96 0.003 -1.783544 -.359398
_cons | 9.50039 .603845 15.73 0.000 8.313031 10.68775
------------------------------------------------------------------

Didapatkan model regresi akhir:

exp = 9.50 – 0.71(urban_1) + 1.11(race_1) + 0.93(race_2)


+ 0.0001(wage) – 2.01(edu_2) – 4.79(edu_3)
−7.80(edu_4) – 1.07(female)

57
Kepustakaan

KEPUSTAKAAN
Enders CK. (2010). Applied Missing Data Analysis. New York:
The Guilford Press.
Kim JK & Shao J. (2014). Statistical Methods for Handling
Incomplete Data. Boca Raton, FL: CRC Press, Taylor &
Francis Group.
Little RJA & Rubin DB. (2012). Statistical Analysis with Missing
Data, 2nd Ed. Hoboken, New Jersey: John Wiley & Sons.
Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, &
Verbeke G. (2015). Handbook of Missing Data
Methodology. Boca Raton, FL: CRC Press, Taylor & Francis
Group.
Rubin DB. (1987). Multiple Imputation for Nonresponse in
Surveys. New York: John Wiley & Sons.
StataCorp LP. (2013). Stata Multiple-Imputation Reference
Manual, Release 13. College Station, Texas: Stata Press
Publication.
van Buuren S. (2012). Flexible Imputation of Missing Data. Boca
Raton, FL: CRC Press, Taylor & Francis Group.

59
Lampiran

BEBERAPA CONTOH REGRESI


DENGAN STATA
Regresi Linear

Sintaks: regress depvar indepvars [if] [in] [, options]

Model: Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi + εi

. use “ D:\Data\elemapi”, clear


. list api00 acs_k3 meals full in 1/7

+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+

api00 : api 2000


acs_k3 : avg class size k-3
meals : pct free meals
full : pct full credential

60
Lampiran

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313


---------+----------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+----------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
------------------------------------------------------------------

Model estimasi:
api00 = 906.74 – 2.68(acs_k3) – 3.70(meals) + 0.11(full) + e

Regresi Logistik

Sintaks: logit depvar indepvars [if] [in] [, options]

 ( )
p Yi
Model: logit Yi = ln  
1− p(Yi ) 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi

. use “D:\Data\apilog”, clear


. list hiqual cred_hl pared_hl in 6/10

61
Lampiran

+-------------------------------+
| hiqual cred_hl pared_hl |
|-------------------------------|
6. | not high high high |
7. | not high high low |
8. | not high low low |
9. | high high high |
10. | not high low high |
+-------------------------------+

hiqual : High Quality School, Hi vs Not


cred_hl : Full Credent Teachers, Hi vs Lo
pared_hl : Parents Education, Hi vs Lo

. logit hiqual cred_hl pared_hl

Iteration 0: log likelihood = -369.63859


Iteration 1: log likelihood = -295.12944
Iteration 2: log likelihood = -290.93592
Iteration 3: log likelihood = -290.89221
Iteration 4: log likelihood = -290.89221

Logistic regression Number of obs = 580


LR chi2(2) = 157.49
Prob > chi2 = 0.0000
Log likelihood = -290.89221 Pseudo R2 = 0.2130

------------------------------------------------------------------
hiqual | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
cred_hl | 2.732386 .2705825 10.10 0.000 2.202054 3.262718
pared_hl | -.1699762 .2084618 -0.82 0.415 -.5785538 .2386014
_cons | -2.470522 .246384 -10.03 0.000 -2.953425 -1.987618
------------------------------------------------------------------

62
Lampiran

Model estimasi:
logit hiqual = −2.47 + 2.73(cred_hl) – 0.17(pared_hl)

Regresi Logistik Ordinal

Sintaks: ologit depvar indepvars [if] [in] [, options]

 ( )
p Yi
Model: logit Yi = ln  
1− p(Yi )
 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi

. use “D:\Data\ologit”, clear

. list apply pared public gpa in 1/5

+-----------------------------------------+
| apply pared public gpa |
|-----------------------------------------|
1. | very likely 0 0 3.26 |
2. | somewhat likely 1 0 3.21 |
3. | unlikely 1 1 3.94 |
4. | somewhat likely 0 0 2.81 |
5. | somewhat likely 0 0 2.53 |
+-----------------------------------------+

63
Lampiran

. list apply pared public gpa in 1/5, nolabel

+-------------------------------+
| apply pared public gpa |
|-------------------------------|
1. | 2 0 0 3.26 |
2. | 1 1 0 3.21 |
3. | 0 1 1 3.94 |
4. | 1 0 0 2.81 |
5. | 1 0 0 2.53 |
+-------------------------------+

. ologit apply pared public gpa

Iteration 0: log likelihood = -370.60264


Iteration 1: log likelihood = -358.605
Iteration 2: log likelihood = -358.51248
Iteration 3: log likelihood = -358.51244
Iteration 4: log likelihood = -358.51244

Ordered logistic regression Number of obs = 400


LR chi2(3) = 24.18
Prob > chi2 = 0.0000
Log likelihood = -358.51244 Pseudo R2 = 0.0326

--------------------------------------------------------------
apply | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+------------------------------------------------------
pared | 1.047664 .2657891 3.94 0.000 .5267266 1.568601
public | -.0586828 .2978588 -0.20 0.844 -.6424754 .5251098
gpa | .6157458 .2606311 2.36 0.018 .1049183 1.126573
-------+------------------------------------------------------
/cut1 | 2.203323 .7795353 .6754621 3.731184
/cut2 | 4.298767 .8043147 2.72234 5.875195
--------------------------------------------------------------

64
Lampiran

Model estimasi:
apply: Unlikely vs somewhat likely ∪ very unlikely
logit apply = 2.20 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)
apply: Unlikely ∪ somewhat likely vs very unlikely
logit apply = 4.30 + 1.05(pared
pared) – 0.06(public) + 0.62(gpa)

Regresi Logistik Multinomial

Sintaks: mlogit depvar indepvars [if] [in] [, options]

 ( )
p Yi
Model: logit Yi = ln  
1− p(Yi )
 
= β0 + β1 X1i + β2 X 2i + . . . + β p X pi

65
Lampiran

. use “D:\Data\hsbdemo”, clear


. list prog ses write in 16/20

+---------------------------+
| prog ses write |
|---------------------------|
16. | general low 44 |
17. | general low 46 |
18. | vocation middle 46 |
19. | academic middle 46 |
20. | vocation high 49 |
+---------------------------+

. list prog ses write in 16/20, nolabel

+--------------------+
| prog ses write |
|--------------------|
16. | 1 1 44 |
17. | 1 1 46 |
18. | 3 2 46 |
19. | 2 2 46 |
20. | 3 3 49 |
+--------------------+

prog : type of program


ses : social economic status
write : writing score

. mlogit prog i.ses write, base(2)

Iteration 0: log likelihood = -204.09667


Iteration 1: log likelihood = -180.80105
Iteration 2: log likelihood = -179.98724
Iteration 3: log likelihood = -179.98173
Iteration 4: log likelihood = -179.98173

66
Lampiran

Multinomial logistic regression Number of obs = 200


LR chi2(6) = 48.23
Prob > chi2 = 0.0000
Log likelihood = -179.98173 Pseudo R2 = 0.1182

------------------------------------------------------------------
prog | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
general |
ses |
middle | -.533291 .4437321 -1.20 0.229 -1.40299 .336408
high | -1.162832 .5142195 -2.26 0.024 -2.170684 -.1549804
|
write | -.0579284 .0214109 -2.71 0.007 -.0998931 -.0159637
_cons | 2.852186 1.166439 2.45 0.014 .5660075 5.138365
---------+----------------------------------------------------------
academic | (base outcome)
---------+----------------------------------------------------------
vocation |
ses |
middle | .2913931 .4763737 0.61 0.541 -.6422822 1.225068
high | -.9826703 .5955669 -1.65 0.099 -2.14996 .1846195
|
write | -.1136026 .0222199 -5.11 0.000 -.1571528 -.0700524
_cons | 5.2182 1.163549 4.48 0.000 2.937686 7.498714
------------------------------------------------------------------

Model estimasi:
prog : general vs academic
logit prog = 2.85 − 0.53(sesmid-lo) – 1.16(seshi-lo) − 0.06(write)
prog : vocation vs academic
logit prog = 5.22 + 0.29(sesmid-lo) – 0.98(seshi-lo) − 0.11(write)

67
Lampiran

Regresi Poisson

Sintaks: poisson depvar indepvars [if] [in] [, options]

Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi

. use "D:\Data\Stata\lahigh.dta"

. list daysabs mathnce langnce gender in 1/10

+----------------------------------------+
| daysabs mathnce langnce gender |
|----------------------------------------|
1. | 4 56.98883 42.45086 male |
2. | 4 37.09416 46.82059 male |
3. | 2 32.27546 43.56657 female |
4. | 3 29.05672 43.56657 female |
5. | 3 6.748048 27.24847 female |
|----------------------------------------|
6. | 13 61.65428 48.41482 female |
7. | 11 56.98883 40.73543 female |
8. | 7 10.39049 15.35938 male |
9. | 10 50.52795 52.11514 male |
10. | 9 49.47205 42.45086 male |
+----------------------------------------+

daysabs : number days absent


mathnce : ctbs math pct rank
langnce : ctbs lang pct rank

. tabstat daysabs, by(gender) stats(mean sd n)

Summary for variables: daysabs


by categories of: gender

68
Lampiran

gender | mean sd N
-------+------------------------------
female | 6.697531 8.530609 162
male | 4.876623 5.995999 154
-------+------------------------------
Total | 5.810127 7.449003 316
--------------------------------------

. poisson daysabs mathnce langnce gender


Iteration 0: log likelihood = -1547.9709
Iteration 1: log likelihood = -1547.9709

Poisson regression Number of obs = 316


LR chi2(3) = 175.27
Prob > chi2 = 0.0000
Log likelihood = -1547.9709 Pseudo R2 = 0.0536

------------------------------------------------------------------
daysabs | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
mathnce | -.0035232 .0018213 -1.93 0.053 -.007093 .0000466
langnce | -.0121521 .0018348 -6.62 0.000 -.0157483 -.0085559
gender | -.4009209 .0484122 -8.28 0.000 -.495807 -.3060348
_cons | 3.088587 .1017365 30.36 0.000 2.889187 3.287987
------------------------------------------------------------------

Model empirik:

ln (dayabs) = 3.09 – 0.004(mathce) – 0.01(langnce) –


0.40(gender)

69
Lampiran

Regresi Binomial Negatif

Sintaks: nbreg depvar indepvars [if] [in] [, options]

Model: ln Yi = β0 + β1 X1i + β2 X 2i + . . . + β p X pi

Contoh: Sama dengan di atas (regresi Poisson).

. use "D:\Data\Stata\rod93.dta", clear


. list deaths cohort exposure in 6/15

+-------------------------------+
| deaths cohort exposure |
|-------------------------------|
6. | 81 1941-1949 8,743.5 |
7. | 40 1941-1949 14,270.0 |
8. | 197 1960-1967 403.2 |
9. | 48 1960-1967 786.0 |
10. | 62 1960-1967 1,165.3 |
|-------------------------------|
11. | 81 1960-1967 2,294.8 |
12. | 97 1960-1967 4,500.5 |
13. | 103 1960-1967 13,201.5 |
14. | 39 1960-1967 19,525.0 |
15. | 195 1968-1976 495.3 |
+-------------------------------+

70
Lampiran

. list deaths cohort exposure in 6/15, nolabel

+----------------------------+
| deaths cohort exposure |
|----------------------------|
6. | 81 1 8,743.5 |
7. | 40 1 14,270.0 |
8. | 197 2 403.2 |
9. | 48 2 786.0 |
10. | 62 2 1,165.3 |
|----------------------------|
11. | 81 2 2,294.8 |
12. | 97 2 4,500.5 |
13. | 103 2 13,201.5 |
14. | 39 2 19,525.0 |
15. | 195 3 495.3 |
+----------------------------+

. tabstat deaths, by(cohort) stats(mean sd n)


Summary for variables: deaths
by categories of: cohort (defined by
year children were born)
cohort | mean sd N
----------+------------------------------
1941-1949 | 84.42857 42.98394 7
1960-1967 | 89.57143 53.06555 7
1968-1976 | 80 56.87413 7
----------+------------------------------
Total | 84.66667 48.84192 21
-----------------------------------------

71
Lampiran

. nbreg deaths i.cohort exposure


Fitting Poisson model:

Iteration 0: log likelihood = -286.1311


Iteration 1: log likelihood = -286.13067
Iteration 2: log likelihood = -286.13067

Fitting constant-only model:

Iteration 0: log likelihood = -114.33669


Iteration 1: log likelihood = -110.33038
Iteration 2: log likelihood = -108.56521
Iteration 3: log likelihood = -108.56018
Iteration 4: log likelihood = -108.56018

Fitting full model:

Iteration 0: log likelihood = -106.8523


Iteration 1: log likelihood = -106.67353
Iteration 2: log likelihood = -106.67074
Iteration 3: log likelihood = -106.67074

Negative binomial regression Number of obs = 21


LR chi2(3) = 3.78
Dispersion = mean Prob > chi2 = 0.2864
Log likelihood = -106.67074 Pseudo R2 = 0.0174

-------------------------------------------------------------------
deaths | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-----------+-------------------------------------------------------
cohort |
1960-1967 | .1486955 .2800229 0.53 0.595 -.4001393 .6975304
1968-1976 | -.0745488 .2753852 -0.27 0.787 -.6142939 .4651964
|
exposure | -.0000452 .000022 -2.06 0.039 -.0000882 -2.19e-06
_cons | 4.596288 .2128607 21.59 0.000 4.179089 5.013488
-----------+-------------------------------------------------------
/lnalpha | -1.377729 .3166305 -1.998314 -.7571451
-----------+-------------------------------------------------------
alpha | .2521504 .0798385 .1355637 .4690035
-------------------------------------------------------------------

72
Lampiran

Likelihood-ratio test of alpha=0: chibar2(01) = 358.92


Prob>=chibar2 = 0.000

73

Anda mungkin juga menyukai