Anda di halaman 1dari 123

ANALISIS

DATA LONGITUDINAL

Johan Harlan
Analisis Data Longitudinal
Penulis : Johan Harlan
Cetakan Pertama, Mei 2018

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma


Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau


memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
KATA PENGANTAR

Analisis statistik pada tingkat dasar bermula pada analisis data cross-
sectional. Analisis data longitudinal, yang dikenal juga sebagai analisis data
panel, dapat dianggap sebagai salah satu pembahasan analisis untuk tingkat
lanjut. Studi longitudinal memiliki banyak kelebihan dibandingkan dengan
studi cross-sectional, walaupun demikian buku-buku tentang analisis data
longitudinal seringkali kurang diminati karena umumnya dipenuhi dengan
rumus dan pembahasan statistika matematik yang rumit.

Dalam buku ini penulis mencoba membahas analisis data longitudinal


secara ringkas, tanpa terlalu banyak membahas aspek teoretik dan tidak
membahas keseluruhan macam metode analisis untuk data longitudinal.
Metode yang dianggap ‘tradisional’ namun masih sering digunakan, yang
dibahas adalah Analisis Variansi dan Analisis Variansi Multivariat dengan
pengukuran berulang (Repeated-measurements ANOVA dan MANOVA).
Metode yang dianggap mutakhir yang dibahas adalah Analisis GEE
(Generalized Estimating Equations) dan Analisis Koefisien Random
(Random Coefficient Analysis). Pembahasan metode ekonometrik yang tetap
mendominasi ranah bidang Ekonomi, namun relatif kurang dikenal dalam
ranah bidang ilmu pengetahuan lainnya, dibatasi pada Analisis Regresi
Variabel Instrumental, dengan pembahasan singkat untuk Estimator Efek
Random, Efek Fixed, dan Fixed-Differenced. Analisis data untuk contoh-
contoh soal dilakukan dengan menggunakan paket statistik komputer Stata
15.

v
Penulis sangat mengharapkan saran-saran yang berguna dari pembaca
untuk memperbaiki kesalahan-kesalahan yang mungkin terjadi dalam
penulisan isi buku ini serta meningkatkan kualitas pembahasannya.

Jakarta, Mei 2018

Penulis

vi
DAFTAR ISI

Kata Pengantar v

Daftar Isi vii

Bab 1 Pendahuluan 1
Pengertian Data Longitudinal 1
Format Data Longitudinal 2

Bab 2 Dasar-Dasar Analisis Data Longitudinal 15


Deklarasi Dataset Longitudinal 15
Analisis Deskriptif Data Longitudinal 19

Bab 3 ANOVA dengan Pengukuran Berulang 27


Telaah Ulang ANOVA dengan Pengukuran Berulang 27
Rancangan Pengukuran Berulang Faktor Tunggal 28
Rancangan Pengukuran Berulang Dua-Faktor 32

Bab 4 MANOVA dengan Pengukuran Berulang 41


Telaah Teoretik MANOVA 41
Asumsi pada Analisis Variansi Multivariat 42
Analisis MANOVA dengan Stata 42

Bab 5 Analisis Generalized Estimating Equations 63


Pengertian GEE 63
Struktur Korelasi Kerja 63
Analisis GEE dengan Stata 66

vii
Bab 6 Analisis Koefisien Random 79
Pengertian Analisis Koefisien Random 79
Analisis Koefisien Random dengan Stata 82

Bab 7 Regresi Variabel Instrumental dengan 89


Estimator Koefisien Random dan Fixed
Variabel Instrumental dan Regresi Variabel 89
Instrumental
Estimator Efek Random dan Efek Fixed 90

Bab 8 Regresi Variabel Instrumental dengan 99


Estimator First-Differenced
Pengertian Estimator First-Differenced 99
Estimator First-Differenced dengan Stata 99

Kepustakaan 105

Lampiran: Ukuran Sampel pada Studi Longitudinal 106

viii
BAB 1
PENDAHULUAN

 Pengertian Data Longitudinal


Data longitudinal adalah data hasil pengukuran berulang untuk satu
atau beberapa variabel pada setiap anggota sejumlah subjek atau individu
yang sama, yang diamati pada sejumlah titik waktu berbeda.
Data longitudinal dibedakan dari data runtun-waktu (time-series data)
yang umumnya menyangkut sedikit subjek dengan rentang seri pengukuran
yang jauh lebih panjang, sedangkan data longitudinal menyangkut lebih
banyak subjek dengan panel (gelombang waktu pengukuran data) yang
relatif sedikit. Sejumlah ahli juga membedakan pengertian data longitudinal
dengan data panel, walaupun sebagian besar ahli statistika menganggap
keduanya sama, termasuk anggapan yang diberlakukan dalam buku ini.
Pada data longitudinal, jumlah titik waktu ini dapat mencakup
interval waktu (jarak antara 2 titik waktu pengukuran) yang sama (regularly
spaced measurements) ataupun tak sama (irregularly spaced measurements).
Data longitudinal juga dibedakan atas data balans (balanced data), yaitu
setiap subjek diukur pada tiap panel dan data tidak balans (unbalanced data),
yaitu jumlah subjek yang diukur dapat berbeda di tiap panel. Pada data
longitudinal terhadap tiap subjek dilakukan pengukuran berulang (repeated
measurement). Variabel hasil pengukuran berulang ini dikatakan “tersarang
dalam” (nested in) variabel pengidentifikasi subjek.
Analisis data longitudinal merupakan analisis statistika yang rumit,
karena sifat data longitudinal yang saling berkorelasi dalam-subjek,
mengakibatkan sejumlah analisis statistika yang didasarkan atas
independensi data menjadi tidak valid. Pada analisis data longitudinal
diperlukan sejumlah teknik statistika yang dapat mengakomodasi korelasi
ini. Sifat data longitudinal yang saling berkorelasi ini menyerupai data
kluster pada analisis multilevel, bahkan analisis data longitudinal dapat
dianggap sebagai salah satu varian analisis multilevel. Pada data kluster yang

1
ada adalah korelasi intra-kluster, sedangkan pada data longitudinal
didapatkan korelasi dalam-subjek.
Beberapa kelebihan studi longitudinal jika dibandingkan dengan studi
potong-lintang (cross-sectional study) yaitu:
1. Perkembangan terjadinya variabel respons dapat diamati dalam
perjalanan waktu.
2. Perkembangan terjadinya variabel respons dapat dikaitkan dengan
perkembangan terjadinya variabel lain.
Studi longitudinal juga memiliki kekurangan dibandingkan dengan
studi potong lintang, antara lain yaitu:
1. Studi longitudinal umumnya membutuhkan biaya yang relatif besar.
2. Studi longitudinal membutuhkan waktu yang lebih lama.
3 Data longitudinal lebih sulit untuk dianalisis.
Pengetahuan dasar yang dibutuhkan untuk mempelajari analisis data
longitudinal adalah pemahaman tentang beberapa teknik statistika pada studi
potong-lintang, seperti analisis regresi linear, analisis regresi logistik, dan
analisis variansi. Selama lebih daripada setengah abad, analisis data
longitudinal terpaku pada metode tradisional ANOVA untuk pengukuran
berulang yang diperkenalkan oleh Fisher pada tahun 1918. Kemajuan di
bidang Statistika dan Ilmu Komputer memungkinkan pengembangan
program statistik seperti GEE (Generalized Estimating Equations) dan
analisis koefisien random (random coefficient analysis) sebagai bentuk
modifikasi Generalized Linear Model untuk data berkorelasi.

 Format Data Longitudinal


Data longitudinal dapat disajikan dalam format memanjang (long)
ataupun melebar (wide). Tampilan kedua format tersebut pada Stata adalah:

2
long
+------------+ wide
| i j stub | +----------------+
|------------| | i stub1 stub2 |
| 1 1 4.1 | reshape |----------------|
| 1 2 4.5 | <---------> | 1 4.1 4.5 |
| 2 1 3.3 | | 2 3.3 3.0 |
| 2 2 3.0 | +----------------+
+------------+

Perintah Stata untuk mengubah format memanjang menjadi format


melebar yaitu:
reshape wide stub, i (id) j (time)
stub : Variabel respons yang akan diubah formatnya
stub# : Hasil pengukuran stub ke-#
id : Nomor identitas subjek (individu)
time : Variabel waktu, menyatakan nomor urut pengukuran
Perintah untuk mengembalikan data ke format melebar setelah sebelumnya
diubah menjadi format memanjang:
reshape long
Perintah Stata untuk mengubah format melebar menjadi format memanjang
yaitu:
reshape long stub, i (id) j (j)
stub : Variabel respons yang akan diubah formatnya
id : Nomor identitas subjek (individu)
time : Variabel waktu, menyatakan nomor urut pengukuran
Perintah untuk mengembalikan data ke format melebar setelah sebelumnya
diubah menjadi format memanjang:
reshape wide

3
Contoh 1.1:
. use “D:\Analisis Data Longitudinal\Data\repeat1.dta”, clear

Ada 8 subjek yang masing-masing menjalani 4 kali pengukuran


respons pada 4 titik waktu. Data tersimpan dalam format melebar (wide
format), y1 adalah respons pada titik waktu 1, y2 adalah respons pada titik
waktu 2, dan seterusnya. Subjek terbagi dalam 2 grup, masing-masing terdiri
atas 4 subjek dengan menggunakan variabel trt.

. list

+----------------------------------+
| id trt y1 y2 y3 y4 |
|----------------------------------|
1. | 1 1 3.5 4.5 7.5 7.5 |
2. | 2 1 6.5 5.5 8.5 8.5 |
3. | 3 1 3.5 4.5 7.5 9.5 |
4. | 4 1 3.5 3.5 6.5 8.5 |
5. | 5 2 1 2 5 10 |
|----------------------------------|
6. | 6 2 2 3 6 10 |
7. | 7 2 2 4 5 9 |
8. | 8 2 2 3 6 11 |
+----------------------------------+

Mengubah data menjadi format memanjang (long form):

. reshape long y, i(id) j(time)


(note: j = 1 2 3 4)

Data wide -> long


---------------------------------------------------
Number of obs. 8 -> 32
Number of variables 6 -> 4
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
---------------------------------------------------
4
. list, sep(4)
+-----------------------+
| id time trt y |
|-----------------------|
1. | 1 1 1 3.5 |
2. | 1 2 1 4.5 |
3. | 1 3 1 7.5 |
4. | 1 4 1 7.5 |
|-----------------------|
5. | 2 1 1 6.5 |
6. | 2 2 1 5.5 |
... | . . . ... |
... | . . . ... |
... | . . . ... |
27. | 7 3 2 5 |
28. | 7 4 2 9 |
|-----------------------|
29. | 8 1 2 2 |
30. | 8 2 2 3 |
31. | 8 3 2 6 |
32. | 8 4 2 11 |
+-----------------------+

Contoh 1.2:
. use “D:/Analisis Data Longitudinal/Data/reshape1.dta”

Memperlihatkan nilai-nilai pada dataset:

. list

5
+-------------------------------------------------------+
| id sex inc80 inc81 inc82 ue80 ue81 ue82 |
|-------------------------------------------------------|
1. | 1 0 5000 5500 6000 0 1 0 |
2. | 2 1 2000 2200 3300 1 0 0 |
3. | 3 0 3000 2000 1000 0 0 1 |
+-------------------------------------------------------+

Di sini terdapat 2 variabel yang perlu diubah formatnya, yaitu inc dan ue.
Perintah untuk mengubah data dari format melebar menjadi format
memanjang adalah:

. reshape long inc ue, i(id) j(year)


(note: j = 80 81 82)

Data wide -> long


----------------------------------------
Number of obs. 3 -> 9
Number of variables 8 -> 5
j variable (3 values) -> year
xij variables:
inc80 inc81 inc82 -> inc
ue80 ue81 ue82 -> ue
----------------------------------------

Memperlihatkan tampilan nilai setelah menjadi format memanjang:

. list, sepby(id)
+-----------------------------+
| id year sex inc ue |
|-----------------------------|
1. | 1 80 0 5000 0 |
2. | 1 81 0 5500 1 |
3. | 1 82 0 6000 0 |
|-----------------------------|
4. | 2 80 1 2000 1 |
6
5. | 2 81 1 2200 0 |
6. | 2 82 1 3300 0 |
|-----------------------------|
7. | 3 80 0 3000 0 |
8. | 3 81 0 2000 0 |
9. | 3 82 0 1000 1 |
+-----------------------------+

Mengembalikan data ke format melebar:

. reshape wide
(note: j = 80 81 82)

Data long -> wide


----------------------------------------------------
Number of obs. 9 -> 3
Number of variables 5 -> 8
j variable (3 values) year -> (dropped)
xij variables:
inc -> inc80 inc81 inc82
ue -> ue80 ue81 ue82
----------------------------------------------------

Contoh 1.3:
. use “D:/Analisis Data Longitudinal/Data/reshape5.dta”, clear

. list

+-------------------------+
| hid sex year inc |
|-------------------------|
1. | 1 f 90 3200 |
2. | 1 f 91 4700 |
3. | 1 m 90 4500 |
4. | 1 m 91 4600 |
+-------------------------+
7
Berikut data akan diubah dari format memanjang-memanjang (long-
long) menjadi format melebar-melebar (wide-wide) untuk 2 variabel j (sex
dan year). Perubahan yang menyangkut 2 variabel ini tidak dapat dilakukan
dalam 1 tahap dengan 1 perintah Stata, melainkan memerlukan 2 tahap
dengan 2 perintah Stata. Karena tidak ada variabel identitas i, maka
digunakan kombinasi (hid year), sedangkan untuk pengulangan pengukuran
j digunakan (sex), yang tidak membentuk inc1 dan inc2 pada format
melebar, melainkan minc (male inc) dan finc (female inc). Operator @ di
depan inc menyatakan huruf m (male) dan f (female) diletakkan di depan
inc. Opsi string menyatakan variabel sex adalah string.

. reshape wide @inc, i(hid year) j(sex) string


(note: j = f m)

Data long -> wide


------------------------------------------------
Number of obs. 4 -> 2
Number of variables 4 -> 4
j variable (2 values) sex -> (dropped)
xij variables:
inc -> finc minc
------------------------------------------------

. list
+--------------------------+
| hid year finc minc |
|--------------------------|
1. | 1 90 3200 4500 |
2. | 1 91 4700 4600 |
+--------------------------+

Selanjutnya diberikan perintah reshape kedua untuk mengubah


format finc dan minc dengan hid sebagai variabel identitas dan year
sebagai variabel waktu.

. reshape wide minc finc, i(hid) j(year)


(note: j = 90 91)
8
Data long -> wide
-------------------------------------------------
Number of obs. 2 -> 1
Number of variables 4 -> 5
j variable (2 values) year -> (dropped)
xij variables:
minc -> minc90 minc91
finc -> finc90 finc91
-------------------------------------------------

Memperlihatkan hasil perintah Stata tersebut:

. list

+-----------------------------------------+
| hid finc90 minc90 finc91 minc91 |
|-----------------------------------------|
1. | 1 3200 4500 4700 4600 |
+-----------------------------------------+

Karena pada perubahan format memanjang menjadi melebar


diperlukan 2 tahap dengan 2 perintah Stata, pada pengembalian data dari
format melebar-melebar menjadi memanjang-memanjang juga diperlukan 2
tahap dengan 2 perintah Stata:

. reshape long minc finc, i(hid) j(year)


(note: j = 90 91)

Data wide -> long


-------------------------------------------
Number of obs. 1 -> 2
Number of variables 5 -> 4
j variable (2 values) -> year
xij variables:
minc90 minc91 -> minc
finc90 finc91 -> finc
-------------------------------------------

9
. reshape long @inc, i(hid year) j(sex) string
(note: j = f m)

Data wide -> long


-----------------------------------------------
Number of obs. 2 -> 4
Number of variables 4 -> 4
j variable (2 values) -> sex
xij variables:
finc minc -> inc
-----------------------------------------------

Memperlihatkan hasil perintah Stata tersebut:

. list

+-------------------------+
| hid year sex inc |
|-------------------------|
1. | 1 90 f 3200 |
2. | 1 90 m 4500 |
3. | 1 91 f 4700 |
4. | 1 91 m 4600 |
+-------------------------+

Analisis data longitudinal di sini dibatasi untuk model regresi dengan


variabel prediktor dan respons. Untuk variabel prediktor dikenal istilah
tergantung-waktu (time-dependent) dan tak-tergantung-waktu (time-
independent).
Prediktor tergantung-waktu adalah variabel yang dapat berubah-ubah
nilainya dalam perjalanan waktu, sedangkan prediktor tak-tergantung-waktu
selalu bernilai tetap, misalnya jenis kelamin.

10
Contoh 1.4:

. use "D:\Analisis Data Longitudinal\Data\teenprov.dta"

Berikut diperlihatkan data untuk 3 kasus pertama.

. list in 1/3

+-------------------------------------------------------------------+
1. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 22 | 1| 0| 0| 1| 21 | 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 15 | 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 3| 0| 0| 0 | 1 | 0 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 0 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+

+-------------------------------------------------------------------+
2. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 75 | 0| 0| 0| 1| 8| 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 0| 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 0| 0| 0| 0 | 1 | 4 | 17 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+

11
+-------------------------------------------------------------------+
3. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 92 | 0| 0| 0| 1| 30 | 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 27 | 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 24 | 1| 1| 0 | 0 | 31 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 1 | 0 | 1 | 0 |
+-------------------------------------------------------------------+

Sekarang data akan diubah dari format melebar (wide) menjadi


format memanjang (long).

. reshape long pov mother spouse school hours, i(id) j(year)


(note: j = 1 2 3 4 5)

Data wide -> long


------------------------------------------------
Number of obs. 1151 -> 5755
Number of variables 28 -> 9
j variable (5 values) -> year
xij variables:
pov1 pov2 ... pov5 -> pov
mother1 mother2 ... mother5 -> mother
spouse1 spouse2 ... spouse5 -> spouse
school1 school2 ... school5 -> school
hours1 hours2 ... hours5 -> hours
------------------------------------------------

Berikut diperlihatkan data 3 kasus pertama yang sekarang telah


berubah menjadi 15 records.

12
. list in 1/15

+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|
6. | 75 1 17 0 0 0 0 1 8 |
7. | 75 2 17 0 0 0 0 1 0 |
8. | 75 3 17 0 0 0 0 1 0 |
9. | 75 4 17 0 0 0 0 1 4 |
10. | 75 5 17 0 1 0 0 1 0 |
|----------------------------------------------------------|
11. | 92 1 16 0 0 0 0 1 30 |
12. | 92 2 16 0 0 0 0 1 27 |
13. | 92 3 16 0 0 0 0 1 24 |
14. | 92 4 16 0 1 1 0 0 31 |
15. | 92 5 16 0 1 1 0 0 0 |
+----------------------------------------------------------+

. save "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"


file D:\Longitudinal Data Analysis\Data\teenprov_long.dta saved

13
BAB 2
DASAR-DASAR ANALISIS DATA
LONGITUDINAL

 Deklarasi Dataset Longitudinal


Dataset terlebih dahulu harus dideklarasikan sebagai dataset
longitudinal dengan perintah:

xtset panelvar

jika dataset tidak memiliki variabel waktu dan:

xtset panelvar timevar [, options]

jika dataset memiliki variabel waktu.

panelvar : Variabel panel, variabel tempat subjek tersarang


timevar : Variabel waktu; dapat berupa yearly, quaterly, monthly,
weekly, daily, dan generic. Data dalam format melebar
tidak memiliki variabel waktu.

Contoh 2.1:
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
(National Longitudinal Survey. Young Women 14-26
years of age in 1968)

Sebagian data untuk beberapa variabel pada dataset diperlihatkan


dengan perintah berikut:

15
. list idcode year union age grade not_smsa south in 1/10

+--------------------------------------------------------+
| idcode year union age grade not_smsa south |
|--------------------------------------------------------|
1. | 1 70 . 18 12 0 0 |
2. | 1 71 . 19 12 0 0 |
3. | 1 72 1 20 12 0 0 |
4. | 1 73 . 21 12 0 0 |
5. | 1 75 . 23 12 0 0 |
|--------------------------------------------------------|

6. | 1 77 0 25 12 0 0 |
7. | 1 78 . 26 12 0 0 |
8. | 1 80 1 28 12 0 0 |
9. | 1 83 1 31 12 0 0 |
10. | 1 85 1 33 12 0 0 |
+--------------------------------------------------------+

Tampak bahwa variabel panel adalah idcode, karena nilai-nilai data


tersarang pada variabel ini, sedangkan variabel waktu adalah year., tetapi
pada deklarasi data longitudinal di sini hanya akan digunakan variabel panel.

. xtset idcode
panel variable: idcode (unbalanced)

Contoh 2.2:
. use "D:\Analisis Data Longitudinal\Data\union.dta", clear
(NLS Women 14-24 in 1968)

Dataset ini memiliki daftar variabel yang hampir sama namun lebih
sedikit daripada Contoh 2.1.

16
. list idcode year union age grade not_smsa south in 1/10

+--------------------------------------------------------+
| idcode year union age grade not_smsa south |
|--------------------------------------------------------|
1. | 1 72 1 20 12 0 0 |
2. | 1 77 0 25 12 0 0 |
3. | 1 80 1 28 12 0 0 |
4. | 1 83 1 31 12 0 0 |
5. | 1 85 1 33 12 0 0 |
|--------------------------------------------------------|
6. | 1 87 1 35 12 0 0 |
7. | 1 88 1 37 12 0 0 |
8. | 2 71 0 19 12 0 0 |
9. | 2 77 1 25 12 0 0 |
10. | 2 78 1 26 12 0 0 |
+--------------------------------------------------------+

Di sini deklarasi dataset longitudinal akan dilakukan dengan variabel


panel idcode dan variabel waktu year.

. xtset id year
panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with gaps
delta: 1 unit

Contoh 2.3:

. use "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"

Dataset ini yang berasal dari the National Longitudinal Study of


Youth (NLSY), memuat data tentang 1151 gadis remaja yang diwawancarai
selama 5 tahun berturut-turut.

17
. list in 1/5

+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|

Variabel-variabel penelitian adalah:


• id: Nomor identitas subjek
• year: Tahun pengumpulan data
• age: Usia subjek pada wawancara pertama.
• black: Kode 1 jika subjek kulit hitam, jika tidak kode 0
• pov: Kode 1 jika subjek dalam keadaan miskin (poverty) selama periode
observasi, jika tidak kode 0
• mother: Kode 1 jika subjek memiliki 1 anak atau lebih, jika tidak kode
0
• spouse: Kode 1 jika subjek memiliki pasangan hidup bersama, jika
tidak kode 0
• school: Kode 1 jika subjek masih bersekolah, jika tidak kode 0
• hours: Jumlah jam subjek bekerja dalam seminggu menjalani survei

Variabel panel adalah id dan variabel waktu adalah year.

. xtset id year
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit

Untuk menampilkan kembali hasil deklarasi terdahulu, perintahnya


adalah:

18
. xtset
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit

 Analisis Deskriptif Data Longitudinal


Beberapa perintah standar Stata untuk analisis deskriptif data
longitudinal (tidak semua spesifik untuk data longitudinal) yaitu:

• Perintah untuk mendeskripsikan pola data xt:


xtdescribe [if] [in] [, options]

• Perintah untuk melakukan tabulasi data xt:


xttab varname [if]

• Perintah untuk membuat ringkasan data xt:


xtsum [varlist] [if]

• Perintah untuk menampilkan grafik, tidak spesifik untuk data xt, tidak
memerlukan deklarasi data xt:
twoway scatter varlist [if] [in], [, options]
Menampilkan grafik diagram tebar.
graph box yvar [if] [in] [, options]
Menampilkan grafik kotak dan titik.

• Perintah untuk menampilkan matriks korelasi antar-variabel, tidak


spesifik untuk dataset xt, tidak memerlukan deklarasi data xt:
correlate [varlist] [if] [in] [, options]
Menampilkan matriks kovariansi,
pwcorr [varlist] [if] [in] [, pwcorr_options]
Menampilkan matriks koefisien korelasi.

19
Contoh 2.4:
Lihat kembali dataset pada Contoh 2.2.

. use "D:\Analisis Data Longitudinal\Data\union.dta", clear


. xtset id year

Hasil perintah terdahulu pada Contoh 2.2 tidak ditampilkan.

. xtdes

idcode: 1, 2, ..., 5159 n = 4434


year: 70, 71, ..., 88 T = 12
Delta(year) = 1 unit
Span(year) = 19 periods
(idcode*year uniquely identifies each observation)

Distribution of T_i: min 5% 25% 50% 75% 95% max


1 1 3 6 8 11 12

Freq. Percent Cum. | Pattern


---------------------------+---------------------
190 4.29 4.29 | 1111...11.1.11.1.11
129 2.91 7.19 | .......11.1.11.1.11
93 2.10 9.29 | 1..................
78 1.76 11.05 | .......1...........
68 1.53 12.58 | ..11...11.1.11.1.11
64 1.44 14.03 | ...1...11.1.11.1.11
60 1.35 15.38 | .111...11.1.11.1.11
52 1.17 16.55 | 11.................
52 1.17 17.73 | 1111...............
3648 82.27 100.00 | (other patterns)
---------------------------+---------------------
4434 100.00 | XXXX...XX.X.XX.X.XX

20
Contoh 2.5:
Lihat kembali dataset pada Contoh 2.1.
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
. xtset idcode year
panel variable: idcode (unbalanced)
time variable: year, 68 to 88, but with gaps
delta: 1 unit

. xttab msp

Overall Between Within


msp | Freq. Percent Freq. Percent Percent
------+--------------------------------------------------
0 | 11324 39.71 3113 66.08 62.69
1 | 17194 60.29 3643 77.33 75.75
------+--------------------------------------------------
Total | 28518 100.00 6756 143.41 69.73
(n = 4711)

. xttab race

Overall Between Within


race | Freq. Percent Freq. Percent Percent
------+--------------------------------------------------
white | 20180 70.72 3329 70.66 100.00
black | 8051 28.22 1325 28.13 100.00
other | 303 1.06 57 1.21 100.00
------+--------------------------------------------------
Total | 28534 100.00 4711 100.00 100.00
(n = 4711)

21
Contoh 2.6:
Lihat kembali dataset pada Contoh 2.3.
. use "D:\Analisis Data Longitudinal\Data\teenprov_long.dta"
. xtset id year
. xtsum

Variable | Mean Std. Dev. Min Max Observations


---------------+----------------------------------------+------------
id overall | 6016.672 3298.064 22 12539 | N = 5755
between | 3299.211 22 12539 | n = 1151
within | 0 6016.672 6016.672 | T = 5
| |
year overall | 3 1.414336 1 5 | N = 5755
between | 0 3 3 | n = 1151
within | 1.414336 1 5| T= 5
| |
age overall | 15.64639 1.04682 14 17 | N = 5755
between | 1.047184 14 17 | n = 1151
within | 0 15.64639 15.64639 | T = 5
| |
black overall | .5742832 .4944942 0 1 | N = 5755
between | .4946661 0 1 | n = 1151
within | 0 .5742832 .5742832 | T = 5
| |
pov overall | .3768897 .484649 0 1 | N = 5755
between | .3100424 0 1 | n = 1151
within | .3725925 -.4231103 1.17689 | T = 5
| |

mother overall | .1986099 .3989883 0 1| N= 5755


between | .3253864 0 1| n= 1151
within | .2310605 -.6013901 .9986099 | T = 5
| |

22
spouse overall | .0992181 .2989806 0 1| N= 5755
between | .2206498 0 1| n= 1151
within | .2018338 -.7007819 .8992181 | T = 5
| |
school overall | .6304083 .4827361 0 1| N= 5755
between | .32013 0 1| n= 1151
within | .3614169 -.1695917 1.430408 | T = 5
| |
hours overall | 8.671764 14.54341 0 90 | N = 5755
between | 9.363817 0 52.4 | n = 1151
within | 11.13062 -43.72824 72.07176 | T = 5

Contoh 2.7:
. use "D:\Analisis Data Longitudinal\Data\depress.dta"
. list in 1/5

+-------------------------------------------------------------+
| subj dep1 dep2 dep3 dep4 dep5 dep6 group pre |
|-------------------------------------------------------------|
1. | 1 17 18 15 17 14 15 0 18 |
2. | 2 26 23 18 17 12 10 0 27 |
3. | 3 17 14 . . . . 0 16 |
4. | 4 14 23 17 13 12 12 0 17 |
5. | 5 12 10 8 4 5 5 0 15 |
+-------------------------------------------------------------+

Tampak data berada dalam format melebar.

23
. graph box dep1-dep6, by(group)
30
20
10
0

. reshape long dep, i(subj) j(visit)


(note: j = 1 2 3 4 5 6)

Data wide -> long


-----------------------------------------------
Number of obs. 61 -> 366
Number of variables 9 -> 5
j variable (6 values) -> visit
xij variables:
dep1 dep2 ... dep6 -> dep
-----------------------------------------------

24
. list in 1/5

+----------------------------------+
| subj visit dep group pre |
|----------------------------------|
1. | 1 1 17 0 18 |
2. | 1 2 18 0 18 |
3. | 1 3 15 0 18 |
4. | 1 4 17 0 18 |
5. | 1 5 14 0 18 |
+----------------------------------+

. twoway scatter dep visit, connect(1)


(note: named style 1 not found in class connectstyle, default
attributes used)
30
20
dep
10
0

25
Contoh 2.8:
. use "D:\Analisis Data Longitudinal\Data\epil.dta"
. reshape long y, i(subj) j(time)
(note: j = 1 2 3 4)

Data wide -> long


--------------------------------------------------
Number of obs. 59 -> 236
Number of variables 9 -> 7
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
---------------------------------------------------

. list in 1/5
+------------------------------------------------+
| subj time id y treat baseline age |
|------------------------------------------------|
1. | 1 1 104 5 0 11 31 |
2. | 1 2 104 3 0 11 31 |
3. | 1 3 104 3 0 11 31 |
4. | 1 4 104 3 0 11 31 |
5. | 2 1 106 3 0 11 30 |
+------------------------------------------------+

. corr time treat age baseline


(obs=236)

| time treat age baseline


----------+------------------------------------
time | 1.0000
treat | 0.0000 1.0000
age | 0.0000 -0.1005 1.0000
baseline | 0.0000 0.0155 -0.1890 1.0000

26
BAB 3
ANOVA DENGAN
PENGUKURAN BERULANG

 Telaah Ulang ANOVA dengan Pengukuran


Berulang
Model untuk ANOVA dengan pengukuran berulang (Repeated
Measurements ANOVA) adalah:

yijk = µ + β i + τ j + γ k + (τγ ) jk + ε ijk


i = 1, 2, . . . , n j ; j = 1, 2, . . . , q; k = 1, 2, . . . , p
yijk : respons pengukuran unit ke-i pada waktu ke-k dalam grup j
µ : rerata total (overall mean)
βi : efek blok (subjek) ke-i
τj : efek perlakuan oleh grup j
γk : efek waktu (pengulangan) ke-k
(τγ ) jk : efek interaksi antara grup j dengan waktu ke-k
ε ijk : galat pada unit ke-i dalam grup j pada waktu ke-k

Asumsi-asumsi yang berlaku untuk ANOVA dengan pengukuran


berulang adalah::
1. Asumsi umum untuk Analisis Variansi:
- Asumsi normalitas: Varianbel respons berdistribusi normal
- Homogenitas variansi: Variansi dalam tiap grup perlakuan sama.
2. Khusus untuk Analisis Variansi dengan pengukuran berulang: Respons
pengamatan berulang yang diperoleh dari subjek yang sama tidak
independen satu sama lain. Asumsi khusus terpenting untuk ANOVA
dengan pengukuran adalah asumsi spherisitas, salah satu bentuknya
yaitu asumsi simetri compound dengan karakteristik berikut:
27
 Korelasi antar pengukuran sama. Misalkan dilakukan tiga kali
pengukuran berulang, maka:
r12 = r13 = r23
 Variansi pada tiap pengukuran sama. Misalnya dilakukan tiga
kali pengukuran, maka:

s12 = s22 = s32


Jika asumsi simetri compound tak terpenuhi, opsi yang tersedia
adalah:
• Penggunaan faktor koreksi epsilon dengan uji F konservatif
(Huynh-Feld, Greenhouse-Geisser, dan Box).
• Penggunaan Analisis Variansi Multivariat.

Tiga pertanyaan yang perlu dikaji jawabannya pada Analisis Variansi


dengan pengukuran berulang yaitu:
1. Adakah perbedaan efek perlakuan yang bermakna antar grup
penelitian?
2. Adakah perbedaan respons yang bermakna antar waktu pengukuran?
3. Adakah interaksi antara taraf perlakuan dengan waktu pengukuran?

 Rancangan Pengukuran Berulang Faktor


Tunggal
Model untuk rancangan pengukuran berulang dengan faktor tunggal
additif dan efek fixed adalah:

yij = µ + βi + τ j + ε ij
i = 1, 2, . . . , n ; j = 1, 2, . . . , p
yij : nilai observasi subjek (individu)
µ : rerata keseluruhan populasi

28
βi : efek ‘subjek’ (blok)
τj : efek pengulangan / waktu (perlakuan)
ε ij : komponen residual yang merepresentasikan semua sumber variasi
selain perlakuan dan subjek

Dalam model ini tidak ada efek grup (seluruh subjek hanya
merupakan 1 grup), sehingga tidak ada interaksi antara grup dengan waktu
(perlakuan). Penguraian variansi responsnya disajikan dalam bentuk tabel
ANOVA berikut.

Tabel ANOVA untuk Rancangan Pengukuran Berulang


Jumlah Rerata
Sumber variasi db F
Kuadrat Kuadrat
Antar-subjek n–1 JKB RKB RKB/RKG
Waktu (perlakuan) p–1 JKP RKP RKP/RKG
Residual (n – 1)(p – 1) JKG RKG
Total np – 1 JKT

JKB : Jumlah Kuadrat Blok


JKP : Jumlah Kuadrat Perlakuan
JKG : Jumlah Kuadrat Galat
JKT : Jumlah Kuadrat Total
RKB : Rerata Kuadrat Blok; RKB = JKB / (n – 1)
RKP : Rerata Kuadrat Perlakuan; RKP = JKP / (p – 1)
RKG : Rerata Kuadrat Galat; RKG = JKG / [(n – 1)(p – 1)]

Asumsi yang berlaku pada Rancangan Pengukuran Berulang dengan


faktor tunggal ini yaitu:
 Observasi dalam-subjek saling berkorelasi.
 Observasi antar-subjek independen.
 Matriks kovariansi antara observasi dalam-subjek konstan: Asumsi
compound symmetry

29
Dengan Stata, perintahnya adalah:
anova depvar id timevar, repeated(timevar)
depvar : Variabel dependen, respons individual
id : Variabel blok (subjek)
timevar : Variabel waktu (pengulangan)
Perintah Stata ini diberikan pada dataset yang dalam format
memanjang, tidak memerlukan deklarasi dataset logitudinal.

Contoh 3.1:
. use "D:\Analisis Data Longitudinal\Data\rat.dta"
. list
+--------------------------------+
| rat trial1 trial2 trial3 |
|--------------------------------|
1. | 1 10 8.2 5.3 |
2. | 2 12.1 11.2 9.1 |
3. | 3 9.2 8.1 4.6 |
4. | 4 11.6 10.5 8.1 |
5. | 5 8.3 7.6 5.5 |
|--------------------------------|
6. | 6 10.5 9.5 8.1 |
+--------------------------------+

. reshape long trial, i(rat) j(repeat)


(note: j = 1 2 3)

Data wide -> long


------------------------------------------------
Number of obs. 6 -> 18
Number of variables 4 -> 3
j variable (3 values) -> repeat
xij variables:
trial1 trial2 trial3 -> trial
------------------------------------------------
30
. list in 1/10

+----------------------+
| rat repeat trial |
|----------------------|
1. | 1 1 10 |
2. | 1 2 8.2 |
3. | 1 3 5.3 |
4. | 2 1 12.1 |
5. | 2 2 11.2 |
|----------------------|
6. | 2 3 9.1 |
7. | 3 1 9.2 |
8. | 3 2 8.1 |
9. | 3 3 4.6 |
10. | 4 1 11.6 |
|----------------------|

. anova trial rat repeat, repeated(repeat)

Number of obs = 18 R-squared = 0.9655


Root MSE = .514458 Adj R-squared = 0.9413

Source | Partial SS df MS F Prob>F


---------+--------------------------------------------
Model | 74.058335 17 10.579762 39.97 0.0000
|
rat | 35.618338 5 7.1236675 26.92 0.0000
repeat | 38.439997 2 19.219999 72.62 0.0000
|
Residual | 2.6466672 10 .26466672
---------+--------------------------------------------
Total | 76.705002 17 4.5120589

31
Between-subjects error term: rat
Levels: 6 (5 df)
Lowest b.s.e. variable: rat

Repeated variable: repeat


Huynh-Feldt epsilon = 0.6461
Greenhouse-Geisser epsilon = 0.5801
Box's conservative epsilon = 0.5000

------------ Prob > F ------------


Source | df F Regular H-F G-G Box
---------+-----------------------------------------------
repeat | 2 72.62 0.0000 0.0001 0.0001 0.0004
Residual | 10
---------------------------------------------------------

 Rancangan Pengukuran Berulang Dua-


Faktor
Model rancangan Analisis Variansi dengan dua-faktor melibatkan 2
faktor, A dan B, dengan potensi interaksi antara keduanya. Pada model
Analisis Variansi dengan pengukuran berulang ini faktor pertama adalah
grup dan faktor kedua adalah waktu.

yijk = µ + β i + τ j + γ k + (τγ ) jk + ε ijk


i = 1, 2, . . . , n j ; j = 1, 2, . . . , q; k = 1, 2, . . . , p
yijk : respons pengukuran unit ke-i pada waktu ke-k dalam grup j
µ : rerata total (overall mean)
βi : efek blok (subjek) ke-i
τj : efek perlakuan oleh grup j
γk : efek waktu (pengulangan) ke-k
(τγ ) jk : efek interaksi antara grup j dengan waktu ke-k

32
ε ijk : galat pada unit ke-i dalam grup j pada waktu ke-k

Perintah Stata adalah:


anova depvar group / id|group timevar timevar#group, repeated(time)

depvar : Variabel dependen, respons individual


group : Grup perlakuan
id : Variabel blok (subjek)
timevar : Variabel waktu (pengulangan)
Perintah Stata ini diberikan pada dataset yang dalam format
memanjang, tidak memerlukan deklarasi dataset logitudinal.

Contoh 3.2:
. use "D:\Analisis Data Longitudinal\Data\rat1.dta"
. list in 1/5

+------------------------------+
| rat repeat trial treat |
|------------------------------|
1. | 1 1 10 1 |
2. | 1 2 8.2 1 |
3. | 1 3 5.3 1 |
4. | 2 1 12.1 0 |
5. | 2 2 11.2 0 |
|------------------------------|

. anova trial treat / rat|treat repeat repeat#treat, repeated(repeat)

Number of obs = 18 R-squared = 0.9781


Root MSE = .458561 Adj R-squared = 0.9534

33
Source | Partial SS df MS F Prob>F
-------------+-------------------------------------------
Model | 75.02278 9 8.3358644 39.64 0.0000
|
treat | 31.733893 1 31.733893 32.68 0.0046
rat|treat | 3.8844446 4 .97111116
-------------+-------------------------------------------
repeat | 38.439997 2 19.219999 91.40 0.0000
repeat#treat | .96444486 2 .48222243 2.29 0.1632
|
Residual | 1.6822223 8 .21027779
-------------+-------------------------------------------
Total | 76.705002 17 4.5120589

Between-subjects error term: rat|treat


Levels: 6 (4 df)
Lowest b.s.e. variable: rat
Covariance pooled over: treat (for repeated variable)

Repeated variable: repeat


Huynh-Feldt epsilon = 0.9908
Greenhouse-Geisser epsilon = 0.6218
Box's conservative epsilon = 0.5000

---------- Prob > F -----------


Source | df F Regular H-F G-G Box
-------------+-------------------------------------------
repeat | 2 91.40 0.0000 0.0000 0.0002 0.0007
repeat#treat | 2 2.29 0.1632 0.1639 0.1940 0.2045
Residual | 8
---------------------------------------------------------

34
Contoh 3.3:
. use “D:\Analisis Data Longitudinal\Data\repeat1.dta”, clear
. sum y1-y4
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
y1 | 8 3 1.690309 1 6.5
y2 | 8 3.75 1.101946 2 5.5
y3 | 8 6.5 1.253566 5 8.5
y4 | 8 9.25 1.101946 7.5 11

. tabstat y1-y4, by(trt) stat(n mean sd var)


Summary statistics: N, mean, sd, variance
by categories of: trt

trt | y1 y2 y3 y4
------+----------------------------------------
1 | 4 4 4 4
| 4.25 4.5 7.5 8.5
| 1.5 .8164966 .8164966 .8164966
| 2.25 .6666667 .6666667 .6666667
------+----------------------------------------
2 | 4 4 4 4
| 1.75 3 5.5 10
| .5 .8164966 .5773503 .8164966
| .25 .6666667 .3333333 .6666667
------+----------------------------------------
Total | 8 8 8 8
| 3 3.75 6.5 9.25
| 1.690309 1.101946 1.253566 1.101946
| 2.857143 1.214286 1.571429 1.214286
-----------------------------------------------

35
Grafik untuk kedelapan rerata sel di atas adalah:

. profileplot y1-y4, by(trt)

Gambar 1 Plot rerata respons pada keempat titik waktu pengukuran


menurut grup perlakuan

Matriks korelasi dan kovariansi respons menurut titik waktu masing-


masing adalah:

. correlate y1-y4
(obs=8)

| y1 y2 y3 y4
--------+------------------------------------
------------------------------------
y1 | 1.0000
y2 | 0.8820 1.0000
y3 | 0.9102 0.8273 1.0000
y4 | -0.5752 -0.6471
0.6471 -0.5171 1.0000

36
. correlate y1-y4, cov
(obs=8)

| y1 y2 y3 y4
--------+------------------------------------
y1 | 2.85714
y2 | 1.64286 1.21429
y3 | 1.92857 1.14286 1.57143
y4 | -1.07143 -.785714 -.714286 1.21429

Pada ANOVA dengan pengukuran berulang diasumsikan struktur


kovariansi dalam-subjek bersifat simetrik compound. Matriks kovariansi di
atas tidak memiliki simetri compound. Selanjutnya data akan diubah menjadi
bentuk memanjang (long form).

. reshape long y, i(id) j(time)


(note: j = 1 2 3 4)

Data wide -> long


------------------------------------------
Number of obs. 8 -> 32
Number of variables 6 -> 4
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
------------------------------------------

. list in 1/5
+-----------------------+
| id time trt y |
|-----------------------|
1. | 1 1 1 3.5 |
2. | 1 2 1 4.5 |
3. | 1 3 1 7.5 |
4. | 1 4 1 7.5 |
5. | 2 1 1 6.5 |
+-----------------------+
37
Rancangan ini dinamakan juga Analisis Variansi Faktorial Split-
plot. Pada Stata dengan format data memanjang, perlu dispesifikasikan suku
galat untuk efek antar-subjek maupun dalam-subjek. Syaratnya yaitu ada satu
suku galat untuk seluruh efek antar-subjek, suku galat terpisah untuk tiap
faktor dalam subjek, dan interaksi antar faktor dalam-subjek. Pada model ini
juga ada 2 suku galat tersebut. Efek antar-subjek adalah treatment (trt) dan
suku galatnya tersarang dalam treatment (id | trt). Faktor waktu dalam-
subjek adalah time. Suku galatnya adalah galat residual untuk model.
Pada ANOVA dengan pengukuran berulang diasumsikan struktur
kovariansi bersifat simetrik compound, yang dikenal juga sebagai
exchangeable. Dengan simetri compound diasumsikan variansi sama pada
tiap titik waktu dan kovariansi juga sama satu dengan lainnya. Jika struktur
kovariansi dalam-subjek tidak memiliki simetri compound, maka nilai p yang
diperoleh pada ANOVA dengan pengukuran berulang tidak merefleksikan
probabilitas yang “benar” secara akurat. Pada Stata ketiadaan simetri
compound dikoreksi dengan memasukkan opsi repeated() ke dalam
perintah anova yang akan menghasilkan perhitungan nilai p dengan uji F
konservatif.

. anova y trt / id|trt time trt#time, repeated(time)

Number of obs = 32 R-squared = 0.9624


Root MSE = .712 Adj R-squared = 0.9352

Source | Partial SS df MS F Prob>F


---------+--------------------------------------------
Model | 233.375 13 17.951923 35.41 0.0000
|
trt | 10.125 1 10.125 6.48 0.0438
id|trt | 9.375 6 1.5625
---------+--------------------------------------------
time | 194.5 3 64.833333 127.89 0.0000
trt#time | 19.375 3 6.4583333 12.74 0.0001
|

38
Residual | 9.125 18 .50694444
---------+--------------------------------------------
Total | 242.5 31 7.8225806

Between-subjects error term: id|trt


Levels: 8 (6 df)
Lowest b.s.e. variable: id
Covariance pooled over: trt (for repeated variable)

Repeated variable: time


Huynh-Feldt epsilon = 0.9432
Greenhouse-Geisser epsilon = 0.5841
Box's conservative epsilon = 0.3333

------------ Prob > F ------------


Source | df F Regular H-F G-G Box
---------+----------------------------------------
time | 3 127.89 0.0000 0.0000 0.0000 0.0000
trt#time | 3 12.74 0.0001 0.0002 0.0019 0.0118
Residual | 18
--------------------------------------------------

Efek-efek utama yaitu treatment dan time keduanya bermakna,


begitu pula interaksi antara keduanya. Pada keluaran tercantum hasil ketiga
uji F konservatif, yaitu Huynh-Feldt, Greenhouse-Geisser, dan Box.
Ketiganya menghasilkan nilai p yang benar walaupun asumsi simetri
compound tidak terpenuhi. Disimpulkan bahwa baik treatment maupun
time, begitu pula interaksi antara keduanya memiliki efek yang bermakna
terhadap variabel respons.

Untuk mengkaji efek treatment pada tiap titik waktu digunakan


perintah contrast.

39
. contrast time@trt, effect
Contrasts of marginal linear predictions

Margins : asbalanced
-----------------------------------------------
| df F P>F
------------+----------------------------------
time@trt |
1 | 3 35.96 0.0000
2 | 3 104.67 0.0000
Joint | 6 70.32 0.0000
|
Denominator | 18
-----------------------------------------------

---------------+-----------------------------------------------------
| Contrast Std. Err. t P>|t| [95% Conf. Interval]
---------------------------------------------------------------------
time@trt |
(2 vs base) 1 | .25 .5034602 0.50 0.626 -.8077307 1.307731
(2 vs base) 2 | 1.25 .5034602 2.48 0.023 .1922693 2.307731
(3 vs base) 1 | 3.25 .5034602 6.46 0.000 2.192269 4.307731
(3 vs base) 2 | 3.75 .5034602 7.45 0.000 2.692269 4.807731
(4 vs base) 1 | 4.25 .5034602 8.44 0.000 3.192269 5.307731
(4 vs base) 2 | 8.25 .5034602 16.39 0.000 7.192269 9.307731
---------------------------------------------------------------------

40
BAB 4
MANOVA DENGAN
PENGUKURAN BERULANG

 Telaah Teoretik MANOVA


Rancangan analisis variansi multivariat (MANOVA) 1-arah dengan 3
variabel dependen dapat digambarkan sebagai berikut:

Pada MANOVA secara umum terdapat satu atau lebih prediktor


kategorik dengan lebih daripada satu variabel respons yang galatnya saling
berkorelasi. Himpunan variabel respons ini membentuk matriks variabel
dependen yang diasumsikan berdistribusi normal multivariat.
MANOVA dapat digunakan untuk rancangan studi balans (jumlah
anggota sampel tiap kategori prediktor sama banyak) ataupun rancangan
studi tak-balans.
Keluaran perintah manova dengan Stata memuat 4 statistik penguji
multivariat untuk setiap variabel prediktor, yaitu:
a. Wilks’ lambda: Proporsi variansi respons yang tidak ‘dijelaskan’
oleh salah satu prediktor.
b. Pillai’s trace: Jumlah rasio setiap eigenvalue dengan 1 + akar
karakteristik.

41
c. Lawley-Hotelling trace: Jumlah akar perkalian matriks jumlah
kuadrat model dengan matriks jumlah kuadrat galat.
d. Roy’s largest root: Akar terbesar perkalian matriks jumlah kuadrat
model dengan matriks jumlah kuadrat galat.

 Asumsi pada Analisis Variansi Multivariat


Pada Analisis Variansi univariat dengan pengukuran berulang
diperlukan pemenuhan sejumlah asumsi, antara lain asumsi normalitas dan
homogenitas variansi. Selain itu, asumsi yang juga sangat penting adalah
asumsi spherisitas, antara lain dalam bentuk asumsi simetri compound.
Pada Analisis Variansi multivariat sebagian asumsi tersebut tetap
berlaku bahkan dalam bentuk perluasannya, yaitu:
 Normalitas multivariat: Tiap variabel dependen masing-masing
berdistribusi normal dan secara bersama berdistribusi normal multivariat.
 Homogenitas matriks kovariansi: Variansi setiap variabel dependen
dan kovariansi antar tiap pasangan variabel dependen homogen.
Asumsi spherisitas dan simetri compound tak berlaku pada Analisis
Variansi multivariat. Dalam kenyataannya asumsi demikian memang
seringkali tak terpenuhi pada data dengan lebih daripada 2 pengukuran
berulang. Walaupun didapat uji spherisitas termasuk untuk asumsi simetri
compound, antara lain dengan uji Mauchly, uji demikian sangat sensitif
terhadap penyimpangan berbagai asumsi lainnya, sehingga umumnya tidak
terlalu dianjurkan. Keuntungan analisis multivariat di sini ialah bahwa
asumsi spherisitas termasuk simetri compound tidak diperlukan pada
MANOVA dengan pengukuran berulang.

 Analisis Variansi Multivariat dengan Stata


Walaupun teknik MANOVA telah mulai dikembangkan sejak 1930-
an dan 1940-an, penerapannya secara luas dalam bidang penelitian baru
terutama terjadi pada era komputer. Perintah Stata untuk MANOVA dengan
pengukuran berulang adalah:
42
 Uji asumsi normalitas multivariat:
mvtest normality varlist [if] [in] [, options]
 Uji asumsi homogenitas matriks kovariansi:

mvtest covariances varlist [if] [in] [, options]

 Uji hipotesis H 0 : τ 1 = τ 2 = . . . = τ k = 0

manova depvarlist = termlist [if] [in] [, options]


termlist adalah daftar variabel-faktor yang memenuhi syarat-syarat
berikut:
• Variabel diasumsikan kategorik.
• Simbol | menyatakan interaksi.
• Simbol / sesudah suatu suku menyatakan suku sesudahnya adalah
galat untuk suku sebelumnya.

 Uji hipotesis H 0 : µ 1 = µ 2 = . . . = µ k

manovatest term [, ytransform(matname)]


term adalah term dari termlist pada perintah manova sebelumnya.
Perintah manova dan manovatest tidak perlu didahului dengan
deklarasi dataset longitudinal dan dilakukan terhadap dataset dengan format
melebar.

Contoh 4.1:
Di sini diperlihatkan pelaksanaan uji normalitas multivariat dan uji
homogenitas matriks kovariansi.
. use “D:\Analisis Data Longitudinal\Data\manova3.dta”, clear
Ada 3 grup pada dataset ini. Grup 1 dinamakan grup treatment,
grup 2 dinamakan control_1, dan grup 3 adalah control_2. Untuk tiap
grup, variabel respons adalah useful, difficulty, dan importance.

43
. summarize useful difficulty importance

Variable | Obs Mean Std. Dev. Min Max


-----------+------------------------------------------
useful | 33 16.3303 3.292461 11.9 24.3
difficulty | 33 5.715152 2.017598 2.4 10.25
importance | 33 6.475758 3.985131 .2 18.8

. tabulate group, nolabel


group | Freq. Percent Cum.
-------+----------------------------
1 | 11 33.33 33.33
2 | 11 33.33 66.67
3 | 11 33.33 100.00
-------+----------------------------
Total | 33 100.00

. tabstat difficulty useful importance, by(group)

Summary statistics: mean


by categories of: group

group | diffic~y useful import~e


----------+------------------------------
treatment | 6.190909 18.11818 8.681818
control_1 | 5.581818 15.52727 5.109091
control_2 | 5.372727 15.34545 5.636364
----------+------------------------------
Total | 5.715152 16.3303 6.475758
-----------------------------------------

44
. correlate useful difficulty importance
(obs=33)

| useful diffic~y import~e


-------------+---------------------------
useful | 1.0000
difficulty | 0.0978 1.0000
importance | -0.3411 0.1978 1.0000

. mvtest normality difficult useful importance

Test for multivariate normality

Doornik-Hansen chi2(6) = 13.371 Prob>chi2 = 0.0375

Tampak bahwa data tidak memenuhi asumsi normalitas multivariat.

. mvtest covariance difficult useful importance, by(group)

Test of equality of covariance matrices across 3 samples

Modified LR chi2 = 12.02242


Box F(12,4361.5) = 0.85 Prob > F = 0.5938
Box chi2(12) = 10.29 Prob > chi2 = 0.5909

Disimpulkan bahwa matriks kovariansi homogen.

Contoh 4.2:
. use “D:\Analisis Data Longitudinal\Data\manova_nobetween.dta”,
clear
. list
+---------------------------------+
| subject test1 test2 test3 |
|---------------------------------|
1. | 1 68 69 95 |
2. | 2 50 74 69 |
45
3. | 3 72 89 71 |
4. | 4 61 64 61 |
5. | 5 60 71 90 |
+---------------------------------+

. generate mycons = 1

. manova test1 test2 test3 = mycons, noconstant

Number of obs = 5

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+----------------------------------------------
mycons | W 0.0076 1 3.0 2.0 86.91 0.0114 e
| P 0.9924 3.0 2.0 86.91 0.0114 e
| L 130.3722 3.0 2.0 86.91 0.0114 e
| R 130.3722 3.0 2.0 86.91 0.0114 e
|----------------------------------------------
Residual | 4
---------+----------------------------------------------
Total | 5
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Perintah manova menguji hipotesis nol bahwa rerata semua variabel


dependen sama dengan nol. Tampak bahwa hasil pengujian dengan keempat
statistik penguji semuanya menolak hipotesis nol.

. mat in c = (1,0,-1\0,1,-1)

46
. manovatest mycons, ytransform(c)

Transformations of the dependent variables


(1) test1 - test3
(2) test2 - test3

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+----------------------------------------------
mycons | W 0.2352 1 2.0 3.0 4.88 0.1141 e
| P 0.7648 2.0 3.0 4.88 0.1141 e
| L 3.2509 2.0 3.0 4.88 0.1141 e
| R 3.2509 2.0 3.0 4.88 0.1141 e
|----------------------------------------------
Residual | 4
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Perintah manovatest menguji hipotesis nol bahwa rerata semua


variabel dependen sama. Hasil tes menunjukkan bahwa hipotesis nol bahwa
rerata semua variabel dependen sama tidak ditolak. Berikut sebagai
perbandingan akan diperlihatkan hasil uji multivariat MANOVA di atas
dengan uji univariat ANOVA, format data perlu terlebih dahulu diubah
menjadi memanjang.

. reshape long test, i(subject) j(testnum)


(note: j = 1 2 3)

Data wide -> long


------------------------------------------------------
Number of obs. 5 -> 15
Number of variables 5 -> 4

47
j variable (3 values) -> testnum
xij variables:
test1 test2 test3 -> test
-------------------------------------------------------

. anova test subject testnum, repeated(testnum)

Number of obs = 15 R-squared = 0.5938


Root MSE = 10.3231 Adj R-squared = 0.2892

Source | Partial SS df MS F Prob>F


---------+--------------------------------------------
Model | 1246.4 6 207.73333 1.95 0.1878
|
subject | 638.26667 4 159.56667 1.50 0.2901
testnum | 608.13333 2 304.06667 2.85 0.1160
|
Residual | 852.53333 8 106.56667
---------+--------------------------------------------
Total | 2098.9333 14 149.92381

Between-subjects error term: subject


Levels: 5 (4 df)
Lowest b.s.e. variable: subject

Repeated variable: testnum


Huynh-Feldt epsilon = 0.9760
Greenhouse-Geisser epsilon = 0.7054
Box's conservative epsilon = 0.5000

----------- Prob > F ----------


Source | df F Regular H-F G-G Box
---------+-------------------------------------------
testnum | 2 2.85 0.1160 0.1181 0.1435 0.1665
Residual | 8
-----------------------------------------------------
48
. Tampak bahwa dengan Repeated Measures ANOVA diperoleh hasil
yang praktis sama, walaupun dengan nilai p yang sedikit berbeda.

Contoh 4.3:
Pada Contoh 4.3 ini akan diperlihatkan contoh dengan rancangan
dalam-subjek, yang dikenal juga sebagai rancangan blok randomisasi.
Untuk tiap subjek dilakukan 4 kali pengamatan, yaitu y1. y2, y3, dan y4.

. use "D:\Analisis Data Longitudinal\Data\manova1.dta"

Akan dibuat kontras antar variabel dependen dengan menggunakan


matriks ycomp sebagai berikut.

. matrix input ycomp = (1 0 0 -1\0 1 0 -1\0 0 1 -1)

. mat list ycomp

ycomp[3,4]
c1 c2 c3 c4
r1 1 0 0 -1
r2 0 1 0 -1
r3 0 0 1 -1

. manovatest con, ytrans(ycomp)


Transformations of the dependent variables
(1) y1 - y4
(2) y2 - y4
(3) y3 - y4

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

49
Source | Statistic df F(df1, df2) = F Prob>F
---------+----------------------------------------------
con | W 0.2458 1 3.0 5.0 5.11 0.0554 e
| P 0.7542 3.0 5.0 5.11 0.0554 e
| L 3.0682 3.0 5.0 5.11 0.0554 e
| R 3.0682 3.0 5.0 5.11 0.0554 e
|----------------------------------------------
Residual | 7
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Tampak bahwa perbedaan antar variabel dependen tidak bermakna


pada tingkat signifikansi 0.05.

Contoh 4.4:
Dataset pada Contoh 4.4 ini juga menggunakan rancangan blok
randomisasi.

. use “D:\Analisis Data Longitudinal\Data\sorghum.dta”, clear


((Leaf area index on 4 sorghum varieties, Milliken & Johnson
(2009)))
. manova time1 time2 time3 time4 time5 = variety block

Number of obs = 20

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+-------------------------------------------------
Model | W 0.0001 7 35.0 36.1 9.50 0.0000 a
| P 3.3890 35.0 60.0 3.61 0.0000 a
| L 126.2712 35.0 32.0 23.09 0.0000 a
| R 109.7360 7.0 12.0 188.12 0.0000 u

50
|-------------------------------------------------
Residual | 12
---------+-------------------------------------------------
variety | W 0.0011 3 15.0 22.5 16.11 0.0000 a
| P 2.5031 15.0 30.0 10.08 0.0000 a
| L 48.3550 15.0 20.0 21.49 0.0000 a
| R 40.0068 5.0 10.0 80.01 0.0000 u
|-------------------------------------------------
block | W 0.0047 4 20.0 27.5 5.55 0.0000 a
| P 1.7518 20.0 44.0 1.71 0.0681 a
| L 77.9162 20.0 26.0 25.32 0.0000 a
| R 76.4899 5.0 11.0 168.28 0.0000 u
|-------------------------------------------------
Residual | 12
---------+-------------------------------------------------
Total | 19
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

. matrix m1 = J(1,5,1)

. matrix inp m2 = (1,-1,0,0,0 \ 1,0,-1,0,0 \ 1,0,0,-1,0 \ 1,0,0,0,-1)

. manovatest, showorder

Order of columns in the design matrix


1: (variety==1)
2: (variety==2)
3: (variety==3)
4: (variety==4)
5: (block==1)
6: (block==2)
7: (block==3)
8: (block==4)
9: (block==5)
10: _cons

51
. matrix inp c1 = (1 −1 0 0 0 0 0 0 0 0\1 0 −1 0 0 0 0 0 0 0\1 0 0 −1 0 0 0
0 0 0)

. matrix inp c2 = (.25 .25 .25 .25 .2 .2 .2 .2 .2 1)

. manovatest, test(c1) ytransform(m1)

Transformation of the dependent variables


(1) time1 + time2 + time3 + time4 + time5

Test constraints
(1) 1.variety - 2.variety = 0
(2) 1.variety - 3.variety = 0
(3) 1.variety - 4.variety = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


-----------+-----------------------------------------------
manovatest | W 0.0435 3 3.0 12.0 88.05 0.0000 e
| P 0.9565 3.0 12.0 88.05 0.0000 e
| L 22.0133 3.0 12.0 88.05 0.0000 e
| R 22.0133 3.0 12.0 88.05 0.0000 e
|-----------------------------------------------
Residual | 12
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

. manovatest, test(c2) ytransform(m2)

Transformations of the dependent variables


(1) time1 - time2
(2) time1 - time3
(3) time1 - time4
(4) time1 - time5

52
Test constraint
(1) .25*1.variety + .25*2.variety + .25*3.variety +
.25*4.variety + .2*1.block + .2*2.block + .2*3.block +
.2*4.block + .2*5.block + _cons = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


-----------+-------------------------------------------------
manovatest | W 0.0050 1 4.0 9.0 445.62 0.0000 e
| P 0.9950 4.0 9.0 445.62 0.0000 e
| L 198.0544 4.0 9.0 445.62 0.0000 e
| R 198.0544 4.0 9.0 445.62 0.0000 e
|-------------------------------------------------
Residual | 12
-------------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

. manovatest, test(c1) ytransform(m2)

Transformations of the dependent variables


(1) time1 - time2
(2) time1 - time3
(3) time1 - time4
(4) time1 - time5

Test constraints
(1) 1.variety - 2.variety = 0
(2) 1.variety - 3.variety = 0
(3) 1.variety - 4.variety = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

53
Source | Statistic df F(df1, df2) = F Prob>F
-----------+------------------------------------------------
manovatest | W 0.0143 3 12.0 24.1 8.00 0.0000 a
| P 2.1463 12.0 33.0 6.91 0.0000 a
| L 12.1760 12.0 23.0 7.78 0.0000 a
| R 8.7953 4.0 11.0 24.19 0.0000 u
|------------------------------------------------
Residual | 12
------------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Contoh 4.5:
Di sini diperlihatkan contoh rancangan dalam-subjek dengan 2 level,
yang dapat digolongkan ke dalam rancangan faktorial split-plot.

. use "D:\Analisis Data Longitudinal\Data\manova2.dta"

Berikut dilakukan uji MANOVA terhadap faktor antar-subjek.

. manova y1 y2 y3 y4 = a

Number of obs = 8

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+----------------------------------------------
a | W 0.1374 1 4.0 3.0 4.71 0.1169 e
| P 0.8626 4.0 3.0 4.71 0.1169 e
| L 6.2764 4.0 3.0 4.71 0.1169 e
| R 6.2764 4.0 3.0 4.71 0.1169 e
|----------------------------------------------
Residual | 6
---------+----------------------------------------------
Total | 7
--------------------------------------------------------

54
e = exact, a = approximate, u = upper bound on F

Faktor antar-subjek tidak bermakna secara statistik. Selanjutnya


dilakukan pengkodean kontras antar variabel dependen dengan matriks ymat
dan dilakukan uji interaksi a*y (antar-subjek*dalam-subjek).

. mat in ymat = (1 0 0 -1\0 1 0 -1\0 0 1 -1)

. mat list ymat


ymat[3,4]
c1 c2 c3 c4
r1 1 0 0 -1
r2 0 1 0 -1
r3 0 0 1 -1

. manovatest a, ytransform(ymat)
Transformations of the dependent variables
(1) y1 - y4
(2) y2 - y4
(3) y3 - y4

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+----------------------------------------------
a | W 0.1443 1 3.0 4.0 7.91 0.0371 e
| P 0.8557 3.0 4.0 7.91 0.0371 e
| L 5.9296 3.0 4.0 7.91 0.0371 e
| R 5.9296 3.0 4.0 7.91 0.0371 e
|----------------------------------------------
Residual | 6
--------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

55
Berikut akan diuji efek variabel dalam-subjek dengan menggunakan
matriks xmat untuk membentuk kontras bagi variabel prediktor.

. mat in xmat = (1 0.5 0.5)

. mat list xmat

xmat[1,3]
c1 c2 c3
r1 1 .5 .5

. manovatest, test(xmat) ytransform(ymat)

Transformations of the dependent variables


(1) y1 - y4
(2) y2 - y4
(3) y3 - y4

Test constraint
(1) 1.a + .5*2.a + .5*_cons = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


-----------+----------------------------------------------
manovatest | W 0.0392 1 3.0 4.0 32.66 0.0028 e
| P 0.9608 3.0 4.0 32.66 0.0028 e
| L 24.4930 3.0 4.0 32.66 0.0028 e
| R 24.4930 3.0 4.0 32.66 0.0028 e
|----------------------------------------------
Residual | 6
----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Uji faktor dalam-subjek juga bermakna, walaupun hal ini diakibatkan


oleh adanya interaksi.

56
Contoh 4.6:
Lihat kembali dataset pada Contoh 4.1. Setelah uji asumsi pada
Contoh 4.1, uji MANOVA akan dilanjutkan di sini.

. use “D:\Analisis Data Longitudinal\Data\manova3.dta”, clear

. manova difficulty useful importance = group


Number of obs = 33

W = Wilks’ lambda L = Lawley-Hotelling trace


P = Pillai’s trace R = Roy’s largest root

Source | Statistic df F(df1, df2) = F Prob>F


---------+-----------------------------------------------
group | W 0.5258 2 6.0 56.0 3.54 0.0049 e
| P 0.4767 6.0 58.0 3.02 0.0122 a
| L 0.8972 6.0 54.0 4.04 0.0021 a
| R 0.8920 3.0 29.0 8.62 0.0003 u
|-----------------------------------------------
Residual | 30
---------+-----------------------------------------------
Total | 32
e = exact, a = approximate, u = upper bound on F

Untuk menilai output MANOVA, diperlukan matriks eigenvalues


jumlah kuadrat model dan jumlah kuadrat galat berikut.

. matrix list e(eigvals_m)

e(eigvals_m)[1,2]
c1 c2
r1 .8919879 .00524207

Tampak eigenvalues hasil perkalian jumlah kuadrat model dengan


jumlah kuadrat galat. Hanya ada 2 nilai eigenvalues yang ditampilkan karena
eigenvalue ketiga sama dengan nol.

57
Perhitungan keempat statistik penguji multivariat untuk group
adalah:
 Wilk’s lambda:
1
= ∑i 1+ λ
i
1 1 1
= + +
1 + 0.8919879 1 + 0.00524207 1+ 0
= 0.5258

 Pillai’s trace:
0.8919879
= + 0.00524207 + 0
1 + 0.8919879 1 + 0.00524207 1+ 0
= 0.4767

 Lawley-Hotelling trace:
= 0.8919879 + 0.00524207 + 0
= 0.8972

 Roy’s largest root:


= 0.8920

Tampak bahwa untuk keempat statistik penguji multivariat tersebut,


prediktor group bermakna secara statistik.

. manovatest, showorder

Order of columns in the design matrix


1: (group==1)
2: (group==2)
3: (group==3)
4: _cons

. matrix c1=(2,-1,-1,0)

. manovatest, test(c1)

58
Test constraint
(1) 2*1.group - 2.group - 3.group = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


-----------+-----------------------------------------------
manovatest | W 0.5290 1 3.0 28.0 8.31 0.0004 e
| P 0.4710 3.0 28.0 8.31 0.0004 e
| L 0.8904 3.0 28.0 8.31 0.0004 e
| R 0.8904 3.0 28.0 8.31 0.0004 e
|-----------------------------------------------
Residual | 30
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Grup 1 tampak berbeda secara bermakna dengan rerata grup 2 dan


grup 3.

. matrix c2=(0,1,-1,0)

. manovatest, test(c2)

Test constraint
(1) 2.group - 3.group = 0

W = Wilks' lambda L = Lawley-Hotelling trace


P = Pillai's trace R = Roy's largest root

Source | Statistic df F(df1, df2) = F Prob>F


-----------+-----------------------------------------------
manovatest | W 0.9932 1 3.0 28.0 0.06 0.9785 e
| P 0.0068 3.0 28.0 0.06 0.9785 e

59
| L 0.0068 3.0 28.0 0.06 0.9785 e
| R 0.0068 3.0 28.0 0.06 0.9785 e
|-----------------------------------------------
Residual | 30
-----------------------------------------------------------
e = exact, a = approximate, u = upper bound on F

Hasil di sini menunjukkan bahwa grup kontrol 1 (grup 2) tidak


berbeda secara bermakna dengan grup kontrol 2 (grup 3). Untuk
memprediksi nilai-nilai suaian (adjusted values) bagi tiap grup digunakan
perintah margins.

. margins group, predict(equation(difficulty))

Adjusted predictions Number of obs = 33

Expression : Linear prediction, predict(equation(difficulty))

---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 6.190909 .6186184 10.01 0.000 4.927522 7.454296
control_1 | 5.581818 .6186184 9.02 0.000 4.318431 6.845206
control_2 | 5.372727 .6186184 8.69 0.000 4.10934 6.636115
---------------------------------------------------------------

. margins group, predict(equation(useful))

Adjusted predictions Number of obs = 33

Expression : Linear prediction, predict(equation(useful))

60
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 18.11818 .9438243 19.20 0.000 16.19064 20.04573
control_1 | 15.52727 .9438243 16.45 0.000 13.59973 17.45482
control_2 | 15.34545 .9438243 16.26 0.000 13.41791 17.273
---------------------------------------------------------------

. margins group, predict(equation(importance))

Adjusted predictions Number of obs = 33

Expression : Linear prediction, predict(equation(importance))

---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-----------+---------------------------------------------------
group |
treatment | 8.681818 1.136676 7.64 0.000 6.360415 11.00322
control_1 | 5.109091 1.136676 4.49 0.000 2.787688 7.430494
control_2 | 5.636364 1.136676 4.96 0.000 3.314961 7.957766
---------------------------------------------------------------

61
BAB 5
ANALISIS GENERALIZED
ESTIMATING EQUATIONS

 Pengertian GEE
Generalized Estimating Equations (GEE) adalah himpunan prosedur
inferensi statistik bagi data yang berkorelasi, terutama data longitudinal,
yang tidak memenuhi asumsi Generalized Linear Models tentang normalitas
dan independensi. GEE merupakan pengembangan GLM yang khusus
diperuntukkan untuk data berkorelasi.
Model yang digunakan adalah model sederhana untuk korelasi
dalam-subjek dengan matriks korelasi kerja (working correlation matrix)
yang mengakomodasikan korelasi tersebut. Dengan prosedur iteratif yang
menggunakan metode quasi-likelihood diperoleh estimasi parameter rerata
yang konsisten, walaupun spesifikasi struktur kovariansi yang digunakan
tidak benar.

 Struktur Korelasi Kerja


Hasil pengukuran berulang dalam satu subjek pada data longitudinal
saling berkorelasi dan tidak independen satu sama lain. Untuk
mengkoreksinya, pada GEE secara apriori diasumsikan struktur korelasi
‘kerja’ tertentu bagi variabel respons Y.
Beberapa struktur korelasi kerja (working correlations) yang dapat
dipilih antara lain yaitu:
 Struktur independen (independent structure)

Korelasi antar pengukuran berturutan diasumsikan sama dengan nol.


Struktur korelasinya adalah:

63
t1 t2 t3 t4 t5 t6
t1 − 0 0 0 0 0
t2 0 − 0 0 0 0
t3 0 0 − 0 0 0
0
t4 0 0 0 − 0

t5 0 0 0 0 − 0
t6 0 0 0 0 0 −

 Struktur pertukaran (exchangeable structure)

Seluruh korelasi antara 2 pengukuran diasumsikan sama besar, tak


tergantung besar jarak waktu yang memisahkannya.

t1 t2 t3 t4 t5 t6

t1 − ρ ρ ρ ρ ρ
t2 ρ − ρ ρ ρ ρ
t3 ρ ρ − ρ ρ ρ
t4 ρ ρ ρ − ρ ρ
t5 ρ ρ ρ ρ − ρ
t6 ρ ρ ρ ρ ρ −

 Struktur m-dependen stasioner (stationary m-dependent structure)

Korelasi yang terpisah t pengukuran sama besar, korelasi yang terpisah


t + 1 sama besar, dan seterusnya untuk t = 1 sampai dengan t = m.
Korelasi yang terpisah lebih daripada m pengukuran diasumsikan sama
dengan nol.

64
t1 t2 t3 t4 t5 t6
t1 − ρ1 ρ2 0 0 0
t2 ρ1 − ρ1 ρ2 0 0
t3 ρ2 ρ1 − ρ1 ρ2 0
t4 0 ρ2 ρ1 − ρ1 ρ2
t5 0 0 ρ2 ρ1 − ρ1
t6 0 0 0 ρ2 ρ1 −

 Struktur korelasi autoregresi (autoregressive correlation structure)

Korelasi yang terpisah 1 pengukuran diasumsikan sama dengan ρ ,


yang terpisah 2 pengukuran diasumsikan sama dengan ρ 2 , yang
terpisah t pengukuran diasumsikan sama dengan ρ t .

t1 t2 t3 t4 t5 t6
t1 − ρ1 ρ2 ρ3 ρ4 ρ5
t2 ρ1 − ρ1 ρ2 ρ3 ρ4
t3 ρ2 ρ1 − ρ1 ρ2 ρ3
t4 ρ3 ρ2 ρ1 − ρ1 ρ2
t5 ρ4 ρ3 ρ2 ρ1 − ρ1
t6 ρ5 ρ4 ρ3 ρ2 ρ1 −

 Struktur korelasi tak-terstruktur (unstructured correlation


structure)

Pada struktur ini, seluruh korelasi diasumsikan berbeda:

t1 t2 t3 t4 t5 t6
t1 − ρ1 ρ2 ρ3 ρ4 ρ5
t2 ρ1 − ρ6 ρ7 ρ8 ρ9
t3 ρ2 ρ6 − ρ10 ρ11 ρ12

65
t4 ρ3 ρ7 ρ10 − ρ13 ρ14
t5 ρ4 ρ8 ρ11 ρ13 − ρ15
t6 ρ5 ρ9 ρ12 ρ14 ρ15 −

 Analisis GEE dengan Stata


Estimasi model GEE dilakukan setelah dataset dideklarasikan sebagai
dataset longitudinal. Perintah untuk estimasi model GEE adalah:
xtgee depvar [indepvars] [if] [in] [, options]
depvar : Respons / variabel dependen
indepvars : Prediktor / variabel independen

Beberapa opsi:
family(family) :Distribusi respons, default-nya adalah
family(gaussian)
link(link) : Fungsi link, default-nya adalah fungsi link yang sesuai
dengan family-nya.
corr(correlation) : Struktur korelasi dalam-grup, default-nya adalah
corr(exchangeable)
Daftar distribusi respons dan fungsi link diperlihatkan pada tabel 6.1
berikut.

Tabel 6.1 Daftar Family dan Link untuk beberapa model regresi

No Model regresi Family Link Sintaks Stata

1 Regresi Linear gaussian identity regress


2 Regresi Logistik bernoulli logit logit
3 Regresi Poisson poisson log poisson
Regresi Binomial
4 nbinomial *) log *) nbreg
Negatif

66
Opsi struktur korelasi yang tersedia pada Stata adalah:
exchangeable : pertukaran (exchangeable)
independent : independen
unstructured : tak-terstruktur
ar # : auto-regresi derajat #
stationary # : stasioner derajat #

- Seluruh struktur korelasi dapat digunakan untuk rancangan balans


maupun tak-balans.
- Seluruh struktur korelasi dapat digunakan rancangan equal spacing
(jarak waktu pengukuran sama). Kecuali struktur korelasi ar # dan
stationary #, seluruh struktur korelasi lainnya dapat digunakan untuk
unequal spacing (jarak waktu pengukuran tak sama).

Pasangan struktur korelasi yang sesuai untuk tiap family dan link
diperlihatkan pada tabel berikut:

family link corr


gaussian identity independent
gaussian identity exchangeable
gaussian identity
binomial logit independent
binomial logit exchangeable
nbinomial log independent
poisson log independent
poisson log exchangeable

Contoh 5.1:
. use "D:\Analisis Data Longitudinal\Data\union.dta", clear
(NLS Women 14-24 in 1968)

67
. xtset id year
panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with gaps
delta: 1 unit

. xtgee union age grade not_smsa south, family(binomial) link(logit)


Iteration 1: tolerance = .07327489
Iteration 2: tolerance = .00519852
Iteration 3: tolerance = .00024049
Iteration 4: tolerance = .00001086
Iteration 5: tolerance = 4.907e-07

GEE population-averaged model Number of obs = 26,200


Group variable: idcode Number of groups = 4,434
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 5.9
max = 12
Wald chi2(4) = 229.87
Scale parameter: 1 Prob > chi2 = 0.0000

----------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+------------------------------------------------------
age | .0098801 .0020824 4.74 0.000 .0057986 .0139616
grade | .0606146 .0108383 5.59 0.000 .0393719 .0818573
not_smsa | -.1257349 .0483488 -2.60 0.009 -.2204969 -.0309729
south | -.5747081 .048645 -11.81 0.000 -.6700506 -.4793656
_cons | -2.163394 .1484472 -14.57 0.000 -2.454345 -1.872443
----------------------------------------------------------------

68
Contoh 5.2:
. use "D:\Analisis Data Longitudinal\Data\nlswork.dta"
(National Longitudinal Survey. Young Women 14-26
years of age in 1968)

. xtset idcode
panel variable: idcode (unbalanced)

. xtgee union age not_smsa, family(binomial) link(logit)


corr(exchangeable)
Iteration 1: tolerance = .08812485
Iteration 2: tolerance = .00597886
Iteration 3: tolerance = .00022492
Iteration 4: tolerance = 7.966e-06
Iteration 5: tolerance = 2.747e-07

GEE population-averaged model Number of obs = 19,226


Group variable: idcode Number of groups = 4,150
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 4.6
max = 12
Wald chi2(2) = 29.83
Scale parameter: 1 Prob > chi2 = 0.0000

------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+--------------------------------------------------------
age | .0078591 .0024113 3.26 0.001 .0031331 .0125851
not_smsa | -.2502181 .0558235 -4.48 0.000 -.3596302 -.140806
_cons | -1.446498 .0831114 -17.40 0.000 -1.609393 -1.283602
------------------------------------------------------------------

69
Contoh 5.3:
. use "D:\Analisis Data Longitudinal\Data\teenprov.dta"

Dataset ini yang berasal dari the National Longitudinal Study of


Youth (NLSY), memuat data tentang 1151 gadis remaja yang diwawancarai
selama 5 tahun berturut-turut. Berikut diperlihatkan data untuk 3 kasus
pertama.

. list in 1/3
+-------------------------------------------------------------------+
1. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 22 | 1| 0| 0| 1| 21 | 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 15 | 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 3| 0| 0| 0 | 1 | 0 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 0 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
+-------------------------------------------------------------------+
2. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 75 | 0| 0| 0| 1| 8| 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 0| 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 0| 0| 0| 0 | 1 | 4 | 17 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 0 | 0 | 1 | 0 |
+-------------------------------------------------------------------+
70
+-------------------------------------------------------------------+
3. | id | pov1 | mother1 | spouse1 | school1 | hours1 | pov2 | mother2 |
| 92 | 0| 0| 0| 1| 30 | 0| 0|
|-------------------------------------------------------------------|
| spouse2 | school2 | hours2 | pov3 | mother3 | spouse3 | school3 |
| 0| 1| 27 | 0| 0| 0| 1|
|-------------------------------------------------------------------|
| hours3 | pov4 | mother4 | spouse4 | school4 | hours4 | age |
| 24 | 1| 1| 0 | 0 | 31 | 16 |
|-------------------------------------------------------------------|
| black | pov5 | mother5 | spouse5 | school5 | hours5 |
| 0 | 1 | 1 | 0 | 1 | 0 |
+-------------------------------------------------------------------+

Variabel-variabel penelitian adalah:


• id: Nomor identitas subjek
• pov: Kode 1 jika subjek dalam keadaan miskin (poverty) selama periode
observasi, jika tidak kode 0
• age: Usia subjek pada wawancara pertama.
• black: Kode 1 jika subjek kulit hitam, jika tidak kode 0
• mother: Kode 1 jika subjek memiliki 1 anak atau lebih, jika tidak kode
0
• spouse: Kode 1 jika subjek memiliki pasangan hidup bersama, jika
tidak kode 0
• school: Kode 1 jika subjek masih bersekolah, jika tidak kode 0
• hours: Jumlah jam subjek bekerja dalam seminggu menjalani survei

Sekarang data akan diubah dari format melebar (wide) menjadi


format memanjang (long).

. reshape long pov mother spouse school hours, i(id) j(year)


(note: j = 1 2 3 4 5)

71
Data wide -> long
------------------------------------------------
Number of obs. 1151 -> 5755
Number of variables 28 -> 9
j variable (5 values) -> year
xij variables:
pov1 pov2 ... pov5 -> pov
mother1 mother2 ... mother5 -> mother
spouse1 spouse2 ... spouse5 -> spouse
school1 school2 ... school5 -> school
hours1 hours2 ... hours5 -> hours
------------------------------------------------

Berikut diperlihatkan data 3 kasus pertama yang sekarang telah


berubah menjadi 15 records.

. list in 1/15

+----------------------------------------------------------+
| id year age black pov mother spouse school hours |
|----------------------------------------------------------|
1. | 22 1 16 0 1 0 0 1 21 |
2. | 22 2 16 0 0 0 0 1 15 |
3. | 22 3 16 0 0 0 0 1 3 |
4. | 22 4 16 0 0 0 0 1 0 |
5. | 22 5 16 0 0 0 0 1 0 |
|----------------------------------------------------------|
6. | 75 1 17 0 0 0 0 1 8 |
7. | 75 2 17 0 0 0 0 1 0 |
8. | 75 3 17 0 0 0 0 1 0 |
9. | 75 4 17 0 0 0 0 1 4 |
10. | 75 5 17 0 1 0 0 1 0 |
|----------------------------------------------------------|
11. | 92 1 16 0 0 0 0 1 30 |
12. | 92 2 16 0 0 0 0 1 27 |
13. | 92 3 16 0 0 0 0 1 24 |
72
14. | 92 4 16 0 1 1 0 0 31 |
15. | 92 5 16 0 1 1 0 0 0 |
+----------------------------------------------------------+

. xtset id year
panel variable: id (strongly balanced)
time variable: year, 1 to 5
delta: 1 unit

. xtsum

Variable | Mean Std. Dev. Min Max Observations


---------------+----------------------------------------+------------
id overall | 6016.672 3298.064 22 12539 | N = 5755
between | 3299.211 22 12539 | n = 1151
within | 0 6016.672 6016.672 | T = 5
| |
year overall | 3 1.414336 1 5 | N = 5755
between | 0 3 3 | n = 1151
within | 1.414336 1 5| T= 5
| |
age overall | 15.64639 1.04682 14 17 | N = 5755
between | 1.047184 14 17 | n = 1151
within | 0 15.64639 15.64639 | T = 5
| |
black overall | .5742832 .4944942 0 1 | N = 5755
between | .4946661 0 1 | n = 1151
within | 0 .5742832 .5742832 | T = 5
| |
pov overall | .3768897 .484649 0 1 | N = 5755
between | .3100424 0 1 | n = 1151
within | .3725925 -.4231103 1.17689 | T = 5
| |

73
mother overall | .1986099 .3989883 0 1| N= 5755
between | .3253864 0 1| n= 1151
within | .2310605 -.6013901 .9986099 | T = 5
| |
spouse overall | .0992181 .2989806 0 1| N= 5755
between | .2206498 0 1| n= 1151
within | .2018338 -.7007819 .8992181 | T = 5
| |
school overall | .6304083 .4827361 0 1| N= 5755
between | .32013 0 1| n= 1151
within | .3614169 -.1695917 1.430408 | T = 5
| |
hours overall | 8.671764 14.54341 0 90 | N = 5755
between | 9.363817 0 52.4 | n = 1151
within | 11.13062 -43.72824 72.07176 | T = 5

. xtgee pov age black mother spouse school hours, family(binomial)


link(logit)

Iteration 1: tolerance = .23785495


Iteration 2: tolerance = .00689453
Iteration 3: tolerance = .00010833
Iteration 4: tolerance = 5.219e-06
Iteration 5: tolerance = 2.425e-07

GEE population-averaged model Number of obs = 5,755


Group variable: id Number of groups = 1,151
Link: logit Obs per group:
Family: binomial min = 5
Correlation: exchangeable avg = 5.0
max = 5
Wald chi2(6) = 260.71
Scale parameter: 1 Prob > chi2 = 0.0000

74
---------------------------------------------------------------
pov | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+-------------------------------------------------------
age | -.0569927 .0369965 -1.54 0.123 -.1295045 .0155192
black | .4980237 .077386 6.44 0.000 .34635 .6496974
mother | .8258969 .0923618 8.94 0.000 .644871 1.006923
spouse | -.9493282 .1219036 -7.79 0.000 -1.188255 -.7104015
school | -.1081528 .0725594 -1.49 0.136 -.2503666 .034061
hours | -.0208458 .002309 -9.03 0.000 -.0253713 -.0163202
_cons | .2429719 .58535 0.42 0.678 -.9042931 1.390237
---------------------------------------------------------------

Contoh 5.4:
. use "D:\Analisis Data Longitudinal\Data\epil.dta"
. reshape long y, i(subj) j(time)
(note: j = 1 2 3 4)

Data wide -> long


-----------------------------------------------
Number of obs. 59 -> 236
Number of variables 9 -> 7
j variable (4 values) -> time
xij variables:
y1 y2 ... y4 -> y
-----------------------------------------------

. list in 1/12
+------------------------------------------------+
| subj time id y treat baseline age |
|------------------------------------------------|
1. | 1 1 104 5 0 11 31 |
2. | 1 2 104 3 0 11 31 |
3. | 1 3 104 3 0 11 31 |
75
4. | 1 4 104 3 0 11 31 |
5. | 2 1 106 3 0 11 30 |
|------------------------------------------------|
6. | 2 2 106 5 0 11 30 |
7. | 2 3 106 3 0 11 30 |
8. | 2 4 106 3 0 11 30 |
9. | 3 1 107 2 0 6 25 |
10. | 3 2 107 4 0 6 25 |
|------------------------------------------------|
11. | 3 3 107 0 0 6 25 |
12. | 3 4 107 5 0 6 25 |
+------------------------------------------------+

. xtset subj time


panel variable: subj (strongly balanced)
time variable: time, 1 to 4
delta: 1 unit

. corr time treat age baseline


(obs=236)

| time treat age baseline


---------+-----------------------------------
time | 1.0000
treat | 0.0000 1.0000
age | 0.0000 -0.1005 1.0000
baseline | 0.0000 0.0155 -0.1890 1.0000

. xtgee y time treat age baseline, family(poisson) link(log)


corr(exchangeable)
Iteration 1: tolerance = .0183008
Iteration 2: tolerance = 2.535e-06
Iteration 3: tolerance = 1.030e-09

76
GEE population-averaged model Number of obs = 236
Group variable: subj Number of groups = 59
Link: log Obs per group:
Family: Poisson min = 4
Correlation: exchangeable avg = 4.0
max = 4
Wald chi2(4) = 970.41
Scale parameter: 1 Prob > chi2 = 0.0000

-----------------------------------------------------------------
y | Coef. Std. Err. z P>|z| [95% Conf. Interval]
---------+-------------------------------------------------------
time | -.0587233 .0156912 -3.74 0.000 -.0894776 -.0279691
treat | -.1478458 .0709743 -2.08 0.037 -.286953 -.0087386
age | .0235715 .0059738 3.95 0.000 .0118631 .03528
baseline | .0227431 .0007557 30.10 0.000 .021262 .0242243
_cons | .6759401 .2048927 3.30 0.001 .2743578 1.077522
-----------------------------------------------------------------

77
BAB 6
ANALISIS KOEFISIEN RANDOM

 Pengertian Analisis Koefisien Random


Analisis koefisien random (random coefficient analysis) merupakan
bagian ataupun varian analisis multilevel, yaitu analisis terhadap model
mixed yang memiliki random intercept dan/atau random slope. Pada model
multilevel didapatkan sejumlah grup dan kluster, dengan anggota grup atau
kluster yang sama saling berkorelasi. Pada analisis koefisien random untuk
data longitudinal, analogi dengan kluster pada analisis multilevel, yang
saling berkorelasi adalah pengamatan berulang dalam satu subjek. Lihat
gambar 6.1 (Harlan, 2016).

Gambar 6.1 Atas: Analisis multilevel; bawah: analisis koefisien random


untuk data longitudinal

79
Model analisis koefisien random dengan random intercept adalah:
Yit = β 0i + β 1 t + ε it
Yit : Respons subjek ke-i pada waktu t
β 0i : Intersep random
β1 : Slope fixed
t : Waktu pengukuran
ε it : Galat untuk subjek ke-i pada waktu t
Tampak bahwa slope β 1 adalah konstan untuk tiap subjek,
sedangkan intersep β 0i nilainya bervariasi untuk tiap subjek ke
ke-i (gambar
6.2). Model ini digunakan jika efek waktu terhadap tiap subjek diasumsikan
sama besar, tetapi tiap subjek memiliki titik awal / baseline yang berbeda.

Gambar 6.2 Model mixed: intersep random, slope fixed

Model analisis koefisien random dengan random slope adalah:


Yit = β 0 + β 1i t + ε it
Yit : Respons subjek ke-i pada waktu t
β0 : Intersep fixed
β 1i : Slope random
t : Waktu pengukuran
ε it : Galat untuk subjek ke-i pada waktu t

80
Tampak bahwa intersep β 0 adalah konstan untuk tiap subjek,
sedangkan slope β 1i nilainya bervariasi untuk tiap subjek ke
ke-i (gambar 6.3).
Model ini digunakan jika tiap subjek memulai pengamatan dari baseline
yang sama, tetapi efek waktu terhadap tiap subjek bbervariasi.

Gambar 6.3 Model mixed: intersep fixed, slope random

Model analisis koefisien random dengan random intercept dan


random slope adalah:
Yit = β 0i + β 1i t + ε it
Yit : Respons subjek ke-i pada waktu t
β 0i : Intersep random
β 1i : Slope random
t : Waktu pengukuran
ε it : Galat untuk subjek ke-i pada waktu t
Tampak bahwa baik intersep β 0i maupun slope β 1i nilainya
bervariasi untuk tiap subjek ke-i (gambar 6.4). Model digunakan jika tiap
subjek mulai dari baseline berbeda, demikian pula efek waktu terhadap tiap
subjek tidak sama.

81
:

Gambar 6.4 Model mixed: intersep dan slope random

 Analisis Koefisien Random dengan Stata


Di sini hanya akan dibahas perintah beserta contoh untuk Analisis
Koefisien Random dengan model Gauss dan model logit. Analisis Koefisien
Random juga dapat dilakukan untuk model ologit, poisson, dan binomial
negatif yang tidak dibahas di sini.
Sintaks:
 Model Gauss:
xtreg depvar indepvars [if] [in], [, options]
 Model logit:
xtlogit depvar indepvars cat_indepvars [if] [in] [, options]
xtlogit depvar indepvars cat_indepvars [if] [in], or [options]

Contoh 6.1:
. use "D:\Analisis Data Longitu
udinal\Data\invest2.dta"
. xtreg invest market stock

effects GLS regression


Random-effects Number of obs = 100
Group variable: company Number of groups = 5
82
R-sq: Obs per group:
within = 0.8003 min = 20
between = 0.7696 avg = 20.0
overall = 0.7781 max = 20

Wald chi2(2) = 384.93


corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------
invest | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+---------------------------------------------------------
market | .1048856 .0147972 7.09 0.000 .0758835 .1338876
stock | .3460156 .0242535 14.27 0.000 .2984796 .3935517
_cons | -60.29049 54.48388 -1.11 0.268 -167.0769 46.49595
--------+---------------------------------------------------------
sigma_u | 104.65267
sigma_e | 69.117977
rho | .69628394 (fraction of variance due to u_i)
------------------------------------------------------------------

Bandingkan hasilnya dengan analisis GEE:

. xtgee invest market stock

Iteration 1: tolerance = .24911713


Iteration 2: tolerance = .00224596
Iteration 3: tolerance = 6.192e-06
Iteration 4: tolerance = 1.711e-08

GEE population-averaged model Number of obs = 100


Group variable: company Number of groups = 5
Link: identity Obs per group:
Family: Gaussian min = 20
Correlation: exchangeable avg = 20.0

83
max = 20
Wald chi2(2) = 397.01
Scale parameter: 15930.98 Prob > chi2 = 0.0000

----------------------------------------------------------------
invest | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------+--------------------------------------------------------
market | .1049279 .0146039 7.18 0.000 .0763048 .1335511
stock | .3460474 .02386 14.50 0.000 .2992826 .3928121
_cons | -60.38182 54.62176 -1.11 0.269 -167.4385 46.67487
----------------------------------------------------------------

.Contoh 6.2:

. use "D:\Analisis Data Longitudinal\Data\union.dta"


(NLS Women 14-24 in 1968)

. xtset idcode year


panel variable: idcode (unbalanced)
time variable: year, 70 to 88, but with
gaps
delta: 1 unit

. xtlogit union age grade not_smsa south##c.year


Fitting comparison model:

Iteration 0: log likelihood = -13864.23


Iteration 1: log likelihood = -13547.326
Iteration 2: log likelihood = -13542.493
Iteration 3: log likelihood = -13542.49
Iteration 4: log likelihood = -13542.49

Fitting full model:

tau = 0.0 log likelihood = -13542.49

84
tau = 0.1 log likelihood = -12923.751
tau = 0.2 log likelihood = -12417.651
tau = 0.3 log likelihood = -12001.665
tau = 0.4 log likelihood = -11655.586
tau = 0.5 log likelihood = -11366.441
tau = 0.6 log likelihood = -11128.749
tau = 0.7 log likelihood = -10946.399
tau = 0.8 log likelihood = -10844.833

Iteration 0: log likelihood = -10946.488


Iteration 1: log likelihood = -10557.39
Iteration 2: log likelihood = -10540.493
Iteration 3: log likelihood = -10540.274
Iteration 4: log likelihood = -10540.274 (backed up)
Iteration 5: log likelihood = -10540.274

Random-effects logistic regression Number of obs = 26,200


Group variable: idcode Number of groups = 4,434

Random effects u_i ~ Gaussian Obs per group:


min = 1
avg = 5.9
max = 12

Integration method: mvaghermite Integration pts. = 12

Wald chi2(6) = 227.46


Log likelihood = -10540.274 Prob > chi2 = 0.0000

-----------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+---------------------------------------------------------
age | .0156732 .0149895 1.05 0.296 -.0137056 .045052
grade | .0870851 .0176476 4.93 0.000 .0524965 .1216738
not_smsa | -.2511884 .0823508 -3.05 0.002 -.4125929 -.0897839

85
1.south | -2.839112 .6413116 -4.43 0.000 -4.096059 -1.582164
year | -.0068604 .0156575 -0.44 0.661 -.0375486 .0238277
|
south#c.year |
1 | .0238506 .0079732 2.99 0.003 .0082235 .0394777
|
_cons | -3.009365 .8414963 -3.58 0.000 -4.658667 -1.360062
-------------+---------------------------------------------------------
/lnsig2u | 1.749366 .0470017 1.657245 1.841488
-------------+---------------------------------------------------------
sigma_u | 2.398116 .0563577 2.290162 2.511158
rho | .6361098 .0108797 .6145307 .6571548
-----------------------------------------------------------------------
LR test of rho=0: chibar2(01) = 6004.43
Prob >= chibar2 = 0.000

Dengan analisis GEE diperoleh estimasi yang agak berbeda:


. xtgee union age grade not_smsa south##c.year,
family(binomial) link(logit)

Iteration 1: tolerance = .14878775


Iteration 2: tolerance = .00949339
Iteration 3: tolerance = .00040606
Iteration 4: tolerance = .00001602
Iteration 5: tolerance = 6.628e-07

GEE population-averaged model Number of obs = 26,200


Group variable: idcode Number of groups = 4,434
Link: logit Obs per group:
Family: binomial min = 1
Correlation: exchangeable avg = 5.9
max = 12
Wald chi2(6) = 235.08
Scale parameter: 1 Prob > chi2 = 0.0000

86
----------------------------------------------------------------------
union | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+--------------------------------------------------------
age | .0165893 .0092229 1.80 0.072 -.0014873 .0346659
grade | .0600669 .0108343 5.54 0.000 .0388321 .0813016
not_smsa | -.1215445 .0483713 -2.51 0.012 -.2163505 -.0267384
1.south | -1.857094 .372967 -4.98 0.000 -2.588096 -1.126092
year | -.0121168 .0095707 -1.27 0.205 -.030875 .0066413
|
south#c.year |
1 | .0160193 .0046076 3.48 0.001 .0069886 .0250501
|
_cons | -1.39755 .5089508 -2.75 0.006 -2.395075 -.4000247
----------------------------------------------------------------------

87
BAB 7
REGRESI VARIABEL INSTRUMENTAL
DENGAN ESTIMATOR EFEK
RANDOM DAN FIXED

 Variabel Instrumental dan Regresi Variabel


Instrumental
Dari sebuah model regresi linear, satu ataupun beberapa prediktornya
disebut sebagai variabel instrumental jika prediktor ataupun himpunan prediktor
tersebut berkorelasi dengan suku galat. Model demikian dinamakan sebagai
model regresi variabel instrumental.
Misalkan dimiliki model regresi:
y = β0 + β1 x + u (7.1)

dengan x dan u berkorelasi:


Cov (x ; u) ≠ 0
Misalkan pula dimiliki juga observable variable z yang memenuhi 2 asumsi
berikut:
1. z tak berkorelasi dengan u:
Cov (z ; u) = 0
2. z berkorelasi dengan x:
Cov (z ; x) ≠ 0
Maka z disebut sebagai variabel instrumental untuk x atau cukup z instrumen
untuk x. Secara visual, representasi variabel instrumental diperlihatkan sebagai
berikut:

89
Sebuah prediktor dinyatakan bersifat endogen jika prediktor tersebut
berkorelasi dengan suku galat.
Eksogenitas instrumen menyatakan bahwa setelah mengendalikan x dan
variabel yang tak diamati (omitted variables), z tak memiliki efek parsial
omitted variables
terhadap y dan z tak berkorelasi dengan variabel yang tak diamati.
Regresi variabel instrumental untuk data longitudinal padpada Stata dilakukan
dengan perintah xtivreg. Untuk perintah Stata ini tersedia beberapa opsi
estimator, antara lain yaitu estimator re (random effects) sebagai default,
estimator fe (fixed effects), dan fd ((first-difference). Di sini hanya akan dibahas
regresi variabel instrumental untuk data longitudinal dengan estimator re dan fd.
Sintaks untuk perintah xtivreg ini adalah:

xtivreg depvar [varlist1] [varlist2 = varlistIV] [if] [in] [, options]


depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan galat,
disebut variabel eksogen
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh ((instrumented
by) variabel instrumental.
mental.
varlistIV : Variabel instrumental

 Estimator Efek Random dan Efek Fixed


Misalkan dimiliki model:
yit = β0 + β1 xit1 + . . . + β k xitk + ai + uit (7.2)

dengan asumsi: Cov ( xitj ; ai ) = 0 ; t = 1, 2, . . . , T ; j = 1, 2, . . . , k

90
Didefinisikan juga suku galat komposit ν it :
ν it = ai + uit

Maka: yit = β0 + β1 xit1 + . . . + β k xitk + ν it (7.3)

σ a2
Corr (ν it ; ν is ) = ; t≠s
σ a2 + σ u2
σ a2 = Var ( ai ) ; σ u2 = Var ( uit )

Persamaan 7.2 dapat dinyatakan sebagai:


yi = β0 + β1 xi1 + . . . + β k xik + ν i (7.4)

Selanjutnya didefinisikan pula:

σ u2
θ =1− ; 0<θ <1 (7.5)
σ u2 + Tσ a2
Maka diperoleh:
yit − θ yi = β0 (1 − θ ) + β1 ( xit1 − θ xi1 ) + . . . + β k ( xitk − θ xik )
+ (ν it − θ ν i ) (7.6)

yang disebut sebagai quasi-demeaned data. Persamaan ini diselesaikan dengan


estimator GLS (Generalized Least Squares), yaitu estimator pooled OLS terhadap
persamaan quasi-demeaned data tersebut.
Pada Stata, dengan asumsi ai tak berkorelasi dengan kovariat lainnya,
estimator yang digunakan adalah estimator G2SLS Balestra dan Varadharajan-
Krishnakumar (1987) sebagai default untuk estimator efek random. Opsi lain
yang dapat digunakan adalah estimator EC2SLS Baltagi. Perintah Stata untuk
regresi variabel instrumental dengan efek random adalah:

xtivreg depvar [varlist1] [varlist2 = varlistIV] [if] [in], re [re_options]


depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan galat,
disebut variabel eksogen

91
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh (instrumented
by) variabel instrumental.
varlistIV : Variabel instrumental
Sebagai perbandingan, perintah Stata untuk regresi variabel instrumental
dengan efek fixed dilakukan dengan mengganti opsi re pada perintah Stata di atas
dengan opsi fe.

Contoh 7.1:

. use “D:\Analisis Data Longitudinal\Data\nlswork.dta”, clear


(National Longitudinal Survey. Young Women 14-26 years of age
in 1968)

Variabel age, c.age#c.age, not_smsa, 2.race, tenure, union,


birth, dan south akan diregresikan terhadap variabel dependen ln_wage.

. xtivreg ln_w age c.age#c.age not_smsa 2.race (tenure = union birth


south), re

G2SLS random-effects IV regression Number of obs = 19,007


Group variable: idcode Number of groups = 4,134

R-sq: Obs per group:


within = 0.0664 min = 1
between = 0.2098 avg = 4.6
overall = 0.1463 max = 12

Wald chi2(5) = 1446.37


corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

92
---------------------------------------------------------------------
ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------+--------------------------------------------------------
tenure | .1391798 .0078756 17.67 0.000 .123744 .1546157
age | .0279649 .0054182 5.16 0.000 .0173454 .0385843
|
c.age#c.age | -.0008357 .0000871 -9.60 0.000 -.0010063 -.000665
|
not_smsa | -.2235103 .0111371 -20.07 0.000 -.2453386 -.2016821
|
race |
black | -.2078613 .0125803 -16.52 0.000 -.2325183 -.1832044
_cons | 1.337684 .0844988 15.83 0.000 1.172069 1.503299
------------+--------------------------------------------------------
sigma_u | .36582493
sigma_e | .63031479
rho | .25197078 (fraction of variance due to u_i)
----------------------------------------------------------------------
Instrumented: tenure
Instruments: age c.age#c.age not_smsa 2.race union birth_yr south
---------------------------------------------------------------------

Tampak bahwa semua prediktor bermakna. Selanjutnya, sebagai


perbandingan pada Contoh 7.2 akan diperlihatkan penyelesaian model yang sama
dengan estimator fixed effects.

Contoh 7.2:
Pada regresi variabel instrumental untuk data longitudinal dengan
estimator fd ini ai pada persamaan 7.2 diasumsikan berkorelasi dengan kovariat x
dan yang digunakan adalah demeaned data, yaitu θ = 1.

. xtivreg ln_w age c.age#c.age not_smsa 2.race (tenure = union birth


south), fe

93
Fixed-effects (within) IV regression Number of obs = 19,007
Group variable: idcode Number of groups = 4,134

R-sq: Obs per group:


within = . min = 1
between = 0.1304 avg = 4.6
overall = 0.0897 max = 12

Wald chi2(4) = 147926.58


corr(u_i, Xb) = -0.6843 Prob > chi2 = 0.0000

---------------------------------------------------------------------
ln_wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------------+--------------------------------------------------------
tenure | .2403531 .0373419 6.44 0.000 .1671643 .3135419
age | .0118437 .0090032 1.32 0.188 -.0058023 .0294897
|
c.age#c.age | -.0012145 .0001968 -6.17 0.000 -.0016003 -.0008286
|
not_smsa | -.0167178 .0339236 -0.49 0.622 -.0832069 .0497713
|
race |
black | 0 (omitted)
_cons | 1.678287 .1626657 10.32 0.000 1.359468 1.997106
------------+--------------------------------------------------------
sigma_u | .70661941
sigma_e | .63029359
rho | .55690561 (fraction of variance due to u_i)
---------------------------------------------------------------------
F test that all u_i=0: F(4133,14869) = 1.36 Prob > F = 0.0000
---------------------------------------------------------------------
Instrumented: tenure
Instruments: age c.age#c.age not_smsa 2.race union birth_yr south
---------------------------------------------------------------------

94
. Tampak bahwa dengan asumsi yang berbeda, hasil yang diperoleh berbeda
pula antara estimator efek random dengan efek fixed.

Contoh 7.3:
. use “D:\Analisis Data Longitudinal\Data\airfare.dta”

Variabel-variabel pada dataset adalah:

lpassen : log(passen)
passen : rata-rata penumpang per hari
ldist : log(distance)
dist : jarak dalam mil
ldistsq : ldist^2
y98 : = 1 jika year==1998
y99 : = 1 jika year==1999
y00 : = 1 jika year==2000
lfare : log(fare)
fare : rata-rata tarif one-way dalam $
concen : bmktshr (the market share of the largest carrier in a market)

. xtivreg lpassen ldist ldistsq y98 y99 y00 (lfare = concen), re theta

G2SLS random-effects IV regression Number of obs = 4,596


Group variable: id Number of groups = 1,149

R-sq: Obs per group:


within = 0.4075 min = 4
between = 0.0542 avg = 4.0
overall = 0.0641 max = 4

Wald chi2(6) = 231.10


corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
theta = .91099494

95
-------------------------------------------------------------------------------------
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+----------------------------------------------------------
lfare | -.5078761 .229698 -2.21 0.027 -.9580759 -.0576762
ldist | -1.504805 .6933146 -2.17 0.030 -2.863677 -.1459332
ldistsq | .1176012 .0546255 2.15 0.031 .0105373 .2246651
y98 | .0307363 .0086054 3.57 0.000 .0138699 .0476027
y99 | .0796548 .01038 7.67 0.000 .0593104 .0999992
y00 | .1325795 .0229831 5.77 0.000 .0875335 .1776255
_cons | 13.29643 2.626949 5.06 0.000 8.147707 18.44516
--------+----------------------------------------------------------
sigma_u | .94920686
sigma_e | .16964171
rho | .96904799 (fraction of variance due to u_i)
-------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concen
-------------------------------------------------------------------

. egen concenb = mean(concen), by(id)

Regresi variabel instrumental dengan estimator efek random adalah:

. xtivreg lpassen ldist ldistsq y98 y99 y00 concenb (lfare = concen),
re theta
G2SLS random-effects IV regression Number of obs = 4,596
Group variable: id Number of groups = 1,149

R-sq: Obs per group:


within = 0.3188 min = 4
between = 0.0600 avg = 4.0
overall = 0.0669 max = 4
Wald chi2(7) = 218.80
corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000
theta = .90084889

96
-------------------------------------------------------------------
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+----------------------------------------------------------
lfare | -.3015762 .2764376 -1.09 0.275 -.8433839 .2402315
ldist | -1.148781 .697019 -1.65 0.099 -2.514913 .2173511
ldistsq | .0772565 .0570609 1.35 0.176 -.0345808 .1890938
y98 | .0257147 .0097479 2.64 0.008 .0066092 .0448203
y99 | .0724166 .0119924 6.04 0.000 .0489118 .0959213
y00 | .1127914 .0274377 4.11 0.000 .0590146 .1665682
concenb | -.5933022 .1926313 -3.08 0.002 -.9708526 -.2157518
_cons | 12.0578 2.735977 4.41 0.000 6.695385 17.42022
--------+----------------------------------------------------------
sigma_u | .85125514
sigma_e | .16964171
rho | .96180277 (fraction of variance due to u_i)
-------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concenb concen
-------------------------------------------------------------------

Regresi variabel instrumental dengan estimator efek fixed adalah:

. xtivreg lpassen ldist ldistsq y98 y99 y00 (lfare = concen), fe vce(cl
id)
Fixed-effects (within) IV regression Number of obs = 4,596
Group variable: id Number of groups = 1,149

R-sq: Obs per group:


within = 0.2265 min = 4
between = 0.0487 avg = 4.0
overall = 0.0574 max = 4
Wald chi2(4) = 114.26
corr(u_i, Xb) = 0.0708 Prob > chi2 = 0.0000

97
(Std. Err. adjusted for 1,149 clusters in id)
------------------------------------------------------------------
| Robust
lpassen | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+---------------------------------------------------------
lfare | -.3015761 .6129462 -0.49 0.623 -1.502929 .8997764
ldist | 0 (omitted)
ldistsq | 0 (omitted)
y98 | .0257147 .0164237 1.57 0.117 -.0064751 .0579046
y99 | .0724166 .0251189 2.88 0.004 .0231843 .1216488
y00 | .1127914 .0620655 1.82 0.069 -.0088547 .2344375
_cons | 7.501008 3.098097 2.42 0.015 1.428849 13.57317
--------+---------------------------------------------------------
sigma_u | .8493153
sigma_e | .16964171
rho | .96163479 (fraction of variance due to u_i)
------------------------------------------------------------------
Instrumented: lfare
Instruments: ldist ldistsq y98 y99 y00 concen
------------------------------------------------------------------

98
BAB 8
REGRESI VARIABEL INSTRUMENTAL
DENGAN ESTIMATOR
FIRST-DIFFERENCED

 Pengertian Estimator First-Differenced


Dalam model ini ∆yi diregresikan dengan metode kuadrat terkecil 2-
tahap terhadap ∆xi . Misalkan dimiliki model:
yit = ( β0 + δ 0 ) + β1 xit + ai + uit ; t = 1, 2
δ0 : dummy variable; δ 0 = 0 untuk t = 1 dan δ 0 = 1 untuk t = 2
( ai + uit ) merupakan suku galat. ai merupakan komponen galat tak
tergantung waktu (time-independent), sedangkan uit adalah komponen galat
yang tergantung waktu (time-dependent). Tampak bahwa prediktor xit
berkorelasi dengan komponen suku galat uit .

Diperoleh: yi 2 = ( β0 + 1) + β1 xi 2 + ai + ui 2 (t = 2)
yi1 = β0 + β1 xi1 + ai + ui1 (t = 1)
Selanjutnya substraksikan:
( yi 2 − yi1 ) = δ 0 + β1 ( xi 2 − xi1 ) + ( ui 2 − ui1 )
∆yi = 1 + β1 ∆xi + ∆ui
∆ui tak berkorelasi dengan ∆xi , sehingga persamaan terakhir ini
dapat diselesaikan dengan estimator OLS.

 Estimator First-Differenced dengan Stata


Sintaks Stata untuk regresi variabel instrumental dengan estimator
first-differenced adalah:
xtivreg depvar [varlist1] (varlist2 = varlist IV) [if] [in], fd [FD_options]
I

99
depvar : Variabel dependen
varlist1 : Himpunan variabel independen yang tak berkorelasi dengan
galat, disebut variabel eksogen
varlist2 : Himpunan variabel independen yang berkorelasi dengan galat,
disebut variabel endogen yang terinstrumentasi oleh
(instrumented by) variabel instrumental.
varlistIV : Variabel instrumental

Opsi:
fd : Gunakan estimator selisih-pertama (first-differenced
estimator)
regress : Perlakukan kovariat sebagai variabel eksogen, abaikan
variabel instrumental
first : Laporkan estimasi tahap pertama
small : Laporkan statistik t dan F, bukan statistik Z dan χ 2

Perintah Stara xtivreg, fd harus didahului dengan deklarasi dataset


xt dengan spesifikasi variabel panel dan variabel waktu.

Contoh 8.1:
Sebagai contoh, digunakan file data abdata.dta. mengenai tenaga
kerja pada sejumlah firma, dan beberapa data tentang masing-masing firma.
Beberapa variabel yang akan dianalisis adalah:
nit : log tenaga kerja pada firma i pada waktu t
wit : log naturalis gaji (wage) untuk produk real
kit : log naturalis stok kapital gross
ysit : log naturalis output industri
yr1980, yr1981, yr1982, yr1983, dan yr1984 adalah variabel-variabel
indikator yang menyatakan waktu.

100
. use “D:\Analisis Data Longitudinal\Data\abdata.dta”
. xtivreg n l2.n l(0/1).w l(0/2).(k ys) yr1981-yr1984 (l.n = l3.n), fd
vce(robust)

First-differenced IV regression
Group variable: id Number of obs = 471
Time variable: year Number of groups = 140

R-sq: Obs per group:


within = 0.0141 min = 3
between = 0.9165 avg = 3.4
overall = 0.9892 max = 5

Wald chi2(14) = 259.49


corr(u_i, Xb) = 0.9239 Prob > chi2 = 0.0000

(Std. Err. adjusted for 140 clusters in id)


----------------------------------------------------------------------
| Robust
D.n | Coef. Std. Err. z P>|z| [95% Conf. Interval]
--------+-------------------------------------------------------------
n|
LD. | 1.422765 1.019992 1.39 0.163 -.5763824 3.421913
L2D. | -.1645517 .1300598 -1.27 0.206 -.4194643 .0903609
|
w|
D1. | -.7524675 .2341305 -3.21 0.001 -1.211355 -.29358
LD. | .9627611 .7828358 1.23 0.219 -.5715688 2.497091
|
k|
D1. | .3221686 .1066645 3.02 0.003 .1131099 .5312273
LD. | -.3248778 .3933448 -0.83 0.409 -1.095819 .4460637
L2D. | -.0953947 .1257672 -0.76 0.448 -.3418938 .1511045
|

101
ys |
D1. | .7660906 .3172664 2.41 0.016 .14426 1.387921
LD. | -1.361881 .8980497 -1.52 0.129 -3.122026 .3982639
L2D. | .3212993 .4234835 0.76 0.448 -.508713 1.151312
|
yr1981 |
D1. | -.0574197 .0323419 -1.78 0.076 -.1208088 .0059693
|
yr1982 |
D1. | -.0882952 .0580339 -1.52 0.128 -.2020395 .0254491
|
yr1983 |
D1. | -.1063153 .0934136 -1.14 0.255 -.2894026 .0767719
|
yr1984 |
D1. | -.1172108 .1150944 -1.02 0.308 -.3427917 .1083701
|
_cons | .0161204 .025376 0.64 0.525 -.0336155 .0658564
--------+-------------------------------------------------------------
sigma_u | .29069213
sigma_e | .34152632
rho | .42011045 (fraction of variance due to u_i)
----------------------------------------------------------------------
Instrumented: L.n
Instruments: L2.n w L.w k L.k L2.k ys L.ys L2.ys yr1981 yr1982 yr1983
yr1984 L3.n
----------------------------------------------------------------------

Perhatikan:
- L : Lagged
- D : Difference
- L0.x = x = xi
L1.x = L.x = xi −1
L2.x = xi −2

102
- D.x = L0D.x = xi − xi −1
LD.x = L1D.x = xi −1 − xi −2
L2D.x = xi −2 − xi −3

Pada perintah xtivreg, variabel dependen adalah n, tetapi adanya


opsi fd (first-differenced) menyebabkan variabel dependen menjadi D.n.

. list n L0.n L.n L1.n L2.n in 1/10


+------------------------------------------------------+
| L. L. L2.|
| n n n n n |
|------------------------------------------------------|
1. | 1.617604 1.617604 . . . |
2. | 1.722767 1.722767 1.617604 1.617604 . |
3. | 1.612433 1.612433 1.722767 1.722767 1.617604 |
4. | 1.550749 1.550749 1.612433 1.612433 1.722767 |
5. | 1.409278 1.409278 1.550749 1.550749 1.612433 |
|------------------------------------------------------|
6. | 1.152469 1.152469 1.409278 1.409278 1.550749 |
7. | 1.077048 1.077048 1.152469 1.152469 1.409278 |
8. | 4.267163 4.267163 . . . |
9. | 4.257639 4.257639 4.267163 4.267163 . |
10. | 4.261524 4.261524 4.257639 4.257639 4.267163 |
+------------------------------------------------------+

Tampak bahwa n = L0.n dan L.n = L1.n.

. list n D.n L0D.n LD.n L1D.n L2D.n in 1/10

+-----------------------------------------------------------------+
| D. D. LD. LD. L2D.|
| n n n n n n|
|-----------------------------------------------------------------|
1. | 1.617604 . . . . .|
2. | 1.722767 .1051621 .1051621 . . .|
103
3. | 1.612433 -.1103332 -.1103332 .1051621 .1051621 .|
4. | 1.550749 -.0616845 -.0616845 -.1103332 -.1103332 .1051621 |
5. | 1.409278 -.1414708 -.1414708 -.0616845 -.0616845 -.1103332 |
|-----------------------------------------------------------------|
6. | 1.152469 -.2568092 -.2568092 -.1414708 -.1414708 -.0616845 |
7. | 1.077048 -.0754207 -.0754207 -.2568092 -.2568092 -.1414708 |
8. | 4.267163 . . . . .|
9. | 4.257639 -.0095239 -.0095239 . . .|
10. | 4.261524 .0038853 .0038853 -.0095239 -.0095239 .|
+-----------------------------------------------------------------+

Tampak bahwa D.n = L0D.n dan LD.n = L1D.n. Estimasi pada


analisis regresi variabel instrumental dengan estimator first-difference dapat
dinyatakan sebagai:
D.n = 1.423LD.n – 0.165L2D.n − .0.752D1.w + . . .
( ni − ni −1 ) = 1.423( ni −1 − ni −2 ) − 0.165( ni −2 − ni −3 ) – 0.752( wi − wi −1 ) . . .

Tampak juga bahwa selain faktor waktu (year), prediktor yang bermakna
adalah D1.w, D1.k, dan D1.ys.

104
KEPUSTAKAAN

Davis CS. Statistical Methods for the Analysis of Repeated


Measurements. New York: Springer, 2002.
Diggle PJ, Heagerty P, Liang K-Y, Zeger SL. Analysis of Longitudinal
Data, 2nd Ed. Oxford: Oxford University Press, 2013.
Federer WT, King F. Variations on Split Plot and Split Block Experiment
Designs. Hoboken, New Jersey: John Wiley & Sons, 2007.
Hirotsu C. Advanced Analysis of Variance. Hoboken, New Jersey: John
Wiley & Sons, 2017.
Hoffman L. Longitudinal Analysis: Modeling Within-Person Fluctuation
and Change. New York: Routledge, 2015.
Lipsitz S, Fitzmaurice G. “Generalized estimating equations for longitudinal
data analysis”. In: G Fitzmaurice, M Davidian, G Verbeke, G
Molenberghs (eds), Longitudinal Data Analysis. Boca Raton, FL: CRC
Press, Taylor & Francis Group, 2009, pp 43-78
Mallinckrodt C, Lipkovich I. Analyzing Longitudinal Clinical Trial Data:
A Practical Guide. Boca Raton, FL: CRC Press, Taylor & Francis
Group, 2017.
Menard S. “Introduction: Longitudinal research design and analysis”. In: S
Menard (ed), Handbook of Longitudinal Research: Design,
Measurement, and Analysis. Amsterdam: Elsevier, 2008, pp 3-12.
StataCorp LP. Stata Longitudinal-Data/Panel-Data Reference Manual
Release 15. Lakeway Drive, College Station, Texas: Stata Press, 2017.
Twisk JWR. Applied Longitudinal Data Analysis for Epidemiology, 2nd
Ed. Cambridge: Cambridge University Press, 2013.
Woolridge JM. Econometric Analysis of Cross Section and Panel Data,
2nd Ed. Cambridge, Massachusetts: The MIT Press, 2010.

105
Lampiran
UKURAN SAMPEL
PADA STUDI LONGITUDINAL

Respons Kontinu
Model regresi longitudinal untuk rancangan balans adalah:
Yij = β 0 + β 1 xij1 + β 2 xij 2 + . . . + β p xijp + ε ij (1)

i : Urutan subjek dengan jumlah subjek = m; i = 1, 2, . . . , m


j : Urutan pengukuran pada tiap subjek dengan jumlah pengukuran pada
tiap subjek = n; j = 1, 2, . . . , n
k : Urutan kovariat dengan jumlah kovariat = p; k = 1, 2, . . . , p
Dalam notasi matriks, model ini dituliskan sebagai:
Yij = X i β + ε i (2)

Untuk perbandingan 2 kelompok, A dan B dengan 1 kovariat, model


(1) untuk kelompok A menjadi:
Yij = β 0 A + β 1A xij + ε ij (3.a)

dan untuk kelompok B menjadi:


Yij = β 0B + β 1B xij + ε ij (3.b)

Diasumsikan kedua kelompok masing-masing memiliki jumlah


subjek yang sama m dan tiap subjek menjalani jumlah pengukuran yang
sama n. Maka ukuran sampel minimum per kelompok m yang diharapkan
dapat mendeteksi selisih koefisien regresi minimum d = ∆β 1 = β 1B − β 1A
dengan kesalahan tipe I α dan power 1 − β adalah:
2

m=
(
2 Zα + Z β ) σ 2 (1 − ρ )
(4)
ns x2 d 2
dengan:

106
σ2 : Variansi suku galat; σ 2 = Var ( ε ij )
ρ : Koefisien korelasi matriks uniform; diasumsikan data longitudinal
memiliki struktur korelasi uniform (exchangeable); ρ = rjk untuk
j ≠ k.
s x2 : Variansi dalam-subjek untuk subjek ke-j, x j
2
(xj − x)
s x2 = ∑j n
(4.a)

Contoh 1:
Misalkan dimiliki data hipotetis untuk uji klinik terhadap pengobatan
baru untuk hipertensi. Pasien dibagi menjadi 2 kelompok, kelompok uji dan
kelompok kontrol. Tiap pasien akan diperiksa tekanan darah pada 3 kali
kunjungan, yaitu bulan ke-0, ke-2, dan ke-5. Dengan kesalahan tipe I sebesar
0.05 dan power 0.8, variansi dalam-subjek sebesar 4.22, serta perbedaan
tekanan darah minimum yang dianggap bermakna antara kedua kelompok
sebesar 0.5 mm Hg/bulan, maka:
Zα = 1.64 Z β = 0.84
n=3 d = 0.5
s x2 = 4.22
2

m=
( )
2 Zα + Z β σ 2 (1 − ρ )
ns x2 d 2
2
2 (1.64 + 0.84 ) σ 2 (1 − ρ )
=
( 3)( 4.22 )( 0.25 )
= 3.89 σ 2 (1 − ρ )

Untuk beberapa nilai σ 2 dan (1 − ρ ) , hasil perhitungan ukuran


sampel minimum per kelompok m yang dibutuhkan adalah:

ρ σ2
100 200 300
0.2 313 625 937
0.5 195 391 586
0.8 79 157 235

107
Tampak bahwa tiap nilai tertentu σ 2 , jika korelasi ρ meningkat
maka ukuran sampel yang dibutuhkan m mengecil.

Respons Biner
Untuk respons biner dengan 2 kelompok perbandingan A dan B,
diasumsikan:
 p untuk grup A
P ( Yij = 1) = Yij  A
 pB untuk grup B
i = 1, 2, . . . , m ; j = 1, 2, . . . , n
Diasumsikan pula struktur korelasi uniform (exchangeable), yaitu
Corr ( Yij ; Yik ) = ρ untuk j ≠ k, dan d adalah selisih minimum probabilitas
respons yang bermakna antara kedua kelompok perbandingan, maka ukuran
sampel minimum yang dibutuhkan per kelompok adalah:
2

m=
{Zα 2 pq + Z β p A q A + pB qB } {1 + ( n − 1) ρ} (5)
nd 2
p A + pB
dengan: p = ; q =1− p (5.a)
2

Contoh 2:
Misalkan pada suatu studi longitudinal dengan 2 kelompok
perbandingan A dan B diasumsikan kesalahan tipe I adalah 0.05, power
adalah 0.8, pengukuran untuk tiap subjek dilakukan 3 kali, dan probabilitas
respons pada kelompok A adalah 0.5, maka:
Zα = 1.64 Z β = 0.84
n=3 p A = 0.5
d = pB − p A
Jika data diasumsikan memiliki struktur korelasi exchangeable, maka
ukuran sampel minimum per kelompok yang dibutuhkan adalah:
2

m=
{Zα 2 pq + Z β p A q A + pB qB } {1 + ( n − 1) ρ}
nd 2
108
=
2
{1.64 2 (0.25 − 0.25d ) + 0.84 0.25 + (0.25 − d )} {1 + 2ρ}
2 2

3d 2
Untuk beberapa nilai ρ dan d, ukuran sampel minimum per
kelompok m yang dibutuhkan adalah:

ρ d
0.3 0.2 0.1
0.2 15 35 143
0.5 21 49 204
0.8 27 64 265

Tampak bahwa untuk tiap nilai d tertentu, membesarnya ukuran


korelasi ρ mengakibatkan bertambahnya ukuran sampel minimum per
kelompok yang dibutuhkan.

109

Anda mungkin juga menyukai