Anda di halaman 1dari 15

LECTURE NOTES #12

ENDOGENITAS
I.

Pendahuluan
Salah satu asumsi yang perlu dipertahankan agar kita dapat memperoleh
estimator tidak bias dari suatu persamaan regresi dengan OLS adalah tidak
adanya korelasi antara variabel bebas dengan residual, atau Cov(x,u)=0.
Namun demikian dalam praktek empiris asumsi ini sangat mungkin tidak
terpenuhi.
Terdapat dua penyebab utama mengapa pelanggaran asumsi ini terjadi,
yakni
1. Omitted Variable, yang terjadi jika kita tidak memasukkan suatu
variabel kedalam model (dan seharusnya ia ada). Akibatnya ketika y dan
x bervariasi maka u juga bervariasi pada arah yang dapat diduga.
2. Simultaneity, yang terjadi akibat adanya variabel penjelas yang
seharusnya bersama dengan variabel tergantung nilainya ditentukan
melalui suatu system. Hal ini terjadi ketika regresor dan salah
satu/beberapa regresan dipengaruhi oleh satu/lebih variabel yang tidak
ada pada model regresi (diluar model).
Kedua pelanggaran asumsi ini masuk dalam masalah yang disebut
endogenitas.
Akibat adanya endogenitas adalah estimator yang diperoleh menjadi bias
dan tidak konsisten (bahkan dengan meningkatkan jumlah sample).
Permasalahan ini perlu diatasi dengan teknik khusus diantaranya
Instrumental Variabel (IV), Two Stage Least Squares (2SLS) dan Indirect
Least Squares (ILS).

II.

Implikasi Endogenitas
Untuk menunjukkan bias yang timbul akibat mengestimasi model dengan
masalah endogenitas dapat ditunjukkan dengan model permintaanpenawaran sederhana suatu komoditas sbb:

qt = 1 pt + t ; 1 > 0

1)

qt = 1 pt + 2 yt + vt ; 1 < 0, 2 > 0

2)

Persamaan 1 adalah fungsi supply dan persamaan 2 adalah fungsi demand.


Kedua persamaan ini disebut dengan behavioural equation karena
menunjukkan perilaku suatu agen ekonomi. Persamaan 1 dan 2 adalah
suatu contoh klasik dari simultanitas.
Kita dapat menyelesaikan system persamaan diatas dalam 2 variabel
endogen (yakni qt dan pt) sebagai fungsi dari parameter, variabel eksogen
dan error term sbb:

pt =

yt +

vt et
= 11 yt + u1t
1 1

3)

1 1
v 1et

qt = 1 2 yt + 1 t
= 21 yt + u2t
1 1
1 1

4)

Jika kita mengestimasi persamaan 1 dengan OLS tanpa memperhatikan


kenyataan bahwa nilainya ditentukan didalam suatu system (persamaan 3
dan 4), maka kita akan memperoleh hasil yang bias. Hal ini dapat dilihat
dari estimator 1 sbb

p q = p ( p + ) = p
=
p
p
p
p
= +
p
t t
2
t

t t
2
t

t
2
t

t
2
t

p
p

t t
2
t

5)

Komponen dengan error term disebelah kanan persamaan 5 tidak akan


bernilai nol bahkan secara asimtotik. Hal ini disebabkan karena E(ptt)0.
Dari persamaan 3 diketahui bahwa pt adalah fungsi dari t sehingga
covariansnya tidak akan sama dengan nol.
III. Masalah Identifikasi (Order Condition)
Jika masalah simultanitas/endogenitas terjadi maka diperlukan suatu
teknik yang memungkinkan estimasi parameter persamaan 1 dan 2 secara
tidak bias. Sebelum pembahasan kepada teknik yang relevan perlu terlebih
dahulu ditentukan apakah parameter dimaksud memang dapat diestimasi.
Tidak semua masalah simultanitas dapat diselesaikan. Salah satu necessary
condition adalah terdapatnya kondisi teridentifikasi (identified).
Dalam bahasa sederhananya kondisi identified diperoleh jika kita memiliki
cukup banyak informasi/data yang memungkinkan estimasi suatu
parameter model. Ketersediaan informasi ini dapat berwujud sebagai
kecukupan jumlah variabel eksogen dan terdapatnya instrumen variabel.
Sebagai
gambaran
permasalahan
indetifikasi,
kita
dapat
mengilustrasikannya pada model permintaan-penawaran yang telah
diuraikan sebelumnya. Dalam praktek empiris data yang dimiliki
sebenarnya adalah data posisi ekuilibrium, dimana demand bertemu
dengan supply. Dengan demikian tanpa adanya informasi tambahan baik

dari sisi demand maupun supply maka tidak mungkin bagi kita untuk
memulihkan fungsi demand dan supply dari data ekuilibrium dimaksud.

Grafik 1. Identifikasi fungsi demand


Jika kita memiliki suatu variabel eksogen pada fungsi supply misalnya
tingkat upah, maka dengan menggunakan nilai berbagai tingkat upah (yang
lain konstan, ceteris paribus) kita dapat mendeteksi fungsi demand. Pada
grafik 1 dapat dilihat peningkatan upah akan menggeser kurva supply keatas
sehingga kita dapat memperoleh kurva demand.
Dalam kondisi ini fungsi demand dapat dikatakan teridentifikasi. Pada
model permintaan dan penawaran yang ada, fungsi supply dapat dikatakan
terindetifikasi karena kita memiliki shifting variabel pada fungsi demand
yakni y (penghasilan) namun demikian fungsi demand adalah tidak
teridentifikasi (under identified) karena kita tidak memiliki variabel
penggeser pada fungsi supply. Dengan demikian kita dapat mengestimasi
parameter pada fungsi supply (1) tetapi tidak parameter fungsi demand.
Dalam kasus dua persamaan simultan, permasalahan identifikasi seperti
diatas dapat diatasi dengan memasukkan paling tidak satu shifting variable
(disebut juga variabel eksogen) kedalam masing-masing fungsi permintaan
dan penawaran. Shifting variabel ini tidak boleh sama, karena kita kembali
tidak dapat mengidentifikasi masing-masing kurva. Seandainya kita
memasukkan variabel suku bunga kedalam fungsi demand dan juga supply,
maka dengan mengubah suku bunga tidak hanya kurva demand yang
bergerak tetapi juga supply sehingga proses identifikasi menjadi gagal.
Syarat ini disebut dengan order condition.
Hal ini dapat digeneralisir untuk suatu system persamaan yang lebih
kompleks (terdiri dari 3 atau lebih variabel endogen). Syarat pertama yang
diperlukan tentunya system ini memenuhi kaidah matematis penyelesaian
system persamaan linear (lihat Chiang & Wright, 2005). Orde condition
selanjutnya dapat ditentukan dengan melihat apakah satu persamaan

memiliki jumlah variabel eksogen yang dikeluarkan (excluded) yang sama


dengan atau lebih besar dari pada variabel endogen yang ada disisi sebelah
kanan.
Sebagai contoh misalnya kita akan mengestimasi parameter suatu model ISLM, sbb

Y = C (Y ) + I (r ) + G + NX (e)
C = c0 + c1Y
I = r
NX = e

5)

M = m1Y + m2 r
r = rf + ( e e)
Sistem ini dapat disederhanakan menjadi

Y = c0 + c1Y + r + G + e

6)

M = m1Y + m2 r

7)

r = rf + ( e e)

8)

Ini adalah suatu system dengan 3 variabel endogen (Y,r dan e) serta 5
variabel eksogen(M, c0,G,rf,dane ). Persamaan 1 adalah teridentifikasi
karena jumlah variabel eksogen yang dikeluarkan yakni e dan rf adalah
sama dengan jumlah variabel endogen disebelah kanan (yakni r dan e).
Persamaan 2 adalah teridentifikasi karena jumlah variabel eksogen yang
dikeluarkan (5 buah) lebih besar dari variabel endogen sisi sebelah kanan (2
buah). Demikian juga persamaan 3, ia adalah identified. Jika order
condition terpenuhi dalam kondisi strict (lebih besar) maka persamaan
disebut dengan overidentified.
IV. Teknik Estimasi
Permasalahan endogenitas tidak selalu diturunkan dari teori ekonomi
seperti yang telah diuraikan diatas. Omitted variable juga menyebabkan
permasalahan endogenitas. Disini perubahan variabel y tidak hanya
disebabkan oleh variabel bebas x, namun dengan berubahnya y, x juga
mungkin berubah. Terkait dengan omitted variabel, hal ini terjadi karena
adanya korelasi antara variabel x dan error term (u). Jika permasalahan
endogenitas disebabkan hal semacam ini maka metoda Instrumental
Variabel (IV) akan dapat digunakan.

IV.a. Instrumental Variable (IV)


Misalnya kita akan mengestimasi hubungan antara upah yang diperoleh
(log(wage)) dengan pendidikan (duc) dan variabel kapasitas kerja (abil),
sbb:

log( wage) = 0 + 1educ + 2 abil + e

9)

Selanjut asumsikan kita tidak dapat memperoleh proxy yang baik untuk
abil, sehingga diputuskan untuk menggabungkannya dengan error term.,
atau

log( wage) = 0 + 1educ + u

10)

Jika educ dan abil tidak berhubungan maka estimator OLS yang diperoleh
adalah tidak bias. Sebaliknya jika kedua variabel ini berhubungan, maka
memasukkan secara eksplisit variabel abil akan menyebabkan estimator
yang diperoleh bersifat bias.
Kita dapat tetap menggunakan persamaan 10 dengan menggunakan suatu
instrumental variabel terhadap educ. Suatu instrumental variabel adalah
suatu variabel lain, sebut saja sebagai z, dimana ia memenuhi asumsi
1. z adalah tidak berkorelasi terhadap u

Cov( z , u ) = 0

11)

2. z adalah berkorelasi dengan x (dalam contoh ini berarti educ).

Cov( z , x) 0

12)

Perhatikan bahwa IV bukan proxy variabel terhadap abil. Sebaliknya ia


justru tidak boleh berkorelasi dengan abil, karena abil sekarang telah
digabungkan dengan error term (u). Dengan demikian proxy yang baik
untuk abil justru bukan kandidat IV yang baik. Beberapa kandidat IV yang
dapat dipertimbangkan pada contoh ini misalnya pendidikan ayah/ibu,
lokasi rumah dari tempat pendidikan, kuartal kelahiran, dsb. Dapat dilihat
bahwa variabel-variabel tersebut memiliki korelasi dengan educ tetapi
tidak/kurang berkorelasi dengan u. Wooldrige (2005) menyarankan agar
dalam pemilihan IV agar dilakukan berdasarkan auxiliary regression antara
variabel bebas (educ) dengan kandidat IV. IV terpilih dilakukan
berdasarkan tingkat signifikansi dan model fit tertinggi.
Jika kita menggunakan IV sebagai penggati regressor semula maka perlu
diperhatikan adanya perubahan dalam perhitungan statistik inferensi.
Dengan asumsi 11, 12 dan homokedastisitas maka varians dari 1 adalah

2
var( 1 ) =
n x2 x2, z

13)

dimana sebagai penduga tak bias dari 2, kita dapat menggunakan residual
kuadrat model semula, atau

1 n 2
=
ui ;
n 2 i =1
ui = yi 0 1 xi ; i = 1,..., n
2

14)

Sedangkan penduga bagi x2 adalah varians dari data x dan 2x,z diperoleh
dari koefisien determinasi regresi x terhadap z.
Perhatikan bahwa kita tidak dapat menggunakan statistik R2 pada
perhitungan IV. Hal ini disebabkan ketika x dan u berkorelasi maka, varians
dari tidak dapat didekomposisi menjadi varians x dan varians residual,
sehingga statistik R2 tidak memiliki arti sesuai yang dikehendaki.
Penggunaan teknik IV dalam kerangka multiple regression memiliki nama
dan teknik khusus yang disebut dengan Two Stage Least Squares (2SLS).
Kita akan membahasnya pada bagian tersendiri.
Contoh 1
Kita menggunakan data dari Mroz.raw. Disini kita mencoba mengestimasi
hubungan antara tingkat upah (log(wage)) terhadap pendidikan. Terdapat
banyak sekali variabel yang berpengaruh terhadap tingkat upah sehingga
model yang hanya memasukkan variabel pendidikan sebagai penjelas sangat
mungkin sekali mengalami omitted variabel (dan berarti endogenitas).
Untuk mengatasi hal ini kita akan menggunakan variabel pendidikan ayah
sebagai IV bagi educ. Untuk pembanding pertama kita akan melakukan
regresi tanpa IV (hanya OLS), dengan hasil sbb
Dependent Variable: LOG(WAGE)
Method: Least Squares
Date: 06/29/08 Time: 20:26
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EDUC

-0.185197
0.108649

0.185226
0.014400

-0.999843
7.545125

0.3180
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.117883
0.115812
0.680032
197.0010
-441.2600
1.984707

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)

1.190173
0.723198
2.071309
2.090276
56.92891
0.000000

Tabel 1. Print Output Hasil Regresi Contoh 1 Metoda OLS


Dapat dilihat pada tabel 1, return terhadap pendidikan adalah hampir
sebesar 11% (1 tahun peningkatan pendidikan akan meningkatkan upah
sebesar 11%). Teknik IV pada Eviews dapat diterapkan dengan mengklik
window estimate, pilih metoda TSLS (Two Stage Least Squares) dan
masukkan fatheduc sebagai instrument. Hasil yang diperoleh adalah
Dependent Variable: LOG(WAGE)
Method: Two-Stage Least Squares
Date: 06/29/08 Time: 20:31
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Instrument list: FATHEDUC
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EDUC

0.441103
0.059173

0.446102
0.035142

0.988795
1.683850

0.3233
0.0929

R-squared
Adjusted R-squared
S.E. of regression
Durbin-Watson stat

0.093438
0.091310
0.689390
1.968194

Mean dependent var


S.D. dependent var
Sum squared resid
Second-stage SSR

1.190173
0.723198
202.4601
221.9799

Tabel 2. Print Output Hasil Regresi Contoh 1 Metoda IV


Dapat dilihat disini return terhadap pendidikan turun menjadi 6%.
Mengingat model OLS sangat mungkin mengalami masalah omitted
variabel maka nilai yang diperoleh melalui IV dapat dikatakan lebih valid.
IV.b. Two Stage Least Squares (2SLS)
Kita dapat menggeneralisir kesimpulan diatas untuk kasus regresi berganda
k variabel dimana paling tidak terdapat satu variabel penjelas adalah
bersifat endogen (berkorelasi dengan error term). Hal yang dilakukan
adalah menambah variabel eksogen baru diluar yang sudah ada untuk
menjadi IV bagi variabel endogen.
Sebagai ilustrasi perhatikan model regresi berikut:

y1 = 0 + 1 y2 + 2 z1 + ... + k 1 zk 1 + ui

15)

Disini kita menotasikan y sebagai variabel endogen dan z sebagai variabel


eksogen. Kita mengasumsikan bahwa y2 adalah berkorelasi dengan ui,
sehingga ia adalah endogen. Estimasi persamaan 15 dengan menggunakan
OLS akan menghasilkan hasil yang bias dan tidak konsisten untuk itu kita
menggunakan IV.
Selanjutnya misalkan kita dapat memperoleh variabel eksogen baru zk yang
berkorelasi terhadap y2 tetapi tidak dengan u. Dengan demikian kita dapat
menyusun suatu reduced form, sbb

y2 = 0 + 1 z1 + 2 z2 + ... + k zk + v2

16)

Persamaan 16 disebut dengan reduced form, karena ia menunjukkan


variabel endogen sebagai fungsi dari seluruh variabel eksogen. Agar zk valid
sebagai IV bagi y2 maka koefisien k harus signifikan pada test dua arah.
Catatan: kita tidak terlalu memperhatikan tingkat signifikansi dari koefisien
lainnya (j j=1,,k-1). Asumsi lainnya yang perlu diperhatikan adalah bahwa
tidak terdapar kolinearitas sempurna dari variabel z.
Perhatikan bahwa dalam persamaan 16 kita telah memiliki suatu IV sebagai
bentuk multiple instruments (setiap variabel eksogen adalah IV bagi dirinya
sendiri). Dalam bentuk seperti ini maka IV bagi y2 disebut dengan estimator
Two Stage Least Squares (2SLS).
Sesuai namanya estimasi dengan teknik ini dilakukan dalam dua tahap.
Pertama, kita meregresikan variabel endogen terhadap seluruh variabel
eksogen yang telah ada dan minimal satu variabel eksogen lain. Kedua kita
meregresikan model awal (persamaan 15) dengan fitted value y2 (dari
persamaan 16) sebagai IV. Dengan cara ini maka estimator yang diperoleh
adalah tidak bias dan konsisten. Catatan: dalam praktek kita tidak
melakukan tahap-tahap ini secara manual, prosedur rutin biasanya telah
tersedia pada software statistik (termasuk) Eviews. Pelaksanaan secara
manual akan menghasilkan estimator yang salah.
Prosedur 2SLS juga digunakan untuk mengestimasi parameter pada suatu
system persamaan simultan. Dengan syarat suatu persamaan adalah
teridentifikasi, maka prosedur 2SLS dilaksanakan dengan (1) estimasi
reduced form setiap variabel endogen dengan seluruh variabel eksogen yang
ada pada system dan (2) gunakan fitted value pada langkah pertama sebagai
IV variabel endogen terkait.

Contoh 2.
Romer (1993) menyusun suatu model
semakin terbuka suatu negara maka
Namun demikian keputusan untuk
internasional juga tergantung seberapa
inflasi. Dengan demikian kita memiliki
sbb:

inflasi yang menunjukkan bahwa


inflasinya akan semakin rendah.
membuka diri terhadap dunia
baik kinerja kebijakan khususnya
suatu system persamaan simultan

inf = 10 + 1open + 11 log( pcinc) + u1

17)

open = 20 + 2 inf + 21 log( pcinc)


+ 21 log(land ) + u2

18)

Perhatikan bahwa hanya persamaan 17 yang teridentifikasi, sedangkan


persamaan 18 adalah unidentified. Terdapat 2 variabel eksogen dan salah
satunya (yakni log(land)) dapat digunakan sebagai IV bagi 1.
Sesuai dengan prosedur 2SLS, maka pertama kita melakukan auxiliary
regression terhadap IV. Dengan menggunakan data yang disediakan pada
file openness.raw maka diperoleh hasil sbb:
Dependent Variable: OPEN
Method: Least Squares
Date: 06/30/08 Time: 08:51
Sample: 1 114
Included observations: 114
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
LOG(PCINC)
LOG(LAND)

117.0845
0.546481
-7.567103

15.84830
1.493240
0.814216

7.387829
0.365970
-9.293727

0.0000
0.7151
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.448668
0.438734
17.79559
35151.80
-488.4392
2.147425

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)

37.07895
23.75353
8.621741
8.693746
45.16536
0.000000

Tabel 3. Prosedur 2SLS Contoh 2 tahap 1.


Disini kita memperoleh t statistik adalah sangat signifikan (=-9.29). Dengan
demikian log(land) adalah valid sebagai IV bagi open. Dengan
9

menggunakan rutin 2SLS yang ada pada Eviews maka hasil estimasi yang
diperoleh adalah
Dependent Variable: INF
Method: Two-Stage Least Squares
Date: 06/30/08 Time: 08:55
Sample: 1 114
Included observations: 114
Instrument list: LOG(PCINC) LOG(LAND)
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
OPEN
LOG(PCINC)

26.89934
-0.337487
0.375825

15.40120
0.144121
2.015081

1.746575
-2.341690
0.186506

0.0835
0.0210
0.8524

R-squared
Adjusted R-squared
S.E. of regression
Durbin-Watson stat

0.030876
0.013415
23.83581
2.092030

Mean dependent var


S.D. dependent var
Sum squared resid
Second-stage SSR

17.26404
23.99731
63064.20
61903.21

Tabel 4. Prosedur 2SLS Contoh 2 tahap 2.


Dapat dilihat pada tabel 4, koefisien openness menunjukkan tanda yang
sesuai dengan hipotesis model dan ia juga signifikan pada =5%.
V.

Pengujian Endogenitas dan Overidentifying Restriction


Seluruh uraian diatas menunjukkan bahwa kita telah mengasumsikan atau
mengetahui struktur endogenitas yang ada pada data. Dalam praktek sering
kali hal ini tidak dimungkinkan. Kita memiliki serangkaian variabel (dan
data sampelnya) namun tidak mengetahui struktur endogenitas yang ada.
Kita mengetahui bahwa variabel x1 mempengaruhi x2 tetapi tidak tahu
apakah x2 juga mempengaruhi x1 (yang berarti ada endogenitas).
Kita perlu menguji endogenitas karena penggunaan IV (dan 2SLS) yang
tidak tepat akan menghasilkan estimator yang tidak efisien (memiliki
varians yang besar). Dengan kata lain jika kita memiliki model seperti
persamaan 15 yang sebenarnya y2 adalah murni eksogen dan kita
mengestimasinya dengan menggunakan IV atau 2 SLS maka statistical
power dari model akan rendah.
Salah satu teknik pengujian yang umum digunakan adalah yang diusulkan
oleh Hausman (1978). Pengujian ini dilakukan dengan langkah-langkah
sbb:

10

1. Misalnya kita memiliki model sbb:

y1 = 0 + 1 y2 + 2 z1 + ... + k 1 zk 1 + ui

19)

Dimana y2 diduga endogen. Kita memiliki informasi variabel eksogen zj,


j=1,,k-1 sehingga yang perlu dilakukan adalah mencari minimal satu
variabel eksogen lain untuk menjadi IV bagi y2.
2. Asumsikan kita telah memperoleh variabel dimaksud, maka kemudian
lakukan regresi reduced form

y2 = 0 + 1 z1 + 2 z2 + ... + k zk + v2

20)

3. Gunakan residual yang diperoleh dari estimasi persamaan 20 (


sebagai variabel baru pada persamaan 19 dan estimasi dengan OLS.

y1 = 0 + 1 y2 + 2 z1 + ... + k 1 zk 1 + 1v2 + error

v2 )

21)

4. Gunakan test 2 arah untuk menguji apakah 1 adalah signifikan. Jika


signifikan maka dapat disimpulkan bahwa y2 adalah endogen.
5. Kita juga dapat menggunakan kerangka pengujian berganda (F test)
untuk melihat apakah dua atau lebih regresor adalah bersifat endogen.
Hal ini adalah generalisasi langsung dari prosedur diatas dimana untuk
setiap regresor yang diduga endogen bentuk reduced form. Residual dari
reduced form yang relevan kemudian dimasukkan dalam persamaan
structural (persamaan 19) dan lakukan pengujian bahwa 1== h=0
dimana h adalah indeks variabel yang diduga endogen.
Kondisi lain yang sering ditemui dalam penelitian empiris dengan kondisi
endogenitas adalah overidentification. Overidentification terjadi ketika
suatu persamaan memiliki variabel eksogen (yang tidak ada pada
persamaan atau IV) lebih banyak dari variabel endogen disisi sebelah
kanan. Bound, Jaeger dan Baker 9995) menunjukkan penggunaan 2SLS
dalam kondisi seperti ini memungkinkan terjadinya bias. Secara intuitif
penggunaan banyak IV untuk suatu variabel endogen akan meningkatkan
probabilitas variabel endogen tersebut untuk berkorelasi dengan error pada
persamaan strukturalnya.
Dengan demikian dapat dikatakan bahwa kita memerlukan jumlah
instrumen yang tepat untuk membentuk suatu IV bagi variabel endogen
tertentu. Cara ini bersifat trial and error namun demikian terdapat suatu
pengujian untuk menduga apakah IV yang digunakan telah memadai.
Pengujian ini disebut dengan overidentifying restriction test.

11

Wooldrige (2005) megusulkan suatu kerangka kerja yang sederhana untuk


menguji hal ini, yakni
1. Estimasi persamaan structural dengan 2SLS dan peroleh residualnya
(sebut saja u1).
2. Regresikan u1 terhadap seluruh variabel eksogen, dan peroleh nilai R2
(sebut saja R12).
3. Dengan hipotesis null bahwa seluruh IV adalah tidak berkorelasi dengan
u1, maka

nR12 q2

22)

dimana q adalah jumlah variabel eksogen dari luar model (IV) dikurangi
jumlah variabel endogen.
4. Jika nilai statistik uji melebihi nilai kritis pada =5%, maka kita akan
menolak H0 dan mengatakan bahwa paling tidak ada satu IV yang tidak
eksogen.
Contoh 3.
Dengan menggunakan data Mroz.raw kita akan menguji apakah variabel
educ adalah bersifat endogen. Disini kita akan menggunakan variabel exper,
exper2, motheduc dan fatheduc sebagai IV. Regresi IV akan memberikan
hasil sbb
Dependent Variable: EDUC
Method: Least Squares
Date: 06/30/08 Time: 09:38
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EXPER
EXPER^2
MOTHEDUC
FATHEDUC

9.102640
0.045225
-0.001009
0.157597
0.189548

0.426561
0.040251
0.001203
0.035894
0.033756

21.33958
1.123593
-0.838572
4.390609
5.615173

0.0000
0.2618
0.4022
0.0000
0.0000

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid

0.211471
0.204014
2.038967
1758.575

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion

12.65888
2.285376
4.274378
4.321797

12

Log likelihood
Durbin-Watson stat

-909.7168
1.939888

F-statistic
Prob(F-statistic)

28.36041
0.000000

Tabel 5. Pengujian Endogenitas (Regresi Reduced Form)


Kita simpan residual dari regresi ini sebagai variabel v2, dengan
mengetikkan series v2=resid pada command window. Persamaan struktural
yang ingin diestimasi adalah regresi atas log(wage) terhadap educ, exper
dan exper2. Hasil yang diperoleh dengan memasukkan variabel v2 pada
persamaan struktural adalah
Dependent Variable: LOG(WAGE)
Method: Least Squares
Date: 06/30/08 Time: 09:40
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EDUC
EXPER
EXPER^2
V2

0.048100
0.061397
0.044170
-0.000899
0.058167

0.394575
0.030985
0.013239
0.000396
0.034807

0.121904
1.981499
3.336272
-2.270623
1.671105

0.9030
0.0482
0.0009
0.0237
0.0954

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Durbin-Watson stat

0.162350
0.154429
0.665016
187.0701
-430.1908
1.931343

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion
F-statistic
Prob(F-statistic)

1.190173
0.723198
2.033602
2.081022
20.49611
0.000000

Tabel 6. Pengujian Endogenitas (Persamaan Struktural)


Dapat dilihat dari tabel 6 bahwa t statistik adalah sebesar 1.67 dengan p
value 9,5%. Dengan menggunakan =10%, kita dapat mengatakan bahwa
educ adalah bersifat endogen.
Selanjutnya kita juga dapat menguji apakah penggunaan motheduc dan
fatheduc sebagai IV adalah tidak bias (tidak mengalami masalah
overidentfying restriction). Ingat bahwa kita memiliki satu variabel
endogen namun 2 IV (motheduc dan fatheduc) yang berarti persamaan
regresi yang dimiliki adalah overidentified.

13

Sesuai prosedur yang telah diuraikan diatas, maka hal pertama yang
dilakukan adalah estimasi persamaan structural dengan seluruh IV. Hasil
regresi diberikan sbb:
Dependent Variable: LOG(WAGE)
Method: Two-Stage Least Squares
Date: 06/30/08 Time: 09:47
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Instrument list: EXPER EXPER^2 MOTHEDUC FATHEDUC
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EDUC
EXPER
EXPER^2

0.048100
0.061397
0.044170
-0.000899

0.400328
0.031437
0.013432
0.000402

0.120152
1.953024
3.288329
-2.237993

0.9044
0.0515
0.0011
0.0257

R-squared
Adjusted R-squared
S.E. of regression
Durbin-Watson stat

0.135708
0.129593
0.674712
1.945659

Mean dependent var


S.D. dependent var
Sum squared resid
Second-stage SSR

1.190173
0.723198
193.0200
212.2096

Tabel 7. Pengujian Overidentifying Restriction (Persamaan Struktural)


Simpan residual dari persamaan ini sebagai series u. Kemudian lakukan
regresi auxiliary u terhadap seluruh variabel eksogen sbb:
Dependent Variable: U
Method: Least Squares
Date: 06/30/08 Time: 09:49
Sample: 1 753 IF WAGE<>NA
Included observations: 428
Variable

Coefficient

Std. Error

t-Statistic

Prob.

C
EXPER
EXPER^2
MOTHEDUC
FATHEDUC

0.010964
-1.83E-05
7.34E-07
-0.006607
0.005782

0.141257
0.013329
0.000398
0.011886
0.011179

0.077618
-0.001376
0.001842
-0.555804
0.517263

0.9382
0.9989
0.9985
0.5786
0.6052

R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid

0.000883
-0.008565
0.675210
192.8495

Mean dependent var


S.D. dependent var
Akaike info criterion
Schwarz criterion

-1.05E-16
0.672337
2.064029
2.111448

14

Log likelihood
Durbin-Watson stat

-436.7021
1.946859

F-statistic
Prob(F-statistic)

0.093496
0.984495

Tabel 8. Pengujian Overidentifying Restriction (Auxiliary Regression)


Dapat dilihat pada tabel 8, nilai R12 adalah sebesar 0.0009 sehingga nilai
statistik uji adalah nR12= 428(0.0009)=0.3852. Nilai 2 dengan df=1 (2 IV-1
variabel endogen) adalah 3.84 dengan demikian hipotesis null seluruh IV
adalah tidak berkorelasi dengan u1 dapat diterima. Penggunaan motheduc
dan fatheduc adalah valid.

15