Anda di halaman 1dari 41

EKONOMETRIKA LANJUTAN (EKI321/A2)

“INSTRUMENTAL VARIABLES ESTIMATION AND TWO STAGE LEAST SQUARES”


Dosen pengampu: Prof. Dr. Made Suyana Utama, SE., MS

Oleh :
Kelompok 3

Ni Putu Sri Febriana Dewi 2207511161


Ni Putu Bunga Almira Cahya 2207511183
Yenni Ekasari Br Tarigan 2207511188

PROGRAM STUDI SARJANA EKONOMI PEMBANGUNAN


FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS UDAYANA
2023/2024
KATA PENGANTAR

Puji syukur kita panjatkan kehadapan Tuhan Yang Maha Esa karena berkat rahmat-Nya
lah kami dari Kelompok 3 yang membahas materi “INSTRUMENTAL VARIABLES
ESTIMATION AND TWO STAGE LEAST SQUARES” dapat mengerjakannya dengan lancar.
Pada makalah yang kami buat ini, kami menyadari masih banyak kekurangan sehingga
makalah ini belum sempurna. Maka dari itu kami berharap kepada pembaca untuk memberikan
kritik dan saran yang membangun demi perbaikan makalah yang akan datang.
Semoga makalah yang kami buat dapat memberi sumbangsih yang berarti bagi pembaca
karena ilmu yang didapatkan dari makalah ini. Akhir kata, kami mohon maaf apabila ada
kesalahan kata yang kami perbuat, baik secara sengaja maupun tidak sengaja. Atas perhatiannya,
kami ucapkan terima kasih.

Jimbaran, 19 Maret 2024

Kelompok 3

i
DAFTAR ISI

KATA PENGANTAR.......................................................................................................i
DAFTAR ISI....................................................................................................................ii
BAB I PENDAHULUAN................................................................................................1
1.1 Latar Belakang........................................................................................................1
1.2 Rumusan Masalah...................................................................................................2
1.3 Tujuan.....................................................................................................................2
BAB II PEMBAHASAN.................................................................................................3
2.1 Motivation: Omitted Variables in a Simple Regression Model..............................3
2.2 IV Estimation of the Multiple Regression Model.................................................15
2.3 Two Stage Least Squares......................................................................................19
2.4 IV Solutions to Errors-in-Variables Problems......................................................22
2.5 Testing for Endogeneity and Testing Overidentifying Restrictions......................25
2.6 2SLS with Heteroskedasticity...............................................................................30
2.7 Applying 2SLS to Time Series Equations.............................................................31
2.8 Applying 2SLS to Pooled Cross Sections and Panel Data....................................34
BAB III PENUTUP .......................................................................................................37
3.1 Simpulan....................................................................................................................37
DAFTAR PUSTAKA.....................................................................................................38

ii
BAB I
PENDAHULUAN

1.1 Latar Belakang


Pada bab ini, mempelajari lebih lanjut masalah variabel penjelas endogen dalam model
regresi berganda. Pada Bab 3, kami memperoleh bias dalam estimator OLS ketika sebuah
variabel penting dihilangkan; di Bab 5. kami menunjukkan bahwa OLS umumnya tidak
konsisten dalam variabel yang dihilangkan. Bab 9 menunjukkan bahwa bias variabel yang
dihilangkan dapat dihilangkan (atau setidaknya dikurangi) ketika variabel proksi yang sesuai
diberikan untuk variabel penjelas yang tidak teramati. Sayangnya, variabel proksi yang sesuai
tidak selalu tersedia.
Menjelaskan bagaimana estimasi efek tetap atau perbedaan pertama dapat digunakan
dengan data panel untuk memperkirakan efek variabel independen yang bervariasi terhadap
waktu dengan adanya variabel yang dihilangkan dengan konstanta waktu. Meskipun metode
seperti ini sangat berguna, kami tidak selalu memiliki akses ke data panel. Bahkan jika kita dapat
memperoleh data panel, tidak ada gunanya jika kita tertarik pada pengaruh suatu variabel yang
tidak berubah sepanjang waktu: estimasi efek tetap atau diferensiasi pertama menghilangkan
variabel penjelas yang konstan terhadap waktu. Selain itu, metode data panel yang kita pelajari
selama ini tidak menyelesaikan permasalahan variabel yang dihilangkan dengan variasi waktu
yang berkorelasi dengan variabel penjelas.
Dalam materi ini, kami mengambil pendekatan berbeda terhadap masalah endogenitas.
Anda akan melihat bagaimana metode Instrumental Variabel (IV) dapat digunakan untuk
menyelesaikan masalah endogenitas satu atau lebih variabel penjelas. Metode kuadrat terkecil
dua tahap (2SLS atau TSLS) paling populer kedua setelah kuadrat terkecil biasa untuk
memperkirakan persamaan linier dalam ekonometrik terapan. Kita mulai dengan menunjukkan
bagaimana metode IV dapat digunakan untuk memperoleh estimator yang konsisten dengan
adanya variabel yang dihilangkan. IV juga dapat digunakan untuk menyelesaikan masalah
kesalahan dalam variabel, setidaknya dengan asumsi tertentu. Bab selanjutnya akan
mendemonstrasikan cara mengestimasi model persamaan simultan menggunakan metode IV.

1
1.2 Rumusan Masalah
1.2.1 Apa itu Motivation: Omitted Variables in a Simple Regression Model?
1.2.2 Apa itu IV Estimation of the Multiple Regression Model?
1.2.3 Apa itu Two Stage Least Squares?
1.2.4 Apa itu IV Solutions to Errors-in-Variables Problems?
1.2.5 Apa itu Testing for Endogeneity and Testing Overidentifying Restrictions?
1.2.6 Apa itu 2SLS with Heteroskedasticity?
1.2.7 Apa itu Applying 2SLS to Time Series Equations?
1.2.8 Apa itu Applying 2SLS to Pooled Cross Sections and Panel Data?

1.3 Tujuan
1.3.1 Untuk mengetahui Motivation: Omitted Variables in a Simple Regression Model
1.3.2 Untuk mengetahui IV Estimation of the Multiple Regression Model
1.3.3 Untuk mengetahui Two Stage Least Squares
1.3.4 Untuk mengetahui IV Solutions to Errors-in-Variables Problems
1.3.5 Untuk mengetahui Testing for Endogeneity and Testing Overidentifying Restrictions
1.3.6 Untuk mengetahui 2SLS with Heteroskedasticity
1.3.7 Untuk mengetahui Applying 2SLS to Time Series Equations
1.3.8 Untuk mengetahui Applying 2SLS to Pooled Cross Sections and Panel Data

2
BAB II
PEMBAHASAN

2.1 Motivation: Omitted Variables in a Simple Regression Model


Ketika dihadapkan pada kemungkinan bias variabel yang dihilangkan (atau heterogenitas
yang tidak teramati), sejauh ini kita telah membahas tiga pilihan: (1) kita dapat mengabaikan
masalah dan menanggung konsekuensi dari penduga yang bias dan tidak konsisten; (2) kita dapat
mencoba mencari dan menggunakan variabel proksi yang sesuai untuk variabel yang tidak
teramati; atau (3) kita dapat berasumsi bahwa variabel yang dihilangkan tidak. berubah dari
waktu ke waktu dan menggunakan efek tetap atau metode pembedaan pertama dari Bab 13 dan
14. Respon pertama akan memuaskan jika perkiraan tersebut digabungkan dengan arah bias
untuk parameter utama. Misalnya, jika kita dapat mengatakan bahwa penaksir parameter positif,
katakanlah, pengaruh pelatihan kerja terhadap upah berikutnya, bias ke arah nol dan kita telah
menemukan estimasi positif yang signifikan secara statistik, kita masih mempelajari sesuatu:
pelatihan kerja mempunyai dampak positif terhadap upah, dan kemungkinan besar kita
meremehkan dampaknya. Sayangnya, kasus sebaliknya, dimana estimasi kami mungkin terlalu
besar, sering kali terjadi, sehingga sangat sulit bagi kami untuk menarik kesimpulan yang
berguna.
Solusi variabel proksi yang dibahas di Bagian 9.2 juga dapat memberikan hasil yang
memuaskan, namun tidak selalu mungkin untuk menemukan proksi yang baik. Pendekatan ini
mencoba memecahkan masalah variabel yang dihilangkan dengan mengganti variabel yang tidak
dapat diobservasi dengan variabel proksi. Pendekatan lain membiarkan variabel yang tidak
teramati dalam istilah kesalahan, namun alih-alih memperkirakan model dengan OLS,
pendekatan ini menggunakan metode estimasi yang mengenali keberadaan variabel yang
dihilangkan. Inilah yang dilakukan oleh metode variabel instrumental.
Sebagai ilustrasi, pertimbangkan masalah kemampuan yang tidak teramati dalam
persamaan upah orang dewasa yang bekerja. Model sederhananya adalah di mana e adalah

istilah kesalahan. .

3
Di Bab 9, kami menunjukkan bagaimana, dengan asumsi tertentu, variabel proksi seperti
IQ dapat menggantikan kemampuan, dan kemudian estimator B ₁ yang konsisten
tersedia dari regresi
log(wage) on educ, IQ
Namun, misalkan variabel proksi tidak tersedia (atau tidak memiliki pr yang diperlukan
untuk menghasilkan estimator β₁ yang konsisten). Kemudian, kita memasukkan abil ke dalam
kesalahan sehingga kita mendapatkan model regresi sederhana
log(wage)=β0 + β1educ + u [15.1]
dimana kamu mengandung abil. Tentu saja, jika persamaan (15.1) merupakan penduga yang
tidak konsisten dari β1, hasil jika Pendidikan dan kemampuan berkorelasi.
Ternyata persamaan (15.1) masih bisa kita gunakan sebagai dasar estimasi kita dapat
menemukan variabel instrumental untuk pendidikan. Untuk menggambarkan aplikasi ini model
regresi sederhana ditulis sebagai
y = β0 + β1x + u
di mana kita berpikir bahwa x dan u berkorelasi :
Cov(x,u) ≠ 0
Metode variabel instrumental berfungsi baik x dan u berkorelasi atau tidak, namun, untuk
alasan yang akan kita lihat nanti, OLS harus digunakan jika x tidak berkorelasi dengan u. Untuk
mendapatkan penduga β0 dan β1 yang konsisten, ketika x dan u dikorelasikan, diperlukan
beberapa informasi tambahan. Informasi tersebut datang melalui variabel baru yang memenuhi
properti tertentu. Misalkan kita mempunyai variabel observasi z yang memenuhi dua asumsi
berikut: (1) z tidak berkorelasi dengan u, yaitu,
Cov(z,u) = 0;
(2) z berkorelasi dengan x, yaitu,
Cov(z,x) ≠ 0.
Kemudian, kita menyebut z sebagai variabel instrumental untuk x, atau terkadang sekadar
instrumen untuk x. Persyaratan yang memenuhi instrumen z (15.4) diringkas dengan
mengatakan "z bersifat eksogen dalam persamaan (15.2)," sehingga kita sering menyebut (15.4)
sebagai eksogenitas instrumen. Dalam konteks variabel yang dihilangkan, eksogenitas
instrumen berarti bahwa z seharusnya tidak memiliki pengaruh parsial terhadap y (setelah x dan
variabel yang dihilangkan dikendalikan), dan z harus tidak berkorelasi dengan variabel yang

4
dihilangkan. Persamaan (15.5) berarti bahwa z harus berhubungan, baik secara positif maupun
negatif, dengan variabel penjelas endogen x. Kondisi ini terkadang disebut sebagai relevansi
instrumen (seperti dalam "z relevan untuk menjelaskan variasi dalam x").
Ada perbedaan yang sangat penting antara kedua persyaratan untuk variabel instrumental.
Karena (15.4) melibatkan kovarians antara z dan kesalahan u yang tidak teramati, secara umum
kita tidak dapat berharap untuk menguji asumsi ini: dalam sebagian besar kasus, kita harus
mempertahankan Cov(z.u) = 0 dengan menggunakan perilaku ekonomi atau introspeksi. (Dalam
kasus yang tidak biasa, kita mungkin memiliki variabel proksi yang dapat diamati untuk
beberapa faktor yang terkandung dalam u, dalam hal ini kita dapat memeriksa apakah z dan
variabel proksi secara kasar tidak berkorelasi. Tentu saja, jika kita memiliki proksi yang baik
untuk sebuah variabel elemen penting dari u, kita bisa menambahkan proksi sebagai variabel
penjelas dan memperkirakan persamaan yang diperluas dengan kuadrat terkecil biasa. Lihat
Bagian 9.2.) Sebaliknya, kondisi z berkorelasi dengan x (dalam populasi) dapat diuji, dengan
memberikan sampel acak dari populasi. Cara termudah untuk melakukannya adalah dengan
memperkirakan regresi sederhana antara x dan z. Dalam populasi, kita punya
x = π0 + π1z + v.
Kemudian, karena π₁ = Cov(z,x)/Var(z), asumsi (15.5) berlaku jika, dan hanya jika, π₁ ≠ 0. Jadi,
kita seharusnya bisa menolak hipotesis nol
H0: π1 = 0
terhadap alternatif dua sisi Ho: 70, pada tingkat signifikansi yang cukup kecil (katakanlah, 5%
atau 1%). Jika hal ini terjadi, maka kita cukup yakin bahwa (15.5) berlaku. Untuk persamaan
log(upah) pada (15.1), variabel instrumental z untuk pendidikan harus (1) tidak berkorelasi
dengan kemampuan (dan faktor-faktor lain yang tidak teramati yang mempengaruhi upah) dan
(2) berkorelasi dengan pendidikan. Sesuatu seperti digit terakhir Nomor Jaminan Sosial
seseorang hampir pasti memenuhi persyaratan pertama: tidak berkorelasi dengan kemampuan
karena ditentukan secara acak. Namun justru karena keacakan digit terakhir SSN maka tidak ada
korelasinya dengan pendidikan; oleh karena itu hal ini menjadikan variabel instrumental yang
buruk bagi pendidikan. Apa yang kita sebut sebagai variabel proksi untuk variabel yang
dihilangkan menghasilkan IV yang buruk karena alasan sebaliknya. Misalnya, dalam contoh
log(wage) dengan kemampuan yang dihilangkan, variabel proksi untuk abil harus berkorelasi
setinggi mungkin dengan abil. Variabel instrumental harus tidak berkorelasi dengan kemampuan.

5
Oleh karena itu, meskipun IQ merupakan kandidat yang baik sebagai variabel proksi untuk
kemampuan, namun IQ bukanlah variabel instrumental yang baik untuk pendidikan.
Apakah kandidat variabel instrumental lain yang mungkin memenuhi persyaratan
eksogenitas pada (15.4) masih kurang jelas. Dalam persamaan upah, ekonom tenaga kerja
menggunakan variabel latar belakang keluarga sebagai infus untuk pendidikan. Misalnya,
pendidikan ibu (motheduc) berkorelasi positif dengan pendidikan anak, hal ini dapat dilihat
dengan mengumpulkan sampel data orang yang bekerja dan menjalankan regresi sederhana
pendidikan pada motheduc. Oleh karena itu, motheduc memenuhi persamaan (15.5). Masalahnya
adalah pendidikan ibu mungkin juga berkorelasi dengan kemampuan anak (melalui kemampuan
ibu dan mungkin kualitas pengasuhan pada usia dini), sehingga (15.4) gagal. Pilihan IV lainnya
untuk pendidikan di (15.1) adalah jumlah saudara kandung saat tumbuh dewasa (saudara
kandung). Biasanya, memiliki lebih banyak saudara dikaitkan dengan tingkat rata-rata
pendidikan yang lebih rendah. Jadi, jika jumlah saudara kandung tidak berkorelasi dengan
kemampuan, hal ini dapat berperan sebagai variabel instrumental dalam pendidikan.
Sebagai contoh kedua, pertimbangkan masalah memperkirakan dampak sebab akibat dari
membolos kelas terhadap nilai ujian akhir. Dalam kerangka regresi sederhana, kita punya
Score = β0 + β1 skipped + u,
dimana nilai adalah nilai ujian akhir dan dilewati adalah jumlah perkuliahan yang terlewat pada
semester tersebut. Kita mungkin khawatir bahwa bolos berkorelasi dengan faktor-faktor lain
dalam diri kita: siswa yang lebih mampu dan bermotivasi tinggi mungkin akan melewatkan lebih
sedikit kelas. Oleh karena itu, regresi sederhana terhadap skor yang dilewati mungkin tidak
memberikan perkiraan yang baik mengenai dampak sebab akibat kelas yang hilang. IV apa yang
bagus untuk dilewati? Kita memerlukan sesuatu yang tidak berpengaruh langsung terhadap nilai
dan tidak berkorelasi dengan kemampuan dan motivasi siswa. Dalam hal ini, IV harus
dikorelasikan dengan yang dilewati. Salah satu pilihannya adalah dengan menggunakan jarak
antara tempat tinggal dan kampus. Beberapa mahasiswa di universitas besar akan pulang pergi ke
kampus, yang dapat meningkatkan kemungkinan bolos kuliah (karena cuaca buruk, tidur
berlebihan, dan sebagainya). Jadi, lompatan yang dilewati mungkin berkorelasi positif dengan
jarak; ini dapat diperiksa dengan melakukan regresi jarak yang dilewati dan melakukan tes,
seperti yang dijelaskan sebelumnya.

6
Apakah jarak tidak ada hubungannya denganmu? Dalam model regresi sederhana (15.8),
beberapa faktor dalam u mungkin berkorelasi dengan jarak. Misalnya, mahasiswa dari keluarga
berpenghasilan rendah mungkin tinggal di luar kampus; jika pendapatan mempengaruhi kinerja
siswa, hal ini dapat menyebabkan jarak berkorelasi dengan u. Bagian 15.2 menunjukkan cara
menggunakan IV dalam konteks imana nilai adalah nilai ujian akhir dan dilewati adalah jumlah
perkuliahan yang terlewat pada semester tersebut. Kita mungkin khawatir bahwa bolos
berkorelasi dengan faktor-faktor lain dalam diri kita: siswa yang lebih mampu dan bermotivasi
tinggi mungkin akan melewatkan lebih sedikit kelas. Oleh karena itu, regresi sederhana terhadap
skor yang dilewati mungkin tidak memberikan perkiraan yang baik mengenai dampak sebab
akibat kelas yang hilang.
IV apa yang bagus untuk dilewati? Kita memerlukan sesuatu yang tidak berpengaruh
langsung terhadap nilai dan tidak berkorelasi dengan kemampuan dan motivasi siswa. Dalam hal
ini, IV harus dikorelasikan dengan yang dilewati. Salah satu pilihannya adalah dengan
menggunakan jarak antara tempat tinggal dan kampus. Beberapa mahasiswa di universitas besar
akan pulang pergi ke kampus, yang dapat meningkatkan kemungkinan bolos kuliah (karena
cuaca buruk, tidur berlebihan, dan sebagainya). Jadi, lompatan yang dilewati mungkin
berkorelasi positif dengan jarak; ini dapat diperiksa dengan melakukan regresi jarak yang
dilewati dan melakukan tes, seperti yang dijelaskan sebelumnya.
Apakah jarak tidak ada hubungannya denganmu? Dalam model regresi sederhana (15.8),
beberapa faktor dalam u mungkin berkorelasi dengan jarak. Misalnya, mahasiswa dari keluarga
berpenghasilan rendah mungkin tinggal di luar kampus; jika pendapatan mempengaruhi kinerja
siswa, hal ini dapat menyebabkan jarak berkorelasi dengan u. Bagian 15.2 menunjukkan cara
menggunakan IV dalam konteks regresi berganda, sehingga faktor lain yang mempengaruhi skor
dapat dimasukkan langsung ke dalam model. Maka, jarak mungkin merupakan infus yang bagus
untuk dilewati. Pendekatan IV mungkin tidak diperlukan sama sekali jika terdapat proksi yang
baik untuk kemampuan siswa, seperti IPK kumulatif sebelum semester.
Ada hal terakhir yang perlu ditekankan sebelum kita beralih ke mekanisme estimasi IV:
yaitu, dalam menggunakan regresi sederhana dalam persamaan (15.6) untuk menguji (15.7),
penting untuk memperhatikan tanda (dan bahkan besarnya) dari π 1 dan bukan hanya signifikansi
statistiknya. Argumen mengapa variabel z merupakan kandidat IV yang baik untuk variabel
penjelas endogen x harus mencakup diskusi tentang sifat hubungan antara x dan z. Misalnya,

7
karena pengaruh genetika dan latar belakang, masuk akal jika pendidikan anak (x) dan
pendidikan ibu (z) berkorelasi positif. Jika dalam sampel data Anda menemukan bahwa data
tersebut sebenarnya berkorelasi negatif, yaitu π 1 < 0, maka penggunaan pendidikan ibu sebagai
infus untuk pendidikan anak kemungkinan besar tidak meyakinkan. [Dan ini tidak ada
hubungannya dengan apakah kondisi (15.4) mungkin berlaku.] Dalam contoh pengukuran
apakah membolos kelas berdampak pada kinerja tes, kita harus menemukan hubungan yang
positif dan signifikan secara statistik antara bolos dan jarak dalam ujian. untuk membenarkan
penggunaan jarak sebagai IV untuk dilewati: hubungan negatif akan sulit untuk dibenarkan [dan
akan menyarankan bahwa ada variabel-variabel penting yang dihilangkan yang mendorong
korelasi negatif-variabel yang mungkin harus dimasukkan dalam model (15.8)].
Sekarang kami menunjukkan bahwa ketersediaan variabel instrumental dapat digunakan
untuk memperkirakan secara konsisten parameter dalam persamaan (15.2). Secara khusus, kami
menunjukkan bahwa asumsi (15.4) dan (15.5) berfungsi untuk mengidentifikasi parameter β ₁.
Identifikasi suatu parameter dalam konteks ini berarti kita dapat menulis β 1, dalam bentuk
momen populasi yang dapat diperkirakan dengan menggunakan data sampel. Untuk menulis β 1
dalam bentuk kovarians populasi, kita menggunakan persamaan (15.2): kovarians
antara z dan y adalah
Cov(z,y)=β1,Cov(z,x) + Cov(z,u).
Sekarang, dengan asumsi (15.4), Cov(z,u) = 0, dan dengan asumsi (15.5), Cov(z,x) ≠ 0. Jadi, kita
Cov ( z , y )
dapat menyelesaikan β1, sebagai β1 =
Cov ( z , y )
Perhatikan bagaimana aljabar sederhana ini gagal jika z dan x tidak berkorelasi, yaitu jika
Cov(z, x) = 0.] Persamaan (15.9) menunjukkan bahwa β 1, adalah kovarians populasi antara z dan
y dibagi dengan kovarians populasi antara z dan x, yang menunjukkan bahwa β 1 teridentifikasi.
Dengan menggunakan sampel acak, kita memperkirakan jumlah populasi dengan analogi sampel.
Setelah ukuran sampel pada pembilang dan penyebutnya dihilangkan, diperoleh penduga
variabel instrumental (IV) dari β1;

8
Dengan memberikan sampel data pada x, y, dan z, mudah untuk mendapatkan estimator
IV pada (15.10). Estimator IV dari β0, secara sederhana adalah Dengan β1 yang terlihat seperti
estimator intersep OLS kecuali bahwa estimator kemiringan, β1 sekarang menjadi estimator
IV. .Bukan suatu kebetulan ketika kita memperoleh penduga OLS untuk β1. Dengan kata lain,
jika x bersifat eksogen, ia dapat digunakan sebagai penduga IV-nya sendiri, dan penduga IV
tersebut kemudian identik dengan penduga OLS. Penerapan sederhana hukum bilangan besar
menunjukkan bahwa estimator IV adalah konsisten untuk β 1: plim(β1) β₁, asalkan asumsi (15.4)
dan (15.5) terpenuhi. Jika asumsi gagal, maka estimator IV tidak konsisten (akan dijelaskan lebih
lanjut nanti). Salah satu ciri dari estimator IV adalah, ketika x dan a pada kenyataannya
berkorelasi sehingga diperlukan pendugaan variabel instrumental, maka estimator tersebut pada
dasarnya tidak pernah tidak bias. Artinya, dalam sampel kecil, estimator IV dapat mempunyai
bias yang besar, yang merupakan salah satu alasan mengapa sampel besar lebih disukai.
Ketika membahas penerapan variabel instrumental, penting untuk berhati-hati dengan
bahasa. Seperti OLS, IV adalah metode estimasi. Tidak masuk akal untuk merujuk pada "model
variabel instrumental"-sama seperti ungkapan "model OLS" tidak masuk akal. Seperti yang kita
ketahui, model adalah persamaan seperti (15.8), yang merupakan kasus khusus dari model
generik pada persamaan (15.2). Jika kita memiliki model seperti (15.2), kita dapat memilih untuk
memperkirakan parameter model tersebut dengan berbagai cara. Sebelum bab ini kita fokus
terutama pada OLS, namun, misalnya, kita juga mengetahui dari Bab 8 bahwa kita dapat
menggunakan kuadrat terkecil tertimbang sebagai metode estimasi alternatif (dan biasanya
terdapat banyak kemungkinan untuk bobot). Jika kita mempunyai kandidat variabel instrumental
z untuk x maka kita dapat menerapkan estimasi variabel instrumental. Memang benar bahwa
metode estimasi yang kami terapkan dilatarbelakangi oleh model dan asumsi yang kami buat
terhadap model tersebut. Namun estimatornya sudah terdefinisi dengan baik dan terpisah dari
model atau asumsi yang mendasarinya: ingat, estimator hanyalah sebuah aturan untuk
menggabungkan data. Intinya adalah meskipun kita mungkin mengetahui apa yang dimaksud
peneliti ketika menggunakan frasa seperti "Saya memperkirakan model IV", ungkapan tersebut
menunjukkan kurangnya pemahaman tentang perbedaan antara model dan metode estimasi.
Statistical Inference with the IV Estimator
Mengingat struktur penduga IV dan OLS yang serupa, tidak mengherankan jika penduga
IV memiliki perkiraan distribusi normal dalam ukuran sampel yang besar. Untuk melakukan

9
inferensi pada β1, kita memerlukan kesalahan standar yang dapat digunakan untuk menghitung t
statistik dan interval kepercayaan. Pendekatan yang biasa dilakukan adalah dengan menerapkan
asumsi homoskedastisitas, seperti dalam kasus OLS. Sekarang asumsi homoskedastisitas
dinyatakan tergantung pada variabel instrumental z, bukan variabel penjelas endogen x. Seiring
dengan asumsi sebelumnya pada u, x, dan z, kami menambahkan

Dapat ditujukkan bahwa, pada (15.4) (15.5) dan (15.11) varian dari asymptotic dari β1 adalah

dimana adalah varians populasi x, σ2 adalah varians populasi u, dan p2x,z adalah kuadrat korelasi
populasi antara x dan z. Hal ini menunjukkan kepada kita betapa tingginya korelasi x dan z dalam
populasi. Seperti halnya penduga OLS, varian asimtotik dari penduga IV berkurang menjadi nol
dengan laju 1/n, dengan n adalah ukuran sampel.
Persamaan (15.12) menarik karena dua alasan. Pertama, ini menyediakan cara untuk
mendapatkan kesalahan standar untuk estimator IV. Semua besaran pada (15.12) dapat
diperkirakan secara konsisten dengan menggunakan sampel acak. Untuk memperkirakan σ 2 kita
cukup menghitung varians sampel x; untuk memperkirakan p, kita dapat menjalankan regresi x,
pada z, untuk mendapatkan R-squared, katakanlah, R 2z,x . Terakhir, untuk memperkirakan σ2, kita
dapat menggunakan sisa IV,

dimana β0 dan β1 adalah perkiraan IV. Penduga σ2 yang konsisten tampak seperti penduga
pembuat σ2 dari regresi OLS sederhana:

dimana merupakan standar untuk menggunakan koreksi derajat kebebasan (meskipun hal ini
memiliki pengaruh yang kecil seiring bertambahnya ukuran sampel).Kesalahan standar
(asimtotik) dari β1 adalah akar kuadrat dari perkiraan varians asimtotik, yang
terakhir diberikan oleh

10
dimana SSTx, adalah jumlah total kuadrat dari xi. [Ingat bahwa varian sampel xi adalah SSTx,/n,
sehingga ukuran sampel dibatalkan sehingga menghasilkan (15.13).] Kesalahan standar yang
dihasilkan dapat digunakan untuk menyusun 1 statistik untuk hipotesis yang melibatkan β 1 atau
interval kepercayaan untuk β1 . β0 juga memiliki kesalahan standar yang tidak kami sajikan di
sini. Ekonometrika modern apapun paket menghitung kesalahan standar setelah estimasi IV apa
pun. Alasan kedua (15.12) menarik adalah bahwa hal ini memungkinkan kita untuk
membandingkan varian asimtotik dari estimator IV dan OLS (ketika x dan u tidak berkorelasi).
Berdasarkan asumsi Gauss-Markov, varian penduga OLS adalah o²/SST, sedangkan rumus
pembanding untuk penduga IV adalah o²/(SSTx . R2x,z); mereka hanya berbeda pada Rapper pada
penyebut varians IV. Karena R-kuadrat selalu lebih kecil dari satu, varians IV selalu lebih besar
dari varians OLS (jika OLS valid). Jika R2x,z kecil, maka varians IV bisa jauh lebih besar
dibandingkan varians OLS. Ingat, R2x,z mengukur kekuatan hubungan linier antara x dan z dalam
sampel. Jika x dan z hanya sedikit berkorelasi, R2x,z bisa menjadi kecil, dan ini dapat
diterjemahkan ke dalam varians sampling yang sangat besar untuk estimator IV. Semakin tinggi z
berkorelasi dengan x, semakin dekat R 2X,Z ke satu, dan semakin kecil varians penduga IV. Jika z =
x, R2X,Z = 1, dan kita mendapatkan varians OLS, seperti yang diharapkan. Pembahasan
sebelumnya menyoroti biaya penting dalam melakukan estimasi IV ketika x dan u tidak
berkorelasi: varians asimtotik dari estimator IV selalu lebih besar, dan terkadang jauh lebih besar,
dibandingkan varians asimtotik dari estimator OLS.
Contoh 15.1 Estimating the Return to Education for Married Women
Kami menggunakan data perempuan pekerja yang sudah menikah di MROZ.RAW untuk
memperkirakan tingkat pengembalian pendidikan dalam model regresi sederhana
Log(wage) = β0 + β1educ + u
Sebagai perbandingan, pertama tama kita peroleh perkiraan OLS

Perkiraan untuk β1, menyiratkan pengembalian hampir 11% untuk satu tahun pendidikan
berikutnya. Selanjutnya kita menggunakan pendidikan ayah (fatheduc) sebagai variabel
instrumental pendidikan. Kami harus mempertahankan bahwa fateduc tidak berkorelasi dengan
Anda. Syarat kedua adalah pendidikan dan pendidikan harus berkorelasi. Kita dapat

11
memeriksanya dengan sangat mudah menggunakan regresi pendidikan sederhana pada fateduc
(hanya menggunakan perempuan pekerja sebagai sampel):

Statistik pada fateduc adalah 9.28 yang menunjukkan bahwa educ dan fatheduc mempunyai
statistic disebut korelasi positif yang signifikan. (Faktanya, fatheduc menjelaskan sekitar 17%
variasi pendidikan dalam sampel.) Menggunakan fatheduc sebagai IV untuk educ menghasilkan

Estimasi IV mengenai kembalinya pendidikan adalah sebesar 5,9%, yang hampir tidak
lebih dari setengah estimasi OLS. Hal ini menunjukkan bahwa perkiraan OLS terlalu tinggi dan
konsisten dengan hilangnya bias kemampuan. Namun kita harus ingat bahwa ini hanyalah
perkiraan dari satu sampel saja: kita tidak akan pernah tahu apakah 0,109 berada di atas angka
kembali ke pendidikan yang sebenarnya, atau apakah 0,059 lebih mendekati angka kembali ke
pendidikan yang sebenarnya. Selanjutnya, kesalahan standar estimasi IV adalah dua setengah
kali lebih besar dari kesalahan standar OLS (hal ini sudah diperkirakan, karena alasan yang kami
berikan sebelumnya). Interval kepercayaan 95% untuk β1, menggunakan OLS jauh lebih ketat
dibandingkan menggunakan IV; pada kenyataannya, interval kepercayaan IV sebenarnya berisi
estimasi OLS. Oleh karena itu, walaupun perbedaan antara (15.15) dan (15.17) secara praktis
besar, kita tidak dapat mengatakan apakah perbedaan tersebut signifikan secara statistik. Kami
akan menunjukkan cara mengujinya di Bagian 15.5.
Pada contoh sebelumnya, variabel penjelas endogen (educ) dan Variabel instrumental
(fatheduc, saudara) mempunyai arti kuantitatif. Namun tidak ada yang menghalangi variabel
penjelas atau IV menjadi variabel binary. Angrist dan Krueger (1991), dalam analisis mereka
yang paling sederhana, menghasilkan variabel instrumental biner yang cerdas untuk pendidikan,
dengan menggunakan data sensus laki-laki di Amerika Serikat. Misalkan frstqrt sama dengan
satu jika laki-laki tersebut lahir pada triwulan pertama tahun tersebut, dan nol jika tidak.
Tampaknya istilah kesalahan pada (15.14)-dan, khususnya, kemampuan seharusnya tidak
berhubungan dengan seperempat kelahiran.

12
Namun permulaan juga perlu dikorelasikan dengan pendidikan. Ternyata lama
pendidikan pada suatu populasi berbeda secara sistematis berdasarkan seperempat kelahiran.
Angrist dan Krueger berpendapat secara persuasif bahwa hal ini disebabkan oleh undang-undang
wajib kehadiran sekolah yang berlaku di semua negara bagian. Singkatnya, siswa yang lahir pada
awal tahun biasanya mulai bersekolah pada usia yang lebih tua. Oleh karena itu, mereka
mencapai usia wajib sekolah (16 tahun di sebagian besar negara bagian) dengan pendidikan yang
lebih rendah dibandingkan siswa yang mulai bersekolah pada usia yang lebih muda. Untuk siswa
yang menyelesaikan sekolah menengah atas, Angrist dan Krueger memverifikasi bahwa tidak
ada hubungan antara lama pendidikan dan seperempat kelahiran. Karena lama pendidikan hanya
sedikit berbeda antar kuartal kelahiran berarti R 2x,z pada (15.13) sangat kecil-Angrist dan
Krueger membutuhkan sampel yang sangat besar ukuran untuk mendapatkan perkiraan IV yang
cukup tepat. Menggunakan 247.199 pria yang lahir antara tahun 1920 dan 1929, perkiraan OLS
untuk kembali ke pendidikan adalah 0,0801 (kesalahan standar 0,0004), dan perkiraan IV adalah
0,0715 (0,0219); ini dilaporkan dalam Tabel III Angrist dan makalah Krueger. Perhatikan
seberapa besar statistik t untuk estimasi OLS (sekitar 200), sedangkan statistik estimasi IV hanya
3,26. Jadi, perkiraan IV adalah statistic mungkin berbeda dari nol, namun interval
kepercayaannya jauh lebih lebar daripada yang didasarkan pada perkiraan OLS.
Temuan menarik dari Angrist dan Krueger adalah perkiraan IV tidak berbeda jauh dari
perkiraan OLS. Bahkan, menggunakan laki-laki yang lahir pada dekade berikutnya, perkiraan IV
agak lebih tinggi dari estimasi OLS. Orang dapat menafsirkan ini sebagai tidak ada bias
kemampuan yang dihilangkan ketika persamaan upah diestimasi dengan OLS. Namun, makalah
Angrist dan Krueger telah dikritik atas dasar ekonometrik. Sebagaimana dibahas oleh Bound,
Jaeger, dan Baker (1995), tidak jelas bahwa musim kelahiran tidak berhubungan dengan faktor-
faktor yang tidak teramati yang mempengaruhi upah. Seperti yang akan kami jelaskan di
subbagian berikutnya, bahkan korelasi kecil antara z dan u dapat menyebabkan masalah serius
bagi estimator IV.
Untuk analisis kebijakan, variabel penjelas endogen seringkali merupakan variabel biner.
Misalnya, Angrist (1990) mempelajari pengaruh menjadi veteran Perang Vietnam terhadap
pendapatan seumur hidup. Model sederhananya adalah
Log(earns) = β0 + β1veteran + u

13
di mana veteran adalah variabel biner. Masalah dalam memperkirakan persamaan ini dengan
OLS adalah mungkin terdapat masalah seleksi mandiri, seperti yang kami sebutkan di Bab 7:
mungkin orang-orang yang mendapat manfaat maksimal dari militer memilih untuk bergabung,
atau keputusan untuk bergabung berkorelasi dengan karakteristik lain yang mempengaruhi
pendapatan. Ini akan menyebabkan veteran dan a berkorelasi.
Angrist menunjukkan bahwa rancangan lotere Vietnam memberikan eksperimen alami
(lihat juga Bab 13) yang menciptakan variabel instrumental bagi veteran. Para remaja putra
diberi nomor lotre yang menentukan apakah mereka akan dipanggil untuk melayani di Vietnam.
Karena angka yang diberikan (akhirnya) secara acak, tampaknya masuk akal bahwa nomor
rancangan lotere tidak berkorelasi dengan istilah kesalahan u. Namun mereka yang jumlahnya
cukup rendah harus bertugas di Vietnam, sehingga kemungkinan menjadi veteran dikorelasikan
dengan nomor lotere. Jika kedua pernyataan ini benar, nomor undian rancangan adalah kandidat
IV yang baik untuk veteran. Dimungkinkan juga untuk memiliki variabel penjelas endogen
binary dan variabel instrumental biner.
Properties of IV with a Poor Instrumental Variable
Kita telah melihat bahwa, meskipun IV konsisten ketika z dan u tidak berkorelasi dan z
dan x memiliki korelasi positif atau negatif, perkiraan IV dapat mempunyai kesalahan standar
yang besar, terutama jika z dan x hanya berkorelasi lemah. Korelasi yang lemah antara z dan x
dapat menimbulkan konsekuensi yang lebih serius: penduga IV dapat memiliki bias asimtotik
yang besar meskipun z dan u hanya berkorelasi sedang.
Hal ini dapat kita lihat dengan mempelajari batas probabilitas estimator IV ketika
z dan u kemungkinan berkorelasi. Membiarkan β1,IV menunjukkan estimator IV,
kita dapat menulis

dimana σU dan σX, masing-masing adalah simpangan baku u dan x dalam populasi. Bagian yang
menarik dari persamaan ini melibatkan istilah korelasi. Hal ini menunjukkan bahwa, meskipun
Corr(z,u) kecil, inkonsistensi dalam penduga IV bisa sangat besar jika Corr(z,x) juga kecil. Jadi,
meskipun kita hanya berfokus pada konsistensi, penggunaan IV belum tentu lebih baik
dibandingkan OLS jika korelasi antara z dan u lebih kecil dibandingkan korelasi antara x

14
dan u. Menggunakan fakta bahwa Corr(x,u) Cov(x,u)/(σx.σu) beserta persamaan (5.3), kita dapat
menuliskan plim estimator OLS dengan menyebutnya β1,OLS- as

Membandingkan rumus-rumus ini menunjukkan bahwa arah bias asimtotik mungkin


berbeda untuk IV dan OLS. Misalnya, Corr(x,u) > 0, Corr(z,x) > 0, dan Corr(zu) <0. Kemudian
estimator IV mempunyai bias ke bawah, sedangkan estimator OLS mempunyai bias ke atas
(asimtotik). Dalam praktiknya, situasi ini mungkin jarang terjadi. Yang lebih bermasalah adalah
ketika arah biasnya sama dan korelasi antara z dan x kecil. Agar lebih konkrit, misalkan x dan z
keduanya berkorelasi positif dengan u dan Corr(z.x) > 0. Maka bias asimtotik dalam estimator IV
lebih kecil dari bias asimtotik untuk OLS hanya jika Corr(z,u)/ Corr(z.x) < Corr (x,kamu). Jika
Corr(z,x) kecil, maka korelasi yang tampaknya kecil antara z dan u dapat diperbesar dan
menjadikan IV lebih buruk daripada OLS, bahkan jika kita membatasi perhatian pada bias.
Misalnya, jika Corr(z,x)=2, Corr(z,u) harus kurang dari seperlima Corr(x,u) sebelum IV
memiliki bias asimtotik yang lebih kecil dibandingkan OLS.
Dalam banyak penerapan, korelasi antara instrumen dan x kurang dari 2. Sayangnya,
karena kita jarang mempunyai gagasan tentang besaran relatif Corr(z,u) dan Corr(x,u), kita tidak
pernah tahu pasti yang mana penduga mempunyai bias asimtotik terbesar [kecuali, tentu saja,
kita asumsikan Kor(z,u) = 0]. Dalam contoh Angrist dan Krueger (1991) yang disebutkan
sebelumnya, di mana x adalah tahun sekolah dan z adalah variabel biner yang menunjukkan
seperempat kelahiran, korelasi antara z dan x sangat kecil. Bound, Jaeger, dan Baker (1995)
membahas alasan mengapa seperempat kelahiran dan mungkin agak berkorelasi. Dari persamaan
(15.19), kita melihat bahwa hal ini bisa menyebabkan bias substansial dalam estimator IV. Ketika
z dan x tidak berkorelasi sama sekali. segala sesuatunya sangat buruk, terlepas dari apakah z
tidak berkorelasi dengan kamu atau tidak. Contoh berikut mengilustrasikan mengapa kita harus
selalu memeriksa apakah variabel penjelas endogen berkorelasi dengan kandidat IV.

2.2 IV Estimation of the Multiple Regression Model


Estimator IV untuk model regresi sederhana dapat dengan mudah diperluas ke kasus
regresi berganda. Kita mulai dengan kasus di mana hanya satu variabel penjelas yang berkorelasi
dengan kesalahan. Faktanya, pertimbangkan model linier standar dengan dua variabel penjelas:
y1 =β0 + β1y2 + β2z1 + u1

15
Kami menyebutnya persamaan struktural untuk menekankan bahwa kami tertarik pada β j ,
yang berarti bahwa persamaan tersebut seharusnya mengukur hubungan sebab akibat. Kami
menggunakan notasi baru di sini untuk membedakan variabel endogen dan eksogen. Variabel
terikat y jelas bersifat endogen karena berkorelasi dengan u ₁. Variabel y ₂ dan z ₁ merupakan
variabel penjelas, dan u₁ adalah error. Seperti biasa, kita berasumsi bahwa nilai yang diharapkan
dari u₁ adalah nol: E(u₁) = 0. Kita menggunakan z₁ untuk menunjukkan bahwa variabel ini
eksogen pada (15.22) (zı tidak berkorelasi dengan u₁). Kami menggunakan y₂ untuk
menunjukkan bahwa variabel ini diduga berkorelasi dengan u₁. Kami tidak merinci mengapa y ₂
dan u₁ berkorelasi, tetapi untuk saat ini yang terbaik adalah menganggap u, mengandung
variabel yang dihilangkan dan berkorelasi dengan y₂. Notasi dalam persamaan (15.22) berasal
dari model persamaan simultan (yang kita bahas di Bab 16), namun kita menggunakannya secara
lebih umum untuk memudahkan membedakan variabel penjelas eksogen dan endogen dalam
model regresi berganda. Contoh dari (15.22) adalah
log(wage) = β0 + β1educ + β2 exper + u1,
dimana y₁ = log(wage), y2 pendidikan, dan z₁ = pengalaman. Dengan kata lain, kami berasumsi
bahwa exper bersifat eksogen pada (15.23), namun kami mengizinkan bahwa pendidikan—untuk
alasan umum—berkorelasi dengan u1. Kita tahu bahwa jika (15.22) diestimasi dengan OLS,
semua estimatornya akan bias dan tidak konsisten. Oleh karena itu, kita mengikuti strategi yang
disarankan di bagian sebelumnya dan mencari variabel instrumental untuk y ₂. Karena z1
diasumsikan tidak berkorelasi dengan u₁₂, dapatkah kita menggunakan z sebagai instrumen
untuk y₂, dengan asumsi y₂ dan z₁ berkorelasi? Jawabannya adalah tidak. Karena z ₁ sendiri
muncul sebagai variabel penjelas pada (15.22), z₁ tidak dapat berfungsi sebagai variabel
instrumental untuk y₂. Kita memerlukan variabel eksogen lain, sebut saja z1, yang tidak muncul
pada (15.22). Oleh karena itu, asumsi utamanya adalah bahwa z₁ dan z2 tidak berkorelasi dengan
u₁; mempunyai nilai nol yang tidak kehilangan keumumannya jika persamaan tersebut
mengandung intersep:
E(u1) = 0, Cov (z1,u1) = 0, and Cov(z2,u1) = 0.
Mengingat asumsi rata-rata nol, dua asumsi terakhir setara dengan E(z1u1) = E(z2 u1) =0,
sehingga pendekatan metode momen menyarankan untuk memperoleh penduga β 0ˆ, β1ˆdan β2ˆ
dengan menyelesaikan contoh sampel (15.24):

16
Ini adalah himpunan tiga persamaan linier dalam tiga β yang tidak diketahui. β ₁, dan ẞ ₂,
dan mudah diselesaikan dengan adanya data pada y 1, y2, z1, dan z2. Estimatornya disebut
estimator variabel instrumental. Jika kita menganggap y₂ eksogen dan kita memilih z 2 y2,
persamaan (15.25) adalah kondisi orde pertama untuk penduga OLS; lihat persamaan (3.13).
Kita masih memerlukan variabel instrumental za untuk dikorelasikan dengan y ₂, namun
pengertian bahwa kedua variabel ini harus dikorelasikan menjadi rumit dengan adanya z 1, pada
persamaan (15.22). Sekarang kita perlu menyatakan asumsi ini dalam bentuk korelasi parsial.
Cara termudah untuk menyatakan kondisi tersebut adalah dengan menuliskan variabel penjelas
endogen sebagai fungsi linier dari variabel eksogen dan suku kesalahan:
y2 = π0 + π1z1 + π2z2 + v2.
dimana, berdasarkan konstruksi, E(v2)=0, Cov(z1,v2)= 0, dan , Cov(z1,v2) = 0, dan πj , merupakan
parameter yang tidak diketahui. Kondisi identifikasi kunci [bersama dengan (15.24)] adalah itu
π2 ≠ 0
Dengan kata lain, setelah z1 dipartisi, y2 dan z2 masih berkorelasi. Korelasi ini bisa positif
atau negatif, namun tidak boleh nol. Pengujian (15.27) mudah: kita memperkirakan (15.26)
dengan OLS dan menggunakan uji t (mungkin membuatnya kuat terhadap heteroskedastisitas).
Kita harus selalu menguji asumsi ini. Sayangnya, kita tidak dapat menguji apakah z 2 dan z2 tidak
berkorelasi dengan u₁; mudah-mudahan kita bisa membuat kasus ini berdasarkan penalaran
ekonomi atau introspeksi. Persamaan (15.26) merupakan contoh persamaan bentuk tereduksi,
artinya kita telah menuliskan variabel endogen dalam bentuk variabel eksogen. Nama ini berasal
dari model persamaan simultan-yang akan kita pelajari pada bab berikutnya-tetapi ini merupakan
konsep yang berguna setiap kali kita memiliki variabel penjelas endogen. Nama tersebut
membantu membedakannya dari persamaan struktural (15.22).
Menambahkan lebih banyak variabel penjelas eksogen ke dalam model sangatlah mudah.

Tuliskan model strukturalnya sebagai

17
dengan y₂ diperkirakan berkorelasi dengan u1. Misalkan zk adalah variabel bukan pada (15.28)

yang juga eksogen. Oleh karena itu, kita asumsikan


Di bawah (15.29), z1..... zk- 1 adalah variabel eksogen yang muncul di (15.28). Akibatnya,
variabel-variabel ini bertindak sebagai variabel instrumental dalam memperkirakan β j, dalam
(15.28). Kasus khusus dari k = 2 diberikan dalam persamaan pada (15.25); bersama dengan z 2, z₁
muncul dalam himpunan kondisi momen yang digunakan untuk memperoleh estimasi IV. Secara
lebih umum z1,....,zk-1 digunakan pada kondisi momen bersama dengan variabel instrumental

untuk y2, zk. Bentuk tereduksi untuk y₂ adalah


dan kita memerlukan korelasi parsial antara za dan y₂:
π≠ 0.
[15.31] Di bawah (15.29) dan (15.31), zk, adalah IV valid untuk y₂. [Kami tidak peduli dengan
sisa πj waktu (15.30); beberapa atau semuanya bisa jadi nol.] Asumsi tambahan kecil adalah
bahwa tidak ada hubungan linier yang sempurna di antara variabel eksogen; hal ini analog
dengan asumsi tidak adanya kolinearitas sempurna dalam konteks OLS. Untuk inferensi statistik
standar, kita perlu mengasumsikan homoskedastisitas u₁. Kami memberikan pernyataan hati-hati
mengenai asumsi-asumsi ini dalam konteks yang lebih umum di Bagian 15.3
Contoh 15.4 Using College Proximity as an IV for Education
Card (1995) menggunakan data upah dan pendidikan dari sampel laki-laki pada tahun
1976 untuk memperkirakan kembalinya pendidikan. Dia menggunakan variabel dummy apakah
seseorang tumbuh dekat perguruan tinggi empat tahun (nearc4) sebagai variabel instrumental
untuk pendidikan. Dalam persamaan log(wage), ia memasukkan kontrol standar lainnya:
pengalaman, variabel dummy hitam, variabel dummy untuk tinggal di SMSA dan tinggal di
Selatan, dan satu set lengkap variabel dummy regional dan dummy SMSA untuk di mana laki-
laki tersebut berada. hidup pada tahun 1966. Agar nearc4 menjadi instrumen yang valid,
instrumen tersebut harus tidak berkorelasi dengan istilah kesalahan dalam persamaan upah-kami
berasumsi demikian-dan harus berkorelasi sebagian dengan pendidikan. Untuk memeriksa
persyaratan terakhir, kami melakukan regresi terhadap pendidikan mendekati c4 dan semua
variabel eksogen yang muncul dalam persamaan. (Artinya, kami memperkirakan bentuk
tereduksi untuk pendidikan.) Dengan menggunakan data di CARD.RAW, kami memperoleh,
dalam bentuk ringkas,

18
Kami tertarik pada koefisien dan 1 statistik di dekatc4. Koefisien tersebut menyiratkan
bahwa pada tahun 1976, dengan hal-hal lain yang tetap (pengalaman, ras, wilayah, dan
sebagainya), orang-orang yang tinggal di dekat perguruan tinggi pada tahun 1966, rata-rata,
memiliki pendidikan sekitar sepertiga tahun lebih tinggi dibandingkan mereka yang tidak tinggal
di dekat perguruan tinggi. tumbuh di dekat perguruan tinggi. Statistik di nearc4 adalah 3,64,
yang memberikan nilai p nol pada tiga desimal pertama. Oleh karena itu, jika nearc4 tidak
berkorelasi dengan faktor-faktor yang tidak teramati dalam istilah kesalahan, kita dapat
menggunakan nearc4 sebagai IV untuk pendidikan.
Perkiraan OLS dan IV diberikan pada Tabel 15.1. Menariknya, perkiraan IV mengenai
kembalinya pendidikan hampir dua kali lebih besar dari perkiraan OLS, namun kesalahan
standar dari perkiraan IV adalah 18 kali lebih besar dari kesalahan standar OLS. Interval
kepercayaan 95% untuk perkiraan IV adalah antara 024 dan 239, yang merupakan rentang yang
sangat luas. Adanya interval kepercayaan yang lebih besar merupakan harga yang harus kita
bayar untuk mendapatkan estimasi yang konsisten mengenai kembalinya pendidikan ketika kita
menganggap pendidikan bersifat endogen.

Seperti yang telah dibahas sebelumnya, kita tidak boleh membuat R-kuadrat yang
lebih kecil dalam estimasi IV: menurut definisi, OLS R-kuadrat akan selalu lebih besar
karena OLS meminimalkan jumlah residu kuadrat.
2.3 Two Stage Least Squares

19
A. Single Endogenous Explanatory Variable
Perhatikan kembali model struktural (15.22), yang memiliki satu variabel penjelas
endogen dan satu variabel penjelas eksogen. Misalkan sekarang kita memiliki dua variabel
eksogen yang dikecualikan dari (15.22): z2 dan z3. Asumsi kita bahwa z2 dan z3 tidak muncul di
(15.22) dan tidak berkorelasi dengan kesalahan a, dikenal sebagai pembatasan pengecualian.
Jika z2 dan z3 keduanya berkorelasi dengan y₂, kita bisa menggunakan masing-masing
sebagai IV, seperti pada bagian sebelumnya. Namun kita akan memiliki dua estimator IV, dan
secara umum tidak satupun dari estimator ini akan efisien. Karena masing-masing z 1, z2, dan z3
tidak berkorelasi dengan u₁, setiap kombinasi linier juga tidak berkorelasi dengan u ₁, dan oleh
karena itu setiap kombinasi linier dari variabel eksogen merupakan IV yang valid. Untuk
mencari IV terbaik, kita memilih kombinasi linier yang berkorelasi paling tinggi dengan y ₂. Hal
ini ternyata diberikan oleh persamaan bentuk tereduksi untuk y₂. Menulis

dimana

Maka, IV terbaik untuk y₂ (berdasarkan asumsi yang diberikan dalam lampiran bab)
adalah kombinasi linier dari zj, pada (15.33), yang kita sebut y2:

Agar IV ini tidak berkorelasi sempurna dengan z₁ kita memerlukan setidaknya satu dari
π2 atau π3
yang berbeda dari nol: π2 ≠ 0 or π3 ≠ 0.
Ini adalah asumsi identifikasi utama, setelah kita mengasumsikan z j, semuanya bersifat
eksogen. (Nilai π1 tidak relevan.) Persamaan struktural (15.22) tidak teridentifikasi jika π ₂ = 0
dan π3= 0. Kita dapat menguji Ho: π2 = 0 dan π3 = 0 terhadap (15.35) menggunakan statistik F.
Cara yang berguna untuk memikirkan (15.33) adalah dengan memecah y ₂ menjadi dua bagian.
Yang pertama adalah kamu; ini adalah bagian dari y ₂ yang tidak berkorelasi dengan suku
kesalahan, u₁. Bagian kedua adalah v₂, dan bagian ini mungkin berkorelasi dengan u ₁-itulah
sebabnya y₂ kemungkinan bersifat endogen.
Dengan adanya data zy, kita dapat menghitung y₂ untuk setiap observasi, asalkan kita
mengetahuinya parameter populasi πj . Hal ini tidak pernah benar dalam praktiknya. Namun
demikian, seperti yang kita lihat di bagian sebelumnya, kita selalu dapat memperkirakan bentuk

20
tereduksi dengan OLS. Jadi, dengan menggunakan sampel, kita melakukan regresi y ₂ pada
tanggal z1, z2, dan z3 dan mendapatkan nilai yang sesuai:

yaitu, kita memiliki ŷi2 untuk setiap i). Pada titik ini, kita harus memverifikasi bahwa z 2 dan z3
adalah gabungan signifikan dalam (15,33) pada tingkat signifikansi yang cukup kecil (tidak lebih
besar dari 5%). Jika 22 dan 23 tidak signifikan secara bersama-sama pada (15.33) maka kita
membuang-buang waktu dengan estimasi IV. Setelah kita memiliki y ₂, kita dapat
menggunakannya sebagai IV untuk y₂. Tiga persamaan untuk memperkirakan β 0, β1 dan β2 adalah
dua persamaan pertama dari (15.25), dengan persamaan ketiga digantikan oleh

Menyelesaikan tiga persamaan dalam tiga hal yang tidak diketahui memberi kita estimator IV.
Dengan beberapa instrumen, penduga IV yang menggunakan y₂ sebagai instrumennya disebut
juga penduga kuadrat terkecil dua tahap (2SLS). Alasannya sederhana. Dengan menggunakan
aljabar OLS, dapat ditunjukkan bahwa ketika kita menggunakan y₂ sebagai IV untuk y ₂, maka
IV memperkirakan β0, β1 dan β2 identik dengan estimasi OLS dari regresi y1 pada y₂ dan z1.
Dengan kata lain, estimator 2SLS dapat diperoleh dalam dua tahap. Tahap pertama adalah
menjalankan regresi pada (15.36), dimana diperoleh nilai fitting y 2. Tahap kedua adalah regresi
OLS (15.38). Karena kami menggunakan ŷ₂ sebagai pengganti y₂, estimasi 2SLS dapat berbeda
secara signifikan dari estimasi OLS.
Beberapa ekonom menafsirkan regresi pada (15.38) sebagai berikut. Nilai yang dipasang, y₂,
adalah versi taksiran dari y2, dan y₂ tidak berkorelasi dengan u₁. Oleh karena itu, 2SLS terlebih
dahulu "membersihkan" korelasi y₂ dengan u, sebelum melakukan regresi OLS pada (15.38).
Kita dapat menunjukkannya dengan memasukkan y₂ = y + v₂ ke (15.22):

Sekarang, kesalahan gabungan u₁ + B₁v, memiliki mean nol dan tidak berkorelasi dengan y, dan
z₁, itulah sebabnya regresi OLS di (15.38) berhasil. Kebanyakan paket ekonometrika memiliki
perintah khusus untuk 2SLS, sehingga tidak perlu melakukan kedua tahapan tersebut secara
eksplisit. Faktanya, dalam banyak kasus, Anda sebaiknya menghindari melakukan tahap kedua
secara manual, karena kesalahan standar dan statistik pengujian yang diperoleh dengan cara ini
tidak valid. [Alasannya adalah bahwa suku kesalahan pada (15.39) mencakup v ₂, tetapi
21
kesalahan standar hanya melibatkan varians u₁.] Perangkat lunak regresi apa pun yang
mendukung 2SLS akan meminta variabel terikat, daftar variabel penjelas (baik eksogen maupun
endogen), dan seluruh daftar variabel instrumental (yaitu semua variabel eksogen). Outputnya
biasanya sangat mirip dengan OLS. Dalam model (15.28) dengan IV tunggal untuk y ₂, estimator
IV dari Bagian 15.2 identik dengan estimator 2SLS. Oleh karena itu, ketika kita memiliki satu IV
untuk setiap penjelasan endogen, variabel sejarah, kita bisa menyebut metode estimasi IV atau
2SLS. Menambahkan lebih banyak variabel eksogen hanya akan memberikan sedikit perubahan.
Misalnya, persamaan upahnya adalah

dimana u, tidak berkorelasi dengan exper dan exper². Misalkan kita juga menganggap pendidikan
ibu dan ayah tidak berkorelasi dengan u₁. Lalu, kita bisa menggunakan keduanya sebagai infus
untuk pendidikan. Persamaan bentuk tereduksi untuk pendidikan adalah

Contoh 15.5 Return to Education for Working Women


Kami memperkirakan persamaan (15.40) menggunakan data di MROZ.RAW. Pertama,
kita uji Ho: π₃ = 0, π₁ = 0 pada (15.41) menggunakan uji F. Hasilnya F = 55,40, dan p-
value.0000. Seperti yang diharapkan, pendidikan (sebagian) berkorelasi dengan pendidikan
orang tua. Ketika kita memperkirakan (15,40) dengan 2SLS, kita memperoleh, dalam
bentuk persamaan

Perkiraan tingkat pengembalian terhadap pendidikan adalah sekitar 6,1%, dibandingkan


dengan perkiraan OLS sekitar 10,8%. Karena kesalahan standarnya yang relatif besar, estimasi
2SLS hampir tidak signifikan secara statistik pada tingkat 5% dibandingkan alternatif dua sisi.

2.4 IV Solutions to Errors-in-Variables Problems


Pada bagian sebelumnya, kami telah menyajikan penggunaan variabel instrumental
sebagai cara untuk menyelesaikan masalah variabel yang dihilangkan, namun variabel tersebut

22
juga dapat digunakan untuk mengatasi masalah kesalahan pengukuran. Sebagai ilustrasi,
perhatikan modelnya,
y = β0 + β1 x *1 + β2 x 2 + u,
dimana y dan x 2 diamati tetapi x *1 tidak. Misalkan x 1 adalah pengukuran yang diamati dari x *1:
x 1 = x *1 + e 1, dimana e 1 adalah kesalahan pengukuran. Pada Bab 9, kami menunjukkan
bahwa korelasi antara x 1 dan e 1 menyebabkan OLS, di mana x 1 digunakan sebagai pengganti
x*1 menjadi bias dan tidak konsisten.
Hal ini dapat kita lihat melalui tulisan,
y = β0 + β1 x 1 + β2 x 2 + (u – β1 e 1)
Jika asumsi klasik error-in-variables (CEV) berlaku, bias dalam penduga OLS β 1 menuju
nol. Tanpa asumsi lebih lanjut, kita tidak bisa berbuat apa-apa. Dalam beberapa kasus, kita dapat
menggunakan prosedur IV untuk mengatasi masalah kesalahan pengukuran.
Pada (15.45), kita berasumsi bahwa u tidak berkorelasi dengan x *1, x 1, dan x 2; dalam
kasus CEV, kami berasumsi bahwa e 1 tidak berkorelasi dengan x *1 dan x 2. Hal ini menyiratkan
bahwa x 2 bersifat eksogen pada (15.46), namun x 1 berkorelasi dengan e 1. Yang kita butuhkan
adalah infus untuk x 1. IV tersebut harus berkorelasi dengan x 1, tidak berkorelasi dengan u
sehingga dapat dikeluarkan dari (15.45) dan tidak berkorelasi dengan kesalahan pengukuran, e 1.
Salah satu kemungkinannya adalah mendapatkan pengukuran kedua pada x∗¿ 1,
katakanlah, z 1. Karena itu x *1 itu mempengaruhi y , wajar jika diasumsikan bahwa z 1 tidak
berkorelasi dengan u. Jika kita menulis z 1 = x *1 + a 1, dimana a 1 adalah kesalahan pengukuran
pada z 1, maka kita harus berasumsi bahwa a 1 dan e 1 tidak berhubungan. Dengan kata lain, x 1 dan
z 1 keduanya salah mengukur x *1 tetapi kesalahan pengukurannya tidak berkorelasi. Tentu saja, x
1 dan z 1 berkorelasi melalui ketergantungannya pada x *1 , jadi kita bisa gunakan z 1 sebagai IV
untuk x 1.
Dimana kita bisa mendapatkan dua pengukuran pada suatu variabel? Kadang-kadang,
ketika sekelompok pekerja dimintai gaji tahunannya, pemberi kerja dapat memberikan ukuran
kedua.
Bagi pasangan suami istri, masing-masing pasangan dapat secara mandiri melaporkan
tingkat tabungan atau penghasilan keluarga. Dalam penelitian Ashenfelter dan Krueger (1994)
yang dikutip di bagian 14.3, setiap saudara kembar ditanyai tentang tahun pendidikan saudara
kandungnya. Hal ini memberikan ukuran kedua yang dapat digunakan sebagai IV untuk
23
pendidikan yang dilaporkan sendiri dalam persamaan upah. (Ashenfelter dan Krueger
menggabungkan perbedaan dan IV untuk menjelaskan masalah kemampuan yang dihilangkan
juga; lebih lanjut tentang ini di Bagian 15.8). Namun secara umum, jarang sekali memiliki dua
ukuran variabel penjelas.
Alternatifnya adalah dengan menggunakan variabel eksogen lainnya sebagai IV untuk
variabel yang berpotensi salah diukur. Misalnya, penggunaan motheduc dan fatheduc sebagai IV
untuk educ pada Contoh 15.5 dapat memenuhi tujuan ini. Jika kita berpikir bahwa educ = educ*
+ e 1, maka estimasi IV pada Contoh 15.5 tidak mengalami kesalahan pengukuran jika motheduc
dan fatheduc tidak berkorelasi dengan kesalahan pengukuran, e 1. Hal ini mungkin lebih masuk
akal dibandingkan dengan asumsi motheduc dan fatheduc tidak berkorelasi dengan kemampuan,
yang terdapat pada u pada (15.45).
Metode IV juga dapat diterapkan ketika menggunakan hal-hal seperti nilai ujian untuk
mengontrol karakteristik yang tidak teramati. Pada Bagian 9.2, kami menunjukkan bahwa,
berdasarkan asumsi tertentu, variabel proksi dapat digunakan untuk menyelesaikan masalah
variabel yang dihilangkan. Dalam Contoh 9.3, kami menggunakan IQ sebagai variabel proksi
untuk kemampuan yang tidak teramati. Hal ini cukup dengan menambahkan IQ ke model dan
melakukan regresi OLS. Namun ada alternatif yang berhasil jika IQ tidak sepenuhnya memenuhi
asumsi variabel proksi. Sebagai ilustrasi, tuliskan persamaan upah sebagai,
Log (wage) = β0 + β1educ + β2exper + β3exper2 + abil + u
Dimana kita kembali menghadapi masalah kemampuan yang dihilangkan. Namun kita
mempunyai dua nilai ujian yang menjadi indikator kemampuan. Kami berasumsi bahwa skornya
dapat ditulis sebagai
Test1 = y1abil + e 1
Dan
Test2 = ẟ1abil + e 2
Dimana y 1 > 0, ẟ > 0. Karena kemampuanlah yang mempengaruhi upah, kita dapat berasumsi
bahwa test1 dan test2 tidak berkorelasi dengan u. Jika kita menulis abil dalam nilai tes pertama
dan memasukkan hasilnya ke dalam(15,47), kita peroleh,
Log (wage) = β0 + β1educ + β2exper + β3exper2 + a 1test1 + (u – a 1e 1)
dimana a 1 = 1/ y 1. Sekarang, jika kita berasumsi bahwa e 1 tidak berkorelasi dengan semua
variabel penjelas pada (15.47), termasuk abil, maka e 1 dan test1 harus berkorelasi. Artinya,

24
pendugaan (15.48) dengan OLS akan menghasilkan penduga β j (dan a 1) yang tidak konsisten.
Berdasarkan asumsi yang kami buat, test1 tidak memenuhi asumsi variabel proksi.
Jika kita berasumsi bahwa e 2 juga tidak berkorelasi dengan semua variabel penjelas pada
(15.47) dan bahwa e 1 dan e 2 tidak berkorelasi, maka e 1 tidak berkorelasi dengan skor tes kedua,
test2. Oleh karena itu, test2 dapat digunakan sebagai IV untuk test1.
Contoh 15.5 Using Two Test Scores as Indicators of Ability
Kami menggunakan data di WAGE2. RAW untuk menerapkan prosedur sebelumnya, di
mana IQ berperan sebagai nilai tes pertama, dan KWW (pengetahuan tentang dunia kerja) adalah
nilai tes kedua. Variabel penjelas sama seperti pada Contoh 9.3: educ, exper, tenure, married,
south, urban, dan black. Daripada menambahkan IQ dan melakukan OLS, seperti pada kolom
(2) Tabel 9.2, kami menambahkan IQ dan menggunakan KWW sebagai instrumennya. Koefisien
pada educ adalah 0,025 (se = 0,017). Ini adalah perkiraan yang rendah, dan secara statistik tidak
berbeda dari nol. Ini adalah temuan yang membingungkan, dan ini menunjukkan bahwa salah
satu asumsi kita gagal; Mungkin e 1 dan e 2 berkorelasi.

2.5 Testing for Endogeneity and Testing Overidentifying Restrictions


Pada bagian ini, kami menjelaskan dua tes penting dalam konteks estimasi variabel instrumental
A. Testing For Endogeneity
Penaksir 2SLS kurang efisien dibandingkan OLS ketika variabel penjelas bersifat
eksogen; seperti yang telah kita lihat, perkiraan 2SLS dapat memiliki kesalahan standar yang
sangat besar. Oleh karena itu, berguna untuk memiliki tes endogenitas variabel penjelas yang
menunjukkan apakah 2SLS bahkan diperlukan. Mendapatkan tes semacam itu agak sederhana.
Sebagai ilustrasi, misalkan kita memiliki satu variabel endogen yang dicurigai,
y 1 = β0 + β1 y 2 + β2 z 1 + β3 z 2 + u1,
Di mana z 1 dan z 2 adalah eksogen. Kami memiliki dua variabel eksogen tambahan, z 3 dan
z 4, yang tidak muncul di (15,49). Jika y 2 tidak berkorelasi dengan u1, kita harus memperkirakan
(15,49) oleh OLS. Bagaimana kita bisa menguji ini? Hausman (1978) menyarankan secara
langsung membandingkan perkiraan OLS dan 2SLS dan menentukan apakah perbedaannya
signifikan secara statistik. Bagaimanapun, baik OLS dan 2SLS konsisten jika semua variabel
eksogen. Jika 2SLS dan OLS berbeda secara signifikan, kami menyimpulkan bahwa y 2 harus
endogen (mempertahankan bahwa zj adalah eksogen). Sebaiknya hitung OLS dan 2SLS untuk

25
melihat apakah perkiraannya praktis berbeda. Untuk menentukan apakah perbedaannya
signifikan secara statistik, lebih mudah menggunakan uji regresi. Ini didasarkan pada estimasi
bentuk tereduksi untuk y 2, yang dalam hal ini adalah,

Sekarang, karena setiap z j tidak berkorelasi dengan u1, y 2 tidak berkorelasi dengan u1 jika,
dan hanya jika, v 1 tidak berkorelasi dengan u1; Inilah yang ingin kami uji. Tulis u1 = ẟ1v2 + e 1 , di
mana e 1 tidak berkorelasi dengan v2 dan memiliki rata-rata nol. Kemudian, u1 dan v2 tidak
berkorelasi jika, dan hanya jika, ẟ1 = 0. Cara termudah untuk menguji ini adalah dengan
memasukkan v 2 sebagai regresi tambahan di (15,49) dan melakukan uji t. Hanya ada satu
masalah dengan menerapkan ini: v2 tidak diamati, karena ini adalah istilah kesalahan dalam
(15.50). Karena kita dapat memperkirakan bentuk tereduksi untuk y2 dengan OLS, kita dapat
memperoleh residu bentuk tereduksi, vˆ2. Oleh karena itu, kami memperkirakan,

Dengan OLS dan uji H0 : ẟ1 = 0 menggunakan statistik t. Jika kita menolak H0 pada
tingkat signifikansi kecil, kita menyimpulkan bahwa y 2 adalah endogen karena v2 dan u1
berkorelasi.
Testing for Endogeneity of a Single Explanatory Variable:
(i) Perkirakan bentuk tereduksi untuk y 2 dengan regresi pada semua variabel eksogen
(termasuk yang ada dalam persamaan struktural dan IV tambahan). Dapatkan sisanya,
vˆ2.
(ii) Tambahkan vˆ2 ke persamaan struktural (yang mencakup y 2) dan uji signifikansi vˆ2
menggunakan regresi OLS. Jika koefisien pada vˆ2 secara statistik berbeda dari nol,
kita menyimpulkan bahwa y 2 memang endogen. Kita mungkin ingin menggunakan
uji t heteroskedastisitas-kuat.
Contoh 15.7 Return to Education for Working Women
Kita dapat menguji endogenitas pendidikan di (15.40) dengan mendapatkan residu vˆ2
dari memperkirakan bentuk tereduksi (15.41)—hanya menggunakan wanita pekerja—dan
memasukkannya ke dalam (15.40). Ketika kita melakukan ini, koefisien pada vˆ2 adalah ẟ1
= .058, dan t = 1,67. Ini adalah bukti moderat korelasi positif antara u1 dan v2. Mungkin ide yang

26
baik untuk melaporkan kedua perkiraan karena perkiraan 2SLS untuk kembali ke pendidikan
(6,1%) jauh di bawah perkiraan OLS (10,8%).
Fitur yang menarik dari regresi dari langkah (ii) dari tes endogenitas adalah bahwa
perkiraan koefisien pada semua variabel penjelas (kecuali, tentu saja, vˆ2) identik dengan
perkiraan 2SLS. Misalnya, memperkirakan (15,51) dengan OLS menghasilkan βˆj yang sama
dengan memperkirakan (15,49) dengan 2SLS. Salah satu manfaat dari kesetaraan ini adalah
memberikan pemeriksaan yang mudah apakah Anda telah melakukan regresi yang tepat dalam
pengujian endogenitas. Tetapi juga memberikan interpretasi 2SLS yang berbeda dan berguna:
menambahkan vˆ2 ke persamaan asli sebagai variabel penjelas, dan menerapkan OLS,
membersihkan endogenitas y 2. Jadi, ketika kita mulai dengan memperkirakan (15,49) dengan
OLS, kita dapat mengukur pentingnya membiarkan y 2 menjadi endogen dengan melihat berapa
banyak βˆ1 berubah ketika vˆ2 ditambahkan ke persamaan. Terlepas dari hasil uji statistik, kita
dapat melihat apakah perubahan βˆ1 diharapkan dan praktis signifikan.
Kami juga dapat menguji endogenitas beberapa variabel penjelas. Untuk setiap variabel
endogen yang dicurigai, kami memperoleh residu bentuk tereduksi, seperti pada bagian (i).
Kemudian, kami menguji signifikansi gabungan dari residu ini dalam persamaan struktural,
menggunakan uji F. Signifikansi sendi menunjukkan bahwa setidaknya satu variabel penjelas
yang dicurigai adalah endogen. Jumlah pembatasan eksklusi yang diuji adalah jumlah variabel
penjelas endogen yang dicurigai.
B. Testing Overidentification Restrictions
Ketika kami memperkenalkan penaksir variabel instrumental sederhana di Bagian 15.1,
kami menekankan bahwa instrumen harus memenuhi dua persyaratan: harus tidak berkorelasi
dengan kesalahan (eksogenitas) dan berkorelasi dengan variabel penjelas endogen (relevansi).
Kita sekarang telah melihat bahwa, bahkan dalam model dengan variabel penjelas tambahan,
persyaratan kedua dapat diuji menggunakan uji t (hanya dengan satu instrumen) atau uji F
(ketika ada beberapa instrumen). Dalam konteks estimator IV sederhana, kami mencatat bahwa
persyaratan eksogenitas tidak dapat diuji. Namun, jika kita memiliki lebih banyak instrumen
daripada yang kita butuhkan, kita dapat secara efektif menguji apakah beberapa dari mereka
tidak berkorelasi dengan kesalahan struktural.
Sebagai contoh spesifik, sekali lagi pertimbangkan persamaan (15,49) dengan dua
variabel instrumental untuk y 2, z 3, dan z 4. Ingat, z 1 dan z 2 pada dasarnya bertindak sebagai

27
instrumen mereka sendiri. Karena kita memiliki dua instrumen untuk y 2, kita dapat
memperkirakan (15,49) menggunakan, katakanlah, hanya z 3 sebagai IV untuk y 2; biarkan βˆ1
menjadi penaksir IV yang dihasilkan dari b1. Kemudian, kita dapat memperkirakan (15,49)
hanya menggunakan z 4 sebagai IV untuk y 2; sebut ini penaksir IV β ̃ 1. Jika semua z j adalah
eksogen, dan jika z 3 dan z 4 masing-masing sebagian berkorelasi dengan y 2, maka βˆ1 dan β ̃ 1
keduanya konsisten untuk β1. Oleh karena itu, jika logika kita untuk memilih instrumen adalah
suara, βˆ1 dan β ̃ 1 harus berbeda hanya dengan kesalahan pengambilan sampel. Hausman (1978)
mengusulkan mendasarkan tes apakah z 3 dan z 4 keduanya eksogen pada perbedaan, βˆ1 2 β ̃ 1.
Segera, kami akan memberikan cara yang lebih sederhana untuk mendapatkan tes yang valid,
tetapi, sebelum melakukannya, kami harus memahami bagaimana menafsirkan hasil tes. Jika kita
menyimpulkan bahwa βˆ1 dan β ̃ 1 secara statistik berbeda satu sama lain, maka kita tidak punya
pilihan selain menyimpulkan bahwa z3, z4, atau keduanya gagal memenuhi persyaratan
eksogenitas. Sayangnya, kita tidak dapat mengetahui yang mana masalahnya (kecuali kita hanya
menegaskan dari awal bahwa, katakanlah, z 3 adalah eksogen). Misalnya, jika y 2 menunjukkan
tahun sekolah dalam persamaan upah log, z 3 adalah pendidikan ibu, dan z 4 adalah pendidikan
ayah, perbedaan yang signifikan secara statistik dalam dua penaksir IV menyiratkan bahwa satu
atau kedua variabel pendidikan orang tua berkorelasi dengan u1 di (15,54).
Tentu saja, menolak instrumen seseorang sebagai eksogen adalah serius dan
membutuhkan pendekatan baru. Tetapi masalah yang lebih serius, dan halus, dalam
membandingkan perkiraan IV adalah bahwa mereka mungkin serupa meskipun kedua instrumen
gagal memenuhi persyaratan eksogenitas. Dalam contoh sebelumnya, tampaknya jika pendidikan
ibu berkorelasi positif dengan u1, maka begitu juga pendidikan ayah. Oleh karena itu, dua
perkiraan IV mungkin serupa meskipun masing-masing tidak konsisten. Akibatnya, karena infus
dalam contoh ini dipilih dengan menggunakan alasan yang sama, penggunaannya yang terpisah
dalam prosedur IV dapat menyebabkan perkiraan serupa yang keduanya tidak konsisten. Intinya
adalah bahwa kita seharusnya tidak merasa sangat nyaman jika prosedur IV kita lulus tes
Hausman. Masalah lain dengan membandingkan dua perkiraan IV adalah bahwa seringkali
mereka mungkin tampak berbeda secara praktis namun, secara statistik, kita tidak dapat menolak
hipotesis nol bahwa mereka konsisten untuk parameter populasi yang sama. Misalnya, dalam
memperkirakan (15,40) oleh IV menggunakan motheduc sebagai satu-satunya instrumen,
koefisien pada educ adalah 0,049 (0,037). Jika kita hanya menggunakan fatheduc sebagai IV

28
untuk educ, koefisien pada educ adalah 0,070 (0,034). [Mungkin tidak mengherankan, perkiraan
menggunakan pendidikan kedua orang tua sebagai IV berada di antara keduanya, 0,061 (0,031).]
Untuk tujuan kebijakan, perbedaan antara 5% dan 7% untuk perkiraan kembali ke satu tahun
sekolah sangat besar. Namun, seperti yang ditunjukkan dalam Contoh 15.8, perbedaannya tidak
signifikan secara statistik.
Prosedur membandingkan estimasi IV yang berbeda dari parameter yang sama adalah
contoh pengujian pembatasan yang terlalu mengidentifikasi. Ide umumnya adalah bahwa kita
memiliki lebih banyak instrumen daripada yang kita butuhkan untuk memperkirakan parameter
secara konsisten. Dalam contoh sebelumnya, kami memiliki satu instrumen lebih dari yang kami
butuhkan, dan ini menghasilkan satu batasan identifikasi berlebihan yang dapat diuji. Dalam
kasus umum, anggaplah kita memiliki q lebih banyak instrumen daripada yang kita butuhkan.
Misalnya, dengan satu variabel penjelas endogen, y 2, dan tiga instrumen yang diusulkan untuk y
2, kami memilikiq=3−1=2 pembatasan identifikasi berlebihan. Ketika q adalah dua atau lebih,
membandingkan beberapa perkiraan IV rumit. Sebagai gantinya, kita dapat dengan mudah
menghitung statistik uji berdasarkan residu 2SLS. Idenya adalah bahwa, jika semua instrumen
eksogen, residu 2SLS harus tidak berkorelasi dengan instrumen, hingga kesalahan pengambilan
sampel. Tetapi jika ada parameter k +1 dan instrumen k +1+ q, residu 2SLS memiliki rata-rata
nol dan secara identik tidak berkorelasi dengan kombinasi linier k instrumen. (Fakta aljabar ini
mengandung, sebagai kasus khusus, fakta bahwa residu OLS memiliki rata-rata nol dan tidak
berkorelasi dengan variabel penjelas k.) Oleh karena itu, tes memeriksa apakah residu 2SLS
berkorelasi dengan fungsi linier q instrumen, dan kita tidak perlu memutuskan fungsinya; Tes
melakukannya untuk kita secara otomatis. Tes berbasis regresi berikut berlaku ketika asumsi
homoskedastisitas, terdaftar sebagai Asumsi 2SLS.5 dalam lampiran bab, berlaku.
Testing Overidentifying Restrictions (Pengujian Overidentifying Restrictions):
(i) Perkirakan persamaan struktural dengan 2SLS dan dapatkan residu 2SLS, uˆ1.
(ii) Regresi uˆ1 pada semua variabel eksogen. Dapatkan R-kuadrat, katakanlah, R21.
(iii) Di bawah hipotesis nol bahwa semua IV tidak berkorelasi dengan u1, nR21 ~ª X2q,
di mana q adalah jumlah variabel instrumental dari luar model dikurangi jumlah
total variabel penjelas endogen. Jika nR21 melebihi (katakanlah) nilai kritis 5%
dalam distribusi X2q, kami menolak H0 dan menyimpulkan bahwa setidaknya
beberapa IV tidak eksogen.

29
Contoh 15.8 Return to Education for Working Women
Ketika kita menggunakan motheduc dan fatheduc sebagai infus untuk educ di (15.40),
kita memiliki satu batasan overidentifikasi. Regresi residu 2SLS uˆ1 pada exper, exper2 ,
motheduc, dan fatheduc menghasilkan R21 = .0009. Oleh karena itu, R 21 = 428(.0009) = .3852,
yang merupakan nilai yang sangat kecil dalam distribusi X 21 ( p-value = .535). Oleh karena itu,
variabel pendidikan orang tua lulus tes overidentifikasi. Ketika kita menambahkan pendidikan
suami ke daftar IV, kita mendapatkan dua batasan identifikasi yang berlebihan, dan nR21 = 1.11
(p-value = .574). Tunduk pada peringatan sebelumnya, tampaknya masuk akal untuk
menambahkan huseduc ke daftar IV, karena ini mengurangi kesalahan standar perkiraan 2SLS:
perkiraan 2SLS pada educ menggunakan ketiga instrumen adalah .080 (se = .022), jadi ini
membuat educ jauh lebih signifikan daripada ketika huseduc tidak digunakan sebagai IV (βˆeduc =
.061, se = .031).
Ketika q=1, pertanyaan alami adalah: Bagaimana tes yang diperoleh dari prosedur
berbasis regresi dibandingkan dengan tes berdasarkan membandingkan estimasi secara
langsung? Faktanya, kedua prosedur tersebut secara asimtotik sama. Sebagai masalah praktis,
masuk akal untuk menghitung dua perkiraan IV untuk melihat perbedaannya. Secara lebih
umum, ketika q ≥ 2, seseorang dapat membandingkan estimasi 2SLS menggunakan semua IV
dengan estimasi IV menggunakan instrumen tunggal. Dengan demikian, seseorang dapat melihat
apakah berbagai perkiraan IV praktis berbeda, apakah tes overidentification menolak atau gagal
menolak. Dalam contoh sebelumnya, kami menyinggung fakta umum tentang 2SLS: di bawah
asumsi standar 2SLS, menambahkan instrumen ke daftar meningkatkan efisiensi asimtotik 2SLS.
Tetapi ini mensyaratkan bahwa setiap instrumen baru sebenarnya eksogen — jika tidak, 2SLS
bahkan tidak akan konsisten — dan itu hanya hasil asimtotik. Dengan ukuran sampel tipikal
yang tersedia, menambahkan terlalu banyak instrumen — yaitu, meningkatkan jumlah
pembatasan identifikasi berlebih — dapat menyebabkan bias parah pada 2SLS. Diskusi
terperinci akan membawa kita terlalu jauh. Sebuah ilustrasi yang bagus diberikan oleh Bound,
Jaeger, dan Baker (1995) yang berpendapat bahwa perkiraan 2SLS tentang kembalinya
pendidikan yang diperoleh Angrist dan Krueger (1991), menggunakan banyak variabel
instrumental, cenderung sangat bias (bahkan dengan ratusan ribu pengamatan!). Tes
overidentification dapat digunakan setiap kali kita memiliki lebih banyak instrumen daripada
yang kita butuhkan. Jika kita memiliki instrumen yang cukup, model dikatakan hanya

30
diidentifikasi, dan R-kuadrat di bagian (ii) akan identik nol. Seperti yang kami sebutkan
sebelumnya, kami tidak dapat menguji eksogenitas instrumen dalam kasus yang baru saja
diidentifikasi. Tes ini dapat dibuat kuat untuk heteroskedastisitas bentuk sewenang-wenang;
untuk detailnya, lihat Wooldridge (2010, Bab 5).

2.6 2SLS with Heteroskedasticity


Heteroskedastisitas dalam konteks 2SLS pada dasarnya menimbulkan masalah yang sama
dengan OLS. Yang paling penting, adalah mungkin untuk mendapatkan kesalahan standar dan
statistik uji yang (asimtotik) kuat untuk heteroskedastisitas bentuk sewenang-wenang dan tidak
diketahui. Bahkan, ekspresi (8.4) terus berlaku jika r ˆij diperoleh sebagai residu dari regresi x ˆij
pada x ˆih lainnya, di mana "ˆ" menunjukkan nilai yang cocok dari regresi tahap pertama (untuk
variabel penjelas endogen). Wooldridge (2010, Bab 5) berisi lebih banyak detail. Beberapa paket
perangkat lunak melakukan ini secara rutin. Kita juga dapat menguji heteroskedastisitas,
menggunakan analog dari tes Breusch-Pagan yang kita bahas dalam Bab 8. Biarkan uˆ
menunjukkan residu 2SLS dan biarkan z 1, z 2, ..., z m menunjukkan semua variabel eksogen
(termasuk yang digunakan sebagai infus untuk variabel penjelas endogen). Kemudian, di bawah
asumsi yang masuk akal [dijabarkan, misalnya, dalam Wooldridge (2010, Bab 5)], statistik yang
valid secara asimtotik adalah statistik F biasa untuk signifikansi bersama dalam regresi uˆ 2 pada
z 1, z 2, ..., z m. Hipotesis nol homoskedastisitas ditolak jika zj secara bersama-sama signifikan. Jika
kita menerapkan tes ini pada Contoh 15,8, menggunakan motheduc, fatheduc, dan huseduc
sebagai instrumen untuk educ, kita memperoleh F5,422 = 2.53, dan p-value = .029. Ini adalah bukti
heteroskedastisitas pada tingkat 5%. Kami mungkin ingin menghitung kesalahan standar
heteroskedastisitas-kuat untuk menjelaskan hal ini. Jika kita tahu bagaimana varians kesalahan
tergantung pada variabel eksogen, kita dapat menggunakan prosedur 2SLS tertimbang, pada
dasarnya sama seperti pada Bagian 8.4. Setelah memperkirakan model untuk Var (u│ z 1, z 2, ..., z
m), kami membagi variabel dependen, variabel penjelas, dan semua variabel instrumental untuk
pengamatan i dengan √ˆhi , di mana ˆhi menunjukkan varians yang diperkirakan. (Konstanta,
yang merupakan variabel penjelas dan IV, dibagi √ ˆhi; lihat Bagian 8.4.) Kemudian, kita
menerapkan 2SLS pada persamaan yang diubah menggunakan instrumen yang diubah.

2.7 Applying 2SLS to Time Series Equations

31
Ketika kami menerapkan 2SLS ke data deret waktu, banyak pertimbangan yang muncul
untuk OLS di Bab 10, 11, dan 12 relevan. Tuliskan persamaan struktural untuk setiap periode
waktu sebagai
y 1 = β0 + β1 x t1 + … + βk x tk + ut
Di mana satu atau lebih variabel penjelas xtj mungkin berkorelasi dengan UT. Nyatakan
himpunan variabel eksogen dengan z t1, ... , z tm:
E(ut) = 0, Cov( z tj,ut) = 0, j = 1, …, m.
Setiap variabel penjelas eksogen juga merupakan a z tj. Untuk identifikasi, perlu m ≥ k
(kami memiliki banyak variabel eksogen sebagai variabel penjelas). Mekanisme 2SLS identik
untuk deret waktu atau data cross-sectional, tetapi untuk data deret waktu, sifat statistik 2SLS
bergantung pada sifat tren dan korelasi dari urutan yang mendasarinya. Secara khusus, kita harus
berhati-hati untuk memasukkan tren jika kita memiliki variabel dependen atau penjelas tren.
Karena tren waktu bersifat eksogen, ia selalu dapat berfungsi sebagai variabel instrumentalnya
sendiri. Hal yang sama berlaku untuk variabel dummy musiman, jika data bulanan atau
triwulanan digunakan. Seri yang memiliki persistensi kuat (memiliki akar unit) harus digunakan
dengan hati-hati, seperti halnya OLS. Seringkali, perbedaan persamaan dibenarkan sebelum
estimasi, dan ini berlaku untuk instrumen juga. Di bawah analog asumsi dalam Bab 11 untuk
sifat asimtotik OLS, 2SLS menggunakan data deret waktu konsisten dan terdistribusi normal
asimtotik. Bahkan, jika kita mengganti variabel penjelas dengan variabel instrumental dalam
menyatakan asumsi, kita hanya perlu menambahkan asumsi identifikasi untuk 2SLS. Misalnya,
asumsi homoskedastisitas dinyatakan sebagai

Dan asumsi tidak ada korelasi serial dinyatakan sebagai,

Di mana zt menunjukkan semua variabel eksogen pada waktu t. Pernyataan lengkap tentang
asumsi diberikan dalam lampiran bab. Kami akan memberikan contoh 2SLS untuk masalah deret
waktu di Bab 16; lihat juga Latihan Komputer C4. Seperti dalam kasus OLS, asumsi tidak ada
korelasi serial sering dapat dilanggar dengan data deret waktu. Untungnya, sangat mudah untuk

32
menguji korelasi serial AR (1). Jika kita menulis ut 5 rut21 1 et dan memasukkannya ke dalam
persamaan (15,52), kita mendapatkan

Untuk menguji H0: ρ 1 = 0, kita harus mengganti ut-1 dengan residu 2SLS, uˆt-1.
Selanjutnya, jika xtj endogen di (15,52), maka endogen di (15,55), jadi kita masih perlu
menggunakan IV. Karena e t tidak berkorelasi dengan semua nilai masa lalu ut, uˆt-1 dapat
digunakan sebagai instrumennya sendiri.
Testing for AR(1) Serial Correlation after 2SLS:
(i) Perkirakan (15,52) dengan 2SLS dan dapatkan residu 2SLS, uˆt .
(ii) Perkiraan

oleh 2SLS, menggunakan instrumen yang sama dari bagian (i), selain uˆt21. Gunakan statistik t
pada ρ ˆ untuk menguji H0: ρ = 0.
Seperti versi OLS dari tes ini dari Bab 12, statistik t hanya memiliki pembenaran
asimtotik, tetapi cenderung bekerja dengan baik dalam praktiknya. Versi heteroskedastisitas-kuat
dapat digunakan untuk menjaga terhadap heteroskedastisitas. Selanjutnya, residu tertinggal dapat
ditambahkan ke persamaan untuk menguji bentuk korelasi serial yang lebih tinggi menggunakan
uji F bersama. Apa yang terjadi jika kita mendeteksi korelasi serial? Beberapa paket
ekonometrika akan menghitung kesalahan standar yang kuat untuk bentuk korelasi serial dan
heteroskedastisitas yang cukup umum. Ini adalah cara yang bagus dan sederhana jika paket
ekonometrik Anda melakukan ini. Perhitungannya sangat mirip dengan yang ada di Bagian 12.5
untuk OLS. [Lihat Wooldridge (1995) untuk rumus dan metode komputasi lainnya.]
Alternatifnya adalah menggunakan model AR (1) dan mengoreksi korelasi serial. Prosedur ini
mirip dengan yang untuk OLS dan menempatkan pembatasan tambahan pada variabel
instrumental. Persamaan kuasi-beda adalah sama seperti dalam persamaan (12,32):

Di mana x ̃ tj = x tj −¿ ρx t-1, j. (Kita dapat menggunakan pengamatan t = 1 seperti pada


Bagian 12.3, tetapi kita menghilangkannya untuk kesederhanaan di sini.) Pertanyaannya adalah:

33
Apa yang bisa kita gunakan sebagai variabel instrumental? Tampaknya wajar untuk
menggunakan instrumen kuasi-perbedaan, z ̃ tj = z tj – ρz t-1, j . Ini hanya berfungsi, namun, jika di
(15,52) kesalahan asli ut tidak berkorelasi dengan instrumen pada waktu t ,t−1, dan t+ 1.
Artinya, variabel instrumental harus benar-benar eksogen dalam (15,52). Ini mengesampingkan
variabel dependen yang tertinggal sebagai IV, misalnya. Ini juga menghilangkan kasus-kasus di
mana gerakan masa depan dalam infus bereaksi terhadap perubahan kesalahan saat ini dan masa
lalu, ut.
2SLS with AR(1) Errors:
(i) Perkirakan (15,52) dengan 2SLS dan dapatkan residu 2SLS, uˆt , t = 1, 2, ..., n.
(ii) Dapatkan ρ ˆ dari regresi uˆt pada uˆt-1, t = 2, ..., n dan bangun variabel kuasiperbedaan
y ̃t = y t −¿ ρ ˆ y t-1, x ̃tj = x tj −¿ ρ ˆ x t-1, j , dan z ̃tj = z tj −ρ ˆ z t-1, j untuk t ≥ 2. (Ingat, dalam
banyak kasus, beberapa IV juga akan menjadi variabel penjelas.)
(iii) Estimasi (15,56) (di mana ρ diganti dengan ρ ˆ) sebesar 2SLS, menggunakan z ̃ tj
sebagai instrumen. Dengan asumsi bahwa (15,56) memenuhi asumsi 2SLS dalam
lampiran bab, statistik tes 2SLS yang biasa valid secara asimtotik.
Kita juga dapat menggunakan periode waktu pertama seperti pada estimasi Prais-Winsten
model dengan variabel penjelas eksogen. Variabel yang diubah pada periode waktu pertama —
variabel dependen, variabel penjelas, dan variabel instrumental — diperoleh hanya dengan
mengalikan semua nilai periode pertama dengan (1 −ρ ˆ)1/2. (Lihat juga Bagian 12.3.)

2.8 Applying 2SLS to Pooled Cross Sections and Panel Data


Menerapkan metode variabel instrumental pada penampang yang dikumpulkan secara
independen tidak menimbulkan kesulitan baru. Seperti model yang diperkirakan oleh OLS, kita
harus sering menyertakan variabel dummy periode waktu untuk memungkinkan efek waktu
agregat. Variabel dummy ini eksogen — karena berlalunya waktu bersifat eksogen — sehingga
mereka bertindak sebagai instrumen mereka sendiri.
Contoh 15.9 Effect of Education on Fertility
Dalam Contoh 13.1, kami menggunakan penampang gabungan di FERTIL1. RAW untuk
memperkirakan pengaruh pendidikan terhadap kesuburan wanita, mengendalikan berbagai faktor
lainnya. Seperti dalam Sander (1992), kami mengizinkan kemungkinan bahwa educ bersifat
endogen dalam persamaan. Sebagai variabel instrumental untuk pendidikan, kami menggunakan

34
tingkat pendidikan ibu dan ayah (meduc, feduc). Estimasi 2SLS βeduc adalah −¿.153 (se = .039),
dibandingkan dengan estimasi OLS −¿.128 (se = .018). Perkiraan 2SLS menunjukkan efek
pendidikan yang agak lebih besar pada kesuburan, tetapi kesalahan standar 2SLS lebih dari dua
kali lebih besar dari kesalahan standar OLS. (Faktanya, interval kepercayaan 95% berdasarkan
2SLS dengan mudah berisi perkiraan OLS.) Perkiraan OLS dan 2SLS dari βeduc tidak berbeda
secara statistik, seperti yang dapat dilihat dengan menguji endogenitas educ seperti pada Bagian
15.5: ketika residu bentuk tereduksi, v ˆ2, disertakan dengan regresi lain dalam Tabel 13.1
(termasuk educ), statistik t-nya adalah 0,702, yang tidak signifikan pada tingkat yang wajar. Oleh
karena itu, dalam hal ini, kami menyimpulkan bahwa perbedaan antara 2SLS dan OLS dapat
sepenuhnya disebabkan oleh kesalahan pengambilan sampel. Estimasi variabel instrumental
dapat dikombinasikan dengan metode data panel, terutama perbedaan pertama, untuk
memperkirakan parameter secara konsisten dengan adanya efek yang tidak teramati dan
endogenitas dalam satu atau lebih variabel penjelas yang bervariasi waktu. Contoh sederhana
berikut menggambarkan kombinasi metode ini.
Contoh 15.10 Job Training and Worker Productivity
Misalkan kita ingin memperkirakan pengaruh satu jam lagi pelatihan kerja terhadap
produktivitas pekerja. Selama dua tahun 1987 dan 1988, pertimbangkan yang sederhana

Di mana scrapit adalah tingkat memo perusahaan I di tahun T, dan HRSEMPIT adalah
jam pelatihan kerja per karyawan. Seperti biasa, kami mengizinkan penyadapan tahun yang
berbeda dan efek tegas yang konstan dan tidak teramati, ai . Untuk alasan yang dibahas dalam
Bagian 13.2, kita mungkin khawatir bahwa hrsempit berkorelasi dengan ai, yang terakhir berisi
kemampuan pekerja yang tidak terukur. Seperti sebelumnya, kami berbeda untuk menghapus ai:

Biasanya, kita akan memperkirakan persamaan ini dengan OLS. Tetapi bagaimana jika
∆ u i berkorelasi dengan ∆ hrsempi? Misalnya, perusahaan mungkin mempekerjakan pekerja yang
lebih terampil, sementara pada saat yang sama mengurangi tingkat pelatihan kerja. Dalam hal ini,
kita membutuhkan variabel instrumental untuk ∆ hrsempi. Secara umum, IV semacam itu akan
sulit ditemukan, tetapi kita dapat memanfaatkan fakta bahwa beberapa perusahaan menerima

35
hibah pelatihan kerja pada tahun 1988. Jika kita berasumsi bahwa penunjukan hibah tidak
berkorelasi dengan ∆ u i — sesuatu yang masuk akal, karena hibah diberikan pada awal tahun
1988 — maka ∆ granti berlaku sebagai infus, asalkan ∆ hrsemp dan ∆ grant berkorelasi.
Menggunakan data di JTRAIN.RAW perbedaan antara tahun 1987 dan 1988, regresi tahap
pertama adalah

Hal ini menegaskan bahwa perubahan jam pelatihan kerja per karyawan sangat positif
terkait dengan menerima hibah pelatihan kerja pada tahun 1988. Bahkan, menerima hibah
pelatihan kerja meningkatkan pelatihan per karyawan hampir 28 jam, dan penunjukan hibah
menyumbang hampir 40% dari variasi di ∆ hrsemp. Estimasi kuadrat terkecil dua tahap sebesar
(15,57) memberikan

Ini berarti bahwa 10 jam lebih pelatihan kerja per pekerja diperkirakan mengurangi tingkat
memo sekitar 14%. Untuk perusahaan dalam sampel, jumlah rata-rata pelatihan kerja pada tahun
1988 adalah sekitar 17 jam per pekerja, dengan minimum nol dan maksimum 88. Sebagai
perbandingan, estimasi OLS sebesar (15,57) memberikan βˆ1 = −¿.0076 (se = .0045), sehingga
estimasi 2SLS β1 hampir dua kali lebih besar besarnya dan sedikit lebih signifikan secara
statistik.
Ketika T ≥ 3, persamaan yang berbeda mungkin mengandung korelasi serial. Tes dan
koreksi yang sama untuk korelasi serial AR (1) dari Bagian 15.7 dapat digunakan, di mana
semua regresi dikumpulkan di i dan juga t. Karena kita tidak ingin kehilangan seluruh periode
waktu, transformasi Prais-Winsten harus digunakan untuk periode waktu awal.
Model efek yang tidak teramati yang mengandung variabel dependen tertinggal juga
memerlukan metode IV untuk estimasi yang konsisten. Alasannya adalah, setelah berbeda, ∆ y i,t-1
berkorelasi dengan ∆ u it karena y i,t-1 dan ui,t-1 berkorelasi. Kita dapat menggunakan dua atau
lebih lag y sebagai IV untuk ∆ y i,t-1. [Lihat Wooldridge (2010, Bab 11) untuk detailnya.]
Variabel instrumental setelah pembedaan dapat digunakan pada sampel pasangan yang cocok

36
juga. Ashenfelter dan Krueger (1994) membedakan persamaan upah di kembar untuk
menghilangkan kemampuan yang tidak teramati:
log(wage2) – log(wage1) = ẟ0 + β1(educ2,2 – educ1,1) + (u2 −¿u1),
Di mana educ1,1 adalah tahun sekolah untuk kembar pertama seperti yang dilaporkan oleh
kembar pertama, dan educ2,2 adalah tahun sekolah untuk kembar kedua seperti yang dilaporkan
oleh kembar kedua. Untuk memperhitungkan kemungkinan kesalahan pengukuran dalam
langkah-langkah sekolah yang dilaporkan sendiri, Ashenfelter dan Krueger menggunakan
(educ2,1 −¿ educ1,2) sebagai IV untuk (educ2,2 −¿ educ1,1), di mana educ2,1 adalah tahun sekolah
untuk kembar kedua seperti yang dilaporkan oleh kembar pertama, dan educ1,2 adalah tahun
sekolah untuk kembar pertama seperti yang dilaporkan oleh kembar kedua. Estimasi IV β1 adalah
.167 (t = 3,88), dibandingkan dengan estimasi OLS pada perbedaan pertama .092 (t = 3,83) [lihat
Ashenfelter dan Krueger (1994, Tabel 3)].
BAB III
PENUTUP

3.1 Simpulan
Dengan memahami hubungan sebab-akibat dalam analisis regresi berganda, metode
instrumental variables estimation dan two stage least squares (TSLS) menawarkan pendekatan
yang kuat untuk mengatasi masalah endogenitas. Dengan menggunakan variabel instrumental,
kita dapat menangani bias yang disebabkan oleh variabel endogen, sehingga memperoleh
estimasi parameter yang lebih konsisten dan efisien. TSLS, sebagai implementasi dari metode
ini, memungkinkan kita untuk melakukan estimasi dalam dua tahap, mengurangi efek
endogenitas dan meningkatkan keandalan hasil analisis. Namun, penggunaan metode ini
memerlukan pertimbangan yang hati-hati terhadap asumsi-asumsi yang terlibat serta pengujian
kelayakan instrumen. Dengan memahami dan mengimplementasikan dengan tepat, instrumental
variables estimation dan TSLS dapat menjadi alat yang sangat berguna dalam analisis
ekonometrika.

37
DAFTAR PUSTAKA

M Wooldridge, Jeffrey. 2016. Introductory Econometrics-A Modern Approach : South Western


College Pub.

38

Anda mungkin juga menyukai