BAB 14
’’METODE DATA PANEL LANJUTAN’’
KELAS B1
DOSEN PENGAJAR
Drs. Sudarsana Arka, M.P.
Oleh :
KELOMPOK 2
EKONOMI PEMBANGUNAN
FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS UDAYANA
14-1 Estimasi Efek Tetap
Perbedaan pertama adalah salah satu dari banyak cara untuk menghilangkan efek tetap, a i.
Metode alternatif, yang bekerja lebih baik di bawah asumsi tertentu, disebut transformasi efek
tetap. Untuk melihat apa yang melibatkan metode ini, pertimbangkan model dengan satu variabel
penjelas tunggal: untuk setiap i,
Sekarang, untuk setiap i, rata-rata persamaan ini dari waktu ke waktu. Kita mendapatkan
dan seterusnya
Karena ai diperbaiki dari waktu ke waktu, ai muncul di (14.1) dan (14.2). Jika kita
mengurangi (14.2) dari (14.1) untuk setiap t, kita berakhir dengan
Atau
di mana ý it = y it − ý i adalah data yang direndahkan waktu pada y, dan juga untuk x́ it dan
úit itu. Transformasi efek tetap juga disebut transformasi di dalam. Hal penting tentang
persamaan (14.3) adalah bahwa efek yang tidak teramati, ai , telah menghilang. Ini
menunjukkan bahwa kita harus memperkirakan (14,3) dengan OLS yang dikumpulkan. Pengukur
OLS gabungan yang didasarkan pada variabel-variabel yang mengalami penurunan waktu
disebut penaksir efek tetap atau penaksir dalam. Nama terakhir berasal dari fakta bahwa OLS
pada (14.3) menggunakan variasi waktu dalam y dan x dalam setiap pengamatan cross-sectional.
Penaksir antara diperoleh sebagai penaksir OLS pada persamaan cross sectional (14.2) (di
mana kami menyertakan intersep, β0): kami menggunakan rata-rata waktu untuk y dan x dan
kemudian menjalankan regresi crosssectional. Kami tidak akan mempelajari antara penaksir
secara detail karena bias ketika ai berkorelasi dengan x i (lihat Masalah 2). Jika kita berpikir ai
tidak berkorelasi dengan x it , lebih baik menggunakan estimator efek acak, yang kita bahas
dalam Bagian 14-2. Perkiraan antara mengabaikan informasi penting tentang bagaimana variabel
berubah dari waktu ke waktu
Menambahkan lebih banyak variabel penjelas ke persamaan menyebabkan beberapa
perubahan. Model efek asli yang tidak teramati adalah
34,4%
koefisien pada grant -1 signifikan pada tingkat 5% terhadap alternatif dua sisi. Koefisien dana
hibah signifikan pada tingkat 10%, dan ukuran koefisiennya hampir tidak sepele. Perhatikan
bahwa df diperoleh sebagai N (T - 1) - k = 54 (3 - 1) - 4 = 104.
Koefisien pada d89 menunjukkan bahwa tingkat memo secara substansial lebih rendah pada
tahun 1989 daripada tahun dasar, 1987, bahkan tanpa adanya hibah pelatihan kerja. Dengan
demikian, penting untuk memungkinkan efek agregat ini. Jika kita menghilangkan tahun
dummy, peningkatan sekuler dalam produktivitas pekerja akan dikaitkan dengan hibah
pelatihan kerja. Tabel 14.1 menunjukkan bahwa, bahkan setelah mengendalikan tren agregat
dalam produktivitas, hibah pelatihan kerja memiliki efek perkiraan yang besar
Akhirnya, sangat penting untuk memungkinkan efek tertinggal dalam model. Jika kita
menghilangkan grant -1, maka kita mengasumsikan bahwa pengaruh pelatihan kerja tidak
berlangsung hingga tahun berikutnya. Perkiraan hibah ketika kita menjatuhkan grant -1
adalah.-082 (t = -.65); ini jauh lebih kecil dan tidak signifikan secara statistik.
Ketika memperkirakan model efek yang tidak teramati oleh efek tetap, tidak jelas
bagaimana kita harus menghitung ukuran good-of-fit. R-kuadrat yang diberikan pada Tabel 14.1
didasarkan pada transformasi dalam: itu adalah R-kuadrat yang diperoleh dari estimasi (14.5).
Dengan demikian, ini ditafsirkan sebagai jumlah variasi waktu dalam yit yang dijelaskan oleh
variasi waktu dalam variabel penjelas. Cara lain untuk menghitung R-kuadrat adalah mungkin,
salah satunya akan kita bahas nanti.
Meskipun variabel waktu-konstan tidak dapat dimasukkan sendiri dalam model efek
tetap, mereka dapat berinteraksi dengan variabel yang berubah seiring waktu dan, khususnya,
dengan variabel dummy tahun. Misalnya, dalam persamaan upah di mana pendidikan konstan
dari waktu ke waktu untuk setiap individu dalam sampel kami, kami dapat berinteraksi
pendidikan dengan setiap tahun dummy untuk melihat bagaimana kembali ke pendidikan telah
berubah dari waktu ke waktu. Tetapi kita tidak dapat menggunakan efek tetap untuk
memperkirakan pengembalian ke pendidikan dalam periode dasar, yang berarti kita tidak dapat
memperkirakan pengembalian ke pendidikan dalam periode apa pun; kita hanya dapat melihat
bagaimana pengembalian pendidikan setiap tahun berbeda dari periode dasar. Bagian 14-3
menjelaskan pendekatan yang memungkinkan koefisien pada variabel konstan waktu untuk
diperkirakan sambil menjaga sifat efek tetap dari analisis.
Ketika kita memasukkan set lengkap tahun dummy - yaitu, tahun dummy untuk semua
tahun tetapi yang pertama - kita tidak dapat memperkirakan efek dari variabel apa pun yang
perubahan lintas waktunya konstan. Contohnya adalah pengalaman bertahun-tahun dalam
kumpulan data panel di mana setiap orang bekerja di setiap tahun, sehingga pengalaman selalu
meningkat satu di setiap tahun, untuk setiap orang dalam sampel. Kehadiran ai menyumbang
perbedaan di antara orang-orang di tahun pengalaman mereka pada periode waktu awal. Tetapi
kemudian efek peningkatan pengalaman satu tahun tidak dapat dibedakan dari efek waktu
agregat (karena pengalaman meningkat dengan jumlah yang sama untuk semua orang). Ini juga
akan berlaku jika, sebagai ganti dummy tahun terpisah, kami menggunakan tren waktu linier:
untuk setiap orang, pengalaman tidak dapat dibedakan dari tren linier.
Contoh 14.2 Apakah pengembalian pendidikan berubah dari waktu ke waktu?
Data dalam WAGEPAN berasal dari Vella dan Verbeek (1998). Masing-masing dari 545 laki-
laki dalam sampel bekerja di setiap tahun dari tahun 1980 hingga 1987. Beberapa variabel
dalam kumpulan data berubah seiring waktu: pengalaman, status perkawinan, dan status
serikat adalah tiga yang penting. Variabel lain tidak berubah: ras dan pendidikan adalah contoh
utama. Jika kita menggunakan efek tetap (atau perbedaan pertama), kita tidak bisa
memasukkan ras, pendidikan, atau pengalaman dalam persamaan. Namun, kita dapat
memasukkan interaksi pendidikan dengan dummy tahun untuk 1981 hingga 1987 untuk
menguji apakah pengembalian ke pendidikan konstan selama periode waktu ini. Kami
menggunakan log (upah atau wage) sebagai variabel dependen, variabel dummy untuk status
perkawinan dan serikat pekerja, serangkaian tahun penuh dummy, dan istilah interaksi
Perkiraan pada istilah interaksi ini semuanya positif, dan mereka umumnya menjadi lebih
besar untuk beberapa tahun terakhir. Koefisien terbesar 0,030 adalah pada pendidikan d87 #,
dengan t = 2,48. Dengan kata lain, pengembalian pendidikan diperkirakan sekitar 3 poin
persentase lebih besar pada tahun 1987 daripada tahun dasar, 1980. (Kami tidak memiliki
perkiraan pengembalian pendidikan pada tahun dasar karena alasan yang diberikan
sebelumnya.) Istilah interaksi signifikan lainnya adalah d86educ.
Estimasi pada tahun-tahun sebelumnya lebih kecil dan tidak signifikan pada tingkat 5%
terhadap alternatif dua sisi. Jika kita melakukan uji F bersama untuk signifikansi dari ketujuh
istilah interaksi, kita mendapatkan p-value = 0,28: ini memberikan contoh di mana satu set
variabel secara bersama tidak signifikan meskipun beberapa variabel secara individual
signifikan. Secara umum, hasilnya konsisten dengan peningkatan pengembalian pendidikan
selama periode ini.
di mana overbar mengacu pada rata-rata waktu dan ^β j adalah perkiraan efek tetap. Sebagai
contoh, jika kita telah memperkirakan suatu model kejahatan sambil mengendalikan berbagai
faktor yang bervariasi waktu, kita dapat memperoleh a^ i suatu kota untuk melihat apakah efek
tetap yang tidak teramati yang berkontribusi terhadap kejahatan berada di atas atau di bawah
rata-rata.
Beberapa paket ekonometrik yang mendukung estimasi efek tetap melaporkan
"intersepsi", yang dapat menyebabkan kebingungan mengingat klaim kami sebelumnya bahwa
penurunan waktu menghilangkan semua variabel waktu-konstan, termasuk intersep keseluruhan.
[Lihat persamaan (14.5).] Melaporkan estimasi intersep dalam efek tetap (FE) secara
keseluruhan muncul dari melihat ai sebagai parameter untuk memperkirakan. Biasanya, intersep
yang dilaporkan adalah rata-rata melintasi i dari a^ i . Dengan kata lain, keseluruhan intersep
sebenarnya adalah rata-rata dari intersep spesifik individu, yang merupakan penduga yang tidak
bias dan konsisten dari α =E( a^ i) .
Dalam sebagian besar studi, ^β j menarik, dan persamaan waktu yang direndahkan
digunakan untuk mendapatkan estimasi ini. Lebih lanjut, biasanya terbaik untuk melihat ai
sebagai variabel yang dihilangkan yang kita kontrol melalui transformasi dalam. Perasaan di
mana ai dapat diperkirakan umumnya lemah. Faktanya, meskipun a^ i tidak bias (berdasarkan
Asumsi FE.1 hingga FE.4 dalam bab lampiran), ia tidak konsisten dengan T tetap seperti N
∞ Alasannya adalah, saat kami menambahkan setiap pengamatan crosssectional tambahan,
kami menambahkan ai baru. Tidak ada informasi yang terakumulasi pada setiap ai ketika T
diperbaiki. Dengan T yang lebih besar, kita bisa mendapatkan estimasi ai yang lebih baik,
tetapi sebagian besar set data panel adalah dari variasi N besar dan T kecil.
14-1b Efek Tetap atau Perbedaan Pertama?
Sejauh ini, selain OLS yang terkumpul, kami telah melihat dua metode yang bersaing
untuk memperkirakan model efek yang tidak teramati. Yang satu melibatkan perbedaan data, dan
yang lainnya melibatkan penurunan waktu. Bagaimana kita tahu yang mana yang harus
digunakan?
Kami dapat menghilangkan satu kasus dengan segera: ketika T = 2, perkiraan FE dan FD, serta
semua statistik pengujian, adalah identik, dan karenanya tidak masalah yang kami gunakan.
Tentu saja, kesetaraan antara perkiraan FE dan FD mengharuskan kami memperkirakan model
yang sama dalam setiap kasus. Secara khusus, seperti yang kita diskusikan di Bab 13, adalah
wajar untuk memasukkan intersep dalam persamaan FD; intersep ini sebenarnya adalah intersep
untuk periode waktu kedua dalam model asli yang ditulis untuk dua periode waktu. Oleh karena
itu, estimasi FE harus menyertakan variabel dummy untuk periode waktu kedua agar identik
dengan estimasi FD yang mencakup intersep.
Dengan T = 2, FD memiliki keuntungan untuk langsung diimplementasikan dalam setiap
paket ekonometrik atau statistik yang mendukung manipulasi data dasar, dan mudah untuk
menghitung statistik heteroskedastisitas mikro setelah estimasi FD (karena ketika T = 2, estimasi
FD hanyalah sebuah salib Regresi sectional).
Ketika T ≥ 3, penaksir FE dan FD tidak sama. Karena keduanya tidak bias berdasarkan Asumsi
FE.1 hingga FE.4, kami tidak dapat menggunakan ketidakberpihakan sebagai kriteria.
Selanjutnya, keduanya konsisten (dengan T tetap sebagai N ∞ ) di bawah FE.1 hingga
FE.4. Untuk T besar dan T kecil, pilihan antara FE dan FD bergantung pada efisiensi relatif dari
estimator, dan ini ditentukan oleh korelasi serial dalam kesalahan idiosinkrasi, u it. (Kami akan
menganggap homoskedastisitas uit, karena perbandingan efisiensi memerlukan kesalahan
homoskedastik.)
Ketika uit secara seri tidak berkorelasi, efek tetap lebih efisien daripada perbedaan
pertama (dan kesalahan standar yang dilaporkan dari efek tetap valid). Karena model efek yang
tidak teramati biasanya dinyatakan (kadang-kadang hanya secara implisit) dengan kesalahan
istimewa yang tidak berkorelasi seri, penduga FE digunakan lebih dari penduga FD. Tetapi kita
harus ingat bahwa anggapan ini bisa salah. Dalam banyak aplikasi, kita dapat mengharapkan
faktor-faktor yang tidak teramati yang berubah dari waktu ke waktu berkorelasi seri. Jika uit
mengikuti jalan acak — yang berarti ada korelasi serial yang sangat substansial dan positif —
maka perbedaan Δuit tidak berkorelasi seri, dan perbedaan pertama lebih baik. Dalam banyak
kasus, uit menunjukkan beberapa korelasi serial positif, tetapi mungkin tidak sebanyak jalan acak.
Kemudian, kita tidak dapat dengan mudah membandingkan efisiensi penaksir FE dan FD.
Sulit untuk menguji apakah uit secara seri tidak berkorelasi setelah estimasi FE: kita dapat
memperkirakan kesalahan yang mengalami penurunan waktu, ú it itu, tetapi bukan uit. Namun,
dalam Bagian 13-3, kami menunjukkan bagaimana menguji apakah kesalahan yang dibedakan,
Duit, secara seri tidak berkorelasi. Jika ini masalahnya, FD dapat digunakan. Jika ada korelasi
serial negatif yang substansial dalam Δuit, FE mungkin lebih baik. Sering kali merupakan ide
yang baik un tuk mencoba keduanya: jika hasilnya tidak sensitif, jauh lebih baik.
Ketika T besar, dan terutama ketika N tidak terlalu besar (misalnya, N=20 dan T=30), kita
harus berhati-hati dalam menggunakan estimator efek tetap. Meskipun hasil distribusi yang tepat
berlaku untuk setiap N dan T di bawah asumsi efek tetap klasik, kesimpulan bisa sangat sensitif
terhadap pelanggaran asumsi ketika N kecil dan T besar. Khususnya, jika kita menggunakan
proses root unit - lihat Bab 11 - masalah regresi palsu dapat muncul. Perbedaan pertama
memiliki keuntungan mengubah proses deret waktu terintegrasi menjadi proses yang sangat
tergantung. Oleh karena itu, jika kita menerapkan pembedaan pertama, kita dapat mengajukan
banding ke teorema batas pusat bahkan dalam kasus di mana T lebih besar dari N. Normalitas
dalam kesalahan idiosinkratik tidak diperlukan, dan heteroskedastisitas dan korelasi serial dapat
diatasi seperti yang kita bahas pada Bab ini. 13. Inferensi dengan estimator efek tetap berpotensi
lebih sensitif terhadap nonnormalitas, heteroskedastisitas, dan korelasi serial dalam kesalahan
istimewa
Seperti penduga perbedaan pertama, penduga efek tetap bisa sangat sensitif terhadap
kesalahan pengukuran klasik dalam satu atau lebih variabel penjelas. Namun, jika setiap x itj tidak
berkorelasi dengan uit, tetapi asumsi eksogenitas yang ketat dilanggar sebaliknya - misalnya,
variabel dependen lagged dimasukkan di antara para regressor atau ada umpan balik antara u it
dan hasil masa depan dari variabel penjelas - maka estimasi FE kemungkinan memiliki bias yang
jauh lebih kecil daripada estimator FD (kecuali T = 2). Fakta teoritis yang penting adalah bahwa
bias dalam estimator FD tidak tergantung pada T, sedangkan untuk estimator FE cenderung nol
pada laju 1 / T. Lihat Wooldridge (2010, Bagian 10-7) untuk detailnya. Secara umum, sulit untuk
memilih antara FE dan FD ketika mereka memberikan hasil yang berbeda secara substansial.
Masuk akal untuk melaporkan kedua set hasil dan mencoba menentukan mengapa keduanya
berbeda.
14-1c Efek Tetap dengan Panel Tidak Seimbang
Beberapa set data panel, terutama pada individu atau perusahaan, telah kehilangan tahun
untuk setidaknya beberapa unit crosssectional dalam sampel. Dalam hal ini, kami menyebut data
set panel tidak seimbang. Mekanisme estimasi efek tetap dengan panel tidak seimbang tidak jauh
lebih sulit daripada dengan panel seimbang. Jika T i adalah jumlah periode waktu untuk unit
cross-sectional i, kita cukup menggunakan pengamatan T i ini dalam melakukan penurunan-
Memecahkan masalah gesekan umum dalam data panel adalah rumit dan di luar cakupan teks
ini. [Lihat, misalnya, Wooldridge (2010, Bab 19).]
14-2 Model Efek Acak
Kami mulai dengan model efek yang tidak teramati yang sama seperti sebelumnya,
di mana kita secara eksplisit memasukkan intersep sehingga kita dapat membuat asumsi bahwa
efek yang tidak teramati, ai, memiliki rata-rata nol (tanpa kehilangan sifat umum). Kami biasanya
akan mengizinkan waktu dummy di antara variabel penjelas juga. Dalam menggunakan efek
tetap atau perbedaan pertama, tujuannya adalah untuk menghilangkan ai karena dianggap
berkorelasi dengan satu atau lebih dari x itj. Tapi anggaplah kita berpikir ai tidak berkorelasi
dengan masing-masing variabel penjelas dalam semua periode waktu. Kemudian, menggunakan
transformasi untuk menghilangkan ai menghasilkan estimator yang tidak efisien.
Persamaan (14.7) menjadi model efek acak ketika kita mengasumsikan bahwa efek tidak
teramati ai tidak berkorelasi dengan masing-masing variabel penjelas:
Pada kenyataannya, asumsi efek acak yang ideal mencakup semua asumsi efek tetap
ditambah persyaratan tambahan bahwa ai tidak tergantung pada semua variabel penjelas dalam
semua periode waktu. (Lihat lampiran bab untuk asumsi aktual yang digunakan.) Jika kita
berpikir efek yang tidak teramati ai berkorelasi dengan variabel penjelas, kita harus
menggunakan efek pembeda pertama atau tetap.
Di bawah (14.8) dan bersama dengan asumsi efek acak, bagaimana seharusnya kita
memperkirakan β j ? Penting untuk melihat bahwa, jika kami percaya bahwa a i tidak
berkorelasi dengan variabel penjelas, βj dapat secara konsisten diestimasi dengan
menggunakan cross sectional tunggal: tidak ada kebutuhan untuk data panel sama sekali. Tetapi
menggunakan cross sectional tunggal mengabaikan banyak informasi berguna di periode waktu
lain. Kita juga dapat menggunakan data dalam prosedur OLS yang dikumpulkan: jalankan saja
OLS yit pada variabel penjelas dan mungkin dummies waktu. Ini, juga, menghasilkan penduga
yang konsisten dari β j di bawah asumsi efek acak. Tetapi mengabaikan fitur utama dari
Karena ai berada dalam kesalahan komposit dalam setiap periode waktu, v it dihubungkan secara
serial sepanjang waktu. Bahkan, di bawah asumsi efek acak,
Dimana
Ini (tentu) korelasi serial positif dalam istilah kesalahan bisa sangat besar, dan, karena
kesalahan standar OLS yang biasa mengabaikan korelasi ini, mereka akan salah, seperti halnya
statistik uji biasa. Dalam Bab 12, kami menunjukkan bagaimana kuadrat terkecil umum dapat
digunakan untuk memperkirakan model dengan korelasi serial autoregresif. Kita juga dapat
menggunakan GLS untuk menyelesaikan masalah korelasi serial di sini. Agar prosedur memiliki
sifat yang baik, kita harus memiliki N besar dan T. relatif kecil. Kita berasumsi bahwa kita
memiliki panel yang seimbang, meskipun metode ini dapat diperluas ke panel yang tidak
seimbang. Turunnya transformasi GLS yang menghilangkan korelasi serial dalam kesalahan
memerlukan aljabar matriks yang canggih [lihat, misalnya, Wooldridge (2010, Bab 10)]. Tetapi
transformasi itu sendiri sederhana. Menetapkan
yaitu antara nol dan satu. Kemudian, persamaan yang diubah ternyata
di mana overbar lagi menunjukkan rata-rata waktu. Ini adalah persamaan yang sangat menarik,
karena melibatkan data quasi-demeaned pada setiap variabel. Estimator efek tetap mengurangi
rata-rata waktu dari variabel yang sesuai. Transformasi efek acak mengurangi sebagian kecil dari
rata-rata waktu itu, di mana fraksi tergantung dan jumlah periode waktu, T. Estimator
GLS hanyalah penduga persamaan OLS yang terkumpul (14.11). Hampir tidak jelas bahwa
kesalahan dalam (14.11) secara seri tidak berkorelasi, tetapi memang demikian. (Lihat Masalah
3.)
Transformasi dalam (14.11) memungkinkan untuk variabel penjelas yang konstan dari
waktu ke waktu, dan ini adalah salah satu keuntungan dari efek acak (RE) baik efek tetap atau
perbedaan pertama. Hal ini dimungkinkan karena RE mengasumsikan bahwa efek yang tidak
teramati tidak berkorelasi dengan semua variabel penjelas, baik variabel penjelas tetap dari
waktu ke waktu atau tidak. Jadi, dalam persamaan upah, kita bisa memasukkan variabel seperti
pendidikan bahkan jika itu tidak berubah seiring waktu. Tetapi kami berasumsi bahwa
pendidikan tidak berkorelasi dengan ai , yang berisi kemampuan dan latar belakang keluarga.
Dalam banyak aplikasi, alasan keseluruhan untuk menggunakan data panel adalah untuk
memungkinkan efek yang tidak teramati berkorelasi dengan variabel penjelas.
Parameter θ tidak pernah dikenal dalam praktiknya, tetapi selalu dapat diperkirakan. Ada
beberapa cara untuk melakukan ini, yang mungkin didasarkan pada kumpulan OLS atau efek
tetap, misalnya. Umumnya θ^ mengambil bentuk
Estimator ini dapat didasarkan pada OLS gabungan atau residu efek tetap. Satu kemungkinan
adalah itu
dimana adalah residu dari estimasi (14.9) oleh OLS yang dikumpulkan. Dengan ini, kita
ai
menganggap tidak berkorelasi dengan — yang merupakan
pendekatan efek acak — atau mengambil rata-rata waktu untuk menghapus a i — pendekatan
efek tetap — kita mungkin memodelkan korelasi antara a i dan .
Karena ai, menurut definisi, konstan dari waktu ke waktu, yang memungkinkannya berkorelasi
dengan tingkat rata-rata xit memiliki daya tarik tertentu. Lebih khusus, biarkan
di mana kita menganggap ri tidak berkorelasi dengan masing-masing x it. Karena xi adalah fungsi
linear dari xit,
Persamaan (14.12) dan (14.13) menyiratkan bahwa ai dan xi berkorelasi setiap kali γ ≠ 0
Pendekatan efek acak terkorelasi (CRE) menggunakan (14.12) dalam hubungannya dengan
(14.1): menggantikan yang pertama dalam yang terakhir memberikan
Persamaan (14.14) menarik karena masih memiliki istilah kesalahan komposit, r i + uit, yang
terdiri dari ri waktu yang tidak dapat diobservasi dan guncangan istimewa, uit. Yang penting,
asumsi (14,8) berlaku ketika kita mengganti ai dengan ri. Juga, karena uit diasumsikan tidak
berkorelasi dengan xis, semua s dan t, uit juga tidak berkorelasi dengan xxi. Semua asumsi ini
menambahkan hingga perkiraan efek acak dari persamaan
yang seperti persamaan biasa yang mendasari estimasi RE dengan penambahan penting dari
variabel waktu rata-rata, xxi. Ini adalah penambahan xi yang mengontrol korelasi antara ai dan
pajak atas laba perusahaan di provinsi i pada tahun t, dan y it adalah beberapa ukuran output
ekonomi tingkat county. Dengan memasukkan x i , tarif pajak rata-rata di provinsi selama T
tahun, kami memungkinkan untuk perbedaan sistematis antara negara-negara yang memiliki
pajak tinggi dan pajak rendah secara historis — perbedaan yang juga dapat mempengaruhi hasil
ekonomi
Kita juga dapat menggunakan persamaan (14.15) untuk melihat mengapa penaksir FE
seringkali jauh kurang tepat daripada penaksir RE. Jika kita menetapkan γ =0 dalam
persamaan (14.15) maka kita memperoleh estimator RE β, ^β . Ini berarti bahwa korelasi
ℜ,
antara x it dan x i tidak berpengaruh pada varians dari estimator RE. Sebaliknya, kita tahu
dari analisis regresi berganda pada Bab 3 bahwa korelasi antara x it dan xi — yaitu
varians jauh lebih tinggi, terutama ketika ada sedikit variasi dalam x it di t, di mana kasus
x it dan x i cenderung sangat berkorelasi (positif). Dalam kasus pembatas di mana tidak ada
variasi lintas waktu untuk i, korelasinya sempurna — dan FE gagal memberikan perkiraan b.
pendekatan CRE menyediakan cara formal dan sederhana untuk memilih antara pendekatan FE
dan RE. Seperti yang baru saja kita diskusikan, pendekatan RE menetapkan γ =0 sementara
FE memperkirakan γ . Karena kita memiliki γ^ CRE , . dan kesalahan standarnya [diperoleh
dari estimasi RE (14.15)], kita dapat membuat pada pengujian H0: γ =0 terhadap H1: γ ≠ 0
. Jika kami menolak H0 pada tingkat signifikansi yang cukup kecil, kami menolak RE demi FE.
Seperti biasa, terutama dengan cross sectional yang besar, penting untuk membedakan antara
penolakan statistik dan perbedaan penting secara ekonomi.
Alasan kedua untuk mempelajari pendekatan CRE adalah bahwa ia menyediakan cara
untuk memasukkan variabel penjelas konstan-waktu dalam apa yang secara efektif merupakan
analisis efek tetap. Misalnya, biarkan zi menjadi variabel yang tidak berubah dari waktu ke waktu
— bisa jender, katakanlah, atau skor tes IQ ditentukan pada masa kanak-kanak. Kita dapat
dengan mudah menambah (14.15) untuk memasukkan zi:
di mana kami tidak mengubah notasi untuk istilah kesalahan (yang tidak lagi menyertakan z i).
Jika kita memperkirakan persamaan yang diperluas ini dengan RE, masih dapat ditunjukkan
bahwa estimasi b adalah estimasi FE dari (14.1). Faktanya, begitu kita memasukkan x i , kita
dapat memasukkan variabel waktu-konstan lainnya dalam persamaan, memperkirakannya
dengan RE, dan mendapatkan ^β FE , sebagai koefisien pada x it . Selain itu, kami memperoleh
estimasi d, meskipun estimasi tersebut harus ditafsirkan dengan hati-hati karena tidak harus
memperkirakan efek kausal dari zi pada yit.
Strategi CRE yang sama dapat diterapkan pada model dengan banyak variabel penjelas
waktu yang bervariasi (dan banyak variabel konstanta waktu). Ketika persamaan yang ditambah
dengan rata-rata waktu diperkirakan oleh RE, koefisien pada variabel yang bervariasi waktu
identik dengan perkiraan FE. Sebagai catatan praktis, ketika panel seimbang, tidak perlu
menyertakan rata-rata waktu dari variabel yang berubah seiring waktu — kasus utama adalah
dummies periode waktu. (Dengan periode waktu T, rata-rata waktu dari periode waktu hanya 1 /
T, konstanta untuk semua i dan t; jelas tidak masuk akal untuk menambahkan sekelompok
konstanta ke persamaan yang sudah memiliki intersep.) Jika set data panel tidak seimbang, maka
rata-rata variabel seperti dummies waktu dapat berubah di i — itu akan tergantung pada berapa
banyak periode yang kita miliki untuk unit cross-sectional i. Dalam kasus seperti itu, rata-rata
waktu dari setiap variabel yang berubah sepanjang waktu harus dimasukkan. Latihan Komputer
14 dalam bab ini menggambarkan bagaimana pendekatan CRE dapat diterapkan pada data panel
seimbang yang diatur dalam AIRFARE dan bagaimana seseorang dapat menguji RE versus FE
dalam kerangka CRE.
14-3a Panel Tidak Seimbang
Pendekatan efek acak berkorelasi juga dapat diterapkan pada panel yang tidak seimbang,
tetapi diperlukan kehati-hatian. Untuk mendapatkan penduga yang mereproduksi perkiraan efek
tetap pada variabel penjelas waktu yang bervariasi, seseorang harus berhati-hati dalam menyusun
rata-rata waktu. Khususnya, untuk y atau x j , periode waktu berkontribusi terhadap rata-rata
waktu, yy i atau xy ij , hanya jika data pada semua ( y it , x it 1 , … , x itk ) diamati. Salah satu cara
untuk menggambarkan situasi adalah dengan mendefinisikan variabel dummy, s it , , yang sama
dengan satu ketika set lengkap data pada ( y it , x it 1 , … , x itk ) diamati. Jika ada elemen yang
hilang (termasuk, tentu saja, jika seluruh periode waktu hilang), maka s it =0 (Gagasan
indikator seleksi dibahas lebih rinci dalam Bab 17.) Dengan definisi ini, rata-rata waktu yang
sesuai dari { y it , } dapat ditulis sebagai
di mana Ti adalah jumlah total periode waktu lengkap untuk pengamatan cross-sectional i.
Dengan kata lain, kami hanya rata-rata selama periode waktu yang memiliki set data lengkap.
Titik halus lainnya adalah bahwa ketika dummy periode waktu termasuk dalam model, atau
variabel lain yang berubah hanya oleh t dan bukan i, kita sekarang harus memasukkan rata-rata
waktu mereka (tidak seperti dalam kasus seimbang, di mana rata-rata waktu hanyalah
konstanta) . Misalnya, jika {wt : t= 1, …, T} adalah variabel waktu agregat, seperti dummy
waktu atau tren waktu linier, maka
Karena sifat panel yang tidak seimbang, wi hampir selalu bervariasi di seluruh i (kecuali
periode waktu yang sama persis tidak ada untuk semua unit cross-sectional). Seperti halnya
variabel yang benar-benar berubah pada i dan t, rata-rata waktu dari efek waktu agregat mudah
diperoleh dalam banyak paket perangkat lunak
Mekanisme estimator efek acak juga agak berubah ketika kita memiliki panel tidak
seimbang, dan ini benar apakah kita menggunakan estimator efek acak tradisional atau versi
CRE. Yaitu, parameter θ dalam persamaan (14.10), yang digunakan dalam persamaan (14.11)
untuk mendapatkan data kuasi , tergantung pada i melalui jumlah periode waktu yang diamati
untuk unit i. Secara khusus, cukup ganti T dalam persamaan (14.10) dengan Ti. Paket
ekonometrik yang mendukung estimasi efek acak mengenali perbedaan ini saat menggunakan
panel seimbang, jadi tidak ada yang perlu dilakukan dari perspektif pengguna. Intinya adalah
bahwa, begitu rata-rata waktu telah diperoleh dengan benar, menggunakan persamaan seperti
(14,17) adalah sama dengan dalam kasus seimbang. Kita masih dapat menggunakan uji
signifikansi statistik pada set rata-rata waktu untuk memilih antara efek tetap dan efek acak
murni, dan pendekatan CRE masih memungkinkan kita untuk memasukkan variabel konstanta
waktu.
Seperti dengan estimasi efek tetap, masalah utama adalah memahami mengapa set data
panel tidak seimbang. Dalam kasus efek acak murni, indikator pemilihan, s it , tidak dapat
dikorelasikan dengan kesalahan komposit dalam persamaan (14.7), ai +uit , dalam periode
waktu apa pun. Kalau tidak, seperti yang dibahas dalam Wooldridge (2010, Bab 19), estimator
RE tidak konsisten. Sebagaimana dibahas dalam Bagian 14-1, penaksir FE memungkinkan untuk
korelasi acak antara indikator pemilihan, duduk, dan efek tetap, ai . Oleh karena itu, estimator
FE lebih kuat dalam konteks panel tidak seimbang. Dan, seperti yang telah kita ketahui, FE
memungkinkan korelasi sewenang-wenang antara variabel penjelas yang bervariasi waktu dan
ai
14-4 Menerapkan Metode Data Panel ke Struktur Data Lainnya
Berbagai metode data panel dapat diterapkan pada struktur data tertentu yang tidak
melibatkan waktu. Misalnya, demografi umum untuk menggunakan saudara kandung (kadang
kembar) untuk menjelaskan karakteristik keluarga dan latar belakang yang tidak teramati.
Biasanya kami ingin membiarkan "efek keluarga" yang tidak teramati, yang umum bagi semua
saudara kandung dalam keluarga, untuk dikorelasikan dengan variabel penjelas yang diamati.
Jika variabel penjelas bervariasi di antara saudara kandung dalam keluarga, perbedaan di antara
pasangan saudara kandung - atau, lebih umum, menggunakan transformasi dalam dalam keluarga
- lebih disukai sebagai metode estimasi. Dengan menghilangkan efek yang tidak teramati, kami
menghilangkan bias potensial yang disebabkan oleh karakteristik latar belakang keluarga yang
membingungkan. Menerapkan efek tetap pada struktur data tersebut agak mudah dalam paket
regresi yang mendukung estimasi FE. Sebagai contoh, Geronimus dan Korenman (1992)
menggunakan pasangan saudara perempuan untuk mempelajari efek dari melahirkan anak remaja
pada hasil ekonomi masa depan. Ketika hasilnya adalah pendapatan yang relatif terhadap
kebutuhan — sesuatu yang tergantung pada jumlah anak — modelnya adalah
di mana f indeks keluarga dan indeks seorang saudari dalam keluarga. Intersep untuk saudari
pertama adalah β 0 , dan intersep untuk saudari kedua adalah β 0+ δ 0 . Variabel yang menarik
adalah teenbrthfs, yang merupakan variabel biner sama dengan satu jika saudara perempuan (s)
dalam keluarga (f) memiliki anak dalam usia remaja. Variabel pertanian adalah usia saat ini dari
saudara perempuan dalam keluarga f; Geronimus dan Korenman juga menggunakan beberapa
kontrol lain. Variabel unobserved a f , yang hanya mengubah lintas keluarga, adalah efek
keluarga yang tidak diamati atau efek tetap keluarga. Perhatian utama dalam analisis adalah
bahwa teenbrth berhubungan dengan efek keluarga. Jika demikian, analisis OLS yang
menggabungkan seluruh keluarga dan saudara perempuan memberikan penaksir yang bias
tentang pengaruh keibuan remaja pada hasil ekonomi. Memecahkan masalah ini sederhana:
dalam setiap keluarga, perbedaan (14,18) antar saudara perempuan untuk didapatkan
ini menghilangkan efek keluarga, a f , dan persamaan yang dihasilkan dapat diperkirakan oleh
OLS. Perhatikan bahwa tidak ada unsur waktu di sini: perbedaannya adalah antar saudara dalam
keluarga. Selain itu, kami telah mengizinkan perbedaan dalam intersep antar saudara dalam
(14.18), yang mengarah pada intersep nol dalam persamaan yang dibedakan, (14.19). Jika dalam
memasukkan data urutan para suster dalam setiap keluarga pada dasarnya acak, perkiraan
intersep harus mendekati nol. Tetapi bahkan dalam kasus-kasus seperti itu tidak ada salahnya
memasukkan intersep dalam (14.19), dan memiliki intersep memungkinkan fakta bahwa,
katakanlah, saudari pertama yang terdaftar mungkin selalu yang paling membutuhkan.
Dengan menggunakan 129 pasangan saudara perempuan dari Survei Longitudinal
Nasional Remaja Putri 1982, Geronimus dan Korenman pertama kali memperkirakan β1
dengan OLS gabungan untuk memperoleh 2,33 atau 2,26, di mana estimasi kedua berasal dari
pengontrolan variabel latar belakang keluarga (seperti pendidikan orang tua); kedua perkiraan
tersebut sangat signifikan secara statistik [lihat Tabel 3 dalam Geronimus dan Korenman (1992)].
Oleh karena itu, keibuan remaja memiliki dampak yang agak besar pada pendapatan keluarga di
masa depan. Namun, ketika persamaan diferensial diperkirakan, koefisien pada remaja adalah
2,08, yang kecil dan tidak signifikan secara statistik. Ini menunjukkan bahwa sebagian besar latar
belakang keluarga wanita yang memengaruhi penghasilannya di masa depan, daripada
melahirkan anak remaja.
Geronimus dan Korenman melihat beberapa hasil lainnya dan dua set data lainnya; dalam
beberapa kasus, perkiraan dalam keluarga besar secara ekonomi dan signifikan secara statistik.
Mereka juga menunjukkan bagaimana efeknya sepenuhnya hilang ketika tingkat pendidikan para
suster dikendalikan.
Ashenfelter dan Krueger (1994) menggunakan metodologi differencing untuk memperkirakan
kembali ke pendidikan. Mereka memperoleh sampel 149 kembar identik dan mengumpulkan
informasi tentang pendapatan, pendidikan, dan variabel lainnya. Kembar identik digunakan
karena mereka harus memiliki kemampuan dasar yang sama. Ini dapat dibedakan dengan
menggunakan perbedaan kembar, bukan OLS pada data yang dikumpulkan. Karena kembar
identik adalah sama dalam usia, jenis kelamin, dan ras, semua faktor ini keluar dari persamaan
yang dibedakan. Oleh karena itu, Ashenfelter dan Krueger merevisi perbedaan dalam log
(pendapatan) pada perbedaan dalam pendidikan dan memperkirakan pengembalian ke
pendidikan sekitar 9,2% (t = 3,83). Menariknya, ini sebenarnya lebih besar dari perkiraan OLS
gabungan 8,4% (yang mengontrol jenis kelamin, usia, dan ras). Ashenfelter dan Krueger juga
memperkirakan persamaan dengan efek acak dan memperoleh 8,7% sebagai pengembalian ke
pendidikan. (Lihat Tabel 5 dalam makalah mereka.) Analisis efek acak secara mekanis sama
dengan case panel data dengan dua periode waktu.
Sampel yang digunakan oleh Geronimus dan Korenman (1992) dan Ashenfelter dan
Krueger (1994) adalah contoh sampel pasangan yang cocok. Lebih umum, metode efek tetap dan
acak dapat diterapkan pada sampel cluster. Sampel cluster memiliki penampilan yang sama
dengan kumpulan data cross-sectional, tetapi ada perbedaan penting: cluster unit diambil
sampelnya dari populasi cluster daripada sampel individu dari populasi individu. Dalam contoh
sebelumnya, setiap keluarga diambil sampelnya dari populasi keluarga, dan kemudian kami
memperoleh data setidaknya dua anggota keluarga. Karena itu, setiap keluarga adalah sebuah
cluster.
Sebagai contoh lain, anggaplah kita tertarik untuk membuat model keputusan partisipasi
program pensiun individu. Seseorang mungkin memperoleh sampel acak dari individu yang
bekerja — katakanlah, dari Amerika Serikat — tetapi juga umum untuk perusahaan sampel dari
populasi perusahaan. Setelah perusahaan disampel, seseorang dapat mengumpulkan informasi
tentang semua pekerja atau sekelompok pekerja dalam masing-masing perusahaan. Dalam kedua
kasus, set data yang dihasilkan adalah sampel cluster karena pengambilan sampel pertama kali di
tingkat perusahaan. Karakteristik tingkat perusahaan yang tidak teramati (bersama dengan
karakteristik perusahaan yang diamati) cenderung hadir dalam keputusan partisipasi, dan korelasi
di dalam perusahaan ini harus diperhitungkan. Estimasi efek tetap lebih disukai ketika kita
berpikir efek cluster yang tidak teramati - contohnya adalah ai pada (14.12) - berkorelasi
dengan satu atau lebih variabel penjelas. Kemudian, kita hanya bisa memasukkan variabel
penjelas yang bervariasi, setidaknya, dalam kelompok. Ukuran cluster jarang sama, jadi kami
secara efektif menggunakan metode efek tetap untuk panel tidak seimbang
Data pendidikan tentang hasil siswa juga dapat datang dalam bentuk sampel cluster, di
mana sampel sekolah diperoleh dari populasi sekolah, dan kemudian informasi tentang siswa di
setiap sekolah diperoleh. Setiap sekolah bertindak sebagai kluster, dan memungkinkan efek
sekolah untuk dikorelasikan dengan variabel penjelas utama — katakanlah, apakah seorang
siswa berpartisipasi dalam program bimbingan belajar yang disponsori negara — cenderung
penting. Karena tingkat di mana siswa diajari kemungkinan bervariasi di setiap sekolah, mungkin
merupakan ide yang baik untuk menggunakan estimasi efek tetap. Orang sering melihat penulis
menggunakan, sebagai tulisan cepat, "Saya memasukkan efek tetap sekolah dalam analisis."
Pendekatan efek acak berkorelasi dapat diterapkan segera untuk sampel cluster karena, untuk
keperluan estimasi, sampel cluster bertindak seperti panel tidak seimbang. Sekarang, rata-rata
yang ditambahkan ke persamaan adalah rata-rata dalam-cluster — misalnya, rata-rata dalam
sekolah. Satu-satunya perbedaan dengan data panel adalah bahwa gagasan korelasi serial dalam
kesalahan istimewa tidak relevan. Namun demikian, seperti yang dibahas dalam Wooldridge
(2010, Bab 20), masih ada alasan bagus untuk menggunakan kesalahan standar cluster-robust,
apakah seseorang menggunakan efek tetap atau efek acak berkorelasi.
Dalam beberapa kasus, variabel penjelas utama — sering kali variabel kebijakan —
berubah hanya pada tingkat gugus, bukan di dalam gugus. Dalam kasus seperti itu, pendekatan
efek tetap tidak berlaku. Sebagai contoh, kita mungkin tertarik pada efek kualitas guru yang
diukur pada kinerja siswa, di mana setiap kluster adalah kelas sekolah dasar. Karena semua siswa
dalam gugus memiliki guru yang sama, menghilangkan "efek kelas" juga menghilangkan ukuran
kualitas guru yang diamati. Jika kita memiliki kontrol yang baik dalam persamaan, kita dapat
dibenarkan dalam menerapkan efek acak pada kluster tidak seimbang. Seperti halnya data panel,
persyaratan utama untuk RE untuk menghasilkan estimasi yang meyakinkan adalah bahwa
variabel penjelas tidak berkorelasi dengan efek cluster yang tidak teramati. Sebagian besar paket
ekonometrik memungkinkan estimasi efek acak pada cluster yang tidak seimbang tanpa banyak
usaha.
OLS gabungan juga umum diterapkan pada sampel cluster ketika menghilangkan efek cluster
melalui efek tetap tidak layak atau tidak diinginkan. Namun, seperti halnya data panel, kesalahan
standar OLS yang biasa tidak benar kecuali jika tidak ada efek cluster, dan kesalahan standar
yang kuat yang memungkinkan "korelasi cluster" (dan heteroskedastisitas) harus digunakan.
Beberapa paket regresi memiliki perintah sederhana untuk memperbaiki kesalahan standar dan
statistik uji biasa untuk umum dalam korelasi cluster (serta heteroskedastisitas). Ini adalah
koreksi yang sama yang berfungsi untuk OLS yang dikumpulkan pada set data panel, yang kami
laporkan dalam Contoh 13.9. Sebagai contoh, Papke (1999) memperkirakan model probabilitas
linier untuk kelanjutan dari program pensiun manfaat pasti berdasarkan apakah perusahaan
mengadopsi program iuran pasti. Karena kemungkinan ada efek tegas yang menginduksi korelasi
antar rencana berbeda dalam perusahaan yang sama, Papke memperbaiki kesalahan standar OLS
yang biasa untuk pengambilan sampel kluster, serta untuk heteroskedastisitas dalam model
probabilitas linier
Sebelum mengakhiri bagian ini, ada beberapa komentar akhir. Mengingat alat yang tersedia efek
tetap, efek acak, dan inferensi standar cluster-kuat, tergoda untuk menemukan alasan untuk
menggunakan metode pengelompokan di mana tidak ada yang mungkin ada. Misalnya, jika satu
set data diperoleh dari sampel acak dari populasi, maka biasanya tidak ada alasan untuk
memperhitungkan efek cluster dalam menghitung kesalahan standar setelah estimasi OLS. Fakta
bahwa unit dapat dimasukkan ke dalam kelompok ex post — yaitu, setelah sampel acak
diperoleh — bukan alasan untuk membuat kesimpulan kuat terhadap korelasi cluster.
Untuk menggambarkan hal ini, anggaplah bahwa, dari populasi siswa kelas empat di
Amerika Serikat, sampel acak berjumlah 50.000 diperoleh, data ini dipelajari dengan benar
menggunakan metode standar untuk regresi cross-sectional. Mungkin tergoda untuk
mengelompokkan siswa dengan, katakanlah, 50 negara bagian ditambah District of Columbia —
dengan asumsi pengidentifikasi negara disertakan — dan kemudian memperlakukan data sebagai
sampel kelompok. Tetapi ini akan salah, dan mengelompokkan kesalahan standar di tingkat
negara bagian dapat menghasilkan kesalahan standar yang terlalu besar secara sistematis. Atau,
mereka mungkin terlalu kecil karena teori asimptotik yang mendasari sampling cluster
mengasumsikan bahwa kita memiliki banyak cluster dengan masing-masing ukuran cluster
relatif kecil. Bagaimanapun, eksperimen pemikiran sederhana menunjukkan bahwa
pengelompokan tidak dapat benar. Misalnya, jika kita mengetahui daerah tempat tinggal untuk
setiap siswa, mengapa tidak mengelompokkan di tingkat daerah? Atau, pada tingkat yang lebih
kasar, kita dapat membagi Amerika Serikat menjadi empat wilayah sensus dan memperlakukan
mereka sebagai kelompok — dan ini akan memberikan serangkaian kesalahan standar yang
berbeda (yang tidak memiliki justifikasi teoretis). Dengan mengambil argumen ini secara
ekstrem, orang dapat berargumentasi bahwa kita memiliki satu cluster: seluruh Amerika Serikat,
dalam hal ini kesalahan standar cluster tidak akan didefinisikan dan kesimpulan tidak mungkin.
Kebingungan muncul karena cluster didefinisikan ex post — yaitu, setelah sampel acak
diperoleh. Dalam sampel cluster yang benar, cluster pertama-tama diambil dari populasi cluster,
dan kemudian individu-individu diambil dari cluster.
Seseorang mungkin menggunakan metode pengelompokan jika, katakanlah, variabel
tingkat distrik dibuat setelah sampel acak dikumpulkan dan kemudian digunakan dalam
persamaan tingkat siswa. Ini dapat membuat korelasi cluster yang tidak teramati dalam setiap
kabupaten. Ingat bahwa estimator efek tetap (dalam hal ini, di tingkat kabupaten) sama dengan
menempatkan rata-rata tingkat kabupaten. Dengan demikian, orang mungkin ingin
memperhitungkan korelasi cluster di tingkat kabupaten di samping menggunakan efek tetap.
Seperti yang ditunjukkan oleh Stock dan Watson (2008) (dalam konteks data panel), dengan
ukuran cluster besar, korelasi cluster yang dihasilkan umumnya tidak penting, tetapi dengan
ukuran cluster kecil kita harus menggunakan kesalahan standar cluster-robust.