Anda di halaman 1dari 28

EKONOMETRIKA LANJUTAN

BAB 14
’’METODE DATA PANEL LANJUTAN’’

KELAS B1
DOSEN PENGAJAR
Drs. Sudarsana Arka, M.P.
Oleh :
KELOMPOK 2

Made Intan Prawitasari Cahyani (1707511112)


Ida Ayu Suci Indrayanti (1707511124)
Ni Putu Nita Anggreni (1707511126)
Tulus Bakti (1707511139)

EKONOMI PEMBANGUNAN
FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS UDAYANA
14-1 Estimasi Efek Tetap
Perbedaan pertama adalah salah satu dari banyak cara untuk menghilangkan efek tetap, a i.
Metode alternatif, yang bekerja lebih baik di bawah asumsi tertentu, disebut transformasi efek
tetap. Untuk melihat apa yang melibatkan metode ini, pertimbangkan model dengan satu variabel
penjelas tunggal: untuk setiap i,

Sekarang, untuk setiap i, rata-rata persamaan ini dari waktu ke waktu. Kita mendapatkan

dan seterusnya
Karena ai diperbaiki dari waktu ke waktu, ai muncul di (14.1) dan (14.2). Jika kita
mengurangi (14.2) dari (14.1) untuk setiap t, kita berakhir dengan

Atau

di mana ý it = y it − ý i adalah data yang direndahkan waktu pada y, dan juga untuk x́ it dan
úit itu. Transformasi efek tetap juga disebut transformasi di dalam. Hal penting tentang
persamaan (14.3) adalah bahwa efek yang tidak teramati, ai , telah menghilang. Ini
menunjukkan bahwa kita harus memperkirakan (14,3) dengan OLS yang dikumpulkan. Pengukur
OLS gabungan yang didasarkan pada variabel-variabel yang mengalami penurunan waktu
disebut penaksir efek tetap atau penaksir dalam. Nama terakhir berasal dari fakta bahwa OLS
pada (14.3) menggunakan variasi waktu dalam y dan x dalam setiap pengamatan cross-sectional.
Penaksir antara diperoleh sebagai penaksir OLS pada persamaan cross sectional (14.2) (di
mana kami menyertakan intersep, β0): kami menggunakan rata-rata waktu untuk y dan x dan
kemudian menjalankan regresi crosssectional. Kami tidak akan mempelajari antara penaksir
secara detail karena bias ketika ai berkorelasi dengan x i (lihat Masalah 2). Jika kita berpikir ai
tidak berkorelasi dengan x it , lebih baik menggunakan estimator efek acak, yang kita bahas
dalam Bagian 14-2. Perkiraan antara mengabaikan informasi penting tentang bagaimana variabel
berubah dari waktu ke waktu
Menambahkan lebih banyak variabel penjelas ke persamaan menyebabkan beberapa
perubahan. Model efek asli yang tidak teramati adalah

Kami hanya menggunakan time-demeaning pada setiap variabel penjelas — termasuk


hal-hal seperti dummies periode waktu — dan kemudian melakukan regresi OLS yang terkumpul
menggunakan semua variabel yang time-demeaned. Persamaan umum waktu-direndahkan untuk
setiap i adalah

yang kami perkirakan dengan OLS gabungan.


Di bawah asumsi eksogenitas yang ketat pada variabel penjelas, penaksir efek tetap tidak
bias: kira-kira, kesalahan kesalahan idiosinkratik harus tidak berkorelasi dengan masing-masing
variabel penjelas di semua periode waktu. (Lihat lampiran bab untuk pernyataan yang tepat dari
asumsi.) Estimator efek tetap memungkinkan untuk korelasi sewenang-wenang antara ai dan
variabel penjelas dalam periode waktu apa pun, seperti halnya dengan perbedaan pertama.
Karena itu, setiap variabel penjelas yang konstan sepanjang waktu untuk semua kami terhanyut
oleh transformasi efek tetap: x́ it =0 untuk semua i dan t, jika xit konstan di t. Oleh karena itu,
kami tidak dapat memasukkan variabel seperti jenis kelamin atau jarak kota dari sungai.
Asumsi lain yang diperlukan agar analisis OLS langsung menjadi valid adalah bahwa
kesalahannya homoskedastik dan tidak berkorelasi seri (lintas t); lihat lampiran untuk bab ini.
Ada satu titik halus dalam menentukan derajat kebebasan untuk estimator efek tetap. Ketika
kami memperkirakan persamaan time-demeaned (14.5) dengan pooled OLS, kami memiliki
pengamatan total NT dan k variabel independen. [Perhatikan bahwa tidak ada intersep dalam
(14.5); itu dihilangkan oleh transformasi efek tetap.] Oleh karena itu, kita seharusnya memiliki
kebebasan NT - k. Perhitungan ini salah. Untuk setiap pengamatan cross-sectional i, kami
kehilangan satu df karena penjadwalan waktu yang ditentukan. Dengan kata lain, untuk setiap i,
kesalahan yang direndahkan úit itu bertambah hingga nol ketika dijumlahkan di t, jadi kami
kehilangan satu derajat kebebasan. (Tidak ada batasan seperti pada kesalahan idiosinkratik asli
uit.) Oleh karena itu, derajat kebebasan yang sesuai adalah df = NT - N - k = N(T – 1) - k.
Untungnya, paket regresi modern yang memiliki fitur estimasi efek tetap menghitung dengan
benar df. Tetapi jika kita harus melakukan penurunan waktu dan estimasi dengan
menggabungkan OLS sendiri, kita perlu memperbaiki kesalahan standar dan menguji statistik.

Contoh 14.1 Pengaruh Pelatihan Kerja pada Perusahaan


Kami menggunakan data selama tiga tahun, 1987, 1988, dan 1989, di 54 perusahaan yang
melaporkan tingkat memo di setiap tahun. Tidak ada perusahaan yang menerima hibah
sebelum tahun 1988; pada tahun 1988, 19 perusahaan menerima hibah; pada tahun 1989, 10
perusahaan berbeda menerima hibah. Oleh karena itu, kita juga harus mengizinkan
kemungkinan bahwa pelatihan kerja tambahan pada tahun 1988 membuat pekerja lebih
produktif pada tahun 1989. Ini mudah dilakukan dengan memasukkan nilai lagged dari
indikator hibah. Kami juga memasukkan dummy tahun untuk 1988 dan 1989. Hasilnya
diberikan pada Tabel 14.1. Kami telah melaporkan hasilnya dengan cara yang menekankan
perlunya menginterpretasikan estimasi berdasarkan model efek yang tidak teramati, (14.4).
Kami secara eksplisit mengendalikan untuk efek timeconstant yang tidak teramati di ai. Time-
demeaning memungkinkan kita untuk memperkirakan bj, tetapi (14.5) bukan persamaan
terbaik untuk menafsirkan estimasi. Menariknya, perkiraan efek lagging dari hibah pelatihan
jauh lebih besar daripada efek kontemporer: pelatihan kerja memiliki efek setidaknya satu
tahun kemudian. Karena variabel dependen dalam bentuk logaritmik, memperoleh hibah pada
tahun 1988 diperkirakan akan menurunkan tingkat memo perusahaan pada tahun 1989 sekitar

34,4%
koefisien pada grant -1 signifikan pada tingkat 5% terhadap alternatif dua sisi. Koefisien dana
hibah signifikan pada tingkat 10%, dan ukuran koefisiennya hampir tidak sepele. Perhatikan
bahwa df diperoleh sebagai N (T - 1) - k = 54 (3 - 1) - 4 = 104.
Koefisien pada d89 menunjukkan bahwa tingkat memo secara substansial lebih rendah pada
tahun 1989 daripada tahun dasar, 1987, bahkan tanpa adanya hibah pelatihan kerja. Dengan
demikian, penting untuk memungkinkan efek agregat ini. Jika kita menghilangkan tahun
dummy, peningkatan sekuler dalam produktivitas pekerja akan dikaitkan dengan hibah
pelatihan kerja. Tabel 14.1 menunjukkan bahwa, bahkan setelah mengendalikan tren agregat
dalam produktivitas, hibah pelatihan kerja memiliki efek perkiraan yang besar
Akhirnya, sangat penting untuk memungkinkan efek tertinggal dalam model. Jika kita
menghilangkan grant -1, maka kita mengasumsikan bahwa pengaruh pelatihan kerja tidak
berlangsung hingga tahun berikutnya. Perkiraan hibah ketika kita menjatuhkan grant -1
adalah.-082 (t = -.65); ini jauh lebih kecil dan tidak signifikan secara statistik.

Ketika memperkirakan model efek yang tidak teramati oleh efek tetap, tidak jelas
bagaimana kita harus menghitung ukuran good-of-fit. R-kuadrat yang diberikan pada Tabel 14.1
didasarkan pada transformasi dalam: itu adalah R-kuadrat yang diperoleh dari estimasi (14.5).
Dengan demikian, ini ditafsirkan sebagai jumlah variasi waktu dalam yit yang dijelaskan oleh
variasi waktu dalam variabel penjelas. Cara lain untuk menghitung R-kuadrat adalah mungkin,
salah satunya akan kita bahas nanti.
Meskipun variabel waktu-konstan tidak dapat dimasukkan sendiri dalam model efek
tetap, mereka dapat berinteraksi dengan variabel yang berubah seiring waktu dan, khususnya,
dengan variabel dummy tahun. Misalnya, dalam persamaan upah di mana pendidikan konstan
dari waktu ke waktu untuk setiap individu dalam sampel kami, kami dapat berinteraksi
pendidikan dengan setiap tahun dummy untuk melihat bagaimana kembali ke pendidikan telah
berubah dari waktu ke waktu. Tetapi kita tidak dapat menggunakan efek tetap untuk
memperkirakan pengembalian ke pendidikan dalam periode dasar, yang berarti kita tidak dapat
memperkirakan pengembalian ke pendidikan dalam periode apa pun; kita hanya dapat melihat
bagaimana pengembalian pendidikan setiap tahun berbeda dari periode dasar. Bagian 14-3
menjelaskan pendekatan yang memungkinkan koefisien pada variabel konstan waktu untuk
diperkirakan sambil menjaga sifat efek tetap dari analisis.
Ketika kita memasukkan set lengkap tahun dummy - yaitu, tahun dummy untuk semua
tahun tetapi yang pertama - kita tidak dapat memperkirakan efek dari variabel apa pun yang
perubahan lintas waktunya konstan. Contohnya adalah pengalaman bertahun-tahun dalam
kumpulan data panel di mana setiap orang bekerja di setiap tahun, sehingga pengalaman selalu
meningkat satu di setiap tahun, untuk setiap orang dalam sampel. Kehadiran ai menyumbang
perbedaan di antara orang-orang di tahun pengalaman mereka pada periode waktu awal. Tetapi
kemudian efek peningkatan pengalaman satu tahun tidak dapat dibedakan dari efek waktu
agregat (karena pengalaman meningkat dengan jumlah yang sama untuk semua orang). Ini juga
akan berlaku jika, sebagai ganti dummy tahun terpisah, kami menggunakan tren waktu linier:
untuk setiap orang, pengalaman tidak dapat dibedakan dari tren linier.
Contoh 14.2 Apakah pengembalian pendidikan berubah dari waktu ke waktu?
Data dalam WAGEPAN berasal dari Vella dan Verbeek (1998). Masing-masing dari 545 laki-
laki dalam sampel bekerja di setiap tahun dari tahun 1980 hingga 1987. Beberapa variabel
dalam kumpulan data berubah seiring waktu: pengalaman, status perkawinan, dan status
serikat adalah tiga yang penting. Variabel lain tidak berubah: ras dan pendidikan adalah contoh
utama. Jika kita menggunakan efek tetap (atau perbedaan pertama), kita tidak bisa
memasukkan ras, pendidikan, atau pengalaman dalam persamaan. Namun, kita dapat
memasukkan interaksi pendidikan dengan dummy tahun untuk 1981 hingga 1987 untuk
menguji apakah pengembalian ke pendidikan konstan selama periode waktu ini. Kami
menggunakan log (upah atau wage) sebagai variabel dependen, variabel dummy untuk status
perkawinan dan serikat pekerja, serangkaian tahun penuh dummy, dan istilah interaksi
Perkiraan pada istilah interaksi ini semuanya positif, dan mereka umumnya menjadi lebih
besar untuk beberapa tahun terakhir. Koefisien terbesar 0,030 adalah pada pendidikan d87 #,
dengan t = 2,48. Dengan kata lain, pengembalian pendidikan diperkirakan sekitar 3 poin
persentase lebih besar pada tahun 1987 daripada tahun dasar, 1980. (Kami tidak memiliki
perkiraan pengembalian pendidikan pada tahun dasar karena alasan yang diberikan
sebelumnya.) Istilah interaksi signifikan lainnya adalah d86educ.
Estimasi pada tahun-tahun sebelumnya lebih kecil dan tidak signifikan pada tingkat 5%
terhadap alternatif dua sisi. Jika kita melakukan uji F bersama untuk signifikansi dari ketujuh
istilah interaksi, kita mendapatkan p-value = 0,28: ini memberikan contoh di mana satu set
variabel secara bersama tidak signifikan meskipun beberapa variabel secara individual
signifikan. Secara umum, hasilnya konsisten dengan peningkatan pengembalian pendidikan
selama periode ini.

14-1a Regresi Variabel Dummy


Pandangan tradisional dari pendekatan efek tetap adalah mengasumsikan bahwa efek
yang tidak teramati, ai, adalah parameter yang diperkirakan untuk setiap i. Jadi, dalam persamaan
(14.4), ai adalah intersep untuk orang i (atau perusahaan i, kota i, dan sebagainya) yang harus
diperkirakan bersama dengan βj. (Jelas, kita tidak bisa melakukan ini dengan satu bagian
melintang: akan ada parameter N + k untuk diestimasi dengan hanya pengamatan N. Kita
membutuhkan setidaknya dua periode waktu.) Cara kita memperkirakan intersep untuk setiap i
adalah dengan memasukkan variabel dummy untuk setiap pengamatan cross-sectional, bersama
dengan variabel penjelas (dan mungkin variabel dummy untuk setiap periode waktu). Metode ini
biasa disebut regresi variabel dummy. Bahkan ketika N tidak terlalu besar (katakanlah, N= 54
seperti dalam Contoh 14.1), ini menghasilkan banyak variabel penjelas — dalam banyak kasus,
terlalu banyak untuk secara eksplisit melakukan regresi. Dengan demikian, metode variabel
dummy tidak terlalu praktis untuk set data panel dengan banyak pengamatan cross-sectional.
Namun demikian, regresi variabel dummy memiliki beberapa fitur menarik. Yang paling penting,
ini memberi kita perkiraan yang persis sama dari βj yang akan kita peroleh dari regresi pada data
dengan waktu yang ditentukan, dan kesalahan standar dan statistik utama lainnya identik. Oleh
karena itu, estimator efek tetap dapat diperoleh dengan regresi variabel dummy. Salah satu
manfaat dari regresi variabel dummy adalah bahwa ia secara tepat menghitung derajat kebebasan
secara langsung. Ini adalah keuntungan kecil sekarang karena banyak paket ekonometrik telah
memprogram opsi efek tetap.
R-kuadrat dari regresi variabel dummy biasanya agak tinggi. Ini terjadi karena kami
menyertakan variabel dummy untuk setiap unit cross-sectional, yang menjelaskan banyak variasi
dalam data. Sebagai contoh, jika kita memperkirakan model efek yang tidak teramati dalam
Contoh 13.8 dengan efek tetap menggunakan regresi variabel dummy (yang dimungkinkan
dengan N = 22), maka R2 =.933. Kita seharusnya tidak terlalu bersemangat tentang R-kuadrat
besar ini: itu tidak mengherankan bahwa kita dapat menjelaskan banyak variasi dalam klaim
pengangguran menggunakan tahun dan kota dummy. Seperti dalam Contoh 13.8, estimasi pada
variabel dummy EZ lebih penting daripada R2.
R-kuadrat dari regresi variabel dummy dapat digunakan untuk menghitung tes F dengan
cara biasa, dengan asumsi, tentu saja, asumsi asumsi model linear klasik (lihat bab lampiran).
Secara khusus, kita dapat menguji signifikansi bersama dari semua dummy cross-sectional (N -
1, karena satu unit dipilih sebagai kelompok dasar). R-kuadrat yang tidak dibatasi diperoleh dari
regresi dengan semua dummy cross-sectional; R-kuadrat yang dibatasi menghilangkan ini. Pada
sebagian besar aplikasi, variabel dummy akan secara signifikan signifikan.
Kadang-kadang, perkiraan intersep, katakanlah, menarik. Ini adalah kasus jika kita ingin
mempelajari distribusi a^ i di i, atau jika kita ingin memilih perusahaan atau kota tertentu untuk
melihat apakah a^ i di atas atau di bawah nilai rata-rata dalam sampel. Perkiraan ini tersedia
langsung dari regresi variabel dummy, tetapi jarang dilaporkan oleh paket yang memiliki efek
rutin tetap (karena alasan praktis bahwa ada begitu banyak a). Setelah estimasi efek tetap dengan
N dalam berbagai ukuran, a^ i cukup mudah untuk dihitung:

di mana overbar mengacu pada rata-rata waktu dan ^β j adalah perkiraan efek tetap. Sebagai
contoh, jika kita telah memperkirakan suatu model kejahatan sambil mengendalikan berbagai
faktor yang bervariasi waktu, kita dapat memperoleh a^ i suatu kota untuk melihat apakah efek
tetap yang tidak teramati yang berkontribusi terhadap kejahatan berada di atas atau di bawah
rata-rata.
Beberapa paket ekonometrik yang mendukung estimasi efek tetap melaporkan
"intersepsi", yang dapat menyebabkan kebingungan mengingat klaim kami sebelumnya bahwa
penurunan waktu menghilangkan semua variabel waktu-konstan, termasuk intersep keseluruhan.
[Lihat persamaan (14.5).] Melaporkan estimasi intersep dalam efek tetap (FE) secara
keseluruhan muncul dari melihat ai sebagai parameter untuk memperkirakan. Biasanya, intersep
yang dilaporkan adalah rata-rata melintasi i dari a^ i . Dengan kata lain, keseluruhan intersep
sebenarnya adalah rata-rata dari intersep spesifik individu, yang merupakan penduga yang tidak
bias dan konsisten dari α =E( a^ i) .
Dalam sebagian besar studi, ^β j menarik, dan persamaan waktu yang direndahkan

digunakan untuk mendapatkan estimasi ini. Lebih lanjut, biasanya terbaik untuk melihat ai
sebagai variabel yang dihilangkan yang kita kontrol melalui transformasi dalam. Perasaan di
mana ai dapat diperkirakan umumnya lemah. Faktanya, meskipun a^ i tidak bias (berdasarkan
Asumsi FE.1 hingga FE.4 dalam bab lampiran), ia tidak konsisten dengan T tetap seperti N 
∞ Alasannya adalah, saat kami menambahkan setiap pengamatan crosssectional tambahan,
kami menambahkan ai baru. Tidak ada informasi yang terakumulasi pada setiap ai ketika T
diperbaiki. Dengan T yang lebih besar, kita bisa mendapatkan estimasi ai yang lebih baik,
tetapi sebagian besar set data panel adalah dari variasi N besar dan T kecil.
14-1b Efek Tetap atau Perbedaan Pertama?
Sejauh ini, selain OLS yang terkumpul, kami telah melihat dua metode yang bersaing
untuk memperkirakan model efek yang tidak teramati. Yang satu melibatkan perbedaan data, dan
yang lainnya melibatkan penurunan waktu. Bagaimana kita tahu yang mana yang harus
digunakan?
Kami dapat menghilangkan satu kasus dengan segera: ketika T = 2, perkiraan FE dan FD, serta
semua statistik pengujian, adalah identik, dan karenanya tidak masalah yang kami gunakan.
Tentu saja, kesetaraan antara perkiraan FE dan FD mengharuskan kami memperkirakan model
yang sama dalam setiap kasus. Secara khusus, seperti yang kita diskusikan di Bab 13, adalah
wajar untuk memasukkan intersep dalam persamaan FD; intersep ini sebenarnya adalah intersep
untuk periode waktu kedua dalam model asli yang ditulis untuk dua periode waktu. Oleh karena
itu, estimasi FE harus menyertakan variabel dummy untuk periode waktu kedua agar identik
dengan estimasi FD yang mencakup intersep.
Dengan T = 2, FD memiliki keuntungan untuk langsung diimplementasikan dalam setiap
paket ekonometrik atau statistik yang mendukung manipulasi data dasar, dan mudah untuk
menghitung statistik heteroskedastisitas mikro setelah estimasi FD (karena ketika T = 2, estimasi
FD hanyalah sebuah salib Regresi sectional).
Ketika T ≥ 3, penaksir FE dan FD tidak sama. Karena keduanya tidak bias berdasarkan Asumsi
FE.1 hingga FE.4, kami tidak dapat menggunakan ketidakberpihakan sebagai kriteria.
Selanjutnya, keduanya konsisten (dengan T tetap sebagai N  ∞ ) di bawah FE.1 hingga
FE.4. Untuk T besar dan T kecil, pilihan antara FE dan FD bergantung pada efisiensi relatif dari
estimator, dan ini ditentukan oleh korelasi serial dalam kesalahan idiosinkrasi, u it. (Kami akan
menganggap homoskedastisitas uit, karena perbandingan efisiensi memerlukan kesalahan
homoskedastik.)
Ketika uit secara seri tidak berkorelasi, efek tetap lebih efisien daripada perbedaan
pertama (dan kesalahan standar yang dilaporkan dari efek tetap valid). Karena model efek yang
tidak teramati biasanya dinyatakan (kadang-kadang hanya secara implisit) dengan kesalahan
istimewa yang tidak berkorelasi seri, penduga FE digunakan lebih dari penduga FD. Tetapi kita
harus ingat bahwa anggapan ini bisa salah. Dalam banyak aplikasi, kita dapat mengharapkan
faktor-faktor yang tidak teramati yang berubah dari waktu ke waktu berkorelasi seri. Jika uit
mengikuti jalan acak — yang berarti ada korelasi serial yang sangat substansial dan positif —
maka perbedaan Δuit tidak berkorelasi seri, dan perbedaan pertama lebih baik. Dalam banyak
kasus, uit menunjukkan beberapa korelasi serial positif, tetapi mungkin tidak sebanyak jalan acak.
Kemudian, kita tidak dapat dengan mudah membandingkan efisiensi penaksir FE dan FD.
Sulit untuk menguji apakah uit secara seri tidak berkorelasi setelah estimasi FE: kita dapat
memperkirakan kesalahan yang mengalami penurunan waktu, ú it itu, tetapi bukan uit. Namun,
dalam Bagian 13-3, kami menunjukkan bagaimana menguji apakah kesalahan yang dibedakan,
Duit, secara seri tidak berkorelasi. Jika ini masalahnya, FD dapat digunakan. Jika ada korelasi
serial negatif yang substansial dalam Δuit, FE mungkin lebih baik. Sering kali merupakan ide
yang baik un tuk mencoba keduanya: jika hasilnya tidak sensitif, jauh lebih baik.
Ketika T besar, dan terutama ketika N tidak terlalu besar (misalnya, N=20 dan T=30), kita
harus berhati-hati dalam menggunakan estimator efek tetap. Meskipun hasil distribusi yang tepat
berlaku untuk setiap N dan T di bawah asumsi efek tetap klasik, kesimpulan bisa sangat sensitif
terhadap pelanggaran asumsi ketika N kecil dan T besar. Khususnya, jika kita menggunakan
proses root unit - lihat Bab 11 - masalah regresi palsu dapat muncul. Perbedaan pertama
memiliki keuntungan mengubah proses deret waktu terintegrasi menjadi proses yang sangat
tergantung. Oleh karena itu, jika kita menerapkan pembedaan pertama, kita dapat mengajukan
banding ke teorema batas pusat bahkan dalam kasus di mana T lebih besar dari N. Normalitas
dalam kesalahan idiosinkratik tidak diperlukan, dan heteroskedastisitas dan korelasi serial dapat
diatasi seperti yang kita bahas pada Bab ini. 13. Inferensi dengan estimator efek tetap berpotensi
lebih sensitif terhadap nonnormalitas, heteroskedastisitas, dan korelasi serial dalam kesalahan
istimewa
Seperti penduga perbedaan pertama, penduga efek tetap bisa sangat sensitif terhadap
kesalahan pengukuran klasik dalam satu atau lebih variabel penjelas. Namun, jika setiap x itj tidak
berkorelasi dengan uit, tetapi asumsi eksogenitas yang ketat dilanggar sebaliknya - misalnya,
variabel dependen lagged dimasukkan di antara para regressor atau ada umpan balik antara u it
dan hasil masa depan dari variabel penjelas - maka estimasi FE kemungkinan memiliki bias yang
jauh lebih kecil daripada estimator FD (kecuali T = 2). Fakta teoritis yang penting adalah bahwa
bias dalam estimator FD tidak tergantung pada T, sedangkan untuk estimator FE cenderung nol
pada laju 1 / T. Lihat Wooldridge (2010, Bagian 10-7) untuk detailnya. Secara umum, sulit untuk
memilih antara FE dan FD ketika mereka memberikan hasil yang berbeda secara substansial.
Masuk akal untuk melaporkan kedua set hasil dan mencoba menentukan mengapa keduanya
berbeda.
14-1c Efek Tetap dengan Panel Tidak Seimbang
Beberapa set data panel, terutama pada individu atau perusahaan, telah kehilangan tahun
untuk setidaknya beberapa unit crosssectional dalam sampel. Dalam hal ini, kami menyebut data
set panel tidak seimbang. Mekanisme estimasi efek tetap dengan panel tidak seimbang tidak jauh
lebih sulit daripada dengan panel seimbang. Jika T i adalah jumlah periode waktu untuk unit
cross-sectional i, kita cukup menggunakan pengamatan T i ini dalam melakukan penurunan-

waktu. Jumlah total pengamatan adalah . Seperti dalam kasus seimbang,


satu derajat kebebasan hilang untuk setiap pengamatan cross-sectional karena waktu-
merendahkan. Setiap paket regresi yang melakukan efek tetap membuat penyesuaian yang tepat
untuk kerugian ini. Regresi variabel dummy juga berjalan dengan cara yang persis sama dengan
panel seimbang, dan df diperoleh dengan tepat.
Sangat mudah untuk melihat bahwa unit yang kita hanya memiliki periode waktu tunggal tidak
memainkan peran dalam analisis efek tetap. Waktu yang merendahkan untuk pengamatan seperti
itu menghasilkan semua nol, yang tidak digunakan dalam estimasi.
Masalah yang lebih sulit dengan panel tidak seimbang adalah menentukan mengapa panel
tidak seimbang. Dengan kota dan negara bagian, misalnya, data pada variabel-variabel utama
terkadang hilang untuk tahun-tahun tertentu. Asalkan alasan kami memiliki data yang hilang
untuk beberapa i tidak berkorelasi dengan kesalahan istimewa, karena, panel tidak seimbang
tidak menyebabkan masalah. Ketika kita memiliki data tentang individu, keluarga, atau
perusahaan, segalanya menjadi lebih rumit. Bayangkan, misalnya, bahwa kita memperoleh
sampel acak dari perusahaan manufaktur pada tahun 1990, dan kami tertarik untuk menguji
bagaimana serikat pekerja mempengaruhi profitabilitas perusahaan. Idealnya, kita dapat
menggunakan analisis data panel untuk mengontrol karakteristik pekerja dan manajemen yang
tidak teramati yang memengaruhi profitabilitas dan mungkin juga berkorelasi dengan fraksi
tenaga kerja perusahaan yang tergabung dalam serikat pekerja. Jika kami mengumpulkan data
lagi di tahun-tahun berikutnya, beberapa perusahaan mungkin akan hilang karena mereka keluar
dari bisnis atau bergabung dengan perusahaan lain. Jika demikian, kami mungkin memiliki
sampel nonrandom dalam periode waktu berikutnya. Pertanyaannya adalah: Jika kita
menerapkan efek tetap pada panel yang tidak seimbang, kapan penaksirnya tidak bias (atau
paling tidak konsisten)? Jika alasan perusahaan meninggalkan sampel (disebut gesekan)
berkorelasi dengan kesalahan idiosinkratik — faktor-faktor yang tidak teramati yang berubah
seiring waktu dan memengaruhi laba — maka masalah bagian sampel yang dihasilkan (lihat Bab
9) dapat menyebabkan penaksir yang bias. Ini adalah pertimbangan serius dalam contoh ini.
Namun demikian, satu hal yang berguna tentang analisis efek tetap adalah bahwa hal itu
memungkinkan gesekan untuk dikorelasikan dengan ai, efek yang tidak teramati. Idenya adalah
bahwa, dengan pengambilan sampel awal, beberapa unit lebih mungkin untuk keluar dari survei,
dan ini ditangkap oleh ai.
Contoh 14-3
Contoh 14.3 Pengaruh Pelatihan Kerja pada Tingkat Perusahaan
Kami menambahkan dua variabel ke dalam analisis pada Tabel 14.1: log(sales it) dan
log(employit ), di mana penjualan adalah penjualan perusahaan tahunan dan mempekerjakan
adalah jumlah karyawan. Tiga dari 54 perusahaan keluar dari analisis sepenuhnya karena
mereka tidak memiliki data penjualan atau pekerjaan. Lima pengamatan tambahan hilang
karena data yang hilang pada satu atau kedua variabel ini selama beberapa tahun,
meninggalkan kita dengan n 5 148. Menggunakan efek tetap pada panel tidak seimbang tidak
mengubah cerita dasar, meskipun efek hibah diperkirakan semakin besar:

Memecahkan masalah gesekan umum dalam data panel adalah rumit dan di luar cakupan teks
ini. [Lihat, misalnya, Wooldridge (2010, Bab 19).]
14-2 Model Efek Acak
Kami mulai dengan model efek yang tidak teramati yang sama seperti sebelumnya,

di mana kita secara eksplisit memasukkan intersep sehingga kita dapat membuat asumsi bahwa
efek yang tidak teramati, ai, memiliki rata-rata nol (tanpa kehilangan sifat umum). Kami biasanya
akan mengizinkan waktu dummy di antara variabel penjelas juga. Dalam menggunakan efek
tetap atau perbedaan pertama, tujuannya adalah untuk menghilangkan ai karena dianggap
berkorelasi dengan satu atau lebih dari x itj. Tapi anggaplah kita berpikir ai tidak berkorelasi
dengan masing-masing variabel penjelas dalam semua periode waktu. Kemudian, menggunakan
transformasi untuk menghilangkan ai menghasilkan estimator yang tidak efisien.
Persamaan (14.7) menjadi model efek acak ketika kita mengasumsikan bahwa efek tidak
teramati ai tidak berkorelasi dengan masing-masing variabel penjelas:

Pada kenyataannya, asumsi efek acak yang ideal mencakup semua asumsi efek tetap
ditambah persyaratan tambahan bahwa ai tidak tergantung pada semua variabel penjelas dalam
semua periode waktu. (Lihat lampiran bab untuk asumsi aktual yang digunakan.) Jika kita
berpikir efek yang tidak teramati ai berkorelasi dengan variabel penjelas, kita harus
menggunakan efek pembeda pertama atau tetap.
Di bawah (14.8) dan bersama dengan asumsi efek acak, bagaimana seharusnya kita
memperkirakan β j ? Penting untuk melihat bahwa, jika kami percaya bahwa a i tidak
berkorelasi dengan variabel penjelas, βj dapat secara konsisten diestimasi dengan
menggunakan cross sectional tunggal: tidak ada kebutuhan untuk data panel sama sekali. Tetapi
menggunakan cross sectional tunggal mengabaikan banyak informasi berguna di periode waktu
lain. Kita juga dapat menggunakan data dalam prosedur OLS yang dikumpulkan: jalankan saja
OLS yit pada variabel penjelas dan mungkin dummies waktu. Ini, juga, menghasilkan penduga
yang konsisten dari β j di bawah asumsi efek acak. Tetapi mengabaikan fitur utama dari

model. Jika kita mendefinisikan istilah kesalahan komposit sebagai , maka


(14.7) dapat ditulis sebagai

Karena ai berada dalam kesalahan komposit dalam setiap periode waktu, v it dihubungkan secara
serial sepanjang waktu. Bahkan, di bawah asumsi efek acak,

Dimana
Ini (tentu) korelasi serial positif dalam istilah kesalahan bisa sangat besar, dan, karena
kesalahan standar OLS yang biasa mengabaikan korelasi ini, mereka akan salah, seperti halnya
statistik uji biasa. Dalam Bab 12, kami menunjukkan bagaimana kuadrat terkecil umum dapat
digunakan untuk memperkirakan model dengan korelasi serial autoregresif. Kita juga dapat
menggunakan GLS untuk menyelesaikan masalah korelasi serial di sini. Agar prosedur memiliki
sifat yang baik, kita harus memiliki N besar dan T. relatif kecil. Kita berasumsi bahwa kita
memiliki panel yang seimbang, meskipun metode ini dapat diperluas ke panel yang tidak
seimbang. Turunnya transformasi GLS yang menghilangkan korelasi serial dalam kesalahan
memerlukan aljabar matriks yang canggih [lihat, misalnya, Wooldridge (2010, Bab 10)]. Tetapi
transformasi itu sendiri sederhana. Menetapkan

yaitu antara nol dan satu. Kemudian, persamaan yang diubah ternyata

di mana overbar lagi menunjukkan rata-rata waktu. Ini adalah persamaan yang sangat menarik,
karena melibatkan data quasi-demeaned pada setiap variabel. Estimator efek tetap mengurangi
rata-rata waktu dari variabel yang sesuai. Transformasi efek acak mengurangi sebagian kecil dari

rata-rata waktu itu, di mana fraksi tergantung dan jumlah periode waktu, T. Estimator
GLS hanyalah penduga persamaan OLS yang terkumpul (14.11). Hampir tidak jelas bahwa
kesalahan dalam (14.11) secara seri tidak berkorelasi, tetapi memang demikian. (Lihat Masalah
3.)
Transformasi dalam (14.11) memungkinkan untuk variabel penjelas yang konstan dari
waktu ke waktu, dan ini adalah salah satu keuntungan dari efek acak (RE) baik efek tetap atau
perbedaan pertama. Hal ini dimungkinkan karena RE mengasumsikan bahwa efek yang tidak
teramati tidak berkorelasi dengan semua variabel penjelas, baik variabel penjelas tetap dari
waktu ke waktu atau tidak. Jadi, dalam persamaan upah, kita bisa memasukkan variabel seperti
pendidikan bahkan jika itu tidak berubah seiring waktu. Tetapi kami berasumsi bahwa
pendidikan tidak berkorelasi dengan ai , yang berisi kemampuan dan latar belakang keluarga.
Dalam banyak aplikasi, alasan keseluruhan untuk menggunakan data panel adalah untuk
memungkinkan efek yang tidak teramati berkorelasi dengan variabel penjelas.
Parameter θ tidak pernah dikenal dalam praktiknya, tetapi selalu dapat diperkirakan. Ada
beberapa cara untuk melakukan ini, yang mungkin didasarkan pada kumpulan OLS atau efek
tetap, misalnya. Umumnya θ^ mengambil bentuk

Estimator ini dapat didasarkan pada OLS gabungan atau residu efek tetap. Satu kemungkinan
adalah itu

dimana adalah residu dari estimasi (14.9) oleh OLS yang dikumpulkan. Dengan ini, kita

bisa memperkirakan dengan menggunakan


adalah kuadrat dari kesalahan standar yang biasa dari regresi dari OLS dikumpulkan. [Lihat
Wooldridge (2010, Bab 10) untuk pembahasan tambahan dari penaksir ini.]
Banyak paket ekonometrik mendukung estimasi model efek acak dan secara otomatis
menghitung beberapa versi θ^ Estimator GLS yang layak yang menggunakan θ^ di tempat
θ disebut estimator efek acak. Di bawah asumsi efek acak dalam lampiran bab, estimatornya
konsisten (tidak bias) dan secara asimptotik terdistribusi normal ketika N menjadi besar dengan
tetap T. Properti penduga efek acak (RE) dengan N kecil dan T besar sebagian besar tidak
diketahui, meskipun sudah pasti digunakan dalam situasi seperti itu.
14-2a Efek Acak atau Efek Tetap?
Karena efek tetap memungkinkan korelasi sewenang-wenang antara ai dan xitj,
sementara efek acak tidak, FE secara luas dianggap sebagai alat yang lebih meyakinkan untuk
memperkirakan efek ceteris paribus. Namun, efek acak diterapkan dalam situasi tertentu. Paling
jelas, jika variabel penjelas kunci adalah konstan dari waktu ke waktu, kita tidak dapat
menggunakan FE untuk memperkirakan efeknya pada y. Sebagai contoh, pada Tabel 14.2, kita
harus bergantung pada perkiraan RE (atau gabungan OLS) dari pengembalian ke pendidikan.
Tentu saja, kita hanya dapat menggunakan efek acak karena kita bersedia mengasumsikan bahwa
efek yang tidak teramati tidak berkorelasi dengan semua variabel penjelas. Biasanya, jika
seseorang menggunakan efek acak, sebanyak mungkin kontrol konstan waktu dimasukkan di
antara variabel penjelas. (Dengan analisis FE, tidak perlu menyertakan kontrol seperti itu.) RE
lebih disukai daripada OLS yang dikumpulkan karena RE umumnya lebih efisien
Masih cukup umum untuk melihat para peneliti menerapkan kedua efek acak dan efek
tetap, dan kemudian secara formal menguji perbedaan yang signifikan secara statistik dalam
koefisien pada variabel penjelas yang bervariasi waktu. (Jadi, dalam Tabel 14.2, ini akan menjadi
koefisien pada exper2, menikah, dan serikat pekerja.) Hausman (1978) pertama kali
mengusulkan tes seperti itu, dan beberapa paket ekonometrik secara rutin menghitung uji
Hausman di bawah serangkaian asumsi efek acak yang tercantum dalam lampiran untuk bab ini.
Idenya adalah bahwa seseorang menggunakan perkiraan efek acak kecuali jika tes Hausman
menolak (14,8). Dalam praktiknya, kegagalan untuk menolak berarti bahwa estimasi RE dan FE
cukup dekat sehingga tidak masalah yang digunakan, atau variasi pengambilan sampel begitu
besar dalam estimasi FE sehingga orang tidak dapat menyimpulkan perbedaan praktis yang
signifikan secara statistik signifikan. Dalam kasus terakhir, orang bertanya-tanya apakah ada
informasi yang cukup dalam data untuk memberikan perkiraan yang tepat dari koefisien.
Penolakan menggunakan tes Hausman diambil untuk berarti bahwa asumsi RE kunci, (14,8),
adalah salah, dan kemudian estimasi FE digunakan. (Secara alami, seperti dalam semua aplikasi
inferensi statistik, seseorang harus membedakan antara perbedaan yang praktis signifikan dan
perbedaan yang signifikan secara statistik.) Wooldridge (2010, Bab 10) berisi diskusi lebih
lanjut. Pada bagian selanjutnya kita membahas alternatif, pendekatan yang lebih sederhana
secara komputasional untuk memilih antara pendekatan RE dan FE.
Kata terakhir dari kehati-hatian. Dalam membaca karya empiris, Anda mungkin
menemukan bahwa beberapa penulis memutuskan estimasi FE versus RE berdasarkan pada
apakah ai dipandang dengan benar sebagai parameter untuk diestimasi atau sebagai variabel
acak. Pertimbangan seperti itu biasanya salah arah. Dalam bab ini, kami telah memperlakukan ai
sebagai variabel acak dalam model efek yang tidak teramati (14.7), terlepas dari bagaimana kami
memutuskan untuk memperkirakan βj. Seperti yang telah kami tekankan, masalah utama yang
menentukan apakah kami menggunakan FE atau RE adalah apakah kami dapat mengasumsikan
ai tidak berkorelasi dengan semua xitj. Namun demikian, dalam beberapa aplikasi metode data
panel, kami tidak dapat memperlakukan sampel kami sebagai sampel acak dari populasi besar,
terutama ketika unit pengamatan adalah unit geografis yang besar (katakanlah, negara bagian
atau provinsi). Kemudian, sering kali masuk akal untuk menganggap masing-masing ai sebagai
intersep terpisah untuk memperkirakan setiap unit cross-sectional. Dalam hal ini, kami
menggunakan efek tetap: ingat, menggunakan FE secara mekanis sama dengan memungkinkan
intersep yang berbeda untuk setiap unit cross-sectional. Untungnya, terlepas dari apakah kita
terlibat dalam perdebatan filosofis tentang sifat ai, FE hampir selalu jauh lebih meyakinkan
daripada RE untuk analisis kebijakan menggunakan data agregat.
14-3 Pendekatan Efek Acak Yang Berhubungan
Dalam aplikasi di mana masuk akal untuk melihat ai (efek yang tidak teramati)
sebagai variabel acak, bersama dengan variabel yang diamati kami menggambar, ada alternatif
untuk efek tetap yang masih memungkinkan ai untuk berkorelasi dengan variabel penjelas yang
diamati. Untuk menggambarkan pendekatan, pertimbangkan kembali model sederhana dalam
persamaan (14.1), dengan variabel penjelas tunggal, xit yang bervariasi waktu. Daripada

ai
menganggap tidak berkorelasi dengan — yang merupakan
pendekatan efek acak — atau mengambil rata-rata waktu untuk menghapus a i — pendekatan
efek tetap — kita mungkin memodelkan korelasi antara a i dan .
Karena ai, menurut definisi, konstan dari waktu ke waktu, yang memungkinkannya berkorelasi
dengan tingkat rata-rata xit memiliki daya tarik tertentu. Lebih khusus, biarkan

menjadi rata-rata waktu, seperti sebelumnya. Misalkan kita


menganggap hubungan linier sederhana

di mana kita menganggap ri tidak berkorelasi dengan masing-masing x it. Karena xi adalah fungsi
linear dari xit,

Persamaan (14.12) dan (14.13) menyiratkan bahwa ai dan xi berkorelasi setiap kali γ ≠ 0
Pendekatan efek acak terkorelasi (CRE) menggunakan (14.12) dalam hubungannya dengan
(14.1): menggantikan yang pertama dalam yang terakhir memberikan

Persamaan (14.14) menarik karena masih memiliki istilah kesalahan komposit, r i + uit, yang
terdiri dari ri waktu yang tidak dapat diobservasi dan guncangan istimewa, uit. Yang penting,
asumsi (14,8) berlaku ketika kita mengganti ai dengan ri. Juga, karena uit diasumsikan tidak
berkorelasi dengan xis, semua s dan t, uit juga tidak berkorelasi dengan xxi. Semua asumsi ini
menambahkan hingga perkiraan efek acak dari persamaan

yang seperti persamaan biasa yang mendasari estimasi RE dengan penambahan penting dari
variabel waktu rata-rata, xxi. Ini adalah penambahan xi yang mengontrol korelasi antara ai dan

urutan Apa yang tersisa, ri, tidak berkorelasi dengan xit.


Dalam sebagian besar paket ekonometrik, penghitungan waktu rata-rata unit-unit mudah
dilakukan, xi. Dengan asumsi kita telah melakukan itu untuk setiap unit cross-sectional i, apa
yang dapat kita harapkan terjadi jika kita menerapkan RE ke persamaan (14.15)? Perhatikan
bahwa estimasi (14.15) memberikan aCRE , β^ CRE , γ^ CRE — penaksir CRE.
Untuk ^β CRE, , jawabannya agak antiklimaks. Itu dapat ditunjukkan — lihat, misalnya,

Wooldridge (2010, Bab 10) —yang

di mana ^β FE , menunjukkan estimator FE dari persamaan (14.3). Dengan kata lain,


menambahkan rata-rata waktu x i dan menggunakan efek acak adalah sama dengan
mengurangi rata-rata waktu dan menggunakan OLS gabungan.
Meskipun (14.15) tidak diperlukan untuk mendapatkan ^β FE , ekuivalensi dari estimasi CRE
dan FE dari β memberikan interpretasi FE yang bagus: ia mengontrol tingkat rata-rata, xi ,
ketika mengukur efek parsial dari x it pada y it . Sebagai contoh, anggaplah x it adalah tarif

pajak atas laba perusahaan di provinsi i pada tahun t, dan y it adalah beberapa ukuran output
ekonomi tingkat county. Dengan memasukkan x i , tarif pajak rata-rata di provinsi selama T
tahun, kami memungkinkan untuk perbedaan sistematis antara negara-negara yang memiliki
pajak tinggi dan pajak rendah secara historis — perbedaan yang juga dapat mempengaruhi hasil
ekonomi
Kita juga dapat menggunakan persamaan (14.15) untuk melihat mengapa penaksir FE
seringkali jauh kurang tepat daripada penaksir RE. Jika kita menetapkan γ =0 dalam

persamaan (14.15) maka kita memperoleh estimator RE β, ^β . Ini berarti bahwa korelasi
ℜ,

antara x it dan x i tidak berpengaruh pada varians dari estimator RE. Sebaliknya, kita tahu
dari analisis regresi berganda pada Bab 3 bahwa korelasi antara x it dan xi — yaitu

multikolinieritas — dapat menghasilkan varian yang lebih tinggi untuk ^β FE , . Kadang-kadang

varians jauh lebih tinggi, terutama ketika ada sedikit variasi dalam x it di t, di mana kasus
x it dan x i cenderung sangat berkorelasi (positif). Dalam kasus pembatas di mana tidak ada
variasi lintas waktu untuk i, korelasinya sempurna — dan FE gagal memberikan perkiraan b.
pendekatan CRE menyediakan cara formal dan sederhana untuk memilih antara pendekatan FE
dan RE. Seperti yang baru saja kita diskusikan, pendekatan RE menetapkan γ =0 sementara
FE memperkirakan γ . Karena kita memiliki γ^ CRE , . dan kesalahan standarnya [diperoleh
dari estimasi RE (14.15)], kita dapat membuat pada pengujian H0: γ =0 terhadap H1: γ ≠ 0
. Jika kami menolak H0 pada tingkat signifikansi yang cukup kecil, kami menolak RE demi FE.
Seperti biasa, terutama dengan cross sectional yang besar, penting untuk membedakan antara
penolakan statistik dan perbedaan penting secara ekonomi.
Alasan kedua untuk mempelajari pendekatan CRE adalah bahwa ia menyediakan cara
untuk memasukkan variabel penjelas konstan-waktu dalam apa yang secara efektif merupakan
analisis efek tetap. Misalnya, biarkan zi menjadi variabel yang tidak berubah dari waktu ke waktu
— bisa jender, katakanlah, atau skor tes IQ ditentukan pada masa kanak-kanak. Kita dapat
dengan mudah menambah (14.15) untuk memasukkan zi:

di mana kami tidak mengubah notasi untuk istilah kesalahan (yang tidak lagi menyertakan z i).
Jika kita memperkirakan persamaan yang diperluas ini dengan RE, masih dapat ditunjukkan
bahwa estimasi b adalah estimasi FE dari (14.1). Faktanya, begitu kita memasukkan x i , kita
dapat memasukkan variabel waktu-konstan lainnya dalam persamaan, memperkirakannya
dengan RE, dan mendapatkan ^β FE , sebagai koefisien pada x it . Selain itu, kami memperoleh
estimasi d, meskipun estimasi tersebut harus ditafsirkan dengan hati-hati karena tidak harus
memperkirakan efek kausal dari zi pada yit.
Strategi CRE yang sama dapat diterapkan pada model dengan banyak variabel penjelas
waktu yang bervariasi (dan banyak variabel konstanta waktu). Ketika persamaan yang ditambah
dengan rata-rata waktu diperkirakan oleh RE, koefisien pada variabel yang bervariasi waktu
identik dengan perkiraan FE. Sebagai catatan praktis, ketika panel seimbang, tidak perlu
menyertakan rata-rata waktu dari variabel yang berubah seiring waktu — kasus utama adalah
dummies periode waktu. (Dengan periode waktu T, rata-rata waktu dari periode waktu hanya 1 /
T, konstanta untuk semua i dan t; jelas tidak masuk akal untuk menambahkan sekelompok
konstanta ke persamaan yang sudah memiliki intersep.) Jika set data panel tidak seimbang, maka
rata-rata variabel seperti dummies waktu dapat berubah di i — itu akan tergantung pada berapa
banyak periode yang kita miliki untuk unit cross-sectional i. Dalam kasus seperti itu, rata-rata
waktu dari setiap variabel yang berubah sepanjang waktu harus dimasukkan. Latihan Komputer
14 dalam bab ini menggambarkan bagaimana pendekatan CRE dapat diterapkan pada data panel
seimbang yang diatur dalam AIRFARE dan bagaimana seseorang dapat menguji RE versus FE
dalam kerangka CRE.
14-3a Panel Tidak Seimbang
Pendekatan efek acak berkorelasi juga dapat diterapkan pada panel yang tidak seimbang,
tetapi diperlukan kehati-hatian. Untuk mendapatkan penduga yang mereproduksi perkiraan efek
tetap pada variabel penjelas waktu yang bervariasi, seseorang harus berhati-hati dalam menyusun
rata-rata waktu. Khususnya, untuk y atau x j , periode waktu berkontribusi terhadap rata-rata

waktu, yy i atau xy ij , hanya jika data pada semua ( y it , x it 1 , … , x itk ) diamati. Salah satu cara
untuk menggambarkan situasi adalah dengan mendefinisikan variabel dummy, s it , , yang sama

dengan satu ketika set lengkap data pada ( y it , x it 1 , … , x itk ) diamati. Jika ada elemen yang
hilang (termasuk, tentu saja, jika seluruh periode waktu hilang), maka s it =0 (Gagasan
indikator seleksi dibahas lebih rinci dalam Bab 17.) Dengan definisi ini, rata-rata waktu yang
sesuai dari { y it , } dapat ditulis sebagai

di mana Ti adalah jumlah total periode waktu lengkap untuk pengamatan cross-sectional i.
Dengan kata lain, kami hanya rata-rata selama periode waktu yang memiliki set data lengkap.
Titik halus lainnya adalah bahwa ketika dummy periode waktu termasuk dalam model, atau
variabel lain yang berubah hanya oleh t dan bukan i, kita sekarang harus memasukkan rata-rata
waktu mereka (tidak seperti dalam kasus seimbang, di mana rata-rata waktu hanyalah
konstanta) . Misalnya, jika {wt : t= 1, …, T} adalah variabel waktu agregat, seperti dummy
waktu atau tren waktu linier, maka
Karena sifat panel yang tidak seimbang, wi hampir selalu bervariasi di seluruh i (kecuali
periode waktu yang sama persis tidak ada untuk semua unit cross-sectional). Seperti halnya
variabel yang benar-benar berubah pada i dan t, rata-rata waktu dari efek waktu agregat mudah
diperoleh dalam banyak paket perangkat lunak
Mekanisme estimator efek acak juga agak berubah ketika kita memiliki panel tidak
seimbang, dan ini benar apakah kita menggunakan estimator efek acak tradisional atau versi
CRE. Yaitu, parameter θ dalam persamaan (14.10), yang digunakan dalam persamaan (14.11)
untuk mendapatkan data kuasi , tergantung pada i melalui jumlah periode waktu yang diamati
untuk unit i. Secara khusus, cukup ganti T dalam persamaan (14.10) dengan Ti. Paket
ekonometrik yang mendukung estimasi efek acak mengenali perbedaan ini saat menggunakan
panel seimbang, jadi tidak ada yang perlu dilakukan dari perspektif pengguna. Intinya adalah
bahwa, begitu rata-rata waktu telah diperoleh dengan benar, menggunakan persamaan seperti
(14,17) adalah sama dengan dalam kasus seimbang. Kita masih dapat menggunakan uji
signifikansi statistik pada set rata-rata waktu untuk memilih antara efek tetap dan efek acak
murni, dan pendekatan CRE masih memungkinkan kita untuk memasukkan variabel konstanta
waktu.
Seperti dengan estimasi efek tetap, masalah utama adalah memahami mengapa set data
panel tidak seimbang. Dalam kasus efek acak murni, indikator pemilihan, s it , tidak dapat
dikorelasikan dengan kesalahan komposit dalam persamaan (14.7), ai +uit , dalam periode
waktu apa pun. Kalau tidak, seperti yang dibahas dalam Wooldridge (2010, Bab 19), estimator
RE tidak konsisten. Sebagaimana dibahas dalam Bagian 14-1, penaksir FE memungkinkan untuk
korelasi acak antara indikator pemilihan, duduk, dan efek tetap, ai . Oleh karena itu, estimator
FE lebih kuat dalam konteks panel tidak seimbang. Dan, seperti yang telah kita ketahui, FE
memungkinkan korelasi sewenang-wenang antara variabel penjelas yang bervariasi waktu dan
ai
14-4 Menerapkan Metode Data Panel ke Struktur Data Lainnya
Berbagai metode data panel dapat diterapkan pada struktur data tertentu yang tidak
melibatkan waktu. Misalnya, demografi umum untuk menggunakan saudara kandung (kadang
kembar) untuk menjelaskan karakteristik keluarga dan latar belakang yang tidak teramati.
Biasanya kami ingin membiarkan "efek keluarga" yang tidak teramati, yang umum bagi semua
saudara kandung dalam keluarga, untuk dikorelasikan dengan variabel penjelas yang diamati.
Jika variabel penjelas bervariasi di antara saudara kandung dalam keluarga, perbedaan di antara
pasangan saudara kandung - atau, lebih umum, menggunakan transformasi dalam dalam keluarga
- lebih disukai sebagai metode estimasi. Dengan menghilangkan efek yang tidak teramati, kami
menghilangkan bias potensial yang disebabkan oleh karakteristik latar belakang keluarga yang
membingungkan. Menerapkan efek tetap pada struktur data tersebut agak mudah dalam paket
regresi yang mendukung estimasi FE. Sebagai contoh, Geronimus dan Korenman (1992)
menggunakan pasangan saudara perempuan untuk mempelajari efek dari melahirkan anak remaja
pada hasil ekonomi masa depan. Ketika hasilnya adalah pendapatan yang relatif terhadap
kebutuhan — sesuatu yang tergantung pada jumlah anak — modelnya adalah

di mana f indeks keluarga dan indeks seorang saudari dalam keluarga. Intersep untuk saudari
pertama adalah β 0 , dan intersep untuk saudari kedua adalah β 0+ δ 0 . Variabel yang menarik
adalah teenbrthfs, yang merupakan variabel biner sama dengan satu jika saudara perempuan (s)
dalam keluarga (f) memiliki anak dalam usia remaja. Variabel pertanian adalah usia saat ini dari
saudara perempuan dalam keluarga f; Geronimus dan Korenman juga menggunakan beberapa
kontrol lain. Variabel unobserved a f , yang hanya mengubah lintas keluarga, adalah efek
keluarga yang tidak diamati atau efek tetap keluarga. Perhatian utama dalam analisis adalah
bahwa teenbrth berhubungan dengan efek keluarga. Jika demikian, analisis OLS yang
menggabungkan seluruh keluarga dan saudara perempuan memberikan penaksir yang bias
tentang pengaruh keibuan remaja pada hasil ekonomi. Memecahkan masalah ini sederhana:
dalam setiap keluarga, perbedaan (14,18) antar saudara perempuan untuk didapatkan

ini menghilangkan efek keluarga, a f , dan persamaan yang dihasilkan dapat diperkirakan oleh
OLS. Perhatikan bahwa tidak ada unsur waktu di sini: perbedaannya adalah antar saudara dalam
keluarga. Selain itu, kami telah mengizinkan perbedaan dalam intersep antar saudara dalam
(14.18), yang mengarah pada intersep nol dalam persamaan yang dibedakan, (14.19). Jika dalam
memasukkan data urutan para suster dalam setiap keluarga pada dasarnya acak, perkiraan
intersep harus mendekati nol. Tetapi bahkan dalam kasus-kasus seperti itu tidak ada salahnya
memasukkan intersep dalam (14.19), dan memiliki intersep memungkinkan fakta bahwa,
katakanlah, saudari pertama yang terdaftar mungkin selalu yang paling membutuhkan.
Dengan menggunakan 129 pasangan saudara perempuan dari Survei Longitudinal
Nasional Remaja Putri 1982, Geronimus dan Korenman pertama kali memperkirakan β1
dengan OLS gabungan untuk memperoleh 2,33 atau 2,26, di mana estimasi kedua berasal dari
pengontrolan variabel latar belakang keluarga (seperti pendidikan orang tua); kedua perkiraan
tersebut sangat signifikan secara statistik [lihat Tabel 3 dalam Geronimus dan Korenman (1992)].
Oleh karena itu, keibuan remaja memiliki dampak yang agak besar pada pendapatan keluarga di
masa depan. Namun, ketika persamaan diferensial diperkirakan, koefisien pada remaja adalah
2,08, yang kecil dan tidak signifikan secara statistik. Ini menunjukkan bahwa sebagian besar latar
belakang keluarga wanita yang memengaruhi penghasilannya di masa depan, daripada
melahirkan anak remaja.
Geronimus dan Korenman melihat beberapa hasil lainnya dan dua set data lainnya; dalam
beberapa kasus, perkiraan dalam keluarga besar secara ekonomi dan signifikan secara statistik.
Mereka juga menunjukkan bagaimana efeknya sepenuhnya hilang ketika tingkat pendidikan para
suster dikendalikan.
Ashenfelter dan Krueger (1994) menggunakan metodologi differencing untuk memperkirakan
kembali ke pendidikan. Mereka memperoleh sampel 149 kembar identik dan mengumpulkan
informasi tentang pendapatan, pendidikan, dan variabel lainnya. Kembar identik digunakan
karena mereka harus memiliki kemampuan dasar yang sama. Ini dapat dibedakan dengan
menggunakan perbedaan kembar, bukan OLS pada data yang dikumpulkan. Karena kembar
identik adalah sama dalam usia, jenis kelamin, dan ras, semua faktor ini keluar dari persamaan
yang dibedakan. Oleh karena itu, Ashenfelter dan Krueger merevisi perbedaan dalam log
(pendapatan) pada perbedaan dalam pendidikan dan memperkirakan pengembalian ke
pendidikan sekitar 9,2% (t = 3,83). Menariknya, ini sebenarnya lebih besar dari perkiraan OLS
gabungan 8,4% (yang mengontrol jenis kelamin, usia, dan ras). Ashenfelter dan Krueger juga
memperkirakan persamaan dengan efek acak dan memperoleh 8,7% sebagai pengembalian ke
pendidikan. (Lihat Tabel 5 dalam makalah mereka.) Analisis efek acak secara mekanis sama
dengan case panel data dengan dua periode waktu.
Sampel yang digunakan oleh Geronimus dan Korenman (1992) dan Ashenfelter dan
Krueger (1994) adalah contoh sampel pasangan yang cocok. Lebih umum, metode efek tetap dan
acak dapat diterapkan pada sampel cluster. Sampel cluster memiliki penampilan yang sama
dengan kumpulan data cross-sectional, tetapi ada perbedaan penting: cluster unit diambil
sampelnya dari populasi cluster daripada sampel individu dari populasi individu. Dalam contoh
sebelumnya, setiap keluarga diambil sampelnya dari populasi keluarga, dan kemudian kami
memperoleh data setidaknya dua anggota keluarga. Karena itu, setiap keluarga adalah sebuah
cluster.
Sebagai contoh lain, anggaplah kita tertarik untuk membuat model keputusan partisipasi
program pensiun individu. Seseorang mungkin memperoleh sampel acak dari individu yang
bekerja — katakanlah, dari Amerika Serikat — tetapi juga umum untuk perusahaan sampel dari
populasi perusahaan. Setelah perusahaan disampel, seseorang dapat mengumpulkan informasi
tentang semua pekerja atau sekelompok pekerja dalam masing-masing perusahaan. Dalam kedua
kasus, set data yang dihasilkan adalah sampel cluster karena pengambilan sampel pertama kali di
tingkat perusahaan. Karakteristik tingkat perusahaan yang tidak teramati (bersama dengan
karakteristik perusahaan yang diamati) cenderung hadir dalam keputusan partisipasi, dan korelasi
di dalam perusahaan ini harus diperhitungkan. Estimasi efek tetap lebih disukai ketika kita
berpikir efek cluster yang tidak teramati - contohnya adalah ai pada (14.12) - berkorelasi
dengan satu atau lebih variabel penjelas. Kemudian, kita hanya bisa memasukkan variabel
penjelas yang bervariasi, setidaknya, dalam kelompok. Ukuran cluster jarang sama, jadi kami
secara efektif menggunakan metode efek tetap untuk panel tidak seimbang
Data pendidikan tentang hasil siswa juga dapat datang dalam bentuk sampel cluster, di
mana sampel sekolah diperoleh dari populasi sekolah, dan kemudian informasi tentang siswa di
setiap sekolah diperoleh. Setiap sekolah bertindak sebagai kluster, dan memungkinkan efek
sekolah untuk dikorelasikan dengan variabel penjelas utama — katakanlah, apakah seorang
siswa berpartisipasi dalam program bimbingan belajar yang disponsori negara — cenderung
penting. Karena tingkat di mana siswa diajari kemungkinan bervariasi di setiap sekolah, mungkin
merupakan ide yang baik untuk menggunakan estimasi efek tetap. Orang sering melihat penulis
menggunakan, sebagai tulisan cepat, "Saya memasukkan efek tetap sekolah dalam analisis."
Pendekatan efek acak berkorelasi dapat diterapkan segera untuk sampel cluster karena, untuk
keperluan estimasi, sampel cluster bertindak seperti panel tidak seimbang. Sekarang, rata-rata
yang ditambahkan ke persamaan adalah rata-rata dalam-cluster — misalnya, rata-rata dalam
sekolah. Satu-satunya perbedaan dengan data panel adalah bahwa gagasan korelasi serial dalam
kesalahan istimewa tidak relevan. Namun demikian, seperti yang dibahas dalam Wooldridge
(2010, Bab 20), masih ada alasan bagus untuk menggunakan kesalahan standar cluster-robust,
apakah seseorang menggunakan efek tetap atau efek acak berkorelasi.
Dalam beberapa kasus, variabel penjelas utama — sering kali variabel kebijakan —
berubah hanya pada tingkat gugus, bukan di dalam gugus. Dalam kasus seperti itu, pendekatan
efek tetap tidak berlaku. Sebagai contoh, kita mungkin tertarik pada efek kualitas guru yang
diukur pada kinerja siswa, di mana setiap kluster adalah kelas sekolah dasar. Karena semua siswa
dalam gugus memiliki guru yang sama, menghilangkan "efek kelas" juga menghilangkan ukuran
kualitas guru yang diamati. Jika kita memiliki kontrol yang baik dalam persamaan, kita dapat
dibenarkan dalam menerapkan efek acak pada kluster tidak seimbang. Seperti halnya data panel,
persyaratan utama untuk RE untuk menghasilkan estimasi yang meyakinkan adalah bahwa
variabel penjelas tidak berkorelasi dengan efek cluster yang tidak teramati. Sebagian besar paket
ekonometrik memungkinkan estimasi efek acak pada cluster yang tidak seimbang tanpa banyak
usaha.
OLS gabungan juga umum diterapkan pada sampel cluster ketika menghilangkan efek cluster
melalui efek tetap tidak layak atau tidak diinginkan. Namun, seperti halnya data panel, kesalahan
standar OLS yang biasa tidak benar kecuali jika tidak ada efek cluster, dan kesalahan standar
yang kuat yang memungkinkan "korelasi cluster" (dan heteroskedastisitas) harus digunakan.
Beberapa paket regresi memiliki perintah sederhana untuk memperbaiki kesalahan standar dan
statistik uji biasa untuk umum dalam korelasi cluster (serta heteroskedastisitas). Ini adalah
koreksi yang sama yang berfungsi untuk OLS yang dikumpulkan pada set data panel, yang kami
laporkan dalam Contoh 13.9. Sebagai contoh, Papke (1999) memperkirakan model probabilitas
linier untuk kelanjutan dari program pensiun manfaat pasti berdasarkan apakah perusahaan
mengadopsi program iuran pasti. Karena kemungkinan ada efek tegas yang menginduksi korelasi
antar rencana berbeda dalam perusahaan yang sama, Papke memperbaiki kesalahan standar OLS
yang biasa untuk pengambilan sampel kluster, serta untuk heteroskedastisitas dalam model
probabilitas linier
Sebelum mengakhiri bagian ini, ada beberapa komentar akhir. Mengingat alat yang tersedia efek
tetap, efek acak, dan inferensi standar cluster-kuat, tergoda untuk menemukan alasan untuk
menggunakan metode pengelompokan di mana tidak ada yang mungkin ada. Misalnya, jika satu
set data diperoleh dari sampel acak dari populasi, maka biasanya tidak ada alasan untuk
memperhitungkan efek cluster dalam menghitung kesalahan standar setelah estimasi OLS. Fakta
bahwa unit dapat dimasukkan ke dalam kelompok ex post — yaitu, setelah sampel acak
diperoleh — bukan alasan untuk membuat kesimpulan kuat terhadap korelasi cluster.
Untuk menggambarkan hal ini, anggaplah bahwa, dari populasi siswa kelas empat di
Amerika Serikat, sampel acak berjumlah 50.000 diperoleh, data ini dipelajari dengan benar
menggunakan metode standar untuk regresi cross-sectional. Mungkin tergoda untuk
mengelompokkan siswa dengan, katakanlah, 50 negara bagian ditambah District of Columbia —
dengan asumsi pengidentifikasi negara disertakan — dan kemudian memperlakukan data sebagai
sampel kelompok. Tetapi ini akan salah, dan mengelompokkan kesalahan standar di tingkat
negara bagian dapat menghasilkan kesalahan standar yang terlalu besar secara sistematis. Atau,
mereka mungkin terlalu kecil karena teori asimptotik yang mendasari sampling cluster
mengasumsikan bahwa kita memiliki banyak cluster dengan masing-masing ukuran cluster
relatif kecil. Bagaimanapun, eksperimen pemikiran sederhana menunjukkan bahwa
pengelompokan tidak dapat benar. Misalnya, jika kita mengetahui daerah tempat tinggal untuk
setiap siswa, mengapa tidak mengelompokkan di tingkat daerah? Atau, pada tingkat yang lebih
kasar, kita dapat membagi Amerika Serikat menjadi empat wilayah sensus dan memperlakukan
mereka sebagai kelompok — dan ini akan memberikan serangkaian kesalahan standar yang
berbeda (yang tidak memiliki justifikasi teoretis). Dengan mengambil argumen ini secara
ekstrem, orang dapat berargumentasi bahwa kita memiliki satu cluster: seluruh Amerika Serikat,
dalam hal ini kesalahan standar cluster tidak akan didefinisikan dan kesimpulan tidak mungkin.
Kebingungan muncul karena cluster didefinisikan ex post — yaitu, setelah sampel acak
diperoleh. Dalam sampel cluster yang benar, cluster pertama-tama diambil dari populasi cluster,
dan kemudian individu-individu diambil dari cluster.
Seseorang mungkin menggunakan metode pengelompokan jika, katakanlah, variabel
tingkat distrik dibuat setelah sampel acak dikumpulkan dan kemudian digunakan dalam
persamaan tingkat siswa. Ini dapat membuat korelasi cluster yang tidak teramati dalam setiap
kabupaten. Ingat bahwa estimator efek tetap (dalam hal ini, di tingkat kabupaten) sama dengan
menempatkan rata-rata tingkat kabupaten. Dengan demikian, orang mungkin ingin
memperhitungkan korelasi cluster di tingkat kabupaten di samping menggunakan efek tetap.
Seperti yang ditunjukkan oleh Stock dan Watson (2008) (dalam konteks data panel), dengan
ukuran cluster besar, korelasi cluster yang dihasilkan umumnya tidak penting, tetapi dengan
ukuran cluster kecil kita harus menggunakan kesalahan standar cluster-robust.

Anda mungkin juga menyukai