OLEH : KELOMPOK 7
Ni Putu Ferbilia Sarlitawati (1087511059)
I Komang Wibawa (1807511060)
Theodorus Prihady Indrianto (1807511062)
Persamaan ini mengimplikasi bahwa seorang siswa yang memiliki PC pribadi memiliki prediksi
GPA sekitar 0.16 poin lebih tinggi daripada siswa yang tidak memiliki PC pribadi. Hal ini bersifat
sangat signifikan secara statistic dengan
tPC = 0.157/0.057 = 2.75
Contoh diatas adalah contoh yang sangat relevan untuk mengalisis suatu kebijakan. Kasus
khusus tentang analisis suatu kebijakan adalah program evaluasi, dimana kita dapat mengetahui
pengaruh program ekonomi atau social terhadap individu, perusahaan, masyarakat maupun kota.
Variabel terikatnya adalah jam training per pegawai di sebuah perusahaan. Variabel grant adalah
variable dummy yang sama dengan 1 jika perusahaan menerima hibah pelatihan pada tahun 1998
dan 0 jika tidak. Variabel sales dan employ menunjukan penjualan tahunan dan jumlah pegawai.
Varibel grant sangat signifikan dengan tgrant =4.70.
Koefisien log (sales) sangat kecil dan tidak signifikan, koefisien log (employ) memiliki arti bahwa
jika tingkat suatu perusahaan 10% lebih besar maka tingkat pelatihan pekerjanya sekitar 0.61 jam
lebih rendah.
Semua variable berhubungan dengan pribadi kecuali colonial yang merupakan binary variable
sama dengan 1 jika perumahan memiliki desain colonial. Untuk memberikan tingkat lotsize, sqrft,
̂
dan bdrms, perbedaan pada log(𝑝𝑟𝑖𝑐𝑒) antara rumah dengan desain colonial dan tidak adalah
0.54. ini berarti bahwa rumah dengan desain colonial diprediksi terjual sekitar 5.4% lebih banyak
dengan asumsi faktor lainnya tetap.
Pada contoh diatas menunjukan bahwa, jika log(y) adalah variable terikat, koefisien dummy
variable jika dikalikan 100 maka diinterpretasikan sebagai perbedaan persentase pada y jika faktor
lainnya tetap. Jika koefisien dummy variable memiliki proporsi perubahan yang lebih besar pada
y maka perbedaan persentase diperoleh dengan penghitungan semi elastisitas.
Dengan menggunakan contoh 7.4, koefisien perempuan mengimplikasi bahwa untuk tingkat yang
sama pada educ, exper, tenure, perempuan mendapatkan gaji sekitar 100(0.297) = 29.7% lebih
rendah daripada laki-laki. Sehingga perbedaan upah antara perempuan dan laki-laki yaitu :
̂𝑭) − 𝐥𝐨𝐠(𝒘𝒂𝒈𝒆
𝐥𝐨𝐠(𝒘𝒂𝒈𝒆 ̂ 𝑴) = - 0.297
Sehingga :
̂
(𝒘𝒂𝒈𝒆 ̂𝑴) / 𝒘𝒂𝒈𝒆
𝑭 − 𝒘𝒂𝒈𝒆 ̂𝑴 = exp(-0.297 – 1) = - 0.257
Hal ini merupakan perkiraan yang lebih akurat bahwa rata-rata upah perempuan 2.57% dibawah
upah laki-laki.
Jika kita membuat perbaikan yang sama pada contoh 7.4 kita akan memperoleh exp(0.54)
– 1 = 0.0555 atau sekitar 5.6%. Perbaikan tersebut memiliki pengaruh yang lebih kecil pada contoh
7.4 dibandingan dengan contoh upah karena besaran dari koefisien dummy variable adalah lebih
kecil pada 7.8 dibandingkan pada 7.9.
Secara umum, jika 𝛽1 ̂ adalah koefisien dari dummy varibel katakanlah x1, jika log(y) adalah
variable terikat maka perbedaan persentase pada prediksi y ketika x1 = 1 dan jika x1 = 0 adalah :
̂) – 1 ]
100 [exp (𝜷𝟏 (7.10)
Variabel dummy adalah variabel yang digunakan untuk mengkuantitatifkan variabel yang
bersifat kualitatif (misal: jenis kelamin, ras, agama, perubahan kebijakan pemerintah, perbedaan
situasi dan lain-lain). Variabel dummy merupakan variabel yang bersifat kategorikal yang diduga
mempunyai pengaruh terhadap variabel yang bersifat kontinue. Variabel dummy sering juga
disebut variabel boneka, binary, kategorik atau dikotom. Variabel dummy hanya mempunyai 2
(dua) nilai yaitu 1 dan nilai 0, serta diberi simbol D. Dummy memiliki nilai 1 (D=1) untuk salah
satu kategori dan nol (D=0) untuk kategori yang lain.
D = 1 untuk suatu kategori (laki- laki, kulit putih, sarjana dan sebagainya).
D = 0 untuk kategori yang lain (perempuan, kulit berwarna, non-sarjana dan sebagainya).
Nilai 0 biasanya menunjukkan kelompok yang tidak mendapat sebuah perlakuan dan 1
menunjukkan kelompok yang mendapat perlakuan. Dalam regresi berganda, aplikasinya bisa
berupa perbedaan jenis kelamin (1 = laki-laki, 0 = perempuan), ras (1 = kulit putih, 0 = kulit
berwarna), pendidikan (1 = sarjana, 0 = non-sarjana).dari pengertiannya variable dummy hanya
memiliki 2 nilai yaitu 1 dan 0.
Contoh 7.9:
Faktor lainnya adalah faktor standar untuk regresi upah, termasuk pendidikan,
pengalaman, gender, dan status perkawinan. Krueger tidak melaporkan intersep karena tidak
penting,yang perlu kita ketahui adalah bahwa kelompok dasar terdiri dari orang-orang yang tidak
menggunakan komputer di rumah atau di tempat kerja. Perlu diperhatikan bahwa perkiraan
pengembalian untuk menggunakan komputer di tempat kerja (tetapi tidak di rumah) adalah
sekitar 17,7%. (Perkiraan yang lebih tepat adalah 19,4%.) Demikian pula, orang yang
menggunakan komputer di rumah tetapi tidak di tempat kerja memiliki upah sekitar 7% lebih
tinggi daripada mereka yang tidak menggunakan komputer sama sekali. Perbedaan antara
mereka yang menggunakan komputer di kedua tempat, relatif terhadap mereka yang
menggunakan komputer di kedua tempat, adalah sekitar 26,4% (diperoleh dengan menambahkan
ketiga koefisien dan mengalikan dengan 100), atau perkiraan yang lebih tepat 30,2% diperoleh
dari persamaan (7.10). Istilah interaksi dalam (7.15) tidak signifikan secara statistik, juga tidak
terlalu besar secara ekonomi. Tapi itu menyebabkan kerusakan kecil dengan berada di
persamaan.
B. Perbedaan Slope
Melanjutkan dengan contoh upah, anggaplah kita ingin menguji apakah pengembalian
pendidikan sama untuk pria dan wanita, memungkinkan perbedaan upah yang konstan antara
pria dan wanita,untuk sederhananya dalam model hanya dimasukkan pendidikan dan jenis
kelamin.
log(𝑤𝑎𝑔𝑒) = (𝛽0 + 𝛿0𝑓𝑒𝑚𝑎𝑙𝑒 )+(β1+δ1female)+μ 7.16
Jika kita memasukkan perempuan – 0 ke dalam (7.16), maka kita menemukan bahwa
intersep untuk pria adalah β1 dan kemiringan pada pendidikan untuk pria adalah β0, kita
masukkan perempuan – 1,maka intersep untuk perempuan adalah β0+δ0 dan slopenya adalah
β1+δ1. Di mana δ0 menunjukkan kemiringan slope antara laki-laki dan perempuan, dan δ1
menunjukkan perbandingan hasil pendidikan antara laki-laki dan perempuan.
Grafik (a) menunjukkan kasus di mana intersep untuk wanita di bawah pria, dan kemiringan
garis lebih kecil untuk wanita daripada pria. Ini berarti bahwa perempuan berpenghasilan lebih
rendah dari laki-laki di semua tingkat pendidikan, dan kesenjangan meningkat ketika pendidikan
semakin besar.
Grafik (b), intersep untuk wanita di bawahnya untuk pria, tetapi kemiringan pendidikan lebih
besar untuk wanita. Ini berarti bahwa perempuan berpenghasilan lebih rendah dari laki-laki di
tingkat pendidikan yang rendah, tetapi kesenjangan semakin menyempit saat pendidikan
meningkat. Pada titik tertentu, seorang wanita menghasilkan lebih dari seorang pria dengan
tingkat pendidikan yang sama
di mana sat adalah skor SAT, hsperc adalah persentil peringkat sekolah menengah, dan tothrs
adalah total jam belajar di perguruan tinggi Jika ingin menguji apakah ada perbedaan antara pria
dan wanita, maka kami harus mengizinkan model di mana intersep dan semua slope dapat
berbeda di kedua kelompok:
Parameter δ0 adalah perbedaan dalam penyadapan antara perempuan dan laki-laki, δ1 adalah
perbedaan kemiringan sehubungan dengan posisi perempuan dan laki-laki,hipotesis nol yang
sesuai dengan persamaan diatas adalah
𝐻0: 𝛿0 = 0, 𝛿1 = 0, 𝛿2 = 0, 𝛿3 = 0
Jika salah satu δj tidak sama dengan nol, maka modelnya berbeda untuk pria dan wanita.
Menggunakan data semester dari file GPA3, model lengkap dapat diestimasikan sebagai berikut
Kesalahan standar pada wanita dan istilah interaksi membuatnya sulit untuk mengatakan
dengan tepat bagaimana pria dan wanita berbeda. dimana harus sangat berhati-hati dalam
menafsirkan persamaan (7.22) karena, dalam memperoleh perbedaan antara perempuan dan laki-
laki, istilah interaksi harus diperhitungkan. prediksi perbedaan antara wanita dan pria adalah -
.353+.00025(1.100)-.00055(10)-.00012(50)= 461. Yaitu, atlet wanita diperkirakan memiliki IPK
yang hampir setengah poin lebih tinggi dari atlet pria yang sebanding.
Dalam model umum dengan variabel k dan intersep, anggaplah kita memiliki dua
kelompok, yaitu g - 1 dan g - 2. Akan diuji apakah intersep dan semua slope sama di kedua
kelompok.adapun permodelan dapat ditulis sebagai berikut
Y= βg ,0+βg,1×1+βg,2×2+…..+βg,k×k+μ
Kegagalan untuk menolak hipotesis bahwa parameter yang mengalikan istilah interaksi
semuanya nol menunjukkan bahwa model terbaik hanya memungkinkan untuk perbedaan
intersep,yaitu
Karena probabilitas harus jumlah ke satu P(y = 0|x) = 1 – P (y = 1|x) juga merupakan fungsi linier
dari xj.
Beberapa model regresi linear dengan variabel tergantung biner disebut probabilitas
linier model (LPM) karena probabilitas respons linear dalam parameter bj, Dalam (LPM) bj,
mengukur perubahan Probabilitas keberhasilan ketika xj berubah, memegang faktor lain yang
tetap:
Dengan pemikiran ini, model regresi berganda dapat memungkinkan kita untuk
memperkirakan efek dari berbagai penjelasan variabel pada peristiwa kualitatif. Mekanisme
OLS sama seperti sebelumnya. Jika kita menulis perkiraan persamaan sebagai:
kita sekarang harus ingat bahwa ŷ adalah probabilitas diprediksi keberhasilan. Oleh
karena itu, β0 adalah diprediksi kemungkinan keberhasilan ketika setiap xj. diatur ke nol, yang
mungkin atau mungkin tidak menarik. Kemiringan Koefisien β1 mengukur perubahan
diprediksi dalam Probabilitas keberhasilan ketika x1. meningkat dengan satu unit.
Untuk menafsirkan dengan benar model probabilitas linier, kita harus tahu apa yang
merupakan "sukses.". Dengan demikian, ini adalah ide yang baik untuk memberikan variabel
dependen nama yang menggambarkan acara y = 1. Sebagai contoh, biarkan inlf ("dalam
angkatan kerja") menjadi variabel biner yang menunjukkan partisipasi angkatan kerja oleh
wanita yang sudah menikah selama 1975: inlf = 1 jika wanita laporan bekerja untuk upah di
luar rumah di beberapa titik selama tahun, dan nol sebaliknya. Kita berasumsi bahwa
partisipasi angkatan kerja tergantung sumber pendapatan lainnya, termasuk penghasilan
suami (nwifeinc, diukur dalam ribuan dolar), tahun pendidikan (educ), tahun lalu pengalaman
pasar tenaga kerja (exper), usia, jumlah anak kurang dari usia enam tahun (kidslt6), dan
jumlah anak berusia antara 6 dan 18 tahun (kidsge6). Menggunakan data dalam MROZ dari
Mroz (1987), kami memperkirakan model probabilitas linier berikut, di mana 428 para 753
perempuan dalam laporan sampel berada di angkatan kerja di beberapa titik selama 1975:
Menggunakan statistik t biasa, semua variabel dalam (7,29) kecuali kidsge6 yang
signifikan secara statistik, dan semua variabel signifikan memiliki efek yang kita harapkan
berdasarkan teori ekonomi.
Untuk menafsirkan perkiraan, kita harus ingat bahwa perubahan dalam perubahan
variabel independen probabilitas yang inlf = 1. Sebagai contoh, Koefisien pada educ berarti
bahwa, segala sesuatu yang lain dalam (7,29) diadakan tetap, tahun lain pendidikan
meningkatkan kemungkinan partisipasi angkatan kerja .038. Jika kita mengambil persamaan
ini secara harfiah, 10 tahun lagi pendidikan meningkatkan probabilitas menjadi dalam
angkatan kerja oleh. 038(10) = .038, yang merupakan peningkatan yang cukup besar dalam
probabilitas. Hubungan antara probabilitas partisipasi angkatan kerja dan educ diplot dalam
gambar 7,3. Yang lain variabel independen ditetapkan pada nilai nwifeinc = 50, exper = 5,
umur = 30, kidslt6 = 1, dan kidsge6 = 0 untuk tujuan ilustrasi. Probabilitas diperkirakan
negatif sampai pendidikan sama dengan 3,84 tahun. Ini seharusnya tidak menimbulkan terlalu
banyak kekhawatiran karena, dalam sampel ini, tidak ada wanita yang kurang dari lima tahun
pendidikan. Pendidikan terbesar yang dilaporkan adalah 17 tahun, dan ini mengarah ke
probabilitas. 5. Jika kita mengatur variabel independen lainnya pada nilai yang berbeda,
rentang prediksi probabilitas akan berubah. Tapi efek marjinal tahun lain pendidikan pada
probabilitas partisipasi angkatan kerja selalu .038.
Koefisien pada nwifeinc menyiratkan bahwa, jika Dnwifeinc = 10 (yang berarti
peningkatan $10.000), probabilitas bahwa seorang wanita dalam angkatan kerja jatuh oleh.
034. Ini bukan efek yang sangat besar mengingat bahwa peningkatan pendapatan $10.000
adalah substansial dalam hal 1975 dolar. Pengalaman memiliki telah dimasukkan sebagai
kuadrat untuk memungkinkan efek dari pengalaman masa lalu untuk memiliki efek yang
berkurang pada kemungkinan partisipasi angkatan kerja. Memegang faktor lain yang tetap,
perkiraan perubahan probabilitas diperkirakan sebagai. 039 – 2(.0006) exper = .039 - .0012
exper. Titik di mana pengalaman masa lalu tidak berpengaruh pada kemungkinan partisipasi
angkatan kerja adalah .039 / .0012 = 32,5, yang merupakan tingkat pengalaman: hanya 13 dari
753 perempuan dalam sampel memiliki lebih dari 32 tahun pengalaman.
Tidak seperti jumlah anak yang lebih tua, jumlah anak kecil memiliki dampak besar
pada tenaga kerja partisipasi Angkatan. Memiliki satu tambahan anak kurang dari enam tahun
mengurangi probabilitas partisipasi oleh 2,262, pada tingkat tertentu dari variabel lain. Dalam
sampel, hanya di bawah 20% dari perempuan memiliki setidaknya satu anak kecil.
Masalah terkait adalah bahwa probabilitas tidak dapat linear terkait dengan variabel
independen untuk semua nilai yang mungkin. Misalnya, (7,29) memprediksi bahwa efek dari
pergi dari nol anak untuk satu anak kecil mengurangi probabilitas bekerja dengan 262. Ini
juga merupakan prediksi penurunan. Jika wanita pergi dari memiliki satu anak muda untuk
dua. Tampaknya lebih realistis bahwa kecil pertama anak akan mengurangi probabilitas
dengan jumlah yang besar, tetapi anak berikutnya akan memiliki efek marginal.
Bahkan dengan masalah ini, model probabilitas linier berguna dan sering diterapkan
dalam ekonomi. Ini biasanya bekerja dengan baik untuk nilai variabel independen yang berada
di dekat Average dalam sampel. Dalam contoh partisipasi angkatan kerja, tidak ada
perempuan dalam sampel memiliki empat anak kecil; Sebenarnya hanya tiga perempuan
memiliki tiga anak kecil. Lebih dari 96% perempuan tidak memiliki anak muda atau satu anak
kecil, dan jadi kita mungkin harus membatasi perhatian pada kasus ini ketika menafsirkan
perkiraan persamaan.
Karena sifat biner y, model probabilitas linier tidak melanggar salah satu Gauss-
Markov Asumsi. Ketika y adalah variabel biner, varians, bersyarat pada x, adalah
dimana p (x) adalah singkatan untuk probabilitas sukses: p(x) = β0 + β1x1 + ... + βkxk.
Ini berarti bahwa, kecuali dalam kasus di mana probabilitas tidak tergantung pada salah satu
variabel independen, harus ada sifat heteroskedasticity dalam model probabilitas linier. Kita
tahu dari bab 3 bahwa hal ini tidak menimbulkan bias dalam penduga OLS dari βJ. Tapi kita
juga tahu dari bab 4 dan 5 bahwa homoskedasticity sangat penting untuk membenarkan
Statistik t dan F yang biasa, bahkan dalam sampel besar. Karena standar kesalahan dalam
(7,29) tidak umumnya berlaku, kita harus menggunakannya dengan hati-hati. Kami akan
menunjukkan bagaimana memperbaiki kesalahan standar untuk sifat heteroskedasticity dalam
Bab 8. Ternyata, dalam banyak aplikasi, Statistik OLS yang biasa tidak jauh, dan masih dapat
diterima dalam pekerjaan yang diterapkan untuk menyajikan standar analisis OLS model
probabilitas linier.
Biarkan arr86 menjadi variabel biner yang sama dengan kesatuan jika seorang pria
ditangkap selama 1986, dan nol sebaliknya. Penduduk adalah sekelompok pemuda di
California lahir di 1960 atau 1961 yang memiliki setidaknya satu penangkapan sebelum 1986.
Model probabilitas linier untuk mendeskripsikan arr86
qemp86 = jumlah perempat (0 ke 4) bahwa pria itu secara legal dipekerjakan di 1986.
Biarkan arr86 menjadi variabel biner yang sama dengan kesatuan jika seorang pria
ditangkap selama 1986, dan nol sebaliknya. Penduduk adalah sekelompok pemuda di
California lahir di 1960 atau 1961 yang memiliki setidaknya satu penangkapan sebelum 1986.
Model probabilitas linier untuk mendeskripsikan arr86
qemp86 = jumlah perempat (0 ke 4) bahwa pria itu secara legal dipekerjakan di 1986.
Mencegat 441, adalah probabilitas diprediksi penangkapan bagi seseorang yang belum
dihukum (dan begitu pcnv dan avgsen keduanya nol), telah menghabiskan waktu di penjara
sejak usia 18, tidak menghabiskan waktu di penjara pada 1986 tahun, dan menganggur selama
setahun penuh. Variabel avgsen dan totaltime tidak signifikan baik secara individu maupun
bersama-sama (tes F memberikan nilai p 5.347), dan avgsen memiliki tanda jika kalimat yang
lebih panjang seharusnya menghalangi kejahatan. Grogger (1991), menggunakan superset
data ini dan metode ekonometrik yang berbeda, menemukan bahwa totaltime memiliki positif
yang signifikan secara statistik efek pada penangkapan dan menyimpulkan bahwa totaltime
adalah ukuran modal manusia dibangun di aktivitas kriminal.
Efek incarcerative diberikan oleh koefisien pada ptime86. Jika seorang pria dipenjara,
dia tidak dapat ditangkap. Sejak ptime86 diukur dalam bulan, enam bulan lagi di penjara
mengurangi probabilitas penangkapan oleh. 022(6) =.132. Persamaan (7,31) memberikan
contoh lain di mana probabilitas linier model tidak dapat benar atas semua rentang variabel
independen. Jika seorang pria dipenjara semua 12 bulan 1986, ia tidak dapat ditahan di 1986.
Mengatur semua variabel lain sama dengan nol, diperkirakan probabilitas penangkapan ketika
ptime86 = 12 adalah. 441 - .022(12) = .177, yang bukan nol. Namun demikian, jika kita mulai
dari probabilitas tanpa syarat penangkapan,. 277, 12 bulan penjara mengurangi probabilitas
untuk dasarnya nol:. 277 - .022(12) = .013.
Kita juga bisa memasukan variabel yang bebas Dummy pada model dengan
ketergantungan Dummy Variabel. Koefisien mengukur perbedaan yang diprediksi dalam
probabilitas relatif terhadap dasar Kelompok. Misalnya, jika kita menambahkan dua Dummies
ras, hitam dan hispan, untuk persamaan penangkapan, kita mendapatkan
Koefisien pada hitam berarti bahwa, Semua faktor lain yang setara, seorang pria kulit
hitam memiliki. 17 kesempatan lebih tinggi ditangkap daripada seorang pria kulit putih
(kelompok dasar). Cara lain untuk mengatakan ini adalah probabilitas 17 persen lebih tinggi
untuk orang kulit hitam daripada untuk kulit putih. Perbedaannya secara statistik signifikan
juga. Demikian pula, pria Hispanik memiliki. 096 lebih tinggi kesempatan untuk ditangkap
daripada pria kulit putih.
Kita harus berhati-hati ketika mengevaluasi program karena dalam banyak contoh
dalam ilmu sosial, kontrol dan kelompok pengobatan tidak ditugaskan secara acak.
Pertimbangkan kembali Holzer et al. (1993), di mana kita sekarang tertarik pada efek dari
hibah pelatihan kerja pada produktivitas pekerja (sebagai lawan dari jumlah pelatihan kerja).
Persamaan minat
di mana memo adalah tingkat memo perusahaan, dan dua variabel terakhir disertakan
sebagai kontrol. Biner hibah variabel menunjukkan apakah perusahaan menerima hibah di
1988 untuk pelatihan kerja.
Sebelum kita melihat perkiraan, kita mungkin khawatir bahwa faktor yang tidak
diamati yang mempengaruhi pekerja — seperti tingkat pendidikan, kemampuan, pengalaman,
dan masa jabatan yang rata — mungkin berkorelasi dengan Apakah perusahaan menerima
hibah. Holzer et al. menunjukkan bahwa hibah diberikan pada pertama datang, pertama-
dilayani. Tapi ini tidak sama dengan memberikan hibah secara acak. Mungkin perusahaan
dengan pekerja yang kurang produktif melihat peluang untuk meningkatkan produktivitas dan
lebih rajin dalam mengajukan permohonan hibah.
Dengan menggunakan data dalam JTRAIN pada tahun 1988 — ketika perusahaan
benar memenuhi syarat untuk menerima hibah — kami mendapatkan
(Tujuh belas dari 50 perusahaan yang menerima hibah pelatihan, dan tingkat skrap rata
3,47 di semua perusahaan.) Perkiraan titik 2,052 pada hibah berarti bahwa, untuk memberikan
penjualan dan mempekerjakan, perusahaan yang menerima hibah memiliki tingkat memo
sekitar 5,2% lebih rendah dari perusahaan tanpa hibah. Ini adalah arah dari efek yang
diharapkan jika hibah pelatihan efektif, tetapi statistik t sangat kecil. Dengan demikian, dari
Cross-sectional analisis, kita harus menyimpulkan bahwa hibah tidak berpengaruh pada
produktivitas perusahaan. Kami akan kembali ke contoh ini dalam Bab 9 dan menunjukkan
bagaimana menambahkan informasi dari tahun sebelumnya mengarah ke kesimpulan yang
jauh berbeda.
Bahkan dalam kasus di mana analisis kebijakan tidak melibatkan menugaskan unit ke
grup kontrol dan suatu kelompok pengobatan, kita harus berhati-hati untuk menyertakan
faktor yang mungkin terkait secara sistematis biner variabel independen yang menarik.
Sebuah contoh yang baik ini adalah pengujian untuk diskriminasi rasial. Race adalah sesuatu
yang tidak ditentukan oleh seorang individu atau oleh administrator pemerintah. Faktanya ras
akan tampak sebagai contoh sempurna dari variabel penjelasan eksogen, mengingat bahwa itu
adalah ditentukan pada saat lahir. Namun, untuk alasan historis, ras sering dikaitkan dengan
faktor lain yang relevan: perbedaan yang sistematis dalam latar belakang ras, dan perbedaan
ini dapat menjadi penting dalam pengujian untuk diskriminasi saat ini.
Masalah lain yang sering muncul dalam kebijakan dan evaluasi program adalah bahwa
individu (atau perusahaan atau kota) memilih apakah akan berpartisipasi dalam perilaku atau
program tertentu. Misalnya, individu memilih untuk menggunakan obat-obatan terlarang atau
minum alkohol. Jika kita ingin meneliti efek dari perilaku status pengangguran, pendapatan,
atau perilaku kriminal, kita harus khawatir bahwa penggunaan narkoba mungkin berkorelasi
dengan faktor lain yang dapat mempengaruhi pekerjaan dan hasil kriminal. Anak yang
memenuhi syarat untuk program seperti Head Start berpartisipasi berdasarkan keputusan
orang tua. Sejak latar belakang keluarga berperan dalam keputusan Head Start dan
mempengaruhi hasil siswa, kita harus mengendalikan faktor ketika meneliti efek dari kepala
mulai [lihat, misalnya, Currie dan Thomas (1995)]. Individu dipilih oleh majikan atau instansi
pemerintah untuk berpartisipasi dalam program pelatihan kerja dapat berpartisipasi atau tidak,
dan keputusan ini tidak mungkin acak [lihat, misalnya, Lynch (1992)]. Kota dan negara
memilih apakah akan menerapkan hukum senjata kontrol tertentu, dan kemungkinan bahwa
keputusan ini secara sistematis terkait dengan faktor lain yang mempengaruhi kejahatan
kekerasan [lihat, misalnya, Kleck dan Patterson (1993)].
Paragraf sebelumnya memberikan contoh apa yang umumnya dikenal sebagai masalah
pilihan diri dalam bidang ekonomi. Secara harfiah, istilah berasal dari fakta bahwa individu
memilih diri ke perilaku tertentu atau program: Partisipasi tidak ditentukan secara acak. Istilah
ini umumnya digunakan ketika sebuah biner indikator partisipasi dapat secara sistematis
terkait dengan faktor yang belum diamati. Jadi, jika kita menulis model sederhana
y = β0 + β1partic + u,
dimana y adalah variabel hasil dan partic adalah variabel biner yang sama dengan
kesatuan jika individu, perusahaan, atau sebuah perilaku atau program atau memiliki jenis
hukum tertentu, maka kita khawatir bahwa nilainya tergantung pada partisipasi: E(u|partic =
1) ≠ E(u|partic = 0). Seperti yang kita ketahui, ini menyebabkan pengukur regresi sederhana
dari B1 menjadi bias, dan sehingga kita tidak akan mengungkap efek sebenarnya dari
partisipasi. Dengan demikian, masalah pemilihan diri adalah cara lain bahwa variabel
penjelasan (partic dalam kasus ini) dapat endogen.
Sekarang, kita tahu bahwa analisis regresi berganda dapat, untuk beberapa derajat,
meringankan masalah selfselection. Faktor dalam istilah galat dalam (7,34) yang berkorelasi
dengan partic dapat dimasukkan dalam sebuah persamaan regresi Multiple, dengan asumsi,
tentu saja, bahwa kita dapat mengumpulkan data tentang faktor ini. Sayangnya, dalam banyak
kasus, kita khawatir bahwa faktor yang belum diamati terkait dengan partisipasi, dalam yang
kasus regresi berganda menghasilkan estimator bias.
Dengan analisis regresi standar beberapa menggunakan data lintas sektoral, kita harus
menyadari menemukan efek palsu dari program pada variabel hasil karena masalah pilihan
diri. Contoh yang baik dari hal ini terkandung dalam Currie dan Cole (1993). Para penulis
meneliti efek AFDC (Bantuan untuk Keluarga dengan anak dependent) partisipasi pada berat
lahir seorang anak. Bahkan setelah mengendalikan berbagai karakteristik keluarga dan latar
belakang, para penulis memperoleh perkiraan OLS yang menyiratkan partisipasi dalam
AFDC menurunkan berat badan lahir. Sebagai menunjukkan penulis, sulit untuk percaya
bahwa partisipasi AFDC itu sendiri menyebabkan menurunkan berat badan lahir. [Lihat
Currie (1995) untuk contoh tambahan.] Menggunakan metode ekonometrik yang berbeda
yang akan kita bahas dalam Bab 15, Currie dan Cole menemukan bukti baik tidak berpengaruh
atau efek positif partisipasi AFDC pada berat badan lahir.
Sebuah respon biner adalah bentuk yang paling ekstrem dari variabel acak diskrit:
hanya membutuhkan dua nilai, nol dan satu. Seperti yang kita bahas di bagian 7-5, parameter
dalam model probabilitas linier dapat mengukur perubahan probabilitas bahwa y = 1 karena
peningkatan satu unit dalam suatu variabel penjelasan. Kami juga membahas bahwa, karena
y adalah hasil nol-satu, P(y = 1) = E(y), dan kesetaraan ini terus berlanjut ketika kita kondisi
pada variabel penjelasan.
Variabel ketergantungan diskrit lainnya muncul dalam praktek, dan kita telah melihat
beberapa contoh, seperti berapa kali seseorang ditangkap pada tahun tertentu (contoh 3,5).
Studi tentang faktor mempengaruhi kesuburan sering menggunakan jumlah anak yang hidup
sebagai variabel dependen dalam regresi analisis. Seperti jumlah penangkapan, jumlah anak
yang hidup mengambil satu set kecil nilai integer, dan nol adalah nilai umum. Data dalam
FERTIL2, yang berisi informasi tentang sampel besar perempuan di Botswana adalah salah
satu contoh. Sering demografer tertarik pada efek pendidikan pada kesuburan, dengan
perhatian khusus untuk mencoba menentukan apakah pendidikan memiliki efek kausal pada
kesuburan. Contoh seperti mengangkat pertanyaan tentang bagaimana seseorang menafsirkan
koefisien regresi: setelah semua, satu tidak dapat memiliki sebagian kecil dari anak.
Pada saat ini, kita mengabaikan masalah apakah regresi ini cukup kontrol untuk semua
faktor yang mempengaruhi kesuburan. Sebaliknya kita fokus pada menafsirkan koefisien
regresi.
Pertimbangkan koefisien utama yang menarik, βeduc = -,090. Jika kita mengambil
perkiraan ini secara harfiah, ia mengatakan bahwa setiap tahun tambahan pendidikan
mengurangi perkiraan jumlah anak oleh. 090-sesuatu jelas mustahil untuk setiap wanita
tertentu. Masalah serupa muncul ketika mencoba menafsirkan βage = .175. Bagaimana kita
dapat memahami koefisien ini?
Untuk menafsirkan hasil regresi umumnya, bahkan dalam kasus di mana y adalah
diskrit dan mengambil kecil jumlah nilai, sangat berguna untuk mengingat interpretasi OLS
sebagai estimasi efek dari xj pada nilai yang diharapkan (atau rata) dari y. Pada umumnya,
berdasarkan asumsi MLR. 1 dan MLR. 4,
Terlihat dalam cahaya ini, kita sekarang dapat memberikan makna untuk hasil regresi
seperti dalam persamaan (7,35). Koefisien βeduc = -,090 berarti bahwa kita memperkirakan
bahwa kesuburan rata jatuh oleh 0,9 anak diberikan satu tahun lagi pendidikan. Sebuah cara
yang baik untuk meringkas penafsiran ini adalah bahwa jika setiap wanita dalam kelompok
100 memperoleh tahun lain pendidikan, kami memperkirakan akan ada sembilan lebih sedikit
anak di antara mereka.
Menambahkan variabel Dummy regresi ketika y itu sendiri diskrit menyebabkan tidak
ada masalah ketika kita menafsirkan efek perkiraan dalam hal nilai rata-rata. Menggunakan
data di FERTIL2 kita mendapatkan
dimana listrik adalah variabel Dummy sama dengan satu jika wanita tinggal di sebuah
rumah dengan listrik. Tentu saja tidak mungkin benar bahwa seorang wanita tertentu yang
memiliki listrik memiliki. 362 lebih sedikit anak daripada jika tidak sebanding dengan wanita
yang tidak. Tapi kita bisa mengatakan bahwa ketika membandingkan 100 wanita dengan
listrik untuk 100 perempuan tanpa-pada usia yang sama dan tingkat pendidikan-kami
memperkirakan mantan kelompok untuk memiliki sekitar 36 lebih sedikit anak.
Kebetulan, ketika y adalah diskrit model linier tidak selalu memberikan perkiraan
terbaik parsial efek pada E(y|x1, x2, ... , xk). Bab 17 berisi model yang lebih maju dan metode
estimasi yang cenderung sesuai dengan data yang lebih baik ketika kisaran y terbatas dalam
beberapa cara substantif. Namun demikian, model linier yang diperkirakan oleh OLS sering
memberikan pendekatan yang baik untuk efek parsial yang benar, setidaknya rata.
Kesimpulan
Dalam bab ini, kita telah belajar bagaimana menggunakan informasi kualitatif dalam
analisis regresi. Dalam sederhana kasus, sebuah variabel Dummy didefinisikan untuk
membedakan antara dua kelompok, dan perkiraan Koefisien pada variabel Dummy
memperkirakan perbedaan ceteris paribus antara kedua kelompok. Memungkinkan untuk
lebih dari dua kelompok yang dicapai dengan mendefinisikan satu set Dummy variabel: jika
ada g Groups, maka g - 1 variabel Dummy disertakan dalam model. Semua perkiraan pada
variabel Dummy ditafsirkan relatif terhadap dasar atau kelompok patokan (kelompok yang
tidak ada variabel Dummy disertakan dalam model).
Dummy variabel juga berguna untuk memasukkan informasi ordinal, seperti kredit
atau Kecantikan dalam model regresi. Kami hanya mendefinisikan satu set Dummy variabel
yang mewakili hasil yang berbeda dari variabel ordinal, memungkinkan salah satu kategori
menjadi kelompok dasar.