Anda di halaman 1dari 28

EKONOMETRIKA

”ANALISIS REGRESI BERGANDA MENGGUNAKAN


INFORMASI KUALITATIF : BINARY ATAU DUMMY
VARIABEL”

OLEH : KELOMPOK 7
Ni Putu Ferbilia Sarlitawati (1087511059)
I Komang Wibawa (1807511060)
Theodorus Prihady Indrianto (1807511062)

FAKULTAS EKONOMI DAN BISNIS


UNIVERSITAS UDAYANA
7.1 INFORMASI KUALITATIF
Informasi kualitatif seringkali muncul dalam bentuk binary information, contohnya seperti
perempuan dan laki-laki, suatu perusahaan menawarkan jenis tertentu dari program pensiunan,
suatu negara menyelenggarakan hukuman mati atau tidak. Informasi tersebut dapat didefinisikan
sebagai binary variable atau variabel nol-satu atau sering disebut dummy variable.
Dalam menjelaskan dummy variable, kita harus mengingat kejadian mana yang diberi nilai
1 dan 0. Mengapa kita menggunakan nilai 0 dan 1 ? Karena hal tersebut mengarah pada model
regresi dimana parameternya mempunyai interpretasi yang natural atau sederhana.

7.2 VARIABEL BEBAS DUMMY TUNGGAL


Sebagai contoh kita hanya menggunakan satu variable dummy sebagai variable bebas pada
persamaan upah per jam berikut ini :
wage = β0 + 𝜹0female + β1 educ + u (7.1)
Pada persamaan ini hanya mengobservasi dua faktor yang berpengaruh terhadap upah yaitu
: jenis kelamin dan pendidikan. Female = 1 jika berjenis kelamin perempuan dan female = 0 jika
berjenis kelamin laki-laki serta menggunakan parameter 𝛿 0 sebagai perbedaan upah per jam antara
laki-laki dan perempuan. Jika 𝛿 0 < 0 dan pada tingkat faktor lain yang sama, perempuan
berpenghasilan lebih rendah daripada laki-laki.
Jika kita mengasumsikan kondisi nol sebagai asumsi E(u|female, educ) = 0, maka :
𝜹0 = E(wage|female = 1, educ) – E(wage|female = 0, educ)
Karena female = 1 coressponden untuk perempuan dan female = 0 corresponden untuk laki-
laki. Sehingga dapat ditulis sebagai berikut :
𝜹0 = E(wage|female, educ) – E(wage|male, educ) (7.2)
Situasi ini dapat digambarkan dalam bentuk grafik sebagai perubahan atau pergeseran
intersept antara laki-laki dan perempuan. 𝜹0 < 0 menunjukan bahwa penghasilan laki-laki memiliki
jumlah tetap yang lebih tinggi per jamnya dibandingkan dengan perempuan. Perbedaan ini tidak
ditentukan oleh tingkat pendidikan, hal ini mengapa tingkat pendidikan untuk laki-laki dan
perempuan digambarkan parallel.
Pada (7.1) intersept untuk laki-laki adalah β0 dan untuk perempuan adalah β0 + 𝛿 0. Karena
hanya ada dua kelompok, sehingga kita hanya memerlukan dua intersept yang berbeda.
Menggunakan dua dummy varibel akan menunjukan perfect collinearity karena female + male =
1 , dimana male adalah fungsi linear dari female. Penggunaan dummy variable pada kedua jenis
kelamin merupakan contoh sederhana yang disebut dummy variable trap., yang bergerak ke atas
ketika terlalu banyak variable dummy yang dijelaskan.
Pada contoh (7.1) laki-laki dijadikan sebagai patokan atau dasar. Ini kenapa β0 adalah
intersept untuk laki-laki dan 𝛿 0 adalah perbedaan intersept antara perempuan dan laki-laki. Kita
juga bisa memilih perempuan sebagai dasar atau patokan dengan rumus :
wage =𝜶0 + 𝜸0male + β1educ + u
dimana intersept untuk perempuan adalah 𝛼 0 dan intersept untuk laki-laki adalah 𝛼 0 + 𝛾0,
ini mengindikasi bahwa :
𝜶0 = β0 + 𝜹0 dan 𝜶0 + 𝜸0 = β0
Tidak banyak yang berubah ketika menggunakan variable bebas yang lebih banyak dalam suatu
model. Seperti contoh dibawah :
wage = β0 + 𝜹0female + β1educ + β2exper + β3tenure + u (7.3)
Jika educ, exper dan tenure merupakan karakteristik produktivitas yang relevan, maka hipotesisnya
H0 : 𝛿 0 = 0 jika tidak ada perbedaan antara laki-laki dan perempuan dan H1 : 𝛿 0 < 0 jika ada
perbedaan.

CONTOH 7.1 Persamaan Upah Per Jam


̂ = -1.57 – 1.81 female + 0.572 educ + 0.25 exper + 0.141 tenure
𝒘𝒂𝒈𝒆 Persamaan (7.4)
(0.72) (0.26) (0.049) (0.012) (0.021)
n = 526, R2 = 0.364
Tanda negative pada intersept sebenarnya tidak masalah karena tidak ada orang yang
memiliki nilai 0 pada tingkat educ, exper dan tenure dalam sampel. Koefisien female menunjukan
perbedaan rata-rata upah per jam antara laki-laki dan perempuan yang memiliki tingkat educ, exper
dan tenure yang sama. Jika tingkat educ, exper dan tenure adalah sama pada laki-laki dan
perempuan maka rata-rata penghasilan perempuan adalah $1.81 lebih rendah dibandingkan dengan
upah laki-laki.
Hal ini penting untuk membandingkan koefisien perempuan pada persamaan (7.4) untuk
mengestimasi ketika semua variable bebas yang lain dikeluarkan dari model persamaan.
̂ = 7.10 – 2.51female
𝒘𝒂𝒈𝒆
(0.21) (0.30) (7.5)
n = 526, R2 = 0.116
Koefisien pada (7.5) memiliki interpretasi yang sederhana. Intersept adalah rata-rata upah
untuk laki-laki pada sampel (perempuan=0) sehingga laki-laki mendapatkan upah $7.10 rata-rata
per jam. Koefisien pada perempuan adalah perbedaan rata-rata upah antara laki-laki dan
perempuan. Sehingga rata-rata upah untuk perempuan adalah 7.10 – 2.51=4.59 atau $4.59 per jam.
Perbedaan perkiraan upah antara laki-laki dan perempuan lebih besar pada (7.5)
dibandingkan pada (7.4) karena persamaan (7.5) tidak dipengaruhi oleh perbedaan pendidikan,
pengalaman dan masa kerja.
Dimana dummy variable PC sama dengan 1 jika seorang siswa memiliki computer pribadi dan 0
jika tidak.
Kita menentukan faktor atau variable tersebut karena ingin mengetahui efek rata-rata pada colGPA
jika seorang siswa diambil secara acak dan masing-masing diberikan satu computer pribadi.

Persamaan ini mengimplikasi bahwa seorang siswa yang memiliki PC pribadi memiliki prediksi
GPA sekitar 0.16 poin lebih tinggi daripada siswa yang tidak memiliki PC pribadi. Hal ini bersifat
sangat signifikan secara statistic dengan
tPC = 0.157/0.057 = 2.75
Contoh diatas adalah contoh yang sangat relevan untuk mengalisis suatu kebijakan. Kasus
khusus tentang analisis suatu kebijakan adalah program evaluasi, dimana kita dapat mengetahui
pengaruh program ekonomi atau social terhadap individu, perusahaan, masyarakat maupun kota.

CONTOH 7.3 Effect of Training Grants on Hours of Training

Variabel terikatnya adalah jam training per pegawai di sebuah perusahaan. Variabel grant adalah
variable dummy yang sama dengan 1 jika perusahaan menerima hibah pelatihan pada tahun 1998
dan 0 jika tidak. Variabel sales dan employ menunjukan penjualan tahunan dan jumlah pegawai.
Varibel grant sangat signifikan dengan tgrant =4.70.
Koefisien log (sales) sangat kecil dan tidak signifikan, koefisien log (employ) memiliki arti bahwa
jika tingkat suatu perusahaan 10% lebih besar maka tingkat pelatihan pekerjanya sekitar 0.61 jam
lebih rendah.

7.2A INTERPRETASI DUMMY VARIABEL JIKA VARIABEL TERIKATNYA


ADALAH LOG (Y)
Biasanya suatu persamaan memiliki variable terikat yang ditunjukan dalam bentuk logaritma
dengan satu atau lebih variable dummy yang digunakan sebagai variable bebasnya. Koefisien pada
persamaan tersebut adalah dalam bentuk persentase.

Semua variable berhubungan dengan pribadi kecuali colonial yang merupakan binary variable
sama dengan 1 jika perumahan memiliki desain colonial. Untuk memberikan tingkat lotsize, sqrft,
̂
dan bdrms, perbedaan pada log(𝑝𝑟𝑖𝑐𝑒) antara rumah dengan desain colonial dan tidak adalah
0.54. ini berarti bahwa rumah dengan desain colonial diprediksi terjual sekitar 5.4% lebih banyak
dengan asumsi faktor lainnya tetap.
Pada contoh diatas menunjukan bahwa, jika log(y) adalah variable terikat, koefisien dummy
variable jika dikalikan 100 maka diinterpretasikan sebagai perbedaan persentase pada y jika faktor
lainnya tetap. Jika koefisien dummy variable memiliki proporsi perubahan yang lebih besar pada
y maka perbedaan persentase diperoleh dengan penghitungan semi elastisitas.
Dengan menggunakan contoh 7.4, koefisien perempuan mengimplikasi bahwa untuk tingkat yang
sama pada educ, exper, tenure, perempuan mendapatkan gaji sekitar 100(0.297) = 29.7% lebih
rendah daripada laki-laki. Sehingga perbedaan upah antara perempuan dan laki-laki yaitu :
̂𝑭) − 𝐥𝐨𝐠⁡(𝒘𝒂𝒈𝒆
𝐥𝐨𝐠⁡(𝒘𝒂𝒈𝒆 ̂ 𝑴) = - 0.297

Sehingga :
̂
(𝒘𝒂𝒈𝒆 ̂𝑴) / 𝒘𝒂𝒈𝒆
𝑭 − 𝒘𝒂𝒈𝒆 ̂𝑴 = exp(-0.297 – 1) = - 0.257

Hal ini merupakan perkiraan yang lebih akurat bahwa rata-rata upah perempuan 2.57% dibawah
upah laki-laki.
Jika kita membuat perbaikan yang sama pada contoh 7.4 kita akan memperoleh exp(0.54)
– 1 = 0.0555 atau sekitar 5.6%. Perbaikan tersebut memiliki pengaruh yang lebih kecil pada contoh
7.4 dibandingan dengan contoh upah karena besaran dari koefisien dummy variable adalah lebih
kecil pada 7.8 dibandingkan pada 7.9.

Secara umum, jika 𝛽1 ̂ adalah koefisien dari dummy varibel katakanlah x1, jika log(y) adalah
variable terikat maka perbedaan persentase pada prediksi y ketika x1 = 1 dan jika x1 = 0 adalah :
̂) – 1 ]
100 [exp (𝜷𝟏 (7.10)

7.3 PENGGUNAAN DUMMY VARIABEL UNTUK KATEGORI GANDA


CONTOH 7.6 Persamaan Log Upah Per Jam
Semua koefisien kecuali singfem memiliki t statistic jauh diatas 2 pada nilai absolut. t
statistic untuk singfem sekitar – 1.96 dengan tingkat signifikan 5% pada dua sisi alternative.
Untuk menginterpretasi koefisien pada dummy variable, harus diingat bahwa kelompok
dasar yang digunakan adalah single males. Sehingga perkiraan pada ketiga dummy variable
mengukur perbedaan proporsi upah relative pada laki-laki lajang. Contohnya, laki-laki menikah
diestimasi mendapatkan 21.3% lebih tinggi daripada laki-laki lajang, dengan asumsi faktor
lainnya tetap. Perempuan menikah diprediksi mendapatkan 19.8% lebih rendah daripada laki-laki
lajang dengan tingkat variable lainnya sama.
Oleh karena semua intersept biasanya digunakan untuk semua kelompok, maka kita dapat
mengabaikan hal tersebut dalam menentukan perbedaan. Estimasi perbedaan proporsional antara
perempuan lajang dan menikah adalah
– 0.110 – ( - 0.198) = 0.088
Yang artinya perempuan lajang mendapatkan sekitar 8.8% upah yang lebih tinggi daripada
perempuan yang sudah menikah.
Jika kita menggunakan perempuan yang sudah menikah sebagai kelompok dasar maka :
̂
𝐥𝐨𝐠(𝒘𝒂𝒈𝒆) = 0.123 + 0.411marrmale + 0.198singmale + 0.088singfem + …..,
(0.106) (0.056) (0.058) (0.052)
Dimana tentu saja tidak ada koefisien atau standar error yang berubah. Estimasi singfem yaitu
0.088. Dan t statistic antara perempuan menikah dan lajang yaitu tsingfem = 0.088/0.052 = 1.69

7.3A MENGGABUNGKAN INFORMASI ORDINAL MENGGUNAKAN DUMMY


VARIABEL
Sebagai contoh dari ordinal variable yaitu CR atau credit rating {0,1,2,3,4} dimana rating 4
merupakan yang terbaik.
MBR (municipal bond interest rate) = β0 + β1CR + other factor
β1 adalah persentase perubahan pada MBR jika CR bertambah sebanyak 1 unit dengan asumsi
faktor lain tetap. Kita tau bahwa CR 4 lebih baik dibandingkan 3 tetapi perbedaan antaa rating 4
dn 3 apakah sama dengan perbedaan rating 1 dan 0 ? Jika tidak, maka kita tidak bisa
mengansumsikan bahwa kenaikan 1 unit CR memiliki efek konstan pada MBR.
Pendekatan yang lebih baik karena CR mengambil nilai yang relative sedikit adalah dengan
mendefinisikan variable dummy untuk setiap nilai CR. Misalnya, CR1= 1 jika CR = 1 dan CR1= 0
jika bukan, CR2= 1 jika CR = 2 dan CR2= 0 jika bukan dan seterusnya.

MBR = β0 + 𝜹𝟏CR1+ 𝜹𝟐R2 + 𝜹𝟑CR3 + 𝜹𝟒CR4 + other factor (7.12)


Atau dapat ditulis dengan lebih simple yaitu :
MBR = β0 + 𝜹𝟏 (CR1+ 2R2 + 3CR3 + 𝟒CR4 ) + other factor

CONTOH 7.7 Pengaruh Daya Tarik Fisik Terhadap Upah

Untuk laki-laki yang berpenampilan dibawah rata-rata diperkirakan berpenghasilan sekitar


16.4% lebih rendah dari rata-rata laki-laki yang sama dalam hal lain (pendidikan, pengalaman,
masa kerja,status perkawinan). Pengaruhnya secara statistic berbeda dengan 0, dimana t = - 3.57 .
Laki-laki berpenampilan diatas rata-rata diperkirakan berpenghasilan sekitar 1.6% lebih tinggi
daripada rata-rata laki-laki yang sama dalam hal lain. Dan pengaruhnya adalah tidak bersifat
signifikan secara statistic karena t <5.
Untuk perempuan dengan tingkat penampilan dibawah rata-rata diprediksi berpenghasilan
sekitar 12.4% lebih rendah daripada perempuan yang sama dalam hal lainnya, dengan t = -1.88.
Seperti halnya laki-laki, perkiraan abvavg jauh lebih kecil dan tidak berbeda secara statistic dengan
0.
7.4 Interaksi-interaksi yang melibatkan Variabel Dummy
A. Interaksi Variabel Dummy

Variabel dummy adalah variabel yang digunakan untuk mengkuantitatifkan variabel yang
bersifat kualitatif (misal: jenis kelamin, ras, agama, perubahan kebijakan pemerintah, perbedaan
situasi dan lain-lain). Variabel dummy merupakan variabel yang bersifat kategorikal yang diduga
mempunyai pengaruh terhadap variabel yang bersifat kontinue. Variabel dummy sering juga
disebut variabel boneka, binary, kategorik atau dikotom. Variabel dummy hanya mempunyai 2
(dua) nilai yaitu 1 dan nilai 0, serta diberi simbol D. Dummy memiliki nilai 1 (D=1) untuk salah
satu kategori dan nol (D=0) untuk kategori yang lain.

D = 1 untuk suatu kategori (laki- laki, kulit putih, sarjana dan sebagainya).

D = 0 untuk kategori yang lain (perempuan, kulit berwarna, non-sarjana dan sebagainya).

Nilai 0 biasanya menunjukkan kelompok yang tidak mendapat sebuah perlakuan dan 1
menunjukkan kelompok yang mendapat perlakuan. Dalam regresi berganda, aplikasinya bisa
berupa perbedaan jenis kelamin (1 = laki-laki, 0 = perempuan), ras (1 = kulit putih, 0 = kulit
berwarna), pendidikan (1 = sarjana, 0 = non-sarjana).dari pengertiannya variable dummy hanya
memiliki 2 nilai yaitu 1 dan 0.

Contoh 7.9:

Pengaruh pemakaian komputer pada upah pekerja

Krueger (1993) memperkirakan dampak penggunaan komputer terhadap upah. Dia


mendefinisikan variabel dummy, yang kita sebut compwork, sama dengan satu jika seseorang
menggunakan komputer di tempat kerja. dan comphome, sama dengan satu jika orang tersebut
menggunakan komputer di rumah
̂ = ⁡ 𝛽̂ 0 + ⁡ .177𝑐𝑜𝑚𝑝𝑤𝑜𝑟𝑘 + .070⁡𝑐𝑜𝑚𝑝ℎ𝑜𝑚𝑒
𝑙𝑜𝑔𝑤𝑎𝑔𝑒
(.009) (.019)

+017⁡𝑐𝑜𝑚𝑝𝑤𝑜𝑟𝑘 − 𝑐𝑜𝑚𝑝ℎ + 𝑜𝑡ℎ𝑒𝑟⁡𝑓𝑎𝑐𝑡𝑜𝑟


(.023) 7.15

Faktor lainnya adalah faktor standar untuk regresi upah, termasuk pendidikan,
pengalaman, gender, dan status perkawinan. Krueger tidak melaporkan intersep karena tidak
penting,yang perlu kita ketahui adalah bahwa kelompok dasar terdiri dari orang-orang yang tidak
menggunakan komputer di rumah atau di tempat kerja. Perlu diperhatikan bahwa perkiraan
pengembalian untuk menggunakan komputer di tempat kerja (tetapi tidak di rumah) adalah
sekitar 17,7%. (Perkiraan yang lebih tepat adalah 19,4%.) Demikian pula, orang yang
menggunakan komputer di rumah tetapi tidak di tempat kerja memiliki upah sekitar 7% lebih
tinggi daripada mereka yang tidak menggunakan komputer sama sekali. Perbedaan antara
mereka yang menggunakan komputer di kedua tempat, relatif terhadap mereka yang
menggunakan komputer di kedua tempat, adalah sekitar 26,4% (diperoleh dengan menambahkan
ketiga koefisien dan mengalikan dengan 100), atau perkiraan yang lebih tepat 30,2% diperoleh
dari persamaan (7.10). Istilah interaksi dalam (7.15) tidak signifikan secara statistik, juga tidak
terlalu besar secara ekonomi. Tapi itu menyebabkan kerusakan kecil dengan berada di
persamaan.

B. Perbedaan Slope
Melanjutkan dengan contoh upah, anggaplah kita ingin menguji apakah pengembalian
pendidikan sama untuk pria dan wanita, memungkinkan perbedaan upah yang konstan antara
pria dan wanita,untuk sederhananya dalam model hanya dimasukkan pendidikan dan jenis
kelamin.
log(𝑤𝑎𝑔𝑒) = (𝛽0 + 𝛿0𝑓𝑒𝑚𝑎𝑙𝑒 )+(β1+δ1female)+μ 7.16

Jika kita memasukkan perempuan – 0 ke dalam (7.16), maka kita menemukan bahwa
intersep untuk pria adalah β1 dan kemiringan pada pendidikan untuk pria adalah β0, kita
masukkan perempuan – 1,maka intersep untuk perempuan adalah β0+δ0 dan slopenya adalah
β1+δ1. Di mana δ0 menunjukkan kemiringan slope antara laki-laki dan perempuan, dan δ1
menunjukkan perbandingan hasil pendidikan antara laki-laki dan perempuan.

Adapun grafiknya yaitu:

Grafik (a) menunjukkan kasus di mana intersep untuk wanita di bawah pria, dan kemiringan
garis lebih kecil untuk wanita daripada pria. Ini berarti bahwa perempuan berpenghasilan lebih
rendah dari laki-laki di semua tingkat pendidikan, dan kesenjangan meningkat ketika pendidikan
semakin besar.
Grafik (b), intersep untuk wanita di bawahnya untuk pria, tetapi kemiringan pendidikan lebih
besar untuk wanita. Ini berarti bahwa perempuan berpenghasilan lebih rendah dari laki-laki di
tingkat pendidikan yang rendah, tetapi kesenjangan semakin menyempit saat pendidikan
meningkat. Pada titik tertentu, seorang wanita menghasilkan lebih dari seorang pria dengan
tingkat pendidikan yang sama

C. Menguji Perbedaan dalam Fungsi Regresi antar Grup


Contoh-contoh sebelumnya menggambarkan bahwa berinteraksi variabel dummy dengan
variabel independen lainnya. Dalam kasus lainnya, telah diuji hipotesis nol bahwa dua populasi
atau kelompok mengikuti fungsi regresi yang sama, terhadap alternatif yang berbeda satu atau
lebih slope di seluruh kelompok.
Misalkan kita ingin menguji apakah model regresi yang sama menggambarkan rata-rata titik
kuliah untuk atlet pria dan wanita. Persamaannya adalah:

𝑐𝑢𝑚𝑔𝑝𝑎 = ⁡𝛽0 + 𝛽1𝑠𝑎𝑡 + ⁡𝛽2⁡ℎ𝑠𝑝𝑒𝑟𝑐 + ⁡𝛽3⁡𝑡𝑜𝑡ℎ𝑟𝑠 + ⁡𝜇

di mana sat adalah skor SAT, hsperc adalah persentil peringkat sekolah menengah, dan tothrs
adalah total jam belajar di perguruan tinggi Jika ingin menguji apakah ada perbedaan antara pria
dan wanita, maka kami harus mengizinkan model di mana intersep dan semua slope dapat
berbeda di kedua kelompok:

𝑐𝑢𝑚𝑔𝑝𝑎 = ⁡𝛽0 + 𝛿0⁡𝑓𝑒𝑚𝑎𝑙𝑒 + ⁡𝛽1⁡𝑠𝑎𝑡 + ⁡𝛽1⁡𝑓𝑒𝑚𝑎𝑙𝑒⁡𝑠𝑎𝑡 + ⁡𝛽2⁡ℎ𝑠𝑝𝑒𝑟𝑐 +


⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡⁡𝛿2⁡𝑓𝑒𝑚𝑎𝑙𝑒⁡ℎ𝑠𝑝𝑒𝑟𝑐 + ⁡𝛽3⁡𝑡𝑜𝑡ℎ𝑟𝑠 + ⁡𝛿3⁡𝑓𝑒𝑚𝑎𝑙𝑒⁡𝑡𝑜𝑡ℎ𝑟𝑠 + 𝜇 7.20

Parameter δ0 adalah perbedaan dalam penyadapan antara perempuan dan laki-laki, δ1 adalah
perbedaan kemiringan sehubungan dengan posisi perempuan dan laki-laki,hipotesis nol yang
sesuai dengan persamaan diatas adalah
𝐻0: 𝛿0 = 0, 𝛿1 = 0, 𝛿2 = 0, 𝛿3 = 0

Jika salah satu δj tidak sama dengan nol, maka modelnya berbeda untuk pria dan wanita.
Menggunakan data semester dari file GPA3, model lengkap dapat diestimasikan sebagai berikut

Kesalahan standar pada wanita dan istilah interaksi membuatnya sulit untuk mengatakan
dengan tepat bagaimana pria dan wanita berbeda. dimana harus sangat berhati-hati dalam
menafsirkan persamaan (7.22) karena, dalam memperoleh perbedaan antara perempuan dan laki-
laki, istilah interaksi harus diperhitungkan. prediksi perbedaan antara wanita dan pria adalah -
.353+.00025(1.100)-.00055(10)-.00012(50)= 461. Yaitu, atlet wanita diperkirakan memiliki IPK
yang hampir setengah poin lebih tinggi dari atlet pria yang sebanding.

Dalam model umum dengan variabel k dan intersep, anggaplah kita memiliki dua
kelompok, yaitu g - 1 dan g - 2. Akan diuji apakah intersep dan semua slope sama di kedua
kelompok.adapun permodelan dapat ditulis sebagai berikut

Y= βg ,0+βg,1×1+βg,2×2+…..+βg,k×k+μ

Kegagalan untuk menolak hipotesis bahwa parameter yang mengalikan istilah interaksi
semuanya nol menunjukkan bahwa model terbaik hanya memungkinkan untuk perbedaan
intersep,yaitu
Karena probabilitas harus jumlah ke satu P(y = 0|x) = 1 – P (y = 1|x) juga merupakan fungsi linier
dari xj.

Beberapa model regresi linear dengan variabel tergantung biner disebut probabilitas
linier model (LPM) karena probabilitas respons linear dalam parameter bj, Dalam (LPM) bj,
mengukur perubahan Probabilitas keberhasilan ketika xj berubah, memegang faktor lain yang
tetap:

ΔP(y = 1|x) = β1Δxj

Dengan pemikiran ini, model regresi berganda dapat memungkinkan kita untuk
memperkirakan efek dari berbagai penjelasan variabel pada peristiwa kualitatif. Mekanisme
OLS sama seperti sebelumnya. Jika kita menulis perkiraan persamaan sebagai:

Ŷ = β0 + β1x1 + ... + βkxk

kita sekarang harus ingat bahwa ŷ adalah probabilitas diprediksi keberhasilan. Oleh
karena itu, β0 adalah diprediksi kemungkinan keberhasilan ketika setiap xj. diatur ke nol, yang
mungkin atau mungkin tidak menarik. Kemiringan Koefisien β1 mengukur perubahan
diprediksi dalam Probabilitas keberhasilan ketika x1. meningkat dengan satu unit.

Untuk menafsirkan dengan benar model probabilitas linier, kita harus tahu apa yang
merupakan "sukses.". Dengan demikian, ini adalah ide yang baik untuk memberikan variabel
dependen nama yang menggambarkan acara y = 1. Sebagai contoh, biarkan inlf ("dalam
angkatan kerja") menjadi variabel biner yang menunjukkan partisipasi angkatan kerja oleh
wanita yang sudah menikah selama 1975: inlf = 1 jika wanita laporan bekerja untuk upah di
luar rumah di beberapa titik selama tahun, dan nol sebaliknya. Kita berasumsi bahwa
partisipasi angkatan kerja tergantung sumber pendapatan lainnya, termasuk penghasilan
suami (nwifeinc, diukur dalam ribuan dolar), tahun pendidikan (educ), tahun lalu pengalaman
pasar tenaga kerja (exper), usia, jumlah anak kurang dari usia enam tahun (kidslt6), dan
jumlah anak berusia antara 6 dan 18 tahun (kidsge6). Menggunakan data dalam MROZ dari
Mroz (1987), kami memperkirakan model probabilitas linier berikut, di mana 428 para 753
perempuan dalam laporan sampel berada di angkatan kerja di beberapa titik selama 1975:
Menggunakan statistik t biasa, semua variabel dalam (7,29) kecuali kidsge6 yang
signifikan secara statistik, dan semua variabel signifikan memiliki efek yang kita harapkan
berdasarkan teori ekonomi.

Untuk menafsirkan perkiraan, kita harus ingat bahwa perubahan dalam perubahan
variabel independen probabilitas yang inlf = 1. Sebagai contoh, Koefisien pada educ berarti
bahwa, segala sesuatu yang lain dalam (7,29) diadakan tetap, tahun lain pendidikan
meningkatkan kemungkinan partisipasi angkatan kerja .038. Jika kita mengambil persamaan
ini secara harfiah, 10 tahun lagi pendidikan meningkatkan probabilitas menjadi dalam
angkatan kerja oleh. 038(10) = .038, yang merupakan peningkatan yang cukup besar dalam
probabilitas. Hubungan antara probabilitas partisipasi angkatan kerja dan educ diplot dalam
gambar 7,3. Yang lain variabel independen ditetapkan pada nilai nwifeinc = 50, exper = 5,
umur = 30, kidslt6 = 1, dan kidsge6 = 0 untuk tujuan ilustrasi. Probabilitas diperkirakan
negatif sampai pendidikan sama dengan 3,84 tahun. Ini seharusnya tidak menimbulkan terlalu
banyak kekhawatiran karena, dalam sampel ini, tidak ada wanita yang kurang dari lima tahun
pendidikan. Pendidikan terbesar yang dilaporkan adalah 17 tahun, dan ini mengarah ke
probabilitas. 5. Jika kita mengatur variabel independen lainnya pada nilai yang berbeda,
rentang prediksi probabilitas akan berubah. Tapi efek marjinal tahun lain pendidikan pada
probabilitas partisipasi angkatan kerja selalu .038.
Koefisien pada nwifeinc menyiratkan bahwa, jika Dnwifeinc = 10 (yang berarti
peningkatan $10.000), probabilitas bahwa seorang wanita dalam angkatan kerja jatuh oleh.
034. Ini bukan efek yang sangat besar mengingat bahwa peningkatan pendapatan $10.000
adalah substansial dalam hal 1975 dolar. Pengalaman memiliki telah dimasukkan sebagai
kuadrat untuk memungkinkan efek dari pengalaman masa lalu untuk memiliki efek yang
berkurang pada kemungkinan partisipasi angkatan kerja. Memegang faktor lain yang tetap,
perkiraan perubahan probabilitas diperkirakan sebagai. 039 – 2(.0006) exper = .039 - .0012
exper. Titik di mana pengalaman masa lalu tidak berpengaruh pada kemungkinan partisipasi
angkatan kerja adalah .039 / .0012 = 32,5, yang merupakan tingkat pengalaman: hanya 13 dari
753 perempuan dalam sampel memiliki lebih dari 32 tahun pengalaman.

Tidak seperti jumlah anak yang lebih tua, jumlah anak kecil memiliki dampak besar
pada tenaga kerja partisipasi Angkatan. Memiliki satu tambahan anak kurang dari enam tahun
mengurangi probabilitas partisipasi oleh 2,262, pada tingkat tertentu dari variabel lain. Dalam
sampel, hanya di bawah 20% dari perempuan memiliki setidaknya satu anak kecil.

Contoh ini mengilustrasikan seberapa mudah model probabilitas linier untuk


memperkirakan dan menafsirkan, tetapi juga menyoroti beberapa kekurangan dari LPM.
Pertama, mudah untuk melihat bahwa, jika kita pasang kombinasi tertentu nilai untuk variabel
independen ke dalam (7,29), kita bisa mendapatkan prediksi baik kurang dari nol atau lebih
dari satu. Karena ini adalah probabilitas diprediksi, dan probabilitas harus antara nol dan satu,
ini bisa menjadi sedikit memalukan. Misalnya, apa artinya memprediksi bahwa seorang
wanita dalam angkatan kerja dengan probabilitas –. 10? Bahkan, dari 753 perempuan dalam
sampel, 16 yang dilengkapi nilai dari (7,29) kurang dari nol, dan 17 dari nilai yang dipasang
lebih besar dari satu.

Masalah terkait adalah bahwa probabilitas tidak dapat linear terkait dengan variabel
independen untuk semua nilai yang mungkin. Misalnya, (7,29) memprediksi bahwa efek dari
pergi dari nol anak untuk satu anak kecil mengurangi probabilitas bekerja dengan 262. Ini
juga merupakan prediksi penurunan. Jika wanita pergi dari memiliki satu anak muda untuk
dua. Tampaknya lebih realistis bahwa kecil pertama anak akan mengurangi probabilitas
dengan jumlah yang besar, tetapi anak berikutnya akan memiliki efek marginal.

Bahkan dengan masalah ini, model probabilitas linier berguna dan sering diterapkan
dalam ekonomi. Ini biasanya bekerja dengan baik untuk nilai variabel independen yang berada
di dekat Average dalam sampel. Dalam contoh partisipasi angkatan kerja, tidak ada
perempuan dalam sampel memiliki empat anak kecil; Sebenarnya hanya tiga perempuan
memiliki tiga anak kecil. Lebih dari 96% perempuan tidak memiliki anak muda atau satu anak
kecil, dan jadi kita mungkin harus membatasi perhatian pada kasus ini ketika menafsirkan
perkiraan persamaan.

Karena sifat biner y, model probabilitas linier tidak melanggar salah satu Gauss-
Markov Asumsi. Ketika y adalah variabel biner, varians, bersyarat pada x, adalah

Var(y|x) = p(x) [1 – p(x)]

dimana p (x) adalah singkatan untuk probabilitas sukses: p(x) = β0 + β1x1 + ... + βkxk.
Ini berarti bahwa, kecuali dalam kasus di mana probabilitas tidak tergantung pada salah satu
variabel independen, harus ada sifat heteroskedasticity dalam model probabilitas linier. Kita
tahu dari bab 3 bahwa hal ini tidak menimbulkan bias dalam penduga OLS dari βJ. Tapi kita
juga tahu dari bab 4 dan 5 bahwa homoskedasticity sangat penting untuk membenarkan
Statistik t dan F yang biasa, bahkan dalam sampel besar. Karena standar kesalahan dalam
(7,29) tidak umumnya berlaku, kita harus menggunakannya dengan hati-hati. Kami akan
menunjukkan bagaimana memperbaiki kesalahan standar untuk sifat heteroskedasticity dalam
Bab 8. Ternyata, dalam banyak aplikasi, Statistik OLS yang biasa tidak jauh, dan masih dapat
diterima dalam pekerjaan yang diterapkan untuk menyajikan standar analisis OLS model
probabilitas linier.

Contoh 7.12, Model probabilitas linear penangkapan

Biarkan arr86 menjadi variabel biner yang sama dengan kesatuan jika seorang pria
ditangkap selama 1986, dan nol sebaliknya. Penduduk adalah sekelompok pemuda di
California lahir di 1960 atau 1961 yang memiliki setidaknya satu penangkapan sebelum 1986.
Model probabilitas linier untuk mendeskripsikan arr86

arr86 = β0 + β1pcnv + β2avgsen + β3tottime + β4ptime86 + β5qemp86 + u,

pcnv = proporsi penangkapan sebelumnya yang menyebabkan sebuah keyakinan.

avgsen = hukuman yang disajikan dari keyakinan sebelumnya (dalam bulan).

tottime = bulan dihabiskan di penjara sejak usia 18 sebelum 1986.

ptime86 = bulan dihabiskan di penjara pada 1986.

qemp86 = jumlah perempat (0 ke 4) bahwa pria itu secara legal dipekerjakan di 1986.

Biarkan arr86 menjadi variabel biner yang sama dengan kesatuan jika seorang pria
ditangkap selama 1986, dan nol sebaliknya. Penduduk adalah sekelompok pemuda di
California lahir di 1960 atau 1961 yang memiliki setidaknya satu penangkapan sebelum 1986.
Model probabilitas linier untuk mendeskripsikan arr86

arr86 = β0 + β1pcnv + β2avgsen + β3tottime + β4ptime86 + β5qemp86 + u,

pcnv = proporsi penangkapan sebelumnya yang menyebabkan sebuah keyakinan.

avgsen = hukuman yang disajikan dari keyakinan sebelumnya (dalam bulan).

tottime = bulan dihabiskan di penjara sejak usia 18 sebelum 1986.


ptime86 = bulan dihabiskan di penjara pada 1986.

qemp86 = jumlah perempat (0 ke 4) bahwa pria itu secara legal dipekerjakan di 1986.

Mencegat 441, adalah probabilitas diprediksi penangkapan bagi seseorang yang belum
dihukum (dan begitu pcnv dan avgsen keduanya nol), telah menghabiskan waktu di penjara
sejak usia 18, tidak menghabiskan waktu di penjara pada 1986 tahun, dan menganggur selama
setahun penuh. Variabel avgsen dan totaltime tidak signifikan baik secara individu maupun
bersama-sama (tes F memberikan nilai p 5.347), dan avgsen memiliki tanda jika kalimat yang
lebih panjang seharusnya menghalangi kejahatan. Grogger (1991), menggunakan superset
data ini dan metode ekonometrik yang berbeda, menemukan bahwa totaltime memiliki positif
yang signifikan secara statistik efek pada penangkapan dan menyimpulkan bahwa totaltime
adalah ukuran modal manusia dibangun di aktivitas kriminal.

Meningkatkan probabilitas keyakinan tidak menurunkan probabilitas penangkapan,


tetapi kita harus berhati-hati saat menafsirkan besarnya koefisien. Variabel pcnv adalah
proporsi antara nol dan satu; dengan demikian, mengubah pcnv dari nol ke satu pada dasarnya
berarti perubahan dari tidak ada kesempatan untuk dihukum untuk dihukum dengan pasti.
Bahkan perubahan besar ini mengurangi probabilitas penangkapan hanya oleh. 162;
meningkatkan pcnv oleh .5 mengurangi probabilitas penangkapan oleh. 081.

Efek incarcerative diberikan oleh koefisien pada ptime86. Jika seorang pria dipenjara,
dia tidak dapat ditangkap. Sejak ptime86 diukur dalam bulan, enam bulan lagi di penjara
mengurangi probabilitas penangkapan oleh. 022(6) =.132. Persamaan (7,31) memberikan
contoh lain di mana probabilitas linier model tidak dapat benar atas semua rentang variabel
independen. Jika seorang pria dipenjara semua 12 bulan 1986, ia tidak dapat ditahan di 1986.
Mengatur semua variabel lain sama dengan nol, diperkirakan probabilitas penangkapan ketika
ptime86 = 12 adalah. 441 - .022(12) = .177, yang bukan nol. Namun demikian, jika kita mulai
dari probabilitas tanpa syarat penangkapan,. 277, 12 bulan penjara mengurangi probabilitas
untuk dasarnya nol:. 277 - .022(12) = .013.

Akhirnya, pekerjaan mengurangi probabilitas penangkapan dengan cara yang


signifikan. Semua faktor lainnya tetap, seorang pria yang bekerja di keempat penjuru adalah.
172 kurang mungkin ditangkap daripada seorang pria yang tidak dipekerjakan sama sekali.

Kita juga bisa memasukan variabel yang bebas Dummy pada model dengan
ketergantungan Dummy Variabel. Koefisien mengukur perbedaan yang diprediksi dalam
probabilitas relatif terhadap dasar Kelompok. Misalnya, jika kita menambahkan dua Dummies
ras, hitam dan hispan, untuk persamaan penangkapan, kita mendapatkan

Koefisien pada hitam berarti bahwa, Semua faktor lain yang setara, seorang pria kulit
hitam memiliki. 17 kesempatan lebih tinggi ditangkap daripada seorang pria kulit putih
(kelompok dasar). Cara lain untuk mengatakan ini adalah probabilitas 17 persen lebih tinggi
untuk orang kulit hitam daripada untuk kulit putih. Perbedaannya secara statistik signifikan
juga. Demikian pula, pria Hispanik memiliki. 096 lebih tinggi kesempatan untuk ditangkap
daripada pria kulit putih.

7.6. LEBIH LANJUT TENTANG ANALISIS KEBIJAKAN DAN EVALUASI


PROGRAM

Kita harus berhati-hati ketika mengevaluasi program karena dalam banyak contoh
dalam ilmu sosial, kontrol dan kelompok pengobatan tidak ditugaskan secara acak.
Pertimbangkan kembali Holzer et al. (1993), di mana kita sekarang tertarik pada efek dari
hibah pelatihan kerja pada produktivitas pekerja (sebagai lawan dari jumlah pelatihan kerja).
Persamaan minat

log(scrap) = β0 + β1grant + β2log(sales) + β3(employ) + u,

di mana memo adalah tingkat memo perusahaan, dan dua variabel terakhir disertakan
sebagai kontrol. Biner hibah variabel menunjukkan apakah perusahaan menerima hibah di
1988 untuk pelatihan kerja.

Sebelum kita melihat perkiraan, kita mungkin khawatir bahwa faktor yang tidak
diamati yang mempengaruhi pekerja — seperti tingkat pendidikan, kemampuan, pengalaman,
dan masa jabatan yang rata — mungkin berkorelasi dengan Apakah perusahaan menerima
hibah. Holzer et al. menunjukkan bahwa hibah diberikan pada pertama datang, pertama-
dilayani. Tapi ini tidak sama dengan memberikan hibah secara acak. Mungkin perusahaan
dengan pekerja yang kurang produktif melihat peluang untuk meningkatkan produktivitas dan
lebih rajin dalam mengajukan permohonan hibah.

Dengan menggunakan data dalam JTRAIN pada tahun 1988 — ketika perusahaan
benar memenuhi syarat untuk menerima hibah — kami mendapatkan

(Tujuh belas dari 50 perusahaan yang menerima hibah pelatihan, dan tingkat skrap rata
3,47 di semua perusahaan.) Perkiraan titik 2,052 pada hibah berarti bahwa, untuk memberikan
penjualan dan mempekerjakan, perusahaan yang menerima hibah memiliki tingkat memo
sekitar 5,2% lebih rendah dari perusahaan tanpa hibah. Ini adalah arah dari efek yang
diharapkan jika hibah pelatihan efektif, tetapi statistik t sangat kecil. Dengan demikian, dari
Cross-sectional analisis, kita harus menyimpulkan bahwa hibah tidak berpengaruh pada
produktivitas perusahaan. Kami akan kembali ke contoh ini dalam Bab 9 dan menunjukkan
bagaimana menambahkan informasi dari tahun sebelumnya mengarah ke kesimpulan yang
jauh berbeda.

Bahkan dalam kasus di mana analisis kebijakan tidak melibatkan menugaskan unit ke
grup kontrol dan suatu kelompok pengobatan, kita harus berhati-hati untuk menyertakan
faktor yang mungkin terkait secara sistematis biner variabel independen yang menarik.
Sebuah contoh yang baik ini adalah pengujian untuk diskriminasi rasial. Race adalah sesuatu
yang tidak ditentukan oleh seorang individu atau oleh administrator pemerintah. Faktanya ras
akan tampak sebagai contoh sempurna dari variabel penjelasan eksogen, mengingat bahwa itu
adalah ditentukan pada saat lahir. Namun, untuk alasan historis, ras sering dikaitkan dengan
faktor lain yang relevan: perbedaan yang sistematis dalam latar belakang ras, dan perbedaan
ini dapat menjadi penting dalam pengujian untuk diskriminasi saat ini.

Sebagai contoh, pertimbangkan untuk menguji diskriminasi dalam persetujuan


pinjaman. Jika kami dapat mengumpulkan data, mengatakan, aplikasi hipotek individu, maka
kita dapat menentukan variabel ketergantungan Dummy disetujui sebagai sama dengan satu
jika aplikasi hipotek disetujui, dan nol sebaliknya. Perbedaan sistematis dalam tingkat
persetujuan di seluruh ras merupakan indikasi diskriminasi. Namun, karena persetujuan
tergantung banyak faktor lain, termasuk pendapatan, kekayaan, peringkat kredit, dan
kemampuan umum untuk membayar kembali pinjaman, kita harus mengontrol bagi mereka
jika ada perbedaan sistematis dalam faktor ini di seluruh ras. Sebuah linear model probabilitas
untuk menguji diskriminasi mungkin terlihat seperti berikut:

approved = β0 + β1nonwhite + β2income + β3wealth + β4credrate + other factors

Diskriminasi terhadap kaum minoritas diindikasikan oleh penolakan H0: B1 = 0 yang


mendukung H0 : B1 < 0, karena B1 adalah jumlah yang probabilitas melarang mendapatkan
persetujuan berbeda dari probabilitas putih mendapatkan persetujuan, mengingat tingkat yang
sama variabel lain dalam persamaan. Jika pendapatan, kekayaan, dan sebagainya secara
sistematis berbeda di seluruh ras, maka penting untuk mengontrol faktor ini dalam analisis
regresi berganda.

Masalah lain yang sering muncul dalam kebijakan dan evaluasi program adalah bahwa
individu (atau perusahaan atau kota) memilih apakah akan berpartisipasi dalam perilaku atau
program tertentu. Misalnya, individu memilih untuk menggunakan obat-obatan terlarang atau
minum alkohol. Jika kita ingin meneliti efek dari perilaku status pengangguran, pendapatan,
atau perilaku kriminal, kita harus khawatir bahwa penggunaan narkoba mungkin berkorelasi
dengan faktor lain yang dapat mempengaruhi pekerjaan dan hasil kriminal. Anak yang
memenuhi syarat untuk program seperti Head Start berpartisipasi berdasarkan keputusan
orang tua. Sejak latar belakang keluarga berperan dalam keputusan Head Start dan
mempengaruhi hasil siswa, kita harus mengendalikan faktor ketika meneliti efek dari kepala
mulai [lihat, misalnya, Currie dan Thomas (1995)]. Individu dipilih oleh majikan atau instansi
pemerintah untuk berpartisipasi dalam program pelatihan kerja dapat berpartisipasi atau tidak,
dan keputusan ini tidak mungkin acak [lihat, misalnya, Lynch (1992)]. Kota dan negara
memilih apakah akan menerapkan hukum senjata kontrol tertentu, dan kemungkinan bahwa
keputusan ini secara sistematis terkait dengan faktor lain yang mempengaruhi kejahatan
kekerasan [lihat, misalnya, Kleck dan Patterson (1993)].

Paragraf sebelumnya memberikan contoh apa yang umumnya dikenal sebagai masalah
pilihan diri dalam bidang ekonomi. Secara harfiah, istilah berasal dari fakta bahwa individu
memilih diri ke perilaku tertentu atau program: Partisipasi tidak ditentukan secara acak. Istilah
ini umumnya digunakan ketika sebuah biner indikator partisipasi dapat secara sistematis
terkait dengan faktor yang belum diamati. Jadi, jika kita menulis model sederhana

y = β0 + β1partic + u,

dimana y adalah variabel hasil dan partic adalah variabel biner yang sama dengan
kesatuan jika individu, perusahaan, atau sebuah perilaku atau program atau memiliki jenis
hukum tertentu, maka kita khawatir bahwa nilainya tergantung pada partisipasi: E(u|partic =
1) ≠ E(u|partic = 0). Seperti yang kita ketahui, ini menyebabkan pengukur regresi sederhana
dari B1 menjadi bias, dan sehingga kita tidak akan mengungkap efek sebenarnya dari
partisipasi. Dengan demikian, masalah pemilihan diri adalah cara lain bahwa variabel
penjelasan (partic dalam kasus ini) dapat endogen.

Sekarang, kita tahu bahwa analisis regresi berganda dapat, untuk beberapa derajat,
meringankan masalah selfselection. Faktor dalam istilah galat dalam (7,34) yang berkorelasi
dengan partic dapat dimasukkan dalam sebuah persamaan regresi Multiple, dengan asumsi,
tentu saja, bahwa kita dapat mengumpulkan data tentang faktor ini. Sayangnya, dalam banyak
kasus, kita khawatir bahwa faktor yang belum diamati terkait dengan partisipasi, dalam yang
kasus regresi berganda menghasilkan estimator bias.

Dengan analisis regresi standar beberapa menggunakan data lintas sektoral, kita harus
menyadari menemukan efek palsu dari program pada variabel hasil karena masalah pilihan
diri. Contoh yang baik dari hal ini terkandung dalam Currie dan Cole (1993). Para penulis
meneliti efek AFDC (Bantuan untuk Keluarga dengan anak dependent) partisipasi pada berat
lahir seorang anak. Bahkan setelah mengendalikan berbagai karakteristik keluarga dan latar
belakang, para penulis memperoleh perkiraan OLS yang menyiratkan partisipasi dalam
AFDC menurunkan berat badan lahir. Sebagai menunjukkan penulis, sulit untuk percaya
bahwa partisipasi AFDC itu sendiri menyebabkan menurunkan berat badan lahir. [Lihat
Currie (1995) untuk contoh tambahan.] Menggunakan metode ekonometrik yang berbeda
yang akan kita bahas dalam Bab 15, Currie dan Cole menemukan bukti baik tidak berpengaruh
atau efek positif partisipasi AFDC pada berat badan lahir.

7.7. MENAFSIRKAN HASIL REGRESI DENGAN VARIABEL DEPENDEN


DISKRIT

Sebuah respon biner adalah bentuk yang paling ekstrem dari variabel acak diskrit:
hanya membutuhkan dua nilai, nol dan satu. Seperti yang kita bahas di bagian 7-5, parameter
dalam model probabilitas linier dapat mengukur perubahan probabilitas bahwa y = 1 karena
peningkatan satu unit dalam suatu variabel penjelasan. Kami juga membahas bahwa, karena
y adalah hasil nol-satu, P(y = 1) = E(y), dan kesetaraan ini terus berlanjut ketika kita kondisi
pada variabel penjelasan.

Variabel ketergantungan diskrit lainnya muncul dalam praktek, dan kita telah melihat
beberapa contoh, seperti berapa kali seseorang ditangkap pada tahun tertentu (contoh 3,5).
Studi tentang faktor mempengaruhi kesuburan sering menggunakan jumlah anak yang hidup
sebagai variabel dependen dalam regresi analisis. Seperti jumlah penangkapan, jumlah anak
yang hidup mengambil satu set kecil nilai integer, dan nol adalah nilai umum. Data dalam
FERTIL2, yang berisi informasi tentang sampel besar perempuan di Botswana adalah salah
satu contoh. Sering demografer tertarik pada efek pendidikan pada kesuburan, dengan
perhatian khusus untuk mencoba menentukan apakah pendidikan memiliki efek kausal pada
kesuburan. Contoh seperti mengangkat pertanyaan tentang bagaimana seseorang menafsirkan
koefisien regresi: setelah semua, satu tidak dapat memiliki sebagian kecil dari anak.

Untuk mengilustrasikan masalah, regresi di bawah ini menggunakan data di FERTIL2:

Pada saat ini, kita mengabaikan masalah apakah regresi ini cukup kontrol untuk semua
faktor yang mempengaruhi kesuburan. Sebaliknya kita fokus pada menafsirkan koefisien
regresi.

Pertimbangkan koefisien utama yang menarik, βeduc = -,090. Jika kita mengambil
perkiraan ini secara harfiah, ia mengatakan bahwa setiap tahun tambahan pendidikan
mengurangi perkiraan jumlah anak oleh. 090-sesuatu jelas mustahil untuk setiap wanita
tertentu. Masalah serupa muncul ketika mencoba menafsirkan βage = .175. Bagaimana kita
dapat memahami koefisien ini?

Untuk menafsirkan hasil regresi umumnya, bahkan dalam kasus di mana y adalah
diskrit dan mengambil kecil jumlah nilai, sangat berguna untuk mengingat interpretasi OLS
sebagai estimasi efek dari xj pada nilai yang diharapkan (atau rata) dari y. Pada umumnya,
berdasarkan asumsi MLR. 1 dan MLR. 4,

E(y|x1, x2, ... , xk) = β0 + β1x1 + ... + βkxk

Terlihat dalam cahaya ini, kita sekarang dapat memberikan makna untuk hasil regresi
seperti dalam persamaan (7,35). Koefisien βeduc = -,090 berarti bahwa kita memperkirakan
bahwa kesuburan rata jatuh oleh 0,9 anak diberikan satu tahun lagi pendidikan. Sebuah cara
yang baik untuk meringkas penafsiran ini adalah bahwa jika setiap wanita dalam kelompok
100 memperoleh tahun lain pendidikan, kami memperkirakan akan ada sembilan lebih sedikit
anak di antara mereka.
Menambahkan variabel Dummy regresi ketika y itu sendiri diskrit menyebabkan tidak
ada masalah ketika kita menafsirkan efek perkiraan dalam hal nilai rata-rata. Menggunakan
data di FERTIL2 kita mendapatkan

dimana listrik adalah variabel Dummy sama dengan satu jika wanita tinggal di sebuah
rumah dengan listrik. Tentu saja tidak mungkin benar bahwa seorang wanita tertentu yang
memiliki listrik memiliki. 362 lebih sedikit anak daripada jika tidak sebanding dengan wanita
yang tidak. Tapi kita bisa mengatakan bahwa ketika membandingkan 100 wanita dengan
listrik untuk 100 perempuan tanpa-pada usia yang sama dan tingkat pendidikan-kami
memperkirakan mantan kelompok untuk memiliki sekitar 36 lebih sedikit anak.

Kebetulan, ketika y adalah diskrit model linier tidak selalu memberikan perkiraan
terbaik parsial efek pada E(y|x1, x2, ... , xk). Bab 17 berisi model yang lebih maju dan metode
estimasi yang cenderung sesuai dengan data yang lebih baik ketika kisaran y terbatas dalam
beberapa cara substantif. Namun demikian, model linier yang diperkirakan oleh OLS sering
memberikan pendekatan yang baik untuk efek parsial yang benar, setidaknya rata.

Kesimpulan

Dalam bab ini, kita telah belajar bagaimana menggunakan informasi kualitatif dalam
analisis regresi. Dalam sederhana kasus, sebuah variabel Dummy didefinisikan untuk
membedakan antara dua kelompok, dan perkiraan Koefisien pada variabel Dummy
memperkirakan perbedaan ceteris paribus antara kedua kelompok. Memungkinkan untuk
lebih dari dua kelompok yang dicapai dengan mendefinisikan satu set Dummy variabel: jika
ada g Groups, maka g - 1 variabel Dummy disertakan dalam model. Semua perkiraan pada
variabel Dummy ditafsirkan relatif terhadap dasar atau kelompok patokan (kelompok yang
tidak ada variabel Dummy disertakan dalam model).

Dummy variabel juga berguna untuk memasukkan informasi ordinal, seperti kredit
atau Kecantikan dalam model regresi. Kami hanya mendefinisikan satu set Dummy variabel
yang mewakili hasil yang berbeda dari variabel ordinal, memungkinkan salah satu kategori
menjadi kelompok dasar.

Variabel Dummy dapat berinteraksi dengan variabel kuantitatif untuk memungkinkan


perbedaan kemiringan di kelompok yang berbeda. Dalam kasus ekstrem, kita dapat
membiarkan setiap kelompok memiliki kemiringan sendiri pada setiap variabel, serta
mencegat sendiri. Tes Chow dapat digunakan untuk mendeteksi apakah ada perbedaan di
seluruh kelompok. Dalam banyak kasus, lebih menarik untuk menguji apakah, setelah
memungkinkan untuk perbedaan mencegat, lereng untuk dua kelompok yang berbeda adalah
sama. Uji F standar dapat digunakan untuk tujuan ini dalam model tak terbatas yang mencakup
interaksi antara Dummy grup dan semua variabel.

Anda mungkin juga menyukai