Anda di halaman 1dari 19

EKONOMETRIKA

EKI 304 (A2)


“Analisis Regresi Berganda Dengan Informasi Kualitatif: Variabel
Biner (Atau Dummy)”

Oleh :
Kelompok 3
1. Ni Ketut Riski Rahayu Suwandari (1907511169)
2. Ni Made Sriyuni (1907511175)
3. Ni Kadek Pebrianti (1907511178)
4. Anggraini Klarasanti (1907511238)

PROGRAM STUDI EKONOMI PEMBANGUNAN


FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS UDAYANA
2020 / 2021
Analisis Regresi Berganda Dengan Informasi Kualitatif :
Variabel Biner (Atau Dummy)

7.1 Mendeskripsikan informasi kualitatif


Faktor kualitatif sering kali datang dalam bentuk informasi biner: seseorang perempuan
atau laki-laki; seseorang memiliki atau tidak memiliki komputer pribadi; sebuah perusahaan
menawarkan program pensiun karyawan jenis tertentu atau tidak; negara menyelenggarakan
hukuman mati atau tidak. Dalam semua contoh ini,relevan informasi yangdapat ditangkap
dengan mendefinisikan variabel biner atau variabel nol-satu.

Dalam ekonometrik, variabel biner paling sering disebut variabel buatan, meskipun
nama ini tidak terlalu deskriptif. Dalam mendefinisikan variabel buatan, kita harus
memutuskan peristiwa mana yang diberi nilai satu dan mana yang diberi nilai nol. Misalnya,
dalam studi tentang penentuan upah individu, kita mungkin mendefinisikan perempuan
sebagai variabel biner yang mengambil nilai satu untuk perempuan dan nilai nol untuk laki-
laki. Nama dalam hal ini menunjukkan acara dengan nilai satu. Informasi yang sama
ditangkap dengan mendefinisikan laki-laki menjadi satu jika orang tersebut laki-laki dan nol
jika orang tersebut perempuan. . Selanjutnya, kami mendefinisikan variabel biner menikah
dengan satu jika seseorang menikah dan nol jika sebaliknya.
Tabel 7.1 memberikan daftar parsial dari kumpulan data upah yang mungkin dihasilkan.
Kita lihat bahwa Orang 1 adalah perempuan dan belum menikah, Orang 2 adalah perempuan
dan sudah menikah, Orang 3 adalah laki-laki dan belum menikah, dan seterusnya.Kita
menggunakan nilai nol dan satu untuk menggambarkan informasi kualitatif karena dalam
arti tertentu, nilai-nilai ini sewenang-wenang: dimana dua nilai yang berbeda dapat
digunakan. Manfaat nyata dari menangkap informasi kualitatif menggunakan variabel nol-
satu adalah mengarah pada model regresi di mana parameter memiliki interpretasi yang
sangat alami.

7.2 Variabel Independen Dummy Tunggal


Bagaimana kita menggabungkan informasi biner ke dalam model regresi ? Dalam kasus
paling sederhana, dengan hanya satu variabel penjelas tiruan, kita hanya menambahkannya
sebagai variabel bebas dalam persamaan. Sebagai contoh, perhatikan model sederhana
penentuan upah per jam berikut:
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛿0 𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝑢. 7.1
Kami menggunakan 𝛿0 sebagai parameter pada wanita untuk menyoroti interpretasi
parameter yang mengalikan variabel dummy; nanti, kita akan menggunakan notasi apa pun
yang paling nyaman.
Dalam model (7.1), hanya dua faktor yang diamati yang mempengaruhi upah: gender
dan pendidikan. Karena perempuan = 1 bila orangnya adalah perempuan, dan perempuan =
0 bila orangnya adalah laki-laki, maka parameter 𝛿0 memiliki interpretasi sebagai berikut :
𝛿0 adalah selisih upah per jam antara perempuan dan laki-laki, dengan jumlah pendidikan
yang sama (dan istilah error u yang sama). Jadi, koefisien 𝛿0 menentukan ada tidaknya
diskriminasi terhadap perempuan : jika 𝛿0 < 0, maka untuk tingkat faktor lain yang sama,
rata-rata perempuan berpenghasilan lebih rendah dari laki-laki.
Dalam hal ekspektasi, jika kita mengasumsikan asumsi rata-rata bersyarat nol
E 𝑢|𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝑒𝑑𝑢𝑐 ) = 0, maka
(
𝛿0 = E(𝑤𝑎𝑔𝑒 |𝑓𝑒𝑚𝑎𝑙𝑒 = 1, 𝑒𝑑𝑢𝑐) - E(𝑤𝑎𝑔𝑒|𝑓𝑒𝑚𝑎𝑙𝑒 = 0, 𝑒𝑑𝑢𝑐 )
Karena perempuan = 1 sesuai dengan perempuan dan perempuan = 0 sesuai dengan laki-
laki, kita dapat menulis ini lebih sederhana sebagai
𝛿0 = E(𝑤𝑎𝑔𝑒 |𝑓𝑒𝑚𝑎𝑙𝑒, 𝑒𝑑𝑢𝑐) - E(𝑤𝑎𝑔𝑒|𝑚𝑎𝑙𝑒, 𝑒𝑑𝑢𝑐 ) 7.2
Kuncinya di sini adalah bahwa tingkat pendidikan sama di kedua harapan;
perbedaannya, 𝛿0 , hanya karena jenis kelamin.
Situasi tersebut dapat digambarkan secara grafis sebagai pergeseran intersep antara pria
dan wanita. Pada Gambar 7.1, kasus 𝛿0 < 0 diperlihatkan, sehingga laki-laki berpenghasilan
tetap lebih banyak per jamnya daripada perempuan. Perbedaan tersebut tidak bergantung
pada jumlah pendidikan, dan ini menjelaskan mengapa profil upah-pendidikan untuk
perempuan dan laki-laki sejajar.

Pada titik ini, Anda mungkin bertanya-tanya mengapa kami tidak menyertakan juga
dalam (7.1) variabel dummy, misalnya pria, yang satu untuk pria dan nol untuk wanita. Ini
akan menjadi mubazir. Dalam (7.1), intersep untuk pria adalah 𝛽0 , dan intersep untuk wanita
adalah 𝛽0 + 𝛿0 Karena hanya ada dua kelompok, kita hanya membutuhkan dua intersep yang
berbeda. Artinya, selain 𝛽0 , kita hanya perlu menggunakan satu variabel dummy; kami telah
memilih memasukkan variabel dummy untuk wanita. Menggunakan dua variabel dummy
akan memperkenalkan collinearity sempurna karena perempuan + laki-laki = 1, yang berarti
laki-laki adalah fungsi linier sempurna perempuan. Menyertakan variabel dummy untuk
kedua jenis kelamin adalah contoh paling sederhana dari apa yang disebut perangkap
variabel dummy, yang muncul ketika terlalu banyak variabel dummy menggambarkan
jumlah grup tertentu. Kami akan membahas masalah ini secara detail nanti.
Dalam (7.1), kami telah memilih laki-laki untuk menjadi kelompok dasar atau kelompok
pembanding, yaitu kelompok yang menjadi pembanding. Inilah mengapa 𝛽0 adalah intersep
untuk pria, dan 𝛿0 adalah perbedaan intersep antara wanita dan pria. Kita dapat memilih
perempuan sebagai kelompok dasar dengan menuliskan model sebagai
𝑤𝑎𝑔𝑒 = 𝛼0 + 𝛾0 𝑚𝑎𝑙𝑒 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝑢,
Dimana intersep untuk wanita adalah 𝛼0 dan intersep untuk pria adalah 𝛼0 + 𝛾0 ; ini
berarti bahwa 𝛼0 = 𝛽0 + 𝛿0 dan 𝛼0 + 𝛾0 = 𝛽0 . Dalam aplikasi apa pun, tidak masalah
bagaimana kita memilih grup dasar, tetapi penting untuk melacak grup mana yang
merupakan grup dasar.
Beberapa peneliti lebih suka membuang keseluruhan intersep dalam model dan
memasukkan variabel dummy untuk setiap kelompok. Persamaannya kemudian akan
menjadi upah = 𝛽0 𝑚𝑎𝑙𝑒 + 𝛼0 𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝑢, di mana intersep untuk pria adalah
𝛽0 dan intersep untuk wanita adalah 𝛼0 . Tidak ada jebakan variabel dummy dalam kasus
ini karena kami tidak memiliki intersep secara keseluruhan. Namun, formulasi ini hanya
menawarkan sedikit, karena menguji perbedaan dalam intersep lebih sulit, dan tidak ada cara
yang secara umum disepakati untuk menghitung R-squared dalam regresi tanpa intersep.
Oleh karena itu, kami akan selalu menyertakan intersep keseluruhan untuk grup dasar.
Tidak banyak yang berubah ketika lebih banyak variabel penjelas terlibat. Mengambil
laki-laki sebagai kelompok dasar, sebuah model yang mengontrol pengalaman dan
kepemilikan selain pendidikan, adalah
𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛿0 𝑓𝑒𝑚𝑎𝑙𝑒 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝛽2 𝑒𝑥𝑝𝑒𝑟 + 𝛽3 𝑡𝑒𝑛𝑢𝑟𝑒 + 𝑢. 7.3
Jika pendidikan, pengalaman, dan kepemilikan adalah karakteristik produktivitas yang
relevan, hipotesis nol berarti tidak ada perbedaan antara laki-laki dan perempuan adalah H0
: 𝛿0 = 0. Alternatif bahwa ada diskriminasi terhadap perempuan adalah H1 : 𝛿0 < 0
Bagaimana sebenarnya kita bisa menguji diskriminasi upah? Jawabannya sederhana:
cukup perkirakan model dengan OLS, persis seperti sebelumnya, dan gunakan statistik t
biasa. Tidak ada yang berubah tentang mekanisme OLS atau teori statistik ketika beberapa
variabel independen didefinisikan sebagai variabel dummy. Satu-satunya perbedaan dengan
apa yang telah kita lakukan sampai sekarang adalah dalam interpretasi koefisien pada
variabel dummy.
Contoh :
Menggunakan data di WAGE1, kami memperkirakan model (7.3). Untuk saat ini, kami
menggunakan upah, daripada log (upah), sebagai variabel dependen:
𝑤𝑎𝑔𝑒 = −1.57 − 1.81 𝑓𝑒𝑚𝑎𝑙𝑒 + .572 𝑒𝑑𝑢𝑐 + 0.25 𝑒𝑥𝑝𝑒𝑟 + .141 𝑡𝑒𝑛𝑢𝑟𝑒
(.72) (.26) (.049) (.012) (.021)
𝑛 = 526, 𝑅2 = .364 7.4
Intersep negatif — intersep untuk pria, dalam hal ini — tidak terlalu berarti karena tidak
ada yang memiliki nilai nol untuk semua pendidikan, pengalaman, dan masa jabatan dalam
sampel. Koefisien perempuan menarik karena mengukur perbedaan rata-rata upah per jam
antara laki-laki dan perempuan yang memiliki tingkat pendidikan, pengalaman, dan masa
kerja yang sama. Jika kita mengambil seorang wanita dan seorang pria dengan tingkat
pendidikan, pengalaman, dan masa kerja yang sama, wanita tersebut rata-rata berpenghasilan
$ 1,81 lebih rendah per jam daripada pria. (Ingatlah bahwa ini adalah gaji tahun 1976).
Penting untuk diingat bahwa, karena kami telah melakukan regresi berganda dan
mengontrol pendidikan, pengalaman, dan kepemilikan, perbedaan gaji $ 1,81 tidak dapat
dijelaskan oleh tingkat rata-rata pendidikan, pengalaman, atau kepemilikan yang berbeda.
antara pria dan wanita. Kita dapat menyimpulkan bahwa perbedaan $ 1,81 disebabkan oleh
jenis kelamin atau faktor yang terkait dengan jenis kelamin yang belum kita kendalikan
dalam regresi. [Dalam dolar 2013, perbedaan upah sekitar 4,09 (1,81) ≈ 7,40.]
Adalah informatif untuk membandingkan koefisien pada perempuan dalam persamaan
(7,4) dengan perkiraan yang kita dapatkan ketika semua variabel penjelas lainnya dijatuhkan
dari persamaan:
𝑤𝑎𝑔𝑒 = 7.10 − 2.51 𝑓𝑒𝑚𝑎𝑙𝑒
(.21) (.30)
𝑛 = 526, 𝑅2 = .116 7.5
Koefisien dalam (7.5) memiliki interpretasi yang sederhana. Intersep adalah upah rata-
rata untuk laki-laki dalam sampel (misalkan perempuan = 0), sehingga laki-laki
berpenghasilan rata-rata $ 7,10 per jam. Koefisien pada perempuan adalah perbedaan rata-
rata upah antara perempuan dan laki-laki. Jadi, upah rata-rata perempuan dalam sampel
adalah 7,10 - 2,51 = 4,59, atau $ 4,59 per jam. (Kebetulan, ada 274 laki-laki dan 252
perempuan dalam sampel.)
Persamaan (7.5) memberikan cara sederhana untuk melakukan uji perbandingan rata-
rata antara dua kelompok, dalam hal ini laki-laki dan perempuan. Perbedaan yang
diperkirakan, -2,51, memiliki statistik - 8,37, yang sangat signifikan secara statistik (dan,
tentu saja, $ 2,51 juga besar secara ekonomi). Umumnya, regresi sederhana pada konstanta
dan variabel dummy adalah cara langsung untuk membandingkan rata-rata dua kelompok.
Agar uji t biasa valid, kita harus mengasumsikan bahwa asumsi homoskedastisitas berlaku,
yang berarti bahwa varians populasi dalam upah untuk laki-laki sama dengan untuk
perempuan.
Perkiraan perbedaan upah antara laki-laki dan perempuan lebih besar di (7.5) daripada
(7.4) karena (7.5) tidak mengontrol perbedaan dalam pendidikan, pengalaman, dan
kepemilikan, dan ini lebih rendah, rata-rata, untuk perempuan daripada laki-laki di sampel
ini. Persamaan (7.4) memberikan perkiraan yang lebih dapat diandalkan tentang kesenjangan
upah gender ceteris paribus; itu masih menunjukkan perbedaan yang sangat besar.
Dalam banyak kasus, variabel independen tiruan mencerminkan pilihan individu atau
unit ekonomi lainnya (sebagai lawan dari sesuatu yang telah ditentukan sebelumnya, seperti
jenis kelamin). Dalam situasi seperti itu, masalah kausalitas sekali lagi menjadi masalah
sentral. Dalam contoh berikut, kami ingin mengetahui apakah kepemilikan komputer pribadi
menyebabkan nilai rata-rata perguruan tinggi lebih tinggi

A. Koefisien Interpretasipada Variabel Penjelasan Dummy Ketika Variabel


Dependen adalah log (y)
Spesifikasi umum dalam pekerjaan terapan memiliki variabel dependen yang muncul
dalam bentuk logaritmik, dengan satu atau lebih variabel dummy muncul sebagai variabel
independen. Bagaimana kita menafsirkan koefisien variabel dummy dalam kasus ini? Tidak
mengherankan, koefisien memiliki interpretasi persentase.
Contoh :
Dengan menggunakan data di HPRICE1 (Regresi harga rumah), kita mendapatkan
persamaan

7.6
Semua variabel cukup jelas kecuali kolonial, yang merupakan variabel biner yang sama
dengan satu jika rumah bergaya kolonial. Apa arti koefisien pada kolonial? Untuk tingkat
lotsize, sqrft, dan bdrms tertentu, perbedaan log(price) antara rumah bergaya kolonial dan
gaya lain adalah 0,054. Ini berarti bahwa rumah bergaya kolonial diperkirakan akan terjual
sekitar 5,4% lebih banyak, dengan tetap mempertahankan faktor-faktor lain.
Contoh ini menunjukkan bahwa jika log (y) adalah variabel dependen dalam model,
koefisien pada variabel dummy, bila dikalikan dengan 100 diinterpretasikan sebagai selisih
persentase dalam y, dengan tetap mempertahankan semua faktor lainnya. Jika koefisien pada
variabel dummy menunjukkan perubahan proporsional yang besar pada y, perbedaan
persentase yang tepat dapat diperoleh persis seperti penghitungan semi-elastisitas pada
Bagian 6-2.

7.3 Menggunakan Variabel Dummy untuk Beberapa Kategori


Kita dapat menggunakan beberapa variabel independen dummy dalam persamaan yang
sama. Sebagai contoh, kita dapat menambahkan variabel dummy yang sudah menikah
dengan persamaan (7.9). Koefisien pada menikah memberikan (perkiraan) perbedaan
proporsional dalam upah antara mereka yang sudah dan belum menikah, mempertahankan
jenis kelamin, pendidikan, pengalaman, dan masa kerja. Ketika memperkirakan model ini,
koefisien pada menikah (dengan kesalahan standar dalam tanda kurung) adalah .053 (.041),
dan koefisien pada wanita menjadi -.290(.036). Jadi, “premi pernikahan” diperkirakan
sekitar 5,3%, tetapi secara statistik tidak berbeda dari nol (t = 1.29). Batasan penting dari
model ini adalah bahwa premi nikah diasumsikan sama untuk laki-laki dan perempuan; ini
dalam contoh berikut.
Contoh: Catat Persamaan Upah Per Jam
Mari kita perkirakan model yang memungkinkan adanya perbedaan upah di antara
empat kelompok: pria menikah, wanita menikah, pria lajang, dan wanita lajang. Untuk

melakukan ini, kita harus memilih grup dasar; kami memilih pria lajang. Kemudian, kita
harus mendefinisikan variabel dummy untuk masing-masing grup yang tersisa. Sebut ini
marrmale, marrfem, dan singfem. Menempatkan ketiga variabel ini ke dalam (7.9)
memberikan

Untuk menafsirkan koefisien pada variabel dummy, kita harus ingat bahwa kelompok
dasar adalah laki-laki lajang. Jadi, perkiraan pada tiga variabel dummy mengukur perbedaan
proporsional dalam upah relatif terhadap laki-laki lajang. Misalnya, pria kawin diperkirakan
berpenghasilan sekitar 21,3% lebih banyak daripada pria lajang, dengan tingkat pendidikan,
pengalaman, dan masa kerja tetap. Sebaliknya, seorang wanita yang menikah, memperoleh
perkiraan 19,8% lebih rendah daripada pria lajang dengan tingkat yang sama dari variabel
lain.
Meskipun laki-laki lajang adalah kelompok dasar di (7.11), kita dapat menggunakan
persamaan ini untuk mendapatkan perkiraan perbedaan antara dua kelompok mana pun.
Karena intersep keseluruhan sama untuk semua kelompok, kita dapat mengabaikannya
dalam menemukan perbedaan. Dengan demikian, perkiraan selisih proporsional antara
wanita lajang dan menikah adalah -.110 – (-.198) = .088, yang berarti bahwa wanita lajang
berpenghasilan sekitar 8,8% lebih banyak daripada wanita menikah.
A. Memasukkan Informasi Biasa dengan Menggunakan Variabel Dummy
Misalkan kita ingin memperkirakan pengaruh peringkat kredit kota terhadap tingkat
bunga obligasi kota (MBR). Beberapa perusahaan keuangan, seperti Moody's Investors
Service dan Standard and Poor's, menilai kualitas utang pemerintah daerah, di mana
peringkatnya bergantung pada hal-hal seperti kemungkinan gagal bayar. (Pemerintah daerah
lebih memilih suku bunga yang lebih rendah untuk mengurangi biaya pinjaman mereka.)
Untuk kesederhanaan, anggaplah bahwa peringkat menggunakan nilai integer {0, 1, 2, 3, 4},
dengan nol sebagai peringkat kredit terburuk dan empat adalah yang terbaik. Ini adalah
contoh variabel ordinal. Panggil ini variabel CR untuk konkret. Bagaimana kita
menggabungkan variabel CR ke dalam model untuk menjelaskan MBR?
Salah satu kemungkinannya adalah dengan hanya memasukkan CR karena kami akan
memasukkan variabel penjelas lainnya:

Kemudian 𝛽1 adalah persentase perubahan dalam MBR ketika CR meningkat satu unit,
menahan faktor lain tetap. Kita tahu arti kuantitatif dari satu tahun pendidikan lagi, atau
dolar lain yang dihabiskan per siswa, tetapi hal-hal seperti peringkat kredit biasanya hanya
memiliki arti ordinal. Kita tahu bahwa CR empat lebih baik daripada CR tiga, tetapi apakah
perbedaan antara empat dan tiga sama dengan perbedaan antara satu dan nol? Jika tidak,
maka tidak masuk akal untuk mengasumsikan bahwa peningkatan CR satu unit memiliki
efek konstan pada MBR. Pendekatan yang lebih baik, yang dapat kita terapkan karena CR
menggunakan nilai yang relatif sedikit, adalah dengan mendefinisikan variabel dummy
untuk setiap nilai CR. Jadi, misalkan CR1 = 1 jika CR1, dan CR1 = 0 sebaliknya; CR2 = 1 jika
CR = 2, dan CR2 = 0 sebaliknya; dan seterusnya. Secara efektif, kami mengambil peringkat
kredit tunggal dan mengubahnya menjadi lima kategori. Kemudian, kita bisa memperkirakan
modelnya.

Mengikuti aturan kami untuk menyertakan variabel dummy dalam model, kami
menyertakan empat variabel dummy karena kami memiliki lima kategori. Kategori yang
dihilangkan di sini adalah peringkat kredit nol, jadi ini adalah kelompok dasar. (Inilah
mengapa kita tidak perlu mendefinisikan variabel dummy untuk kategori ini.) Koefisien
mudah diinterpretasikan: 𝛿1 adalah perbedaan MBR (faktor lain tetap) antara kotamadya
dengan peringkat kredit satu dan kotamadya dengan peringkat kredit nol; 𝛿2 adalah selisih
MBR antara kotamadya dengan peringkat kredit dua dan kotamadya dengan peringkat kredit
nol; dan seterusnya.
Persamaan (7.12) berisi model dengan efek parsial konstan sebagai kasus khusus. Salah
satu cara untuk menulis tiga batasan yang menunjukkan efek parsial konstan adalah 𝛿2 =
2𝛿1, 𝛿3 = 3𝛿𝑖, dan 𝛿4 = 4𝛿1. Ketika kami memasukkan ini ke dalam persamaan (7.12) dan
mengatur ulang, kami mendapatkan MBR = 𝛽0 + 𝛿1 (CR1 + 2CR2 + 3CR3 + 4CR4) + faktor
lainnya.
Contoh: Pengaruh Daya Tarik Fisik pada Upah
Hamermesh dan Biddle (1994) menggunakan ukuran daya tarik fisik dalam persamaan
upah. (File BEAUTY berisi lebih sedikit variabel tetapi lebih banyak pengamatan daripada
yang digunakan oleh Hamermesh dan Biddle. Setiap orang dalam sampel diberi peringkat
oleh pewawancara untuk daya tarik fisik, menggunakan lima kategori (sederhana, cukup
sederhana, rata-rata, tampan, dan sangat cantik atau tampan). Karena hanya ada sedikit orang
di dua ekstrem, penulis menempatkan orang ke dalam salah satu dari tiga kelompok untuk
analisis regresi: rata-rata, di bawah rata-rata, dan di atas rata-rata, di mana kelompok dasar
adalah rata-rata. Menggunakan data dari Survei Kualitas Pekerjaan 1977, setelah mengontrol
karakteristik produktivitas yang biasa, Hamermesh dan Biddle memperkirakan persamaan
untuk pria

dan persamaan untuk wanita:

Faktor-faktor lain yang dikontrol dalam regresi meliputi pendidikan, pengalaman,


kepemilikan, status perkawinan, dan ras.

7.4 Interaksi yang Melibatkan Variabel Dummy


A. Interaksi antara Variabel Dummy
Sama seperti variabel dengan makna kuantitatif dapat berinteraksi dalam model regresi,
demikian pula variabel dummy. Sebagai perbandingan, model yang diperkirakan untuk
interaksi antara female.married adalah

Persamaan (7,14) menunjukkan secara eksplisit bahwa secara statistik ada interaksi
yang signifikan antara gender dan status pernikahan. Model ini juga memungkinkan kita
untuk memperoleh perkiraan kenaikan upah di antara keempat kelompok, tetapi di sini kita
harus berhati-hati untuk memasang dalam kombinasi yang benar dari nol dan satu.
Pengaturan female = 0 dan married = 0 sesuai dengan kelompok pria lajang, yang
merupakan kelompok dasar, karena ini menghilangkan female, married, dan female.married.
Kita dapat menemukan intersep untuk pria yang sudah menikah dengan menetapkan female
= 0 dan married = 1 di (7,14); Ini memberikan intersep dari .321 + .213 = .534, dan
seterusnya.
Persamaan (7,14) hanyalah cara yang berbeda untuk menemukan perbedaan upah di
semua kombinasi status pernikahan. Hal ini memungkinkan kita untuk dengan mudah
menguji hipotesis null bahwa perbedaan gender tidak bergantung pada status pernikahan.
Contoh 7.9 Dampak penggunaan komputer pada upah yang diterima
Kruger (1993) memperkirakan dampak penggunaan komputer pada upah. Dia
mendefinisikan variabel dummy, yang kita sebut compwork, sama dengan satu jika
seseorang menggunakan komputer di tempat kerja. Variabel dummy lainnya, comphome,
sama dengan satu jika orang menggunakan komputer di rumah. Dengan menggunakan
13,379 orang dari survei populasi pada tahun 1989, Krueger (1993, tabel 4) mendapatkan
angka

(faktor - faktor lainnya adalah standar untuk kemunduran upah, termasuk pendidikan,
pengalaman, jenis kelamin, dan status perkawinan) Krueger tidak melaporkan intersep
karena itu tidak penting. Yang perlu kita ketahui adalah bahwa kelompok dasar terdiri dari
orang-orang yang tidak menggunakan komputer di rumah atau di tempat kerja. Patut
diperhatikan bahwa perkiraan untuk kembali menggunakan komputer di tempat kerja (tetapi
tidak di rumah) sekitar 17,7%. Demikian pula, orang yang menggunakan komputer di rumah
tetapi tidak di tempat kerja memiliki tarif pajak 7% atas orang yang sama sekali tidak
menggunakan komputer. Perbedaan antara mereka yang menggunakan komputer di kedua
tempat, relatif terhadap mereka yang menggunakan komputer di tempat yang baik, adalah
sekitar 26,4% (diperoleh dengan menambahkan ketiga koefisien dan mengalikan dengan
100). Interaksi di (7,15) tidak signifikan secara statistik, juga tidak sangat besar secara
ekonomi. Tapi itu tidak terlalu merugikan dengan berada dalam persamaan.
B. Memungkinkan Untuk Slope yang Berbeda
Ada juga kesempatan untuk interaksi variabel dummy dengan yang bukan variabel
dummy untuk memungkinkan perbedaan di slope. Lanjutkan dengan contoh upah,
bayangkan bahwa kita ingin menguji apakah kembalinya pendidikan adalah sama bagi pria
dan wanita, yang memperkenankan perbedaan konstan antara pria dan wanita. Untuk
kesederhanaan, kami hanya memasukkan pendidikan dan jenis kelamin dalam model itu.
Model macam apa yang memungkinkan kembalinya pendidikan yang berbeda? Perhatikan
contoh ini
Jika kita memasang females = 0 ke (7,16), maka kita menemukan bahwa intersep untuk
males adalah β0, dan slope pada educ untuk male adalah β1. Untuk female, kita pasang
female = 1; Jadi, intersep untuk wanita adalah β0 + δ0, dan slope adalah β1 + δ1. Oleh
karena itu, δ0 mengukur perbedaan intersep antara wanita dan pria, dan δ1 mengukur
perbedaan dalam kembalinya pendidikan antara wanita dan pria.
Grafik (a) menunjukkan kasus di mana intersep wanita di bawah itu bagi pria, dan garis
miring lebih kecil bagi wanita daripada bagi pria. Ini berarti bahwa penghasilan wanita lebih
sedikit daripada pria di semua tingkat pendidikan, dan kesenjangan meningkat seiring educ
meningkat. Dalam grafik (b), intersep wanita di bawah itu bagi pria, tetapi kemiringan pada
pendidikan lebih besar bagi wanita. Ini berarti bahwa pendapatan wanita lebih rendah
daripada pria pada tingkat pendidikan yang rendah, tetapi kesenjangan penghasilan
berkurang karena pendidikan meningkat. Pada titik tertentu, seorang wanita menghasilkan
lebih dari seorang pria dengan tingkat pendidikan yang sama, dan jumlah pendidikan ini
mudah ditemukan setelah kita memiliki perkiraan persamaan.
Bagaimana kita dapat memperkirakan model (7.16)? Untuk menerapkan OLS, kita
harus menulis model dengan interaksi antara female dan educ:

Parameter sekarang dapat diperkirakan dari regresi log(wage) pada female, educ, dan
female.educ. Memperoleh hubungan interaksi mudah dalam paket regresi. Sebuah hipotesis
penting adalah bahwa kembalinya pendidikan adalah sama bagi wanita dan pria.
Berdasarkan model (7.17), hal ini dinyatakan sebagai Ho : δ1 = 0, yang berarti slope
log(wage) sehubungan dengan educ sama dengan pria dan wanita. Perhatikan bahwa
hipotesis ini tidak membatasi perbedaan intersep, δ0. Perbedaan upah antara pria dan wanita
diperbolehkan di bawah null, tetapi harus sama di semua tingkat pendidikan.
Kami juga tertarik pada hipotesis bahwa upah rata-rata identik untuk pria dan wanita
yang memiliki tingkat pendidikan yang sama. Ini berarti bahwa δ0 dan δ1 keduanya harus
nol di bawah hipotesis null. Dalam persamaan (7,17), kita harus menggunakan tes F untuk
menguji Ho : δ0 = 0, δ1 = 0. Dalam model dengan hanya perbedaan intercept, kami menolak
hipotesis ini karena Ho : δ0 = 0 adalah dengan tegas ditolak terhadap H1: δ0 < 0.
C. Pengujian untuk Perbedaan Fungsi Regresi Lintas Kelompok
Contoh-contoh sebelumnya mengilustrasikan bahwa interaksi variabel dummy dengan
variabel independen lainnya dapat menjadi alat yang kuat. Kadang-kadang, kami ingin
menguji hipotesis bahwa dua populasi atau kelompok mengikuti fungsi regresi yang sama,
melawan alternatif bahwa satu atau lebih slope berbeda di seluruh kelompok.
Misalkan kita ingin menguji apakah model regresi yang sama menggambarkan rata-rata
poin perguruan tinggi untuk atlet perguruan tinggi laki-laki dan perempuan. Persamaannya
adalah

Dimana sat adalah skor SAT, hsperc adalah ranking SMA, dan tothrs adalah total jam
kuliah. Kita tahu bahwa, untuk memungkinkan perbedaan intercept, kita dapat memasukkan
variabel dummy baik untuk laki-laki atau perempuan. Jika kita ingin salah satu slope
bergantung pada jenis kelamin, kita cukup berinteraksi dengan variabel yang sesuai dengan,
katakanlah, female, dan memasukkannya ke dalam persamaan.
Jika kita tertarik untuk menguji apakah ada perbedaan antara pria dan wanita, maka kita
harus mengizinkan model di mana intercept dan semua slope dapat berbeda di dua
kelompok:

Parameter δo adalah perbedaan dalam intersep antara wanita dan pria, δ1 adalah
perbedaan slope dalam hal sat antara wanita dan pria, dan seterusnya. Hipotesis null bahwa
cumgpa mengikuti model yang sama untuk laki-laki dan perempuan dinyatakan sebagai

Jika salah satu δj berbeda dari nol, maka model ini berbeda untuk pria dan wanita.
Menggunakan data semester musim semi dari berkas GPA3, model lengkapnya diperkirakan
sebagai
Tak satupun dari empat istilah yang berhubungan dengan variabel dummy female secara
statistik sangat signifikan; hanya interaksi female•sat yang memiliki statistik t mendekati
dua. Untuk menghitung statistik F, kita harus memperkirakan model terbatas, yang hasil dari
menjatuhkan female dan semua interaksi; Ini memberi R² dari sekitar .352, jadi angka
statistik F sekitar 8.14; Nilai p adalah 0 sampai lima angka desimal, yang menyebabkan kita
menolaknya. Jadi, atlet pria dan wanita mengikuti model GPA yang berbeda, meskipun
setiap saat dalam (7.22) yang memungkinkan wanita dan pria untuk berbeda adalah secara
individu tidak signifikan pada tingkat 5%.
Standar eror besar pada female dan hubungan interaksi membuat sulit untuk mengatakan
dengan tepat perbedaan pria dan wanita. Kita harus sangat berhati-hati dalam menafsirkan
persamaan (7.22) karena, dalam mendapatkan perbedaan antara wanita dan pria, hubungan
interaksi harus dipertimbangkan. Jika kita hanya melihat pada variabel female, kita akan
secara keliru menyimpulkan bahwa cumgpa adalah sekitar .353 kurang untuk perempuan
daripada untuk laki-laki, dengan faktor-faktor lain tetap. Ini adalah perbedaan perkiraan
hanya ketika sat, hsperc, dan tothrs semua ditetapkan menjadi nol, yang tidak dekat untuk
menjadi skenario yang mungkin. Pada sat = 1,100, hsperc = 10, dan tothrs = 50, perbedaan
prediksi antara seorang wanita dan seorang pria adalah –.353 + . 0007511(1,100) – .
00055(10) – . 00012(50) ~ .461. Atlet wanita diperkirakan memiliki GPA yang hampir
setengah poin lebih tinggi daripada atlet pria yang sebanding.
Dalam model dengan tiga variabel, sat, hsperc, dan tothrs, itu cukup sederhana untuk
menambahkan semua interaksi untuk menguji perbedaan kelompok. Dalam beberapa kasus,
lebih banyak variabel penjelas yang terlibat, dan kemudian mudah untuk memiliki cara yang
berbeda untuk menghitung statistik.
7.5 Variabel Dependen Biner: Model Probabilitas Linear
Sekarang, kita telah belajar banyak tentang properti dan penerapan model regresi linier
berganda. Dalam beberapa bagian terakhir, kami mempelajari bagaimana, melalui
penggunaan variabel independen biner, kami dapat memasukkan informasi kualitatif sebagai
variabel penjelas dalam model regresi berganda. Dalam semua model hingga saat ini,
variabel dependen y memiliki makna kuantitatif (misalnya, y adalah jumlah dolar, skor tes,
persentase, atau log dari ini). Apa yang terjadi jika kita ingin menggunakan regresi berganda
untuk menjelaskan peristiwa kualitatif?
Dalam kasus yang paling sederhana, dan yang sering muncul dalam praktik, peristiwa
yang ingin kami jelaskan adalah hasil biner. Dengan kata lain, variabel dependen kita, y,
hanya memiliki dua nilai: nol dan satu. Misalnya, y dapat didefinisikan untuk menunjukkan
apakah orang dewasa berpendidikan SMA; y dapat menunjukkan apakah seorang mahasiswa
menggunakan obat-obatan terlarang selama tahun ajaran tertentu; atau y dapat menunjukkan
apakah suatu perusahaan diambil alih oleh perusahaan lain selama tahun tertentu. Dalam
setiap contoh ini, kita dapat membiarkan y=1 menunjukkan salah satu hasil dan y=0
menunjukkan hasil lainnya.
Apa yang dimaksud dengan menuliskan model regresi berganda, seperti
Jika y adalah variabel biner? Karena y hanya dapat mengambil dua nilai, 𝛽𝑗 tidak dapat
diartikan sebagai perubahan pada y dengan peningkatan satu unit dalam 𝑋𝑗 , dengan menahan
semua faktor lainnya tetap: y dapat berubah dari nol menjadi satu atau dari satu ke nol (atau
tidak berubah). Meskipun demikian, 𝛽𝑗 masih memiliki tafsir yang berguna. Jika kita
mengasumsikan bahwa asumsi rata-rata bersyarat nol MLR.4 berlaku, yaitu, E(u|x1,…,xk) =
0 maka kita memiliki, seperti biasa, dimana x adalah singkatan dari semua variabel penjelas.

Poin utamanya adalah bahwa jika y adalah variabel biner yang mengambil nilai nol dan
satu, selalu benar bahwa P(y = 1|x) = E(y|x): probabilitas "sukses" yaitu, probabilitas bahwa
y=1 adalah sama sebagai nilai yang diharapkan dari y. Jadi, kami memiliki persamaan
penting

yang mengatakan bahwa probabilitas keberhasilan, katakanlah P(x) = P(y = 1|x), adalah
fungsi linier dari 𝑋𝑗 . Persamaan (7.27) adalah contoh model respon biner, dan P(y = 1|x) juga
disebut probabilitas respon. (Kita akan membahas model respon biner lainnya pada Bab 17.)
Karena probabilitas harus berjumlah satu, P(y = 0|x) = 1 – P(y = 1|x) juga merupakan fungsi
linier dari 𝑋𝑗 .
Model regresi linier berganda dengan variabel dependen biner disebut model
probabilitas linier (LPM) karena probabilitas respons linier pada parameter 𝛽𝑗 Dalam LPM,
𝛽𝑗 mengukur perubahan probabilitas keberhasilan Ketika 𝑋𝑗 berubah, menahan faktor lain
diperbaiki:

Dengan pemikiran ini, model regresi berganda dapat memungkinkan kita untuk
memperkirakan pengaruh berbagai variabel penjelas pada peristiwa kualitatif. Mekanisme
OLS sama seperti sebelumnya. Jika kita menulis persamaan taksiran sebagai

sekarang kita harus ingat bahwa 𝑦̂ adalah peluang keberhasilan yang diprediksi. Oleh
karena itu, 𝛽̂0 adalah kemungkinan sukses yang diprediksi ketika setiap 𝑋𝑗 diatur ke nol,
yang mungkin menarik atau tidak. Koefisien kemiringan 𝛽̂i mengukur perubahan yang
diprediksi. Dengan menggunakan data MROZ dari Mroz (1987), kami memperkirakan
model probabilitas linier berikut, di mana 428 dari 753 wanita dalam sampel melaporkan
menjadi angkatan kerja di beberapa titik selama tahun 1975:

Bahkan dengan masalah ini, model probabilitas linier berguna dan sering diterapkan
dalam ilmu ekonomi. Ini biasanya bekerja dengan baik untuk nilai variabel independen yang
mendekati rata-rata dalam sampel. Dalam contoh partisipasi angkatan kerja, tidak ada
perempuan dalam sampel yang memiliki empat anak kecil; Faktanya, hanya tiga wanita yang
memiliki tiga anak kecil. Lebih dari 96% wanita tidak memiliki anak kecil atau satu anak
kecil, jadi kami mungkin harus membatasi perhatian pada kasus ini saat menafsirkan
persamaan perkiraan.
Kami juga dapat memasukkan variabel independen dummy dalam model dengan
variabel dependen dummy. Koefisien mengukur perbedaan probabilitas yang diprediksi
relatif terhadap kelompok dasar. Misalnya, jika kita menambahkan dua boneka ras, hitam
dan hispan, ke persamaan penangkapan, kita memperoleh

Koefisien pada warna hitam berarti bahwa, semua faktor lainnya sama, orang kulit hitam
memiliki peluang .17 lebih tinggi untuk ditangkap daripada orang kulit putih man (kelompok
dasar). Cara lain untuk mengatakan ini adalah probabilitas penangkapan 17 poin persentase
lebih tinggi untuk kulit hitam daripada kulit putih. Perbedaannya juga signifikan secara
statistik. Demikian pula, pria Hispanik memiliki peluang .096 lebih tinggi untuk ditangkap
dibandingkan pria kulit putih.

7.6 Lebih Lanjut tentang Analisis Kebijakan dan Evaluasi Program


Seperti yang telah kita sebutkan sebelumnya, kita harus berhati-hati saat mengevaluasi
program karena dalam kebanyakan contoh dalam ilmu sosial, kelompok kontrol dan
perlakuan tidak ditetapkan secara acak. Pertimbangkan kembali Holzer et al. (1993) studi,
di mana kita sekarang tertarik pada pengaruh hibah pelatihan kerja terhadap produktivitas
pekerja (sebagai lawan dari jumlah pelatihan kerja). Persamaan kepentingan adalah
dimana scrap adalah scrap rate perusahaan, dan dua variabel terakhir dimasukkan
sebagai kontrol. Hibah variabel biner menunjukkan apakah perusahaan menerima hibah pada
tahun 1988 untuk pelatihan kerja. Sebelum kita melihat perkiraan, kita mungkin khawatir
bahwa faktor-faktor yang tidak teramati yang mempengaruhi produktivitas pekerja seperti
tingkat rata-rata pendidikan, kemampuan, pengalaman, dan masa kerja mungkin berkorelasi
dengan apakah perusahaan menerima hibah. Holzer dkk. tunjukkan bahwa hibah diberikan
atas dasar siapa cepat dia dapat. Namun ini tidak sama dengan memberikan hibah secara
sembarangan. Mungkin perusahaan dengan pekerja yang kurang produktif melihat peluang
untuk meningkatkan produktivitas dan oleh karena itu lebih rajin mengajukan hibah.
Menggunakan data di JTRAIN untuk tahun 1988 ketika perusahaan benar-benar memenuhi
syarat untuk menerima hibah yang diperoleh

(Tujuh belas dari 50 perusahaan menerima hibah pelatihan, dan rata-rata scrap rate
adalah 3.47 di semua perusahaan.) Perkiraan titik .052 pada Grant berarti bahwa, untuk
penjualan dan pekerjaan tertentu, perusahaan yang menerima hibah memiliki tarif sisa
sekitar 5,2% lebih rendah daripada perusahaan tanpa hibah. Ini adalah arah efek yang
diharapkan jika hibah pelatihan efektif, tetapi statistik t sangat kecil. Jadi, dari analisis cross-
sectional ini, kita harus menyimpulkan bahwa hibah tidak berpengaruh pada produktivitas
perusahaan. Bahkan dalam kasus di mana analisis kebijakan tidak melibatkan penugasan unit
ke kelompok kontrol dan kelompok perlakuan, kita harus berhati-hati untuk memasukkan
faktor yang mungkin terkait secara sistematis dengan variabel kepentingan independen
biner. Contoh bagusnya adalah pengujian diskriminasi rasial. Faktanya, ras akan tampak
sebagai contoh sempurna dari variabel penjelas eksogen, mengingat itu ditentukan saat lahir.
Namun, karena alasan historis, ras sering kali dikaitkan dengan faktor relevan lainnya:
terdapat perbedaan sistematis dalam latar belakang antar ras.
Sebagai contoh, pertimbangkan untuk menguji diskriminasi dalam persetujuan
pinjaman.Permohonan hipotek individu, maka kami dapat menentukan variabel terikat
buatan yang disetujui sama dengan satu jika permohonan hipotek disetujui, dan nol
sebaliknya. Perbedaan sistematis dalam tingkat persetujuan di seluruh ras merupakan
indikasi diskriminasi. Namun, karena persetujuan bergantung pada banyak faktor lain,
termasuk pendapatan, kekayaan, peringkat kredit, dan kemampuan umum untuk membayar
kembali pinjaman, kita harus mengendalikannya jika ada perbedaan sistematis dalam faktor-
faktor ini di seluruh ras. Model probabilitas linier untuk menguji diskriminasi mungkin
terlihat seperti berikut:
Diskriminasi terhadap minoritas ditunjukkan dengan penolakan H0: β1 = 0 mendukung
H0: β1 < 0, karena β1 adalah jumlah yang digunakan untuk probabilitas non-kulit putih
mendapatkan persetujuan berbeda dari kemungkinan seorang kulit putih mendapatkan
persetujuan, mengingat tingkat variabel lain yang sama dalam persamaan. Masalah lain yang
sering muncul dalam evaluasi kebijakan dan program adalah bahwa individu (atau
perusahaan atau kota) memilih untuk berpartisipasi dalam perilaku atau program tertentu
atau tidak. Misalnya, individu memilih untuk menggunakan obat-obatan terlarang atau
minuman beralkohol. Jika kita ingin memeriksa efek dari perilaku tersebut pada status
pengangguran, pendapatan, atau perilaku kriminal, kita harus khawatir bahwa penggunaan
narkoba mungkin berkorelasi dengan faktor lain yang dapat mempengaruhi pekerjaan dan
hasil kriminal.
memberikan contoh tentang apa yang umumnya dikenal sebagai masalah seleksi diri
dalam ilmu ekonomi. Secara harfiah, istilah tersebut berasal dari fakta bahwa individu
memilih sendiri ke dalam perilaku atau program tertentu: partisipasi tidak ditentukan secara
acak. Istilah ini digunakan secara umum ketika indikator biner partisipasi mungkin secara
sistematis terkait dengan faktor-faktor yang tidak teramati. Jadi, jika kita menulis model
sederhana

dimana y adalah variabel hasil dan partikel adalah variabel biner yang sama dengan satu
jika individu, perusahaan, atau kota berpartisipasi dalam suatu perilaku atau program atau
memiliki jenis hukum tertentu, nilai rata-rata u tergantung pada partisipasi: E (uǀpartic = 1)
≠ E (uǀpartic = 0). Seperti yang kita ketahui, hal ini menyebabkan penduga regresi sederhana
dari β1 menjadi bias, sehingga kita tidak akan mengungkap pengaruh partisipasi yang
sebenarnya. Jadi, masalah pemilihan sendiri adalah cara lain variabel penjelas (partikel
dalam kasus ini) bisa menjadi endogen.
Sekarang, kita tahu bahwa analisis regresi berganda dapat, sampai taraf tertentu,
meringankan masalah pemilihan diri sendiri. Faktor-faktor dalam suku kesalahan di (7.34)
yang berkorelasi dengan partikel dapat dimasukkan dalam persamaan regresi berganda,
dengan asumsi, tentu saja, kita dapat mengumpulkan data tentang faktor-faktor ini. dalam
banyak kasus, dikhawatirkan bahwa faktor-faktor yang tidak teramati terkait dengan
partisipasi, dalam hal ini regresi berganda menghasilkan estimator yang bias. Dengan
analisis regresi berganda standar menggunakan data cross-sectional, kita harus waspada
untuk menemukan efek palsu dari program pada variabel hasil karena masalah pemilihan
sendiri. Contoh yang bagus tentang hal ini terdapat dalam Currie dan Cole (1993). Para
penulis ini meneliti pengaruh partisipasi AFDC (Bantuan untuk Keluarga dengan Anak
Tanggungan) pada berat lahir seorang anak.
Seperti yang ditunjukkan oleh penulis, sulit untuk percaya bahwa partisipasi AFDC itu
sendiri menyebabkan berat badan lahir yang lebih rendah. Dengan menggunakan metode
ekonometrik berbeda yang akan kita diskusikan di Bab 15, Currie dan Cole menemukan
bukti untuk tidak ada efek atau efek positif dari partisipasi AFDC pada berat lahir. Ketika
masalah pemilihan sendiri menyebabkan analisis regresi berganda standar menjadi bias
karena kurangnya variabel kontrol yang memadai.
7.7 Menafsirkan Hasil Regresi dengan Variabel Dependen Diskrit
Respons biner adalah bentuk paling ekstrem dari variabel acak diskrit: ia hanya
mengambil dua nilai, nol dan satu. Seperti yang kita bahas di Bagian 7-5, parameter dalam
model probabilitas linier dapat diartikan sebagai mengukur perubahan dalam probabilitas y
= 1 karena peningkatan satu unit dalam variabel penjelas. Kami juga membahas bahwa,
karena y adalah hasil nol-satu, P (y=1) = E(y), dan persamaan ini terus berlaku ketika kita
mengkondisikan variabel penjelas. Studi tentang faktor-faktor yang mempengaruhi
kesuburan seringkali menggunakan jumlah anak yang masih hidup sebagai variabel terikat
dalam analisis regresi. Mengenai jumlah penangkapan, jumlah anak yang masih hidup
mengambil sejumlah kecil nilai bilangan bulat, dan nol adalah nilai yang sama.
Seringkali para ahli demografi tertarik pada efek pendidikan pada kesuburan, dengan
perhatian khusus untuk mencoba menentukan apakah pendidikan memiliki efek kausal pada
kesuburan. Contoh semacam itu menimbulkan pertanyaan tentang bagaimana seseorang
menafsirkan koefisien regresi: bagaimanapun juga, seseorang tidak dapat memiliki pecahan
anak. Untuk menggambarkan masalah tersebut, regresi di bawah ini menggunakan data di
FERTIL2:

Saat ini, kami mengabaikan masalah apakah regresi ini cukup mengontrol semua faktor
yang memengaruhi kesuburan. Alih-alih kami fokus pada menafsirkan koefisien regresi.
Pertimbangkan koefisien utama yang menarik,𝛽̂educ = -.090. Jika kita mengambil perkiraan
ini secara harfiah, dikatakan bahwa setiap tahun tambahan pendidikan mengurangi perkiraan
jumlah anak sebesar .090 sesuatu yang jelas tidak mungkin bagi wanita tertentu. Masalah
serupa muncul ketika mencoba menafsirkan 𝛽̂age = .175 .Untuk menginterpretasikan hasil
regresi secara umum, bahkan dalam kasus di mana y diskrit dan menggunakan sejumlah
kecil nilai, penting untuk mengingat interpretasi OLS sebagai estimasi efek Xj pada nilai
yang diharapkan (atau rata-rata) dari y. Secara umum, berdasarkan Asumsi MLR.1 dan
MLR.4,

Oleh karena itu, βj adalah efek dari peningkatan ceteris paribus dari Xj pada nilai yang
diharapkan dari y. Seperti yang kita bahas di Bagian 6-4, untuk sekumpulan nilai Xj tertentu
kita menginterpretasikan nilai prediksi,𝛽̂0 + 𝛽̂1x1 +…,𝛽̂ kXk sebagai perkiraan E (yǀx1, x2,…,xk)
̂ adalah perkiraan kita tentang bagaimana rata-rata y berubah ketika ∆xj
Oleh karena itu , 𝛽𝑗
= 1 (menjaga faktor-faktor lain tetap). Dilihat dari sudut ini, kita sekarang dapat memberikan
arti pada hasil regresi seperti pada persamaan (7.35). Koefisien 𝛽̂educ = -.090 berarti bahwa
kami memperkirakan bahwa rata-rata kesuburan turun sebesar .09 anak-anak yang diberi
pendidikan satu tahun lagi. Cara yang bagus untuk meringkas interpretasi ini adalah bahwa
jika setiap wanita dalam kelompok yang terdiri dari 100 orang memperoleh pendidikan satu
tahun lagi, kami memperkirakan akan ada sembilan anak yang lebih sedikit di antara mereka.
Menambahkan variabel buatan ke regresi ketika y itu sendiri diskrit tidak menimbulkan
masalah ketika kita menafsirkan efek yang diperkirakan dalam hal nilai rata-rata.
Menggunakan data di FERTIL2 kita mendapatkan

dimana listrik adalah variabel buatan yang sama dengan satu jika wanita tersebut tinggal di
rumah dengan listrik. Tentu saja tidak benar bahwa wanita tertentu yang memiliki listrik
memiliki .362 anak lebih sedikit daripada wanita yang tidak sebanding. Tetapi kami dapat
mengatakan bahwa ketika membandingkan 100 wanita dengan listrik dengan 100 wanita
tanpa listrik pada usia dan tingkat pendidikan yang sama kami memperkirakan kelompok
sebelumnya memiliki sekitar 36 anak lebih sedikit. Kebetulan, ketika y adalah diskrit, model
linier tidak selalu memberikan estimasi terbaik dari efek parsial E (yǀx1, x2,…,xk) Namun
demikian, model linier yang diperkirakan oleh OLS sering kali memberikan perkiraan yang
baik untuk efek parsial sebenarnya, setidaknya secara rata-rata.

Anda mungkin juga menyukai