Anda di halaman 1dari 9

SOLUSI MANUAL oleh Inas Kelly

BAB 1 LATIHAN

1.1. Perhatikan hasil regresi yang diberikan pada Tabel 1.2.


sebuah . Misalkan Anda ingin menguji hipotesis bahwa koefisien regresi benar atau populasi dari
variabel pendidikan adalah 1. Bagaimana Anda menguji hipotesis ini? Tunjukkan yang
diperlukan perhitungan.

Persamaan yang kita lihat adalah:


upah i = b 1 + b 2 *(perempuan i ) + b 3 *(bukan kulit putih i ) + b 4 *(persatuan i ) + b 5 *(pendidikan i ) + b 6 *(pengalaman i ) + e i
Di sini kami menguji:
H0:β5=1
H1:β5≠1
Dari Tabel 1.2 diperoleh : t = (1,37301 - 1)/0,065904 = 5,618794.
Dari tabel t , statistik t kritis untuk = 1% adalah 2,576 (df = 1289 – 6 = 1283, sehingga kita dapat menggunakan df =
). Karena 5,619 > 2,576, kita dapat dengan mudah menolak hipotesis nol pada tingkat 1%.

b . Apakah Anda akan menolak atau tidak menolak hipotesis bahwa koefisien regresi gabungan yang benar adalah
1?
Di sini kami menguji:
H0:β4=1
H1:β4≠1
Dari Tabel 1.2 diperoleh : t = (1,095976 - 1)/0,506078 = 0,189647.
Dari t tabel, statistik t kritis untuk = 10% adalah 1,645 (menggunakan df = ). Sejak 0,190 < 1,645, kita
bahkan tidak dapat menolak hipotesis nol pada tingkat 10%. (Perhatikan bahwa dari output, jika kami menguji H 0 :
β 4 = 0 vs H 1 : β 4 ≠ 0, kita bisa menolak hipotesis nol pada tingkat 5%).

c . Dapatkah Anda mengambil log dari variabel nominal, seperti jenis kelamin, ras dan status
serikat? Mengapa atau mengapa tidak?
Tidak, karena ini adalah variabel kategori yang sering mengambil nilai 0 atau 1. Log natural dari 1 adalah
0, dan log natural 0 tidak terdefinisi. Selain itu, mengambil kayu alami tidak akan membantu
karena nilai-nilai variabel nominal tidak memiliki arti tertentu.
d . Apa variabel lain yang hilang dari model?
Kita bisa memasukkan variabel kontrol untuk wilayah, status perkawinan, dan jumlah anak di
sisi kanan. Alih-alih memasukkan variabel berkelanjutan untuk pendidikan, kita bisa
mengendalikan untuk gelar (lulusan SMA, lulusan perguruan tinggi, dll). Indikator untuk siklus
bisnis (seperti
sebagai tingkat pengangguran) dapat membantu. Selain itu, kami dapat memasukkan kebijakan tingkat negara bagian
tentang upah minimum dan undang-undang hak untuk bekerja.
e . Apakah Anda akan menjalankan regresi upah terpisah untuk pekerja kulit putih dan bukan kulit putih, pria
dan pekerja perempuan, dan pekerja serikat dan non-serikat? Dan bagaimana Anda membandingkannya?
Kami akan melakukannya jika kami merasa kedua kelompok itu secara sistematis berbeda satu sama lain. Kita bisa
lari model secara terpisah dan melakukan uji F untuk melihat apakah kedua regresi berbeda secara signifikan.
Jika ya, kita harus menjalankannya secara terpisah. The F statistik dapat diperoleh dengan menjalankan dua
bersama – model terbatas – kemudian menjalankan keduanya secara terpisah – bersama-sama, model tidak terbatas.
Kami kemudian mendapatkan jumlah sisa kuadrat untuk model terbatas (RSS R ) dan jumlah sisa
dari kotak untuk model tak terbatas (RSS UR , sama dengan RSS 1 + RSS 2 dari dua model terpisah).
F=
[(RSS R – RSS UR )/k] / [RSS UR /(n-2k)] ~ F k,n-2k . Saya kemudian akan melihat model mana yang merupakan prediktor yang lebih
baik dari variabel hasil, upah .
F. Beberapa negara bagian memiliki undang-undang hak untuk bekerja (yaitu, keanggotaan serikat tidak wajib) dan
beberapa tidak memiliki undang-undang tersebut (yaitu, keanggotaan serikat diperbolehkan). Apakah layak menambahkan
boneka? variabel mengambil nilai 1 jika undang-undang hak untuk bekerja ada dan 0 sebaliknya? Sebuah prioritas,
apa yang Anda harapkan jika variabel ini ditambahkan ke model?
Karena kita mengharapkan undang-undang ini berpengaruh pada upah, mungkin ada baiknya menambahkan variabel ini.
Secara apriori, kami berharap variabel ini memiliki efek negatif pada upah, karena upah serikat pekerja adalah
umumnya lebih tinggi dari upah non-serikat.
h . Apakah Anda akan menambahkan usia pekerja sebagai variabel penjelas pada model? Mengapa
atau mengapa tidak?
Tidak, kami tidak akan menambahkan variabel ini ke model. Ini karena variabel Exper didefinisikan
sebagai (usia – pendidikan – 6), sehingga akan benar-benar kolinear dan tidak menambahkan informasi
baru ke model.

1.2. Tabel 1.5 (tersedia di situs web pendamping) memberikan data tentang 654 remaja, berusia 3 hingga 19 tahun,
di wilayah Boston Timur pada akhir 1970-an pada variabel berikut:
fev = ukuran kontinu (dalam liter)
asap = perokok diberi kode 1, bukan perokok diberi kode 0
umur = dalam tahun
ht = tinggi dalam inci
s ex = kode 1 untuk laki-laki dan 0 untuk perempuan
fev adalah singkatan dari volume ekspirasi paksa , volume udara yang dapat dikeluarkan secara
paksa mengambil napas dalam-dalam, ukuran penting dari fungsi paru. Tujuan dari ini
senam untuk mengetahui pengaruh umur, tinggi badan, jenis kelamin dan kebiasaan merokok terhadap

demam . A. Kembangkan model regresi yang sesuai untuk tujuan ini.

Fevi = b1 + b2age + b3ht + b4sex + b5smoke + ei

Di mana saya menunjukkan pemuda.


Bentuk fungsional alternatif dapat digunakan juga, di mana istilah kuadrat dimasukkan untuk
usia dan tinggi.

B. Secara apriori , apa pengaruh masing - masing regressor terhadap fev ? Apakah hasil regresi mendukung Anda?
harapan sebelumnya?

Umur : Negatif. Orang akan berharap bahwa seiring bertambahnya usia, fungsi paru-paru menurun. Namun,
karena kami menganalisis sekelompok anak berusia 3 hingga 19 tahun, ini kemungkinan besar akan positif. Hasilnya keluar
positif .
Tinggi : Positif. Fungsi paru secara biologis mungkin lebih efektif untuk individu yang lebih tinggi. NS
hasilnya keluar positif .

Jenis Kelamin : Ambigu. Tidak ada harapan yang jelas untuk perbedaan fungsi paru antara laki-laki dan
perempuan, meskipun laki-laki mungkin memiliki paru-paru yang lebih kuat, dan dengan demikian, koefisiennya mungkin positif. NS
hasilnya keluar positif .
Asap : Negatif. Merokok berdampak buruk pada fungsi paru. Hasilnya keluar negatif
. Hasil di Stata adalah:

. reg fev usia ht seks asap

Sumber | SS df MS Jumlah ob = 654


-------------+----------------------------- F( 4, 649) = 560,02
Model | 380.64028 4 95.1600701 Prob > F = 0,0000
sisa | 110.279553 649 .16992227 R-kuadrat = 0,7754
-------------+----------------------------- Adj R-kuadrat = 0,7740
Jumlah | 490.919833 653 .751791475 Akar MSE = .41222

-------------------------------------------------- ----------------------------
fev | koefisien Std. Berbuat salah. t P>|t| [Konf.95% Selang]
-------------+----------------------------------- ----------------------------
usia | .0655093 .0094886 6.90 0.000 .0468774 .0841413
ht | .1041994 .0047577 21.90 0.000 .0948571 .1135418
seks | .1571029 .0332071 4.73 0.000 .0918967 .2223092
asap | -.0872464 .0592535 -1.47 0.141 -.2035981 .0291054
_kontra | -4.456974 .2228392 -20.00 0.000 -4.894547 -4.019401
-------------------------------------------------- ----------------------------

c . Manakah dari variabel penjelas, atau regresi, yang secara statistik signifikan secara
individual, katakanlah, pada tingkat 5%? Berapa nilai p yang diperkirakan ?

Usia, tinggi, dan jenis kelamin semuanya signifikan secara statistik pada tingkat 5%, yang nilai p-nya nol.

d . Jika nilai p yang diperkirakan lebih besar dari nilai 5%, apakah itu berarti relevan?
regressor tidak penting secara praktis?

Tidak. Faktanya, nilai p untuk asap adalah 0,141, menunjukkan bahwa variabel penjelas ini adalah
tidak signifikan. Namun, kami berharap merokok memiliki efek pada fungsi paru; dengan
demikian,
asap secara teoritis termasuk dalam persamaan dan tidak boleh dikecualikan. Tidak termasuk yang
relevan variabel karena tidak signifikan juga dapat membiaskan koefisien lain dalam model.

e . Apakah Anda mengharapkan usia dan tinggi badan berkorelasi? Jika demikian, apakah Anda mengharapkan model Anda?
menderita multikolinearitas? Apakah Anda tahu apa yang dapat Anda lakukan tentang masalah ini?
Tunjukkan perhitungan yang diperlukan. Jika Anda tidak memiliki jawabannya, jangan berkecil
hati karena kita akan membahas multikolinearitas secara mendalam pada Bab 4.

Ya, saya berharap usia dan tinggi badan berkorelasi kuat, terutama untuk remaja berusia 3 hingga 19 tahun.
Ini karena mereka masih tumbuh, dan semakin tua mereka, semakin tinggi mereka. Faktanya, kami
menemukan bahwa koefisien korelasi dalam sampel ini adalah 0,7919. Namun, salah satu indikator yang
disarankan multikolinearitas adalah tidak signifikan individu tetapi signifikansi bersama. Ini bukan masalah di
sini,
karena usia dan tinggi badan secara terpisah sangat signifikan. Tes yang lebih rinci, seperti
melihat faktor inflasi varians (VIF), akan diperkenalkan kemudian.

f . Apakah Anda akan menolak hipotesis bahwa koefisien (kemiringan) semua regresi adalah
secara statistik tidak signifikan? Tes mana yang Anda gunakan? Tunjukkan perhitungan yang diperlukan.

Ya, saya akan menolak hipotesis ini. Uji yang sesuai adalah uji F, dan nol dan
alternatif hipotesis adalah:

H0:R2=0
H1:R20

Keluaran Stata menunjukkan bahwa nilai F aktual, dengan 4 df di pembilang dan 649 df di
penyebutnya adalah 560,02. Probabilitas yang terkait dengan nilai ini adalah 0, menunjukkan bahwa kita
dapat menolak hipotesis nol di semua tingkat signifikansi.

g . Siapkan tabel analisis varians (AOV). Apa yang tabel ini katakan kepada Anda?
Ini diberikan dalam Stata:

Sumber | SS df MS Jumlah ob = 654


-------------+----------------------------- F( 4, 649) = 560,02
Model | 380.64028 4 95.1600701 Prob > F = 0,0000
sisa | 110.279553 649 .16992227 R-kuadrat = 0,7754
-------------+----------------------------- Adj R-kuadrat = 0,7740
Jumlah | 490.919833 653 .751791475 Akar MSE = .41222

Karena rumus untuk uji F adalah F = [ (ESS/df) / (RSS/df) ], di mana ESS adalah jumlah yang dijelaskan
dari kuadrat, RSS adalah jumlah sisa kuadrat, dan df adalah derajat kebebasan, informasi di atas
memberitahu kita bahwa kita dapat menghitung statistik F sebagai berikut: F = (380.64028/4) / (110.279553/649) =
95.1600701 / .16992227 = 560.02. Nilai-nilai ini semua disediakan dalam tabel ANOVA yang disediakan oleh
Stata, dan dapat memberi kita informasi tentang signifikansi bersama dari variabel penjelas.

h . Apa R 2 nilai model regresi Anda? Bagaimana menafsirkan nilai ini?

Seperti yang terlihat dalam output di atas, R 2 nilai adalah 0,7754. Ini dapat dihitung dengan mengambil yang
dijelaskan jumlah kuadrat (ESS) dibagi dengan jumlah kuadrat total (TSS). Nilai ini memberi tahu kita bahwa 77,54%
dari
variasi dalam fev dapat dijelaskan oleh variasi dalam variabel penjelas: usia, tinggi badan, jenis
kelamin, dan asap.

saya . Menghitung adjusted- R 2 nilai? Bagaimana nilai ini dibandingkan dengan R 2 . yang
dihitung nilai?

Nilai R 2 yang disesuaikan dihitung dengan menggunakan rumus berikut:

Disesuaikan R 2 = 1 – (1 – R 2 )*((n-1)/(nk)) = 1 – (1-0,7754)*(653/649) = 0,7740.

Ini memperhitungkan derajat kebebasan dan sedikit lebih rendah dari nilai R 2 .

j . Apakah Anda menyimpulkan dari contoh ini bahwa merokok itu buruk untuk demam? Menjelaskan.

Tidak ada bukti empiris yang cukup dalam contoh ini untuk menunjukkan bahwa merokok itu buruk untuk
demam. Meskipun hubungan antara kedua variabel tersebut negatif, namun tidak signifikan. Ini bisa jadi
karena rentang usia yang dianalisis; perokok dalam sampel kemungkinan besar tidak merokok
selama lama, dan efeknya pada fungsi paru belum disadari.

1.3. Pertimbangkan model regresi bivariat:

YSBayBa =X k1 amu
+ 2 +
Saya Saya

Pastikan bahwa penduga OLS untuk model ini adalah sebagai berikut:
Σ xyii
B2 =
Σ x Saya
2

- -

b1Y=b-X 2

∧ Σ 2
eSaya
σ 2
=
n- 2

- -
di mana xSay=a ( x -
Say a
= (YY-
Saya
), = (Y Saya
Saya
b-b 1 2
)
Sa ya
X y), e
Saya -X
Varians sampel adalah perkiraan, sigma-hat squared, sama dengan jumlah sisa dari
kuadrat (RSS) dibagi dengan derajat kebebasan, sama dengan nk. Karena kita hanya memiliki dua parameter
dalam model regresi bivariat ini, k=2.

1.4. Perhatikan model regresi berikut:

y SBayaB= x+1u 2 +
Saya Saya
di mana x i dan y i adalah seperti yang didefinisikan dalam Latihan 1.3. Tunjukkan bahwa dalam model ini b 1 =

0. Apa keuntungan model ini dibandingkan model pada Latihan 1.3?

Karena model ini mengambil penyimpangan dari rata-rata untuk semua variabel, perhitungannya lebih sederhana. NS
kemiringan tetap sama, sedangkan y-intercept hanyalah nol (asal). Perhatikan bahwa, dari Latihan
- -

1.3, kita dapat melihat bahwa perpotongan y sama dengbanY=1b- 2 . Karena kita mengambil penyimpangan dari
X
mean, mean dari y sekarang nol. Demikian pula, rata-rata x adalah nol. Mengganti, kita bisa
melihat bahwa ini berarti b1 sama dengan nol.

1.5. Interaksi antar regressor. Pertimbangkan model regresi upah yang diberikan pada Tabel 1.3.
Misalkan Anda memutuskan untuk menambahkan variabel pendidikan.pengalaman, produk dari keduanya
regressor, ke model. Apa logika di balik pengenalan variabel seperti itu, yang disebut an
variabel interaksi , ke model? Hitung kembali model pada Tabel 1.3 dengan variabel tambahan
ini dan menafsirkan hasil Anda.

Logika di balik pengenalan variabel semacam itu adalah untuk memperhitungkan kemungkinan bahwa efek
pendidikan upah sebagian bergantung pada pengalaman. Dengan kata lain, koefisien pada pendidikan tidak lengkap
pada
miliknya sendiri; demikian pula, kemiringan parsial pada pengalaman tidak lengkap. Dalam contoh ini, kita mungkin
percaya bahwa ada sesuatu tentang keduanya memiliki lebih banyak pengalaman dan pendidikan tinggi yang meningkat
upah. Saat kami menjalankan regresi di Stata, ini memberi kami hasil berikut:

. reg upah serikat pekerja nonkulit putih perempuan exper education_exper

Sumber | SS df MS Jumlah ob = 1289


-------------+----------------------------- F( 6, 1282) = 102,44
Model | 26026.2103 6 4337.70172 Prob > F = 0,0000
sisa | 54283.6144 1282 42.3429129 R-kuadrat = 0,3241
-------------+----------------------------- Adj R-kuadrat = 0,3209
Jumlah | 80309.8247 1288 62.3523484 Akar MSE = 6.5071

-------------------------------------------------- ----------------------------
upah | koefisien Std. Berbuat salah. t P>|t| [Konf.95% Selang]
-------------+----------------------------------- ----------------------------
perempuan | -3.089394 .3647682 -8.47 0.000 -3.805002 -2.373786
bukan putih | -1.55922 .509136 -3.06 0.002 -2.558051 -.5603885
serikat | 1.090656 .5060209 2.16 0.031 .0979362 2.083376
pendidikan | 1.501845 .1295197 11.60 0.000 1.247751 1.755939
ahli | .2437558 .0673361 3.62 0.000 .1116547 .3758569
pendidikan_~r | -.0061015 .005172 -1.18 0,238 -.0162481 .004045
_kontra | -8.883978 1.763414 -5.04 0.000 -12.34347 -5.424483
-------------------------------------------------- ----------------------------

Menariknya, koefisien pada istilah interaksi (pendidikan.pengalaman) adalah negatif dan


tidak signifikan.

Anda mungkin juga menyukai