Dua Variabel
Model Regresi: The
Masalah Estimasi
Seperti disebutkan di Bab 2, tugas pertama kita adalah memperkirakan fungsi regresi
populasi (PRF) berdasarkan fungsi regresi sampel (SRF) seakurat mungkin. Di Lampiran A
kita telah membahas dua metode estimasi yang umum digunakan: (1) kotak terkecil biasa (OLS) dan (2) maximumlikelihood
(ML). Secara umum, ini adalah metode OLS yang digunakan secara luas dalam analisis regresi terutama
karena secara intuitif menarik dan secara matematis jauh lebih sederhana daripada metode kemungkinan
maksimum. Selain itu, seperti yang akan kami tunjukkan nanti, dalam konteks regresi linier kedua metode
tersebut umumnya memberikan hasil yang serupa.
Y i = β 1 + β 2 X i + u saya (2.4.2)
Namun, seperti yang kami catat di Bab 2, PRF tidak dapat diamati secara langsung. Kami memperkirakannya
dari SRF:
û ˆ i = Y saya -Ŷˆsaya
(3.1.1)
= Y saya - ˆβ̂ 1 - β̂ ˆ 2 X saya
55
56 Bagian satu Model Regresi Persamaan Tunggal
GAMBAR 3.1 Y
Kotak terkecil
kriteria. SRF
Y saya
Yi=β1+ β2 X saya
u3
u1
u4
u2
X
X1 X2 X3 X4
yang menunjukkan bahwa û ˆ saya ( residual) hanyalah perbedaan antara yang sebenarnya dan yang
diperkirakan Y nilai-nilai.
Sekarang diberikan n pasangan pengamatan pada Y dan X, kami ingin menentukan SRF di
sedemikian rupa sehingga sedekat mungkin dengan yang sebenarnya Y. Untuk tujuan ini, kita dapat mengadopsi yang berikut
ini
∑
û ˆ i = ∑ kriteria:
( Y saya - Ŷ ˆ i)Pilih SRF
sekecil sedemikian
mungkin. rupa
Meskipun sehingga
menarik jumlah
secara intuitif, ini residualnya
bukan kriteria yang
sangat baik, seperti yang dapat dilihat pada tabel tabel hipotetis yang ditunjukkan pada Gambar 3.1.
∑
Jika kita mengadopsi kriteria meminimalkan û ˆ saya, Gambar 3.1 menunjukkan bahwa residu û ˆ 2
dan û ˆ 3 serta residu û ˆ 1 dan û ˆ 4 menerima berat yang sama dalam jumlah tersebut
( û ˆ 1 + û ˆ 2 + û ˆ 3 + û ˆ 4), meskipun dua residu pertama lebih dekat dengan SRF daripada dua residu terakhir.
Dengan kata lain, semua residual menerima kepentingan yang sama tidak peduli seberapa dekat atau
seberapa luas penyebaran pengamatan individu dari SRF. Konsekuensi dari ini
adalah bahwa sangat mungkin bahwa jumlah aljabar dari û ˆ saya kecil (bahkan nol) meskipun file
û ˆ saya tersebar luas tentang SRF. Untuk melihat ini, biarkan û ˆ 1, û ˆ 2, û ˆ 3, dan û ˆ 4 pada Gambar 3.1
mengasumsikan nilai 10, - 2, +2, dan - 10, masing-masing. Jumlah aljabar dari residu ini
uals adalah nol û ˆ 1 dan û ˆ 4 tersebar lebih luas di sekitar SRF daripada û ˆ 2 dan û ˆ 3.
Kita dapat menghindari masalah ini jika kita mengadopsi kriteria kuadrat terkecil, yang menyatakan bahwa SRF
bisa diperbaiki sedemikian rupa
∑ ∑
ûi ˆ= 2∑ ( Y saya - Ŷ ˆi)2
(3.1.2)
= ( Y saya - β̂
ˆ 1- ˆβ̂ 2 X i) 2
sekecil mungkin, di mana û ˆ saya
2 adalah residu kuadrat. Dengan mengkuadratkan û ˆ saya, metode ini
memberi bobot lebih pada residu seperti û ˆ 1 dan û ˆ 4 pada Gambar 3.1 dari residu û ˆ 2 dan û ˆ 3.
∑
Seperti disebutkan sebelumnya, di bawah minimum û ˆ saya kriteria, jumlahnya bisa kecil meskipun
itu û ˆ saya tersebar luas ab ˆ keluar dari SRF. Tapi ini tidak mungkin di
∑ bawah pro-kuadrat terkecil
cedure, untuk yang lebih besar û saya ( dalam nilai absolut), semakin besar ûi.ˆPembenaran
2 lebih lanjut
untuk metode kuadrat terkecil terletak pada kenyataan bahwa penduga yang diperolehnya memiliki beberapa
sifat statistik yang sangat diinginkan, seperti yang akan kita lihat sebentar lagi.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 57
TABEL 3.1
Y saya Xt Ŷˆ 1 saya û 1 saya
2
û 1 saya Ŷˆ 2 saya û 2 saya
2
û 2 saya
Eksperimental
(1) (2) (3) (4) (5) (6) (7) (8)
Penentuan
SRF 4 1 2.929 1.071 1.147 4 0 0
5 4 7.000 - 2.000 4.000 7 -2 4
7 5 8.357 - 1.357 1.841 8 -1 1
12 6 9.714 2.286 5.226 9 3 9
Catatan: Ŷ ˆ 1 i =
= 1.572
Ŷ ˆ 2 saya 3.0 + +
1.0 X sayaX( yaitu,
1.357 β̂ ˆ 1 β̂
saya ( yaitu, = 3ˆ dan β̂ ˆ 2 dan
1 = 1.572 = 1,0)β̂ ˆ 2 = 1,357)
û 1 i = ( Y saya - Ŷ ˆ
1 saya)
= (Y -Ŷˆ
û 2 saya saya 2 saya)
Artinya, jumlah residual kuadrat adalah beberapa fungsi penduga ˆ β̂ 1 dan ˆ β̂ 2. Untuk
kumpulan data apa pun, memilih nilai yang berbeda untuk ˆ β̂ 1 dan ˆ β̂ 2 akan memberikan yang berbeda û ˆ dan
∑
maka nilai yang berbeda ûi. ˆUntuk
2 melihat ini dengan jelas, pertimbangkan data hipotetis di Y dan
X diberikan dalam dua kolom pertama dari Tabel 3.1. Sekarang mari kita lakukan dua percobaan. Di
tidak
percobaan
khawatir
1, biarkan β̂ ˆtentang
sekarang dan β̂ ˆ 2 = 1.357
1 = 1.572 bagaimana kita mendapatkannya
(lihat nilai-nilai ini; katakanlah, itu hanya tebakan). 1 Menggunakan ini ˆ t kita
β̂ nilai dan X nilai yang diberikan dalam kolom (
dari Tabel 3.1, kita dapat dengan mudah menghitung perkiraannya Y saya diberikan di kolom (3) tabel sebagai ˆ 2) Ŷ 1 saya
(subskrip 1 adalah untuk menunjukkan percobaan pertama). Sekarang mari kita lakukan percobaan lain,
tapi kali ini menggunakan nilai ˆ β̂ 1 = 3 dan β̂ ˆ 2 = 1. Estimasi va
Ŷ 2 saya pada kolom (6) Tabel 3.1. Sejak ˆ lues dari
percobaan diberikan sebagai ˆ β̂ nilai
Y saya
di keduanya
dari ini
percobaan berbeda, kami mendapatkan nilai yang berbeda untuk estimasi residu, seperti yang ditunjukkan pada
meja; û ˆ 1 saya adalah sisa dari percobaan pertama dan û ˆ 2 saya dari percobaan
kedua. Kuadrat dari residu ini diberikan di kolom (5) dan (8). Jelas, sebagai
diharapkan dari Persamaan 3.1.3, jumlah sisa kuadrat ini berbeda karena didasarkan pada
himpunan yang berbeda ˆ
Sekarang set yang mana ˆ β̂ nilai-nilai
β̂ nilai-nilai. yang harus kita pilih? Sejak β̂ ˆ nilai-nilai percobaan pertama
∑
beri kami lebih rendah ûi ˆ(= 212.214) daripada yang diperoleh dari ˆ β̂ nilai-nilai dari pengalaman kedua-
ment (= 14), kita dapat mengatakan bahwa ˆ β̂ Eksperimen pertama adalah nilai "terbaik". tapi bagaimana caranya
Apakah kita tahu? Karena, jika kita punya waktu terbatas dan kesabaran yang tidak terbatas, kita bisa
melakukan lebih banyak eksperimen semacam itu, memilih set β̂ ˆ setiap kali dan membandingkan re-
∑
sulting
∑ ûsaya
ˆ 2dan kemudian memilih kumpulan tersebut β̂ ˆ nilai yang memberi kita nilai sekecil mungkin
û2saya
ˆ tentu saja dengan asumsi bahwa kami telah mempertimbangkan semua nilai yang mungkin dari β 1 dan β 2.
Tetapi karena waktu, dan tentunya kesabaran, umumnya terbatas, kita perlu mempertimbangkan
beberapa jalan pintas untuk proses coba-coba ini. Untungnya, metode kuadrat terkecil mendukung
memberi kita jalan pintas seperti itu. Prinsip atau metode kuadrat terkecil yang dipilih β̂ ˆ 1 dan ˆ
∑ β̂ 2
sedemikian rupa sehingga, untuk sampel atau kumpulan data tertentu, ûsaya
ˆ 2 sekecil mungkin. Di lain
kata-kata, untuk sampel tertentu, metode kuadrat terkecil memberi kita taksiran unik dari
∑
β 1 dan β 2 yang memberikan nilai sekecil mungkin ûi.ˆBagaimana
2 ini tercapai? Ini adalah sebuah
1 Bagi yang penasaran, nilai-nilai ini diperoleh dengan metode kuadrat terkecil, akan dibahas sebentar lagi. Lihat
latihan langsung dalam kalkulus diferensial. Seperti yang ditunjukkan dalam Lampiran 3A, Bagian
3A.1, proses diferensiasi menghasilkan persamaan berikut untuk memperkirakan β 1 dan β 2:
∑
Y i = n ˆβ̂ 1 + ˆβ̂∑2 X saya (3.1.4)
∑
Y saya X i =β̂ˆ 1∑ Xi+ˆβ
∑̂ 2 X saya
2 (3.1.5)
dimana n adalah ukuran sampel. Persamaan simultan ini dikenal sebagai persamaan
normal.
Memecahkan persamaan normal secara bersamaan, kami dapatkan
∑ ∑
X saya Y saya - ∑ X saya Y saya
β̂̂ 2 = n ∑
n X saya
2 - ( ∑)X 2 saya
∑
( X saya - ¯X̄) (Y saya - Ȳ ¯)
= ∑ (3.1.6)
( X saya - ¯X̄) 2
∑
x saya y saya
=∑
xsaya
2
dimana X̄ ¯ dan Ȳ ¯ adalah sarana sampel X dan Y dan di mana kami mendefinisikan x i = ( X saya - ¯ X̄) dan
y i = ( Y saya - Ȳ ¯). Untuk selanjutnya, kami mengadopsi konvensi membiarkan huruf kecil menunjukkan
penyimpangan dari nilai rata-rata. ∑
∑
X 2 ∑∑ Y saya - ∑ X saya X saya Y saya
β̂̂ 1 = saya
n X saya
2 - ( ∑)X 2 saya
(3.1.7)
= ¯Ȳ - ˆ β̂X̄2 ¯
Langkah terakhir dalam Persamaan 3.1.7 dapat diperoleh langsung dari Persamaan. (3.1.4) dengan
manipulasi aljabar sederhana.
Secara kebetulan, perhatikan bahwa, dengan menggunakan identitas aljabar sederhana, rumus (3.1.6) untuk
memperkirakan β 2 dapat dinyatakan sebagai
∑
x saya y saya
β̂̂ 2 = ∑
xsaya
2
∑
x saya Y saya
=∑ (3.1.8) 2
X2 saya - n¯ X̄ 2
∑
X saya y saya
=∑
X2 saya - n¯ X̄ 2
Catatan 1:
∑ ∑ ∑
2
xi 2= ∑ ( X saya - ¯X̄) 2 = ∑ X2 X sayaX̄¯ +
∑ ¯∑ X̄ ¯ 2 = X saya 2 - 2 ¯X̄ X i + ∑ ¯ X̄ 2, sejak ¯ X̄
∑ saya - 2 ∑
adalah sebuah konstanta. Lebih lanjut mencatat itu X i = n ¯X̄ dan X̄ 2 = nX̄ ¯ 2 sejak ¯ X̄ adalah sebuah konstanta, akhirnya kita dapatkan
∑
xi 2= ∑ X2 X̄ 2.
∑ saya - n ¯
Catatan 2: x saya y i = ∑ x saya ( Y saya -Ȳ)
¯ =∑ x saya Y saya Ȳ
-¯∑ xi=∑ x saya Y saya Ȳ
- ¯ ∑ ( X saya - ¯X̄) = ∑ x saya Y saya, sejak ¯Ȳ adalah
∑
konstan dan karena jumlah penyimpangan variabel dari nilai rata-ratanya [misalnya, ( X saya - X̄ ¯)] selalu
∑
nol. Juga, y i = ∑ ( Y saya - Ȳ) ¯ = 0.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 59
I.Pengestimasi OLS hanya dinyatakan dalam jumlah yang dapat diamati (yaitu, sampel) (yaitu, X dan Y).
Oleh karena itu, mereka dapat dengan mudah dihitung. Mereka penduga titik; yaitu, jika diberi
II. sampel, setiap penduga hanya akan memberikan satu nilai (titik) dari parameter populasi yang
relevan. (Dalam Bab 5 kita akan membahas apa yang disebut penduga interval, yang
memberikan kisaran nilai yang mungkin untuk parameter populasi yang tidak diketahui.)
AKU AKU AKU. Setelah estimasi OLS diperoleh dari data sampel, garis regresi sampel
(Gambar 3.1) dapat dengan mudah diperoleh. Garis regresi yang diperoleh memiliki
properti berikut:
1. Ini melewati sarana sampel Y dan X. Fakta ini jelas dari
Persamaan. (3.1.7), untuk yang terakhir dapat ditulis sebagai Ȳ ¯ = ˆ β̂ 1 + ˆβ̂X̄2 ¯, yang ditampilkan
secara diagram pada Gambar 3.2.
GAMBAR 3.2 Y
Diagram menunjukkan itu
regresi sampel
Yi=β1+ X saya
garis melewati nilai β2
rata-rata sampel
SRF
Y dan X.
X
X
3 Russell Davidson dan James G. MacKinnon, Estimasi dan Inferensi dalam Ekonometrika, Oxford
University Press, New York, 1993, hal. 3.
4 Ibid.
60 Bagian satu Model Regresi Persamaan Tunggal
2. Nilai rata-rata dari perkiraan Y = Ŷ ˆ saya sama dengan nilai rata-rata aktual Y
untuk
Ŷˆ i = ˆ β̂ 1 + β̂ ˆ 2 X saya
= (¯Ȳ - ˆ β̂
X̄ 2 ¯) + ˆβ̂ 2 X saya (3.1.9)
= ¯Ȳ + ˆβ̂ 2 ( X saya - ¯X̄)
Menjumlahkan kedua sisi persamaan terakhir ini di atas nilai sampel dan membaginya
dengan ukuran sampel n memberi
¯ˆ
Ŷ=Ȳ¯ (3.1.10) 5
∑
di mana penggunaan dibuat dari fakta bahwa ( X saya - ¯ X̄) = 0. (Mengapa?)
3. Nilai rata-rata dari residu û ˆ saya adalah nol. Dari Lampiran 3A, Bagian 3A.1, file
persamaan pertama adalah
∑
-2 ( Y saya - β̂̂ 1 - ˆβ̂ 2 X i) = 0
∑
Tapi sejak itu û ˆ i = Y saya - β̂
ˆ 1 - ˆβ̂ 2 X saya, persamaan sebelumnya tereduksi menjadi - 2 û ˆ i = 0,
darimana û ¯ˆ = 0. 6
Sebagai hasil dari properti sebelumnya, regresi sampel
dapat diekspresikan dalam bentuk alternatif dimana keduanya Y dan X dinyatakan sebagai penyimpangan
dari nilai rata-rata mereka. Untuk melihat ini, jumlahkan (2.6.2) di kedua sisi untuk memberi
∑ ∑
Y i = n ˆβ̂ 1 + ˆβ̂∑2 Xi+ û ˆ saya ∑
(3.1.11)
= n ˆβ̂ 1 + ˆβ̂∑2 X saya sejak û ˆ i=0
Ȳ¯ = ˆ β̂ 1 + β̂ ˆ 2 X̄ ¯ (3.1.12)
yang sama dengan Persamaan. (3.1.7). Mengurangi Persamaan 3.1.12 dari Persamaan. (2.6.2), kami
dapatkan
atau
y i = ˆ β̂ 2 x i + û ˆ saya (3.1.13)
dimana y saya dan x saya, mengikuti konvensi kami, adalah penyimpangan dari nilai rata-rata (sampel)
masing-masing.
5 Perhatikan bahwa hasil ini benar hanya jika model regresi memiliki istilah intersep β 1 di dalamnya. Sebagai
Lampiran 6A, Sec. 6A.1 menunjukkan, hasil ini tidak perlu dipegang kapan β 1 tidak ada dalam model.
6 Hasil ini juga membutuhkan istilah intersep β 1 hadir dalam model (lihat Lampiran 6A, Sec.
6A.1).
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 61
Persamaan 3.1.13 dikenal sebagai bentuk penyimpangan. Perhatikan bahwa istilah intersep
β̂ˆ1 tidak lagi ada di dalamnya. Tapi istilah intersep selalu bisa diperkirakan dengan
Persamaan. (3.1.7), yaitu dari fakta yang dilewati garis regresi sampel
sarana sampel Y dan X. Keuntungan dari bentuk deviasi adalah sering
menyederhanakan rumus komputasi.
Secara sepintas, perhatikan bahwa dalam bentuk deviasi, SRF dapat ditulis sebagai
sedangkan di unit pengukuran aslinya Ŷ ˆ i = ˆ β̂ 1 + ˆβ̂ 2 X saya, seperti yang ditunjukkan pada
Persamaan. (2.6.1).
4. Residu û ˆ saya tidak berkorelasi dengan yang diprediksi Y i. Pernyataan ini dapat diverifikasi
sebagai berikut: menggunakan bentuk deviasi, kita bisa menulis
∑ ∑
ŷ ˆ saya û ˆ iβ̂
= ˆ2 x saya û ˆ saya
= ˆβ̂∑22 xsaya
2 -β̂ 2
ˆ2∑ xsaya
2
=0
∑
di mana penggunaan dibuat dari fakta itu ˆ β̂ 2 = ∑ x saya y saya / x
2
i.
∑
5. Residu û ˆ saya tidak berhubungan dengan X saya; itu adalah, û ˆ saya X i = 0. Fakta ini mengikuti
dari Persamaan. (2) dalam Lampiran 3A, Bagian 3A.1.
7 Ini klasik dalam arti bahwa itu dikembangkan pertama kali oleh Gauss pada tahun 1821 dan sejak itu telah
berfungsi sebagai norma atau standar yang dapat dibandingkan dengan model regresi yang tidak
memenuhi asumsi Gauss.
62 Bagian satu Model Regresi Persamaan Tunggal
ASUMSI 1 Model Regresi Linier: Model regresi adalah linier dalam parameter,
meskipun mungkin atau mungkin tidak linier dalam variabel. Itu adalah model regresi seperti yang ditunjukkan pada
Persamaan. (2.4.2):
Y i = β 1 + β 2 X i + u saya (2.4.2)
Seperti yang akan dibahas pada Bab 7, model ini dapat diperluas untuk memasukkan lebih banyak variabel
penjelas.
Kita telah membahas model (2.4.2) di Bab 2. Karena model regresi linier dalam
parameter adalah titik awal CLRM, asumsi ini akan dipertahankan untuk sebagian besar
buku ini. 8 Perlu diingat bahwa regresi dan Y dan regressor X mungkin nonlinier, seperti
yang dibahas pada Bab 2.
ASUMSI 2 Tetap X Nilai atau X Nilai Independen dari ErrorTerm: Nilai-nilai yang diambil oleh
regressor X dapat dianggap tetap dalam sampel berulang (kasus regressor tetap) atau mereka
dapat diambil sampel bersama dengan variabel dependen Y ( kasus regressor stokastik).
Dalam kasus terakhir, diasumsikan bahwa file X variabel dan istilah kesalahannya adalah
independen, yaitu, cov ( X saya, u i) = 0.
Ini dapat dijelaskan dalam contoh kami yang diberikan pada Tabel 2.1 (halaman 35). Pertimbangkan berbagai Y
populasi yang sesuai dengan tingkat pendapatan yang ditunjukkan pada tabel. Menjaga nilai pendapatan X tetap,
katakanlah, pada level $ 80, kita menarik sebuah keluarga secara acak dan mengamati konsumsi keluarga
mingguannya Y seperti, katakanlah, $ 60. Masih menyimpannya X dengan $ 80, kami secara acak menarik
keluarga lain dan mengamati keluarga itu Y senilai $ 75. Dalam setiap gambar ini (yaitu, pengambilan sampel
berulang), nilai X ditetapkan pada $ 80. Kami dapat mengulangi proses ini untuk semua file X nilai yang
ditunjukkan pada Tabel 2.1. Faktanya, data sampel yang ditunjukkan pada Tabel 2.4 dan 2.5 diambil dengan
cara ini.
Mengapa kami berasumsi bahwa file X nilai nonstochastic? Mengingat, di sebagian besar ilmu
sosial, data biasanya dikumpulkan secara acak di kedua bidang tersebut Y dan X variabel, tampaknya
wajar untuk mengasumsikan sebaliknya — bahwa X variabel, seperti Y variabel, juga acak atau
stokastik. Tapi awalnya kami berasumsi bahwa file X variabel nonstochastic karena alasan berikut:
Pertama, ini dilakukan pada awalnya untuk menyederhanakan analisis dan memperkenalkan pembaca pada
kompleksitas analisis regresi secara bertahap. Kedua, dalam situasi eksperimental, mungkin tidak realistis untuk
mengasumsikan bahwa X nilai-nilai tetap. Misalnya, seorang petani dapat membagi tanahnya menjadi beberapa persil
dan menerapkan jumlah pupuk yang berbeda pada persil-persil tersebut untuk melihat pengaruhnya terhadap hasil
panen. Demikian pula, sebuah toko serba ada mungkin memutuskan untuk menawarkan tarif diskon yang berbeda
pada suatu produk untuk melihat pengaruhnya terhadap konsumen. Terkadang kita mungkin ingin memperbaiki file X
nilai untuk tujuan tertentu. Misalkan kita mencoba menemukan pendapatan mingguan rata-rata pekerja ( Y) dengan
berbagai jenjang pendidikan ( X), seperti pada kasus data yang diberikan pada Tabel 2.6. Dalam hal ini, file X variabel
dapat dianggap tetap atau nonrandom. Ketiga, seperti yang kami tunjukkan di Bab 13, meskipun file X variabel
stokastik, hasil statistik berbasis regresi linier
8 Namun, diskusi singkat tentang model regresi nonlinier-dalam-parameter diberikan dalam Bab 14 untuk
keuntungan siswa yang lebih mahir.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 63
pada kasus regressor tetap juga valid jika X itu acak, asalkan beberapa
kondisi terpenuhi. Salah satu syaratnya adalah regressor itu X dan istilah kesalahan u saya mandiri.
Seperti yang dicatat James Davidson, “. . . model ini [yaitu, regressor stokastik] 'meniru' yang tetap
model regressor, dan. . . banyak sifat statistik dari kuadrat terkecil dalam model regresi
tetap terus dipertahankan. " 9
Untuk semua alasan ini, pertama-tama kami akan membahas CLRM (regressor tetap) secara
cukup rinci. Namun, di Bab 13 kita akan membahas kasus regressor stokastik secara mendetail
dan menunjukkan kejadian di mana kita perlu mempertimbangkan model regressor stokastik.
Secara kebetulan, perhatikan bahwa jika file X variabel stokastik, model yang dihasilkan disebut model
regresi linier neo-klasik (NLRM), 10 berbeda dengan CLRM, di mana file
X 's diperlakukan sebagai tetap atau nonrandom. Untuk tujuan diskusi, kami akan menyebut yang pertama sebagai
model regressor stokastik dan yang terakhir model regressor tetap.
ASUMSI 3 Nilai Rata-Rata Nol Gangguan u saya: Diberikan nilai X saya, maksudnya, atau diharapkan,
nilai istilah gangguan acak u saya adalah nol. Secara simbolis, kita punya
E (u i | X i) = 0 (3.2.1)
E (u i) = 0
Asumsi 3 menyatakan bahwa nilai rata-rata u saya tergantung pada yang diberikan X saya adalah nol. Secara
geometris, asumsi ini dapat digambarkan seperti pada Gambar 3.3 yang menunjukkan beberapa nilai
variabel X dan Y populasi yang terkait dengan mereka masing-masing. Seperti yang ditunjukkan, masing-masing Y
GAMBAR 3.3 Y
Bersyarat Berarti
distribusi
gangguan u saya.
PRF: Y i = β 1 + β2 X saya
+u saya
- u saya
X
X1 X2 X3 X4
9 James Davidson, Teori Ekonometrik, Blackwell Publishers, Inggris, 2000, hal. 10.
10 Suatu istilah karena Arthur S. Goldberger, Kursus Ekonometrika, Harvard University Press, Cambridge, MA,
1991, hal. 264.
64 Bagian satu Model Regresi Persamaan Tunggal
populasi yang sesuai dengan yang diberikan X didistribusikan di sekitar nilai rata-ratanya (ditunjukkan oleh titik-titik
yang dilingkari pada PRF), dengan beberapa Y nilai di atas rata-rata dan beberapa di bawahnya. Jaraknya
di atas dan di bawah nilai rata-rata tidak lain adalah u saya. Persamaan 3.2.1 mensyaratkan bahwa
nilai rata-rata atau mean dari deviasi ini sesuai dengan yang diberikan X harus nol.
Asumsi ini seharusnya tidak sulit untuk dipahami dalam pembahasan di Bagian 2.4
(lihat Persamaan [2.4.5]). Asumsi 3 hanya mengatakan bahwa faktor tidak secara eksplisit
disertakan dalam model, dan oleh karena itu dimasukkan ke dalam u saya, tidak mempengaruhi mean secara sistematis
Nilai dari Y; dengan kata lain, positif u saya nilai menghilangkan negatif u saya nilai-nilai sehingga efek rata-rata
atau meannya pada Y adalah nol. 11
11 Untuk alasan yang lebih teknis mengapa Asumsi 3 diperlukan, lihat E. Malinvaud, Metode Statistik
Ekonometrika, Rand McNally, Chicago, 1966, hal. 75. Lihat juga Latihan 3.3.
12 Kebalikannya, bagaimanapun, tidak benar karena korelasi adalah ukuran asosiasi linier saja. Bahwa
adalah, meskipun X saya dan u saya tidak berkorelasi, rata-rata bersyarat dari u saya diberikan X saya mungkin bukan nol. Namun, jika
X saya dan u saya berkorelasi, E (u i | X saya) harus bukan nol, melanggar Asumsi 3. Kita berhutang poin ini pada Stock
dan Watson. Lihat James H. Stock dan Mark W. Watson, Pengantar Ekonometrika, Addison-Wesley,
Boston, 2003, hlm. 104–105.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 65
Persamaan 3.2.2 menyatakan bahwa varians u saya untuk setiap X saya ( yaitu, varian bersyarat dari
u saya) adalah beberapa bilangan konstanta positif yang sama dengan σ 2. Secara teknis, Persamaan. (3.2.2)
mewakili asumsi homoskedastisitas, atau sama ( homo) sebaran ( skedastisitas) atau varian yang sama.
Kata tersebut berasal dari kata kerja Yunani skedanime, yang artinya membubarkan atau memencar.
Dinyatakan berbeda, Persamaan. (3.2.2) berarti bahwa Y populasi yang sesuai dengan berbagai X nilai
memiliki varian yang sama. Sederhananya, variasi di sekitar garis regresi (yang merupakan garis
hubungan rata-rata antara Y dan X) sama di seluruh X nilai-nilai; itu tidak meningkat atau menurun
sebagai X bervariasi. Secara diagram, situasi tersebut digambarkan pada Gambar 3.4.
Sebaliknya, perhatikan Gambar 3.5, di mana varian bersyarat dari Y populasi bervariasi dengan X. Situasi
ini dikenal dengan tepat sebagai heteroskedastisitas, atau penyebaran yang tidak merata, atau perbedaan. Secara
simbolis, dalam situasi ini, Persamaan. (3.2.2) dapat ditulis sebagai
var ( u i | X i) = σsaya
2 (3.2.3)
Perhatikan subskrip pada σ 2 dalam Persamaan (3.2.3), yang menunjukkan bahwa varians dari Y
populasi tidak lagi konstan.
Y
Kepadatan probabilitas u saya
X1
X2
X saya PRF: Y i = β 1 β βsaya
+β2 X
Y
Kepadatan probabilitas u saya
X1
X2 βb 1 + b 2 β
sayaX
X saya
X
66 Bagian satu Model Regresi Persamaan Tunggal
Untuk memperjelas perbedaan antara dua situasi tersebut, mari Y mewakili pengeluaran konsumsi
mingguan dan X penghasilan mingguan. Gambar 3.4 dan 3.5 menunjukkan bahwa dengan meningkatnya
pendapatan, rata-rata pengeluaran konsumsi juga meningkat. Namun pada Gambar 3.4 varians pengeluaran
konsumsi tetap sama di semua tingkat pendapatan, sedangkan pada Gambar 3.5 varians tersebut meningkat
seiring dengan peningkatan pendapatan. Dengan kata lain, keluarga yang lebih kaya rata-rata
mengkonsumsi lebih banyak daripada keluarga yang lebih miskin, tetapi ada juga lebih banyak variabilitas
dalam pengeluaran konsumsi keluarga sebelumnya.
Untuk memahami alasan di balik asumsi ini, lihat Gambar 3.5. Seperti angka ini
acara, var ( u | X 1) < var ( u | X 2),. . . , < var ( u | X saya). Oleh karena itu, kemungkinannya adalah Y pengamatan
yang berasal dari populasi dengan X = X 1 akan lebih dekat ke PRF daripada itu
berasal dari populasi yang sesuai X = X 2, X = X 3, dan seterusnya. Singkatnya, tidak semuanya Y
nilai yang sesuai dengan berbagai X akan sama-sama dapat diandalkan, keandalan dinilai oleh
seberapa dekat atau jauh file Y nilai-nilai didistribusikan di sekitar sarana mereka, yaitu poin-poin di PRF. Jika
ini kenyataannya, kami tidak akan memilih untuk mengambil sampel dari itu Y populasi yang mendekati
rata-rata dibandingkan populasi yang tersebar luas? Tetapi melakukan hal itu mungkin membatasi variasi
yang kami peroleh X nilai-nilai.
Dengan menggunakan Asumsi 4, kami mengatakan bahwa pada tahap ini, semua Y nilai yang
sesuai dengan berbagai X sama pentingnya. Dalam Bab 11 kita akan melihat apa yang terjadi jika tidak
demikian, yaitu di mana terdapat heteroskedastisitas.
Secara sepintas, perhatikan bahwa Asumsi 4 menyiratkan bahwa varians bersyarat dari Y saya juga
homoscedastic. Itu adalah,
var ( Y i | X i) = σ 2 (3.2.4)
Tentu saja varian tanpa syarat dari Y aku s σ 2 Y. Nanti kita akan melihat pentingnya
membedakan antara varian bersyarat dan tidak bersyarat dari Y ( Lihat Lampiran A untuk
detail varians bersyarat dan tidak bersyarat).
ASUMSI 5 Tidak Ada Autokorelasi antara Gangguan: Diberikan dua X nilai-nilai, X saya dan
X j ( saya j), korelasi antara keduanya u saya dan u j ( saya j) adalah nol. Singkatnya, observasi
diambil sampelnya secara mandiri. Secara simbolis,
dimana saya dan j adalah dua pengamatan yang berbeda dan di mana cov berarti kovarian.
Dengan kata lain, Persamaan 3.2.5 mendalilkan bahwa gangguan u saya dan u j tidak berkorelasi.
Secara teknis, ini adalah asumsi tidak ada korelasi serial, atau tidak ada autokorelasi. Ini
artinya, diberikan X saya, penyimpangan dari dua Y nilai dari nilai rata-rata mereka tidak menunjukkan pola seperti yang
ditunjukkan pada Gambar 3.6 ( Sebuah) dan ( b). Pada Gambar 3.6 ( Sebuah), kami melihat itu
itu u berkorelasi positif, positif u diikuti dengan positif u atau negatif u
diikuti dengan negatif u. Pada Gambar 3.6 ( b), itu u adalah berkorelasi negatif, positif u
diikuti dengan negatif u dan sebaliknya.
Jika gangguan (deviasi) mengikuti pola sistematis, seperti yang ditunjukkan pada Gambar 3.6 ( Sebuah)
dan ( b), ada korelasi otomatis atau serial, dan yang disyaratkan oleh Asumsi 5 adalah bahwa korelasi
tersebut tidak ada. Gambar 3.6 ( c) menunjukkan bahwa tidak ada pola sistematis untuk u 's, sehingga
menunjukkan korelasi nol.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 67
- u saya - u saya
( Sebuah) ( b)
+u saya
- u saya +u saya
- u saya
( c)
Pengimporan penuh asumsi ini akan dijelaskan secara menyeluruh di Ch secara apter
intuitif, orang dapat menjelaskan asumsi ini sebagai berikut. Misalkan di PRF kami ( Y t = β 1 + 12.
β2 XBu
t+ t
u t) bahwa u t dan u t - 1 berkorelasi positif. Kemudian Y t bergantung tidak hanya pada X t tapi juga u t - 1,
untuk u t - 1 sampai batas tertentu menentukan u t. Pada tahap pengembangan materi pelajaran ini, dengan
menggunakan Asumsi 5, kami mengatakan bahwa kami akan mempertimbangkan efek sistematis, jika
apapun, dari X t di Y t dan tidak mengkhawatirkan pengaruh lain yang mungkin terjadi Y sebagai hasil dari
kemungkinan interkorelasi antara u 's. Namun, seperti yang dikemukakan di Bab 12, kita akan melihat caranya
keterkaitan antar gangguan dapat dimasukkan ke dalam analisis dan dengan
konsekuensi apa.
Tetapi harus ditambahkan di sini bahwa pembenaran asumsi ini bergantung pada jenis data
yang digunakan dalam analisis. Jika datanya bersifat cross-sectional dan diperoleh sebagai
sampel acak dari populasi yang relevan, asumsi ini sering kali dapat dibenarkan. Namun, jika
datanya adalah deret waktu, asumsi independensi sulit dipertahankan, karena pengamatan
deret waktu yang berurutan, seperti PDB, sangat berkorelasi. Tapi kita akan menghadapi situasi
ini ketika kita membahas ekonometrik deret waktu nanti dalam teks.
Asumsi ini tidak terlalu berbahaya seperti yang terlihat. Dalam contoh hipotetis Tabel 3.1,
bayangkan bahwa kita hanya memiliki pasangan pengamatan pertama Y dan X ( 4 dan 1). Dari
pengamatan tunggal ini tidak ada cara untuk memperkirakan dua hal yang tidak diketahui, β 1 dan β 2. Kami membutuhkan
setidaknya dua pasang observasi untuk memperkirakan dua hal yang tidak diketahui. Dalam bab selanjutnya kita akan melakukannya
ASUMSI 7 Sifat dari X Variabel: Itu X nilai dalam sampel tertentu tidak boleh semuanya sama.
Secara teknis, var ( X) harus bilangan positif. Selain itu, tidak mungkin ada pencilan dalam
nilai-nilai X variabel, yaitu, nilai yang sangat besar dalam kaitannya dengan observasi
lainnya.
Asumsi bahwa ada variabilitas di X nilai juga n terlihat. Lihatlah atau a ¯ tidak berbahaya seperti itu
Persamaan. (3.1.6). Jika semua X nilai-nilai itu identik, lalu X i = X̄ ( Mengapa?) Dan
penyebut persamaan itu akan menjadi nol, sehingga tidak mungkin untuk memperkirakan β 2 dan
karena itu β 1. Secara intuitif, kami dengan mudah melihat mengapa asumsi ini penting.
Melihat contoh pengeluaran konsumsi keluarga di Bab 2, jika variasinya sangat kecil
pendapatan keluarga, kami tidak akan bisa menjelaskan banyak variasi dalam pengeluaran konsumsi.
Pembaca harus mengingat bahwa variasi pada keduanya Y dan X penting untuk menggunakan analisis
regresi sebagai alat penelitian. Singkatnya, variabel harus bervariasi!
Persyaratan bahwa tidak ada pencilan di file X nilai-nilai ini untuk menghindari hasil regresi didominasi
oleh pencilan semacam itu. Jika ada sedikit X nilai yang, katakanlah, 20 kali rata-rata X nilai-nilai, garis regresi
yang diperkirakan dengan atau tanpa pengamatan semacam itu mungkin sangat berbeda. Seringkali
pencilan seperti itu adalah hasil dari kesalahan manusia dalam aritmatika atau pencampuran sampel dari
populasi yang berbeda. Pada Bab 13 kita akan membahas topik ini lebih lanjut.
Diskusi kita tentang asumsi yang mendasari model regresi linier klasik sekarang sudah
selesai. Penting untuk dicatat bahwa semua asumsi ini hanya berkaitan dengan PRF dan bukan
SRF. Tetapi menarik untuk mengamati bahwa metode kuadrat terkecil yang dibahas
sebelumnya memiliki beberapa sifat yang mirip dengan asumsi yang telah kita buat.
∑
PRF. Misalnya, penemuan itu û ˆ i = 0 dan, oleh karena itu, û ¯ˆ = 0, mirip dengan
∑
asumsi itu E (u i | X i) = 0. Begitu juga dengan temuan itu û ˆ saya X i = 0 mirip dengan
asumsi bahwa cov ( u saya, X i) = 0. Sangat menyenangkan untuk dicatat bahwa metode kuadrat terkecil dengan demikian
mencoba untuk "menduplikasi" beberapa asumsi yang telah kami terapkan pada PRF.
Tentu saja, SRF tidak menduplikasi semua asumsi CLRM. Seperti yang akan kami tunjukkan
nanti, meskipun cov ( u saya, u j) = 0 ( saya j) dengan asumsi, itu benar tidak benar bahwa Sampel
cov ( û saya, û j) = 0 ( saya j). Faktanya, kami akan menunjukkan nanti bahwa residu tidak hanya
autokorelasi tetapi juga heteroskedastik (lihat Bab 12).
13 Milton Friedman, Esai dalam Ekonomi Positif, University of Chicago Press, Chicago, 1953, hal. 14.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 69
realitas persis. Seperti yang dicatat seorang penulis, ". . . jika kesederhanaan adalah kriteria yang diinginkan dari teori yang
baik, semua teori yang baik diidealkan dan disederhanakan secara berlebihan. " 14
Apa yang kami rencanakan adalah pertama mempelajari properti CLRM secara menyeluruh, dan
kemudian di bab-bab selanjutnya memeriksa secara mendalam apa yang terjadi jika satu atau lebih asumsi
CLRM tidak terpenuhi. Pada akhir bab ini, kami menyediakan inTable 3.4 panduan di mana seseorang dapat
menemukan apa yang terjadi pada CLRM jika asumsi tertentu tidak terpenuhi.
Seperti yang ditunjukkan oleh seorang kolega kepada kami, ketika kami meninjau penelitian yang
dilakukan oleh orang lain, kami perlu mempertimbangkan apakah asumsi yang dibuat oleh peneliti sesuai
dengan data dan masalah. Terlalu sering, penelitian yang diterbitkan didasarkan pada asumsi implisit
tentang masalah dan data yang kemungkinan besar tidak benar dan yang menghasilkan perkiraan
berdasarkan asumsi ini. Jelas, pembaca yang berpengetahuan luas harus, menyadari masalah ini, mengambil
sikap skeptis terhadap penelitian. Oleh karena itu, asumsi yang tercantum dalam Tabel 3.4 memberikan
daftar periksa untuk memandu penelitian kami dan untuk mengevaluasi penelitian orang lain.
Dengan latar belakang ini, kami sekarang siap untuk mempelajari CLRM. Secara khusus, kami ingin
mencari tahu properti statistik dari OLS dibandingkan dengan murni properti numerik
dibahas sebelumnya. Properti statistik OLS didasarkan pada asumsi CLRM yang telah dibahas dan
diabadikan dalam yang terkenal Teorema Gauss – Markov. Tetapi sebelum kita beralih ke teorema ini,
yang memberikan pembenaran teoretis untuk popularitas OLS, pertama-tama kita perlu
mempertimbangkan presisi atau kesalahan standar dari perkiraan kuadrat terkecil.
var ( β̂̂ 2) = σ ∑
2 (3.3.1)
xsaya
2
σ
se ( β̂̂ 2) = √∑ (3.3.2)
xsaya
2
∑
X saya
2
var ( β̂̂ 1) = ∑ (3.3.3)
n x saya
2σ2
√∑
X saya
2
se ( β̂̂ 1) = ∑ (3.3.4)
n xsaya
2σ
14 Mark Blaug, Metodologi Ekonomi: Atau Bagaimana Ekonom Menjelaskan, Edisi ke-2, Cambridge
University Press, New York, 1992, hal. 92.
15Itu kesalahan standar tidak lain adalah deviasi standar dari distribusi sampling dari estimator, dan
distribusi sampling dari estimator hanyalah sebuah distribusi probabilitas atau frekuensi dari
estimator, yaitu distribusi dari himpunan nilai dari estimator yang diperoleh dari semua sampel yang
mungkin. berukuran sama dari populasi tertentu. Distribusi sampel digunakan untuk menarik
kesimpulan tentang nilai parameter populasi berdasarkan nilai penduga yang dihitung dari satu atau
lebih sampel. (Untuk detailnya, lihat Lampiran A.)
70 Bagian satu Model Regresi Persamaan Tunggal
dimana var = varians dan se = kesalahan standar dan dimana σ 2 adalah konstanta atau
varian homoscedastic dari u saya Asumsi 4.
Semua kuantitas yang dimasukkan ke dalam persamaan sebelumnya kecuali σ 2 dapat diperkirakan dari
data. Seperti yang ditunjukkan dalam Lampiran 3A, Bagian 3A.5, σ 2 sendiri diperkirakan dengan rumus
berikut:
∑
ûsaya
ˆ2
σ̂ ˆ 2 = (3.3.5)
n-2
dimana σ̂ ˆ 2 adalah penaksir OLS yang benar tetapi tidak diketahui ∑ σ 2 dan dimana ekspresinya n - 2
dikenal ∑sebagai jumlah derajat kebebasan (df), ûsaya
ˆ 2 menjadi jumlah residu
kuadrat atau jumlah sisa kotak (RSS). 16 ∑
Sekali ûsaya
ˆ 2dikenal, σ̂ ˆ 2 dapat dengan mudah dihitung. ûsaya
ˆ 2sendiri dapat dihitung dengan baik
dari Persamaan. (3.1.2) atau dari ekspresi berikut (lihat Bagian 3.5 untuk bukti):
∑ ∑
ûi ˆ= 2 ysaya
2 -β̂ 2
ˆ2∑ xsaya
2 (3.3.6)
Dibandingkan dengan Persamaan. (3.1.2), Persamaan 3.3.6 mudah digunakan, karena tidak memerlukan komputasi
û ˆ saya untuk setiap observasi meskipun perhitungan seperti itu akan berguna dengan sendirinya (seperti
yang akan kita lihat di Bab 11 dan 12).
Sejak
∑
x saya y saya
β̂̂ 2 = ∑
saya
∑ x2
ekspresi alternatif untuk komputasi ûsaya
ˆ 2aku s
(∑ )2
∑ ∑ x saya y saya
ûi ˆ= 2 y2 - ∑ (3.3.7)
saya
xsaya
2
√∑
ûsaya
ˆ2 (3.3.8)
σ̂ ˆ =
n-2
dikenal sebagai kesalahan standar perkiraan atau itu stan kesalahan dard regresi (se).
Ini hanyalah deviasi standar dari file Y nilai-nilai tentang garis regresi yang diperkirakan dan sering digunakan
sebagai ukuran ringkasan dari "kebaikan yang sesuai" dari garis regresi yang diperkirakan, topik yang
dibahas dalam Bagian 3.5.
Sebelumnya kami mencatat itu, mengingat X saya, σ 2 mewakili varians (bersyarat) dari keduanya u saya dan
Y i. Oleh karena itu, kesalahan standar dari perkiraan juga dapat disebut (bersyarat)
deviasi standar u saya dan Y i. Tentu saja, seperti biasa, σ 2
Y dan σ Y mewakili, masing-masing,
varians tak bersyarat dan deviasi standar tak bersyarat dari Y.
16 Syarat jumlah derajat kebebasan berarti jumlah total observasi dalam sampel (= n) dikurangi
jumlah batasan atau batasan independen (linier) yang diberikan padanya. Dengan kata lain,
itu adalah jumlah RSS independen (3.1.2) dapat dihitung, ˆ observasi dari total n observasi. Misalnya,
sebelum
β̂ 1 dan ˆβ̂ 2 harus diperoleh terlebih dahulu. Oleh karena itu, kedua perkiraan ini menempatkan dua
pembatasan RSS. Karena itu, ada n - 2, tidak n, observasi independen untuk menghitung
RSS. Mengikuti logika ini, RSS regresi tiga variabel akan memiliki n - 3 df, dan untuk k- model variabel yang akan
dimilikinya n - k df. Aturan umumnya adalah ini: df = ( n - jumlah parameter yang diperkirakan).
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 71
Perhatikan fitur varians berikut (dan oleh karena itu kesalahan standar) dari ˆ β̂ 1
dan ˆβ̂ 2.
∑
1. Varians dari β̂ ˆ 2 berbanding lurus dengan σ 2 tapi berbanding terbalik dengan xi.2
Yaitu, diberikan σ 2, semakin besar variasi file X nilai, semakin kecil varians ˆ β̂ 2 dan
karenanya semakin besar ketepatan yang digunakan β 2 bisa diperkirakan. Singkatnya, diberikan σ 2, jika ada
variasi substansial dalam file X nilai-nilai, β 2 dapat diukur lebih akurat daripada saat X saya melakukan
∑
tidak bervariasi secara substansial. Juga, diberikan xsaya,
2 semakin besar varians σ 2, semakin besar variansnya
∑
dari β 2. Perhatikan itu sebagai ukuran sampel n meningkat, jumlah suku dalam penjumlahan, x 2 akan di-
saya,
lipatan. Sebagai n meningkat, ketepatan yang dengannya β 2 bisa diperkirakan juga meningkat. (Mengapa?)
∑
∑2. Varians β̂ ˆ 1 berbanding lurus dengan σ 2 dan X saya
2 tapi berbanding terbalik
untuk xsaya
2 dan ukuran sampel n.
3. Sejak ˆ β̂ 1 dan β̂ ˆ 2 adalah penduga, mereka tidak hanya akan bervariasi dari sampel ke sampel tetapi
dalam sampel tertentu mereka cenderung bergantung satu sama lain, ketergantungan ini diukur
yakin oleh kovariansi di antara mereka. Ditunjukkan dalam Lampiran 3A, Bagian 3A.4 bahwa
Sejak ( β̂ ˆ 2)dari
var sifat
apa pun, selalu kovarians antara ˆ ays positif, seperti varians dari variabel
β̂ 1 dan β̂ ˆ 2 tergantung pada tanda X̄ ¯. Jika X̄ ¯ positif, lalu sebagai
rumus menunjukkan, kovarian akan negatif. Jadi, jika koefisien kemiringan β 2 aku s overes-
berjangka waktu ( yaitu, kemiringannya terlalu curam), koefisien intersep β 1 akan diremehkan
( yaitu, intersep akan terlalu kecil). Nanti (terutama dalam bab multikolinearitas,
Bab 10), kita akan melihat kegunaan mempelajari kovarian antara koefisien regresi
yang diperkirakan.
Bagaimana varians dan kesalahan standar dari koefisien regresi yang diperkirakan
memungkinkan seseorang untuk menilai keandalan perkiraan ini? Ini adalah masalah dalam
inferensi statistik, dan akan dibahas di Bab 4 dan 5.
Seperti disebutkan sebelumnya, dengan asumsi model regresi linier klasik, perkiraan kuadrat
terkecil memiliki beberapa properti ideal atau optimal. Properti ini terkandung dalam yang
terkenal Teorema Gauss – Markov. Untuk memahami teorema ini, kita membutuhkan
untuk mempertimbangkan bias linier terbaik yang tepat
β̂ 2, dikatakan
Lampiran A, seorang penaksir, katakanlah penaksir OLS ˆ ty dari seorang sebagai
penaksir. tidak
18 Seperti bias
yang linier terbaik
dijelaskan di
penduga (BLUE) dari β 2 jika penangguhan berikut:
1. Benar linier, yaitu, fungsi linier dari variabel acak, seperti variabel dependen
Y dalam model regresi.
17 Meski dikenal sebagai Teorema Gauss – Markov, pendekatan kuadrat-terkecil dari Gauss antedates
(1821) pendekatan varian-minimum Markov (1900).
18 Pembaca harus mengacu pada Lampiran A untuk kepentingan penaksir linier serta untuk
diskusi umum tentang sifat penaksir statistik yang diinginkan.
72 Bagian satu Model Regresi Persamaan Tunggal
2. Benar tidak bias, yaitu, nilai rata-rata atau yang diharapkan, E ( β̂ ˆ 2), sama dengan nilai sebenarnya, β 2.
3. Memiliki varian minimum dalam kelas dari semua penduga yang tidak bias linier; penduga yang
tidak bias dengan varian terkecil dikenal sebagai penaksir yang efisien.
Dalam konteks regresi dapat dibuktikan bahwa penduga OLS berwarna BIRU. Ini adalah inti dari
Teorema Gauss – Markov yang terkenal, yang dapat dinyatakan sebagai berikut:
Gauss – Markov Dengan asumsi model regresi linier klasik, penduga kuadrat-terkecil, dalam kelas
Dalil penduga linier tidak bias, memiliki varian minimum, yaitu BIRU.
Bukti teorema ini dibuat sketsa Lampiran 3A, Bagian 3A.6. Pengimporan penuh teorema
Gauss – Markov akan menjadi lebih jelas saat kita melanjutkan. Cukuplah untuk dicatat di sini
bahwa teorema memiliki kepentingan teoritis dan praktis. 19
Apa arti semua ini dapat dijelaskan dengan bantuan Gambar 3.7.
GAMBAR 3.7
Distribusi pengambilan sampel
penaksir OLS ˆ β̂ 2
dan alternatif
penduga β 2*.
β2
β
E ( ββ 2) = ββ 2
( Sebuah) Distribusi sampel β 2β
β *2
β
E ( ββ*2) = ββ2
( b) Distribusi sampel 2 β*
β2
β
β *2
β
2, β
ββ *2
β2
β
β2
( c) Distribusi sampel b2 dan b β β *2
β
19 Misalnya, dapat dibuktikan bahwa setiap kombinasi linier dari β s, seperti ( β 1 - 2 β 2), dapat diperkirakan dengan ( ˆ
β̂ 1 - 2 ˆβ̂ 2), dan penduga ini BIRU. Untuk detailnya, lihat Henri Theil, Pengantar Ekonometrika,
Prentice-Hall, Englewood Cliffs, NJ, 1978, hlm. 401–402. Perhatikan poin teknis tentang Gauss – Markov
Teorema: Ini hanya memberikan kondisi yang memadai (tetapi tidak perlu) agar OLS menjadi efisien. Saya berhutang budi kepada Michael
McAleer dari University of Western Australia karena telah menyampaikan hal ini kepada perhatian saya.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 73
Pada Gambar 3.7 ( Sebuah) kami telah menunjukkan distribusi sampling dari penaksir theOLS ˆ β̂ 2, itu adalah,
distribusi nilai yang diambil oleh ˆ
β̂ 2percobaan
Untuk kenyamanan kami asumsikan ˆ β̂ 2 dalam menjadi dis
pengambilan sampel berulang (lihat Tabel 3.1).
Bab 4). Seperti yang ditunjukkan gambar tersebut, tema dari file ˆβ̂dihormati
2 nilai-nilai,
secara β̂
E ( ˆ 2),simetris
sama dengan lebih lanjutβtentang
(tetapi kebenaran 2. Di dalam
ini di
situasi kami mengatakan itu ˆβ̂ 2 adalah penduga yang tidak bias dari β 2. Pada Gambar 3.7 ( b) kami telah menunjukkan
distribusi sampling dari β ∗2, penaksir alternatif β 2 diperoleh dengan menggunakan yang lain (yaitu, lainnya
dari OLS). Untuk kenyamanan, asumsikan itu β ∗ 2, Suka
atau nilai yang diharapkan sama dengan β 2. Asumsikan lebih jauh bahwaβ̂keduanya
2 dan β ∗ˆ β̂ ˆ 2, tidak bias, yaitu rata-rata
2 adalah penduga linier, itu
adalah, mereka adalah fungsi linier Y. Penaksir yang mana, ˆ β̂ 2 atau β ∗2, maukah kamu memilih?
Gambar 3.7 ( c). Itu q
Untuk menjawab jelas
ini meskipun keduanya ˆ pertanyaan, tumpang tindih kedua gambar, seperti pada
β̂ 2 dan β ∗ 2 tidak bias distribusi β ∗ 2 lebih tersebar atau luas-
tersebar di sekitar nilai rata-rata daripada distribusi β̂ ˆ 2. Dengan kata lain, varian β ∗ 2
lebih besar dari varian β̂ ˆ 2. Sekarang diberikan dua penduga yang linier dan tidak bias, salah satu akan
memilih penduga dengan varian yang lebih kecil karena lebih mungkin untuk menjadi.
dekat dengan β 2 dari pada penaksir alternatif. Singkatnya, seseorang akan memilih penduga BIRU.
Teorema Gauss – Markov luar biasa karena tidak membuat asumsi tentang
distribusi probabilitas variabel acak u saya, dan karena itu Y saya ( di bab selanjutnya kita akan
membahas ini). Selama asumsi CLRM terpenuhi, teorema tersebut berlaku. Sebagai
Akibatnya, kita tidak perlu mencari estimator lain yang tidak bias linier, karena kita tidak akan
menemukan estimator yang variansnya lebih kecil daripada estimator OLS tersebut. Tentu saja, jika
satu atau lebih dari asumsi ini tidak berlaku, teorema tersebut tidak valid. Misalnya, jika kita
mempertimbangkan model regresi nonlinearin-the-parameter (yang dibahas dalam Bab 14), kita
mungkin dapat memperoleh estimator yang mungkin berkinerja lebih baik daripada estimator OLS.
Juga, seperti yang akan kita tunjukkan dalam bab tentang heteroskedastisitas, jika asumsi varians
homoscedastic tidak terpenuhi, estimator OLS, meskipun tidak bias dan konsisten, tidak lagi menjadi
estimator varians minimum bahkan di kelas estimator linier.
Properti statistik yang baru saja kita diskusikan dikenal sebagai properti sampel terbatas: Properti
ini berlaku terlepas dari ukuran sampel yang menjadi dasar penduga. Nanti kami akan memiliki
kesempatan untuk mempertimbangkan sifat asimtotik, yaitu, properti yang hanya berlaku jika
ukuran sampel sangat besar (secara teknis, tidak terbatas). Sebuah diskusi umum tentang properti
sampel-terbatas dan sampel-besar dari estimator diberikan dalam Lampiran A.
20 Lihat Peter Kennedy, "Ballentine: A Graphical Aid for Econometrics," Makalah Ekonomi Australia,
vol. 20, 1981, hlm. 414–416. Nama Ballentine diambil dari lambang bir Ballantine yang terkenal
dengan lingkarannya.
74 Bagian satu Model Regresi Persamaan Tunggal
GAMBAR 3.8 Y X Y X Y X
Pemandangan Ballentine
dari r 2: ( a) r 2 = 0; ( f)
r 2 = 1.
( Sebuah) ( b) ( c)
Y X
Y=X
Y X
( d) ( e) ( f)
Dalam gambar ini lingkaran Y mewakili variasi dalam variabel dependen Y dan lingkaran X
mewakili variasi dalam variabel penjelas X. 21 Tumpang tindih dua lingkaran (area yang diarsir)
menunjukkan sejauh mana variasi tersebut masuk Y dijelaskan oleh variasi dalam
X ( katakanlah, melalui regresi OLS). Semakin besar cakupan tumpang tindih, semakin besar variasinya Y
dijelaskan oleh X. Itu r 2 hanyalah ukuran numerik dari tumpang tindih ini. Pada gambar, saat kita
bergerak dari kiri ke kanan, area tumpang tindih bertambah, yaitu, secara berturut-turut proporsi
variasi yang lebih besar Y dijelaskan oleh X. Pendeknya, r 2 meningkat. Jika tidak ada tumpang tindih, r 2 jelas
nol, tapi saat tumpang tindih selesai, r 2 adalah 1, karena 100 persen variasi dalam Y dijelaskan oleh X. Seperti
yang akan segera kami tunjukkan, r 2 terletak di antara 0 dan 1.
Untuk menghitung ini r 2, kami melanjutkan sebagai berikut: Ingat itu
Y i = ˆ Ŷ i + û ˆ saya (2.6.3)
y i = ŷ ˆ i + û ˆ saya (3.5.1)
dimana digunakan terbuat dari Persamaan. (3.1.13) dan (3.1.14). Kuadratkan Persamaan 3.5.1 di kedua sisi
dan menjumlahkan sampel, kita dapatkan
∑ ∑ ∑ ∑
yi 2= ∑ ŷi ˆ+ 2∑ ûi ˆ+ 22 ŷ ˆ saya û ˆ saya
= ŷi ˆ+ 2 ûsaya
ˆ2 (3.5.2)
∑
= ˆβ̂∑22 xi 2+ ûsaya
ˆ2
∑
sejak ŷ ˆ saya û ˆ i = 0 (mengapa?) Dan ŷ ˆ i =β̂
ˆ 2 x i.
Berbagai jumlah kuadrat yang muncul dalam Persamaan 3.5.2 dapat dijelaskan sebagai berikut:
∑
yi 2= ∑ ( Y saya - Ȳ) ¯ 2 = variasi total dari yang sebenarnya Y nilai-nilai ab ∑ di luar n,
2
yang bisa disebut jumlah total kotak (TSS). ∑
ŷ iˆ=sam ( Ŷˆ saya
mereka ¯ˆŶ 2 =
ple- mea
∑
= ˆ2 ∑ x 2
( Ŷ ˆ saya - Ȳ ¯) 2 β̂ Ŷ =) Ȳ ¯),
2 i = variasi perkiraan Y nilai-nilai tentang rata-rata mereka ( ¯ˆ
yang secara tepat dapat disebut jumlah kuadrat karena regresi [yaitu, karena variabel penjelas], atau
dijelaskan oleh regresi, atau hanya menjelaskan jumlah kotak
21 Syarat variasi dan perbedaan berbeda. Variasi berarti jumlah kuadrat deviasi suatu variabel dari
nilai rata-ratanya. Varians adalah jumlah kuadrat dibagi dengan derajat kebebasan yang sesuai.
Singkatnya, varians = variasi / df.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 75
GAMBAR 3.9 Y
u i = karena sisa
Rincian
Y saya
variasi Y saya menjadi dua
komponen. SRF
β 1 + B 2βX saya
B
Y saya
( Y saya –Y) = total
X
0 X saya
∑
(ESS). ûi ˆ= sisa
2 atau tidak bisa dijelaskan variasi dari Y nilai tentang garis regresi,
atau hanya jumlah sisa kotak (RSS). Jadi, Persamaan. (3.5.2) adalah
dan menunjukkan bahwa variasi total yang diamati Y nilai-nilai tentang nilai rata-rata mereka dapat dibagi
menjadi dua bagian, satu disebabkan oleh garis regresi dan yang lainnya untuk gaya acak karena tidak
semua aktual Y pengamatan terletak pada garis yang sesuai. Secara geometris, kami memiliki Gambar 3.9.
Sekarang membagi Persamaan 3.5.3 dengan TSS di kedua sisi, kita dapatkan
1 = ESS + RSS
TSS TSS
∑ ∑ (3.5.4)
( Ŷ ˆ saya - Ȳ ¯) 2 ûsayaˆ2
=∑
( Y sayaȲ) - ¯2 + ∑ ( Y saya - Ȳ)
¯ 2
∑
( Ŷˆsaya - ¯Ȳ) 2
r2=∑ (3.5.5)
( Y sayaȲ) TSS
- ¯2 = ESS
∑
ûsaya
ˆ2
r2=1 - ∑
( Y saya - Ȳ)
¯ 2
(3.5.5 Sebuah)
= 1 - RSS
TSS
Kuantitas r 2 dengan demikian didefinisikan dikenal sebagai (sam ple ) koefisien determinasi dan
merupakan ukuran kesesuaian yang paling umum digunakan dari garis regresi. Secara lisan, r 2
76 Bagian satu Model Regresi Persamaan Tunggal
mengukur proporsi atau persentase variasi total dalam Y yang dijelaskan oleh model
regresi.
Dua sifat r 2 mungkin dicatat:
1. Ini adalah kuantitas nonnegatif. (Mengapa?)
2. Batasannya adalah 0 ≤ r 2 ≤ 1. Sebuah r 2 dari 1 berarti kesempurnaan, yaitu, Ŷ ˆ i = Y saya untuk setiap saya. Di
hubungan antara
sisi lain, sebuah r 2regresi
dari noldan
berarti regressor apapun (yaitu, ˆ ns bahwa tidak ada
β̂ 2 = 0). Dalam hal ini, sebagai Persamaan. (3.1.9) menunjukkan, Ŷ ˆ i = ˆ β̂ 1 = ¯Ȳ,
yaitu, prediksi terbaik dari yang manapun Y nilai hanyalah nilai rata-ratanya. Oleh karena itu, dalam situasi ini
garis regresi akan menjadi horizontal ke X sumbu.
Meskipun r 2 dapat dihitung langsung dari definisinya yang diberikan dalam Persamaan 3.5.5,
dapat diperoleh lebih cepat dari rumus berikut:
r 2 = ESS
T
∑ SS
ŷ ˆ2
= ∑ saya
ysaya
2
(3.5.6)
ˆ 2 ∑ xsaya
2
= β̂ 2 ∑
ysaya
2
(∑
xsaya
2)
= ˆβ̂22∑
ysaya
2
Jika kita membagi pembilang dan penyebut Equa tion 3.5.6 dengan ukuran sampel n ( atau
n - 1 jika ukuran sampel kecil), kami dapatkan
( 2)
r 2 = ˆ β̂ 22 SSx2 (3.5.7)
y
(∑ )2
x saya y saya
r2=∑ (3.5.8)
xsaya
2 ∑ ysaya
2
ESS = r 2 · TSS
∑ (3.5.9)
= r2 ysaya
2
Kuantitas yang berkaitan erat tetapi secara konseptual sangat jauh berbeda dari r 2 adalah
koefisien korelasi, yang, seperti disebutkan dalam Bab 1, merupakan ukuran tingkat
hubungan antara dua variabel. Itu dapat dihitung dari
√
r = ± r2 (3.5.12)
atau dari definisinya
∑
x saya y saya
r = √ (∑) (
xsaya
2 ∑)∑ ysaya
2
∑ ∑ (3.5.13)
n X saya Y saya - ( X i) ( Y i)
= √ [∑
n X saya
2 - ( ∑)X 2] [ ∑ n
saya Ysaya
2 - ( ∑)Y2]
saya
7. Meskipun ini adalah ukuran hubungan linier antara dua variabel, sebenarnya tidak
selalu menyiratkan hubungan sebab-akibat, seperti yang dicatat dalam Bab 1.
Dalam konteks regresi, r 2 adalah ukuran yang lebih berarti daripada r, karena yang pertama
memberi tahu kita proporsi variasi dalam variabel dependen yang dijelaskan oleh variabel penjelas
dan oleh karena itu memberikan ukuran keseluruhan sejauh mana variasi dalam satu variabel
menentukan variasi di variabel lainnya. Yang terakhir tidak memiliki nilai seperti itu. 23 Selain itu,
seperti yang akan kita lihat, interpretasi dari r (= R) dalam model regresi berganda memiliki nilai yang
meragukan. Namun, kami akan berbicara lebih banyak tentangnya r 2 di Bab 7.
korelasi
Secaraantara Y aktual
sepintas, saya dan
perhatikan perkiraan
bahwa r 2 didefinisikan
Y saya, yaitu,sebelumnya
ˆ sebagai kuadrat
juga dapat dihitung koefisien
Ŷ i. Artinya, menggunakan
Persamaan. (3.5.13), kita bisa menulis
[∑
( Y saya - Ȳ ¯) ( Ŷ ˆ Ȳ) 2
r2=∑
( Y saya -Ȳ)
¯∑2 saya( -Ŷ ¯]
ˆ saya - Ȳ ¯) 2
GAMBAR 3.10 Y Y Y
Pola korelasi
r=+1 r = –1 r mendekati +1
(diadaptasi dari Henri
Theil, Perkenalan pada
Ekonometrika,
Prentice-Hall,
Englewood Cliffs, NJ,
1978, hal. 86).
X X X
( Sebuah) ( b) ( c)
Y Y Y
r positif tapi r negatif tapi
r mendekati –1 mendekati nol mendekati nol
X X X
( d) ( e) ( f)
Y Y
r=0 Y = X2
tapi r = 0
X X
( g) ( h)
Itu adalah,
(∑ ) 2)
y saya
ŷ ˆ∑saya
r 2 = ( ∑) ( (3.5.14)
ysaya
2 ŷsaya
ˆ2
Dalam Tabel 3.2 kami menyediakan data mentah yang diperlukan untuk memperkirakan dampak kuantitatif
pendidikan terhadap upah.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 79
Yˆsaya
2 2
Obs X 2saya Y saya = Y saya -
uˆ saya Ŷ uˆsaya
catatan:
x i = X saya - ¯ X̄; y i = Y i = ¯ Ȳ
û ˆ2
σ̂ ˆ 2 =
n -2i = 9,83017
11= 0,893652; σ̂ ˆ = 0,945332
σ̂ 2 √
var ( ˆβ̂ 2) = ˆ β̂ 2) = 0,00490 = 0,070072
xsaya
2 = 0,893652
182.0 = 0,004910; se ( ˆ
ûsaya
ˆ2
r2=1 - = 1 - 9,83017 = 0,9065
Ȳ )2
( Y saya - ¯ 105.1188
√
r = r 2 = 0,9521
xsaya
2
var ( ˆβ̂ 1) =
nx 2 =saya
205413=( 0,868132;
1 82)
GAMBAR 3.11 14
Estimasi regresi
garis untuk pendidikan upah
data dari Tabel 2.6.
12
10
8
Rata-rata upah per jam
4
4 6 8 10 12 14 16 18 20
pendidikan
Dari data yang diberikan dalam tabel ini, kami memperoleh garis estimasi regresi sebagai berikut:
CONTOH 3.1 Mari kita lihat kembali data pendapatan konsumsi yang diberikan pada Tabel I.1 di Pendahuluan. Kami telah
Konsumsi- menunjukkan data pada Gambar I.3, bersama dengan garis regresi yang diperkirakan pada Persamaan.
(I.3.3). Sekarang kami memberikan hasil regresi OLS yang mendasari, yang diperoleh dari Berita 6.
Pendapatan
Catatan Y = pengeluaran konsumsi pribadi (PCE) dan X = produk domestik bruto (PDB), keduanya
Hubungan dalam diukur dalam 2000 miliar dolar. Dalam contoh ini datanya adalah data deret waktu.
Amerika Serikat, Ŷ ˆt 299.5913 0.7218 X t (3.7.1)
1960–2005
var (ˆβ̂ 1) 827.4195 β̂ 1)
se (ˆ 28.7649
var (ˆβ̂ 2) 0,0000195 β̂ 2)
se (ˆ 0,004423
r2 0.9983 ?ˆ ̂ 2 73.56689
Persamaan 3.7.1 adalah agregat, atau seluruh ekonomi, fungsi konsumsi Keynesian. Seperti
yang ditunjukkan persamaan ini, kecenderungan mengkonsumsi marjinal (MPC) adalah
sekitar 0,72, menunjukkan bahwa jika (pendapatan riil) naik satu dolar, pengeluaran konsumsi
pribadi rata-rata naik sekitar 72 sen. Menurut teori Keynesian, MPC diperkirakan berada di
antara 0 dan 1.
Nilai intersep dalam contoh ini adalah negatif, yang tidak memiliki interpretasi
ekonomi yang layak. Diartikan secara literal, artinya jika nilai GDP nol, maka rata-rata
tingkat pengeluaran konsumsi pribadi akan bernilai negatif sekitar 299 milyar dollar.
Itu r 2 nilai 0,9983 berarti sekitar 99 persen variasi pengeluaran konsumsi pribadi dijelaskan oleh
variasi dalam PDB. Nilai tersebut tergolong tinggi, mengingat hal itu r 2 dapat paling banyak 1. Seperti
yang akan kita lihat di seluruh buku ini, dalam regresi yang melibatkan data deret waktu seseorang
biasanya memperoleh nilai tinggi r 2 nilai-nilai. Kami akan mengeksplorasi alasan di balik ini di bab
tentang autokorelasi dan juga di bab tentang ekonometrik deret waktu.
CONTOH 3.2 Mengacu pada data yang diberikan pada Tabel 2.8 Latihan 2.15. Data terkait dengan sampel dari 55 rumah
Makanan tangga pedesaan di India. Regresi dan dalam contoh ini adalah pengeluaran untuk makanan dan regresi
adalah pengeluaran total, proksi untuk pendapatan, keduanya dalam rupee. Data dalam contoh ini
Pengeluaran dalam
demikian penampang data.
India Berdasarkan data yang diberikan, kami memperoleh regresi berikut:
Itu r 2 nilai sekitar 0,37 berarti hanya 37 persen variasi pengeluaran makanan dijelaskan
oleh total pengeluaran. Ini mungkin tampak nilai yang agak rendah, tetapi seperti yang akan
kita lihat di seluruh teks ini, dalam data penampang, biasanya nilai rendah r 2 nilai-nilai,
mungkin karena keragaman unit dalam sampel. Kami akan membahas topik ini lebih lanjut
dalam bab tentang heteroskedastisitas (lihat Bab 11).
82 Bagian satu Model Regresi Persamaan Tunggal
CONTOH 3.3 Tabel 3.3 memberikan data tentang jumlah pelanggan telepon seluler dan jumlah komputer
Permintaan untuk pribadi (PC), baik per 100 orang, dan pendapatan per kapita yang disesuaikan dengan daya
beli dalam dolar untuk sampel dari 34 negara. Jadi kami memiliki data cross-sectional. Data ini
Telepon Seluler
untuk tahun 2003 dan diperoleh dari Abstrak Statistik Amerika Serikat,
dan Personal 2006.
Komputer masuk Meskipun telepon seluler dan komputer pribadi digunakan secara luas di Amerika Serikat, tidak demikian halnya
di banyak negara. Untuk melihat apakah pendapatan per kapita merupakan faktor dalam penggunaan telepon
Kaitannya dengan Per
seluler dan PC, kami melakukan regresi pada masing-masing alat komunikasi ini terhadap pendapatan per kapita
Kapita Personal dengan menggunakan sampel dari 34 negara. Hasilnya adalah sebagai berikut:
Pendapatan
catatan: Data di ponsel dan komputer pribadi adalah per 100 orang.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 83
CONTOH 3.3 Permintaan Telepon Seluler. Membiarkan Y = jumlah pelanggan ponsel dan X =
pendapatan per kapita yang disesuaikan dengan daya beli, kami memperoleh regresi berikut.
( Lanjutan)
Ŷ ˆ i = 14,4773 + 0,0022 X saya (3.7.3)
se (ˆβ̂ 1) = 6.1523; se ( β̂ ˆ 2) = 0,00032
r 2 = 0.6023
Koefisien kemiringan menunjukkan bahwa jika pendapatan per kapita naik rata-rata, katakanlah, $
1.000, jumlah pelanggan telepon seluler naik sekitar 2,2 per 100 orang. Nilai intersep sekitar 14,47
menunjukkan bahwa meskipun pendapatan per kapita nol, jumlah rata-rata pelanggan telepon
seluler adalah sekitar 14 per 100 pelanggan. Sekali lagi, interpretasi ini mungkin tidak memiliki
banyak arti, karena dalam sampel kami, kami tidak memiliki negara dengan pendapatan per kapita
nol. Itu r 2 nilainya cukup tinggi. Tetapi perhatikan bahwa sampel kami mencakup berbagai negara
dengan tingkat pendapatan yang berbeda-beda. Dalam sampel yang begitu beragam, kami tidak
mengharapkan yang sangat tinggi r 2 nilai.
Setelah kita mempelajari Bab 5, kita akan menunjukkan bagaimana perkiraan kesalahan standar yang
dilaporkan dalam Persamaan 3.7.3 dapat digunakan untuk menilai signifikansi statistik dari koefisien yang
diperkirakan.
Permintaan Komputer Pribadi. Meskipun harga komputer pribadi telah turun secara substansial
selama bertahun-tahun, PC masih belum ada di mana-mana. Penentu penting dari permintaan
komputer pribadi adalah pendapatan pribadi. Penentu lainnya adalah harga, tetapi kami tidak
memiliki data perbandingan harga PC untuk negara-negara dalam sampel kami.
Membiarkan Y menunjukkan jumlah PC dan X Untuk pendapatan per kapita, kami memiliki permintaan
“parsial” untuk PC berikut (sebagian karena kami tidak memiliki data harga komparatif atau data tentang
variabel lain yang mungkin mempengaruhi permintaan PC).
Y i = β 1 + β 2 X i + u saya (3.8.1)
84 Bagian satu Model Regresi Persamaan Tunggal
1. Misalkan nilai sebenarnya dari parameter adalah sebagai berikut: β 1 = 20 dan β 2 = 0.6.
2. Anda memilih ukuran sampel, misalnya n = 25.
3. Anda memperbaiki nilai X untuk setiap observasi. Secara keseluruhan, Anda akan memiliki 25 X nilai-nilai.
4. Misalkan Anda pergi ke tabel nomor acak, memilih 25 nilai, dan memanggilnya u saya ( hari-hari ini
sebagian besar paket statistik memiliki generator nomor acak bawaan). 24
5. Sejak Anda tahu β 1, β 2, X saya, dan u saya, menggunakan Persamaan 3.8.1 Anda mendapatkan 25 Y saya nilai-nilai.
8. Anda mengambil rata-rata dari 100 perkiraan ini dan memanggilnya ¯ β̂ ˆdan ¯ˆ β̂ 2.
1
9. Jika nilai rata-rata ini hampir sama dengan nilai sebenarnya β 1 dan β 2 diasumsikan dalam
langkah 1, percobaan Monte Carlo ini "menetapkan" bahwa penaksir kuadrat-terkecil adalah
memang tidak bias. Ingatlah bahwa di bawah CLRM E ( β̂ ˆ 1) = β 1 dan E ( ˆ β̂ 2) = β 2.
Langkah-langkah ini mencirikan sifat umum eksperimen Monte Carlo. Eksperimen semacam itu sering
digunakan untuk mempelajari sifat statistik dari berbagai metode memperkirakan parameter
populasi. Mereka sangat berguna untuk mempelajari perilaku estimator dalam sampel kecil, atau
terbatas. Eksperimen ini juga merupakan cara yang sangat baik untuk membawa pulang konsep
tersebut pengambilan sampel berulang Itulah dasar dari sebagian besar inferensi statistik klasik,
seperti yang akan kita lihat pada Bab 5. Kami akan memberikan beberapa contoh eksperimen Monte
Carlo dengan cara latihan untuk tugas kelas. (Lihat Latihan 3.27.)
Ringkasan dan Topik dan konsep penting yang dikembangkan dalam bab ini dapat diringkas sebagai berikut.
4. Itu presisi penduga OLS diukur dengan mereka kesalahan standar. Di Bab 4
dan 5 kita akan melihat bagaimana kesalahan standar memungkinkan seseorang untuk menarik kesimpulan pada
parameter populasi, the β koefisien.
24 Dalam prakteknya diasumsikan demikian u saya mengikuti distribusi probabilitas tertentu, katakanlah, normal, dengan
parameter tertentu (misalnya mean dan varians). Setelah nilai parameter ditentukan, orang bisa melakukannya
dengan mudah menghasilkan u saya menggunakan paket statistik.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 85
7. CLRM adalah konstruksi atau abstraksi teoretis karena didasarkan pada sekumpulan asumsi yang
mungkin ketat atau "tidak realistis". Tetapi abstraksi semacam itu sering kali diperlukan pada
tahap awal mempelajari bidang pengetahuan apa pun. Setelah CLRM dikuasai, seseorang dapat
menemukan apa yang terjadi jika satu atau lebih asumsinya tidak terpenuhi. Bagian pertama dari
buku ini dikhususkan untuk mempelajari CLRM. Bagian lain dari buku ini membahas
penyempurnaan CLRM. Tabel 3.4 memberikan peta jalan di depan.
* Asumsi ini akan diperkenalkan pada Bab 7, saat kita membahas model regresi berganda.
* * Catatan: Asumsi itu mengganggu u saya didistribusikan secara normal bukan merupakan bagian dari CLRM. Tetapi lebih lanjut tentang ini di Bab 4.
LATIHAN Pertanyaan
3.1. Dengan melihat asumsi di kolom 1 tabel, tunjukkan bahwa asumsi di kolom 2 ekuivalen
dengan asumsi tersebut.
(1) (2)
E (u i | X i) = 0 E (Y i | X i) = β 2 + β 2 X
cov ( u saya, u j) = 0 i = j cov ( Y saya, Y j) = 0 i = j
var ( u i | X i) = σ 2 var ( Y i | X i) = σ 2
3.2. Tunjukkan itu perkiraannya β̂ ˆ 1 = 1.572 dan β̂ ˆ 2 = 1,357 yang digunakan dalam percobaan pertama pada
Tabel 3.1 sebenarnya adalah penduga OLS.
3.3. Menurut Malinvaud (lihat catatan kaki 11), asumsi itu E (u i | X i) = 0 cukup
penting. Untuk melihat ini, pertimbangkan PRF: Y = β 1 + β 2 X i + u i. Sekarang
pertimbangkan dua situasi: (i) β 1 = 0, β 2 = 1, dan E (u i) = 0; dan (ii) β 1 = 1, β 2 = 0, dan
E (u i) = ( X saya - 1). Sekarang ambillah harapan dari PRF bersyarat X dalam dua kasus
sebelumnya dan lihat apakah Anda setuju dengan Malinvaud tentang pentingnya
asumsi E (u i | X i) = 0.
86 Bagian satu Model Regresi Persamaan Tunggal
Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya
∑ ∑
û menunjukkan
Menerapkan batasan (i) dan β̂ ˆ 2 dan ˆ i = 0 dan (ii)bahwa
û ˆmereka
saya X i = identik
0, dapatkan penduga
dengan ˆ
penduga β̂ 1
kuadrat-terkecil yang diberikan
Persamaan. (3.1.6) dan (3.1.7). Metode untuk mendapatkan penduga ini disebut analogi
prinsip. Berikan pembenaran intuitif untuk memberlakukan pembatasan (i) dan (ii).
( Petunjuk: Ingat CLRMassumptions tentang u saya.) Secara sepintas, perhatikan bahwa prinsip analogi
untuk memperkirakan parameter yang tidak diketahui juga dikenal sebagai metode momen di
momen sampel mana (misalnya, mean sampel) yang digunakan untuk memperkirakan momen
populasi (misalnya mean populasi). Sebagaimana dicatat dalam Lampiran A, Sebuah saat adalah
ringkasan statistik dari distribusi probabilitas, seperti nilai yang diharapkan dan varians.
3.5. Menunjukkan bahwa r 2 didefinisikan dalam rentang (3.5.5) antara 0 dan 1. Anda dapat menggunakan
Ketimpangan Cauchy – Schwarz, yang menyatakan bahwa untuk variabel acak apa pun X dan Y hubungan
berikut ini benar:
[ E (XY)] 2 ≤ EX 2) E (Y 2)
β̂ ˆ XY = r 2
β̂ˆ YX
Model I: Y i = β 1 + β 2 X i + u saya
Sebuah. Temukan penduga dari β 1 dan α 1. Apakah mereka identik? Apakah variansnya identik?
b. Temukan penduga dari β 2 dan α 2. Apakah mereka identik? Apakah variansnya identik?
c. Apa keuntungan, jika ada, dari model II dibandingkan model I?
3.10. Misalkan Anda menjalankan regresi berikut:
y i = ˆ β̂ 1 + ˆβ̂ 2 x i + û ˆ saya
3.14. Dalam regresi Y i = β 1 + β 2 X i + u saya misalkan kita berkembang biak setiap X nilai dengan con-
stant, katakanlah, 2. Apakah itu akan mengubah residu dan nilai-nilai yang sesuai Y? Menjelaskan. Bagaimana jika kita
b. Jika korelasi antara dua variabel nol, itu berarti tidak ada hubungan-
kapal antara dua variabel apapun.
c. Jika Anda mengalami kemunduran Y saya di Ŷ ˆ saya ( yaitu, aktual Y pada perkiraan Y), intersep dan kemiringan
nilai akan menjadi 0 dan 1, masing-masing.
Latihan Empiris
3.18. Dalam Tabel 3.5, Anda diberi peringkat 10 siswa dalam ujian tengah semester dan akhir dalam
statistik. Menghitung koefisien korelasi peringkat Spearman dan menafsirkannya.
TABEL 3.5
Siswa
Pangkat SEBUAH B C D E F G H saya J
Tengah semester 1 3 7 10 9 5 4 8 2 6
Terakhir 3 2 8 7 9 6 5 10 1 4
88 Bagian satu Model Regresi Persamaan Tunggal
3.19. Hubungan antara nilai tukar nominal dan harga relatif. Dari tahunan
pengamatan dari tahun 1985 sampai 2005, hasil regresi berikut diperoleh,
dimana Y = nilai tukar dolar Kanada ke dolar AS (CD $) dan X =
rasio indeks harga konsumen AS dengan indeks harga konsumen Kanada; itu adalah,
X mewakili harga relatif di dua negara:
3.20. Tabel 3.6 memberikan data tentang indeks output per jam ( X) dan kompensasi nyata per
jam ( Y) untuk sektor bisnis dan bisnis nonpertanian ekonomi AS untuk
1960-2005. Tahun dasar indeks adalah 1992 = 100 dan indeks disesuaikan
secara musiman.
Sebuah. Merencanakan Y melawan X untuk dua sektor secara terpisah.
c. Perkirakan regresi OLS Y di X. Simpan hasilnya untuk kita jaga lebih lanjut
pelajari Bab 5.
3.21. Dari sampel sebanyak 10 observasi diperoleh hasil sebagai berikut:
∑ ∑ ∑
Y i = 1.110 X i = 1.700 X saya Y i = 205.500
∑ ∑
X i2= 322,000 Yi 2= 132.100
dengan koefisien korelasi r = 0,9758. Tetapi pada pengecekan ulang perhitungan ini
ditemukan bahwa dua pasang pengamatan dicatat:
Y X Y X
90 120 80 110
dari pada
140 220 150 210
Apa yang akan menjadi efek dari kesalahan ini r? Dapatkan yang benar r.
3.22. Tabel 3.7 menyajikan data harga emas, Indeks Harga Konsumen (IHK), dan Indeks Bursa
Efek New York (NYSE) untuk Amerika Serikat untuk periode 1974-2006. Indeks NYSE
mencakup sebagian besar saham yang terdaftar di NYSE, sekitar 1500-plus.
Sebuah. Plot di sebar sama harga emas, CPI, dan NYSE Index.
b. Investasi seharusnya menjadi lindung nilai terhadap inflasi jika harga dan / atau kursnya
pengembalian setidaknya mengimbangi inflasi. Untuk menguji hipotesis ini, misalkan Anda
memutuskan untuk menyesuaikan model berikut, dengan asumsi scatterplot di (a) menunjukkan
bahwa ini sesuai:
TABEL 3.6
Output per Jam dari Semua Kompensasi Nyata per
Produktivitas dan
Orang 1 Jam 2,3
Data Terkait,
Sektor bisnis Nonfarm Nonfarm
1960–2005 Bisnis Bisnis Bisnis Bisnis
(Nomor indeks, Tahun Sektor Sektor Sektor Sektor
1992 = 100; triwulanan 1960 48.9 51.9 60.8 63.3
data secara musiman 1961 50.6 53.5 62.5 64.8
disesuaikan) 1962 52.9 55.9 64.6 66.7
Sumber: Laporan Ekonomi 1963 55.0 57.8 66.1 68.1
Presiden, 2007, Tabel 49. 1964 56.8 59.6 67.7 69.3
1965 58.8 61.4 69.1 70.5
1966 61.2 63.6 71.7 72.6
1967 62.5 64.7 73.5 74.5
1968 64.7 66.9 76.2 77.1
1969 65.0 67.0 77.3 78.1
1970 66.3 68.0 78.8 79.2
1971 69.0 70.7 80.2 80.7
1972 71.2 73.1 82.6 83.2
1973 73.4 75.3 84.3 84.7
1974 72.3 74.2 83.3 83.8
1975 74.8 76.2 84.1 84.5
1976 77.1 78.7 86.4 86.6
1977 78.5 80.0 87.6 88.0
1978 79.3 81.0 89.1 89.6
1979 79.3 80.7 89.3 89.7
1980 79.2 80.6 89.1 89.6
1981 80.8 81.7 89.3 89.8
1982 80.1 80.8 90.4 90.8
1983 83.0 84.5 90.3 90.9
1984 85.2 86.1 90.7 91.1
1985 87.1 87.5 92.0 92.2
1986 89.7 90.2 94.9 95.2
1987 90.1 90.6 95.2 95.5
1988 91.5 92.1 96.5 96.7
1989 92.4 92.8 95.0 95.1
1990 94.4 94.5 96.2 96.1
1991 95.9 96.1 97.4 97.4
1992 100.0 100.0 100.0 100.0
1993 100.4 100.4 99.7 99.5
1994 101.3 101.5 99.0 99.1
1995 101.5 102.0 98.7 98.8
1996 104.5 104.7 99.4 99.4
1997 106.5 106.4 100.5 100.3
1998 109.5 109.4 105.2 104.9
1999 112.8 112.5 108.0 107.5
2000 116.1 115.7 112.0 111.5
2001 119.1 118.6 113.5 112.8
2002 124.0 123.5 115.7 115.1
2003 128.7 128.0 117.7 117.1
2004 132.7 131.8 119.0 118.2
2005 135.7 134.9 120.2 119.3
TABEL 3.7
Tahun Harga emas NYSE CPI
Harga Emas, Baru
Bursa Efek York 1974 159.2600 463.5400 49.30000
Indeks, dan Konsumen 1975 161.0200 483.5500 53.80000
Indeks Harga AS untuk 1976 124,8400 575.8500 56.90000
tahun 1974–2006 1977 157.7100 567.6600 60.60000
1978 193.2200 567.8100 65.20000
1979 306,6800 616.6800 72.60000
1980 612.5600 720.1500 82.40000
1981 460.0300 782.6200 90.90000
1982 375,6700 728.8400 96,50000
1983 424.3500 979.5200 99.60000
1984 360,4800 977.3300 103.9000
1985 317.2600 1142.970 107,6000
1986 367.6600 1438.020 109,6000
1987 446.4600 1709.790 113.6000
1988 436.9400 1585.140 118.3000
1989 381.4400 1903.360 124.0000
1990 383.5100 1939,470 130.7000
1991 362.1100 2181.720 136.2000
1992 343.8200 2421.510 140.3000
1993 359.7700 2638.960 144.5000
1994 384.0000 2687.020 148,2000
1995 384.1700 3078.560 152,4000
1996 387.7700 3787.200 156.9000
1997 331.0200 4827.350 160.5000
1998 294.2400 5818.260 163.0000
1999 278.8800 6546.810 166,6000
2000 279.1100 6805.890 172.2000
2001 274.0400 6397.850 177.1000
2002 309.7300 5578.890 179.9000
2003 363.3800 5447.460 184,00
2004 409.7200 6612.620 188.9000
2005 444.7400 7349.000 195.3000
2006 603.4600 8357.990 201.6000
3.23. Tabel 3.8 menyajikan data tentang produk domestik bruto (PDB) Amerika Serikat untuk
tahun 1959–2005.
Sebuah. Plot data PDB dalam dolar saat ini dan konstan (yaitu, 2000) terhadap waktu.
b. Membiarkan Y menunjukkan PDB dan X waktu (diukur secara kronologis dimulai dengan 1 untuk
1959, 2 untuk 1960, sampai 47 untuk 2005), lihat apakah model berikut cocok dengan data PDB:
Yt=β1+β2Xt+ut
Perkirakan model ini untuk PDB dolar saat ini dan konstan.
c. Bagaimana Anda menafsirkan β 2?
d. Jika ada perbedaan antara β 2 diperkirakan untuk PDB dolar saat ini dan itu
diperkirakan untuk PDB dolar konstan, apa yang menjelaskan perbedaannya?
e. Dari hasil Anda, apa yang dapat Anda katakan tentang sifat in United asi di United
Serikat selama periode sampel?
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 91
3.24. Menggunakan data yang diberikan dalam Tabel I.1 dari Pendahuluan, verifikasi Persamaan. (3.7.1).
3.25. Untuk contoh SAT yang diberikan dalam Latihan 2.16 lakukan hal berikut:
Lampiran 3A
Menetapkan persamaan ini ke nol, setelah penyederhanaan aljabar dan manipulasi, memberikan penduga yang diberikan
dalam Persamaan. (3.1.6) dan (3.1.7).
dimana
x i)
ki=( ∑
xsaya
2
yang menunjukkan itu ˆ β̂ 2 adalah penduga linier karena ini adalah fungsi linier dari Y
rata-rata Y saya dengan k saya melayani sebagai pemberat. Hal serupa juga dapat ditunjukkan seperti itu ˆ;β̂sebenarnya
1 juga merupakan penaksir linier.
itu berbobot
∑
β̂̂ 2 = k saya ( β 1 + β 2 X i + u i) ∑
∑ ∑
= β1 ki+β2 k saya X i + k saya u saya (4)
∑
= β2+ k saya u saya
Sekarang ambil ekspektasi Persamaan (4) di kedua sisi dan catat itu k saya, menjadi nonstochastic, dapat diperlakukan
sebagai konstanta, kami dapatkan
∑
E ( ˆβ̂ 2) = β 2 + k saya E (u i)
(5)
= β2
sejak E (u i) = 0 dengan asumsi. Karena itu, ˆ β̂ 2 adalah penduga yang tidak bias β 2. Demikian juga bisa
buktikan itu ˆ β̂ 1 juga merupakan penaksir yang tidak bias β 1.
Karena dengan asumsi, E (u 2 i) = σ 2 untuk setiap saya dan E (u saya u j) = 0, i = j, itu mengikuti itu
∑
var ( ˆβ̂ 2) = σ 2 ksaya
2
= Persamaan. (3.3.1)
Varians dari ˆ β̂ 1 dapat diperoleh dengan mengikuti alur penalaran yang sama yang telah diberikan. Setelah
varian dari ˆ β̂ 1 dan ˆ β̂ 2 diperoleh, akar kuadrat positifnya memberikan standar yang sesuai
kesalahan.
= E ( ˆβ̂ 1 - β 1) ( β̂ ˆ 2 - β 2) (Mengapa?)
= - ¯ X̄ E ( ˆβ̂ 2 - β 2) 2 (8)
= - ¯ X̄ var ( ˆ β̂ 2)
= Persamaan. (3.3.9)
Y i = β 1 + β 2 X i + u saya (9)
94 Bagian satu Model Regresi Persamaan Tunggal
Karena itu,
Ȳ ¯ = β 1 + β 2 X̄̄ + ū ¯ (10)
y i = β 2 x i + ( u saya - ū ¯) (11)
Oleh karena itu, mengganti Persamaan (11) menjadi Persamaan (12) akan menghasilkan
= σ 2 + ( n - 1) σ 2 - 2 σ 2
= ( n - 2) σ 2
di mana, dalam satu langkah terakhir, digunakan definisi dari k saya diberikan dalam Persamaan. (3) dan relasi yang diberikan dalam
Persamaan. (4). Perhatikan juga itu
∑ [∑ ]
E ( u saya - ū ¯) 2 = E [ ∑ usaya
2 - nū ¯ 2
( ∑) 2 ]
u saya
=E u2 n
saya -
n
[∑
=E usaya
2 - 1 ∑ ()] usaya
2
n
= n σ2- n σ 2 = ( n - 1) σ 2
n
di mana penggunaan dibuat dari fakta bahwa u saya tidak berkorelasi dan varians masing-masing u saya aku s σ 2.
Jadi, kami mendapatkan
( ∑)
E ûi ˆ= (2n - 2) σ 2 (16)
1 ( ∑)
E ( σ̂ ˆ 2) = E ûi ˆ= σ
2 2 menggunakan Persamaan (16) (18)
n-2
yang menunjukkan itu σ̂ ˆ 2 adalah penaksir kebenaran yang tidak bias σ 2.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 95
dimana
X saya - ¯X̄
ki=∑ ∑
= x saya (lihat Lampiran 3A.2) (19)
( X saya - X̄ ¯) 2 xsaya
2
yang menunjukkan itu ˆ β̂ 2 adalah rata-rata tertimbang dari Y dengan k saya melayani sebagai pemberat.
Mari kita definisikan penduga linier alternatif dari β 2 sebagai berikut:
∑
β2∗= w saya Y saya (20)
= w saya ( β 1 + β 2 X i) (21)
∑ ∑
= β1 wi+β2 w saya X saya
∑( ) 2
= σ2 ∑
w saya - x saya ∑ (Perhatikan trik matematika)
x i)2 +2 x+ saya xsaya
σ2( ∑ 2 ∑
∑( ∑( )( )
x2 x saya
= σ2 ∑
w saya - x saya
saya)
∑
w saya - x saya ∑
xi)22 + σ 2 ∑ xi)2 2 + 2 σ 2 xsaya
2 xsaya
2
∑( (
1
= σ2 ∑
w saya - x saya (24)
xsaya
2 xsaya
2
∑
w i = x saya
xsaya
2
Persamaan. (24) direduksi menjadi
var ( β2)∗ = σ 2 ∑
xsaya
2 (25)
= var ( ˆ β̂ 2)
96 Bagian satu Model Regresi Persamaan Tunggal
Dengan kata lain, dengan bobot w i = k saya, yang merupakan bobot kuadrat-terkecil, varian dari
mator β ∗ 2 sama dengan varians dari penaksir kuadrat-terkecil ˆ β̂ 2; jika tidak var ( β 2)>
∗
var ( ˆ β̂ 2). Untuk
dengan kata lain, jika ada penaksir tidak bias linier varian-minimum β 2, itu harus menjadi penaksir kuadrat
terkecil. Demikian pula dapat ditunjukkan bahwa β̂ ˆ 1 adalah penaksir tidak bias linier varian minimum
dari β 1.
Dengan membagi pembilang dan penyebut dengan n, kami tidak mengubah kesetaraan.
Sekarang
( )
σ2/ n
lim var ( β̂ ˆ 2 ︸) = lim ∑ (27)
xsaya
2 / n ︸ = 0
︸ ︷︷ ︸ ︷︷
n→∞ n→∞
di mana penggunaan dibuat dari fakta bahwa (1) th el I MI t dari a perbandingan qu antity adalah batas kuantitas di
pembilang sampai batas kuantitas di penyebut (lihat buku kalkulus mana saja); (2) sebagai n cenderung
∑
sampai batas akhir, σ 2 / n cenderung nol karena σ 2 adalah bilangan terbatas; dan [( x 2 i) / n] = 0 karena vari-
jagoan X memiliki batas terbatas karena Asumsi 7 dari CLRM.
Hasil dari diskusi sebelumnya adalah penaksir OLS ˆ β̂ 2 adalah penaksir yang konsisten dari
benar β 2. Dengan cara yang sama, kita bisa membangunnya ˆ β̂ 1 juga merupakan penaksir yang konsisten. Demikian diulang-ulang
(kecil) sampel, penduga OLS tidak bias dan sebagai ukuran sampel meningkat tanpa batas
Estimator OLS konsisten. Seperti yang akan kita lihat nanti, bahkan jika beberapa asumsi CLRM tidak
terpenuhi, kita mungkin dapat memperoleh penduga yang konsisten dari koefisien regresi dalam beberapa
situasi.