Damodar Gujarati, Dawn Porter-Basic Econometrics-McGraw-Hill Education (2008) (1) - Halaman-77-118.en - Id

Bab 3
Dua Variabel
Model Regresi: The
Masalah Estimasi
Seperti disebutkan di Bab 2, tugas pertama kita adalah memperkirakan fungsi regresi
populasi (PRF) berdasarkan fungsi regresi sampel (SRF) seakurat mungkin. Di Lampiran A
kita telah membahas dua metode estimasi yang umum digunakan: (1) kotak terkecil biasa (OLS) dan (2) maximumlikelihood
(ML). Secara umum, ini adalah metode OLS yang digunakan secara luas dalam analisis regresi terutama
karena secara intuitif menarik dan secara matematis jauh lebih sederhana daripada metode kemungkinan
maksimum. Selain itu, seperti yang akan kami tunjukkan nanti, dalam konteks regresi linier kedua metode
tersebut umumnya memberikan hasil yang serupa.
3.1 Metode Kuadrat Terkecil Biasa

Metode kuadrat terkecil biasa dikaitkan dengan Carl Friedrich Gauss, seorang matematikawan
Jerman. Di bawah asumsi tertentu (dibahas di Bagian 3.2), metode kuadrat terkecil memiliki
beberapa sifat statistik yang sangat menarik yang menjadikannya salah satu metode analisis
regresi yang paling kuat dan populer. Untuk memahami metode ini, pertama-tama kami
menjelaskan prinsip kuadrat-terkecil.
Ingat PRF dua variabel:
Y i = β 1 + β 2 X i + u saya (2.4.2)
Namun, seperti yang kami catat di Bab 2, PRF tidak dapat diamati secara langsung. Kami memperkirakannya
dari SRF:
Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya (2.6.2)

= ˆŶ i + û ˆ saya (2.6.3)
dimana ˆŶ saya adalah nilai perkiraan (rata-rata bersyarat) dari Y i.
Tapi bagaimana SRF itu sendiri ditentukan? Untuk melihat ini, mari kita lanjutkan sebagai berikut. Pertama,
mengekspresikan Persamaan 2.6.3 sebagai
û ˆ i = Y saya -Ŷˆsaya
(3.1.1)
= Y saya - ˆβ̂ 1 - β̂ ˆ 2 X saya
55
56 Bagian satu Model Regresi Persamaan Tunggal
GAMBAR 3.1 Y
Kotak terkecil
kriteria. SRF
Y saya
Yi=β1+ β2 X saya
u3
u1
u4
u2
X
X1 X2 X3 X4
yang menunjukkan bahwa û ˆ saya ( residual) hanyalah perbedaan antara yang sebenarnya dan yang
diperkirakan Y nilai-nilai.
Sekarang diberikan n pasangan pengamatan pada Y dan X, kami ingin menentukan SRF di
sedemikian rupa sehingga sedekat mungkin dengan yang sebenarnya Y. Untuk tujuan ini, kita dapat mengadopsi yang berikut
ini
∑
û ˆ i = ∑ kriteria:
( Y saya - Ŷ ˆ i)Pilih SRF
sekecil sedemikian
mungkin. rupa
Meskipun sehingga
menarik jumlah
secara intuitif, ini residualnya
bukan kriteria yang
sangat baik, seperti yang dapat dilihat pada tabel tabel hipotetis yang ditunjukkan pada Gambar 3.1.
∑
Jika kita mengadopsi kriteria meminimalkan û ˆ saya, Gambar 3.1 menunjukkan bahwa residu û ˆ 2
dan û ˆ 3 serta residu û ˆ 1 dan û ˆ 4 menerima berat yang sama dalam jumlah tersebut
( û ˆ 1 + û ˆ 2 + û ˆ 3 + û ˆ 4), meskipun dua residu pertama lebih dekat dengan SRF daripada dua residu terakhir.
Dengan kata lain, semua residual menerima kepentingan yang sama tidak peduli seberapa dekat atau
seberapa luas penyebaran pengamatan individu dari SRF. Konsekuensi dari ini
adalah bahwa sangat mungkin bahwa jumlah aljabar dari û ˆ saya kecil (bahkan nol) meskipun file
û ˆ saya tersebar luas tentang SRF. Untuk melihat ini, biarkan û ˆ 1, û ˆ 2, û ˆ 3, dan û ˆ 4 pada Gambar 3.1
mengasumsikan nilai 10, - 2, +2, dan - 10, masing-masing. Jumlah aljabar dari residu ini
uals adalah nol û ˆ 1 dan û ˆ 4 tersebar lebih luas di sekitar SRF daripada û ˆ 2 dan û ˆ 3.
Kita dapat menghindari masalah ini jika kita mengadopsi kriteria kuadrat terkecil, yang menyatakan bahwa SRF
bisa diperbaiki sedemikian rupa
∑ ∑
ûi ˆ= 2∑ ( Y saya - Ŷ î)2
(3.1.2)
= ( Y saya - β̂
ˆ 1- ˆβ̂ 2 X i) 2
sekecil mungkin, di mana û ˆ saya
2 adalah residu kuadrat. Dengan mengkuadratkan û ˆ saya, metode ini
memberi bobot lebih pada residu seperti û ˆ 1 dan û ˆ 4 pada Gambar 3.1 dari residu û ˆ 2 dan û ˆ 3.
∑
Seperti disebutkan sebelumnya, di bawah minimum û ˆ saya kriteria, jumlahnya bisa kecil meskipun
itu û ˆ saya tersebar luas ab ˆ keluar dari SRF. Tapi ini tidak mungkin di
∑ bawah pro-kuadrat terkecil
cedure, untuk yang lebih besar û saya ( dalam nilai absolut), semakin besar ûi.ˆPembenaran
2 lebih lanjut
untuk metode kuadrat terkecil terletak pada kenyataan bahwa penduga yang diperolehnya memiliki beberapa
sifat statistik yang sangat diinginkan, seperti yang akan kita lihat sebentar lagi.
bagian 3 Model Regresi Dua Variabel: Masalah Estimasi 57
TABEL 3.1
Y saya Xt Ŷˆ 1 saya û 1 saya
2
û 1 saya Ŷˆ 2 saya û 2 saya
2
û 2 saya
Eksperimental
(1) (2) (3) (4) (5) (6) (7) (8)
Penentuan
SRF 4 1 2.929 1.071 1.147 4 0 0
5 4 7.000 - 2.000 4.000 7 -2 4
7 5 8.357 - 1.357 1.841 8 -1 1
12 6 9.714 2.286 5.226 9 3 9
Jumlah: 28 16 0.0 12.214 0 14
Catatan: Ŷ ˆ 1 i =
= 1.572
Ŷ ˆ 2 saya 3.0 + +
1.0 X sayaX( yaitu,
1.357 β̂ ˆ 1 β̂
saya ( yaitu, = 3ˆ dan β̂ ˆ 2 dan
1 = 1.572 = 1,0)β̂ ˆ 2 = 1,357)
û 1 i = ( Y saya - Ŷ ˆ
1 saya)
= (Y -Ŷˆ
û 2 saya saya 2 saya)
Jelas dari Persamaan 3.1.2 bahwa

∑
ûi ˆ= f2 ( β̂ˆ 1, ˆβ̂2) (3.1.3)
Artinya, jumlah residual kuadrat adalah beberapa fungsi penduga ˆ β̂ 1 dan ˆ β̂ 2. Untuk
kumpulan data apa pun, memilih nilai yang berbeda untuk ˆ β̂ 1 dan ˆ β̂ 2 akan memberikan yang berbeda û ˆ dan
∑
maka nilai yang berbeda ûi. Ûntuk
2 melihat ini dengan jelas, pertimbangkan data hipotetis di Y dan
X diberikan dalam dua kolom pertama dari Tabel 3.1. Sekarang mari kita lakukan dua percobaan. Di
tidak
percobaan
khawatir
1, biarkan β̂ ˆtentang
sekarang dan β̂ ˆ 2 = 1.357
1 = 1.572 bagaimana kita mendapatkannya
(lihat nilai-nilai ini; katakanlah, itu hanya tebakan). 1 Menggunakan ini ˆ t kita
β̂ nilai dan X nilai yang diberikan dalam kolom (
dari Tabel 3.1, kita dapat dengan mudah menghitung perkiraannya Y saya diberikan di kolom (3) tabel sebagai ˆ 2) Ŷ 1 saya
(subskrip 1 adalah untuk menunjukkan percobaan pertama). Sekarang mari kita lakukan percobaan lain,
tapi kali ini menggunakan nilai ˆ β̂ 1 = 3 dan β̂ ˆ 2 = 1. Estimasi va
Ŷ 2 saya pada kolom (6) Tabel 3.1. Sejak ˆ lues dari
percobaan diberikan sebagai ˆ β̂ nilai
Y saya
di keduanya
dari ini
percobaan berbeda, kami mendapatkan nilai yang berbeda untuk estimasi residu, seperti yang ditunjukkan pada
meja; û ˆ 1 saya adalah sisa dari percobaan pertama dan û ˆ 2 saya dari percobaan
kedua. Kuadrat dari residu ini diberikan di kolom (5) dan (8). Jelas, sebagai
diharapkan dari Persamaan 3.1.3, jumlah sisa kuadrat ini berbeda karena didasarkan pada
himpunan yang berbeda ˆ
Sekarang set yang mana ˆ β̂ nilai-nilai
β̂ nilai-nilai. yang harus kita pilih? Sejak β̂ ˆ nilai-nilai percobaan pertama
∑
beri kami lebih rendah ûi ˆ(= 212.214) daripada yang diperoleh dari ˆ β̂ nilai-nilai dari pengalaman kedua-
ment (= 14), kita dapat mengatakan bahwa ˆ β̂ Eksperimen pertama adalah nilai "terbaik". tapi bagaimana caranya
Apakah kita tahu? Karena, jika kita punya waktu terbatas dan kesabaran yang tidak terbatas, kita bisa
melakukan lebih banyak eksperimen semacam itu, memilih set β̂ ˆ setiap kali dan membandingkan re-
∑
sulting
∑ ûsaya
ˆ 2dan kemudian memilih kumpulan tersebut β̂ ˆ nilai yang memberi kita nilai sekecil mungkin
û2saya
ˆ tentu saja dengan asumsi bahwa kami telah mempertimbangkan semua nilai yang mungkin dari β 1 dan β 2.
Tetapi karena waktu, dan tentunya kesabaran, umumnya terbatas, kita perlu mempertimbangkan
beberapa jalan pintas untuk proses coba-coba ini. Untungnya, metode kuadrat terkecil mendukung
memberi kita jalan pintas seperti itu. Prinsip atau metode kuadrat terkecil yang dipilih β̂ ˆ 1 dan ˆ
∑ β̂ 2
sedemikian rupa sehingga, untuk sampel atau kumpulan data tertentu, ûsaya
ˆ 2 sekecil mungkin. Di lain
kata-kata, untuk sampel tertentu, metode kuadrat terkecil memberi kita taksiran unik dari
∑
β 1 dan β 2 yang memberikan nilai sekecil mungkin ûi.ˆBagaimana
2 ini tercapai? Ini adalah sebuah
1 Bagi yang penasaran, nilai-nilai ini diperoleh dengan metode kuadrat terkecil, akan dibahas sebentar lagi. Lihat
Persamaan. (3.1.6) dan (3.1.7).

latihan langsung dalam kalkulus diferensial. Seperti yang ditunjukkan dalam Lampiran 3A, Bagian
3A.1, proses diferensiasi menghasilkan persamaan berikut untuk memperkirakan β 1 dan β 2:
∑
Y i = n ˆβ̂ 1 + ˆβ̂∑2 X saya (3.1.4)
∑
Y saya X i =β̂ˆ 1∑ Xi+ˆβ
∑̂ 2 X saya
2 (3.1.5)
dimana n adalah ukuran sampel. Persamaan simultan ini dikenal sebagai persamaan
normal.
Memecahkan persamaan normal secara bersamaan, kami dapatkan
∑ ∑
X saya Y saya - ∑ X saya Y saya
β̂̂ 2 = n ∑
n X saya
2 - ( ∑)X 2 saya
∑
( X saya - ¯X̄) (Y saya - Ȳ ¯)
= ∑ (3.1.6)
( X saya - ¯X̄) 2
∑
x saya y saya
=∑
xsaya
2
dimana X̄ ¯ dan Ȳ ¯ adalah sarana sampel X dan Y dan di mana kami mendefinisikan x i = ( X saya - ¯ X̄) dan
y i = ( Y saya - Ȳ ¯). Untuk selanjutnya, kami mengadopsi konvensi membiarkan huruf kecil menunjukkan
penyimpangan dari nilai rata-rata. ∑
∑
X 2 ∑∑ Y saya - ∑ X saya X saya Y saya
β̂̂ 1 = saya
n X saya
2 - ( ∑)X 2 saya
(3.1.7)
= ¯Ȳ - ˆ β̂X̄2 ¯
Langkah terakhir dalam Persamaan 3.1.7 dapat diperoleh langsung dari Persamaan. (3.1.4) dengan
manipulasi aljabar sederhana.
Secara kebetulan, perhatikan bahwa, dengan menggunakan identitas aljabar sederhana, rumus (3.1.6) untuk
memperkirakan β 2 dapat dinyatakan sebagai
∑
x saya y saya
β̂̂ 2 = ∑
xsaya
2
∑
x saya Y saya
=∑ (3.1.8) 2
X2 saya - n¯ X̄ 2
∑
X saya y saya
=∑
X2 saya - n¯ X̄ 2
Catatan 1:
∑ ∑ ∑
2
xi 2= ∑ ( X saya - ¯X̄) 2 = ∑ X2 X sayaX̄¯ +
∑ ¯∑ X̄ ¯ 2 = X saya 2 - 2 ¯X̄ X i + ∑ ¯ X̄ 2, sejak ¯ X̄
∑ saya - 2 ∑
adalah sebuah konstanta. Lebih lanjut mencatat itu X i = n ¯X̄ dan X̄ 2 = nX̄ ¯ 2 sejak ¯ X̄ adalah sebuah konstanta, akhirnya kita dapatkan
∑
xi 2= ∑ X2 X̄ 2.
∑ saya - n ¯
Catatan 2: x saya y i = ∑ x saya ( Y saya -Ȳ)
¯ =∑ x saya Y saya Ȳ
-¯∑ xi=∑ x saya Y saya Ȳ
- ¯ ∑ ( X saya - ¯X̄) = ∑ x saya Y saya, sejak ¯Ȳ adalah
∑
konstan dan karena jumlah penyimpangan variabel dari nilai rata-ratanya [misalnya, ( X saya - X̄ ¯)] selalu
∑
nol. Juga, y i = ∑ ( Y saya - Ȳ) ¯ = 0.
Estimator yang diperoleh sebelumnya dikenal sebagai penaksir kuadrat-terkecil, karena

mereka diturunkan dari prinsip kuadrat terkecil. Perhatikan hal-hal berikut ini properti numerik
estimasi yang diperoleh dengan metode OLS: "Properti numerik adalah properti yang
dipertahankan sebagai konsekuensi dari penggunaan kuadrat terkecil biasa, terlepas dari
bagaimana data dihasilkan." 3 Singkatnya, kami juga akan mempertimbangkan properti
statistik estimasi OLS, yaitu, properti "yang hanya memiliki asumsi tertentu tentang cara data
dihasilkan". 4 ( Lihat model regresi linier klasik di Bagian 3.2.)
I.Pengestimasi OLS hanya dinyatakan dalam jumlah yang dapat diamati (yaitu, sampel) (yaitu, X dan Y).
Oleh karena itu, mereka dapat dengan mudah dihitung. Mereka penduga titik; yaitu, jika diberi
II. sampel, setiap penduga hanya akan memberikan satu nilai (titik) dari parameter populasi yang
relevan. (Dalam Bab 5 kita akan membahas apa yang disebut penduga interval, yang
memberikan kisaran nilai yang mungkin untuk parameter populasi yang tidak diketahui.)
AKU AKU AKU. Setelah estimasi OLS diperoleh dari data sampel, garis regresi sampel
(Gambar 3.1) dapat dengan mudah diperoleh. Garis regresi yang diperoleh memiliki
properti berikut:
1. Ini melewati sarana sampel Y dan X. Fakta ini jelas dari
Persamaan. (3.1.7), untuk yang terakhir dapat ditulis sebagai Ȳ ¯ = ˆ β̂ 1 + ˆβ̂X̄2 ¯, yang ditampilkan
secara diagram pada Gambar 3.2.
GAMBAR 3.2 Y
Diagram menunjukkan itu
regresi sampel
Yi=β1+ X saya
garis melewati nilai β2
rata-rata sampel
SRF
Y dan X.
X
X
3 Russell Davidson dan James G. MacKinnon, Estimasi dan Inferensi dalam Ekonometrika, Oxford
University Press, New York, 1993, hal. 3.
4 Ibid.
2. Nilai rata-rata dari perkiraan Y = Ŷ ˆ saya sama dengan nilai rata-rata aktual Y
untuk
Ŷˆ i = ˆ β̂ 1 + β̂ ˆ 2 X saya
= (¯Ȳ - ˆ β̂
X̄ 2 ¯) + ˆβ̂ 2 X saya (3.1.9)
= ¯Ȳ + ˆβ̂ 2 ( X saya - ¯X̄)
Menjumlahkan kedua sisi persamaan terakhir ini di atas nilai sampel dan membaginya
dengan ukuran sampel n memberi
¯ˆ
Ŷ=Ȳ¯ (3.1.10) 5
∑
di mana penggunaan dibuat dari fakta bahwa ( X saya - ¯ X̄) = 0. (Mengapa?)
3. Nilai rata-rata dari residu û ˆ saya adalah nol. Dari Lampiran 3A, Bagian 3A.1, file
persamaan pertama adalah
∑
-2 ( Y saya - β̂̂ 1 - ˆβ̂ 2 X i) = 0
∑
Tapi sejak itu û ˆ i = Y saya - β̂
ˆ 1 - ˆβ̂ 2 X saya, persamaan sebelumnya tereduksi menjadi - 2 û ˆ i = 0,
darimana û ¯ˆ = 0. 6
Sebagai hasil dari properti sebelumnya, regresi sampel
Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya (2.6.2)
dapat diekspresikan dalam bentuk alternatif dimana keduanya Y dan X dinyatakan sebagai penyimpangan
dari nilai rata-rata mereka. Untuk melihat ini, jumlahkan (2.6.2) di kedua sisi untuk memberi
∑ ∑
Y i = n ˆβ̂ 1 + ˆβ̂∑2 Xi+ û ˆ saya ∑
(3.1.11)
= n ˆβ̂ 1 + ˆβ̂∑2 X saya sejak û ˆ i=0
Membagi Persamaan 3.1.11 dengan n, kami dapatkan
Ȳ¯ = ˆ β̂ 1 + β̂ ˆ 2 X̄ ¯ (3.1.12)
yang sama dengan Persamaan. (3.1.7). Mengurangi Persamaan 3.1.12 dari Persamaan. (2.6.2), kami
dapatkan
Y saya - ¯Ȳ = ˆ β̂ 2 ( X saya - ¯X̄) + û ˆ saya
atau
y i = ˆ β̂ 2 x i + û ˆ saya (3.1.13)
dimana y saya dan x saya, mengikuti konvensi kami, adalah penyimpangan dari nilai rata-rata (sampel)
masing-masing.
5 Perhatikan bahwa hasil ini benar hanya jika model regresi memiliki istilah intersep β 1 di dalamnya. Sebagai
Lampiran 6A, Sec. 6A.1 menunjukkan, hasil ini tidak perlu dipegang kapan β 1 tidak ada dalam model.
6 Hasil ini juga membutuhkan istilah intersep β 1 hadir dalam model (lihat Lampiran 6A, Sec.
6A.1).
Persamaan 3.1.13 dikenal sebagai bentuk penyimpangan. Perhatikan bahwa istilah intersep
β̂ˆ1 tidak lagi ada di dalamnya. Tapi istilah intersep selalu bisa diperkirakan dengan
Persamaan. (3.1.7), yaitu dari fakta yang dilewati garis regresi sampel
sarana sampel Y dan X. Keuntungan dari bentuk deviasi adalah sering
menyederhanakan rumus komputasi.
Secara sepintas, perhatikan bahwa dalam bentuk deviasi, SRF dapat ditulis sebagai
ŷ ˆ i = β̂ˆ2 x saya (3.1.14)
sedangkan di unit pengukuran aslinya Ŷ ˆ i = ˆ β̂ 1 + ˆβ̂ 2 X saya, seperti yang ditunjukkan pada
Persamaan. (2.6.1).
4. Residu û ˆ saya tidak berkorelasi dengan yang diprediksi Y i. Pernyataan ini dapat diverifikasi
sebagai berikut: menggunakan bentuk deviasi, kita bisa menulis
∑ ∑
ŷ ˆ saya û ˆ iβ̂
= ˆ2 x saya û ˆ saya
= ˆβ̂∑2 x saya ( y saya -β̂

ˆ 2 x i)
= ˆβ̂∑2 x saya y sayaβ̂

ˆ2∑
-2 xsaya
2 (3.1.15)
= ˆβ̂∑22 xsaya
2 -β̂ 2
ˆ2∑ xsaya
2
=0
∑
di mana penggunaan dibuat dari fakta itu ˆ β̂ 2 = ∑ x saya y saya / x
2
i.
∑
5. Residu û ˆ saya tidak berhubungan dengan X saya; itu adalah, û ˆ saya X i = 0. Fakta ini mengikuti
dari Persamaan. (2) dalam Lampiran 3A, Bagian 3A.1.
3.2 Model Regresi Linier Klasik: Asumsi yang Mendasari

Metode Kuadrat Terkecil
Jika tujuan kami adalah untuk memperkirakan β 1 dan β 2 hanya saja, metode OLS yang dibahas di
bagian sebelumnya sudah cukup. Tapi ingat dari Bab 2 bahwa dalam analisis regresi tujuan kita tidak
hanya untukβmendapatkan
yang benar 1 dan β 2. Sebagai
β̂ ˆ 1contoh,
dan β̂ ˆ 2 tetapi juga untuk kami ingin tahu seberapa dekat ˆ menarik kesimpulan tentang
ounterparts
β̂ 1 dan ˆ β̂ 2 adalah untuk mereka c dalam populasi atau
betapa dekat ˆ Ŷ saya adalah benar E (Y | X i). Untuk itu, kita tidak hanya harus menentukan bentuk fungsional
model, seperti pada Persamaan. (2.4.2), tetapi juga membuat asumsi tertentu tentang cara tersebut
di mana Y saya dihasilkan. Untuk melihat mengapa persyaratan ini diperlukan, lihat PRF:
Y i = β 1 + β 2 X i + u i. Itu menunjukkan bahwa Y saya tergantung pada keduanya X saya dan u i. Oleh karena itu, kecuali kita
spesifik tentang bagaimana X saya dan u saya dibuat atau dihasilkan, kami tidak dapat membuat kesimpulan statistik apa
pun tentang Y saya dan juga, seperti yang akan kita lihat, tentang β 1 dan β 2. Jadi,
asumsi yang dibuat tentang X saya variabel dan istilah kesalahan sangat penting untuk
interpretasi valid dari estimasi regresi.
Itu Gaussian, standar, atau model regresi linier klasik (CLRM), yang merupakan
landasan dari sebagian besar teori ekonometri, membuat 7 asumsi. 7 Kami pertama-tama
membahas asumsi ini dalam konteks model regresi dua variabel; dan di Bab 7 kami
memperluasnya ke model regresi berganda, yaitu model yang memiliki lebih dari satu
regressor.
7 Ini klasik dalam arti bahwa itu dikembangkan pertama kali oleh Gauss pada tahun 1821 dan sejak itu telah
berfungsi sebagai norma atau standar yang dapat dibandingkan dengan model regresi yang tidak
memenuhi asumsi Gauss.
ASUMSI 1 Model Regresi Linier: Model regresi adalah linier dalam parameter,
meskipun mungkin atau mungkin tidak linier dalam variabel. Itu adalah model regresi seperti yang ditunjukkan pada
Persamaan. (2.4.2):
Y i = β 1 + β 2 X i + u saya (2.4.2)
Seperti yang akan dibahas pada Bab 7, model ini dapat diperluas untuk memasukkan lebih banyak variabel
penjelas.
Kita telah membahas model (2.4.2) di Bab 2. Karena model regresi linier dalam
parameter adalah titik awal CLRM, asumsi ini akan dipertahankan untuk sebagian besar
buku ini. 8 Perlu diingat bahwa regresi dan Y dan regressor X mungkin nonlinier, seperti
yang dibahas pada Bab 2.
ASUMSI 2 Tetap X Nilai atau X Nilai Independen dari ErrorTerm: Nilai-nilai yang diambil oleh
regressor X dapat dianggap tetap dalam sampel berulang (kasus regressor tetap) atau mereka
dapat diambil sampel bersama dengan variabel dependen Y ( kasus regressor stokastik).
Dalam kasus terakhir, diasumsikan bahwa file X variabel dan istilah kesalahannya adalah
independen, yaitu, cov ( X saya, u i) = 0.
Ini dapat dijelaskan dalam contoh kami yang diberikan pada Tabel 2.1 (halaman 35). Pertimbangkan berbagai Y
populasi yang sesuai dengan tingkat pendapatan yang ditunjukkan pada tabel. Menjaga nilai pendapatan X tetap,
katakanlah, pada level $ 80, kita menarik sebuah keluarga secara acak dan mengamati konsumsi keluarga
mingguannya Y seperti, katakanlah, $ 60. Masih menyimpannya X dengan $ 80, kami secara acak menarik
keluarga lain dan mengamati keluarga itu Y senilai $ 75. Dalam setiap gambar ini (yaitu, pengambilan sampel
berulang), nilai X ditetapkan pada $ 80. Kami dapat mengulangi proses ini untuk semua file X nilai yang
ditunjukkan pada Tabel 2.1. Faktanya, data sampel yang ditunjukkan pada Tabel 2.4 dan 2.5 diambil dengan
cara ini.
Mengapa kami berasumsi bahwa file X nilai nonstochastic? Mengingat, di sebagian besar ilmu
sosial, data biasanya dikumpulkan secara acak di kedua bidang tersebut Y dan X variabel, tampaknya
wajar untuk mengasumsikan sebaliknya — bahwa X variabel, seperti Y variabel, juga acak atau
stokastik. Tapi awalnya kami berasumsi bahwa file X variabel nonstochastic karena alasan berikut:
Pertama, ini dilakukan pada awalnya untuk menyederhanakan analisis dan memperkenalkan pembaca pada
kompleksitas analisis regresi secara bertahap. Kedua, dalam situasi eksperimental, mungkin tidak realistis untuk
mengasumsikan bahwa X nilai-nilai tetap. Misalnya, seorang petani dapat membagi tanahnya menjadi beberapa persil
dan menerapkan jumlah pupuk yang berbeda pada persil-persil tersebut untuk melihat pengaruhnya terhadap hasil
panen. Demikian pula, sebuah toko serba ada mungkin memutuskan untuk menawarkan tarif diskon yang berbeda
pada suatu produk untuk melihat pengaruhnya terhadap konsumen. Terkadang kita mungkin ingin memperbaiki file X
nilai untuk tujuan tertentu. Misalkan kita mencoba menemukan pendapatan mingguan rata-rata pekerja ( Y) dengan
berbagai jenjang pendidikan ( X), seperti pada kasus data yang diberikan pada Tabel 2.6. Dalam hal ini, file X variabel
dapat dianggap tetap atau nonrandom. Ketiga, seperti yang kami tunjukkan di Bab 13, meskipun file X variabel
stokastik, hasil statistik berbasis regresi linier
8 Namun, diskusi singkat tentang model regresi nonlinier-dalam-parameter diberikan dalam Bab 14 untuk
keuntungan siswa yang lebih mahir.
pada kasus regressor tetap juga valid jika X itu acak, asalkan beberapa
kondisi terpenuhi. Salah satu syaratnya adalah regressor itu X dan istilah kesalahan u saya mandiri.
Seperti yang dicatat James Davidson, “. . . model ini [yaitu, regressor stokastik] 'meniru' yang tetap
model regressor, dan. . . banyak sifat statistik dari kuadrat terkecil dalam model regresi
tetap terus dipertahankan. " 9
Untuk semua alasan ini, pertama-tama kami akan membahas CLRM (regressor tetap) secara
cukup rinci. Namun, di Bab 13 kita akan membahas kasus regressor stokastik secara mendetail
dan menunjukkan kejadian di mana kita perlu mempertimbangkan model regressor stokastik.
Secara kebetulan, perhatikan bahwa jika file X variabel stokastik, model yang dihasilkan disebut model
regresi linier neo-klasik (NLRM), 10 berbeda dengan CLRM, di mana file
X 's diperlakukan sebagai tetap atau nonrandom. Untuk tujuan diskusi, kami akan menyebut yang pertama sebagai
model regressor stokastik dan yang terakhir model regressor tetap.
ASUMSI 3 Nilai Rata-Rata Nol Gangguan u saya: Diberikan nilai X saya, maksudnya, atau diharapkan,
nilai istilah gangguan acak u saya adalah nol. Secara simbolis, kita punya
E (u i | X i) = 0 (3.2.1)
Atau jika X nonstochastic,
E (u i) = 0
Asumsi 3 menyatakan bahwa nilai rata-rata u saya tergantung pada yang diberikan X saya adalah nol. Secara
geometris, asumsi ini dapat digambarkan seperti pada Gambar 3.3 yang menunjukkan beberapa nilai
variabel X dan Y populasi yang terkait dengan mereka masing-masing. Seperti yang ditunjukkan, masing-masing Y
GAMBAR 3.3 Y
Bersyarat Berarti
distribusi
gangguan u saya.
PRF: Y i = β 1 + β2 X saya
+u saya
- u saya
X
X1 X2 X3 X4
9 James Davidson, Teori Ekonometrik, Blackwell Publishers, Inggris, 2000, hal. 10.
10 Suatu istilah karena Arthur S. Goldberger, Kursus Ekonometrika, Harvard University Press, Cambridge, MA,
1991, hal. 264.
populasi yang sesuai dengan yang diberikan X didistribusikan di sekitar nilai rata-ratanya (ditunjukkan oleh titik-titik
yang dilingkari pada PRF), dengan beberapa Y nilai di atas rata-rata dan beberapa di bawahnya. Jaraknya
di atas dan di bawah nilai rata-rata tidak lain adalah u saya. Persamaan 3.2.1 mensyaratkan bahwa
nilai rata-rata atau mean dari deviasi ini sesuai dengan yang diberikan X harus nol.
Asumsi ini seharusnya tidak sulit untuk dipahami dalam pembahasan di Bagian 2.4
(lihat Persamaan [2.4.5]). Asumsi 3 hanya mengatakan bahwa faktor tidak secara eksplisit
disertakan dalam model, dan oleh karena itu dimasukkan ke dalam u saya, tidak mempengaruhi mean secara sistematis
Nilai dari Y; dengan kata lain, positif u saya nilai menghilangkan negatif u saya nilai-nilai sehingga efek rata-rata
atau meannya pada Y adalah nol. 11
Secara sepintas, perhatikan asumsi itu E (u i | X i) = 0 menyiratkan itu E (Y i | X i) = β 1 + β 2 X saya.

(Mengapa?) Oleh karena itu, kedua asumsi tersebut setara.
Penting untuk ditunjukkan bahwa Asumsi 3 menyiratkan bahwa tidak ada bias spesifikasi
atau kesalahan spesifikasi dalam model yang digunakan dalam analisis empiris. Dengan kata
lain, model regresi ditentukan dengan benar. Meninggalkan variabel penjelas penting,
termasuk variabel yang tidak perlu, atau memilih bentuk fungsional yang salah dari hubungan
antara Y dan X variabel adalah beberapa contoh kesalahan spesifikasi. Kami akan membahas
topik ini secara cukup rinci di Bab 13.
Perhatikan juga bahwa jika rata-rata bersyarat dari satu variabel acak yang diberikan variabel acak
lainnya adalah nol, kovariansi antara kedua variabel adalah nol dan karenanya dua vari-
ables tidak berkorelasi. Oleh karena itu, asumsi 3 menyiratkan hal itu X saya dan u saya tidak berkorelasi. 12
Alasan untuk mengasumsikan istilah gangguan itu u dan variabel penjelas X
tidak berkorelasi sederhana. Saat PRF kita ungkapkan seperti pada Persamaan. (2.4.2), kami berasumsi bahwa
X dan kamu ( yang mewakili pengaruh semua variabel yang dihilangkan) memiliki pengaruh terpisah
(dan aditif) Y. Tapi jika X dan u berkorelasi, tidak mungkin untuk menilai efek individual mereka Y. Jadi,
jika X dan u berkorelasi positif, X meningkat bila u meningkat dan menurun saat u menurun. Begitu
pula jika X dan u berkorelasi negatif, X meningkat bila u menurun dan menurun saat u meningkat.
Dalam situasi seperti ini sangat mungkin bahwa istilah kesalahan sebenarnya menyertakan beberapa
variabel yang seharusnya dimasukkan sebagai regressor tambahan dalam model. Inilah sebabnya
mengapa Asumsi 3 adalah cara lain untuk menyatakan bahwa tidak ada kesalahan spesifikasi dalam
model regresi yang dipilih.
ASUMSI 4 Homoskedastisitas atau Varians Konstan u saya: Varians kesalahan, atau

gangguan, istilahnya sama terlepas dari nilai X. Secara simbolis,
var ( u i) = E [u saya - E (u i | X saya)] 2
= E (u 2i | X saya), karena Asumsi 3

= E (u 2i), jika X saya nonstochastic
= σ2 (3.2.2)
di mana var berarti varians.
11 Untuk alasan yang lebih teknis mengapa Asumsi 3 diperlukan, lihat E. Malinvaud, Metode Statistik
Ekonometrika, Rand McNally, Chicago, 1966, hal. 75. Lihat juga Latihan 3.3.
12 Kebalikannya, bagaimanapun, tidak benar karena korelasi adalah ukuran asosiasi linier saja. Bahwa
adalah, meskipun X saya dan u saya tidak berkorelasi, rata-rata bersyarat dari u saya diberikan X saya mungkin bukan nol. Namun, jika
X saya dan u saya berkorelasi, E (u i | X saya) harus bukan nol, melanggar Asumsi 3. Kita berhutang poin ini pada Stock
dan Watson. Lihat James H. Stock dan Mark W. Watson, Pengantar Ekonometrika, Addison-Wesley,
Boston, 2003, hlm. 104–105.
Persamaan 3.2.2 menyatakan bahwa varians u saya untuk setiap X saya ( yaitu, varian bersyarat dari
u saya) adalah beberapa bilangan konstanta positif yang sama dengan σ 2. Secara teknis, Persamaan. (3.2.2)
mewakili asumsi homoskedastisitas, atau sama ( homo) sebaran ( skedastisitas) atau varian yang sama.
Kata tersebut berasal dari kata kerja Yunani skedanime, yang artinya membubarkan atau memencar.
Dinyatakan berbeda, Persamaan. (3.2.2) berarti bahwa Y populasi yang sesuai dengan berbagai X nilai
memiliki varian yang sama. Sederhananya, variasi di sekitar garis regresi (yang merupakan garis
hubungan rata-rata antara Y dan X) sama di seluruh X nilai-nilai; itu tidak meningkat atau menurun
sebagai X bervariasi. Secara diagram, situasi tersebut digambarkan pada Gambar 3.4.
Sebaliknya, perhatikan Gambar 3.5, di mana varian bersyarat dari Y populasi bervariasi dengan X. Situasi
ini dikenal dengan tepat sebagai heteroskedastisitas, atau penyebaran yang tidak merata, atau perbedaan. Secara
simbolis, dalam situasi ini, Persamaan. (3.2.2) dapat ditulis sebagai
var ( u i | X i) = σsaya
2 (3.2.3)
Perhatikan subskrip pada σ 2 dalam Persamaan (3.2.3), yang menunjukkan bahwa varians dari Y
populasi tidak lagi konstan.
GAMBAR 3.4 f (u)

Homoskedastisitas.
Y
Kepadatan probabilitas u saya
X1
X2
X saya PRF: Y i = β 1 β βsaya
+β2 X
GAMBAR 3.5 f (u)

Heteroskedastisitas.
Y
Kepadatan probabilitas u saya
X1
X2 βb 1 + b 2 β
sayaX
X saya
X
Untuk memperjelas perbedaan antara dua situasi tersebut, mari Y mewakili pengeluaran konsumsi
mingguan dan X penghasilan mingguan. Gambar 3.4 dan 3.5 menunjukkan bahwa dengan meningkatnya
pendapatan, rata-rata pengeluaran konsumsi juga meningkat. Namun pada Gambar 3.4 varians pengeluaran
konsumsi tetap sama di semua tingkat pendapatan, sedangkan pada Gambar 3.5 varians tersebut meningkat
seiring dengan peningkatan pendapatan. Dengan kata lain, keluarga yang lebih kaya rata-rata
mengkonsumsi lebih banyak daripada keluarga yang lebih miskin, tetapi ada juga lebih banyak variabilitas
dalam pengeluaran konsumsi keluarga sebelumnya.
Untuk memahami alasan di balik asumsi ini, lihat Gambar 3.5. Seperti angka ini
acara, var ( u | X 1) < var ( u | X 2),. . . , < var ( u | X saya). Oleh karena itu, kemungkinannya adalah Y pengamatan
yang berasal dari populasi dengan X = X 1 akan lebih dekat ke PRF daripada itu
berasal dari populasi yang sesuai X = X 2, X = X 3, dan seterusnya. Singkatnya, tidak semuanya Y
nilai yang sesuai dengan berbagai X akan sama-sama dapat diandalkan, keandalan dinilai oleh
seberapa dekat atau jauh file Y nilai-nilai didistribusikan di sekitar sarana mereka, yaitu poin-poin di PRF. Jika
ini kenyataannya, kami tidak akan memilih untuk mengambil sampel dari itu Y populasi yang mendekati
rata-rata dibandingkan populasi yang tersebar luas? Tetapi melakukan hal itu mungkin membatasi variasi
yang kami peroleh X nilai-nilai.
Dengan menggunakan Asumsi 4, kami mengatakan bahwa pada tahap ini, semua Y nilai yang
sesuai dengan berbagai X sama pentingnya. Dalam Bab 11 kita akan melihat apa yang terjadi jika tidak
demikian, yaitu di mana terdapat heteroskedastisitas.
Secara sepintas, perhatikan bahwa Asumsi 4 menyiratkan bahwa varians bersyarat dari Y saya juga
homoscedastic. Itu adalah,
var ( Y i | X i) = σ 2 (3.2.4)
Tentu saja varian tanpa syarat dari Y aku s σ 2 Y. Nanti kita akan melihat pentingnya
membedakan antara varian bersyarat dan tidak bersyarat dari Y ( Lihat Lampiran A untuk
detail varians bersyarat dan tidak bersyarat).
ASUMSI 5 Tidak Ada Autokorelasi antara Gangguan: Diberikan dua X nilai-nilai, X saya dan
X j ( saya j), korelasi antara keduanya u saya dan u j ( saya j) adalah nol. Singkatnya, observasi
diambil sampelnya secara mandiri. Secara simbolis,
cov ( u saya, u j | X saya, X j) = 0 cov ( u saya, u j) = 0, jika X (3.2.5)

nonstochastic
dimana saya dan j adalah dua pengamatan yang berbeda dan di mana cov berarti kovarian.
Dengan kata lain, Persamaan 3.2.5 mendalilkan bahwa gangguan u saya dan u j tidak berkorelasi.
Secara teknis, ini adalah asumsi tidak ada korelasi serial, atau tidak ada autokorelasi. Ini
artinya, diberikan X saya, penyimpangan dari dua Y nilai dari nilai rata-rata mereka tidak menunjukkan pola seperti yang
ditunjukkan pada Gambar 3.6 ( Sebuah) dan ( b). Pada Gambar 3.6 ( Sebuah), kami melihat itu
itu u berkorelasi positif, positif u diikuti dengan positif u atau negatif u
diikuti dengan negatif u. Pada Gambar 3.6 ( b), itu u adalah berkorelasi negatif, positif u
diikuti dengan negatif u dan sebaliknya.
Jika gangguan (deviasi) mengikuti pola sistematis, seperti yang ditunjukkan pada Gambar 3.6 ( Sebuah)
dan ( b), ada korelasi otomatis atau serial, dan yang disyaratkan oleh Asumsi 5 adalah bahwa korelasi
tersebut tidak ada. Gambar 3.6 ( c) menunjukkan bahwa tidak ada pola sistematis untuk u 's, sehingga
menunjukkan korelasi nol.
GAMBAR 3.6 +u saya +u saya

Pola korelasi
Diantara
gangguan.
( Sebuah) serial positif
korelasi;
- u saya +u saya - u saya +u saya
( b) serial negatif
korelasi; ( c) nol
korelasi.
- u saya - u saya
( Sebuah) ( b)
+u saya
- u saya +u saya
- u saya
( c)
Pengimporan penuh asumsi ini akan dijelaskan secara menyeluruh di Ch secara apter
intuitif, orang dapat menjelaskan asumsi ini sebagai berikut. Misalkan di PRF kami ( Y t = β 1 + 12.
β2 XBu
t+ t
u t) bahwa u t dan u t - 1 berkorelasi positif. Kemudian Y t bergantung tidak hanya pada X t tapi juga u t - 1,
untuk u t - 1 sampai batas tertentu menentukan u t. Pada tahap pengembangan materi pelajaran ini, dengan
menggunakan Asumsi 5, kami mengatakan bahwa kami akan mempertimbangkan efek sistematis, jika
apapun, dari X t di Y t dan tidak mengkhawatirkan pengaruh lain yang mungkin terjadi Y sebagai hasil dari
kemungkinan interkorelasi antara u 's. Namun, seperti yang dikemukakan di Bab 12, kita akan melihat caranya
keterkaitan antar gangguan dapat dimasukkan ke dalam analisis dan dengan
konsekuensi apa.
Tetapi harus ditambahkan di sini bahwa pembenaran asumsi ini bergantung pada jenis data
yang digunakan dalam analisis. Jika datanya bersifat cross-sectional dan diperoleh sebagai
sampel acak dari populasi yang relevan, asumsi ini sering kali dapat dibenarkan. Namun, jika
datanya adalah deret waktu, asumsi independensi sulit dipertahankan, karena pengamatan
deret waktu yang berurutan, seperti PDB, sangat berkorelasi. Tapi kita akan menghadapi situasi
ini ketika kita membahas ekonometrik deret waktu nanti dalam teks.
ASUMSI 6 Jumlah Pengamatan n Harus Lebih Besar dari Jumlah

Parameter untuk Diperkirakan: Alternatifnya, jumlah observasi harus lebih
besar dari jumlah variabel penjelas.
Asumsi ini tidak terlalu berbahaya seperti yang terlihat. Dalam contoh hipotetis Tabel 3.1,
bayangkan bahwa kita hanya memiliki pasangan pengamatan pertama Y dan X ( 4 dan 1). Dari
pengamatan tunggal ini tidak ada cara untuk memperkirakan dua hal yang tidak diketahui, β 1 dan β 2. Kami membutuhkan
setidaknya dua pasang observasi untuk memperkirakan dua hal yang tidak diketahui. Dalam bab selanjutnya kita akan melakukannya
melihat pentingnya asumsi ini.
ASUMSI 7 Sifat dari X Variabel: Itu X nilai dalam sampel tertentu tidak boleh semuanya sama.
Secara teknis, var ( X) harus bilangan positif. Selain itu, tidak mungkin ada pencilan dalam
nilai-nilai X variabel, yaitu, nilai yang sangat besar dalam kaitannya dengan observasi
lainnya.
Asumsi bahwa ada variabilitas di X nilai juga n terlihat. Lihatlah atau a ¯ tidak berbahaya seperti itu
Persamaan. (3.1.6). Jika semua X nilai-nilai itu identik, lalu X i = X̄ ( Mengapa?) Dan
penyebut persamaan itu akan menjadi nol, sehingga tidak mungkin untuk memperkirakan β 2 dan
karena itu β 1. Secara intuitif, kami dengan mudah melihat mengapa asumsi ini penting.
Melihat contoh pengeluaran konsumsi keluarga di Bab 2, jika variasinya sangat kecil
pendapatan keluarga, kami tidak akan bisa menjelaskan banyak variasi dalam pengeluaran konsumsi.
Pembaca harus mengingat bahwa variasi pada keduanya Y dan X penting untuk menggunakan analisis
regresi sebagai alat penelitian. Singkatnya, variabel harus bervariasi!
Persyaratan bahwa tidak ada pencilan di file X nilai-nilai ini untuk menghindari hasil regresi didominasi
oleh pencilan semacam itu. Jika ada sedikit X nilai yang, katakanlah, 20 kali rata-rata X nilai-nilai, garis regresi
yang diperkirakan dengan atau tanpa pengamatan semacam itu mungkin sangat berbeda. Seringkali
pencilan seperti itu adalah hasil dari kesalahan manusia dalam aritmatika atau pencampuran sampel dari
populasi yang berbeda. Pada Bab 13 kita akan membahas topik ini lebih lanjut.
Diskusi kita tentang asumsi yang mendasari model regresi linier klasik sekarang sudah
selesai. Penting untuk dicatat bahwa semua asumsi ini hanya berkaitan dengan PRF dan bukan
SRF. Tetapi menarik untuk mengamati bahwa metode kuadrat terkecil yang dibahas
sebelumnya memiliki beberapa sifat yang mirip dengan asumsi yang telah kita buat.
∑
PRF. Misalnya, penemuan itu û ˆ i = 0 dan, oleh karena itu, û ¯ˆ = 0, mirip dengan
∑
asumsi itu E (u i | X i) = 0. Begitu juga dengan temuan itu û ˆ saya X i = 0 mirip dengan
asumsi bahwa cov ( u saya, X i) = 0. Sangat menyenangkan untuk dicatat bahwa metode kuadrat terkecil dengan demikian
mencoba untuk "menduplikasi" beberapa asumsi yang telah kami terapkan pada PRF.
Tentu saja, SRF tidak menduplikasi semua asumsi CLRM. Seperti yang akan kami tunjukkan
nanti, meskipun cov ( u saya, u j) = 0 ( saya j) dengan asumsi, itu benar tidak benar bahwa Sampel
cov ( û saya, û j) = 0 ( saya j). Faktanya, kami akan menunjukkan nanti bahwa residu tidak hanya
autokorelasi tetapi juga heteroskedastik (lihat Bab 12).
Sepatah Kata tentang Asumsi Ini

Pertanyaan jutaan dolar adalah: Seberapa realistis semua asumsi ini? "Realitas asumsi" adalah
pertanyaan kuno dalam filsafat sains. Beberapa orang berpendapat bahwa tidak masalah
apakah asumsi tersebut realistis. Yang penting adalah prediksi berdasarkan asumsi tersebut.
Yang terkenal di antara "tesis asumsi yang tidak relevan" adalah Milton Friedman. Baginya,
asumsi yang tidak nyata adalah keuntungan positif: “menjadi penting. . . hipotesis harus salah
secara deskriptif dalam asumsinya. " 13
Seseorang mungkin tidak sepenuhnya percaya pada sudut pandang ini, tetapi ingatlah bahwa dalam studi
ilmiah apa pun kita membuat asumsi tertentu karena mereka memfasilitasi pengembangan materi pelajaran
dalam langkah-langkah bertahap, bukan karena mereka harus realistis dalam arti mereka meniru.
13 Milton Friedman, Esai dalam Ekonomi Positif, University of Chicago Press, Chicago, 1953, hal. 14.
realitas persis. Seperti yang dicatat seorang penulis, ". . . jika kesederhanaan adalah kriteria yang diinginkan dari teori yang
baik, semua teori yang baik diidealkan dan disederhanakan secara berlebihan. " 14
Apa yang kami rencanakan adalah pertama mempelajari properti CLRM secara menyeluruh, dan
kemudian di bab-bab selanjutnya memeriksa secara mendalam apa yang terjadi jika satu atau lebih asumsi
CLRM tidak terpenuhi. Pada akhir bab ini, kami menyediakan inTable 3.4 panduan di mana seseorang dapat
menemukan apa yang terjadi pada CLRM jika asumsi tertentu tidak terpenuhi.
Seperti yang ditunjukkan oleh seorang kolega kepada kami, ketika kami meninjau penelitian yang
dilakukan oleh orang lain, kami perlu mempertimbangkan apakah asumsi yang dibuat oleh peneliti sesuai
dengan data dan masalah. Terlalu sering, penelitian yang diterbitkan didasarkan pada asumsi implisit
tentang masalah dan data yang kemungkinan besar tidak benar dan yang menghasilkan perkiraan
berdasarkan asumsi ini. Jelas, pembaca yang berpengetahuan luas harus, menyadari masalah ini, mengambil
sikap skeptis terhadap penelitian. Oleh karena itu, asumsi yang tercantum dalam Tabel 3.4 memberikan
daftar periksa untuk memandu penelitian kami dan untuk mengevaluasi penelitian orang lain.
Dengan latar belakang ini, kami sekarang siap untuk mempelajari CLRM. Secara khusus, kami ingin
mencari tahu properti statistik dari OLS dibandingkan dengan murni properti numerik
dibahas sebelumnya. Properti statistik OLS didasarkan pada asumsi CLRM yang telah dibahas dan
diabadikan dalam yang terkenal Teorema Gauss – Markov. Tetapi sebelum kita beralih ke teorema ini,
yang memberikan pembenaran teoretis untuk popularitas OLS, pertama-tama kita perlu
mempertimbangkan presisi atau kesalahan standar dari perkiraan kuadrat terkecil.
3.3 Kesalahan Presisi atau Standar dari Perkiraan Kuadrat-Terkecil

Dari Persamaan. (3.1.6) dan (3.1.7), terbukti bahwa estimasi kuadrat-terkecil adalah fungsi dari data
sampel. Tetapi karena data cenderung berubah dari sampel ke sampel, perkiraan akan berubah
secara ipso facto. Oleh karena itu, yang dibutuhkan adalah beberapa ukuran “reliabilitas” atau
presisi dari para penduga β̂ ˆ 1 dan β̂ ˆ 2. Dalam statistik ketepatan perkiraan diukur dengan
kesalahan standarnya (se). 15 Dengan asumsi Gaussian, ini ditunjukkan pada Lampiran 3A,
Bagian 3A.3 bahwa kesalahan standar perkiraan OLS dapat diperoleh sebagai berikut:
var ( β̂̂ 2) = σ ∑
2 (3.3.1)
xsaya
2
σ
se ( β̂̂ 2) = √∑ (3.3.2)
xsaya
2
∑
X saya
2
var ( β̂̂ 1) = ∑ (3.3.3)
n x saya
2σ2
√∑
X saya
2
se ( β̂̂ 1) = ∑ (3.3.4)
n xsaya
2σ
14 Mark Blaug, Metodologi Ekonomi: Atau Bagaimana Ekonom Menjelaskan, Edisi ke-2, Cambridge
University Press, New York, 1992, hal. 92.
15Itu kesalahan standar tidak lain adalah deviasi standar dari distribusi sampling dari estimator, dan
distribusi sampling dari estimator hanyalah sebuah distribusi probabilitas atau frekuensi dari
estimator, yaitu distribusi dari himpunan nilai dari estimator yang diperoleh dari semua sampel yang
mungkin. berukuran sama dari populasi tertentu. Distribusi sampel digunakan untuk menarik
kesimpulan tentang nilai parameter populasi berdasarkan nilai penduga yang dihitung dari satu atau
lebih sampel. (Untuk detailnya, lihat Lampiran A.)
dimana var = varians dan se = kesalahan standar dan dimana σ 2 adalah konstanta atau
varian homoscedastic dari u saya Asumsi 4.
Semua kuantitas yang dimasukkan ke dalam persamaan sebelumnya kecuali σ 2 dapat diperkirakan dari
data. Seperti yang ditunjukkan dalam Lampiran 3A, Bagian 3A.5, σ 2 sendiri diperkirakan dengan rumus
berikut:
∑
ûsaya
ˆ2
σ̂ ˆ 2 = (3.3.5)
n-2
dimana σ̂ ˆ 2 adalah penaksir OLS yang benar tetapi tidak diketahui ∑ σ 2 dan dimana ekspresinya n - 2
dikenal ∑sebagai jumlah derajat kebebasan (df), ûsaya
ˆ 2 menjadi jumlah residu
kuadrat atau jumlah sisa kotak (RSS). 16 ∑
Sekali ûsaya
ˆ 2dikenal, σ̂ ˆ 2 dapat dengan mudah dihitung. ûsaya
ˆ 2sendiri dapat dihitung dengan baik
dari Persamaan. (3.1.2) atau dari ekspresi berikut (lihat Bagian 3.5 untuk bukti):
∑ ∑
ûi ˆ= 2 ysaya
2 -β̂ 2
ˆ2∑ xsaya
2 (3.3.6)
Dibandingkan dengan Persamaan. (3.1.2), Persamaan 3.3.6 mudah digunakan, karena tidak memerlukan komputasi
û ˆ saya untuk setiap observasi meskipun perhitungan seperti itu akan berguna dengan sendirinya (seperti
yang akan kita lihat di Bab 11 dan 12).
Sejak
∑
x saya y saya
β̂̂ 2 = ∑
saya
∑ x2
ekspresi alternatif untuk komputasi ûsaya
ˆ 2aku s
(∑ )2
∑ ∑ x saya y saya
ûi ˆ= 2 y2 - ∑ (3.3.7)
saya
xsaya
2
Secara sepintas, perhatikan bahwa akar kuadrat positif dari σ̂ ˆ 2
√∑
ûsaya
ˆ2 (3.3.8)
σ̂ ˆ =
n-2
dikenal sebagai kesalahan standar perkiraan atau itu stan kesalahan dard regresi (se).
Ini hanyalah deviasi standar dari file Y nilai-nilai tentang garis regresi yang diperkirakan dan sering digunakan
sebagai ukuran ringkasan dari "kebaikan yang sesuai" dari garis regresi yang diperkirakan, topik yang
dibahas dalam Bagian 3.5.
Sebelumnya kami mencatat itu, mengingat X saya, σ 2 mewakili varians (bersyarat) dari keduanya u saya dan
Y i. Oleh karena itu, kesalahan standar dari perkiraan juga dapat disebut (bersyarat)
deviasi standar u saya dan Y i. Tentu saja, seperti biasa, σ 2
Y dan σ Y mewakili, masing-masing,
varians tak bersyarat dan deviasi standar tak bersyarat dari Y.
16 Syarat jumlah derajat kebebasan berarti jumlah total observasi dalam sampel (= n) dikurangi
jumlah batasan atau batasan independen (linier) yang diberikan padanya. Dengan kata lain,
itu adalah jumlah RSS independen (3.1.2) dapat dihitung, ˆ observasi dari total n observasi. Misalnya,
sebelum
β̂ 1 dan ˆβ̂ 2 harus diperoleh terlebih dahulu. Oleh karena itu, kedua perkiraan ini menempatkan dua
pembatasan RSS. Karena itu, ada n - 2, tidak n, observasi independen untuk menghitung
RSS. Mengikuti logika ini, RSS regresi tiga variabel akan memiliki n - 3 df, dan untuk k- model variabel yang akan
dimilikinya n - k df. Aturan umumnya adalah ini: df = ( n - jumlah parameter yang diperkirakan).
Perhatikan fitur varians berikut (dan oleh karena itu kesalahan standar) dari ˆ β̂ 1
dan ˆβ̂ 2.
∑
1. Varians dari β̂ ˆ 2 berbanding lurus dengan σ 2 tapi berbanding terbalik dengan xi.2
Yaitu, diberikan σ 2, semakin besar variasi file X nilai, semakin kecil varians ˆ β̂ 2 dan
karenanya semakin besar ketepatan yang digunakan β 2 bisa diperkirakan. Singkatnya, diberikan σ 2, jika ada
variasi substansial dalam file X nilai-nilai, β 2 dapat diukur lebih akurat daripada saat X saya melakukan
∑
tidak bervariasi secara substansial. Juga, diberikan xsaya,
2 semakin besar varians σ 2, semakin besar variansnya
∑
dari β 2. Perhatikan itu sebagai ukuran sampel n meningkat, jumlah suku dalam penjumlahan, x 2 akan di-
saya,
lipatan. Sebagai n meningkat, ketepatan yang dengannya β 2 bisa diperkirakan juga meningkat. (Mengapa?)
∑
∑2. Varians β̂ ˆ 1 berbanding lurus dengan σ 2 dan X saya
2 tapi berbanding terbalik
untuk xsaya
2 dan ukuran sampel n.
3. Sejak ˆ β̂ 1 dan β̂ ˆ 2 adalah penduga, mereka tidak hanya akan bervariasi dari sampel ke sampel tetapi
dalam sampel tertentu mereka cenderung bergantung satu sama lain, ketergantungan ini diukur
yakin oleh kovariansi di antara mereka. Ditunjukkan dalam Lampiran 3A, Bagian 3A.4 bahwa
cov ( ˆβ̂β̂1, ˆ 2) = - ¯ ( X̄ var ( ˆβ̂ 2)

σ 2) (3.3.9)
= - ¯ X̄ ∑
xsaya
2
Sejak ( β̂ ˆ 2)dari
var sifat
apa pun, selalu kovarians antara ˆ ays positif, seperti varians dari variabel
β̂ 1 dan β̂ ˆ 2 tergantung pada tanda X̄ ¯. Jika X̄ ¯ positif, lalu sebagai
rumus menunjukkan, kovarian akan negatif. Jadi, jika koefisien kemiringan β 2 aku s overes-
berjangka waktu ( yaitu, kemiringannya terlalu curam), koefisien intersep β 1 akan diremehkan
( yaitu, intersep akan terlalu kecil). Nanti (terutama dalam bab multikolinearitas,
Bab 10), kita akan melihat kegunaan mempelajari kovarian antara koefisien regresi
yang diperkirakan.
Bagaimana varians dan kesalahan standar dari koefisien regresi yang diperkirakan
memungkinkan seseorang untuk menilai keandalan perkiraan ini? Ini adalah masalah dalam
inferensi statistik, dan akan dibahas di Bab 4 dan 5.
3.4 Sifat-sifat Estimator Kuadrat-Terkecil: Teorema

Gauss-Markov 17
Seperti disebutkan sebelumnya, dengan asumsi model regresi linier klasik, perkiraan kuadrat
terkecil memiliki beberapa properti ideal atau optimal. Properti ini terkandung dalam yang
terkenal Teorema Gauss – Markov. Untuk memahami teorema ini, kita membutuhkan
untuk mempertimbangkan bias linier terbaik yang tepat
β̂ 2, dikatakan
Lampiran A, seorang penaksir, katakanlah penaksir OLS ˆ ty dari seorang sebagai
penaksir. tidak
18 Seperti bias
yang linier terbaik
dijelaskan di
penduga (BLUE) dari β 2 jika penangguhan berikut:
1. Benar linier, yaitu, fungsi linier dari variabel acak, seperti variabel dependen
Y dalam model regresi.
17 Meski dikenal sebagai Teorema Gauss – Markov, pendekatan kuadrat-terkecil dari Gauss antedates
(1821) pendekatan varian-minimum Markov (1900).
18 Pembaca harus mengacu pada Lampiran A untuk kepentingan penaksir linier serta untuk
diskusi umum tentang sifat penaksir statistik yang diinginkan.
2. Benar tidak bias, yaitu, nilai rata-rata atau yang diharapkan, E ( β̂ ˆ 2), sama dengan nilai sebenarnya, β 2.
3. Memiliki varian minimum dalam kelas dari semua penduga yang tidak bias linier; penduga yang
tidak bias dengan varian terkecil dikenal sebagai penaksir yang efisien.
Dalam konteks regresi dapat dibuktikan bahwa penduga OLS berwarna BIRU. Ini adalah inti dari
Teorema Gauss – Markov yang terkenal, yang dapat dinyatakan sebagai berikut:
Gauss – Markov Dengan asumsi model regresi linier klasik, penduga kuadrat-terkecil, dalam kelas
Dalil penduga linier tidak bias, memiliki varian minimum, yaitu BIRU.
Bukti teorema ini dibuat sketsa Lampiran 3A, Bagian 3A.6. Pengimporan penuh teorema
Gauss – Markov akan menjadi lebih jelas saat kita melanjutkan. Cukuplah untuk dicatat di sini
bahwa teorema memiliki kepentingan teoritis dan praktis. 19
Apa arti semua ini dapat dijelaskan dengan bantuan Gambar 3.7.
GAMBAR 3.7
Distribusi pengambilan sampel
penaksir OLS ˆ β̂ 2
dan alternatif
penduga β 2*.
β2
β
E ( ββ 2) = ββ 2
( Sebuah) Distribusi sampel β 2β
β *2
β
E ( ββ*2) = ββ2
( b) Distribusi sampel 2 β*
β2
β
β *2
β
2, β
ββ *2
β2
β
β2
( c) Distribusi sampel b2 dan b β β *2
β
19 Misalnya, dapat dibuktikan bahwa setiap kombinasi linier dari β s, seperti ( β 1 - 2 β 2), dapat diperkirakan dengan ( ˆ
β̂ 1 - 2 ˆβ̂ 2), dan penduga ini BIRU. Untuk detailnya, lihat Henri Theil, Pengantar Ekonometrika,
Prentice-Hall, Englewood Cliffs, NJ, 1978, hlm. 401–402. Perhatikan poin teknis tentang Gauss – Markov
Teorema: Ini hanya memberikan kondisi yang memadai (tetapi tidak perlu) agar OLS menjadi efisien. Saya berhutang budi kepada Michael
McAleer dari University of Western Australia karena telah menyampaikan hal ini kepada perhatian saya.
Pada Gambar 3.7 ( Sebuah) kami telah menunjukkan distribusi sampling dari penaksir theOLS ˆ β̂ 2, itu adalah,
distribusi nilai yang diambil oleh ˆ
β̂ 2percobaan
Untuk kenyamanan kami asumsikan ˆ β̂ 2 dalam menjadi dis
pengambilan sampel berulang (lihat Tabel 3.1).
Bab 4). Seperti yang ditunjukkan gambar tersebut, tema dari file ˆβ̂dihormati
2 nilai-nilai,
secara β̂
E ( ˆ 2),simetris
sama dengan lebih lanjutβtentang
(tetapi kebenaran 2. Di dalam
ini di
situasi kami mengatakan itu ˆβ̂ 2 adalah penduga yang tidak bias dari β 2. Pada Gambar 3.7 ( b) kami telah menunjukkan
distribusi sampling dari β ∗2, penaksir alternatif β 2 diperoleh dengan menggunakan yang lain (yaitu, lainnya
dari OLS). Untuk kenyamanan, asumsikan itu β ∗ 2, Suka
atau nilai yang diharapkan sama dengan β 2. Asumsikan lebih jauh bahwaβ̂keduanya
2 dan β ∗ˆ β̂ ˆ 2, tidak bias, yaitu rata-rata
2 adalah penduga linier, itu
adalah, mereka adalah fungsi linier Y. Penaksir yang mana, ˆ β̂ 2 atau β ∗2, maukah kamu memilih?
Gambar 3.7 ( c). Itu q
Untuk menjawab jelas
ini meskipun keduanya ˆ pertanyaan, tumpang tindih kedua gambar, seperti pada
β̂ 2 dan β ∗ 2 tidak bias distribusi β ∗ 2 lebih tersebar atau luas-
tersebar di sekitar nilai rata-rata daripada distribusi β̂ ˆ 2. Dengan kata lain, varian β ∗ 2
lebih besar dari varian β̂ ˆ 2. Sekarang diberikan dua penduga yang linier dan tidak bias, salah satu akan
memilih penduga dengan varian yang lebih kecil karena lebih mungkin untuk menjadi.
dekat dengan β 2 dari pada penaksir alternatif. Singkatnya, seseorang akan memilih penduga BIRU.
Teorema Gauss – Markov luar biasa karena tidak membuat asumsi tentang
distribusi probabilitas variabel acak u saya, dan karena itu Y saya ( di bab selanjutnya kita akan
membahas ini). Selama asumsi CLRM terpenuhi, teorema tersebut berlaku. Sebagai
Akibatnya, kita tidak perlu mencari estimator lain yang tidak bias linier, karena kita tidak akan
menemukan estimator yang variansnya lebih kecil daripada estimator OLS tersebut. Tentu saja, jika
satu atau lebih dari asumsi ini tidak berlaku, teorema tersebut tidak valid. Misalnya, jika kita
mempertimbangkan model regresi nonlinearin-the-parameter (yang dibahas dalam Bab 14), kita
mungkin dapat memperoleh estimator yang mungkin berkinerja lebih baik daripada estimator OLS.
Juga, seperti yang akan kita tunjukkan dalam bab tentang heteroskedastisitas, jika asumsi varians
homoscedastic tidak terpenuhi, estimator OLS, meskipun tidak bias dan konsisten, tidak lagi menjadi
estimator varians minimum bahkan di kelas estimator linier.
Properti statistik yang baru saja kita diskusikan dikenal sebagai properti sampel terbatas: Properti
ini berlaku terlepas dari ukuran sampel yang menjadi dasar penduga. Nanti kami akan memiliki
kesempatan untuk mempertimbangkan sifat asimtotik, yaitu, properti yang hanya berlaku jika
ukuran sampel sangat besar (secara teknis, tidak terbatas). Sebuah diskusi umum tentang properti
sampel-terbatas dan sampel-besar dari estimator diberikan dalam Lampiran A.
3.5 Koefisien Determinasi r 2: Ukuran

“Goodness of Fit”
Sejauh ini kami prihatin dengan masalah estimasi koefisien regresi, kesalahan standarnya, dan beberapa
propertinya. Kami sekarang mempertimbangkan kebaikan yang cocok dari garis regresi yang cocok untuk
satu set data; yaitu, kita akan mencari tahu seberapa "baik" garis regresi sampel sesuai dengan data. Dari
Gambar 3.1 jelaslah bahwa jika semua pengamatan diletakkan pada garis regresi, kita akan mendapatkan
kesesuaian yang "sempurna", tetapi ini jarang terjadi. Umumnya akan ada beberapa
positif û ˆ saya dan beberapa negatif û ˆ i. Yang kami harapkan adalah residu di sekitar garis
regresi ini sekecil mungkin. Itu koefisien determinasi r 2 ( kasus dua-variabel) atau R 2
(regresi berganda) adalah ukuran ringkasan yang menunjukkan seberapa cocok garis regresi sampel dengan
data.
Sebelum kami tunjukkan caranya r 2 dihitung, mari kita pertimbangkan penjelasan heuristik r 2 dalam istilah
perangkat grafis, yang dikenal sebagai Diagram Venn, atau itu Ballentine, seperti yang ditunjukkan pada Gambar
3.8. 20
20 Lihat Peter Kennedy, "Ballentine: A Graphical Aid for Econometrics," Makalah Ekonomi Australia,
vol. 20, 1981, hlm. 414–416. Nama Ballentine diambil dari lambang bir Ballantine yang terkenal
dengan lingkarannya.
GAMBAR 3.8 Y X Y X Y X
Pemandangan Ballentine
dari r 2: ( a) r 2 = 0; ( f)
r 2 = 1.
( Sebuah) ( b) ( c)
Y X
Y=X
Y X
( d) ( e) ( f)
Dalam gambar ini lingkaran Y mewakili variasi dalam variabel dependen Y dan lingkaran X
mewakili variasi dalam variabel penjelas X. 21 Tumpang tindih dua lingkaran (area yang diarsir)
menunjukkan sejauh mana variasi tersebut masuk Y dijelaskan oleh variasi dalam
X ( katakanlah, melalui regresi OLS). Semakin besar cakupan tumpang tindih, semakin besar variasinya Y
dijelaskan oleh X. Itu r 2 hanyalah ukuran numerik dari tumpang tindih ini. Pada gambar, saat kita
bergerak dari kiri ke kanan, area tumpang tindih bertambah, yaitu, secara berturut-turut proporsi
variasi yang lebih besar Y dijelaskan oleh X. Pendeknya, r 2 meningkat. Jika tidak ada tumpang tindih, r 2 jelas
nol, tapi saat tumpang tindih selesai, r 2 adalah 1, karena 100 persen variasi dalam Y dijelaskan oleh X. Seperti
yang akan segera kami tunjukkan, r 2 terletak di antara 0 dan 1.
Untuk menghitung ini r 2, kami melanjutkan sebagai berikut: Ingat itu
Y i = ˆ Ŷ i + û ˆ saya (2.6.3)
atau dalam bentuk penyimpangan
y i = ŷ ˆ i + û ˆ saya (3.5.1)
dimana digunakan terbuat dari Persamaan. (3.1.13) dan (3.1.14). Kuadratkan Persamaan 3.5.1 di kedua sisi
dan menjumlahkan sampel, kita dapatkan
∑ ∑ ∑ ∑
yi 2= ∑ ŷi ˆ+ 2∑ ûi ˆ+ 22 ŷ ˆ saya û ˆ saya
= ŷi ˆ+ 2 ûsaya
ˆ2 (3.5.2)
∑
= ˆβ̂∑22 xi 2+ ûsaya
ˆ2
∑
sejak ŷ ˆ saya û ˆ i = 0 (mengapa?) Dan ŷ ˆ i =β̂
ˆ 2 x i.
Berbagai jumlah kuadrat yang muncul dalam Persamaan 3.5.2 dapat dijelaskan sebagai berikut:
∑
yi 2= ∑ ( Y saya - Ȳ) ¯ 2 = variasi total dari yang sebenarnya Y nilai-nilai ab ∑ di luar n,
2
yang bisa disebut jumlah total kotak (TSS). ∑
ŷ iˆ=sam ( Ŷˆ saya
mereka ¯ˆŶ 2 =
ple- mea
∑
= ˆ2 ∑ x 2
( Ŷ ˆ saya - Ȳ ¯) 2 β̂ Ŷ =) Ȳ ¯),
2 i = variasi perkiraan Y nilai-nilai tentang rata-rata mereka ( ¯ˆ
yang secara tepat dapat disebut jumlah kuadrat karena regresi [yaitu, karena variabel penjelas], atau
dijelaskan oleh regresi, atau hanya menjelaskan jumlah kotak
21 Syarat variasi dan perbedaan berbeda. Variasi berarti jumlah kuadrat deviasi suatu variabel dari
nilai rata-ratanya. Varians adalah jumlah kuadrat dibagi dengan derajat kebebasan yang sesuai.
Singkatnya, varians = variasi / df.
GAMBAR 3.9 Y
u i = karena sisa
Rincian
Y saya
variasi Y saya menjadi dua
komponen. SRF
β 1 + B 2βX saya
B
Y saya
( Y saya –Y) = total
( Y saya –Y) = karena regresi
X
0 X saya
∑
(ESS). ûi ˆ= sisa
2 atau tidak bisa dijelaskan variasi dari Y nilai tentang garis regresi,
atau hanya jumlah sisa kotak (RSS). Jadi, Persamaan. (3.5.2) adalah
TSS = ESS + RSS (3.5.3)
dan menunjukkan bahwa variasi total yang diamati Y nilai-nilai tentang nilai rata-rata mereka dapat dibagi
menjadi dua bagian, satu disebabkan oleh garis regresi dan yang lainnya untuk gaya acak karena tidak
semua aktual Y pengamatan terletak pada garis yang sesuai. Secara geometris, kami memiliki Gambar 3.9.
Sekarang membagi Persamaan 3.5.3 dengan TSS di kedua sisi, kita dapatkan
1 = ESS + RSS
TSS TSS
∑ ∑ (3.5.4)
( Ŷ ˆ saya - Ȳ ¯) 2 ûsayaˆ2
=∑
( Y sayaȲ) - ¯2 + ∑ ( Y saya - Ȳ)
¯ 2
Kami sekarang mendefinisikan r 2 sebagai
∑
( Ŷˆsaya - ¯Ȳ) 2
r2=∑ (3.5.5)
( Y sayaȲ) TSS
- ¯2 = ESS
atau, sebagai alternatif, sebagai
∑
ûsaya
ˆ2
r2=1 - ∑
( Y saya - Ȳ)
¯ 2
(3.5.5 Sebuah)
= 1 - RSS
TSS
Kuantitas r 2 dengan demikian didefinisikan dikenal sebagai (sam ple ) koefisien determinasi dan
merupakan ukuran kesesuaian yang paling umum digunakan dari garis regresi. Secara lisan, r 2
mengukur proporsi atau persentase variasi total dalam Y yang dijelaskan oleh model
regresi.
Dua sifat r 2 mungkin dicatat:
1. Ini adalah kuantitas nonnegatif. (Mengapa?)
2. Batasannya adalah 0 ≤ r 2 ≤ 1. Sebuah r 2 dari 1 berarti kesempurnaan, yaitu, Ŷ ˆ i = Y saya untuk setiap saya. Di
hubungan antara
sisi lain, sebuah r 2regresi
dari noldan
berarti regressor apapun (yaitu, ˆ ns bahwa tidak ada
β̂ 2 = 0). Dalam hal ini, sebagai Persamaan. (3.1.9) menunjukkan, Ŷ ˆ i = ˆ β̂ 1 = ¯Ȳ,
yaitu, prediksi terbaik dari yang manapun Y nilai hanyalah nilai rata-ratanya. Oleh karena itu, dalam situasi ini
garis regresi akan menjadi horizontal ke X sumbu.
Meskipun r 2 dapat dihitung langsung dari definisinya yang diberikan dalam Persamaan 3.5.5,
dapat diperoleh lebih cepat dari rumus berikut:
r 2 = ESS
T
∑ SS
ŷ ˆ2
= ∑ saya
ysaya
2
(3.5.6)
ˆ 2 ∑ xsaya
2
= β̂ 2 ∑
ysaya
2
(∑
xsaya
2)
= ˆβ̂22∑
ysaya
2
Jika kita membagi pembilang dan penyebut Equa tion 3.5.6 dengan ukuran sampel n ( atau
n - 1 jika ukuran sampel kecil), kami dapatkan
( 2)
r 2 = ˆ β̂ 22 SSx2 (3.5.7)
y
dimana S 2 y dan S 2 x adalah varian sampel dari Y dan X , r khususnya.

/∑
Sejak ˆβ̂ 2 = ∑ x saya y saya saya,x
2 Persamaan. (3.5.6) juga dapat dinyatakan sebagai
(∑ )2
x saya y saya
r2=∑ (3.5.8)
xsaya
2 ∑ ysaya
2
ekspresi yang mungkin secara komputasi mudah diperoleh.

Diberikan definisi r 2, kita dapat mengungkapkan ESS dan RSS yang dibahas sebelumnya sebagai berikut:
ESS = r 2 · TSS
∑ (3.5.9)
= r2 ysaya
2
RSS = TSS - ESS

= TSS (1 - ESS / TSS) (3.5.10)
∑
= ysaya
2 · ( 1 - r 2)
Karena itu, kita bisa menulis
TSS = ESS + RSS ∑

∑ ∑ (3.5.11)
yi 2= r 2 yi 2+ ( 1 - r 2) ysaya
2
sebuah ekspresi yang akan kita temukan sangat berguna nanti.

Kuantitas yang berkaitan erat tetapi secara konseptual sangat jauh berbeda dari r 2 adalah
koefisien korelasi, yang, seperti disebutkan dalam Bab 1, merupakan ukuran tingkat
hubungan antara dua variabel. Itu dapat dihitung dari
√
r = ± r2 (3.5.12)
atau dari definisinya
∑
x saya y saya
r = √ (∑) (
xsaya
2 ∑)∑ ysaya
2
∑ ∑ (3.5.13)
n X saya Y saya - ( X i) ( Y i)
= √ [∑
n X saya
2 - ( ∑)X 2] [ ∑ n
saya Ysaya
2 - ( ∑)Y2]
saya
yang dikenal sebagai koefisien korelasi sampel. 22

Beberapa properti dari r adalah sebagai berikut (lihat Gambar 3.10):
1. Bisa positif atau negatif, tandanya tergantung dari tanda istilah di

pembilang persamaan 3.5.13, yang mengukur sampel kovarianasi dari dua variabel.
2. Itu terletak di antara batas - 1 dan +1; itu adalah, - 1 ≤ r ≤ 1.
3. Itu simetris di alam; yaitu, koefisien korelasi antara X dan
Y (r XY) sama seperti di antara keduanya Y dan X (r YX).
4. Tidak tergantung pada asal dan skala; yaitu, jika kita jelaskan X ∗ i = kapak i + C dan
Yi ∗= oleh i + d, dimana a> 0, b> 0, dan c dan d adalah konstanta r antara X ∗ dan Y ∗
sama dengan variabel asli X dan Y.
5. Jika X dan Y independen secara statistik (lihat Lampiran A untuk definisi),
koefisien korelasi antara keduanya adalah nol; tapi jika r = 0, tidak berarti bahwa dua
variabel independen. Dengan kata lain, korelasi nol tidak selalu berarti
independensi. [ Lihat Gambar 3.10 ( h).]
6. Ini adalah ukuran asosiasi linier atau ketergantungan linier hanya; ia tidak memiliki arti untuk
mendeskripsikan hubungan nonlinier. Jadi pada Gambar 3.10 ( h), Y = X 2 adalah hubungan yang tepat
r adalah nol. (Mengapa?)
7. Meskipun ini adalah ukuran hubungan linier antara dua variabel, sebenarnya tidak
selalu menyiratkan hubungan sebab-akibat, seperti yang dicatat dalam Bab 1.
Dalam konteks regresi, r 2 adalah ukuran yang lebih berarti daripada r, karena yang pertama
memberi tahu kita proporsi variasi dalam variabel dependen yang dijelaskan oleh variabel penjelas
dan oleh karena itu memberikan ukuran keseluruhan sejauh mana variasi dalam satu variabel
menentukan variasi di variabel lainnya. Yang terakhir tidak memiliki nilai seperti itu. 23 Selain itu,
seperti yang akan kita lihat, interpretasi dari r (= R) dalam model regresi berganda memiliki nilai yang
meragukan. Namun, kami akan berbicara lebih banyak tentangnya r 2 di Bab 7.
korelasi
Secaraantara Y aktual
sepintas, saya dan
perhatikan perkiraan
bahwa r 2 didefinisikan
Y saya, yaitu,sebelumnya
ˆ sebagai kuadrat
juga dapat dihitung koefisien
Ŷ i. Artinya, menggunakan
Persamaan. (3.5.13), kita bisa menulis
[∑
( Y saya - Ȳ ¯) ( Ŷ ˆ Ȳ) 2
r2=∑
( Y saya -Ȳ)
¯∑2 saya( -Ŷ ¯]
ˆ saya - Ȳ ¯) 2
22 Koefisien korelasi populasi, dilambangkan dengan ρ, didefinisikan dalam Lampiran A.

23 Dalam pemodelan regresi teori yang mendasari akan menunjukkan arah kausalitas antara Y dan
X, yang, dalam konteks model persamaan tunggal, umumnya berasal X untuk Y.
GAMBAR 3.10 Y Y Y
Pola korelasi
r=+1 r = –1 r mendekati +1
(diadaptasi dari Henri
Theil, Perkenalan pada
Ekonometrika,
Prentice-Hall,
Englewood Cliffs, NJ,
1978, hal. 86).
X X X
( Sebuah) ( b) ( c)
Y Y Y
r positif tapi r negatif tapi
r mendekati –1 mendekati nol mendekati nol
X X X
( d) ( e) ( f)
Y Y
r=0 Y = X2
tapi r = 0
X X
( g) ( h)
Itu adalah,
(∑ ) 2)
y saya
ŷ ˆ∑saya
r 2 = ( ∑) ( (3.5.14)
ysaya
2 ŷsaya
ˆ2
dimana Y i = sebenarnya Y Y ˆ i = diperkirakan Y, dan ¯ Ȳ = ¯ˆŶ = arti dari Y. Buktinya, lihat

Latihan 3.15. Ekspresi 3.5.14 membenarkan deskripsi r 2 sebagai ukuran kebaikan
cocok, karena itu memberitahu seberapa dekat perkiraan itu Y nilai-nilai adalah nilai-nilai aktual mereka.
3.6 Contoh Numerik

Kami mengilustrasikan teori ekonometrik yang dikembangkan sejauh ini dengan mempertimbangkan data yang
diberikan pada Tabel 2.6, yang terkait dengan upah rata-rata per jam ( Y) dan tahun sekolah ( X). Teori dasar ekonomi
tenaga kerja memberi tahu kita, bahwa di antara banyak variabel, pendidikan merupakan penentu penting upah.
Dalam Tabel 3.2 kami menyediakan data mentah yang diperlukan untuk memperkirakan dampak kuantitatif
pendidikan terhadap upah.
TABEL 3.2 Obs Y X x y xsaya

2 y saya x saya
Berbasis Data Mentah
pada Tabel 2.6
1 4.4567 6 -6 - 4.218 36 25.308
2 5.77 7 -5 - 2.9047 25 14.5235
3 5.9787 8 -4 - 2.696 16 10.784
4 7.3317 9 -3 - 1.343 9 4.029
5 7.3182 10 -2 - 1.3565 4 2.713
6 6.5844 11 -1 - 2.0903 1 2.0903
7 7.8182 12 0 - 0.8565 0 0
8 7.8351 13 1 - 0.8396 1 - 0.8396
9 11.0223 14 2 2.3476 4 4.6952
10 10.6738 15 3 1.9991 9 5.9973
11 10.8361 16 4 2.1614 16 8.6456
12 13.615 17 5 4.9403 25 24.7015
13 13.531 18 6 4.8563 36 29.1378
Jumlah 112.7712 156 0 0 182 131.7856
Yˆsaya
2 2
Obs X 2saya Y saya = Y saya -
uˆ saya Ŷ uˆsaya
1 36 19.86217 4.165294 0.291406 0,084917

2 49 33.2929 4.916863 0.853137 0.727843
3 64 35.74485 5.668432 0,310268 0,096266
4 81 53.75382 6.420001 0,911699 0.831195
5 100 53.55605 7.17157 0,14663 0,0215
6 121 43.35432 7.923139 - 1.33874 1.792222
7 144 61.12425 8.674708 - 0.85651 0.733606
8 169 61.38879 9.426277 - 1.59118 2.531844
9 196 121.4911 10.17785 0.844454 0.713103
10 225 113.93 10.92941 - 0.25562 0,065339
11 256 117.4211 11.68098 - 0.84488 0.713829
12 289 185.3682 12.43255 1,182447 1.398181
13 324 183.088 13.18412 0.346878 0,120324
Jumlah 2054 1083.376 112.7712 0 9.83017
catatan:
x i = X saya - ¯ X̄; y i = Y i = ¯ Ȳ
β̂ˆ2 = y saya x saya

xsaya
2 = 131,7856
182.0 = 0,7240967
β̂ˆ 1 = ¯Ȳ - β̂ ˆ 2 X̄ ¯ = 8.674708 - 0.7240967 x 12 = - 0,01445
û ˆ2
σ̂ ˆ 2 =
n -2i = 9,83017
11= 0,893652; σ̂ ˆ = 0,945332
σ̂ 2 √
var ( ˆβ̂ 2) = ˆ β̂ 2) = 0,00490 = 0,070072
xsaya
2 = 0,893652
182.0 = 0,004910; se ( ˆ
ûsaya
ˆ2
r2=1 - = 1 - 9,83017 = 0,9065
Ȳ )2
( Y saya - ¯ 105.1188
√
r = r 2 = 0,9521
xsaya
2
var ( ˆβ̂ 1) =
nx 2 =saya
205413=( 0,868132;
1 82)
se ( ˆβ̂ 1) = √ 0,868132 = 0,9317359

GAMBAR 3.11 14
Estimasi regresi
garis untuk pendidikan upah
data dari Tabel 2.6.
12
10
8
Rata-rata upah per jam
4
4 6 8 10 12 14 16 18 20
pendidikan
Dari data yang diberikan dalam tabel ini, kami memperoleh garis estimasi regresi sebagai berikut:
Ŷî = - 0,0144 + 0,7240 X saya (3.6.1)

Secara geometris, garis estimasi regresi ditunjukkan pada Gambar 3.11.
Seperti yang kita ketahui, setiap titik pada garis regresi memberikan perkiraan nilai rata-rata yangY
sesuai dengan yang dipilih X nilai, yaitu, Ŷ saya adalah perkiraan E (Y | X saya). Nilai dari β̂ 2 =
0.7240, yang mengukur kemiringan garis, menunjukkan bahwa, dalam rentang sampel X
antara 6 dan 18 tahun pendidikan, sebagai X meningkat 1, perkiraan kenaikan upah rata-rata
per jam adalah sekitar 72 sen. Artinya, setiap tahun tambahan sekolah, rata-rata, meningkatkan
upah per jam sekitar 72 sen.
Nilai dari β̂ 1 = - 0,0144, yang merupakan perpotongan garis, menunjukkan rata-rata
tingkat upah ketika tingkat pendidikan nol. Interpretasi literal semacam itu dari
kecuali dalam kasus ini tidak masuk akal. Bagaimana bisa ada upah negatif? Seperti yang akan
kita lihat di seluruh buku ini, sering kali istilah intersep tidak memiliki arti praktis yang layak.
Selain itu, tingkat pendidikan nol bukanlah tingkat pendidikan yang diamati dalam sampel kami.
Seperti yang akan kita lihat di Bab 5, nilai pengamatan dari intersep tidak berbeda secara
statistik dari nol.
Itu r 2 nilai sekitar 0,90 menunjukkan bahwa pendidikan menjelaskan tentang 90 persen
variasi dalam upah per jam. Mengingat bahwa r 2 bisa paling banyak 1, garis regresi kami sangat
cocok dengan data. Koefisien korelasi, r = 0,9521, menunjukkan bahwa upah dan pendidikan
berkorelasi sangat positif.
Sebelum kita meninggalkan contoh kita, perhatikan bahwa model kita sangat sederhana. Teori ekonomi
tenaga kerja memberi tahu kita bahwa, selain pendidikan, variabel seperti jenis kelamin, ras, lokasi, serikat
pekerja, dan bahasa juga merupakan faktor penting dalam penentuan upah per jam. Setelah kita
mempelajari regresi berganda di Bab 7 dan 8, kita akan mempertimbangkan model penentuan upah yang
lebih luas.
3.7 Contoh Ilustrasi
CONTOH 3.1 Mari kita lihat kembali data pendapatan konsumsi yang diberikan pada Tabel I.1 di Pendahuluan. Kami telah
Konsumsi- menunjukkan data pada Gambar I.3, bersama dengan garis regresi yang diperkirakan pada Persamaan.
(I.3.3). Sekarang kami memberikan hasil regresi OLS yang mendasari, yang diperoleh dari Berita 6.
Pendapatan
Catatan Y = pengeluaran konsumsi pribadi (PCE) dan X = produk domestik bruto (PDB), keduanya
Hubungan dalam diukur dalam 2000 miliar dolar. Dalam contoh ini datanya adalah data deret waktu.
Amerika Serikat, Ŷ ˆt 299.5913 0.7218 X t (3.7.1)
1960–2005
var (ˆβ̂ 1) 827.4195 β̂ 1)
se (ˆ 28.7649
var (ˆβ̂ 2) 0,0000195 β̂ 2)
se (ˆ 0,004423
r2 0.9983 ?ˆ ̂ 2 73.56689
Persamaan 3.7.1 adalah agregat, atau seluruh ekonomi, fungsi konsumsi Keynesian. Seperti
yang ditunjukkan persamaan ini, kecenderungan mengkonsumsi marjinal (MPC) adalah
sekitar 0,72, menunjukkan bahwa jika (pendapatan riil) naik satu dolar, pengeluaran konsumsi
pribadi rata-rata naik sekitar 72 sen. Menurut teori Keynesian, MPC diperkirakan berada di
antara 0 dan 1.
Nilai intersep dalam contoh ini adalah negatif, yang tidak memiliki interpretasi
ekonomi yang layak. Diartikan secara literal, artinya jika nilai GDP nol, maka rata-rata
tingkat pengeluaran konsumsi pribadi akan bernilai negatif sekitar 299 milyar dollar.
Itu r 2 nilai 0,9983 berarti sekitar 99 persen variasi pengeluaran konsumsi pribadi dijelaskan oleh
variasi dalam PDB. Nilai tersebut tergolong tinggi, mengingat hal itu r 2 dapat paling banyak 1. Seperti
yang akan kita lihat di seluruh buku ini, dalam regresi yang melibatkan data deret waktu seseorang
biasanya memperoleh nilai tinggi r 2 nilai-nilai. Kami akan mengeksplorasi alasan di balik ini di bab
tentang autokorelasi dan juga di bab tentang ekonometrik deret waktu.
CONTOH 3.2 Mengacu pada data yang diberikan pada Tabel 2.8 Latihan 2.15. Data terkait dengan sampel dari 55 rumah
Makanan tangga pedesaan di India. Regresi dan dalam contoh ini adalah pengeluaran untuk makanan dan regresi
adalah pengeluaran total, proksi untuk pendapatan, keduanya dalam rupee. Data dalam contoh ini
Pengeluaran dalam
demikian penampang data.
India Berdasarkan data yang diberikan, kami memperoleh regresi berikut:
F̂̂ oodExp i = 94,2087 + 0,4368 TotalExp saya (3.7.2)

var ( β̂ ˆ 1) = 2560.9401 se ( β̂ ˆ 1) = 50.8563
var ( β̂ ˆ 2) = 0,0061 se ( β̂ ˆ 2) = 0,0783
r 2 = 0.3698 ˆ σ̂ 2 = 4469,6913
Dari Persamaan 3.7.2 kita melihat bahwa jika total pengeluaran meningkat 1 rupee, rata-rata pengeluaran
untuk makanan naik sekitar 44 paise (1 rupee = 100 paise). Jika total pengeluaran nol, pengeluaran rata-rata
untuk makanan akan menjadi sekitar 94 rupee. Sekali lagi, interpretasi mekanis dari intersep tersebut
mungkin tidak berarti. Akan tetapi, dalam contoh ini orang dapat berargumen bahwa meskipun total
pengeluaran adalah nol (misalnya, karena kehilangan pekerjaan), orang mungkin masih mempertahankan
beberapa tingkat pengeluaran makanan minimum dengan meminjam uang atau dengan menabung.
Itu r 2 nilai sekitar 0,37 berarti hanya 37 persen variasi pengeluaran makanan dijelaskan
oleh total pengeluaran. Ini mungkin tampak nilai yang agak rendah, tetapi seperti yang akan
kita lihat di seluruh teks ini, dalam data penampang, biasanya nilai rendah r 2 nilai-nilai,
mungkin karena keragaman unit dalam sampel. Kami akan membahas topik ini lebih lanjut
dalam bab tentang heteroskedastisitas (lihat Bab 11).
CONTOH 3.3 Tabel 3.3 memberikan data tentang jumlah pelanggan telepon seluler dan jumlah komputer
Permintaan untuk pribadi (PC), baik per 100 orang, dan pendapatan per kapita yang disesuaikan dengan daya
beli dalam dolar untuk sampel dari 34 negara. Jadi kami memiliki data cross-sectional. Data ini
Telepon Seluler
untuk tahun 2003 dan diperoleh dari Abstrak Statistik Amerika Serikat,
dan Personal 2006.
Komputer masuk Meskipun telepon seluler dan komputer pribadi digunakan secara luas di Amerika Serikat, tidak demikian halnya
di banyak negara. Untuk melihat apakah pendapatan per kapita merupakan faktor dalam penggunaan telepon
Kaitannya dengan Per
seluler dan PC, kami melakukan regresi pada masing-masing alat komunikasi ini terhadap pendapatan per kapita
Kapita Personal dengan menggunakan sampel dari 34 negara. Hasilnya adalah sebagai berikut:
Pendapatan
TABEL 3.3 Negara Telepon selular PC Pendapatan Per Kapita ($)

Jumlah Seluler
Pelanggan Telepon
Argentina 17.76 8.2 11410
per Ratus Australia 71.95 60.18 28780
Orang dan Belgium 79.28 31.81 28920
Jumlah Pribadi Brazil 26.36 7.48 7510
Komputer per 100
Bulgaria 46.64 5.19 75.4
Persons dan Per
Kanada 41.9 48.7 30040
Pendapatan Kapita dalam
Cina 21.48 2.76 4980
Negara Terpilih Kolumbia 14.13 4.93 6410
untuk tahun 2003
Republik Ceko 96.46 17.74 15600
Ekuador 18.92 3.24 3940
Sumber: Abstrak Statistik Mesir 8.45 2.91 3940
dari Amerika Serikat, 2006,
Tabel 1364 untuk data ponsel
Perancis 69.59 34.71 27640
dan komputer dan Tabel 1327 Jerman 78.52 48.47 27610
untuk pendapatan per kapita
Yunani 90.23 8.17 19900
yang disesuaikan dengan
daya beli. Guatemala 13.15 1.44 4090
Hungaria 76.88 10.84 13840
India 2.47 0.72 2880
Indonesia 8.74 1.19 3210
Italia 101.76 23.07 26.830
Jepang 67.9 38.22 28450
Mexico 29.47 8.3 8980
Belanda 76.76 46.66 28560
Pakistan 1.75 0.42 2040
Polandia 45.09 14.2 11210
Rusia 24.93 8.87 8950
Arab Saudi 32.11 13.67 13230
Afrika Selatan 36.36 7.26 10130
Spanyol 91.61 19.6 22150
Swedia 98.05 62.13 26710
Swiss 84.34 70.87 32220
Thailand 39.42 3.98 7450
INGGRIS 91.17 40.57 27690
KAMI 54.58 65,98 37750
Venezuela 27.3 6.09 4750
catatan: Data di ponsel dan komputer pribadi adalah per 100 orang.
CONTOH 3.3 Permintaan Telepon Seluler. Membiarkan Y = jumlah pelanggan ponsel dan X =
pendapatan per kapita yang disesuaikan dengan daya beli, kami memperoleh regresi berikut.
( Lanjutan)
Ŷ ˆ i = 14,4773 + 0,0022 X saya (3.7.3)
se (ˆβ̂ 1) = 6.1523; se ( β̂ ˆ 2) = 0,00032
r 2 = 0.6023
Koefisien kemiringan menunjukkan bahwa jika pendapatan per kapita naik rata-rata, katakanlah, $
1.000, jumlah pelanggan telepon seluler naik sekitar 2,2 per 100 orang. Nilai intersep sekitar 14,47
menunjukkan bahwa meskipun pendapatan per kapita nol, jumlah rata-rata pelanggan telepon
seluler adalah sekitar 14 per 100 pelanggan. Sekali lagi, interpretasi ini mungkin tidak memiliki
banyak arti, karena dalam sampel kami, kami tidak memiliki negara dengan pendapatan per kapita
nol. Itu r 2 nilainya cukup tinggi. Tetapi perhatikan bahwa sampel kami mencakup berbagai negara
dengan tingkat pendapatan yang berbeda-beda. Dalam sampel yang begitu beragam, kami tidak
mengharapkan yang sangat tinggi r 2 nilai.
Setelah kita mempelajari Bab 5, kita akan menunjukkan bagaimana perkiraan kesalahan standar yang
dilaporkan dalam Persamaan 3.7.3 dapat digunakan untuk menilai signifikansi statistik dari koefisien yang
diperkirakan.
Permintaan Komputer Pribadi. Meskipun harga komputer pribadi telah turun secara substansial
selama bertahun-tahun, PC masih belum ada di mana-mana. Penentu penting dari permintaan
komputer pribadi adalah pendapatan pribadi. Penentu lainnya adalah harga, tetapi kami tidak
memiliki data perbandingan harga PC untuk negara-negara dalam sampel kami.
Membiarkan Y menunjukkan jumlah PC dan X Untuk pendapatan per kapita, kami memiliki permintaan
“parsial” untuk PC berikut (sebagian karena kami tidak memiliki data harga komparatif atau data tentang
variabel lain yang mungkin mempengaruhi permintaan PC).
Ŷ ˆ i = - 6,5833 + 0,0018 X saya (3.7.4)

se (ˆβ̂ 1) = 2,7437; se ( β̂ ˆ 2) = 0,00014
r 2 = 0.8290
Hasil ini menunjukkan, pendapatan pribadi per kapita memiliki hubungan positif dengan
permintaan PC. Setelah kita mempelajari Bab 5, Anda akan melihat bahwa, secara statistik,
pendapatan pribadi per kapita merupakan penentu penting dari permintaan PC. Nilai negatif
dari intersep dalam contoh ini tidak memiliki arti praktis. Terlepas dari keragaman sampel
kami, diperkirakan r 2 nilainya cukup tinggi. Interpretasi koefisien kemiringan adalah bahwa jika
pendapatan per kapita meningkat, katakanlah, $ 1.000, rata-rata, permintaan untuk komputer
pribadi naik sekitar 2 unit per 100 orang.
Meskipun penggunaan komputer pribadi menyebar dengan cepat, masih banyak negara yang masih
menggunakan komputer kerangka utama. Oleh karena itu, total penggunaan komputer di negara-negara
tersebut mungkin jauh lebih tinggi daripada yang ditunjukkan oleh penjualan PC.
3.8 Catatan tentang Eksperimen Monte Carlo

Dalam bab ini kami menunjukkan bahwa di bawah asumsi CLRM, estimator kuadrat-terkecil memiliki
fitur statistik tertentu yang diinginkan yang diringkas dalam properti BLUE. Dalam lampiran bab ini
kami membuktikan properti ini secara lebih formal. Namun dalam praktiknya, bagaimana orang tahu
bahwa properti BLUE dimiliki? Misalnya, bagaimana seseorang mengetahui apakah penaksir OLS tidak
bias? Jawabannya disediakan oleh yang disebut Monte Carlo eksperimen, yang pada dasarnya adalah
simulasi komputer, atau pengambilan sampel, eksperimen.
Untuk memperkenalkan ide-ide dasar, pertimbangkan PRF dua variabel kami:
Y i = β 1 + β 2 X i + u saya (3.8.1)
Eksperimen Monte Carlo berlangsung sebagai berikut:
1. Misalkan nilai sebenarnya dari parameter adalah sebagai berikut: β 1 = 20 dan β 2 = 0.6.
2. Anda memilih ukuran sampel, misalnya n = 25.
3. Anda memperbaiki nilai X untuk setiap observasi. Secara keseluruhan, Anda akan memiliki 25 X nilai-nilai.
4. Misalkan Anda pergi ke tabel nomor acak, memilih 25 nilai, dan memanggilnya u saya ( hari-hari ini
sebagian besar paket statistik memiliki generator nomor acak bawaan). 24
5. Sejak Anda tahu β 1, β 2, X saya, dan u saya, menggunakan Persamaan 3.8.1 Anda mendapatkan 25 Y saya nilai-nilai.
6. Sekarang menggunakan 25 Y saya

β̂ 1 ˆdan
dipilih pada langkah 3, memperoleh β̂ ˆ 2, yang
nilai-nilai penaksir kuadrat-terkecil.
dihasilkan, Anda regresi ini pada 25 X nilai-nilai
7. Misalkan Anda mengulangi percobaan ini 99 kali, setiap kali menggunakan yang sama β 1, β 2, dan
X nilai-nilai. Tentu saja u saya nilai akan bervariasi dari percobaan ke percobaan. Oleh karena itu, dalam
semua Anda memiliki 100 percobaan, sehingga masing-masing menghasilkan 100 nilai β 1 dan β 2. ( Dalam praktiknya,
banyak eksperimen semacam itu dilakukan, terkadang 1000 hingga 2000.)
8. Anda mengambil rata-rata dari 100 perkiraan ini dan memanggilnya ¯ β̂ ˆdan ¯ˆ β̂ 2.
1
9. Jika nilai rata-rata ini hampir sama dengan nilai sebenarnya β 1 dan β 2 diasumsikan dalam
langkah 1, percobaan Monte Carlo ini "menetapkan" bahwa penaksir kuadrat-terkecil adalah
memang tidak bias. Ingatlah bahwa di bawah CLRM E ( β̂ ˆ 1) = β 1 dan E ( ˆ β̂ 2) = β 2.
Langkah-langkah ini mencirikan sifat umum eksperimen Monte Carlo. Eksperimen semacam itu sering
digunakan untuk mempelajari sifat statistik dari berbagai metode memperkirakan parameter
populasi. Mereka sangat berguna untuk mempelajari perilaku estimator dalam sampel kecil, atau
terbatas. Eksperimen ini juga merupakan cara yang sangat baik untuk membawa pulang konsep
tersebut pengambilan sampel berulang Itulah dasar dari sebagian besar inferensi statistik klasik,
seperti yang akan kita lihat pada Bab 5. Kami akan memberikan beberapa contoh eksperimen Monte
Carlo dengan cara latihan untuk tugas kelas. (Lihat Latihan 3.27.)
Ringkasan dan Topik dan konsep penting yang dikembangkan dalam bab ini dapat diringkas sebagai berikut.
Kesimpulan 1. Kerangka dasar analisis regresi adalah CLRM.

2. CLRM didasarkan pada sekumpulan asumsi.
3. Berdasarkan asumsi-asumsi ini, estimator kuadrat-terkecil mengambil sifat-sifat tertentu yang
dirangkum dalam teorema Gauss-Markov, yang menyatakan bahwa dalam kelas estimator tidak
bias linier, estimator kuadrat-terkecil memiliki varians minimum. Singkatnya, mereka BIRU.
4. Itu presisi penduga OLS diukur dengan mereka kesalahan standar. Di Bab 4
dan 5 kita akan melihat bagaimana kesalahan standar memungkinkan seseorang untuk menarik kesimpulan pada
parameter populasi, the β koefisien.
5. Kebaikan keseluruhan dari model regresi diukur dengan koefisien dari

penentuan, r 2. Ini memberitahu berapa proporsi variasi dalam variabel dependen, atau
regresi, dijelaskan oleh variabel penjelas, atau regressor. Ini r 2 terletak di antara 0 dan 1;
semakin dekat ke 1, semakin baik kecocokannya.
24 Dalam prakteknya diasumsikan demikian u saya mengikuti distribusi probabilitas tertentu, katakanlah, normal, dengan
parameter tertentu (misalnya mean dan varians). Setelah nilai parameter ditentukan, orang bisa melakukannya
dengan mudah menghasilkan u saya menggunakan paket statistik.
6. Konsep yang terkait dengan koefisien determinasi adalah koefisien korelasi, r.

Itu adalah ukuran asosiasi linier antara dua variabel dan itu terletak di antara - 1 dan +1.
7. CLRM adalah konstruksi atau abstraksi teoretis karena didasarkan pada sekumpulan asumsi yang
mungkin ketat atau "tidak realistis". Tetapi abstraksi semacam itu sering kali diperlukan pada
tahap awal mempelajari bidang pengetahuan apa pun. Setelah CLRM dikuasai, seseorang dapat
menemukan apa yang terjadi jika satu atau lebih asumsinya tidak terpenuhi. Bagian pertama dari
buku ini dikhususkan untuk mempelajari CLRM. Bagian lain dari buku ini membahas
penyempurnaan CLRM. Tabel 3.4 memberikan peta jalan di depan.
TABEL 3.4 Anggapan

Apa Yang Terjadi Jumlah Jenis Pelanggaran Dimana Belajar?
Jika Asumsi
CLRMA Apakah Dilanggar?
1 Nonlinier dalam parameter Bab 14
2 Regresor stokastik Bab 13
3 Rata-rata bukan nol dari u saya Pengantar Bagian II
4 Heteroskedastisitas Bab 11
5 Gangguan yang berhubungan dengan autokorelasi Bab 12
6 Pengamatan sampel lebih sedikit Bab 10
dari jumlah regressor Variabilitas yang
7 tidak mencukupi pada regressor Bab 10
8 Multikolinearitas * Bab 10
9 Bias spesifikasi * Bab 13, 14
10 ** Nonnormalitas gangguan Bab 13
* Asumsi ini akan diperkenalkan pada Bab 7, saat kita membahas model regresi berganda.
* * Catatan: Asumsi itu mengganggu u saya didistribusikan secara normal bukan merupakan bagian dari CLRM. Tetapi lebih lanjut tentang ini di Bab 4.
LATIHAN Pertanyaan
3.1. Dengan melihat asumsi di kolom 1 tabel, tunjukkan bahwa asumsi di kolom 2 ekuivalen
dengan asumsi tersebut.
Asumsi Model Klasik
(1) (2)
E (u i | X i) = 0 E (Y i | X i) = β 2 + β 2 X
cov ( u saya, u j) = 0 i = j cov ( Y saya, Y j) = 0 i = j
var ( u i | X i) = σ 2 var ( Y i | X i) = σ 2
3.2. Tunjukkan itu perkiraannya β̂ ˆ 1 = 1.572 dan β̂ ˆ 2 = 1,357 yang digunakan dalam percobaan pertama pada
Tabel 3.1 sebenarnya adalah penduga OLS.
3.3. Menurut Malinvaud (lihat catatan kaki 11), asumsi itu E (u i | X i) = 0 cukup
penting. Untuk melihat ini, pertimbangkan PRF: Y = β 1 + β 2 X i + u i. Sekarang
pertimbangkan dua situasi: (i) β 1 = 0, β 2 = 1, dan E (u i) = 0; dan (ii) β 1 = 1, β 2 = 0, dan
E (u i) = ( X saya - 1). Sekarang ambillah harapan dari PRF bersyarat X dalam dua kasus
sebelumnya dan lihat apakah Anda setuju dengan Malinvaud tentang pentingnya
asumsi E (u i | X i) = 0.
3.4. Pertimbangkan regresi sampel
Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya
∑ ∑
û menunjukkan
Menerapkan batasan (i) dan β̂ ˆ 2 dan ˆ i = 0 dan (ii)bahwa
û ˆmereka
saya X i = identik
0, dapatkan penduga
dengan ˆ
penduga β̂ 1
kuadrat-terkecil yang diberikan
Persamaan. (3.1.6) dan (3.1.7). Metode untuk mendapatkan penduga ini disebut analogi
prinsip. Berikan pembenaran intuitif untuk memberlakukan pembatasan (i) dan (ii).
( Petunjuk: Ingat CLRMassumptions tentang u saya.) Secara sepintas, perhatikan bahwa prinsip analogi
untuk memperkirakan parameter yang tidak diketahui juga dikenal sebagai metode momen di
momen sampel mana (misalnya, mean sampel) yang digunakan untuk memperkirakan momen
populasi (misalnya mean populasi). Sebagaimana dicatat dalam Lampiran A, Sebuah saat adalah
ringkasan statistik dari distribusi probabilitas, seperti nilai yang diharapkan dan varians.
3.5. Menunjukkan bahwa r 2 didefinisikan dalam rentang (3.5.5) antara 0 dan 1. Anda dapat menggunakan
Ketimpangan Cauchy – Schwarz, yang menyatakan bahwa untuk variabel acak apa pun X dan Y hubungan
berikut ini benar:
[ E (XY)] 2 ≤ EX 2) E (Y 2)
3.6. Membiarkan β̂ ˆ YX dan β̂ ˆ XY mewakili kemiringan dalam regresi Y di X dan X di Y,

masing-masing. Menunjukkan bahwa
β̂ ˆ XY = r 2
β̂ˆ YX
dimana r adalah koefisien korelasi antara X dan Y.

3.7. Misalkan dalam Latihan 3.6 itu β̂ ˆ YX β̂ ˆ XY = 1. Apakah penting jika kita mengalami kemunduran Y di X
atau X di Y? Jelaskan dengan cermat.
3.8. Koefisien korelasi peringkat Spearman r s didefinisikan sebagai berikut:

∑
d2
rs=1 - 6
n (n 2 - 1)
dimana d = perbedaan peringkat yang diberikan kepada individu atau fenomena yang sama
dan n = jumlah individu atau peringkat fenomena. Memperoleh r s dari r didefinisikan dalam Persamaan.
(3.5.13). Petunjuk: Beri peringkat X dan Y nilai dari 1 sampai n. Perhatikan bahwa jumlah X dan
Y peringkat adalah n (n + 1) / 2 masing-masing dan oleh karena itu artinya ( n + 1) / 2.
3.9. Pertimbangkan formulasi PRF dua variabel berikut:
Model I: Y i = β 1 + β 2 X i + u saya
Model II: Y i = α 1 + α 2 ( X saya - X̄ ¯) + u saya
Sebuah. Temukan penduga dari β 1 dan α 1. Apakah mereka identik? Apakah variansnya identik?
b. Temukan penduga dari β 2 dan α 2. Apakah mereka identik? Apakah variansnya identik?
c. Apa keuntungan, jika ada, dari model II dibandingkan model I?
3.10. Misalkan Anda menjalankan regresi berikut:
y i = ˆ β̂ 1 + ˆβ̂ 2 x i + û ˆ saya
dimana, seperti biasa, y saya dan x saya
Apa nilainya ˆ adalah penyimpangan dariβ̂ nilai

β̂ 1? Mengapa? Akan rata-rata
ˆ 2 menjadi masing-masing.
sama dengan yang diperoleh dari
Persamaan. (3.1.6)? Mengapa?
3.11. Membiarkan r 1 = koefisien korelasi antara n pasangan nilai ( Y saya, X i) dan r 2 =

koefisien korelasi antara n pasangan nilai ( kapak i + b, cY i + d), dimana a, b, c,
dan d adalah konstanta. Menunjukkan bahwa r 1 = r 2 dan karenanya menetapkan prinsip bahwa
koefisien korelasi tidak berubah sehubungan dengan perubahan skala dan perubahan
asal.
Petunjuk: Terapkan definisi r diberikan dalam Persamaan. (3.5.13).
catatan: Operasi kapak saya, X i + b, dan kapak i + b masing-masing dikenal sebagai

perubahan skala, perubahan asal, dan perubahan skala dan asal.
3.12. Jika r, koefisien korelasi antara n pasangan nilai ( X saya, Y i), positif, lalu
tentukan apakah setiap pernyataan berikut ini benar atau salah:
Sebuah. r antara ( - X saya, - Y i) juga positif.
b. r antara ( - X saya, Y i) dan antara ( X saya, - Y i) bisa positif atau
negatif.
c. Kedua koefisien kemiringan β yx dan β xy positif, di mana β yx = koefisien kemiringan
dalam regresi Y di X dan β xy = koefisien kemiringan dalam regresi X di Y.
3.13. Jika X 1, X 2, dan X 3 adalah variabel yang tidak berkorelasi masing-masing memiliki deviasi standar yang sama
tion, menunjukkan bahwa koefisien korelasi antara X 1 + X 2 dan X 2 + X 3 sama

2. Mengapa koefisien korelasi tidak nol?
untuk 1
3.14. Dalam regresi Y i = β 1 + β 2 X i + u saya misalkan kita berkembang biak setiap X nilai dengan con-
stant, katakanlah, 2. Apakah itu akan mengubah residu dan nilai-nilai yang sesuai Y? Menjelaskan. Bagaimana jika kita
Menambahkan nilai konstan, katakanlah, 2, untuk masing-masing X nilai?
3.15. Tunjukkan Persamaan itu. (3.5.14) sebenarnya mengukur koefisien determinasi.

∑
Petunjuk: Terapkan definisi r diberikan dalam Persamaan. (3.5.13) dan ingat itu y saya ŷ ˆ i =
∑
( ŷ ˆ i + û ˆ i) ŷ ˆ i = ∑ŷsaya,
ˆ 2dan ingat Persamaan. (3.5.6).
3.16. Menjelaskan dengan alasan apakah pernyataan berikut benar, salah, atau tidak pasti:
Sebuah. Karena korelasi antara dua variabel, Y dan X, dapat berkisar dari - 1 hingga +1,
ini juga berarti bahwa cov ( Y, X) juga terletak di antara batas-batas ini.
b. Jika korelasi antara dua variabel nol, itu berarti tidak ada hubungan-
kapal antara dua variabel apapun.
c. Jika Anda mengalami kemunduran Y saya di Ŷ ˆ saya ( yaitu, aktual Y pada perkiraan Y), intersep dan kemiringan
nilai akan menjadi 0 dan 1, masing-masing.
3.17. Regresi tanpa regresi. Misalkan Anda diberi model: Y i = β 1 + u i.

Gunakan OLS untuk menemukan penduga β 1. Apa variannya dan RSS? Apakah
perkiraannya β 1 masuk akal secara intuitif? Sekarang pertimbangkan model dua variabel
Y i = β 1 + β 2 X i + u i. Apakah itu layak ditambahkan X saya ke model? Jika tidak, mengapa repot-repot dengan
analisis regresi?
Latihan Empiris
3.18. Dalam Tabel 3.5, Anda diberi peringkat 10 siswa dalam ujian tengah semester dan akhir dalam
statistik. Menghitung koefisien korelasi peringkat Spearman dan menafsirkannya.
TABEL 3.5
Siswa
Pangkat SEBUAH B C D E F G H saya J
Tengah semester 1 3 7 10 9 5 4 8 2 6
Terakhir 3 2 8 7 9 6 5 10 1 4
3.19. Hubungan antara nilai tukar nominal dan harga relatif. Dari tahunan
pengamatan dari tahun 1985 sampai 2005, hasil regresi berikut diperoleh,
dimana Y = nilai tukar dolar Kanada ke dolar AS (CD $) dan X =
rasio indeks harga konsumen AS dengan indeks harga konsumen Kanada; itu adalah,
X mewakili harga relatif di dua negara:
Ŷˆ t = - 0,912 + 2,250 X t r 2 = 0.440

se = 0,096
Sebuah. Tafsirkan regresi ini. Bagaimana Anda menafsirkan r 2?

b. Apakah nilai positif X t masuk akal secara ekonomi? Apa yang mendasari
teori ekonomi?
c. Misalkan kita harus memperbaiki X sebagai rasio CPI Kanada ke CPI AS.
Akankah itu mengubah tandanya X? Mengapa?
3.20. Tabel 3.6 memberikan data tentang indeks output per jam ( X) dan kompensasi nyata per
jam ( Y) untuk sektor bisnis dan bisnis nonpertanian ekonomi AS untuk
1960-2005. Tahun dasar indeks adalah 1992 = 100 dan indeks disesuaikan
secara musiman.
Sebuah. Merencanakan Y melawan X untuk dua sektor secara terpisah.
b. Apa teori ekonomi di balik hubungan kedua variabel tersebut?

Apakah scattergram mendukung teori tersebut?
c. Perkirakan regresi OLS Y di X. Simpan hasilnya untuk kita jaga lebih lanjut
pelajari Bab 5.
3.21. Dari sampel sebanyak 10 observasi diperoleh hasil sebagai berikut:
∑ ∑ ∑
Y i = 1.110 X i = 1.700 X saya Y i = 205.500
∑ ∑
X i2= 322,000 Yi 2= 132.100
dengan koefisien korelasi r = 0,9758. Tetapi pada pengecekan ulang perhitungan ini
ditemukan bahwa dua pasang pengamatan dicatat:
Y X Y X
90 120 80 110
dari pada
140 220 150 210
Apa yang akan menjadi efek dari kesalahan ini r? Dapatkan yang benar r.
3.22. Tabel 3.7 menyajikan data harga emas, Indeks Harga Konsumen (IHK), dan Indeks Bursa
Efek New York (NYSE) untuk Amerika Serikat untuk periode 1974-2006. Indeks NYSE
mencakup sebagian besar saham yang terdaftar di NYSE, sekitar 1500-plus.
Sebuah. Plot di sebar sama harga emas, CPI, dan NYSE Index.
b. Investasi seharusnya menjadi lindung nilai terhadap inflasi jika harga dan / atau kursnya
pengembalian setidaknya mengimbangi inflasi. Untuk menguji hipotesis ini, misalkan Anda
memutuskan untuk menyesuaikan model berikut, dengan asumsi scatterplot di (a) menunjukkan
bahwa ini sesuai:
Harga emas t = β 1 + β 2 CPI t + u t

Indeks NYSE t = β 1 + β 2 CPI t + u t
TABEL 3.6
Output per Jam dari Semua Kompensasi Nyata per
Produktivitas dan
Orang 1 Jam 2,3
Data Terkait,
Sektor bisnis Nonfarm Nonfarm
1960–2005 Bisnis Bisnis Bisnis Bisnis
(Nomor indeks, Tahun Sektor Sektor Sektor Sektor
1992 = 100; triwulanan 1960 48.9 51.9 60.8 63.3
data secara musiman 1961 50.6 53.5 62.5 64.8
disesuaikan) 1962 52.9 55.9 64.6 66.7
Sumber: Laporan Ekonomi 1963 55.0 57.8 66.1 68.1
Presiden, 2007, Tabel 49. 1964 56.8 59.6 67.7 69.3
1965 58.8 61.4 69.1 70.5
1966 61.2 63.6 71.7 72.6
1967 62.5 64.7 73.5 74.5
1968 64.7 66.9 76.2 77.1
1969 65.0 67.0 77.3 78.1
1970 66.3 68.0 78.8 79.2
1971 69.0 70.7 80.2 80.7
1972 71.2 73.1 82.6 83.2
1973 73.4 75.3 84.3 84.7
1974 72.3 74.2 83.3 83.8
1975 74.8 76.2 84.1 84.5
1976 77.1 78.7 86.4 86.6
1977 78.5 80.0 87.6 88.0
1978 79.3 81.0 89.1 89.6
1979 79.3 80.7 89.3 89.7
1980 79.2 80.6 89.1 89.6
1981 80.8 81.7 89.3 89.8
1982 80.1 80.8 90.4 90.8
1983 83.0 84.5 90.3 90.9
1984 85.2 86.1 90.7 91.1
1985 87.1 87.5 92.0 92.2
1986 89.7 90.2 94.9 95.2
1987 90.1 90.6 95.2 95.5
1988 91.5 92.1 96.5 96.7
1989 92.4 92.8 95.0 95.1
1990 94.4 94.5 96.2 96.1
1991 95.9 96.1 97.4 97.4
1992 100.0 100.0 100.0 100.0
1993 100.4 100.4 99.7 99.5
1994 101.3 101.5 99.0 99.1
1995 101.5 102.0 98.7 98.8
1996 104.5 104.7 99.4 99.4
1997 106.5 106.4 100.5 100.3
1998 109.5 109.4 105.2 104.9
1999 112.8 112.5 108.0 107.5
2000 116.1 115.7 112.0 111.5
2001 119.1 118.6 113.5 112.8
2002 124.0 123.5 115.7 115.1
2003 128.7 128.0 117.7 117.1
2004 132.7 131.8 119.0 118.2
2005 135.7 134.9 120.2 119.3
1 Output mengacu pada produk domestik bruto riil di sektor tersebut.

2 Upah dan gaji karyawan ditambah kontribusi pemberi kerja untuk asuransi sosial dan rencana tunjangan pribadi.
3 Kompensasi per jam dibagi dengan indeks harga konsumen untuk semua konsumen perkotaan untuk kuartal terakhir.
TABEL 3.7
Tahun Harga emas NYSE CPI
Harga Emas, Baru
Bursa Efek York 1974 159.2600 463.5400 49.30000
Indeks, dan Konsumen 1975 161.0200 483.5500 53.80000
Indeks Harga AS untuk 1976 124,8400 575.8500 56.90000
tahun 1974–2006 1977 157.7100 567.6600 60.60000
1978 193.2200 567.8100 65.20000
1979 306,6800 616.6800 72.60000
1980 612.5600 720.1500 82.40000
1981 460.0300 782.6200 90.90000
1982 375,6700 728.8400 96,50000
1983 424.3500 979.5200 99.60000
1984 360,4800 977.3300 103.9000
1985 317.2600 1142.970 107,6000
1986 367.6600 1438.020 109,6000
1987 446.4600 1709.790 113.6000
1988 436.9400 1585.140 118.3000
1989 381.4400 1903.360 124.0000
1990 383.5100 1939,470 130.7000
1991 362.1100 2181.720 136.2000
1992 343.8200 2421.510 140.3000
1993 359.7700 2638.960 144.5000
1994 384.0000 2687.020 148,2000
1995 384.1700 3078.560 152,4000
1996 387.7700 3787.200 156.9000
1997 331.0200 4827.350 160.5000
1998 294.2400 5818.260 163.0000
1999 278.8800 6546.810 166,6000
2000 279.1100 6805.890 172.2000
2001 274.0400 6397.850 177.1000
2002 309.7300 5578.890 179.9000
2003 363.3800 5447.460 184,00
2004 409.7200 6612.620 188.9000
2005 444.7400 7349.000 195.3000
2006 603.4600 8357.990 201.6000
3.23. Tabel 3.8 menyajikan data tentang produk domestik bruto (PDB) Amerika Serikat untuk
tahun 1959–2005.
Sebuah. Plot data PDB dalam dolar saat ini dan konstan (yaitu, 2000) terhadap waktu.
b. Membiarkan Y menunjukkan PDB dan X waktu (diukur secara kronologis dimulai dengan 1 untuk
1959, 2 untuk 1960, sampai 47 untuk 2005), lihat apakah model berikut cocok dengan data PDB:
Yt=β1+β2Xt+ut
Perkirakan model ini untuk PDB dolar saat ini dan konstan.
c. Bagaimana Anda menafsirkan β 2?
d. Jika ada perbedaan antara β 2 diperkirakan untuk PDB dolar saat ini dan itu
diperkirakan untuk PDB dolar konstan, apa yang menjelaskan perbedaannya?
e. Dari hasil Anda, apa yang dapat Anda katakan tentang sifat in United asi di United
Serikat selama periode sampel?
TABEL 3.8 Tahun NGDP RGDP Tahun NGDP RGDP

Nominal dan Riil
Domestik Bruto
1959 506.6 2.441.3 1983 3.536.7 5,423.8
Produk, 1959–2005
1960 526.4 2.501,8 1984 3.933.2 5.813.6
(miliaran dolar, 1961 544.7 2.560.0 1985 4.220.3 6.053,7
kecuali seperti yang disebutkan;
1962 585.6 2.715.2 1986 4.462.8 6.263.6
data triwulanan pada
1963 617.7 2.834.0 1987 4.739.5 6.475.1
disesuaikan secara musiman
1964 663.6 2.998.6 1988 5.103.8 6.742.7
tarif tahunan; RGDP
1965 719.1 3.191.1 1989 5,484.4 6.981.4
dalam miliaran dolar
1966 787.8 3.399.1 1990 5.803.1 7.112.5
[2000] yang dirantai)
1967 832.6 3.484.6 1991 5.995,9 7.100,5
1968 910.0 3.652.7 1992 6,337.7 7.336.6
1969 984.6 3.765.4 1993 6.657.4 7.532.7
1970 1.038.5 3.771,9 1994 7.072,2 7.835.5
1971 1.127.1 3.898.6 1995 7.397.7 8.031,7
1972 1.238.3 4.105.0 1996 7.816.9 8.328.9
1973 1.382.7 4.341.5 1997 8.304.3 8.703.5
1974 1.500.0 4.319.6 1998 8,747.0 9.066,9
1975 1.638.3 4.311.2 1999 9.268.4 9.470.3
1976 1.825.3 4.540.9 2000 9,817.0 9,817.0
1977 2.030,9 4.750.5 2001 10,128.0 9.890.7
1978 2.294.7 5.015.0 2002 10.469.6 10.048,8
1979 2.563.3 5.173.4 2003 10.960,8 10.301.0
1980 2.789.5 5.161.7 2004 11.712,5 10.703,5
1981 3.128.4 5,291.7 2005 12.455,8 11.048,6
1982 3.255.0 5.189.3
Sumber: Laporan Ekonomi Presiden, 2007. Tabel B-1 dan B-2.
3.24. Menggunakan data yang diberikan dalam Tabel I.1 dari Pendahuluan, verifikasi Persamaan. (3.7.1).
3.25. Untuk contoh SAT yang diberikan dalam Latihan 2.16 lakukan hal berikut:
Sebuah. Plotkan skor membaca wanita dengan skor membaca pria.

b. Jika diagram sebar menunjukkan bahwa hubungan linier antara keduanya tampak
sesuai, dapatkan regresi skor membaca wanita pada skor membaca pria.
c. Jika ada hubungan antara dua skor membaca, apakah ada hubungan
kausal?
3.26. Ulangi Latihan 3.25, ganti skor matematika untuk skor membaca.
3.27. Studi Monte Carlo tugas kelas: Lihat 10 X nilai-nilai yang diberikan
Tabel 2.4. Membiarkan β 1 = 25 dan β 2 = 0,5. Menganggap u saya ≈ N ( 0, 9), yaitu, u saya terdistribusi normal
dengan mean 0 dan varians 9. Hasilkan 100 sampel menggunakan nilai-nilai ini,
memperoleh 100 perkiraan β 1 dan β 2. Buat grafik perkiraan ini. Kesimpulan apa yang dapat Anda tarik
dari penelitian Monte Carlo? catatan: Kebanyakan paket statistik sekarang dapat menghasilkan
buat variabel acak dari distribusi probabilitas yang paling terkenal. Minta bantuan
instruktur Anda, jika Anda kesulitan membuat variabel seperti itu.
3.28. Dengan menggunakan data yang diberikan pada Tabel 3.3, buat grafik jumlah pelanggan telepon
seluler terhadap jumlah komputer pribadi yang digunakan. Apakah ada hubungan yang terlihat
antara keduanya? Jika ya, bagaimana Anda merasionalisasi hubungan tersebut?
Lampiran 3A
3A.1 Penurunan Estimasi Kuadrat-Terkecil

Membedakan Persamaan. (3.1.2) sebagian sehubungan dengan β̂ ˆ 1 dan β̂ ˆ 2, kami dapatkan
(∑ )
∂ ûi ˆ= -2 2 ∑ ∑
( Y saya - β̂̂ 1 - ˆβ̂ 2 X i) = - 2 û ˆ saya
(1)
∂β̂1ˆ)
(∑
∂ ûi ˆ= -2 2 ∑ ∑
( Y saya - β̂̂ 1 - ˆβ̂ 2 X i) X i = - 2 û ˆ saya X saya
(2)
∂β̂ ˆ 2
Menetapkan persamaan ini ke nol, setelah penyederhanaan aljabar dan manipulasi, memberikan penduga yang diberikan
dalam Persamaan. (3.1.6) dan (3.1.7).
3A.2 Properti Linearitas dan Ketidaksesuaian

Penaksir Kuadrat-Terkecil
Dari Persamaan. (3.1.8) yang kami miliki
∑ ∑
x saya Y saya
β̂̂ 2 = ∑ k saya Y saya (3)
xsaya
2=
dimana
x i)
ki=( ∑
xsaya
2
yang menunjukkan itu ˆ β̂ 2 adalah penduga linier karena ini adalah fungsi linier dari Y
rata-rata Y saya dengan k saya melayani sebagai pemberat. Hal serupa juga dapat ditunjukkan seperti itu ˆ;β̂sebenarnya
1 juga merupakan penaksir linier.
itu berbobot
Secara kebetulan, perhatikan properti bobot ini k saya:
1. Sejak X saya diasumsikan nonstochastic, the k saya juga nonstochastic.

∑
2. ∑ k i = 0. / ∑
3. ∑ ki 2= 1 xi.2
4. k saya x i = ∑ k saya X i = 1. Properti ini dapat langsung diverifikasi dari definisi k i.
Sebagai contoh,
)
∑ ∑( x saya ∑
ki= ∑ = 1∑∑ x saya, sejak untuk sampel tertentu xsaya
2 dikenal
xsaya
2 xsaya
2
∑
= 0, sejak x saya, jumlah penyimpangan dari nilai rata-rata, adalah
selalu nol
Sekarang gantikan PRF Y i = β 1 + β 2 X i + u saya ke Persamaan (3) untuk mendapatkan
∑
β̂̂ 2 = k saya ( β 1 + β 2 X i + u i) ∑
∑ ∑
= β1 ki+β2 k saya X i + k saya u saya (4)
∑
= β2+ k saya u saya
di mana penggunaan dibuat dari properti k saya dicatat sebelumnya.

Sekarang ambil ekspektasi Persamaan (4) di kedua sisi dan catat itu k saya, menjadi nonstochastic, dapat diperlakukan
sebagai konstanta, kami dapatkan
∑
E ( ˆβ̂ 2) = β 2 + k saya E (u i)
(5)
= β2
sejak E (u i) = 0 dengan asumsi. Karena itu, ˆ β̂ 2 adalah penduga yang tidak bias β 2. Demikian juga bisa
buktikan itu ˆ β̂ 1 juga merupakan penaksir yang tidak bias β 1.
3A.3 Varians dan Kesalahan Standar

Sekarang dengan definisi varians, kita bisa menulis
var ( β̂ ˆ 2) = E [β̂ˆ2 - E ( β̂ ˆ 2)] 2

= E ( ˆβ̂ 2 - β 2) 2) 2 sejak E ( ˆ β̂ 2) = β 2
(∑ (6)
=E( k saya u saya menggunakan Persamaan. (4) di atas
)
= E k 2 1 u1 2+ k 2 2 u2 2+ · · · + k 2 n un 2+ 2 k 1 k 2 u 1 u 2 + · · · + 2 k n - 1 k n u n - 1 u n
Karena dengan asumsi, E (u 2 i) = σ 2 untuk setiap saya dan E (u saya u j) = 0, i = j, itu mengikuti itu
∑
var ( ˆβ̂ 2) = σ 2 ksaya
2
= σ∑2 (menggunakan definisi k 2 i) (7)

xsaya
2
= Persamaan. (3.3.1)
Varians dari ˆ β̂ 1 dapat diperoleh dengan mengikuti alur penalaran yang sama yang telah diberikan. Setelah
varian dari ˆ β̂ 1 dan ˆ β̂ 2 diperoleh, akar kuadrat positifnya memberikan standar yang sesuai
kesalahan.
3A.4 Kovarian antara β 1̂ dan β 2̂

Menurut definisi,
cov ( β̂ ˆ 1, β̂ ˆ 2) = E {[β̂ˆ1 - E ( ˆ β̂ 1)] [ β̂̂ 2 - E ( β̂ ˆ 2)]}
= E ( ˆβ̂ 1 - β 1) ( β̂ ˆ 2 - β 2) (Mengapa?)
= - ¯ X̄ E ( ˆβ̂ 2 - β 2) 2 (8)
= - ¯ X̄ var ( ˆ β̂ 2)
= Persamaan. (3.3.9)
di mana penggunaan dibuat dari fakta itu ˆ β̂ 1 = ¯ Ȳ - β̂ ˆ 2 X̄ ¯ dan E ( ˆ β̂ 1) = ¯ Ȳ - β 2 ¯ X̄, memberi

β̂̂ 1 - E ( β̂ ˆ 1) = - ¯ X̄β̂( ˆ 2- β 2). catatan: var ( β̂ ˆ 2) diberikan dalam Persamaan. (3.3.1).
3A.5 Penaksir Kuadrat-Terkecil dari σ 2

Ingat itu
Y i = β 1 + β 2 X i + u saya (9)
Karena itu,
Ȳ ¯ = β 1 + β 2 X̄̄ + ū ¯ (10)
Mengurangi Persamaan (10) dari Persamaan (9) menghasilkan
y i = β 2 x i + ( u saya - ū ¯) (11)
Ingat juga itu

û ˆ i = y saya - β̂̂ 2 x saya (12)
Oleh karena itu, mengganti Persamaan (11) menjadi Persamaan (12) akan menghasilkan
û ˆ i = β 2 x i + ( u saya - ū ¯) β̂- ˆx saya 2 (13)
Mengumpulkan suku, mengkuadratkan, dan menjumlahkan kedua sisi, kita dapatkan ∑

∑ ∑ ∑
ûi ˆ= (2ˆ β̂ 2 - β 2) 2 xi 2+ ( u saya - ū ¯) 2 - 2 ( ˆβ̂ 2 - β 2) x saya ( u saya - ū ¯) (14)
Mengambil ekspektasi di kedua sisi memberi

( ∑) ∑ [∑ ] [ ∑ ]
E ûi ˆ= 2∑ x 2 E (β̂ˆ 2 - β 2) 2 + E
saya
( u saya - ū ¯) 2 - 2 E ( ˆβ̂ 2 - β 2]) x saya ( u saya - ū ¯)
[∑
= x 2 var ( ˆβ̂ 2) + ( n - 1) var ( u i) - 2 E
saya
k saya u saya ( x saya u i)
[∑ ]
= σ 2 + ( n - 1) σ 2 - 2 E k saya x saya u2
(15)
saya
= σ 2 + ( n - 1) σ 2 - 2 σ 2
= ( n - 2) σ 2
di mana, dalam satu langkah terakhir, digunakan definisi dari k saya diberikan dalam Persamaan. (3) dan relasi yang diberikan dalam
Persamaan. (4). Perhatikan juga itu
∑ [∑ ]
E ( u saya - ū ¯) 2 = E [ ∑ usaya
2 - nū ¯ 2
( ∑) 2 ]
u saya
=E u2 n
saya -
n
[∑
=E usaya
2 - 1 ∑ ()] usaya
2
n
= n σ2- n σ 2 = ( n - 1) σ 2
n
di mana penggunaan dibuat dari fakta bahwa u saya tidak berkorelasi dan varians masing-masing u saya aku s σ 2.
Jadi, kami mendapatkan
( ∑)
E ûi ˆ= (2n - 2) σ 2 (16)
Oleh karena itu, jika kita jelaskan

∑
ûsaya
ˆ2
σ̂ ˆ 2 = (17)
n-2
nilai yang diharapkan adalah
1 ( ∑)
E ( σ̂ ˆ 2) = E ûi ˆ= σ
2 2 menggunakan Persamaan (16) (18)
n-2
yang menunjukkan itu σ̂ ˆ 2 adalah penaksir kebenaran yang tidak bias σ 2.
3A.6 Properti Varians Minimum

Itu ditunjukkan dalam Lampiran 3A, Bagian 3A.2, bahwa estimator kuadrat-terkecil ˆ β̂ 2 linier juga
tidak bias (ini berlaku untuk ˆ β̂ 1 terlalu). Untuk menunjukkan bahwa penduga ini juga m
kelas dari semua penduga tak bias linier, pertimbangkan penaksir kuadrat-terkecilβ̂ˆ 2:
varians terkecil di
∑
β̂̂ 2 = k saya Y saya
dimana
X saya - ¯X̄
ki=∑ ∑
= x saya (lihat Lampiran 3A.2) (19)
( X saya - X̄ ¯) 2 xsaya
2
yang menunjukkan itu ˆ β̂ 2 adalah rata-rata tertimbang dari Y dengan k saya melayani sebagai pemberat.
Mari kita definisikan penduga linier alternatif dari β 2 sebagai berikut:
∑
β2∗= w saya Y saya (20)
dimana w saya juga bobot, belum tentu sama dengan k i. Sekarang

∑
E ( β2)∗ = ∑ w saya E (Y i)
= w saya ( β 1 + β 2 X i) (21)
∑ ∑
= β1 wi+β2 w saya X saya
Oleh karena itu, untuk2βagar

∗
tidak memihak, kita harus memiliki
∑
wi=0 (22)
dan
∑
w saya X i = 1 (23)
Juga, kami dapat menulis
∑
var ( β2)∗ = var w saya Y saya
∑
= wsaya2 var Y saya [ catatan: var Y i = var u i = σ 2]
∑
= σ2 wsaya
2 [ catatan: cov ( Y saya, Y j) = 0 ( i = j)]
∑( ) 2
= σ2 ∑
w saya - x saya ∑ (Perhatikan trik matematika)
x i)2 +2 x+ saya xsaya
σ2( ∑ 2 ∑
∑( ∑( )( )
x2 x saya
= σ2 ∑
w saya - x saya
saya)
∑
w saya - x saya ∑
xi)22 + σ 2 ∑ xi)2 2 + 2 σ 2 xsaya
2 xsaya
2
∑( (
1
= σ2 ∑
w saya - x saya (24)
xsaya
2 xsaya
2
karena istilah terakhir di langkah terakhir berikutnya keluar. (Mengapa?)

Karena suku terakhir dalam Persamaan (24) konstan, varian dari ( β ∗ 2) dapat diminimalkan hanya dengan
memanipulasi istilah pertama. Jika kita membiarkan
∑
w i = x saya
xsaya
2
Persamaan. (24) direduksi menjadi
var ( β2)∗ = σ 2 ∑
xsaya
2 (25)
= var ( ˆ β̂ 2)
Dengan kata lain, dengan bobot w i = k saya, yang merupakan bobot kuadrat-terkecil, varian dari
mator β ∗ 2 sama dengan varians dari penaksir kuadrat-terkecil ˆ β̂ 2; jika tidak var ( β 2)>
∗
var ( ˆ β̂ 2). Untuk
dengan kata lain, jika ada penaksir tidak bias linier varian-minimum β 2, itu harus menjadi penaksir kuadrat
terkecil. Demikian pula dapat ditunjukkan bahwa β̂ ˆ 1 adalah penaksir tidak bias linier varian minimum
dari β 1.
3A.7 Konsistensi Estimator Kuadrat-Terkecil

Kami telah menunjukkan bahwa, dalam kerangka model regresi linier klasik, penaksir kuadrat-terkecil tidak
bias (dan efisien) dalam ukuran sampel apa pun, kecil atau besar. Tapi terkadang, seperti yang dibahas di
Lampiran A, penaksir mungkin tidak memenuhi satu atau lebih sifat statistik yang diinginkan dalam sampel
kecil. Tetapi karena ukuran sampel meningkat tanpa batas, penduga memiliki beberapa sifat statistik yang
diinginkan. Properti ini dikenal sebagai sampel besar, atau asimtotik, sifat. Dalam lampiran ini, kita akan
membahas satu contoh properti yang besar, yaitu properti dari konsistensi, yang dibahas lebih lengkap di Lampiran
A. Untuk model dua variabel kami telah menunjukkan bahwa OLS
penduga
yang β̂ ˆ 2 adalah
ditunjukkan penaksir yang
di Lampiran tidak bias
A, kondisi yangdari kebenaran
cukup β 2. Sekarang
untuk konsistensi kamiitu
adalah ˆ esti- itu β̂ ˆ 2 juga merupakan rekan dari β 2. Seperti
tunjukkan
β̂ 2 tidak bias
dan variansnya cenderung nol sebagai ukuran sampel n cenderung tidak terbatas.
Karena kita telah membuktikan sifat tidak bias, kita hanya perlu menunjukkan bahwa varians dari
β̂ˆ2 cenderung nol sebagai n meningkat tanpa batas. Kami tahu itu
var ( ˆβ̂ 2) = σ 2∑ ∑ (26)

2 = σ 2 / nxsaya
xsaya 2 /n
Dengan membagi pembilang dan penyebut dengan n, kami tidak mengubah kesetaraan.
Sekarang
( )
σ2/ n
lim var ( β̂ ˆ 2 ︸) = lim ∑ (27)
xsaya
2 / n ︸ = 0
︸︷︷︸︷︷
n→∞ n→∞
di mana penggunaan dibuat dari fakta bahwa (1) th el I MI t dari a perbandingan qu antity adalah batas kuantitas di
pembilang sampai batas kuantitas di penyebut (lihat buku kalkulus mana saja); (2) sebagai n cenderung
∑
sampai batas akhir, σ 2 / n cenderung nol karena σ 2 adalah bilangan terbatas; dan [( x 2 i) / n] = 0 karena vari-
jagoan X memiliki batas terbatas karena Asumsi 7 dari CLRM.
Hasil dari diskusi sebelumnya adalah penaksir OLS ˆ β̂ 2 adalah penaksir yang konsisten dari
benar β 2. Dengan cara yang sama, kita bisa membangunnya ˆ β̂ 1 juga merupakan penaksir yang konsisten. Demikian diulang-ulang
(kecil) sampel, penduga OLS tidak bias dan sebagai ukuran sampel meningkat tanpa batas
Estimator OLS konsisten. Seperti yang akan kita lihat nanti, bahkan jika beberapa asumsi CLRM tidak
terpenuhi, kita mungkin dapat memperoleh penduga yang konsisten dari koefisien regresi dalam beberapa
situasi.

Damodar Gujarati, Dawn Porter-Basic Econometrics-McGraw-Hill Education (2008) (1) - Halaman-77-118.en - Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Damodar Gujarati, Dawn Porter-Basic Econometrics-McGraw-Hill Education (2008) (1) - Halaman-77-118.en - Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Bab 3

3.1 Metode Kuadrat Terkecil Biasa

Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya (2.6.2)

Jumlah: 28 16 0.0 12.214 0 14

Jelas dari Persamaan 3.1.2 bahwa

Persamaan. (3.1.6) dan (3.1.7).

Estimator yang diperoleh sebelumnya dikenal sebagai penaksir kuadrat-terkecil, karena

Y i = ˆ β̂ 1 + ˆβ̂ 2 X i + û ˆ saya (2.6.2)

Membagi Persamaan 3.1.11 dengan n, kami dapatkan

Y saya - ¯Ȳ = ˆ β̂ 2 ( X saya - ¯X̄) + û ˆ saya

ŷ ˆ i = β̂ˆ2 x saya (3.1.14)

= ˆβ̂∑2 x saya ( y saya -β̂

= ˆβ̂∑2 x saya y sayaβ̂

3.2 Model Regresi Linier Klasik: Asumsi yang Mendasari

Atau jika X nonstochastic,

Secara sepintas, perhatikan asumsi itu E (u i | X i) = 0 menyiratkan itu E (Y i | X i) = β 1 + β 2 X saya.

ASUMSI 4 Homoskedastisitas atau Varians Konstan u saya: Varians kesalahan, atau

= E (u 2i | X saya), karena Asumsi 3

di mana var berarti varians.

GAMBAR 3.4 f (u)

GAMBAR 3.5 f (u)

cov ( u saya, u j | X saya, X j) = 0 cov ( u saya, u j) = 0, jika X (3.2.5)

GAMBAR 3.6 +u saya +u saya

ASUMSI 6 Jumlah Pengamatan n Harus Lebih Besar dari Jumlah

melihat pentingnya asumsi ini.

Sepatah Kata tentang Asumsi Ini

3.3 Kesalahan Presisi atau Standar dari Perkiraan Kuadrat-Terkecil

Secara sepintas, perhatikan bahwa akar kuadrat positif dari σ̂ ˆ 2

cov ( ˆβ̂β̂1, ˆ 2) = - ¯ ( X̄ var ( ˆβ̂ 2)

3.4 Sifat-sifat Estimator Kuadrat-Terkecil: Teorema

3.5 Koefisien Determinasi r 2: Ukuran

atau dalam bentuk penyimpangan

( Y saya –Y) = karena regresi

TSS = ESS + RSS (3.5.3)

Kami sekarang mendefinisikan r 2 sebagai

atau, sebagai alternatif, sebagai

dimana S 2 y dan S 2 x adalah varian sampel dari Y dan X , r khususnya.

ekspresi yang mungkin secara komputasi mudah diperoleh.

RSS = TSS - ESS

Karena itu, kita bisa menulis

TSS = ESS + RSS ∑

sebuah ekspresi yang akan kita temukan sangat berguna nanti.

yang dikenal sebagai koefisien korelasi sampel. 22

1. Bisa positif atau negatif, tandanya tergantung dari tanda istilah di

22 Koefisien korelasi populasi, dilambangkan dengan ρ, didefinisikan dalam Lampiran A.

dimana Y i = sebenarnya Y Y ˆ i = diperkirakan Y, dan ¯ Ȳ = ¯ˆŶ = arti dari Y. Buktinya, lihat

3.6 Contoh Numerik

TABEL 3.2 Obs Y X x y xsaya

1 36 19.86217 4.165294 0.291406 0,084917

β̂ˆ2 = y saya x saya

β̂ˆ 1 = ¯Ȳ - β̂ ˆ 2 X̄ ¯ = 8.674708 - 0.7240967 x 12 = - 0,01445

se ( ˆβ̂ 1) = √ 0,868132 = 0,9317359

Ŷˆi = - 0,0144 + 0,7240 X saya (3.6.1)

3.7 Contoh Ilustrasi

F̂̂ oodExp i = 94,2087 + 0,4368 TotalExp saya (3.7.2)

TABEL 3.3 Negara Telepon selular PC Pendapatan Per Kapita ($)

Ŷ ˆ i = - 6,5833 + 0,0018 X saya (3.7.4)

3.8 Catatan tentang Eksperimen Monte Carlo

Eksperimen Monte Carlo berlangsung sebagai berikut:

6. Sekarang menggunakan 25 Y saya

Kesimpulan 1. Kerangka dasar analisis regresi adalah CLRM.

5. Kebaikan keseluruhan dari model regresi diukur dengan koefisien dari

6. Konsep yang terkait dengan koefisien determinasi adalah koefisien korelasi, r.