Anda di halaman 1dari 26

3.

Dua Variabel © McGraw−Bukit

Model Regresi: The Perusahaan, 2004

Masalah Estimasi
Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.com

Gujarat: Dasar I. Tunggal−Persamaan

Ekonometrika, Keempat Model Regresi Edisi

3
DUA-VARIABEL
MODEL REGRESI: THE
MASALAH ESTIMASI

Sebagaimana dicatat dalam Bab 2, tugas pertama kita adalah memperkirakan fungsi
regresi populasi (PRF) berdasarkan fungsi regresi sampel (SRF) seakurat mungkin. Di
dalamLampiran A kita telah membahas dua metode estimasi yang umum digunakan:
(1) kuadrat terkecil biasa (OLS) dan (2) kemungkinan maksimum (ML). Pada
umumnya, ini adalah metode OLS yang digunakan secara luas dalam analisis regresi
terutama karena secara intuitif menarik dan secara matematis jauh lebih sederhana
daripada metode kemungkinan maksimum. Selain itu, seperti yang akan kita tunjukkan
nanti, dalam konteks regresi linier kedua metode umumnya memberikan hasil yang
serupa.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 59


3.1 METODE KOTAK TERKECIL BIASA
Metode kuadrat terkecil biasa dikaitkan dengan Carl Friedrich Gauss, seorang
matematikawan Jerman. Di bawah asumsi tertentu (dibahas dalam Bagian 3.2),
metode kuadrat terkecil memiliki beberapa sifat statistik yang sangat menarik
yang menjadikannya salah satu metode analisis regresi yang paling kuat dan
populer. Untuk memahami metode ini, pertama-tama kita jelaskan prinsip
kuadrat terkecil.
Ingat PRF dua variabel:

kamuSaya = β1 + β2 xSaya + kamuSaya (2.4.2)

Namun, seperti yang kami catat di Bab 2, PRF tidak dapat diamati secara langsung. Kita

58
memperkirakannya dari SRF:
kamuSaya = β1 + β2 xSaya + ûSaya (2.6.2)
= ŶSaya + ûSaya (2.6.3)
di mana ŶSaya adalah nilai taksiran (rata-rata bersyarat) dari kamuSaya .
Tapi bagaimana SRF itu sendiri ditentukan? Untuk melihat ini, mari kita lanjutkan sebagai berikut.
Pertama, nyatakan (2.6.3) sebagai

ûSaya = kamuSaya - ŶSaya

(3.1.1)
= kamuSaya - β1 - β2 xSaya

yang menunjukkan bahwa ûSaya (residu) hanyalah perbedaan antara yang sebenarnya dan
yang diperkirakan kamu nilai-nilai.
Sekarang diberikan n pasangan pengamatan pada kamu dan x, kami ingin menentukan SRF
sedemikian rupa sehingga sedekat mungkin dengan yang sebenarnya kamu. Untuk tujuan ini,
kita dapat mengadopsi yang berikut:Σ ing critΣerion: Pilih SRF sedemikian rupa
sedemikian rupa sehingga jumlah residu ûSaya = (kamuSaya - ŶSaya ) adalah sekecil mungkin.
Meskipun secara intuitif menarik, ini bukan kriteria yang sangat baik, seperti yang dapat
dilihat pada diagram sebar hipotetis yang ditunjukkanΣ pada Gambar 3.1.
Jika kita mengadopsi kriteria meminimalkan ûSaya , Gambar 3.1 menunjukkan bahwa
residu û2 dan û3 serta residu û1 dan û4 menerima berat yang sama dalam
jumlah (û1 + û2 + û3 + û4), meskipun dua residu pertama jauh lebih dekat ke
SRF daripada dua yang terakhir. Dengan kata lain, semua residu menerima

kamu
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

60 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL

SRF
kamuSaya

kamuSaya = β 1 + β 2 x Saya
kamu 3
kamu 1

kamu 4

kamu 2

x
x1 x2 x3 x4

GAMBAR 3.1 Kriteria kuadrat terkecil.


sama pentingnya tidak peduli seberapa dekat atau seberapa tersebar
pengamatan individu dari SRF. Konsekuensi dari ini adalah sangat mungkin
bahwa jumlah aljabar dariûSaya kecil (bahkan nol) meskipun
ûSaya tersebar luas tentang SRF. Untuk melihat ini, mariû1, û2, û3, dan û4 pada Gambar
3.1 mengasumsikan nilai masing-masing 10, 2, +2, dan 10. Jumlah aljabar dari residu
ini adalah nol meskipunû1 dan û4 tersebar lebih luas di sekitar SRF daripada û2 dan
û3. Kita dapat menghindari masalah ini jika kita mengadopsi
kriteria kuadrat terkecil, yang menyatakan bahwa SRF dapat diperbaiki
sedemikian rupa sehingga
Σ Σ
ûSaya 2
(kamuSaya - kamuSaya )2

Σ (3.1.2)
= (kamuSaya - β1 - β2 x Saya 2)

sekecil mungkin, dimana û2 Saya adalah residu kuadrat. Dengan mengkuadratkanûSaya , metode
ini memberi bobot lebih pada residu seperti û1 dan û4 dalam GambarΣ3.1 dari
residu û2 dan û3. Seperti disebutkan sebelumnya, di bawah minimum û kriteria, Saya

jumlahnya bisa kecil meskipun ûSaya tersebar luas tentang SRF. Tapi ini tidak
mungkin di bawahΣ - prosedur kuadrat, untuk
lebih besar ûSaya (dalam nilai absolut), semakin besar ûSaya 2 . Pembenaran lebih lanjut
untuk metode kuadrat-terkecil terletak pada kenyataan bahwa penduga yang diperolehnya
memiliki beberapa sifat statistik yang sangat diinginkan, seperti yang akan kita lihat segera.
Jelas dari (3.1.2) bahwa
Σ ûSaya 2 = F (βˆ 1, ˆβ2) (3.1.3)

yaitu, jumlah residu kuadrat adalah beberapa fungsi dari penduga β1 dan β2.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 61


Untuk kumpulan data apa pun, pilih yang berbedaΣ nilai untuk β1 dan β2 akan
berbeda
memberikan yang berbeda û's dan karenanya nilai yang û Saya 2 . Untuk melihat ini
dengan jelas, pertimbangkan data hipotetis tentang kamu dan x diberikan dalam dua kolom
pertama dari Tabel 3.1. Mari kita sekarang melakukan dua percobaan. Pada percobaan 1,

TABEL 3.1 PENENTUAN EKSPERIMENTAL SRF

kamuSaya xT Ŷ1Saya (3) û1Saya û2


1 Saya Ŷ2Saya (6) û2Saya û2 2 S

aya

(1) (2) (4) (5) (7) (8)

4 1 2.929 1.071 1.147 4 0 0


5 4 7.000 2.000 4.000 7 2 4
7 5 8.357 1.357 1,841 8 1 1
12 6 9.714 2.286 5.226 9 3 9

Jumlah: 28 16 0,0 12.214 0 14

Catatan:1Saya = 1,572 + 1,357xSaya (yaitu, β1 = 1,572 dan β2 = 1,357)


β
Ŷ 2Saya = 3.0 + 1.0xSaya (yaitu, β1 = 3 dan ˆ2 = 1.0)
û1Saya = (kamuSaya - Ŷ1Saya) û2Saya

= (kamuSaya - Ŷ2Saya)

membiarkan β1 = 1.572 dan β2 = 1.357 (jangan khawatir sekarang tentang bagaimana kita mendapatkan
nilai-nilai ini; katakanlah, itu hanya tebakan). 1 Menggunakan ini β nilai dan x nilai yang diberikan dalam
kolom (2) dari Tabel 3.1, kita dapat dengan mudah menghitung perkiraan kamuSaya diberikan
dalam
kolom (3) tabel sebagai Ŷ1Saya (subskrip 1 adalah untuk menunjukkan percobaan
pertama). Sekarang mari kita melakukan percobaan lain, tapi kali ini
menggunakan nilaiβ1 = 3 dan β2 = 1. Nilai taksiran kamuSaya dari percobaan ini
diberikan sebagai Ŷ2Saya pada kolom (6) dari Tabel 3.1. Sejakβ nilai pada kedua
percobaan berbeda, kami mendapatkan nilai yang berbeda untuk estimasi
residual, seperti yang ditunjukkan pada tabel; û1Saya adalah residu dari percobaan
pertama dan û2Saya dari percobaan kedua. Kuadrat dari residu ini diberikan dalam
kolom (5) dan (8). Jelas, seperti yang diharapkan dari (3.1.3), jumlah sisa kuadrat
ini berbeda karena didasarkan pada himpunan yang berbeda dariβ nilai-nilai.
Sekarang set yang mana? β nilai-nilai shoΣharuskah kita memilih? Sejakβ nilai-nilai dari

percobaan pertama memberi kami lebih rendah ûSaya 2 (= 12.214) dari yang diperoleh dari
NS β nilai percobaan kedua (= 14), kita dapat mengatakan bahwa βdari percobaan pertama
adalah nilai "terbaik". Tapi bagaimana kita tahu? Karena, jika kita memiliki waktu yang tak terbatas
dan kesabaran yang tak terbatas, kita bisa melakukan lebih banyak lagi pengalaman seperti ituΣ
Riments, memilih set yang berbeda dari β's setiap kali dan membandingkan
menghasilkan ûSaya 2 danΣkemudian memilih set itu β nilai yang memberi kita paling sedikit
kemungkinan nilai dari ûSaya 2 dengan asumsi tentu saja bahwa kami telah mempertimbangkan semua
nilai-nilai yang mungkin dari β1 dan β2. Tetapi karena waktu, dan tentu saja
kesabaran, umumnya terbatas, kita perlu mempertimbangkan beberapa jalan
pintas untuk proses coba-coba ini. Untungnya, metode kuadrat terkecil memberi
kita jalan pintas seperti itu. Prinsip atau metode kuadrat terkecil memilih Σ β1 dan
β2 sedemikian rupa sehingga, untuk sampel atau kumpulan data tertentu, ûSaya 2 sekecil

1 Bagi yang penasaran, nilai-nilai ini diperoleh dengan metode kuadrat terkecil, yang akan dibahas segera.
Lihat Persamaan. (3.1.6) dan (3.1.7).
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

62 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


mungkin. Dengan kata lain, untuk sampel tertentu, metode kuadrat terkecil
memberikan dengan kitaΣ perkiraan unik β1 dan β2 yang memberikan kemungkinan
ûSaya 2 . Bagaimana ini dicapai? Ini adalah latihan langsung cis
terkecil nilai dari
dalam kalkulus diferensial. Seperti ditunjukkan pada Lampiran 3A, Bagian 3A.1, proses
diferensiasi menghasilkan persamaan berikut untuk memperkirakan β1 dan β2:

kamuSaya = tidak1 + β2 xSaya

Σ Σ
(3.1.4)

Σ Σ Σ
2
(3.1.5) kamuSaya xSaya = β1 xSaya + β2 xSaya

di mana n adalah ukuran sampel.


Persamaan simultan ini dikenal sebagai persamaan normal.
Memecahkan persamaan normal secara bersamaan, kita memperoleh

Σ Σ Σ kamuSaya
βˆ2 = Σ ii- (∑xSaya)2 n XY
n x2Saya - Σ xSaya

= (
(3.1.6)

(xSaya - X)2
Σ
xy
di mana X dan Ȳ adalah = Σ ii xSaya2 contoh sarana x dan kamu
dan di mana kita mendefinisikan xSaya = (xSaya
- X) dan kamuSaya = (kamuSaya - kamu).
Selanjutnya kita mengadopsi konvensi
membiarkan huruf kecil menunjukkan
penyimpangan dari nilai rata-rata.

Σ Σ

β 1= xn2SayaΣ x kamu 2Saya -- (∑ xSaya )2XYii (3.1.7)


Saya

= Ȳ - β ¯2 x

Langkah terakhir dalam (3.1.7) dapat diperoleh langsung dari (3.1.4) dengan
manipulasi aljabar sederhana.
Kebetulan, perhatikan bahwa, dengan menggunakan identitas aljabar sederhana, rumus
(3.1.6) untuk memperkirakan β2 alternatif dapat dinyatakan sebagai
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 63

Σ
x
β
ˆ=2 Σ Saya
kamu
x Saya2

(3.1.8) 2 ΣSaya

x
=Σ iiY

x2Saya - nX̄2
Σ
=Σ xSaya kamuSaya
Penduga yang diperoleh sebelumnya dikenal sebagai
penduga kuadrat terkecil, x2Saya - karena mereka berasal dari
prinsip kuadrat terkecil. nX̄2 Perhatikan berikut inisifat
numerik estimator yang diperoleh dengan metode OLS:
“Sifat numerik adalah mereka yang memegang sebagai
konsekuensi dari penggunaan

2
2 Σ Σ Σ Σ Σ Σ Σ Saya Σ , sejak X
x = X +
Catatan
1:
Saya2 = (x -Saya X)2 Σx 2
Saya 2 Saya X̄ Σ X2 = x2Saya - 2X x + X
adalahkonstanΣ ΣT. Lebih lanjut mencatat bahwa xSaya = nX̄ dan X2 = nX̄2 sejak X adalah konstanta, kami akhirnya

Dapatkan xSaya 2 = Σx2Saya - nX̄Σ. 2 Σ Σ Σ Σ Σ


Catatan 2: xSaya kamuSaya = xSaya (kamuSaya - Ȳ) = xSaya kamuSaya - Ȳ xSaya = xSaya kamuSaya - Ȳ (xSaya - X) = xSaya , kamu sejak Saya Ȳ
adalah konstanta dan karenaΣjumlah oΣf penyimpangan variabel dari nilai rata-ratanya [misalnya, (xSaya - X)]
selalu nol. Juga, kamuSaya = (kamuSaya - Ȳ) = 0.
kuadrat terkecil biasa, terlepas dari bagaimana data dihasilkan.” 2
Tidak lama lagi, kami juga akan mempertimbangkan sifat statistik estimator
OLS, yaitu, properti "yang hanya berlaku di bawah asumsi tertentu tentang
cara data dihasilkan."4 (Lihat model regresi linier klasik di Bagian 3.2.)

SAYA. Penduga OLS dinyatakan semata-mata dalam bentuk kuantitas yang dapat diamati (yaitu,
sampel) (yaitu, x dan kamu). Oleh karena itu, mereka dapat dengan mudah dihitung.
II. Mereka penduga titik; yaitu, dengan adanya sampel, setiap penduga hanya
akan memberikan satu nilai (titik) dari parameter populasi yang relevan. (Dalam
Bab 5 kita akan mempertimbangkan apa yang disebutpenduga interval, yang
memberikan rentang nilai yang mungkin untuk parameter populasi yang tidak
diketahui.)
AKU AKU AKU. Setelah perkiraan OLS diperoleh dari data sampel, garis
regresi sampel (Gambar 3.1) dapat dengan mudah diperoleh. Garis
regresi yang diperoleh memiliki sifat-sifat berikut:
1. Ini melewati sarana sampel dari kamu dan x. Fakta ini jelas dari (3.1.7),
untuk yang terakhir dapat ditulis sebagai:Ȳ = β1 + β2 x, yang ditunjukkan
secara diagram pada Gambar 3.2.

2 Russell Davidson dan James G. MacKinnon, Estimasi dan Inferensi dalam


Ekonometrika, Oxford University Press, New York, 1993, hal. 3. 4Ibid.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

64 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


kamu

kamuSaya = β 1 + β 2 xSaya

SRF

kamu

x
x

GAMBAR 3.2 Diagram yang menunjukkan bahwa garis regresi sampel melewati nilai rata-rata sampel dari kamu dan x.
2. Nilai rata-rata dari perkiraan kamu = ŶSaya sama dengan nilai rata-rata dari yang
sebenarnya kamu untuk

ŶSaya = β1 + β2 xSaya

= (Ȳ - β2 X) + β2 xSaya (3.1.9)

= Ȳ + β2(xSaya - x)

Menjumlahkan kedua sisi persamaan terakhir ini dengan nilai sampel dan
membaginya dengan ukuran sampel n memberi

ÿ=Ȳ (3.1.10)5
Σ
di mana penggunaan dibuat dari fakta bahwa (xSaya - X) = 0. (Mengapa?)
3. Nilai rata-rata dari residu ûSaya adalah nol. Dari Lampiran 3A, Bagian
3A.1, persamaan pertama adalah
Σ
2 (kamuSaya - β1 - β2 xSaya ) = 0

Tapi Σsejak ûSaya = kamuSaya - β1 - β2 xSaya , persamaan sebelumnya direduksi menjadi

2 ûSaya = 0, dari mana ü = 0.6


Sebagai hasil dari properti sebelumnya, regresi sampel

kamuSaya = β1 + β2 xSaya + ûSaya (2.6.2)


Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 65


dapat dinyatakan dalam bentuk alternatif di mana keduanya kamu dan x dinyatakan
sebagai penyimpangan dari nilai rata-ratanya. Untuk melihat ini, jumlahkan (2.6.2) di
kedua sisi untuk memberikan

Σ Σ Σ
kamuSaya = tidak1 + β2 xSaya + ûSaya

Σ Σ (3.1.11)
= tidak1 + β2 xSaya sejak ûSaya = 0

Membagi Persamaan. (3.1.11) melalui olehn, kita peroleh

Ȳ = β1 + β2 x¯ (3.1.12)

yang sama dengan (3.1.7). Mengurangi Persamaan. (3.1.12) dari (2.6.2), kami
memperoleh

kamuSaya - Ȳ = β2(xSaya - x) + ûSaya

5Perhatikan bahwa hasil ini benar hanya jika model regresi memiliki suku intersep β1 di dalamnya. Sebagai
Aplikasi. 6A, Detik. 6A.1menunjukkan, hasil ini tidak perlu berlaku ketika β1 absen dari model.
6Hasil ini juga mensyaratkan bahwa istilah intersep β1 hadir dalam model (lihat Aplikasi. 6A,
Detik. 6A.1).

atau
(3.1.13) kamuSaya = β2xSaya + ûSaya

di mana kamuSaya dan xSaya , mengikuti konvensi kami, adalah penyimpangan dari nilai rata-rata (sampel) masing-
Persamaan (3.1.13) dikenal sebagai bentuk penyimpangan.
Perhatikan bahwa istilah intersep β1 tidak lagi hadir di dalamnya. Tetapi
suku intersep selalu dapat diperkirakan dengan (3.1.7), yaitu, dari fakta
bahwa garis regresi sampel melewati rata-rata sampel darikamu dan x.
Keuntungan dari bentuk deviasi adalah sering menyederhanakan rumus
komputasi.
Secara sepintas, perhatikan bahwa dalam bentuk deviasi, SRF dapat ditulis
sebagai:

(3.1.14) ŶSaya = β2xSaya

sedangkan dalam satuan pengukuran aslinya adalah ŶSaya = β1 + β2 xSaya ,


seperti yang ditunjukkan pada (2.6.1).

4. Residu ûSaya tidak berkorelasi dengan prediksi kamuSaya . Pernyataan ini dapat
diverifikasi sebagai berikut: menggunakan bentuk deviasi, kita dapat menulis Σ
Σ
ŶSaya ûSaya = β2 xSaya ûSaya Σ
= β2 xSaya (kamuSaya - β2xSaya ) Σ xSaya kamuSaya - β22 Σ

xSaya 2 (3.1.15)
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

66 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


= β2

Σ 2 - β22 Σ
xSaya 2= β22
xSaya

=0
Σ Σ
di mana penggunaan dibuat dari fakta bahwa β2 = xSaya kamuSaya/ xSaya 2 .Σ
5. Residu ûSaya tidak berkorelasi dengan xSaya ; itu adalah, ûSaya xSaya = 0. Ini
fakta mengikuti dari Persamaan. (2) dalam Lampiran 3A, Bagian 3A.1.

3.2 MODEL REGRESI LINIER KLASIK: ASUMSI YANG MENDASARKAN


METODE LEAST SQUARES

Jika tujuan kita adalah untuk memperkirakan β1 dan β2 saja, metode OLS yang dibahas di
bagian sebelumnya sudah cukup. Tetapi ingat kembali dari Bab 2 bahwa dalam analisis
regresi, tujuan kita tidak hanya untuk memperolehβ1 dan β2 tetapi juga untuk menarik
kesimpulan tentang yang benar β1 dan β2. Misalnya, kami ingin tahu seberapa dekat β1 dan β 2
dengan rekan-rekan mereka dalam populasi atau seberapa dekat ŶSaya adalah untuk yang
benar E(kamu | xSaya ). Untuk itu, kita tidak hanya harus menentukan bentuk fungsional
model, seperti pada (2.4.2), tetapi juga membuat asumsi tertentu tentang
cara di mana kamuSaya dihasilkan. Untuk melihat mengapa persyaratan ini diperlukan, lihat
PRF:kamuSaya = β1 + β2 xSaya + kamuSaya . Itu menunjukkan bahwa kamuSaya tergantung
keduanya xSaya dan kamuSaya . Oleh karena itu, kecuali jika kita spesifik tentang bagaimana x
Saya dan kamuSaya dibuat atau dihasilkan, tidak mungkin kita dapat membuat kesimpulan
statistik tentang kamuSaya dan juga, seperti yang akan kita lihat, tentang β1 dan β2. Dengan
demikian, asumsi yang dibuat tentangxSaya variabel dan istilah kesalahan sangat penting
untuk interpretasi valid dari perkiraan regresi.
Model regresi linier Gaussian, standar, atau klasik (CLRM), yang
merupakan landasan dari sebagian besar teori ekonometrika, membuat 10
asumsi.3 Kami pertama membahas asumsi ini dalam konteks model regresi
dua variabel; dan dalam Bab 7 kami memperluasnya ke model regresi
berganda, yaitu model di mana terdapat lebih dari satu regresi.

Asumsi 1: Model regresi linier. Model regresinya adalah linier dalam parameter, seperti yang ditunjukkan pada (2.4.2)

kamuSaya = β1 + β2xSaya + kamuSaya (2.4.2)

Kita telah membahas model (2.4.2) di Bab 2. Karena model regresi


linierdalam-parameter adalah titik awal CLRM, kita akan mempertahankan
asumsi ini di sepanjang buku ini. Perlu diingat bahwa regresi dan kamu dan

3 Ini klasik dalam arti bahwa itu dikembangkan pertama kali oleh Gauss pada tahun 1821 dan sejak itu
telah berfungsi sebagai norma atau standar yang dapat dibandingkan dengan model regresi yang tidak
memenuhi asumsi Gaussian.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 67


regresi x sendiri mungkin nonlinier, seperti yang dibahas dalam Bab 2.4

Asumsi 2: x nilai tetap dalam pengambilan sampel berulang. Nilai yang diambil oleh regressor x
dianggap tetap dalam sampel berulang. Secara lebih teknis,x diasumsikan nonstokastik.

Asumsi ini tersirat dalam diskusi kita tentang PRF di Bab 2. Tetapi sangat penting untuk
memahami konsep “nilai tetap dalam pengambilan sampel berulang”, yang dapat dijelaskan
dalam contoh yang diberikan pada Tabel 2.1. Pertimbangkan berbagai kamu populasi yang
sesuai dengan tingkat pendapatan yang ditunjukkan dalam tabel itu. Menjaga nilai
pendapatanx fixed, katakanlah, pada level $80, kami menggambar secara acak sebuah
keluarga dan mengamati pengeluaran konsumsi keluarga mingguannya kamu sebagai,
katakanlah, $60. Masih menyimpanx dengan harga $80, kami menggambar secara acak
keluarga lain dan mengamatinya kamu nilai sebagai $75. Dalam setiap gambar ini (yaitu,
pengambilan sampel berulang), nilaix ditetapkan pada $80. Kami dapat mengulangi proses
ini untuk semuax nilai yang ditunjukkan pada Tabel 2.1. Faktanya, data sampel yang
ditunjukkan pada Tabel 2.4 dan 2.5 digambar dengan cara ini.
Apa artinya semua ini adalah bahwa analisis regresi kami adalah analisis regresi
bersyarat, yaitu, tergantung pada nilai yang diberikan dari regressor x.
Asumsi 3: Nilai rata-rata nol gangguan kamuSaya. Mengingat nilai x, nilai rata-rata, atau yang diharapkan, dari istilah gangguan acak
kamuSaya adalah nol. Secara teknis, nilai rata-rata bersyarat dari kamuSaya adalah nol. Secara simbolis, kami memiliki

E(kamuSaya |xSaya) = 0 (3.2.1)

Asumsi 3 menyatakan bahwa nilai rata-rata dari kamuSaya , tergantung pada yang diberikan
xSaya , adalah nol. Secara geometris, asumsi ini dapat digambarkan seperti pada Gambar 3.3, yang
menunjukkan beberapa nilai variabelx dan kamu populasi yang terkait dengan masing-masing.
Seperti yang ditunjukkan, masing-masing kamu populasi yang sesuai dengan yang diberikan x
didistribusikan di sekitar nilai rata-ratanya (ditunjukkan oleh titik-titik yang dilingkari
pada PRF) dengan beberapa kamu values above the mean and some below it. The
distances above and below the mean values are nothing but the kamuSaya , dan yang
(3.2.1) mensyaratkan bahwa nilai rata-rata atau rata-rata dari deviasi ini sesuai dengan
yang diberikan x harus nol.5
Asumsi ini seharusnya tidak sulit untuk dipahami mengingat pembahasan di Bagian 2.4
[lihat Persamaan. (2.4.5)]. Semua yang dikatakan asumsi ini adalah bahwa faktor-faktor tidak
secara eksplisit dimasukkan dalam model, dan oleh karena itu dimasukkan dalam kamuSaya ,
tidak secara sistematis mempengaruhi nilai rata-rata dari kamu; jadi untuk berbicara, positifkamuSaya

kamu

4 Namun, diskusi singkat tentang model regresi nonlinier dalam parameter diberikan dalam
Bab. 14.
5 Sebagai ilustrasi, kita hanya mengasumsikan bahwa kamu's didistribusikan secara simetris seperti yang ditunjukkan
pada Gambar 3.3. Tapi sebentar lagi kita akan berasumsi bahwa kamu's terdistribusi secara normal.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

68 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


Berarti

PRF: kamuSaya = β 1 + β 2xSaya

+ kamuSaya

- kamuSaya

x
x1 x2 x3 x4

GAMBAR 3.3 Distribusi bersyarat dari gangguan kamuSaya.


nilai membatalkan negatif kamuSaya nilai sehingga efek rata-rata atau rata-ratanya pada
kamu adalah nol.6
Secara sepintas, perhatikan bahwa asumsi E(kamuSaya | xSaya ) = 0 menyiratkan bahwa E(kamuSaya | xSaya ) =
βSaya + β2 xSaya . (Mengapa?) Oleh karena itu, kedua asumsi tersebut setara.

Asumsi 4: Homoskedastisitas atau varians yang sama dari kamuSaya. Mengingat nilai x, varian dari
kamuSaya sama untuk semua pengamatan. Artinya, varians bersyarat dari kamuSaya identik. Secara
simbolis, kami memiliki

var (kamuSaya | xSaya) = E [kamuSaya - E(kamuSaya | xSaya)]2

= E(kamu2Saya | xSaya ) karena asumsi 3 (3.2.2) = σ2


di mana var singkatan dari varians.

Persamaan. (3.2.2) menyatakan bahwa varians dari kamuSaya untuk setiap xSaya (yaitu, bersyarat
varians dari kamuSaya ) adalah beberapa bilangan konstan positif yang sama dengan σ
2 . Secara teknis, (3.2.2) mewakili asumsi homoskedastisitas, atau setara (homo)
sebaran (skedastisitas) atau varians yang sama. Kata ini berasal dari kata kerja Yunani
skedanime, yang berarti membubarkan atau menyebarkan. Dinyatakan berbeda,
(3.2.2) berarti bahwakamu populasi yang sesuai dengan berbagai x nilai memiliki
varian yang sama. Sederhananya, variasi di sekitar garis regresi (yang merupakan garis
hubungan rata-rata antarakamu dan x) adalah sama di seluruh x
nilai-nilai; itu tidak bertambah atau berkurang sebagaix bervariasi. Secara diagramatis, situasinya
seperti yang digambarkan pada Gambar 3.4.

6 Untuk alasan yang lebih teknis mengapa Asumsi 3 diperlukan, lihat E. Malinvaud, Metode Statistik
Ekonometrika, Rand McNally, Chicago, 1966, hal. 75. Lihat juga latihan 3.3.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 69


F (kamu)

Probability density of ui

kamu

x1
x2 PRF: kamuSaya = β1 + β2xSaya
xSaya

GAMBAR 3.4 Homoskedastisitas.


F(kamu)
Probability density of ui

kamu

x1
x2 βB 1 +B 2 xSaya

xSaya

GAMBAR 3.5 Heteroskedastisitas.

Sebaliknya, perhatikan Gambar 3.5, di mana varians bersyarat dari kamu


populasi bervariasi dengan x. Situasi ini dikenal dengan tepat sebagaiheteroskedastisitas,
atau penyebaran yang tidak merata, atau perbedaan. Secara simbolis, dalam situasi ini
(3.2.2) dapat ditulis sebagai

var (kamuSaya | xSaya ) = σ Saya2 (3.2.3)

Perhatikan subskrip di σ 2 dalam Persamaan. (3.2.3), yang menunjukkan bahwa


varians darikamu populasi tidak lagi konstan.
Untuk memperjelas perbedaan antara dua situasi, mari kamu mewakili pengeluaran
konsumsi mingguan dan x penghasilan mingguan. Gambar 3.4 dan 3.5 menunjukkan bahwa
ketika pendapatan meningkat, pengeluaran konsumsi rata-rata juga meningkat. Namun
pada Gambar 3.4 varians pengeluaran konsumsi tetap sama pada semua tingkat
pendapatan, sedangkan pada Gambar 3.5 varians tersebut meningkat seiring dengan
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

70 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


peningkatan pendapatan. Dengan kata lain, keluarga kaya rata-rata mengonsumsi lebih
banyak daripada keluarga miskin, tetapi ada juga lebih banyak variabilitas dalam
pengeluaran konsumsi keluarga yang pertama.
Untuk memahami alasan di balik asumsi ini, lihat Gambar 3.5. Seperti yang ditunjukkan
gambar ini, var (kamu| x1) < var (kamu| x2), . . ., < var (kamu| xSaya ). Oleh karena itu,
kemungkinannya adalah kamu pengamatan yang berasal dari populasi dengan x = x1 akan
lebih dekat ke PRF daripada yang berasal dari populasi yang sesuai dengan x = x2 , x = x3,
dan seterusnya. Singkatnya, tidak semuakamu nilai yang sesuai dengan berbagai x's akan
sama-sama dapat diandalkan, keandalan dinilai dari seberapa dekat atau jauhnya
kamu nilai didistribusikan di sekitar rata-ratanya, yaitu titik-titik pada PRF. Jika ini
kenyataannya, apakah kita tidak akan memilih untuk mengambil sampel dari itu? kamu
populasi yang lebih dekat dengan meannya daripada populasi yang tersebar luas? Tetapi
melakukan hal itu mungkin membatasi variasi yang kita dapatkan di seluruh x nilai-nilai.
Dengan menerapkan Asumsi 4, kita mengatakan bahwa pada tahap ini semua
kamu nilai yang sesuai dengan berbagai x's sama pentingnya. Dalam Bab 11 kita akan
melihat apa yang terjadi jika hal ini tidak terjadi, yaitu di mana terdapat
heteroskedastisitas.
Secara sepintas, perhatikan bahwa Asumsi 4 menyiratkan bahwa varians bersyarat dari kamu
Saya juga bersifat homoskedastis. Itu adalah,

var (kamuSaya | xSaya ) = σ 2 (3.2.4)

Tentu saja, varians tak bersyarat dari kamu adalah σ 2 kamu . Nanti kita akan melihat
impentingnya membedakan antara varians bersyarat dan tak bersyarat dari
kamu (lihat Lampiran A untuk rincian varians bersyarat dan tak bersyarat).

Asumsi 5: Tidak ada autokorelasi antar gangguan. Diberikan dua x nilai-nilai,


xSaya dan xJ (Saya = J ), korelasi antara dua kamuSaya dan kamuJ (Saya = J ) adalah nol. Secara simbolis,

cov (kamuSaya, kamuJ | xSaya, XJ) = E {[kamuSaya - E (kamuSaya)] | xSaya }{[kamuJ - E(kamuJ)] | xJ }

= E(kamuSaya | xSaya)(kamuJ | xJ) (mengapa?)

=0

di mana Saya dan J adalah dua pengamatan yang berbeda dan di mana cov cara kovarians.
(3.2.5)

Dengan kata lain, (3.2.5) mendalilkan bahwa gangguan kamuSaya dan kamuJ tidak
berkorelasi. Secara teknis, ini adalah asumsitidak ada korelasi serial, atau tidak ada
autokorelasi. Artinya, diberikan xSaya , penyimpangan dari dua kamu nilai dari nilai
rata-ratanya tidak menunjukkan pola seperti yang ditunjukkan pada Gambar 3.6 A dan
B. Pada Gambar 3.6A, kita melihat bahwa kamuadalah berkorelasi positif, positif
kamu diikuti dengan positif kamu atau negatif kamu diikuti oleh negatif kamu. Pada
Gambar 3.6B, NS kamuadalah berkorelasi negatif, positif kamu diikuti oleh negatif
kamu dan sebaliknya.
Jika gangguan (penyimpangan) mengikuti pola sistematis, seperti yang ditunjukkan
pada Gambar 3.6A dan B, ada korelasi otomatis atau serial, dan yang dibutuhkan oleh
Asumsi 5 adalah bahwa korelasi semacam itu tidak ada. Gambar 3.6C menunjukkan
bahwa tidak ada pola sistematis untuk kamu's, sehingga menunjukkan korelasi nol.
Impor penuh dari asumsi ini akan dijelaskan secara menyeluruh dalam Bab 12. Tetapi
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 71


secara intuitif seseorang dapat menjelaskan asumsi ini sebagai berikut. Misalkan dalam PRF
kami (kamuT = β1 + β2 xT + kamuT) itu kamuT dan kamuT1 berkorelasi positif.
KemudiankamuT tidak hanya bergantung pada xT tetapi juga pada kamuT1 untuk kamuT1
sampai batas tertentu menentukan kamuT . Pada tahap pengembangan materi pelajaran
ini, dengan menerapkan Asumsi 5, kami mengatakan bahwa kami akan
mempertimbangkan efek sistematis, jika ada, dari xT pada kamuT dan tidak khawatir
tentang pengaruh lain yang mungkin terjadi kamu sebagai hasil dari kemungkinan
interkorelasi antara kamu'S. Namun, seperti dicatat dalam Bab 12, kita akan melihat
bagaimana interkorelasi di antara gangguan dapat dibawa ke dalam analisis dan dengan
konsekuensi apa.
+ kamuSaya + kamuSaya

– kamuSaya + kamuSaya – kamuSaya + kamuSaya

- kamuSaya - kamuSaya

+ kamuSaya

– kamuSaya +
kamuSaya

-
(A) (B) (C)
kamuSaya

GAMBAR 3.6 Pola korelasi antar gangguan. (A) korelasi serial positif; (B) korelasi serial negatif; (C) korelasi nol.

Asumsi 6: Kovarians nol antara kamuSaya dan xSaya, atau E(kamuSayaxSaya) = 0. Secara (3.2.6)
formal,

cov (kamuSaya, xSaya) = E [kamuSaya - E(kamuSaya)][xSaya - E(xSaya)]

= E [kamuSaya (xSaya - E(xSaya))] sejak E(kamuSaya) = 0

= E (kamuSayaxSaya) E(xSaya)E(kamuSaya) sejak E(xSaya) tidak stokastik

= E(kamuSayaxSaya) sejak E(kamuSaya) = 0

= 0 dengan asumsi

Asumsi 6 menyatakan bahwa gangguan kamu dan variabel penjelas x


Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

72 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


tidak berkorelasi. Alasan untuk asumsi ini adalah sebagai berikut: Ketika kami menyatakan
PRF seperti pada (2.4.2), kami mengasumsikan bahwax dan kamu (yang mungkin mewakili
pengaruh semua variabel yang dihilangkan) memiliki pengaruh terpisah (dan aditif) pada
kamu. Tapi jikax dan kamu berkorelasi, tidak mungkin untuk menilai efek individu mereka
pada kamu. Jadi, jikax dan kamu berkorelasi positif, x meningkat
Kapan kamu bertambah dan berkurang bila kamu menurun. Demikian pula, jikax dan kamu
berkorelasi negatif, x meningkat ketika kamu berkurang dan berkurang bila
kamu meningkat. Dalam kedua kasus, sulit untuk mengisolasi pengaruh darix
dan kamu pada kamu.

Asumsi 6 secara otomatis terpenuhi jika x variabel adalah nonrandom atau nonstochastic
dan Asumsi 3 berlaku, karena dalam kasus itu, cov (kamuSaya, XSaya) = [xSaya E(xSaya
)]E[kamuSaya - E(kamuSaya )] = 0. (Mengapa?) Tetapi karena kami berasumsi bahwa x
variabel tidak hanya nonstochastic tetapi juga mengasumsikan nilai tetap dalam
sampel berulang,7 Asumsi 6 tidak terlalu kritis bagi kami; dinyatakan di sini hanya
untuk menunjukkan bahwa teori regresi yang disajikan dalam sekuel berlaku bahkan
jikax's adalah stokastik atau acak, asalkan mereka independen atau setidaknya tidak
berkorelasi dengan gangguan kamuSaya .12 (Kami akan memeriksa konsekuensi dari
relaksasi Asumsi 6 di Bagian II.)

Asumsi 7: Jumlah observasi n harus lebih besar dari jumlah parameter yang akan
diestimasi. Atau, jumlah pengamatan n harus lebih besar dari jumlah variabel penjelas.

Asumsi ini tidak begitu berbahaya seperti yang terlihat. Dalam contoh hipotetis
Tabel 3.1, bayangkan bahwa kita hanya memiliki pasangan pengamatan pertama pada
kamu dan x (4 dan 1). Dari pengamatan tunggal ini tidak ada cara untuk
memperkirakan dua yang tidak diketahui,β1 dan β2. Kami membutuhkan setidaknya
dua pasang pengamatan untuk memperkirakan dua yang tidak diketahui. Dalam bab
selanjutnya kita akan melihat pentingnya asumsi ini.

Asumsi 8: Variabilitas dalam x nilai-nilai. NS x nilai dalam sampel yang diberikan tidak boleh semuanya sama.
Secara teknis, var (x ) harus berupa bilangan positif berhingga.8

Asumsi ini juga tidak begitu berbahaya seperti yang terlihat. Lihat Persamaan. (3.1.6). Jika
semuax nilainya sama, maka xSaya = X (Mengapa?) dan penyebut persamaan itu akan menjadi
nol, sehingga tidak mungkin untuk memperkirakan β2 dan maka dari itu

7 Ingat bahwa dalam mendapatkan sampel yang ditunjukkan pada Tabel 2.4 dan 2.5, kami tetap sama x
nilai-nilai. 12Seperti yang akan kita bahas di Bagian II, jika: x's adalah stokastik tetapi didistribusikan secara independen dari
kamuSaya ,
sifat-sifat penaksir terkecil yang dibahas segera terus berlaku, tetapi jika stokastik x's hanya tidak
berkorelasi dengan kamuSaya , sifat penduga OLS berlaku hanya jika ukuran sampel sangat besar.
Namun, pada tahap ini, tidak perlu terjebak dengan poin teoretis ini.

8 Varians sampel dari x adalah


Σ var (x) =

di mana n adalah ukuran sampel.


Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 73


β1. Secara intuitif, kita dengan mudah melihat mengapa asumsi ini penting. Melihat ke
Contoh pengeluaran konsumsi keluarga kita pada Bab 2, jika variasi pendapatan
keluarga sangat kecil, kita tidak akan dapat menjelaskan banyak variasi dalam
pengeluaran konsumsi. Pembaca harus mengingat bahwa variasi dalam keduanya
kamu dan x sangat penting untuk menggunakan analisis regresi sebagai alat
penelitian. Singkatnya, variabel harus bervariasi!

Asumsi 9: Model regresi ditentukan dengan benar. Atau, tidak ada


bias atau kesalahan spesifikasi dalam model yang digunakan dalam analisis empiris.

Seperti yang kita bahas di Pendahuluan, metodologi ekonometrik klasik


mengasumsikan secara implisit, jika tidak secara eksplisit, bahwa model yang
digunakan untuk menguji teori ekonomi "ditentukan dengan benar." Asumsi ini
dapat dijelaskan secara informal sebagai berikut. Penyelidikan ekonometrika
dimulai dengan spesifikasi model ekonometrika yang mendasari fenomena yang
diminati. Beberapa pertanyaan penting yang muncul dalam spesifikasi model
antara lain sebagai berikut: (1) Variabel apa yang harus dimasukkan dalam model?
(2) Apa bentuk fungsional model? Apakah linear dalam parameter, variabel,
atau keduanya? (3) Apa asumsi probabilistik yang dibuat tentang kamuSaya , NS
xSaya , dan kamuSaya masuk modelnya?
Ini adalah pertanyaan yang sangat penting, karena, seperti yang akan kita
tunjukkan dalam Bab 13, dengan menghilangkan variabel penting dari model,
atau dengan memilih bentuk fungsional yang salah, atau dengan membuat
asumsi stokastik yang salah tentang variabel model, validitas menafsirkan estimasi
regresi akan sangat dipertanyakan. Untuk mendapatkan perasaan intuitif tentang
ini, lihat kurva Phillips yang ditunjukkan pada Gambar 1.3. Misalkan kita memilih
dua model berikut untuk menggambarkan hubungan mendasar antara tingkat
perubahan upah uang dan tingkat pengangguran:

kamuSaya = α1 + α2 xSaya + kamuSaya (3.2.7)


()
1
kamuSaya = β1 + β2 xSaya + kamu Saya (3.2.8)

di mana kamuSaya = tingkat perubahan upah uang, dan xSaya = tingkat


pengangguran.
Model regresi (3.2.7) linier baik dalam parameter dan variabel, sedangkan
(3.2.8) linier dalam parameter (oleh karena itu model regresi linier menurut
definisi kami) tetapi nonlinier dalam variabel x. Sekarang perhatikan Gambar
3.7.
Jika model (3.2.8) adalah model yang “benar” atau “benar”, menyesuaikan model (3.2.7)
dengan titik sebar yang ditunjukkan pada Gambar 3.7 akan memberikan prediksi yang salah:
Antara titik A dan B, untuk setiap yang diberikan xSaya model (3.2.7) akan melebihlebihkan
nilai rata-rata sebenarnya dari kamu, sedangkan di sebelah kiri A (atau di sebelah kanan B)
itu akan meremehkan (atau melebih-lebihkan, secara absolut) nilai rata-rata sebenarnya dari
kamu.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

74 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL

Rate of change of money wages β21 x


β +B
kamuSaya = B1
( Saya
)

B1 + αB2 xSaya
kamuSaya = α

Tingkat pengangguran, %
0

GAMBAR 3.7 Kurva Phillips linier dan nonlinier.

Contoh sebelumnya adalah contoh dari apa yang disebut a bias spesifikasi atau
kesalahan spesifikasi; di sini biasnya terletak pada pemilihan bentuk fungsional yang
salah. Kita akan melihat jenis kesalahan spesifikasi lainnya di Bab 13.
Sayangnya, dalam praktiknya kita jarang mengetahui variabel yang benar untuk
dimasukkan ke dalam model atau bentuk fungsional yang benar dari model atau
asumsi probabilistik yang benar tentang variabel yang memasuki model untuk teori
yang mendasari penyelidikan tertentu (misalnya, upah uang tipe Phillips tradeoff
perubahan-tingkat pengangguran) mungkin tidak kuat atau cukup kuat untuk
menjawab semua pertanyaan ini. Oleh karena itu, dalam praktiknya, ahli ekonometrika
harus menggunakan beberapa pertimbangan dalam memilih jumlah variabel yang
masuk ke dalam model dan bentuk fungsional model dan harus membuat beberapa
asumsi tentang sifat stokastik dari variabel yang dimasukkan dalam model. Sampai
batas tertentu, ada beberapa trial and error yang terlibat dalam memilih model yang
"benar" untuk analisis empiris.9
Jika pertimbangan diperlukan dalam memilih model, apa kebutuhan untuk Asumsi
9? Tanpa masuk ke rincian di sini (lihat Bab 13), asumsi ini ada untuk mengingatkan
kita bahwa analisis regresi kita dan oleh karena itu hasil berdasarkan analisis itu
tergantung pada model yang dipilih dan untuk memperingatkan kita bahwa kita harus
memberikan pemikiran yang sangat hati-hati dalam merumuskan ekonometrika.
model, terutama ketika mungkin ada beberapa teori yang bersaing mencoba
menjelaskan fenomena ekonomi, seperti tingkat inflasi, atau permintaan uang,
atau penentuan nilai yang sesuai atau ekuilibrium dari saham atau obligasi. Jadi,
pembuatan model ekonometrika, seperti yang akan kita temukan, lebih sering
merupakan seni daripada sains.

9 Tetapi seseorang harus menghindari apa yang dikenal sebagai “penambangan data,” yaitu, mencoba
setiap model yang mungkin dengan harapan setidaknya satu model cocok dengan data. Itulah mengapa penting
bahwa ada beberapa alasan ekonomi yang mendasari model yang dipilih dan bahwa setiap modifikasi dalam
model harus memiliki beberapa pembenaran ekonomi. Model ad hoc murni mungkin sulit untuk dibenarkan
secara teoritis atau apriori. Singkatnya, teori harus menjadi dasar estimasi. Tetapi kita akan berbicara lebih banyak
tentang penambangan data di Bab. 13, karena ada beberapa yang berpendapat bahwa dalam beberapa situasi
penambangan data dapat melayani tujuan yang bermanfaat.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 75


Diskusi kita tentang asumsi yang mendasari model regresi linier klasik
sekarang selesai. Penting untuk dicatat bahwa semua asumsi ini hanya
berkaitan dengan PRF dan bukan SRF. Tetapi menarik untuk diamati bahwa
metode kuadrat terkecil yang dibahas sebelumnya memiliki beberapa sifat
yang mirip denganΣasumsi yang kami buat tentang PRF. Misalnya, temuan
bahwa ûSaya = 0, dan oleh karena itu, ü =Σ0, mirip dengan
asumsi itu E(kamuSaya | xSaya ) = 0. Demikian juga, temuan bahwa ûSaya xSaya = 0 serupa
dengan asumsi bahwa cov (kamuSaya , xSaya ) = 0. Sangat menyenangkan untuk dicatat bahwa
metode kuadrat terkecil dengan demikian mencoba untuk "menduplikasi" beberapa asumsi yang
telah kami terapkan pada PRF.
Tentu saja, SRF tidak menduplikasi semua asumsi CLRM. Seperti yang akan kita tunjukkan
nanti, meskipun cov (kamuSaya , kamuJ ) = 0 (Saya = J ) dengan asumsi, itu adalah
bukan benar bahwa Sampel cov (ûSaya , ûJ ) = 0 (Saya = J ). Faktanya, kita akan
menunjukkan nanti bahwa residual tidak hanya autokorelasi tetapi juga
heteroskedastis (lihat Bab 12).
Ketika kita melampaui model dua variabel dan mempertimbangkan model
regresi berganda, yaitu model yang berisi beberapa regresi, kita
menambahkan asumsi berikut.

Asumsi 10: Tidak ada multikolinearitas yang sempurna. Artinya, ada tidak ada hubungan
linier yang sempurna antara variabel penjelas.

Kami akan membahas asumsi ini dalam Bab 7, di mana kami membahas model
regresi berganda.

Sepatah Kata tentang Asumsi Ini


Pertanyaan sejuta dolarnya adalah: Seberapa realistiskah semua asumsi ini?
"Realitas asumsi" adalah pertanyaan kuno dalam filsafat sains. Beberapa
berpendapat bahwa tidak masalah apakah asumsi itu realistis. Yang penting
adalah prediksi berdasarkan asumsi tersebut. Terkemuka di antara "tesis
asumsi yang tidak relevan" adalah Milton Friedman. Baginya, asumsi yang
tidak realistis adalah keuntungan positif: ”menjadi penting . . . hipotesis harus
secara deskriptif salah dalam asumsinya.”10
Seseorang mungkin tidak sepenuhnya menganut sudut pandang ini, tetapi ingatlah bahwa
dalam studi ilmiah apa pun kita membuat asumsi tertentu karena mereka memfasilitasi
pengembangan materi pelajaran dalam langkah-langkah bertahap, bukan karena mereka
harus realistis dalam arti bahwa mereka meniru realitas secara tepat. Seperti yang dicatat oleh
seorang penulis, “. . . jika kesederhanaan adalah kriteria yang diinginkan dari teori yang baik,
semua teori yang baik mengidealkan dan menyederhanakan secara berlebihan.”11
Apa yang kami rencanakan adalah pertama-tama mempelajari properti CLRM secara
menyeluruh, dan kemudian di bab-bab selanjutnya memeriksa secara mendalam apa yang
terjadi jika satu atau lebih asumsi CLRM tidak terpenuhi. Di akhir bab ini, kami memberikan
pada Tabel 3.4 panduan di mana seseorang dapat mengetahui apa yang terjadi pada CLRM jika

10 Milton Friedman, Esai Ekonomi Positif, Universitas Chicago Pers, Chicago,


1953, hal. 14.
11 Mark Blaug, Metodologi Ekonomi: Atau Bagaimana Para Ekonom Menjelaskan, 2d ed.,
Cambridge University Press, New York, 1992, hal. 92.
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

76 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


asumsi tertentu tidak terpenuhi.
Seperti yang ditunjukkan oleh seorang rekan kepada saya, ketika kita meninjau penelitian
yang dilakukan oleh orang lain, kita perlu mempertimbangkan apakah asumsi yang dibuat
oleh peneliti sesuai dengan data dan masalah. Terlalu sering, penelitian yang dipublikasikan
didasarkan pada asumsi implisit tentang masalah dan data yang kemungkinan besar tidak
benar dan yang menghasilkan perkiraan berdasarkan asumsi ini. Jelas, pembaca yang
berpengetahuan harus, menyadari masalah ini, mengadopsi sikap skeptis terhadap
penelitian. Oleh karena itu, asumsi yang tercantum dalam Tabel 3.4 memberikan daftar
periksa untuk memandu penelitian kami dan untuk mengevaluasi penelitian orang lain.
Dengan latar belakang ini, kami sekarang siap untuk mempelajari CLRM.
Secara khusus, kami ingin mengetahuisifat statistik dari OLS dibandingkan
dengan murni sifat numerik dibahas sebelumnya. Sifat statistik OLS
didasarkan pada asumsi CLRM yang telah dibahas dan diabadikan dalam
yang terkenalteorema Gauss-Markov. Tetapi sebelum kita beralih ke
teorema ini, yang memberikan pembenaran teoretis untuk popularitas OLS,
pertama-tama kita perlu mempertimbangkan presisi atau kesalahan
standar dari estimasi kuadrat terkecil.

3.3 KESALAHAN PRESISI ATAU STANDAR


ESTIMASI KOTAK TERKECIL
Dari Persamaan. (3.1.6) dan (3.1.7), terbukti bahwa estimasi kuadrat terkecil
adalah fungsi dari data sampel. Tetapi karena data cenderung berubah dari
sampel ke sampel, perkiraannya akan berubah ipso facto. Oleh karena itu, yang
dibutuhkan adalah beberapa ukuran “keandalan” ataupresisi dari penduga β1
dan β2. Dalam statistik, ketepatan suatu perkiraan diukur dengan kesalahan
standarnya (se).12 Mengingat asumsi Gaussian, ditunjukkan pada Lampiran 3A,
Bagian 3A.3 bahwa kesalahan standar dari perkiraan OLS dapat diperoleh
sebagai berikut:

σ2
var (β2) = Σ
xSaya
2

σ
se (β2) = √Σ
xSaya
2
Σ
x2
var (β 1) = Σ Sayaσ 2
n x2
√ Σ Saya
x2
se (β1) = Σ Sayaσ
n x2
Saya

12 NS kesalahan standar tidak lain adalah standar deviasi dari distribusi sampling estimator,
dan distribusi sampling estimator hanyalah probabilitas atau distribusi frekuensi estimator, yaitu
distribusi himpunan nilai estimator yang diperoleh dari semua sampel yang mungkin dengan
ukuran yang sama dari populasi tertentu. Distribusi sampel digunakan untuk menarik kesimpulan
tentang nilai parameter populasi berdasarkan nilai penduga yang dihitung dari satu atau lebih
sampel. (Untuk detailnya, lihatAplikasi. A.)
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 77


(3.3.1)

(3.3.2)

(3.3.3)

(3.3.4)

di mana var = varians dan se = kesalahan standar dan di mana σ 2 adalah varians
konstan atau homoskedastis dari kamuSaya Asumsi 4.
Semua besaran yang masuk ke persamaan sebelumnya kecuali σ 2 dapat
diperkirakan dari data tersebut. Seperti ditunjukkan dalam Lampiran 3A, Bagian 3A.5, σ 2
sendiri diperkirakan dengan rumus berikut:
Σ
û
σ 2 = Saya2 (3.3.5) n - 2
di mana σ 2 adalah penaksir OLS dari yang benar tetapi tidak diketahui σ 2 dan
dimanaΣekspresi n - 2 dikenal sebagai jumlah derajat kebebasan (df), ûSaya2
menjadi jumlah dari residu kuadrat atau jumlah sisa kuadrat
(RSS).13 Σ Σ
Satu kali ûSaya 2 dikenal, σ 2 dapat dengan mudah dihitung. ûSaya 2sendiri dapat com-
diletakkan baik dari (3.1.2) atau dari ekspresi berikut (lihat Bagian 3.5
untuk buktinya):

Σ Σ ûΣSaya 2
kamu2 Saya - β2ˆ2 x 2(3.3.6)
Saya

Dibandingkan dengan Persamaan. (3.1.2), Persamaan. (3.3.6) mudah digunakan, karena tidak
memerlukan komputasiûSaya untuk setiap pengamatan meskipun perhitungan seperti itu akan
berguna dengan sendirinya (seperti yang akan kita lihat di Bab 11 dan 12).

Sejak Σ
xy
β2 = Σ ii xSaya2
Σ

13 Syarat jumlah derajat kebebasan berarti jumlah total pengamatan dalam sampel (= n)
dikurangi jumlah batasan atau batasan independen (linier) yang dikenakan padanya. Dengan kata
lain, itu adalah jumlah pengamatan independen dari total n pengamatan. Misalnya, sebelum RSS
(3.1.2) dapat dihitung,β1 dan β2 harus diperoleh terlebih dahulu. Oleh karena itu, kedua perkiraan
ini menempatkan dua batasan pada RSS. Oleh karena itu, ada n - 2, tidak n, pengamatan
independen untuk menghitung RSS. Mengikuti logika ini, dalam regresi tiga variabel RSS akan
memilikin - 3 df, dan untuk k-model variabel yang dimilikinya n - k df. Aturan umumnya adalah
ini: df = (n- jumlah parameter yang diperkirakan).
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

78 BAGIAN SATU: MODEL REGRESI PERSAMAAN TUNGGAL


ekspresi alternatif untuk komputasi û Saya 2 adalah

Σ Σ ( )
(3.3.7) û 2
Σ Sayaxy
Saya
kamu 2 Saya -
=
Saya2

Secara sepintas, perhatikan bahwa akar kuadrat positif dari σ 2 xSaya2

√Σ
û Saya
(3.3.8) σ= 2

n-2

dikenal sebagai kesalahan standar estimasi atau kesalahan standar regresi (se). Ini
hanyalah standar deviasi dari kamu nilai tentang garis regresi yang diperkirakan dan sering
"kesesuaian" dari garis regresi yang diperkirakan, topik yang dibahas dalam
Bagian 3.5.
Sebelumnya kami mencatat bahwa, mengingat xSaya , σ 2 mewakili varians (bersyarat) dari
keduanya kamuSaya dan kamuSaya . Oleh karena itu, kesalahan standar estimasi juga dapat
disebut simpangan baku (bersyarat) dari kamuSaya dan kamuSaya . Tentu saja, seperti
biasa,
σ kamu 2dan σkamu mewakili, masing-masing, varians tak bersyarat dan uncondi-
standar deviasi nasional dari kamu.
Perhatikan fitur varians berikut (dan karena itu kesalahan standar) dari: β1 dan
β2.
1. NSΣe varian dari β2 berbanding lurus dengan σ 2 tapi berbanding terbalik
nasional untuk xSaya 2 . Artinya, diberikan σ 2, semakin besar variasi dalam x nilai-nilai,
semakin kecil varians dari β2 dan karenanya semakin besar presisi yang β2
dapat diperkirakan. Singkatnya, diberikanσ 2, jika ada variasi substansial dalam x nilai
(ingat Asumsi 8), β2 bisa diukurΣ d lebih akurat dari
ketika xSaya tidak berbeda secara substansial. Juga, diberikan xSaya 2 , semakin besar
variasiketurunan dari σ 2, semakin besar varians dari β2. TidakΣ te itu sebagai ukuran
sampel n increases, the number of terms in the sum, xi 2, will increase. As n
increases, the precision with which β2 can be estimated also incre∑ases.
(Why?)
2. The variance of β̂1 ∑ is directly proportional to σ 2 and X2i but
inversely proportional to xi 2and the sample size n.
3. Since β̂1 and β̂2 are estimators, they will not only vary from sample to
sample but in a given sample they are likely to be dependent on each other,
this dependence being measured by the covariance between them. It is shown
in Appendix 3A, Section 3A.4 that
Gujarat: Dasar I. Tunggal−Persamaan 3. Dua Variabel © McGraw−Bukit

Ekonometrika, Keempat Model Regresi Model Regresi: The Perusahaan, 2004

Edisi Masalah Estimasi

BAB TIGA: MODEL REGRESI DUA VARIABEL 79

cov (β̂ 1, β̂ 2) = −X̄ var (β̂ 2)


()
σ 2
= −X̄ ∑
xi2
(3.3.9)
Gujarati: Basic I. Single−Equation 3. Two−Variable © The McGraw−Hill
Econometrics, Fourth Regression Models Regression Model: The Companies, 2004

Edition Problem of Estimation

80
CHAPTER THREE: TWO-VARIABLE REGRESSION MODEL 79

Since var (β̂2) is always positive, as is the variance of any variable, the nature
of the covariance between β̂1 and β̂2 depends on the sign of X̄. If X̄ is positive,
then as the formula shows, the covariance will be negative. Thus, if the slope
coefficient β2 is overestimated (i.e., the slope is too steep), the intercept
coefficient β1 will be underestimated (i.e., the intercept will be too small).
Later on (especially in the chapter on multicollinearity, Chapter 10), we will
see the utility of studying the covariances between the estimated regression
coefficients.

How do the variances and standard errors of the estimated regression


coefficients enable one to judge the reliability of these estimates? This is a
problem in statistical inference, and it will be pursued in Chapters 4 and 5.

3.4 PROPERTIES OF LEAST-SQUARES ESTIMATORS: THE


GAUSS–MARKOV THEOREM14
As noted earlier, given the assumptions of the classical linear regression
model, the least-squares estimates possess some ideal or optimum
properties. These properties are contained in the well-known Gauss–Markov
theorem. To understand this theorem, we need to consider the best linear
unbiasedness property of an estimator.15 As explained in Appendix A, an
estimator, say the OLS estimator β̂2, is said to be a best linear unbiased
estimator (BLUE) of β2 if the following hold:
1. It is linear, that is, a linear function of a random variable, such
as the dependent variable Y in the regression model.
2. It is unbiased, that is, its average or expected value, E(β̂2), is
equal to the true value, β2.
3. It has minimum variance in the class of all such linear unbiased
estimators; an unbiased estimator with the least variance is known as an
efficient estimator.

In the regression context it can be proved that the OLS estimators are
BLUE. This is the gist of the famous Gauss–Markov theorem, which can be
stated as follows:

Gauss–Markov Theorem: Given the assumptions of the classical linear regression model, the
least-squares estimators, in the class of unbiased linear estimators, have minimum variance,
that is, they are BLUE.

The proof of this theorem is sketched in Appendix 3A, Section 3A.6. The
14 Although known as the Gauss–Markov theorem, the least-squares approach of Gauss
antedates (1821) the minimum-variance approach of Markov (1900).
15 The reader should refer to App. A for the importance of linear estimators as well as for a
general discussion of the desirable properties of statistical estimators.
Gujarati: Basic I. Single−Equation 3. Two−Variable © The McGraw−Hill
Econometrics, Fourth Regression Models Regression Model: The Companies, 2004

Edition Problem of Estimation

full import of the Gauss–Markov theorem will become clearer as we move


PART ONE: SINGLE-EQUATION REGRESSION MODELS

(b ) Sampling distribution of β * 2

β2

β*
2

β2, β*

β2
E (β2) = β2
(a ) Sampling distribution of β2

β*
2
E (β*2) = β2
β2 2
FIGURE 3.8 Sampling distribution of OLS estimator β̂2 and alternative estimator β∗ 2. (c)
Sampling distributions of β b22 and bβ*2

along. It is sufficient to note here that the theorem has theoretical as well as
practical importance.16
16 For example, it can be proved that any linear combination of the β’s, such as (β1 − 2β2), can
be estimated by (β̂1 − 2β̂2), and this estimator is BLUE. For details, see Henri Theil, Introduction
to Econometrics, Prentice-Hall, Englewood Cliffs, N.J., 1978, pp. 401–402. Note a technical point
about the Gauss–Markov theorem: It provides only the sufficient (but not necessary) condition for
OLS to be efficient. I am indebted to Michael McAleer of the University of Western Australia for
Gujarati: Basic I. Single−Equation 3. Two−Variable © The McGraw−Hill
Econometrics, Fourth Regression Models Regression Model: The Companies, 2004

Edition Problem of Estimation

82
What all this means can be explained with the aid of Figure 3.8. In Figure
3.8(a) we have shown the sampling distribution of the OLS estimator β̂2,
that is, the distribution of the values taken by β̂2 in repeated sampling
experiments (recall Table 3.1). For convenience we have assumed
β̂2 to be distributed symmetrically (but more on this in Chapter 4). As the
figure shows, the mean of the β̂2 values, E(β̂2), is equal to the true β2. In this
situation we say that β̂2 is an unbiased estimator of β2. In Figure 3.8(b) we
have shown the sampling distribution of β∗ 2 , an alternative estimator of β2
CHAPTER THREE: TWO-VARIABLE REGRESSION MODEL 81

obtained by using another (i.e., other than OLS) method. For convenience,
assume that β*2, like β̂2, is unbiased, that is, its average or expected value is
equal to β2. Assume further that both β̂2 and β* 2 are linear estimators,
that is, they are linear functions of Y. Which estimator, β̂2 or β* 2, would
you choose? To answer this question, superimpose the two figures, as in
Figure 3.8(c).
It is obvious that although both β̂2 and β* 2 are unbiased the distribution of
β*2 is more diffused or widespread around the mean value than the distribution of
β̂2. In other words, the variance of β* 2 is larger than the variance of β̂2.
Now given two estimators that are both linear and unbiased, one would
choose the estimator with the smaller variance because it is more likely to be
close to β2 than the alternative estimator. In short, one would choose the
BLUE estimator.
The Gauss–Markov theorem is remarkable in that it makes no assumptions
about the probability distribution of the random variable ui , and therefore of
Yi (in the next chapter we will take this up). As long as the assumptions of
CLRM are satisfied, the theorem holds. As a result, we need not look for
another linear unbiased estimator, for we will not find such an estimator
whose variance is smaller than the OLS estimator. Of course, if one or more of
these assumptions do not hold, the theorem is invalid. For example, if we
consider nonlinear-in-the-parameter regression models (which are discussed
in Chapter 14), we may be able to obtain estimators that may perform better
than the OLS estimators. Also, as we will show in the chapter on
heteroscedasticity, if the assumption of homoscedastic variance is not
fulfilled, the OLS estimators, although unbiased and consistent, are no longer
minimum variance estimators even in the class of linear estimators.
The statistical properties that we have just discussed are known as finite
sample properties: These properties hold regardless of the sample size on
which the estimators are based. Later we will have occasions to consider the
asymptotic properties, that is, properties that hold only if the sample size is
very large (technically, infinite). A general discussion of finite-sample and
large-sample properties of estimators is given in Appendix A.

bringing this point to my attention.


Gujarati: Basic I. Single−Equation 3. Two−Variable © The McGraw−Hill
Econometrics, Fourth Regression Models Regression Model: The Companies, 2004

Edition Problem of Estimation

3.5 THE COEFFICIENT OF DETERMINATION r 2: A


MEASURE OF “GOODNESS OF FIT”
Thus far we were concerned with the problem of estimating regression
coefficients, their standard errors, and some of their properties. We now
consider the goodness of fit of the fitted regression line to a set of data; that
is, we shall find out how “well” the sample regression line fits the data. From
Figure 3.1 it is clear that if all the observations were to lie on the regression
line, we would obtain a “perfect” fit, but this is rarely the case. Generally, there
will be some positive ûi and some negative ûi . What we hope for is that these
residuals around the regression line are as small as possible. The coefficient
of determination r 2 (two-variable case) or R2 (multiple regression) is a
summary measure that tells how well the sample regression line fits the data.

Anda mungkin juga menyukai