Anda di halaman 1dari 23

EKONOMETRIKA (EKI304 B1)

MULTIPLE REGRESSION ANALYSIS: OLS ASYMPTOTIC


Dosen Pengampu: Prof. Dr. Ida Ayu Nyoman Saskara, M.Si.

OLEH:
KELOMPOK 6

Ni Kadek Gita Dwipayani Surya (2207511106)


Flavia Eugenia (2207511107)
Ni Luh Putu Eka Prasetia Dewi (2207511108)

PROGRAM STUDI SARJANA EKONOMI PEMBANGUNAN


FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS UDAYANA
JIMBARAN
2023
KATA PENGANTAR

Puji serta syukur kami panjatkan ke hadirat Tuhan Yang Maha Esa karena hanya atas
Rahmat-Nya-lah kami dapat menyelesaikan makalah yang berjudul “ Multiple Regression
Analysis: OLS Asymptotic” dengan baik dan tepat waktu. Dalam kesempatan ini juga kami
ingin mengucapkan terima kasih kepada Ibu Prof. Dr. Dra. Ida Ayu Nyoman Saskara, M.Si.
selaku dosen pengampu mata kuliah Ekonometrika yang telah membimbing kami dalam
penulisan makalah ini. Selain itu, kami juga ingin mengucapkan terima kasih kepada seluruh
pihak yang telah membantu kami dalam pembuatan makalah ini. Kami berharap makalah ini
dapat memberikan manfaat yang sebesar besarnya kepada seluruh pembaca mengenai topik
yang dibahas yaitu kosistensi, normalitas asimtotik dan inferensi sampel yang besar, dan
efisiensi OLS asimtotik. Dalam penyusunannya, kami menyadari masih banyak terdapat
kesalahan dan kekurangan, baik dalam struktur maupun bahasa, oleh karenanya kami
memohon saran dan kritik yang membangun dari para pembaca sehingga kedepannya kami
dapat menulis makalah lebih baik pada kesempatan berikutnya.

Jimbaran, 20 Oktober 2023

Kelompok 6

i
DAFTAR ISI

KATA PENGANTAR ................................................................................................................ i

DAFTAR ISI..............................................................................................................................ii

BAB I PENDAHULUAN .......................................................................................................... 1

1.1 Latar Belakang ................................................................................................................. 1

1.2 Rumusan Masalah ............................................................................................................ 1

1.3 Tujuan Penulisan .............................................................................................................. 1

BAB II PEMBAHASAN ........................................................................................................... 3

2.1 Konsistensi ....................................................................................................................... 3

2.2 Normalitas Asimtotik dan Inferensi Sampel yang Besar ................................................. 8

2.3 Efisiensi Asimtotik dari OLS ......................................................................................... 16

BAB III PENUTUP ................................................................................................................. 19

3.1 Kesimpulan .................................................................................................................... 19

DAFTAR PUSTAKA .............................................................................................................. 20

ii
BAB I

PENDAHULUAN
1.1 Latar Belakang
Analisis regresi berganda adalah salah satu teknik statistik yang paling umum
digunakan dalam ilmu sosial, ekonomi, ilmu politik, dan berbagai disiplin ilmu lainnya.
Metode analisis ini memungkinkan peneliti untuk mengidentifikasi hubungan antara satu atau
lebih variabel independen dengan variabel dependen, dan dalam beberapa kasus, untuk
memprediksi hasil berdasarkan variabel-variabel tersebut. Salah satu pendekatan yang paling
umum digunakan dalam analisis regresi berganda adalah Metode Kuadrat Terkecil (Ordinary
Least Squares - OLS), yang bertujuan untuk menemukan garis regresi terbaik yang sesuai
dengan data.
OLS adalah metode yang cukup intuitif, namun memiliki dasar matematis yang kuat.
Dalam konteks analisis regresi berganda, OLS berusaha untuk menemukan koefisien regresi
yang meminimalkan jumlah kuadrat dari selisih antara nilai-nilai observasi sebenarnya dengan
nilai-nilai yang diprediksi oleh model regresi. Hasil estimasi OLS ini sangat berguna untuk
menjelaskan hubungan antara variabel independen dan variabel dependen, serta
memungkinkan untuk membuat prediksi yang relevan. Salah satu aspek penting yang perlu
dipahami dalam analisis regresi adalah sifat asimptotik dari OLS. Asimptotik adalah konsep
yang berkaitan dengan perilaku suatu estimator atau statistik ketika ukuran sampelnya
mendekati tak terbatas. Dalam konteks OLS, ini berarti ketika jumlah pengamatan yang
digunakan dalam analisis semakin besar, estimator OLS akan mendekati karakteristik
asimptotik yang penting.
Dengan demikian, paper ini bertujuan untuk memberikan pemahaman yang lebih
mendalam tentang sifat asimptotik OLS dan implikasinya dalam analisis regresi berganda.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dijelaskan di atas maka rumusan masalah yang
didapat yaitu sebagai berikut:
1. Apa dan bagaimana konsistensi?
2. Apa dan bagaimana normalitas asimtotik dan inferensi sampel yang besar?
3. Apa dan bagaimana efisiensi OLS asimtotik?
1.3 Tujuan Penulisan
Dari rumusan masalah di atas, ditemukan beberapa tujuan dalam penyusunan makalah
ini, diantaranya:

1
1. Untuk mengetahui dan memahami mengenai konsistensi
2. Untuk mengetahui dan memahami mengenai normalitas asimtotik dan inferensi sampel
yang besar
3. Untuk mengetahui dan memahami mengenai efisiensi OLS asimtotik

2
BAB II

PEMBAHASAN

Analisis regresi berganda adalah suatu alat analisis peramalan untuk membuktikan ada
atau tidaknya hubungan fungsi antara dua variabel bebas atau lebih dengan satu variabel terikat.
Dalam analisis regresi berganda ada yang namanya metode OLS ( Ordinary Least Square).
Metode ini digunakan untuk meminimalisir jumlah kuadrat kesalahan untuk mengestimasi
suatu garis regresi.Fakta bahwa OLS adalah estimasitor yang memiliki variasi yang minimum
diantara estimator-estimator tak bias lainnya, sehingga estimasitor OLS disebut sebagai
estimator tak bias linear terbaik atau dalam hal ini disebut BLUE (Best Linear Unbiased
Estimator). Ini merupakan asumsi yang dijelaskan oleh Gaus Markov.
Pada asumsi linear klasik menyatakan bahwa error term u terdistribusi secara normal
dan tidak tergantung pada variabel penjelas. Hal ini memungkinkan untuk mendapatkan
distribusi sampling yang tepat dari estimasitor OLS. Estimasitor OLS memiliki distribusi
sampling yang normal.Selain sifat sampel terbatas penting untuk mengetahui sifat asimptotik
atau sifat sampel besar dari penaksir dan statistik uji. Sifat-sifat ini ditentukan oleh ukuran
sampel tertentu. Namun, sifat ini ditentukan saat ukuran sampel bertambah tanpa batas.
Untungnya dengan asumsi yang telah dibuat, OLS memiliki sifat sampel besar yang
memuaskan.
2.1 Konsistensi
Ada beberapa cara yang berbeda untuk menggammbarkan konsistensi. Untuk lebih
konkritnya, biarkan 𝛽̂𝑗 menjadi estimator OLS dari 𝛽̂𝑗 untuk beberapa j. Untuk setiap n, 𝛽̂𝑗
memiliki distribusi probabilitas (merepresentasikan nilai-nilai yang mungkin dalam sampel
acak yang berbeda dengan ukuran n). Jika penaksir ini konsisten, maka distribusi 𝛽̂𝑗 menjadi
semakin rapat disekitar 𝛽̂𝑗 seiring dengan bertambahnya ukuran sampel. Ketika n cenderung
menuju tak terhingga, distribusi 𝛽̂𝑗 runtuh ke titik tunggal 𝛽̂𝑗 . Akibatnya, ini berarti bahwa kita
dapat membuat estimatpor kita mendekati 𝛽̂𝑗 secara sembarang jika kita dapat mengumpulkan
sebanyak mungkin data yang kita inginkan. Konvergensi ini di ilustrasikan pada Gambar 5.1.
2.1.1 Konsistensi OLS
Berdasarkan Asumsi MLR.1 hingga MLR.4, estimator OLS β̂ j konsisten untuk β j
untuk semua

3
j = 0, 1,… k

Bukti umum dari hasil ini paling mudah dikembangkan dengan menggunakan
metode aljabar matriks. Tetapi kita dapat membuktikan Teorema 5.1 tanpa kesulitan dalam
kasus model regresi sederhana. Kita fokus pada penaksir kemiringan, 𝛽̂1
Pembuktiannya dimulai dengan cara yang sama seperti pembuktian ketidakberpihakan: kita
menuliskan rumus untuk 𝛽̂1 , dan lalu masukkan 𝑦𝑖 = 𝛽0 + 𝛽𝑖1 + 𝑢𝑖 :

5.2

di mana membagi baik pembilang dan penyebut dengan n tidak mengubah interpretasi tetapi
memungkinkan kita untuk langsung menerapkan aturan dalam jumlah besar. Dapat
disimpulkan bahwa pembilang dan penyebut memusatkan probabilitas ke jumlah populasi,
Cov(𝑥1,, u) dan Var (𝑥1,). Dimana Var (𝑥1,) ≠ 0 yang diasumsikan MLR.3

5.3

Sebagai masalah teknis, untuk memastikan bahwa batas probabilitas ada, kita harus
menganggap Var (𝑥1,) < ∞ dan Var (𝑥1,) < ∞ (yang berarti distribusi probabilitasnya tidak terlalu
tersebar), tetapi kita tidak akan khawatir tentang kasus-kasus di mana asumsi ini mungkin
gagal.

Argumen sebelumnya, dan persamaan (5.3) secara khusus, menunjukkan bahwa OLS
konsisten dalam kasus regresi sederhana jika kita hanya mengasumsikan korelasi nol. Ini juga
berlaku dalamkasus umum. Kami sekarang menyatakan ini sebagai asumsi.
Asumsi MLR.4’ Rata – rata nol dan korelasi nol
E (u) = 0 dan Cov(xi, u) = 0 , untuk j = 1,2,…k

4
Salah satu cara untuk mengkarakteristikan asumsi rata - rata bersyarat nol, E (u | 𝑥1,
,…..𝑥𝑘), apakah setiap fungsi dari variabel penjelas tidak berkorelasi dengan u. Asumsi MLR.4
’hanyamensyaratkan bahwa setiap 𝑥𝑗 tidak berkorelasi dengan u (dan bahwa u memiliki rata
- rata nol dalam populasi).

Jika kita telah menggunakan Asumsi MLR.4 sampai sekarang maka ada dua alasan
yang menyatakan hal tersebut. Pertama, OLS ternyata bias (tetapi konsisten) di bawah Asumsi
MLR.4 'jika, E (u | 𝑥1, ,….. 𝑥𝑘), tergantung pada salah satu 𝑥𝑗 . Karena sebelumnya kami telah
memfokuskan pada sampel terbatas, atau tepatnya, properti sampling dari estimator OLS,
kami membutuhkan asumsi rata - rat bersyarat nol yang lebih kuat.

Kedua, dan mungkin yang lebih penting, adalah bahwa asumsi rata - rata bersyarat nol
berarti kitatelah memodelkan fungsi regresi populasi (PRF) dengan tepat. Artinya, di bawah
Asumsi MLR.4kita bisa menulis

E (y | 𝑥1, ,….. 𝑥𝑘) = β0 + β1 𝑥1, +….. + βk 𝑥𝑘

Dengan kata lain, sebagian besar waktu kita berharap untuk mendapatkan perkiraan
PRF yang baik, sehingga asumsi nol bersyarat adalah alami. Namun demikian, asumsi
korelasi nol yang lemah ternyata berguna dalam menafsirkan estimasi OLS dari model linier
sebagai memberikanpendekatan linear terbaik ke PRF.

2.1.2 Menurunkan Inkonsistensi dalam OLS


Sama seperti kegagalan E (u | 𝑥1, ,….. 𝑥𝑘) = 0 menyebabkan bias pada estimator OLS,
korelasi antara u dan apapun dari 𝑥1,, 𝑥2,, ,….. 𝑥𝑘 umumnya menyebabkan semua estimator
OLS menjadi tidak konsisten. Pengamatan sederhana namun penting ini sering diringkas
sebagai: jika kesalahan berkorelasi dengan salah satu variabel bebas, maka OLS bias dan tidak
konsisten. . Hal ini sangat disayangkan karena berarti ada bias tetap ada seiring bertambahnya
ukuran sampel.
Pada kasus regresi sederhana, kita dapat memperoleh ketidakkonsistenan yang menyatakan
̂1 (kadang-kadang
apakah u dan x1 tidak berkorelasi atau tidak. Ketidakkonsistenan dalam 𝛽
secara longgar disebut bias asimtotik) adalah
̂1 - 𝛽1 = Cov(x1,u)/Var(x1)
plim 𝛽 5.4

Karena Var (𝑥1,) = 0, inkonsistensi dalam 𝛽̂1 positif jika 𝑥1, dan u berkorelasi positif,

5
dan inkonsistensi negatif jika 𝑥1, dan u berkorelasi negatif. Jika kovarian antara 𝑥1, dan u
relatif kecil terhadap varians di 𝑥1,, ketidakkonsistenan dapat diabaikan; sayangnya, kita
bahkan tidak dapat memperkirakan seberapa besar kovarian karena u tidak teramati
Kita dapat menggunakan (5.4) untuk mendapatkan analog asimtotik dari bias variabel
yang dihilangkan (lihat Tabel 3.2 di Bab 3). Misalkan model yang benar

y = β0 + β1 𝑥1, +β2 𝑥2, + v


memenuhi empat asumsi Gauss-Markov yang pertama. Maka v memiliki rata - rata nol dan
tidak berkorelasi dengan 𝑥1, dan 𝑥2, . Jika 𝛽̂0, 𝛽̂1 dan 𝛽̂2 menunjukkan estimator OLS dari
regresi y pada 𝑥1,dan 𝑥2, maka Teorema 5.1 menyiratkan bahwa estimator ini konsisten. Jika
kita menghilangkan 𝑥2 dari regresi dan melakukan regresi sederhana y pada 𝑥1 , maka u
=𝛽2 𝑥2 + v. Biarkan 𝛽1 menunjukkan estimator kemiringan regresi sederhana kemudian,

plim 𝛽̃1 =𝛽1 +𝛽2 𝛿1 5.5


dimana
𝛿1 = Cov ( 𝑥1, 𝑥2 ) / Var (𝑥1 ) 5.6
Jadi, untuk tujuan praktis, kita dapat melihat ketidakkonsistenan sebagai sama dengan
bias. Perbedaannya adalah bahwa ketidakkonsistenan dinyatakan dalam hal varians populasi
𝑥1, dan kovarian populasi antara 𝑥1, dan 𝑥2,, sedangkan bias didasarkan pada sampel mereka
(karena kitamengkondisikan pada nilai 𝑥1, dan 𝑥2, dalam sampel).
Jika x1 dan x2 tidak berkorelasi (dalam populasi), maka 𝛿1 = 0 dan 𝛽̃1 adalah
penaksir yang konsisten dari 𝛽1 (meskipun belum tentu tidak bias). Jika x2 memiliki pengaruh
parsial yang positif terhadap y, sehingga 𝛽2 > 0, dan x1 dan x2 berkorelasi positif, sehingga 𝛿1 >
0, maka inkonsistensi dalam 𝛽̃1 adalah positif, dan seterusnya. Kita bisa mendapatkan arah
inkonsistensi atau bias asimtotik dari Tabel 3.2. Jika kovarians antara x1 dan x2 kecil relatif
terhadap varians dari x1 , maka inkonsistensi dapat menjadi kecil.

Contoh 2.1 Harga Rumah dan Jarak dari Insenerator

Misalkan y menyatakan harga sebuah rumah (harga),membiarkan x1 menunjukkan


jarak dari rumah ke tempat pembakaran sampah baru (jarak), dan biarkan x2 menunjukkan
"kualitas" rumah (kualitas). Variabel kualitas dibiarkan tidak jelas sehingga dapat
mencakup hal-hal seperti ukuran rumah dan luas lahan, jumlah kamar tidur dan kamar
mandi, serta hal-hal yang tidak berwujud seperti daya tarik lingkungan sekitar. Jika
insinerator menekan harga rumah, maka 𝛽1 harus positif: semua hal dianggap sama,
rumah yang jauh dari tempat pembakaran sampah akan lebih bernilai. Menurut definisi,
𝛽2 adalah positif karena rumah dengan kualitas lebih tinggi akan dijual dengan harga
6
lebih tinggi, jika faktor-faktor lain dianggap sama. Jika insinerator dibangun lebih jauh,
rata-rata dari rumah-rumah yang lebih baik, maka jarak dan kualitas berkorelasi positif, dan
sebagainya 𝛿1 > 0. Regresi sederhana dari harga terhadap jarak [atau log(harga) terhadap
log(jarak)] akan cenderung melebih-lebihkan dampak incinerator: 𝛽1 + 𝛽2 𝛿1 > 𝛽1
Contoh halaman 163 C1

Gunakan data dalam Wage untuk latihan ini.


(i) Memperkirakan persamaan

Wage = 𝛽0 + 𝛽1educ + 𝛽2exper + 𝛽3tenure + u


Jawab:
(i) Memperkirakan persamaan

Wage = 𝜷𝟎 + 1 𝜷𝟏 educ + 𝜷𝟐 exper + 𝜷𝟑 tenure + u

• Wage adalah variabel dependen, yaitu variabel yang dipengaruhi oleh variabel
lain.
• 𝜷𝟎 adalah konstanta, yaitu nilai upah ketika variabel pendidikan, pengalaman
kerjasama dan masa jabatan sama dengan nol.
• 𝜷𝟏 adalah koefisien regresi untuk variabel pendidikan, yaitu nilai perubahan upah
per tahun pendidikan.
• 𝜷𝟐 adalah koefisien regresi untuk variabel pengalaman kerja, yaitu nilai
perubahan upah per tahun pengalaman kerja.
• 𝜷𝟑 adalah koefisien regresi untuk variabel tenure, yaitu nilai perubahan upah per
tahun masa jabatan.
• u adalah error term, yaitu nilai yang tidak dapat dijelaskan oleh model regresi.
Kesalahan pengganggu u mewakili faktor-faktor lain yang memengaruhi upah,
seperti keterampilan, bakat, dan kondisi pasar tenaga kerja. Faktor-faktor ini sulit
untuk diukur secara kuantitatif,sehingga mereka dimasukkan ke dalam kesalahan
pengganggu.
• Persamaan yang digunakan adalah Wage = 𝛽0 + 𝛽1educ + 𝛽2exper + 𝛽3tenure +
u

Wage = 1,1256 + 0,2663educ + 0,5158exper + 0,8542tenure + u


Berdasarkan hasil estimasi, dapat disimpulkan bahwa:

• Tingkat pendidikan (educ) berpengaruh positif terhadap upah. Artinya, semakin


tinggi tingkat pendidikan karyawan, semakin tinggi upah yang diterima.
7
• Pengalaman kerja (exper) berpengaruh positif terhadap upah. Artinya, semakin
lamapengalaman kerja karyawan, semakin tinggi upah yang diterima.
• Masa Jabatan (tenure) berpengaruh positif terhadap upah. Artinya, semakin lama
masa jabatan karyawan, semakin tinggi upah yang diterima.
Interpretasi:

• Nilai = 1,1256 memiliki arti bahwa upah rata-rata karyawan per tahun sebesar 1,1256
juta rupiah, bila tingkat pendidikan nol dan pengalaman kerja nol (tetap).
• Nilai 𝜷𝟏 educ = 0,2663 memiliki arti bahwa bila tingkat pendidikan dari karyawan
tersebut meningkat satu tahun, maka rata – rata upah yang diterima oleh karyawan
tersebut akan naik sebesar 0,2663 juta rupiah jika pengalaman kerja tetap.

• Nilai 𝜷𝟐 exper = 0,5158 memiliki arti bahwa bila pengalaman kerja dari karyawan
tersebutmeningkat satu tahun, maka rata – rata upah karyawan naik sebesar 0,5158
juta rupiah jikatingkat pendidikan tetap.
• Nilai 𝜷𝟑 𝒕𝒆𝒏𝒖𝒓𝒆 = 0,8542 memiliki arti bahwa bila masa jabatan dari karyawan tersebut
meningkat satu tahun, maka rata – rata upah karyawan naik sebesar 0,8542 juta rupiah
jika tingkat pendidikan tetap.
2.2 Normalitas Asimtotik dan Inferensi Sampel yang Besar

Konsistensi estimator adalah properti penting, tetapi itu sendiri tidak memungkinkan
kita untuk melakukan inferensi statistik. Cukup mengetahui bahwa estimator semakin
mendekati nilai populasi karena ukuran sampel yang berkembang tidak memungkinkan kita
untuk menguji hipotesis tentang parameter. Untuk pengujian, kami membutuhkan distribusi
sampling dari estimator OLS. Berdasarkan asumsi model linier klasik MLR.1 sampai MLR.6,
Teorema 4.1 menunjukkan bahwa distribusi sampling adalah normal. Hasil ini adalah dasar
untuk menurunkan distribusi t dan F yang sering kita gunakan dalam ekonometri terapan.

Normalitas yang tepat dari estimator OLS sangat tergantung pada normalitas
distribusi kesalahan, u, dalam populasi. Jika kesalahan u1, u2, .... , un adalah penarikan acak
dari beberapa distribusi selain dari normal, β̂j tidak akan terdistribusi normal, yang berarti
bahwa statistik t tidak akan memiliki distribusi dan statistik F tidak akan memiliki F
distribusi. Ini adalah masalah yang berpotensi serius karena kesimpulan kami bergantung
pada kemampuan untuk mendapatkan nilai- nilai kritis atau nilai-p dari distribusi t atau F.

Ingat bahwa Asumsi MLR.6 setara dengan mengatakan bahwa distribusi y yang diberikan

8
𝑥1,, 𝑥2,,...., 𝑥𝑘 adalah normal. Karena y diamati dan u tidak, dalam penerapan tertentu, lebih
mudah untuk memikirkan apakah distribusi y mungkin normal. Bahkan, kami telah melihat
beberapa contoh di mana y pasti tidak dapat memiliki distribusi normal bersyarat. Sebuah
variabel acak terdistribusi secara normal terdistribusi secara simetris tentang rata - rata , dapat
mengambil nilai positif atau negatif, dan lebih dari 95% dari area di bawah distribusi berada
dalam dua standar deviasi

Kita tahu bahwa normalitas tidak memainkan peran dalam kekosongan OLS, juga
tidak mempengaruhi kesimpulan bahwa OLS adalah estimator linear terbaik yang tidak bias
di bawah asumsi Gauss-Markov. Tetapi kesimpulan pasti berdasarkan statistik t dan F
membutuhkan MLR.6. Apakah ini berarti bahwa, dalam analisis prate kami sebelumnya
dalam Contoh 4.6, kita harus meninggalkan statistik t untuk menentukan variabel mana yang
signifikan secara statistik? Untungnya, jawaban atas pertanyaan ini adalah tidak. Meskipun
yi tidak dari distribusi normal, kita dapat menggunakan teorema batas pusat dari Lampiran C
untuk menyimpulkan bahwa estimator OLS memenuhi normalitas asimtotik, yang berarti
mereka kira-kira berdistribusi normal dalam ukuran sampel yang cukup besar.

9
Teorema 5.2 normalitas asimtotik dari OLS
Dibawah asumsi Gauss – Markov MLR 1 melalui MLR 4
(i) √𝑛 (𝛽 - 𝛽 ) 𝑎 Normal (0, 𝜎2/𝑎2), dimana 𝜎2/𝑎2 > 0 adalah varian asimtotik dari √𝑛 (𝛽 -
𝑗 𝑗 𝑗 𝑗 𝑗
𝛽𝑗) ; untuk cakupak koefisien 𝑎2 = 𝑝𝑙𝑖𝑚 (𝑛−1Σ𝑛 𝑟̂2) dimana 𝑟̂2 adalah residual dari regresi
𝑗 𝑖=1 𝑖𝑗 𝑖𝑗
𝑥𝑗 dalam variabel bebas lainnya. Kami katakan bahwa 𝛽 berdistribusi normal secara asimtotik
𝑗

(lihat apendiks C)
(ii) 𝜎2 adalah estimator konsisten dari 𝜎 2 = 𝑉𝑎𝑟̂ (𝑢);
(iii) untuk setiap j
(𝛽 - 𝛽 ) / sd (𝛽 ) 𝑎 Normal (0,1)
𝑗 𝑗 𝑗

Dan
(𝛽 - 𝛽 ) / se (𝛽 ) 𝑎 Normal (0,1) [5.7]
𝑗 𝑗 𝑗

Bukti normalitas asimtotik agak rumit dan digambarkan dalam apendiks untuk kasus
regresi sederhana. Bagian (ii) mengikuti dari aturan dalam jumlah besar, dan bagian (iii)
mengikuti dari bagian (i) dan (ii) dan properti asimtotik yang dibahas dalam Lampiran C

Teorema 5.2 berguna karena normalitas Asumsi MLR.6 telah dijatuhkan; satu-
satunya pembatasan pada distribusi kesalahan adalah bahwa ia memiliki varians yang
terbatas, sesuatu yang akan selalu kita anggap. Kami juga mengasumsikan rata - rata nol
bersyarat (MLR.4) dan homoskedastisitas dari u (MLR.5).

Dalam mencoba memahami arti Teorema 5.2, penting untuk memisahkan gagasan
distribusi populasi dari istilah kesalahan, u, dan distribusi sampling dari 𝛽̂ 𝑗 sebagai ukuran
sampel yang tumbuh. Kesalahan yang umum adalah berpikir bahwa ada sesuatu yang terjadi
pada distribusi u— yaitu, ia semakin "mendekati" ke normal — ketika ukuran sampel
bertambah. Tetapi ingat bahwa distribusi populasi tidak dapat diubah dan tidak ada
hubungannya dengan ukuran sampel. Sebagai contoh, kami sebelumnya membahas narr86,
berapa kali seorang pemuda ditangkap selama tahun 1986. Sifat dari variabel ini — yang
dibutuhkan pada nilai-nilai bilangan bulat non- negatif yang kecil — tetap dalam populasi.
Apakah kita mengambil sampel 10 pria atau 1.000 pria dari populasi ini jelas tidak
berpengaruh pada distribusi populasi Apa yang dikatakan Theorem 5.2 adalah bahwa,
terlepas dari distribusi populasi u, estimator OLS, ketika distandarkan dengan benar,
memiliki perkiraan distribusi normal standar. Pendekatan ini muncul oleh teorema batas
10
pusat karena estimator OLS melibatkan — dengan cara yang rumit — penggunaan rata-rata
sampel. Secara efektif, urutan distribusi rata-rata dari kesalahan yang mendasarinya
mendekati normalitas untuk hampir semua distribusi populasi.

Bagaimana seharusnya kita menggunakan hasil dalam persamaan (5.7)? Mungkin


salah satu konsekuensinya adalah bahwa, jika kita akan menarik analisis sampel besar, kita
sekarang harus menggunakan distribusi normal standar untuk inferensi daripada distribusi t.
Tetapi dari perspektif praktis, sama sahnya dengan menulis

Persamaan (5.8) memberi tahu kita bahwa pengujian dan konstruksi interval
keyakinan dilakukan persis seperti di bawah asumsi model linier klasik. Ini berarti bahwa
analisis kami terhadap variabel terikat seperti prate dan narr86 tidak harus berubah sama
sekali jika asumsi Gauss-Markov berlaku: dalam kedua kasus, kami memiliki setidaknya
1.500 pengamatan, yang tentunya cukup untuk membenarkan teorema perkiraan batas pusat.

Jika ukuran sampel tidak terlalu besar, maka distribusi t dapat menjadi pendekatan
yang buruk untuk distribusi statistik t ketika u tidak terdistribusi normal. Sayangnya, tidak
ada resep umum tentang seberapa besar ukuran sampel yang harus sebelum pendekatan
cukup baik. Beberapa ahli ekonometri berpikir bahwa n = 30 memuaskan, tetapi ini tidak
cukup untuk semua distribusi yang mungkin dari u. Tergantung pada distribusi u, lebih
banyak pengamatan mungkin diperlukan sebelum teorema limit pusat memberikan
11
pendekatan yang berguna. Lebih lanjut, kualitas pendekatan tidak hanya bergantung pada n,
tetapi pada df, n - k - 1: Dengan lebih banyak variabel bebas dalam model, ukuran sampel
yang lebih besar biasanya diperlukan untuk menggunakan pendekatan t. Metode inferensi
dengan derajat kebebasan kecil dan kesalahan tidak normal berada di luar lingkup ini. Kami
hanya akan menggunakan statistik t seperti yang selalu kami miliki tanpa mengkhawatirkan
asumsi normalitas.

Sangat penting untuk melihat bahwa teorema 5.2 memang membutuhkan asumsi
homoskedastisitas (bersama dengan asumsi rata - rata nol bersyarat). Jika Var (y | x) tidak
konstan, statistik t biasa dan interval keyakinan tidak valid tidak peduli seberapa besar ukuran
sampel; teorema batas pusat tidak menjamin kita ketika membicarakan heteroskedastisitas.
Untuk alasan ini, kami mencurahkan seluruh Bab 8 untuk membahas apa yang dapat
dilakukan dengan adanya heteroskedastisitas.
Menjelajahi Lebih Lanjut 5.2
Dalam model regresi dengan ukuran sampel yang besar, apa itu interval keyakinan 95% untuk
𝛽 di bawah MLR.1 sampai MLR.5? Kami menyebutnya sebagai interval kepercayaan asimtotik.
𝑗

2
Salah satu kesimpulan dari Teorema 5.2 adalah bahwa 𝜎̂ adalah estimator
konsisten σ2; kita sudah tahu dari Teorema 3.3 bahwa 𝜎̂ 2
tidak terbiaskan untuk σ2 di bawah
asumsi Gauss-Markov. Konsistensi menyiratkan bahwa 𝜎̂ adalah estimator konsisten
dari σ, yang penting dalam membangun hasil normalitas asimtotik dalam persamaan (5.7).

12
Ketika u tidak terdistribusi normal, akar kuadrat dari (5.9) kadang-kadang disebut
kesalahan standar asimtotik, dan statistik t disebut statistik t asimtotik. Karena ini adalah
jumlah yang sama dengan yang kita bahas dalam Bab 4, kita hanya akan menyebut mereka
kesalahan standar dan statistik t, dengan pemahaman bahwa kadang-kadang mereka hanya
memiliki penyesuaian pada sampel besar. Sebuah komentar serupa berlaku untuk interval
keyakinan asimtotik yang dibangun dari kesalahan standar asimtotik.

Menggunakan argumen sebelumnya tentang varians yang diperkirakan, kita bisa menulis

13
Persamaan (5.10) hanyalah sebuah perkiraan, tetapi ini merupakan aturan praktis
yang berguna: kesalahan standar dapat diharapkan menyusut pada tingkat yang merupakan
kebalikan dari akar kuadrat dari ukuran sampel.

Normalitas asimtotik dari estimator OLS juga menyiratkan bahwa statistik F


memiliki perkiraan distribusi F dalam ukuran sampel yang besar. Jadi, untuk menguji
pembatasan pengecualian atau beberapa hipotesis lainnya, tidak ada perubahan dari apa yang
telah kita lakukan sebelumnya.

2.2 a Uji Sampel Besar Lainnya: Statistik Lagrange Multiplier

Begitu kita memasuki bidang analisis asimtotik, statistik uji lain dapat digunakan
untuk pengujian hipotesis. Untuk sebagian besar tujuan, ada sedikit alasan untuk melampaui
statistik t dan F biasa: seperti yang baru kita lihat, statistik ini memiliki pembenaran sampel
besar tanpa asumsi normalitas. Namun demikian, kadang-kadang berguna untuk memiliki
cara lain untuk menguji pembatasan pengecualian ganda, dan sekarang kita mencakup
statistik Lagrange multiplier (LM), yang telah mencapai popularitas dalam ekonometri
modern.

Nama "statistik multiplier Lagrange" berasal dari optimasi terbatas, sebuah topik di
luar lingkup teks ini. [Lihat Davidson dan MacKinnon (1993).] Statistik skor nama — yang
juga berasal dari pengoptimalan menggunakan kalkulus — juga digunakan. Untungnya,
dalam kerangka regresi linier, mudah untuk memotivasi statistik LM tanpa mempelajari
matematika yang rumit

Bentuk statistik LM yang kami peroleh di sini bergantung pada asumsi Gauss-
Markov, asumsi yang sama yang membenarkan statistik F dalam sampel besar. Kami tidak
membutuhkan asumsi normalitas.

Untuk mendapatkan statistik LM, pertimbangkan model regresi berganda yang biasa
dengan variabel-variabel bebas:

𝑦 = 𝛽0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑘𝑥𝑘 + 𝑢 [5.11]

Kami ingin menguji apakah, katakanlah, q terakhir dari variabel-variabel ini


semuanya memiliki parameter populasi nol: hipotesis nol adalah

𝐻0: 𝛽𝑘−𝑞+1 = 0 … 𝛽𝑘 = 0 [5.12]

yang menempatkan pembatasan pengecualian pada model (5.11). Seperti halnya


pengujian F, alternatif untuk (5.12) adalah bahwa setidaknya salah satu parameter berbeda
14
dari nol.

Statistik LM membutuhkan estimasi model terbatas saja. Dengan demikian, asumsikan


bahwa kita telah menjalankan regresi

𝑦 = 𝛽͂0 + 𝛽1𝑥1 + ⋯ + 𝛽𝑘͂ −𝑞𝑥𝑘−𝑞 + 𝑢͂ [5.13]

di mana "~" menunjukkan bahwa perkiraan berasal dari model yang dibatasi. Secara khusus,

𝑢͂ menunjukkan residu dari model terbatas. (Seperti biasa, ini hanya singkatan untuk
menunjukkan bahwa kita mendapatkan residu yang dibatasi untuk setiap pengamatan dalam
sampel.)

Jika variabel yang dihilangkan 𝑥𝑘−𝑞+1 melalui 𝑥𝑘 benar-benar memiliki koefisien


populasi nol , maka, setidaknya kira-kira, u tidak berkorelasi dengan masing-masing variabel
dalam sampel. Hal ini menunjukkan menjalankan regresi residual ini pada variabel-variabel
bebas yang dikecualikan di bawah H0, yang hampir sama dengan apa yang dilakukan oleh
tes LM. Namun, ternyata, untuk mendapatkan statistik uji yang dapat digunakan, kita harus
memasukkan semua variabel bebas dalam regresi. (Kita harus menyertakan semua regresi
karena, secara umum, para regresor yang dihilangkan dalam model terbatas berkorelasi
dengan para regresor yang muncul dalam model terbatas.) Jadi, kita menjalankan regresi

𝑢͂ 𝑜𝑛 𝑥1, 𝑥2, … . , 𝑥𝑘 [5.14]

Ini adalah contoh dari regresi tambahan, regresi yang digunakan untuk
menghitung statistik uji tetapi yang koefisiennya tidak memiliki daya tarik yang langsung

Bagaimana kita bisa menggunakan output regresi dari (5.14) untuk menguji (5.12)?
Jika (5.12) benar, R-kuadrat dari (5.14) harus "dekat" ke nol, dikenakan kesalahan sampling,
karena 𝑢͂ akan kurang berkorelasi dengan semua variabel bebas. Pertanyaannya, pada semua
pengujian hipotesis, adalah bagaimana menentukan kapan statistik cukup besar untuk
menolak hipotesis nol pada tingkat signifikansi yang dipilih. Ternyata, di bawah hipotesis
nol, ukuran sampel dikalikan dengan R-kuadrat biasa dari regresi tambahan (5.14)
didistribusikan secara asimtotik sebagai variabel acak chi-square dengan q derajat kebebasan.
Ini mengarah pada prosedur sederhana untuk menguji signifikansi bersama dari satu set
variabel bebas q.

Statistik Lagrange Multiplier untuk Batasan Pengecualian:


i. Regresikan y pada kumpulan variabel bebas yang terbatas dan simpan residu, 𝑢
15
ii. Regresikan pada semua variabel bebas dan dapatkan R-squared, katakanlah,
𝑅𝑢2 (untuk membedakannya dari R-squared yang diperoleh dengan y sebagai variabel
terikat).
iii. Hitunglah LM = 𝑛𝑅𝑢2 [ukuran sampel dikalikan R-kuadrat yang diperoleh dari langkah
(ii)
iv. Bandingkan LM dengan nilai kritis yang sesuai, c, dalam distribusi 𝑥𝑞2 jika LM >
c, hipotesis nol ditolak. Bahkan lebih baik, dapatkan p-value sebagai probabilitas bahwa
suatu 𝑥𝑞2 variabel acak melebihi nilai statistik uji. Jika p-value kurang dari tingkat
signifikansi yang diinginkan, maka H0 ditolak. Jika tidak, kita gagal menolak H0.
Aturan penolakanpada dasarnya sama dengan untuk pengujian F.

Karena bentuknya, statistik LM kadang-kadang disebut sebagai statistic kuadrat n-R.


Berbeda dengan statistik F, derajat kebebasan dalam model tak terbatas tidak berperan dalam
melaksanakan tes LM. Yang penting adalah jumlah pembatasan yang diuji (q), ukuran 𝑢

pembantu R-kuadrat (𝑅2) dan ukuran sampel (n). df dalam model tak terbatas tidak
memainkan peran karena sifat asimtotik dari statistik LM. Tetapi
𝑢 kita harus yakin untuk

mengalikan 𝑅2 dengan ukuran sampel untuk mendapatkan LM; nilai yang tampaknya rendah
dari R-squared masih dapat menyebabkan signifikansi bersama jika n besar.

Jika pada langkah (i), kita keliru meregresikan y pada semua variabel bebas dan
memperoleh residu dari regresi tak terbatas ini untuk digunakan dalam langkah (ii), kita tidak
mendapatkan statistik yang menarik: hasil R-squared akan tepat nol! Ini karena OLS memilih
perkiraan sehingga residu tidak berkorelasi dalam sampel dengan semua variabel bebas yang
disertakan [lihat persamaan dalam (3.13)]. Dengan demikian, kita hanya dapat menguji (5.12)
dengan mengesampingkan residual yang dibatasi pada semua variabel bebas. (Regresi residu
terbatas pada set variabel bebas yang terbatas juga akan menghasilkan R2 = 0.)
2.3 Efisiensi Asimtotik dari OLS
Kita tahu bahwa, di bawah asumsi Gauss-Markov, estimator OLS adalah estimator
linear terbaik yang tidak bias. OLS juga efisien secara asimtotik di antara kelas estimator
tertentu di bawah asumsi Gauss-Markov. Perlakuan umum memerlukan aljabar matriks dan
analisis asimtotik tingkat lanjut.
Pertama, kami akan menjelaskan hasilnya dalam kasus regresi sederhana.
Dalam model: y = β0 + β1x + u, [5.16]
u memiliki rata-rata bersyarat nol di bawah MLR.4: E(u|x) = 0. Hal ini membuka
16
berbagai macam estimator yang konsisten untuk β0 dan β1, seperti biasa, kita fokus pada
parameter kemiringan, β1. Biarkan g(x) menjadi sembarang fungsi dari x; misalnya, g(x) = x2
atau g(x) = 1/(1 + |x|). Maka u tidak berkorelasi dengan g(x). Misalkan zi = g(xi) untuk semua
pengamatan i.
Maka penaksir: [5.17]
Konsisten untuk β1 , asalkan g(x) dan x berkorelasi. [Ingat, ada kemungkinan bahwa
g(x) dan x tidak berkorelasi karena korelasi mengukur ketergantungan linear]. Untuk melihat
hal ini, kita dapat memasukkan yi = β0 + β1xi + ui dan tuliskan β1 sebagai:
[5.18]
Sekarang, kita dapat menerapkan hukum bilangan besar pada pembilang dan penyebut,
yang masing- masing akan konvergen pada probabilitas Cov(z,u) dan Cov(z,x). Asalkan
Cov(z,u) ≠ 0─sehingga z dan x berkorelasi, kita memiliki:
karena Cov(z,u) = 0 di bawah MLR.4. Lebih sulit untuk menunjukkan bahwa 𝛽̃1 adalah
normal secara asimtotik. Namun demikian, dengan menggunakan argumen serupa dengan yang
̃1 − 𝛽1 ) normal asimtotik dengan mean varians
ada di lampiran, dapat ditunjukkan bahwa √𝑛(𝛽
nol dan asimtotik σ2Var(z)/[Cov(z,x)]2. Varian asimtotik dari penduga OLS diperoleh ketika z
= x, dalam hal ini, Cov(z,x) = Cov (x,x) = Var(x). oleh karena itu, varian asimtotik dari
̃1 − 𝛽1 ), dimana 𝛽̂ 1 adalah OLS astimator, dimana σ2Var(x)/[Var(x)]2 = σ2/Var(x).
√𝑛(𝛽
Sekarang, ketidaksetaraan Cauchy-Schwartz menyiratkan hal itu yaitu [Cov (z,x)]2 ≤Var
(z)Var(x), yang menyiratkan bahwa varian asimtotik dari √𝑛(𝛽̂1 − 𝛽1 ) tidak lebih besar dari
̃1 − 𝛽1 ). Kami telah menunjukkan dalam kasus regresi sederhana bahwa, berdasarkan
√𝑛(𝛽
asumsi Gauss-Markov, OLS penduga memiliki varian asimtotik yang lebih kecil dibandingkan
penduga manapun dalam bentuk rumus gambar 2. Jika asumsi homoskedastisitas gagal, maka
terdapat estimator berbentuk seperti gambar 2 yang memiliki varian asimtotik yang lebih kecil
dibandingkan OLS. Kasus umumnya serupa tetapi secara matematis jauh lebih sulit. Dalam
kasus k regressor, kelas penduga estimator yang konsisten diperoleh dengan menggeneralisasi
kondisi orde pertama OLS: [5.19]
Dimana gj(xi) menunjukkan fungsi apa pun dari semua variabel penjelas untuk
observasi i. Kita memperoleh estimator OLS ketika g0(xi) = 1 dan gj(xi) = xij untuk j = 1, 2,…,
k. Kelas penduga pada gambar 4 tidak terbatas, karena kita dapat menggunakan fungsi xij apa
pun yang kita inginkan.

17
Contoh 2.2: Model Kejahatan Ekonomi
nar86 = β0 + β1 pcnv + β2avgsen + β3 tottime + β4 ptime86 + β5 qemp86 + u,
di mana
nar86 = jumlah kali seseorang ditangkap.
pcnv = proporsi penangkapan sebelumnya yang berujung pada pemidanaan.
avgsen = rata-rata hukuman yang dijalani dari hukuman sebelumnya.
total waktu = total waktu yang dihabiskan pria tersebut di penjara sebelum tahun 1986 sejak
mencapai usia 18 tahun.
ptime86 = bulan mendekam di penjara pada tahun 1986.
qemp86 = jumlah kuartal pada tahun 1986 di mana pria tersebut dipekerjakan secara legal.
Kami menggunakan statistik LM untuk menguji hipotesis nol bahwa avgsen dan tottime
tidak berpengaruh pada nar86 setelah faktor-faktor lain dikontrol.
Pada langkah (i), kami mengestimasi model yang dibatasi dengan meregresikan nar86 terhadap
pcnv, ptime86, dan qemp86; variabel avgsen dan tottime tidak diikutsertakan dalam regresi ini.
Kami mendapatkan residual 𝑢̃ dari regresi ini, sebanyak 2.725 residual. Selanjutnya, kita
menjalankan regresi dari 𝑢̃ pada pcnv, ptime86, qemp86, avgsen, dan tottime
Seperti biasa, urutan daftar variabel independen tidak relevan. Regresi kedua ini
menghasilkan 𝑅𝑢2 , yang ternyata tentang sekitar 0,0015. Ini mungkin terlihat kecil, tetapi kita
harus mengalikannya dengan n untuk mendapatkan statistik LM: LM = 2.725 (.00152) ≈ 4.09.
Nilai kritis 10% dalam distribusi chi-square dengan dua derajat kebebasan adalah sekitar 4,61
(dibulatkan menjadi dua angka di belakang koma; lihat Tabel G.4). Dengan demikian, kami
gagal menolak hipotesis nol bahwa βavgsen = 0 dan βtottime = 0 pada tingkat 10%. Nilai p-value
adalah P (𝑥22 >4.092) ≈ .129, jadi kita akan menolak H0 pada tingkat 15%.
Sebagai perbandingan, uji F untuk signifikansi gabungan dari avgsen dan tottime
menghasilkan nilai p-value sekitar .131, yang cukup dekat dengan yang diperoleh dengan
menggunakan statistik LM. Hal ini tidak mengherankan karena, secara asimtot, kedua statistik
tersebut memiliki probabilitas kesalahan Tipe I yang sama. (Artinya, mereka menolak hipotesis
nol hipotesis dengan frekuensi yang sama ketika null adalah benar).

18
BAB III

PENUTUP
3.1 Kesimpulan
Klaim yang mendasari materi dalam bab ini cukup teknis, tetapi implikasi praktisnya
sangat mudah. Kami telah menunjukkan bahwa empat asumsi Gauss-Markov pertama
menyiratkan bahwa OLS konsisten. Selanjutnya, semua metode pengujian dan membangun
interval keyakinan yang kita pelajari di Bab 4 kira-kira valid tanpa mengasumsikan bahwa
kesalahan diambil dari distribusi normal (ekuivalen, distribusi y yang diberikan variabel
penjelas tidak normal). Ini berarti bahwa kita dapat menerapkan OLS dan menggunakan
metode sebelumnya untuk berbagai penerapan di mana variabel terikat bahkan tidak
terdistribusi secara normal. Kami juga menunjukkan bahwa statistik LM dapat digunakan
sebagai pengganti statistik F untuk menguji pembatasan pengecualian.
Sebelum meninggalkan bab ini, kita harus mencatat bahwa contoh-contoh seperti
Contoh 5.3 mungkin memiliki masalah yang memang membutuhkan perhatian khusus. Untuk
variabel seperti narr86, yang nol atau satu untuk kebanyakan pria dalam populasi, model linear
mungkin tidak dapat secara memadai menangkap hubungan fungsional antara narr86 dan
variabel penjelas. Selain itu, bahkan jika model linier tidak menggambarkan nilai yang
diharapkan, heteroskedastisitas mungkin menjadi masalah. Masalah seperti ini tidak
dipermasalahkan karena ukuran sampel tumbuh, dan kami akan kembali kepada mereka di bab-
bab selanjutnya.

19
DAFTAR PUSTAKA

Wooldridge, J. M. (2020). Introductory Econometrics: A Modern Approach. Cengage


Learning.

20

Anda mungkin juga menyukai