I. Pendahuluan
Model regresi dengan dua variabel adalah model yang sangat sederhana.
Lebih lanjut model tersebut dapat dipandang terlalu sederhana karena
sebagian besar permasalahan ekonomi yang hendak diteliti memiliki banyak
variabel. Dengan demikian kita menghadapi masalah oversimplification.
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk + u ………………………1)
………………………2)
E (u x1 , x2 ,..., xk ) = 0
1
Persamaan 2 menyatakan bahwa seluruh faktor lain yang tidak tercakup
dalam model adalah tidak terkait dengan variabel bebas (x1, x2, …, xk).
^
Dengan menggunakan kalkulus, kondisi orde pertama terhadap β j adalah
berupa suatu system persamaan linier sebanyak i dengan k+1 variabel sbb:
n ^ ^ ^ ^
∑ ( yi − β 0 − β 1 x1i − β 2 x2i − ... − β k xki ) = 0
i
n ^ ^ ^ ^
∑ x1i ( yi − β 0 − β 1 x1i − β 2 x2i − ... − β k xki ) = 0
i
.........................................................................
n ^ ^ ^ ^
∑x i
ki ( yi − β 0 − β 1 x1i − β 2 x2i − ... − β k xki ) = 0 ………………4)
^
Penyelesaian terhadap system persamaan 4 (dengan β j sebagai parameter
yang dicari) akan menghasilkan estimator OLS dari model regresi linier
sebagaimana dideskripsikan oleh persamaan 5 (yang sering juga disebut
sebagai garis regresi OLS dan sample regression function/SRF).
^ ^ ^ ^ ^
y i = β 0 + β 1 x1i + β 2 x2i + ... + β k xki ………………5)
^
β0
Estimator intersep adalah prediksi nilai y jika nilai seluruh variabel bebas
dalam model adalah nol (x1 = x2 = … = xk = 0). Dalam beberapa kasus
intrepretasi ini dipergunakan sedangkan pada kasus lainnya hal ini tidak
relevan (apakah ada pengeluaran pemerintah ketika GDP=0?).
2
^ ^
Δ y = β j Δx j ………………6)
Contoh 1.
Sebagai suatu ilustrasi, dengan menggunakan data WAGE1.RAW akan
dilakukan estimasi terhadap model yang menghubungkan log gaji dengan
pendidikan (educ), pengalaman (exper) dan masa jabatan (tenure). Dengan
menggunakan EVIEWS 5.1. dan mengetikkan ls log(wage) c educ exper
tenure pada command window diperoleh print out sbb:
Tabel 1. Print Output Regresi Log(Wage) terhadap Educ, Exper dan Tenure
3
Salah satu kekuatan utama dari model regresi berganda adalah
kemampuannya dalam mendukung asumsi ceteris paribus. Dukungan ini
diperoleh bahkan ketika data itu sendiri tidak diperoleh secara ceteris
paribus.
Pada contoh diatas 9.2% adalah dampak dari peningkatan pendidikan atas
gaji dengan mengasumsikan (mengontrol) nilai pengalaman dan jabatan
sebagai konstan. Hal ini seolah-olah kita hanya mengambil sampel para
pegawai yang berada pada pengalaman dan tingkat jabatan yang sama dan
kemudian melakukan regresi gaji terhadap pendidikan. Dengan
menggunakan regresi berganda kita memiliki kemampuan untuk
melakukan eksperimen terkendali terhadap lingkungan yang sebenarnya
bersifat non experimental.
Contoh 2.
Sebagai suatu ilustrasi berikut disajikan contoh yang lain, yakni regresi
indeks prestasi kuliah (colgpa) terhadap indeks prestasi SMA (hsgpa) dan
nilai test masuk (act). Dengan menggunakan file Gpa1.raw, perhitungan
dengan menggunakan Eviews memberikan hasil sbb:
4
Dengan menggunakan hasil ini, maka nilai prediksi indeks prestasi kuliah
bagi seorang mahasiswa yang memiliki indeks prestasi SMA sebesar 3.5 dan
nilai test masuk sebesar 24 adalah colgpa=1.29+0.453 (3.5)+0.0094 (24) =
3.101 (pembulatan tiga desimal).
Umumnya nilai actual dari variabel dependen tidak akan sama dengan nilai
prediksinya. Selisih dari nilai ini disebut sebagai residual (ui). Secara
matematis:
^ ^
u i = yi − y i ………………8)
Nilai prediksi dan residual memiliki beberapa sifat penting yang merupakan
generalisasi langsung dari regresi sederhana. Sifat tersebut adalah
− ^ ^ _ ^ _ ^ _
y = β 0 + β 1 x1 + β 2 x 2 + ... + β k x k ………………9)
Seperti juga model regresi sederhana, kita juga dapat menggunakan Sum Of
Square Total (SST) dan dekomposisinya serta koefisien R2 sebagai ukuran
kebaikan suai dari model (goodness of fit). Untuk mengingatkan kembali
SST dan dekomposisinya dapat dihitung dengan jalan:
n _
Sum Square Total (SST) = ∑ ( yi − y )2 ……………………10)
i =1
n ^ _
Sum Square Explained (SSE) = ∑ ( y i − y ) 2 ……………………11)
i =1
⎛ n 2⎞ n ^
Sum Square Residual (SSR) = ∑ ( yi − y i ) ⎜ = ∑ ui ⎟ ………12) 2
i =1 ⎝ i =1 ⎠
SST adalah ukuran variasi sample yi (menunjukkan seberapa besar
^
dispersi
sample yi disekitar rata-ratanya). SSE menunjukkan variasi sample
yi pada
^
dan SSR mengukur variasi
u dari .
i
5
Dapat ditunjukkan disini bahwa total variasi pada y adalah sama dengan
jumlah SSE dan SSR, atau
SSE SSR
R2 = = 1− ……………………21)
SST SST
Seperti yang dapat dilihat pada persamaan 21, koefisien determinasi
menunjukkan proporsi variasi variabel tergantung (y) yang dapat dijelaskan
oleh variasi variabel bebas (x). Nilai R2 selalu terletak antara 0 dan 1 karena
SSE dan SSR tidak mungkin melebihi nilai SST. R2 adalah suatu ukuran
kesuaian model (model fit).
Secara lebih detail R2, juga dapat dirumuskan dalam formula berikut
2
n ⎛ _ ^
_
⎞
∑ ⎜⎜ i
( y − y )( y i − $
y ) ⎟⎟
R2 =
i =1 ⎝ ⎠
……………………22)
⎛ n _
2⎞
⎛ n ^ $_ 2 ⎞
⎜ ∑ ( yi − y ) ⎟ ⎜⎜ ∑ ( y i − y ) ⎟⎟
⎝ i =1 ⎠ ⎝ i =1 ⎠
Suatu fakta yang penting diingat pada penggunaan R2 sebagai ukuran
kebaikan suai model adalah bahwa ia tidak pernah menurun dengan
penambahan regresor, sebaliknya ia justru cenderung meningkat. Fakta ini
berasal dari konsekuensi dari aljabar dimana jumlah kuadrat tidak pernah
menurun dengan bertambahnya regresor.
6
contoh 1, diperoleh nilai R2 sebesar 31.6%, dengan demikian 31.6% variasi
kenaikan/penurunan persentase gaji dapat dijelaskan secara bersama oleh
variabel pendidikan, pengalaman dan jabatan. Sedangkan pada contoh 2,
kita memperoleh nilai 17.6%, dengan kata lain sebesar 17.6% variasi pada
indeks prestasi kuliah dapat dijelaskan oleh variabel indeks prestasi SMA
dan nilai ujian masuk.
Pada kedua contoh diatas, kita hanya memperoleh nilai R2 yang relatif kecil
(dibawah 50%). Apakah hal ini berarti jelek? Belum tentu, penelitian pada
ilmu social umumnya berinteraksi dengan perilaku manusia yang sangat
sulit diprediksi. Banyak variabel yang mempengaruhi suatu perilaku
manusia dan mekanisme/pola yang dimiliki adalah sangat rumit. Dengan
demikian model yang diperoleh cenderung memiliki nilai R2 yang rendah.
Hal ini tidak berarti bahwa parameter-parameter yang ada didalamnya
adalah bias, hanya saja memang presisi/akurasinya adalah rendah.
Asumsi 1:
Pada populasi, hubungan variabel tergantung (y) dengan variabel bebas (xj)
adalah bersifat linier dengan suatu random disturbances, atau
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk + u ……………………23)
Asumsi 2:
Sample diperoleh secara random.
Asumsi 3:
Zero conditional means.
E (u x1 , x2 ,..., xk ) = 0 ……………………24)
7
Asumsi 3 tidak mudah dipenuhi, paling tidak terdapat 3 kondisi dimana hal
ini tidak dapat dilakukan, yakni:
a. Hubungan antara variabel bebas dan variabel tergantung mengalami
mispesifikasi. Bisa jadi kita memodelkan hubungan yang linier padahal
yang berlaku dipopulasi seharusnya kuadratik.
b. Terdapat masalah omitted variable, akan dibahas pada bagian
tersendiri.
c. Kesalahan pengukuran.
Asumsi 4:
Terdapat suatu variasi pada populasi variabel bebas dan tidak terdapat
kolinearitas sempurna diantara variabel bebas.
Asumsi 5:
Varians u kondisional pada setiap xji adalah konstan (Homokedastistas).
Secara formal
dan
^ ~
Var ( β j ) ≤ Var ( β j ) ……………………27)
~
dimanaβ j adalah parameter yang diestimasi melalui metoda linier Non
OLS.
8
V. Beberapa Kasus
Terdapat beberapa kasus yang dapat timbul ketika seseorang menggunakan
metoda OLS dalam penelitian empiris. Beberapa masalah yang umum
adalah masuknya variabel yang tidak relevan pada model (superfluous),
adanya variabel penting yang tidak diperhitungkan dan multikolinearitas.
Kita akan membahas konsep masalah dimaksud, implikasi serta cara
penanganan yang diperlukan.
9
Adapun arah bias (over atau undervaluation) tergantung dari sign (tanda
aljabar) parameter tersebut pada populasi dan korelasi dengan variabel
bebas lainnya. Untuk kasus 2 variabel bebas dimana x2 adalah omitted
variabel, arah bias dapat ditunjukkan oleh tabel 3.
10