I. Pendahuluan
Pada bagian ini akan dibahas beberapa topik yang merupakan
pengembangan dari model regresi linier. Topik-topik ini membahas
beberapa aspek yang perlu diperhatikan agar model regresi linier yang
diperoleh dapat memberikan nilai tambah yang lebih tinggi didalam suatu
penelitian empiris.
Jika data semacam ini digunakan secara apa adanya maka akan sangat
mungkin sekali kita memiliki model regresi dimana koefisien-koefisiennya
memiliki digit yang banyak. Meskipun tidak bersifat bias (regresi adalah
valid), sepanjang spesifikasi telah dilakukan dengan benar, namun untuk
kepentingan “user friendliness” kadang diperlukan suatu upaya rescaling.
Dengan rescaling diharapkan intrepretasi terhadap hasil penelitian menjadi
lebih mudah dilakukan dan nyaman.
Jika rescaling dilakukan pada regresor, maka perubahan akan terjadi pada
seluruh koefisien model regresi. Sebagai ilustrasi misalnya kita melakukan
regresi atas berat badan bayi baru lahir (bwight) terhadap variabel jumlah
rokok yang dikonsumsi ibuya waktu hamil (cigs), jumlah penghasilan dan
keluarga (faminc), atau
1
bwight = βˆ0 + βˆ1cigs + βˆ2 faminc + u ………………………1)
jika semula kita mengukur berat badan dalam satuan gram dan
mengubahnya menjadi satuan kilogram, maka transformasi berikut adalah
valid
( ) ( ) ( )
bwight /1000 = βˆ0 /1000 + βˆ1 /1000 cigs + βˆ2 /1000 faminc + u
Dengan kata lain koefisien setelah rescaling adalah 1/1000 nilai semula.
( )
bwight = βˆ0 + 20 βˆ1 ( cigs / 20 ) + βˆ2 faminc + u
Dimana koefisien hasil rescaling memiliki nilai 20 kali lebih besar namun
variabel cigs sekarang harus diukur sebagai pak per hari.
a. Polinomial
y = β 0 + β1 x + β 2 x 2 + ... + β n x n + u ………………………4)
b. Log Linier
c. Eksponensial
2
Dengan mengambil nilai log terhadap ruas kiri dan kanan maka
persamaan 6 dapat ditransformasikan menjadi persamaan 5.
d. Resiprokal
1
y= ………………………7)
β 0 + β1 x1 + β 2 x2 + ... + β k xk + u
1
= β 0 + β1 x1 + β 2 x2 + ... + β k xk + u ………………………8)
y
e. Semilog
y = β 0 + β1 x1 + β 2 x2 + β3 x1 x2 + u ……………………..10)
3
Sebagai contoh dari pada memodelkan gaji (wage) sebagai fungsi yang linier
terhadap pengalaman (exper), akan lebih logis memodelkannya sebagai
kuadratik (parabolic terbalik). Dengan model ini pengalaman akan
meningkatkan gaji hanya hingga level tertentu. Tentu saja secara logis kita
dapat menolak area dimana pengalaman justru menurunkan gaji, namun
paling tidak kita telah memodelkan bahwa dampak pengalaman adalah
tidak monoton.
y = e β0 + β1x1 + β2 x2 +...+ βk xk + u
y = ( β1 x1 + β 2 x2 ) 3 + u
β
……………………..11)
β1 x1 + β 2 x2
y= +u
β3 x3
Tidak ada suatu sistematika yang standar dan efektif untuk digunakan
dalam modeling (dalam hal pemilihan dan sortir model). Namun paling
tidak terdapat suatu teknik formal yang dapat digunakan untuk mengurangi
kesalahan yang terjadi. Disini kita akan mempelajari tiga teknik, yakni
deteksi kesalahan bentuk fungsional melalui Ramsey Reset Test, pemilihan
non nested model (Davidson and McKinon Test) dan seleksi variabel.
4
Ramsey (1969) telah menyusun suatu teknik yang dapat digunakan untuk
mendeteksi apakah model yang digunakan mengalami kesalahan
mispesifikasi. Misalnya apakah kita menggunakan model linier padahal
yang berlaku dipopulasi adalah kuadratik. Teknik ini dapat diilustrasikan
melalui langkah-langkah berikut:
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk + u ……………………..12)
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk + δ1 yˆ + δ 2 yˆ 2 + u ………..13)
H 0 : δ1 = δ 2 = 0 ……………………..14)
H1 : Selain H 0
d. Jika nilai F atau LM melebihi nilai kritis pada tabel maka hipotesis null
dapat ditolak. Dengan demikian Ramsey Test menunjukkan
kemungkinan adanya kesalahan bentuk fungsional pada model.
a. Model Linier
y = β 0 + β1 x1 + β 2 x2 + u ……………………..15)
5
b. Model Semi Log
y = α 0 + α1 ln( x1 ) + α 2 ln( x2 ) + u ……………………..16)
Untuk melihat apakah 15 lebih superior dari 16, maka lakukan estimasi
persamaan 16 dan peroleh fitted value (sebut saja sebagai ŷˆ ). Kemudian
lakukan regresi berikut
y = β 0 + β1 x1 + β 2 x2 + θ1 yˆˆ + u ……………………..17)
.
Test t yang signifikan (dengan hipotesis null dua sisi) terhadap θ1
menunjukkan bahwa bahwa 15 ditolak oleh data (persamaan 16 lebih
superior). Hal yang sebaliknya dilakukan jika kita ingin membandingkan 16
lebih superior dari 15, dimana kita akan mengestimasi 15 peroleh fitted
valued dan masukkan pada persamaan 16 dan regresikan. Langkah
selanjutnya adalah sama.
6
(koefisien pendidikan akan menaksir terlalu tinggi dampak terhadap
pendapatan).
Salah satu cara untuk mengatasi hal ini adalah dengan menggunakan
exogenous sample selection. Dengan teknik ini resampling dilakukan
kembali pada data yang ada dengan cara yang random pada variabel bebas.
Kita memilih unit-unit sample yang baru berdasarkan teknik random yang
diterapkan pada salah satu variabel bebas. Hal ini akan menghasilkan
estimator yang tidak bias meskipun kurang efisien dibandingkan jika kita
memiliki dataset yang tidak rusak.
Implikasi dari keberadaan outlier dapat bersifat kompleks. Hal ini terjadi
jika outlier tersebut dapat dijustifikasi, bukan karena kesalahan pada tahap
koleksi data. Untuk mengatasi hal ini maka kita perlu mempertimbankan
suatu transformasi spesifikasi fungsional. Bentuk log adalah salah satu
bentuk fungsional yang dapat mengurangi dispersi dari data. Dalam regresi
dampak dari outlier akan berkurang secara signifikan jika kita
mentransformasikan variabel kedalam bentuk log.
Contoh 1.
Dengan menggunakan data Rdchem.raw kita akan mengestimasi regresi
antara intensitas R&D (Rdintens) terhadap tingkat penjualan (sales) dan
7
profit margin (profmarg) pada 32 perusahaan. Pada data semula hasil
estimasi yang diperoleh adalah
8
Sum squared resid 89.92691 Schwarz criterion 4.235208
Log likelihood -60.49475 F-statistic 2.932281
Durbin-Watson stat 1.746916 Prob(F-statistic) 0.069787
9
Log likelihood -22.53718 F-statistic 2.233632
Durbin-Watson stat 1.859852 Prob(F-statistic) 0.125250
Perhatikan bahwa hasil yang diperoleh tidak terlalu jauh berbeda jika kita
mengeluarkan observasi outlier, yakni
Jika kita mengasumsikan bahwa xj (j=1 s/d k) memiliki suatu nilai cj, maka
prediksi nilai y dapat diberikan sebagai
10
Meskipun persamaan 19 sebenarnya telah cukup memberikan gambaran,
namun suatu analisa lebih lengkap dapat diperoleh jika kita dapat
mengkontruksi confidence interval (katakan 95%) dari prediksi tersebut.
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk + u ………………..21)
untuk memperoleh
y = θ 0 + β1 ( x1 − c1 ) + β 2 ( x2 − c2 ) + ... + β k ( xk − ck ) + u ……..22)
Dengan kata lain kita melakukan regresi kembali atas hubungan y dengan
(sekarang pada) variabel xj-cj. Standar error parameter θ0 akan digunakan
untuk mengkontruksi confidence interval prediksi pada persamaan 19, atau
^ ^ ^ ^ ^
θ − tα / 2 × se(θ ) ≤ θ ≤ θ + tα / 2 × se(θ )
0 0 0 0 0 ………………..23)
Contoh 2.
Dengan menggunakan data GPA2.raw, kita memperoleh model regresi
berikut
11
S.E. of regression 0.559864 Akaike info criterion 1.678962
Sum squared resid 1295.165 Schwarz criterion 1.686609
Log likelihood -3467.932 F-statistic 398.0176
Durbin-Watson stat 1.878638 Prob(F-statistic) 0.000000
12