MODUL
REGRESI LINIER
Pengantar
Regresi linear adalah teknik statistika yang memberikan pendugaan dari
kemiringan suatu garis lurus (linear) dan posisi dimana garis tersebut memotong
sumbu y, berdasarkan sejumlah informasi mengenai hubungan antar variabel.
Memberikan pendugaan nilai a dan b, berdasarkan sejumlah informasi mengenai x
dan y, pada persamaan berikut: y=a+b.x
Regresi linear sederhana, apabila variabel dependent hanya ditentukan oleh satu
variabel independent. Contohnya: y = a + b.x + e. Sedangkan Jika Regresi Linear
berganda, apabila variabel dependent ditentukan oleh lebih dari satu variabel
independent. Contohnya: y = a + b1.x1 + b2.x2 + . + bn.xn + e. Dimana, e = error
term = perbedaan antara y aktual dengan y hasil estimasi garis regresi. Metode yang
digunakan untuk mengestimasi parameter garis regresi disebut metode Ordinary
Least Square (OLS). Metode ini meminimisasi jumlah dari error yang dikuadratkan
dari setiap observasi. Pada dasarnya, model regresi dengan OLS dibangun atas
asumsi CLRM (Classical Linier Regression Model). Asumsi tersebut memiliki properti
sesuai dengan Gauss-Markov Theorem yang menuntut adanya karakteristik Best
Linier Unbiassed dari penduga /estimatornya (Gujarati,2003), yakni:
Linier. Estimator OLS merupakan fungsi linier dari variabel acak (random).
Contoh: variabel terikat Y dalam model regresi
Tidak Bias. Nilai rata-rata atau nilai ekspektasi dari estimator sama dengan
nilai aktual/sesungguhnya,
akbarsuwardi@gmail.com
ini penting untuk memastikan bahwa estimator efisien. Dengan kata lain,
estimator yang tidak bias dengan varians terkecil dapat dikatakan sebagai
estimator yang efisien.
Atau lebih lengkapnya pada bab OLS di Gujarati (2003) ada 10 Asumsi Klasik regrsi
Linera, yaitu:
1. Model linear dalam parameter.
2. Nilai x tetap dalam pengambilan sampel yang diulang.
3. Nilai rata-rata dari error sama dengan nol.
4. Homoskedastis yaitu nilai varians dari setiap error sama.
5. Tidak ada korelasi antar error.
6. Covarians antara ui dan xi adalah nol.
7. Banyaknya observasi n harus lebih besar daripada banyaknya parameter
yang diestimasi.
8. Nilai dari xi harus bervariasi (tidak boleh sama).
9. Model regresi dispesifikasikan dengan benar.
10. Tidak ada multikolinearitas sempurna.
Aplikasi pada program stata :
Jika, data kita berupa Time Series, maka yang harus kitalakukan pertamakali adalah
mengeset waktu. Missal variabel waktu di data kita adalah time, maka perintahnya
adalah:
tsset time
Berikut adalah simulasi regresi linier (OLS) dari data states.dta, data ini diambil dari
buku Lawrence C. Hamilton (Chapter6). Data tersebut merupakan data OLS- Cross
Section, dimana data yang diambil berada pada tahun yang sama sedangkan
akbarsuwardi@gmail.com
Dimana :
csat
= SAT scores
expense
percent
income
high
college
Model ini yang akan kita gunakan dalam mengolah data pada modul ini. Sedangkan data yang digunakan
adalah data Cross Secion bukan Time Series, jadi dalam pengujian Asumsi OLS atau Uji BLUE pengujian
untuk Autokorelasi tidak akan ditampilkan oleh penulis.
akbarsuwardi@gmail.com
+
|
*
|
|
*
|
|
*
*
c
| *
o
|
*
* *
*
m
|
*
**
*
*
p
|
* * * *
o
|
*
**
s
|
*
*
i
|
*
t
|
*
e
|
* *
*
*
|
*
*
S
|
*
*
*
*
*
*
A
|
*
** *
* *
**
T
|
*
|
832 +
**
*
+----------------------------------------------------------------+
2960
Per pupil expenditures prim&sec
9259
expense
percent
income
high
college
-------------+--------------------------------------------expense |
1.0000
percent |
0.6509
1.0000
income |
0.6784
0.6733
1.0000
high |
0.3133
0.1413
0.5099
1.0000
college |
0.6400
0.6091
0.7234
0.5319
1.0000
Hasil diatas dapat membantu kita melihat hubungan partial antara variabel, dan
yang perlu diperhatikan adalah hubungan antara Independent variabel dengan
Dependent variabel (hubungannya positif atau negatif). Jika nilai hubungan antara
Independent variabel dengan Dependent variabel sangatlah kecil, missal dibawah
0.001 maka sangat kecil pula variabel indepent tersebut mampu menjelaskan
variabel Independent.
akbarsuwardi@gmail.com
type
format
value
label
variable label
------------------------------------------------------------------------csat
int
%9.0g
expense
int
%9.0g
percent
byte
%9.0g
income
double %10.0g
high
float
%9.0g
% adults HS diploma
college
float
%9.0g
region
byte
%9.0g
region
Geographical region
Deskriptif atau tipe dari data untuk membantu kita dalam melihat jenis data kita,
dapat dilihat di storage type, sedangan kita juga dapat melihat apa variabel label
yang kita gunakan.
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------csat |
51
944.098
66.93497
832
1093
expense |
51
5235.961
1401.155
2960
9259
percent |
51
35.76471
26.19281
81
income |
51
33.95657
6.423134
23.465
48.618
high |
51
76.26078
5.588741
64.3
86.6
-------------+-------------------------------------------------------college |
51
20.02157
4.16578
12.3
33.3
region |
50
2.54
1.128662
Sebelum kita melakukan regressi ada baiknya kita mengatahui dahulu berapa
jumlah observasu, mean, Std.Deviasi, nilai Maximum dan Nilai Minimum data yang
kita gunakan.
akbarsuwardi@gmail.com
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
51
49) =
13.61
Model |
48708.3001
48708.3001
Prob > F
0.0006
Residual |
175306.21
49
3577.67775
R-squared
0.2174
Adj R-squared =
0.2015
Root MSE
59.814
-------------+-----------------------------Total |
224014.51
50
4480.2902
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------expense |
-.0222756
.0060371
-3.69
0.001
-.0344077
-.0101436
_cons |
1060.732
32.7009
32.44
0.000
995.0175
1126.447
akbarsuwardi@gmail.com
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
51
45) =
42.23
Model |
184663.309
36932.6617
Prob > F
0.0000
Residual |
39351.2012
45
874.471137
R-squared
0.8243
Adj R-squared =
0.8048
Root MSE
29.571
-------------+-----------------------------Total |
224014.51
50
4480.2902
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------expense |
.0033528
.0044709
0.75
0.457
-.005652
.0123576
percent |
-2.618177
.2538491
-10.31
0.000
-3.129455
-2.106898
income |
.1055853
1.166094
0.09
0.928
-2.243048
2.454218
high |
1.630841
.992247
1.64
0.107
-.367647
3.629329
college |
2.030894
1.660118
1.22
0.228
-1.312756
5.374544
_cons |
851.5649
59.29228
14.36
0.000
732.1441
970.9857
----------------------------------------------------------------------------------
82.43% variasi dari nilai variabel csat (Variabel Dependent) dapat dijelaskan oleh
variasi nilai dari variabel expense, percent, income, high dan college (Variabel
Independent).
akbarsuwardi@gmail.com
i.region
_Iregion_1-4
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
8,
50
41) =
52.51
Model |
194023.719
24252.9649
Prob > F
0.0000
Residual |
18937.6605
41
461.894159
R-squared
-------------+-----------------------------Total |
212961.38
49
4346.15061
0.9111
Adj R-squared =
0.8937
Root MSE
21.492
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------expense |
-.002021
.00424
-0.48
0.636
-.0105839
.0065419
percent |
-3.007647
.2328838
-12.91
0.000
-3.477965
-2.537329
income |
-.1674421
1.035771
-0.16
0.872
-2.259224
1.924339
high |
1.814731
1.184555
1.53
0.133
-.5775255
4.206988
college |
4.670564
1.708108
2.73
0.009
1.220969
8.120159
_Iregion_2 |
69.45333
14.95479
4.64
0.000
39.25151
99.65514
_Iregion_3 |
25.39701
13.32343
1.91
0.064
-1.510213
52.30423
_Iregion_4 |
34.57704
9.5368
3.63
0.001
15.31709
53.837
_cons |
808.0206
79.79478
10.13
0.000
646.8718
969.1694
------------------------------------------------------------------------------
3. Pemilihan Model
Untuk mendapatkan model yang terbaik dari penelitian kita serta menilai
variabel independent apa aja yang dimasukkan maka kita perlu melakukan
pengujian. Seperti pengujian Ramsey Reset untuk melihat apakah ada variabel
yang omitted dan pengujian menggunakan Akaike information criterion (AIC)
dan Bayesian information criterion (BIC) dimana smaller is better. AIC dan
BIC untuk melihat dari beberapa model ya mana yang lebih baik.
a. Uji Ramsey Reset
Ramsey regression adalah uji specification-error untuk omitted variables yang
ditenukan oleh Ramsey (1969). Ramsey Reset mencoba melihat apakah
Variabel Independent dalam model sudah cukup kita untuk menjelaskan
akbarsuwardi@gmail.com
0.31
Prob > F =
0.8192
Uji Ramsey Reset pada Model ke Satu menghasilkan nilai dari (Prob>F) >
(0.005), hal ini menandakan bahwa tidak ada cukup bukti bagi kita
untuk menolak H0. Berarti Variabel Independent dalam model kesatu
belum cukup untuk menjelaskan Variabel Dependentnya. Jadi masih
butuh menambahkan variabel Independent.
akbarsuwardi@gmail.com
2.12
Prob > F =
0.0408
Uji Ramsey Reset pada Model ke Dua menghasilkan nilai dari (Prob>F) <
(0.005), hal ini menandakan bahwa tidak ada cukup bukti bagi kita
untuk menerima H0. Berarti Variabel Independent dalam model ke Dua
sudah cukup untuk menjelaskan Variabel Dependentnya. Jadi tidak butuh
lagi menambahkan variabel Independent.
2.26
Prob > F =
0.0331
Uji Ramsey Reset pada Model ke Tiga menghasilkan nilai dari (Prob>F) <
(0.005), hal ini menandakan bahwa tidak ada cukup bukti bagi kita
untuk menerima H0. Berarti Variabel Independent dalam model ke Tiga
sudah cukup untuk menjelaskan Variabel Dependentnya. Jadi tidak butuh
lagi menambahkan variabel Independent.
Dari ketiga test Ramsey Rest tersebut maka model yang dapat kita gunakan
adalah model ke Dua dan ke Tiga. Dikarenakan tidak ada omitted variebel di
akbarsuwardi@gmail.com
berikut :
AIC = -2*ln(likelihood) + 2*k
BIC = -2*ln(likelihood) + ln(N)*k
Dimana
k = model degrees of freedom
N = Jumlah dari observations
Kita akan memilih model dari nilai AIC dan BIC lebih kecil, smaller is
better. Misalnya dalam contoh pada modul kita ini, dimana kita mempunyai
3 model alaternatif, walaupun diawal kita sudah menjelaskan akan
menggunakan model kedua. Berikut contohnya:
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
----------+--------------------------------------------------------------. |
51
-286.2507
-279.9987
2
563.9974
567.861
--------------------------------------------------------------------------
akbarsuwardi@gmail.com
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
---------+---------------------------------------------------------------. |
51
-286.2507
-241.9015
6
495.803
507.3939
--------------------------------------------------------------------------
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
--------+----------------------------------------------------------------. |
50
-279.868
-219.369
9
456.7381
473.9463
--------------------------------------------------------------------------
Terlihat bahwa nilai dari AIC dan BIC, pada Model Ke Satu > Model Ke Dua
> Model Ke Tiga. Jadi bisa saja kita memlih model ke Tiga dalam model kita,
Namun dalam Model yang digunakan dalam modul ini adalah model kedua,
dimana model kedua ini masih sesuai dengan model awal kita dan masih
sesuai untuk menjelaskan tujuan dari yang kita cari.
akbarsuwardi@gmail.com
Uji signifikansi serentak (F-Test). Uji ini untuk melihat secara global,
apakah semua variabel bebas secara bersama-sama mempengaruhi
variabel terikatnya. Hipotesanya sebagai berikut:
H0 : 0 = 1 = 2 = 3 = 4 = .. = k = 0
H1 : 0 1 2 3 4 .. = k 0
Hipotesa nol akan ditolak bila (Prob > F) < atau nilai t-stat > nilai kritis
t-tabel. Dalam konteks model kita, uji global F dapat membuktikan
apakah benar variabel expense, percent, income, high dan college secara
bersama-sama mempengaruhi variabel csat. Pada output diatas nilai dari
akbarsuwardi@gmail.com
Uji signifikansi parsial (t-test). Uji ini untuk melihat secara individual,
apakah masing-masing variabel bebas secara signifikan berpengaruh
terhadap variabel terikat. Hipotesanya sebagai berikut:
H0 : k = 0
H1 : k 0
Hipotesa nol akan ditolak bila (P>|t|) < atau nilai t-stat > nilai kritis ttabel. Dalam konteks model kita, uji global F dapat membuktikan apakah
benar variabel expense, percent, income, high dan college secara bersamasama mempengaruhi variabel csat. Pada output diatas nilai dari (Prob > F)
= 0. Berarti (P>|t|) < (0.05). maka kita tidak cukup bukti untuk
menerima H0 yang berarti semua variabel independent tersebut mampu
menjelaskan atau mempengaruhi variabel dependent.
Uji Goodness of Fit. Uji ini untuk mengukur seberapa besar variasi dari
nilai variabel terikat (Variabel Dependent) dapat dijelaskan oleh variasi
nilai dari variabel-variabel bebasnya (Variabel Independent). Langkahnya
adalah dengan melihat R-squared dari hasil regresi estimasi. Dalam hasil
estimasi kita menggunakan model kedua, kita mendapatkan nilai dari Rsquared adalah 0.8243 artinya 82.43% variasi dari nilai variabel csat
(Variabel Dependent) dapat dijelaskan oleh variasi nilai dari variabel
expense, percent, income, high dan college (Variabel Independent).
akbarsuwardi@gmail.com
II.
Deteksi :
2
i.
ii.
akbarsuwardi@gmail.com
expense
percent
income
high
college
-------------+--------------------------------------------expense |
1.0000
percent |
0.6509
1.0000
income |
0.6784
0.6733
1.0000
high |
0.3133
0.1413
0.5099
1.0000
college |
0.6400
0.6091
0.7234
0.5319
1.0000
Intepretasi : Dengan rule of thumb 0.8 atau 0.75, maka jika nilai pearson
correlation antar dua variabel lebih dari itu, mengindikasikan bahwa
dua variable itu memiliki hubungan yang kuat (ada multicollinearitas)
ii. Tolerance and variance inflation factor (VIF) :
regress csat expense percent income high college
(output omitted )
vif
Variable
VIF
1/VIF
-------------+---------------------income |
3.21
0.311756
college |
2.73
0.365683
percent |
2.53
0.395603
expense |
2.24
0.445673
high |
1.76
0.568732
-------------+---------------------Mean VIF |
2.49
Intepretasi : Jika nilai VIF lebih besar dari 10 atau tolerance (1/VIF)
adalah .01 atau kurang, mengindikasikan adanya multicollinearitas.
Maka berdasarkanhasil diatas, data kita tidak ada variabel yang
multicollinearitas yang kuat.
akbarsuwardi@gmail.com
III.
Koreksi :
Do nothing
If the main purpose of modeling is predicting Y only, then dont worry.
(since ESS is left the same)
Dont worry about multicollinearity if the R-squared from the
regression exceeds the R-squared of any independent variable
regressed on the other independent variables.
First difference, dibuat First difference pada salah satu variabel yang
bermasalah multicol, pada stata dapat dilakukan dengan perintah:
gen [nama variabel first difference] = D.[variabel awal]
contoh :
Hilangkan salah satu variabel yang berkaitan erat, dapat dilihat pada
perinta corr, yaitu Pearson correlation coefficient yang lebih dari 0.8
atau 0.75
b. Uji Heteroskedastisitas
Ketika terjadi heteroscedastisitas OLS estimators akan unbiased karena hasil
estimator akan mempunyai pergeakan error yang berpola,Oleh karena itu
OLS tidak tidak efisien, dan S.E. biased.
akbarsuwardi@gmail.com
Deteksi :
heteroskedastisitas
dalam
model
ekonometrik.
Model
ekonometrik yang baik adalah jika residual vs fitted value plot tidak
menunjukkan sebuah pola.
Residual vs fitted plot dapat dibuat dengan perintah:
rvfplot, yline(0)
Contoh:
Kita melakukan perintah regresi terlebih dahulu:
regress csat expense percent income high college
(output omitted )
rvfplot, yline(0)
Maka akan menghasilkan grafik sebagai berikut :
akbarsuwardi@gmail.com
-50
Residuals
50
100
850
900
950
Fitted values
1000
1050
Estimasi yang kita lakukan memilki nilai kesalahan (error) yang hetero
atau tidak dapat dilihat ketika nilai error kita tersebut tersebar diantar
suatu range. Misalnya, seperti output diatas bahwa persebaran nilai error
kita diantara range -50 sampe 50 (sebagian besar)
ii.
Hipotesis:
H0 : Constant Variance
H1 : NO Constant Variance
akbarsuwardi@gmail.com
atau
=
=
0.01
0.9087
Koreksi :
Ketika variance diketahui: gunakan WLS method
reg csat* expense* percent*.... noconstant
cf. csat* = cssat/ , expense* = expense /
Transformasi logaritma
Robust
akbarsuwardi@gmail.com
Number of obs =
F(
5,
51
45) =
50.90
Prob > F
0.0000
R-squared
0.8243
Root MSE
29.571
----------------------------------------------------------------|
csat
Robust
Coef.
Std. Err.
P>|t|
-------------+--------------------------------------------------expense |
0.70 0.487
-.0062766
.0129823
percent |-2.618177
-3.079123
-2.15723
income
.105585
1.207246
0.09 0.931
-2.325933
2.537104
high
| 1.630841
.943318
1.73 0.091
-.2690989
3.530781
college | 2.030894
2.113792
0.96 0.342
-2.226502
6.28829
_cons
57.28743
14.86 0.000
736.1821
966.9477
Perintah
.003352
| 851.5649
robust
.004781
tersebut
akan
secara
otomatis
menghilangkan
Uji Autokorelasi
Autokorelasi suatu keadan dimana terjadi korelasi eror antar periode waktu.
Adanya autokolareasi akan membuat OLS linear unbiased, consistent dan
asymptotically normally distributed dan tidak lagi efficient (tidak varians
minimum tdk BLUE). Autokorelasi umumnya terjadi pada data time series,
sebelum melakukan regresi kita harus mendefinisikan terlebih dahulu time
variable kita dengan perintah
tsset [timevar].
akbarsuwardi@gmail.com
I.
Deteksi :
Create plot
regress csat expense percent income high college
(output omitted )
predict resi, resi
gen lagged resi = resi[_n-1]
plot resi lagged resi
Error saat ini (t), memilki hubungan dengan error sebelumnya (t-1),
atau errosr saat
Hipotesis: =
H0 : Tidak ada Autokorelasi
H1 : Ada Autokorelasi
Menginat data yang digunakan ini bukanlah data time series, maka penulis tidak dapat memberikan contoh
output pada setiap pengujian. Jadi hanya Ilustrasi, Autokorelasi hanya ada pada data kita yang bersifat TimeSeries.
akbarsuwardi@gmail.com
Contoh:
regress csat expense percent income high college
(output omitted )
Dwstat
Hipotesis:
H0: 1 = 2 = 3 = Tidak Ada Autokorelasi
H1 : Ada Autokorelasi
Jika
atau
akbarsuwardi@gmail.com
First difference, dibuat First difference pada salah satu variabel yang
bermasalah multicol, pada stata dapat dilakukan dengan perintah:
gen [nama variabel first difference] = D.[variabel awal]
Contoh :
[dependen
variabel]
[independent
variabel]...[variabel
independent ke-n].
contoh :
prais csat expense percent income high college
Perintah prais akan secara otomatis menghilangkan autokorelasi
dengan jalan menambahkan variabel autoregresion dengan lag yang
ditentukan oleh program stata. Hasil regresi yang didapat telah dapat
dipastikan telah terbebas dari autokorelasi.
akbarsuwardi@gmail.com
0.00
0.25
Normal F[(zr-m)/s]
0.50
0.75
1.00
pnorm e
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
Ketika titik titik kita teratur seperti diatas, maka dengan visual kita dapat
menyimpulkan residual dari estimasi kita distribusi secara normal. Namun,
jika kita tidak yakin maka kita dapat melakukan pengujian Shapiro-Wilk and
Shapiro-Francia tests for normality, dengan perintah:
Swilk e
akbarsuwardi@gmail.com
Variable |
Obs
Prob>z
-------------+-------------------------------------------------e |
51
0.96960
1.452
0.797
0.21281
Tambahan!
Stata
cara
menggunakan
dapat
menghilangkan
masalah
akbarsuwardi@gmail.com
chi2
df
---------------------+----------------------------Heteroskedasticity |
18.57
20
0.5499
Skewness |
7.74
0.1710
Kurtosis |
0.35
0.5524
---------------------+----------------------------Total |
akbarsuwardi@gmail.com
26.67
26
0.4270
DAFTAR PUSTAKA
Gujarati, Damodar. 2006. Basic Econometrics. McGraw-Hill.
Glick, R., and Andrew Rose. 2001. Does a Currency Union affect Trade?
The Time Series Evidence. European Economic Review.
Hamilton, L. 20 06. Statistics With STATA: Updated for Version9. Belmont: Duxbury
Thomson Learning.
Harris, Mark and Laszlo Matyas. 1998. The econometrics of gravity models.
Melbourne Institute Working Paper no 5/98. Melbourne Institute of Applied
Economic and Social Research.
Manual Stata 11. 2009. Stata Press Publication, College Station, Texas
https://dss.princeton.edu/
https://www.ats.ucla.edu/
Jika ada kritik dan saran atas modul ini, silahkan email ke akbarsuwardi@gmail.com
Segala kritik dan saran sangat berharga bagi penulis.
akbarsuwardi@gmail.com