Modul STATA Akbar 2

LABORATORIUM KOMPUTASI
DEPARTEMEN ILMU EKONOMI

FAKULTAS EKONOMI UNIVERSITAS INDONESIA
MODUL
STATA: REGRESI LINEAR (OLS)CROSS SECTION

(Edisi:2011)
Oleh :
Akbar Suwardi
Lab. Komputasi Departemen Ilmu Ekonomi

Gedung Departemen Ilmu Ekonomi-FEUI Lt. 1, Depok
Telp. (021) 78886252

Gedung Dep. Ilmu Ekonomi-FEUI Lt. 1, Depok
Telp.(021)78886252
I.
REGRESI LINIER
Pengantar
Regresi linear adalah teknik statistika yang memberikan pendugaan dari
kemiringan suatu garis lurus (linear) dan posisi dimana garis tersebut memotong
sumbu y, berdasarkan sejumlah informasi mengenai hubungan antar variabel.
Memberikan pendugaan nilai a dan b, berdasarkan sejumlah informasi mengenai x
dan y, pada persamaan berikut: y=a+b.x
x disebut variabel independent, karena nilainya tidak tergantung variabel

lain.
y disebut variabel dependent, karena nilainya tergantung nilai x.
a dan b disebut parameter, a adalah intercept dan b adalah slope.
Regresi linear sederhana, apabila variabel dependent hanya ditentukan oleh satu
variabel independent. Contohnya: y = a + b.x + e. Sedangkan Jika Regresi Linear
berganda, apabila variabel dependent ditentukan oleh lebih dari satu variabel
independent. Contohnya: y = a + b1.x1 + b2.x2 + . + bn.xn + e. Dimana, e = error
term = perbedaan antara y aktual dengan y hasil estimasi garis regresi. Metode yang
digunakan untuk mengestimasi parameter garis regresi disebut metode Ordinary
Least Square (OLS). Metode ini meminimisasi jumlah dari error yang dikuadratkan
dari setiap observasi. Pada dasarnya, model regresi dengan OLS dibangun atas
asumsi CLRM (Classical Linier Regression Model). Asumsi tersebut memiliki properti
sesuai dengan Gauss-Markov Theorem yang menuntut adanya karakteristik Best
Linier Unbiassed dari penduga /estimatornya (Gujarati,2003), yakni:
Linier. Estimator OLS merupakan fungsi linier dari variabel acak (random).
Contoh: variabel terikat Y dalam model regresi
Tidak Bias. Nilai rata-rata atau nilai ekspektasi dari estimator sama dengan
nilai aktual/sesungguhnya,
akbarsuwardi@gmail.com
STATA Regersi Linear (OLS) | 1

Telp.(021)78886252
Varians Minimum. Estimator OLS memiliki nilai varians minimum. Kriteria
ini penting untuk memastikan bahwa estimator efisien. Dengan kata lain,
estimator yang tidak bias dengan varians terkecil dapat dikatakan sebagai
estimator yang efisien.
Atau lebih lengkapnya pada bab OLS di Gujarati (2003) ada 10 Asumsi Klasik regrsi
Linera, yaitu:
1. Model linear dalam parameter.
2. Nilai x tetap dalam pengambilan sampel yang diulang.
3. Nilai rata-rata dari error sama dengan nol.
4. Homoskedastis yaitu nilai varians dari setiap error sama.
5. Tidak ada korelasi antar error.
6. Covarians antara ui dan xi adalah nol.
7. Banyaknya observasi n harus lebih besar daripada banyaknya parameter
yang diestimasi.
8. Nilai dari xi harus bervariasi (tidak boleh sama).
9. Model regresi dispesifikasikan dengan benar.
10. Tidak ada multikolinearitas sempurna.
Aplikasi pada program stata :
Jika, data kita berupa Time Series, maka yang harus kitalakukan pertamakali adalah
mengeset waktu. Missal variabel waktu di data kita adalah time, maka perintahnya
adalah:
tsset time
Berikut adalah simulasi regresi linier (OLS) dari data states.dta, data ini diambil dari
buku Lawrence C. Hamilton (Chapter6). Data tersebut merupakan data OLS- Cross
Section, dimana data yang diambil berada pada tahun yang sama sedangkan

Telp.(021)78886252
memiliki Individu yang berbeda-beda. Dengan pertanyaan penelitian sebagai
berikut: Are SAT scores higher in states that spend more money on education controlling
by other factors?. Sedangkan, persamaan regresi 1:
csat = + 1 exp ense + 2 percent + 3income + 4 high + 5college +
Dimana :
csat
= SAT scores
expense
= Per pupil expenditure primary and secondary
percent
= % HS graduates taking SAT
income
= Median household income
high
= % adults with HS diploma
college
= % adults college degree
1. Persiapan, Sebelum me Run data (sebelum Regress)
Indentifikasi hubungan garis lurus antara setiap variabel independent dan

variabel dependent:
Create scatter plot for each X and Y.
plot csat expense , plot csat percent
Model ini yang akan kita gunakan dalam mengolah data pada modul ini. Sedangkan data yang digunakan
adalah data Cross Secion bukan Time Series, jadi dalam pengujian Asumsi OLS atau Uji BLUE pengujian
untuk Autokorelasi tidak akan ditampilkan oleh penulis.

Telp.(021)78886252
1093
M
e
a
n
+
|
*
|
|
*
|
|
*
*
c
| *
o
|
*
* *
*
m
|
*
**
*
*
p
|
* * * *
o
|
*
**
s
|
*
*
i
|
*
t
|
*
e
|
* *
*
*
|
*
*
S
|
*
*
*
*
*
*
A
|
*
** *
* *
**
T
|
*
|
832 +
**
*
+----------------------------------------------------------------+
2960
Per pupil expenditures prim&sec
9259
Cek partial corelation semua variabel independent dengan variabel dependent:

corr csat expense percent income high college
expense
percent
income
high
college
-------------+--------------------------------------------expense |
1.0000
percent |
0.6509
1.0000
income |
0.6784
0.6733
1.0000
high |
0.3133
0.1413
0.5099
1.0000
college |
0.6400
0.6091
0.7234
0.5319
1.0000
Hasil diatas dapat membantu kita melihat hubungan partial antara variabel, dan
yang perlu diperhatikan adalah hubungan antara Independent variabel dengan
Dependent variabel (hubungannya positif atau negatif). Jika nilai hubungan antara
Independent variabel dengan Dependent variabel sangatlah kecil, missal dibawah
0.001 maka sangat kecil pula variabel indepent tersebut mampu menjelaskan
variabel Independent.
Melihat Deskriptif atau tipe dari data
describe csat expense percent income high college region

Telp.(021)78886252
storage display
variable name
type
format
value
label
variable label
------------------------------------------------------------------------csat
int
%9.0g
Mean composite SAT score
expense
int
%9.0g
Per pupil expenditures prim&sec
percent
byte
%9.0g
% HS graduates taking SAT
income
double %10.0g
Median household income, $1,000
high
float
%9.0g
% adults HS diploma
college
float
%9.0g
% adults college degree
region
byte
%9.0g
region
Geographical region
Deskriptif atau tipe dari data untuk membantu kita dalam melihat jenis data kita,
dapat dilihat di storage type, sedangan kita juga dapat melihat apa variabel label
yang kita gunakan.
Cek Deskriptif Statistik data
summarize csat expense percent income high college region
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------csat |
51
944.098
66.93497
832
1093
expense |
51
5235.961
1401.155
2960
9259
percent |
51
35.76471
26.19281
81
income |
51
33.95657
6.423134
23.465
48.618
high |
51
76.26078
5.588741
64.3
86.6
-------------+-------------------------------------------------------college |
51
20.02157
4.16578
12.3
33.3
region |
50
2.54
1.128662
Sebelum kita melakukan regressi ada baiknya kita mengatahui dahulu berapa
jumlah observasu, mean, Std.Deviasi, nilai Maximum dan Nilai Minimum data yang
kita gunakan.

Telp.(021)78886252
2. Melakukan Regressi
Model ke Satu : Menggunakan Dua Variabel

Kita melakukan regresi sederhana, hanya 2 variabel. Dimana csat hanya
dipengaruhi oleh expense. Csat adalah variabel Dependent, dan expense adalah
variabel Independent.
regress csat expense

Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
1,
51
49) =
13.61
Model |
48708.3001
48708.3001
Prob > F
0.0006
Residual |
175306.21
49
3577.67775
R-squared
0.2174
Adj R-squared =
0.2015
Root MSE
59.814
-------------+-----------------------------Total |
224014.51
50
4480.2902
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------expense |
-.0222756
.0060371
-3.69
0.001
-.0344077
-.0101436
_cons |
1060.732
32.7009
32.44
0.000
995.0175
1126.447
Hasil estimasi kita menunjukkan bahwa, expense memiliki pengaruh negatif

terhadap csat dengan signifikan (=0.05). Berarti ketika expense naik satu
satuan, maka nilai csat akan turun sebesar 0.222756 satuan. Sedangkan nilai Rsquared = 0.2174, yang berarti 21.74% variasi dari nilai variabel csat (Variabel
Dependent) dapat dijelaskan oleh variasi nilai dari variabel expense (Variabel
Independent).
Model ke Dua : Menggunakan Lebih dari Dua Variabel

Kita melakukan regresi lebih komplek dengan variabel lebih dari 2. Dimana csat
tidak hanya dipengaruhi oleh expense, namun juga oleh percent, income, high
dan college. Csat adalah variabel Dependent, dan expense, percent, income, high
dan college adalah variabel Independent.

Telp.(021)78886252
regress csat expense percent income high college
Source |
SS
df
MS
Number of obs =
-------------+------------------------------
F(
5,
51
45) =
42.23
Model |
184663.309
36932.6617
Prob > F
0.0000
Residual |
39351.2012
45
874.471137
R-squared
0.8243
Adj R-squared =
0.8048
Root MSE
29.571
-------------+-----------------------------Total |
224014.51
50
4480.2902
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------expense |
.0033528
.0044709
0.75
0.457
-.005652
.0123576
percent |
-2.618177
.2538491
-10.31
0.000
-3.129455
-2.106898
income |
.1055853
1.166094
0.09
0.928
-2.243048
2.454218
high |
1.630841
.992247
1.64
0.107
-.367647
3.629329
college |
2.030894
1.660118
1.22
0.228
-1.312756
5.374544
_cons |
851.5649
59.29228
14.36
0.000
732.1441
970.9857
----------------------------------------------------------------------------------
Hasil estimasi kita menunjukkan bahwa, 1. Expense memiliki pengaruh negatif

terhadap csat dengan tidak signifikan (P>|t|) < (0.05). Berarti ketika expense
naik satu satuan, maka nilai csat dapat turun sekitar .0033528 satuan, dengan
asumsi bahwa variebel Independent lainnya tidak berubah, 2. Percent memiliki
pengaruh negatif terhadap csat dengan signifikan (P>|t|) < (0.05). Berarti
ketika percent naik satu satuan, maka nilai csat akan turun sebesar 2.618177
satuan, dengan asumsi bahwa variebel Independent lainnya tidak berubah.
3. College memiliki pengaruh positif terhadap csat dengan signifikan (P>|t|) <
(0.05). Berarti ketika college naik satu satuan, maka nilai csat akan naik sebesar
2.030894 satuan, dengan asumsi bahwa variebel Independent lainnya tidak
berubah, dan setrusnya.
Sedangkan nilai R-squared = 0.8243, yang berarti
82.43% variasi dari nilai variabel csat (Variabel Dependent) dapat dijelaskan oleh
variasi nilai dari variabel expense, percent, income, high dan college (Variabel
Independent).

Telp.(021)78886252
Model ke Tiga : Menggunakan Dummy Variabel

Kita melakukan regresi yang sama seperti regrssi berganda sebelumnya namun
menggunakan variabel region sebagai dummy, hanya 2 variabel. Dimana csat
dipengaruhi oleh expense. Csat adalah variabel Dependent, dan expense,
percent, income, high college dan Dummy adalah variabel Independent.
xi: regress csat expense percent income high college

i.region
i.region
_Iregion_1-4
Source |
SS
(naturally coded; _Iregion_1 omitted)
df
MS
Number of obs =
-------------+------------------------------
F(
8,
50
41) =
52.51
Model |
194023.719
24252.9649
Prob > F
0.0000
Residual |
18937.6605
41
461.894159
R-squared
-------------+-----------------------------Total |
212961.38
49
4346.15061
0.9111
Adj R-squared =
0.8937
Root MSE
21.492
-----------------------------------------------------------------------------csat |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------expense |
-.002021
.00424
-0.48
0.636
-.0105839
.0065419
percent |
-3.007647
.2328838
-12.91
0.000
-3.477965
-2.537329
income |
-.1674421
1.035771
-0.16
0.872
-2.259224
1.924339
high |
1.814731
1.184555
1.53
0.133
-.5775255
4.206988
college |
4.670564
1.708108
2.73
0.009
1.220969
8.120159
_Iregion_2 |
69.45333
14.95479
4.64
0.000
39.25151
99.65514
_Iregion_3 |
25.39701
13.32343
1.91
0.064
-1.510213
52.30423
_Iregion_4 |
34.57704
9.5368
3.63
0.001
15.31709
53.837
_cons |
808.0206
79.79478
10.13
0.000
646.8718
969.1694
------------------------------------------------------------------------------
Hasil estimasi kita menunjukkan bahwa, 1. Expense memiliki pengaruh negatif

terhadap csat dengan tidak signifikan (P>|t|) < (0.05). Berarti ketika expense
naik satu satuan, maka nilai csat dapat turun sekitar 0.002021 satuan, dengan
asumsi bahwa variebel Independent lainnya tidak berubah, 2. Percent memiliki

Telp.(021)78886252
pengaruh negatif terhadap csat dengan signifikan (P>|t|) < (0.05). Berarti
ketika percent naik satu satuan, maka nilai csat akan turun sebesar 3.007647
satuan, dengan asumsi bahwa variebel Independent lainnya tidak berubah.
3. College memiliki pengaruh positif terhadap csat dengan signifikan (P>|t|) <
(0.05). Berarti ketika college naik satu satuan, maka nilai csat akan naik sebesar
4.670564 satuan, dengan asumsi bahwa variebel Independent lainnya tidak
berubah, 4. Variebl dummy , ketika Negara tersebut adalah region 2 dan nilai
expense, percent, income, high dan college sama dengan 0, maka nilai csat sama
69.45333 + 808.0206 = 877.47393, dan setrusnya. Sedangkan nilai R-squared =
0.9111, yang berarti 91.11% variasi dari nilai variabel csat (Variabel Dependent)
dapat dijelaskan oleh variasi nilai dari variabel expense, percent, income, high
dan college (Variabel Independent).
3. Pemilihan Model
Untuk mendapatkan model yang terbaik dari penelitian kita serta menilai
variabel independent apa aja yang dimasukkan maka kita perlu melakukan
pengujian. Seperti pengujian Ramsey Reset untuk melihat apakah ada variabel
yang omitted dan pengujian menggunakan Akaike information criterion (AIC)
dan Bayesian information criterion (BIC) dimana smaller is better. AIC dan
BIC untuk melihat dari beberapa model ya mana yang lebih baik.
a. Uji Ramsey Reset
Ramsey regression adalah uji specification-error untuk omitted variables yang
ditenukan oleh Ramsey (1969). Ramsey Reset mencoba melihat apakah
Variabel Independent dalam model sudah cukup kita untuk menjelaskan

Telp.(021)78886252
Variabel Dependentnya. Pada pengujian ini untuk mendapatkana nilai y
yang tepat, y = xb + zt + u dan melakukan pengujian t = 0. Jika rhs option
tidak diikut sertakan, maka powers of the fitted valuesnya hanya dari z. Jika
rhs option diikut sertakan, maka powers of the individual element di x
digunakan. Perintah untuk menggunakan pengujian Ramsey Reset di Stata
adalah ovtest, rhs. Dengan Hipotesis :
H0 : Model tidak memiliki Ommitted Variabel
H1 : Model memiliki Ommitted Variabel
Hipotesa nol akan ditolak bila (Prob>F) < (0.005) atau nilai t-stat > nilai
kritis t-tabel.

(output omitted )
ovtest, rhs
Ramsey RESET test using powers of the independent variables
Ho:
model has no omitted variables

F(3, 46) =
0.31
Prob > F =
0.8192
Uji Ramsey Reset pada Model ke Satu menghasilkan nilai dari (Prob>F) >
(0.005), hal ini menandakan bahwa tidak ada cukup bukti bagi kita
untuk menolak H0. Berarti Variabel Independent dalam model kesatu
belum cukup untuk menjelaskan Variabel Dependentnya. Jadi masih
butuh menambahkan variabel Independent.

(output omitted )
ovtest, rhs

Telp.(021)78886252

Ho:

F(21, 23) =
2.12
Prob > F =
0.0408
Uji Ramsey Reset pada Model ke Dua menghasilkan nilai dari (Prob>F) <
untuk menerima H0. Berarti Variabel Independent dalam model ke Dua
sudah cukup untuk menjelaskan Variabel Dependentnya. Jadi tidak butuh
lagi menambahkan variabel Independent.

i.region
(output omitted )
ovtest, rhs

Ho:

F(15, 26) =
2.26
Prob > F =
0.0331
Uji Ramsey Reset pada Model ke Tiga menghasilkan nilai dari (Prob>F) <
untuk menerima H0. Berarti Variabel Independent dalam model ke Tiga
sudah cukup untuk menjelaskan Variabel Dependentnya. Jadi tidak butuh
lagi menambahkan variabel Independent.
Dari ketiga test Ramsey Rest tersebut maka model yang dapat kita gunakan
adalah model ke Dua dan ke Tiga. Dikarenakan tidak ada omitted variebel di

Telp.(021)78886252
kedua model tersebut. Namun dalam Model yang digunakan dalam modul
ini adalah model kedua, dimana model kedua ini masih sesuai dengan model
awal kita dan masih sesuai untuk menjelaskan tujuan dari yang kita cari.
b. Uji Akaike information criterion (AIC) dan Bayesian information criterion
(BIC)
Uji AIC dan BIC adalah pengujina yang popular utnk memebandingkan nilai
maximum likelihood di model.
AIC dan BIC dapat didefiniskian sebagai
berikut :
AIC = -2*ln(likelihood) + 2*k
BIC = -2*ln(likelihood) + ln(N)*k
Dimana
k = model degrees of freedom
N = Jumlah dari observations
Kita akan memilih model dari nilai AIC dan BIC lebih kecil, smaller is
better. Misalnya dalam contoh pada modul kita ini, dimana kita mempunyai
3 model alaternatif, walaupun diawal kita sudah menjelaskan akan
menggunakan model kedua. Berikut contohnya:

(output omitted )
estat ic
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
----------+--------------------------------------------------------------. |
51
-286.2507
-279.9987
2
563.9974
567.861
--------------------------------------------------------------------------

Telp.(021)78886252

(output omitted )
estat ic
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
---------+---------------------------------------------------------------. |
51
-286.2507
-241.9015
6
495.803
507.3939
--------------------------------------------------------------------------

i.region
(output omitted )
estat ic
-------------------------------------------------------------------------Model |
Obs
ll(null)
ll(model)
df
AIC
BIC
--------+----------------------------------------------------------------. |
50
-279.868
-219.369
9
456.7381
473.9463
--------------------------------------------------------------------------
Terlihat bahwa nilai dari AIC dan BIC, pada Model Ke Satu > Model Ke Dua
> Model Ke Tiga. Jadi bisa saja kita memlih model ke Tiga dalam model kita,
Namun dalam Model yang digunakan dalam modul ini adalah model kedua,
dimana model kedua ini masih sesuai dengan model awal kita dan masih
sesuai untuk menjelaskan tujuan dari yang kita cari.

Telp.(021)78886252
4. Evaluasi Hasil Regresi
Dari ketiga regressi kita akan menggunakan regresi yang ke dua. Dimana
regresi kedua sesuai dengan model awal kita. Walaupun hasil dari nilai Rsquared, Adjustd R-squared,
Ramsey Reset, AIC, dan BIC lebih
menunjukkan model ketiga (menggunakan dummy Region) lebih tepat. 2

4.1 Kriteria Ekonomi / Teori
Lakukan evaluasi terhadap tanda dari slope, apakah sudah sesuai dengan
teori. Jika belum, ada kemungkinan data yang digunakan dan spesifikasi
model regresi salah. Misalnya pada model kita apakah benar secara teori
atau Kriteria ekonomi bahwa expense memiliki hubungan positif dengan csat
yang artinya ketika nilai expense kita naik maka nilai dari csat akan naik.
Atau apakah benar hubungan income dengan csat adalah negative yang
artinya ketika nilai income kita naik maka nilai dari csat akan turun.
4.2 Kriteria Statistik
Uji signifikansi serentak (F-Test). Uji ini untuk melihat secara global,
apakah semua variabel bebas secara bersama-sama mempengaruhi
variabel terikatnya. Hipotesanya sebagai berikut:
H0 : 0 = 1 = 2 = 3 = 4 = .. = k = 0
H1 : 0 1 2 3 4 .. = k 0
Hipotesa nol akan ditolak bila (Prob > F) < atau nilai t-stat > nilai kritis
t-tabel. Dalam konteks model kita, uji global F dapat membuktikan
apakah benar variabel expense, percent, income, high dan college secara
bersama-sama mempengaruhi variabel csat. Pada output diatas nilai dari
Dikembalikan pada model atau pada sesuatu yang kita cari

Telp.(021)78886252
(Prob > F) = 0. Berarti (Prob > F) < (0.05), maka kita tidak cukup bukti
untuk menerima H0, yang berarti semua variabel independent tersebut
mampu menjelaskan atau mempengaruhi variabel dependent.
Uji signifikansi parsial (t-test). Uji ini untuk melihat secara individual,
apakah masing-masing variabel bebas secara signifikan berpengaruh
terhadap variabel terikat. Hipotesanya sebagai berikut:
H0 : k = 0
H1 : k 0
Hipotesa nol akan ditolak bila (P>|t|) < atau nilai t-stat > nilai kritis ttabel. Dalam konteks model kita, uji global F dapat membuktikan apakah
benar variabel expense, percent, income, high dan college secara bersamasama mempengaruhi variabel csat. Pada output diatas nilai dari (Prob > F)
= 0. Berarti (P>|t|) < (0.05). maka kita tidak cukup bukti untuk
menerima H0 yang berarti semua variabel independent tersebut mampu
menjelaskan atau mempengaruhi variabel dependent.
Uji Goodness of Fit. Uji ini untuk mengukur seberapa besar variasi dari
nilai variabel terikat (Variabel Dependent) dapat dijelaskan oleh variasi
nilai dari variabel-variabel bebasnya (Variabel Independent). Langkahnya
adalah dengan melihat R-squared dari hasil regresi estimasi. Dalam hasil
estimasi kita menggunakan model kedua, kita mendapatkan nilai dari Rsquared adalah 0.8243 artinya 82.43% variasi dari nilai variabel csat
(Variabel Dependent) dapat dijelaskan oleh variasi nilai dari variabel
expense, percent, income, high dan college (Variabel Independent).

Telp.(021)78886252
4.3 Kriteria Ekonometrika
a. Bebas dari Multicollinearitas
b. Bebas dari Heteroskedastisitas
c. Bebas dari Autokorelasi
5. Evaluasi Hasil Pelanggaran Asusmsi OLS dan Penanggulangannya 3
a. Uji Multicollinearitas
Didalam asumsi BLUE, antar variabel tidak ada hubungan exact collinearity
antar variabel independen. Jika ada maka OLS meskipun BLUE namuan
estimator akan mempunyai nilai varians dan covarians yang besar, makan
akan sulit untuk menentukan estimasi yang benar.
I.
II.
Deteksi :
2
i.
Nilai R tapi sangan sedikit variabel yang signifikan.
ii.
High pair-wise (zero-order) correlations among regressors

Test Multicollinearitas :
i. Examination of partial correlations :

Untuk Pearson correlation coefficient, digunakan perintah : correlate
varnames,
Contoh :
Jika data yang kita gunakan adalah data TIME SERIES maka pengujian Stasionaritas dengan
menggunakan Pengujian Unit Root Dengan DF Test dan Pengujian Unit Root Dengan ADF Test perlu
dilakukan. Namun ada juga pendapat yang menyatakan bahwa untuk OLS TIME SERIES, uji
Stasionaritas serta koentegrasi tidak perlu dilakukan. Pada Modul ini penulis tidak melakukan uji-uji
tersebut.
3

Telp.(021)78886252
corr expense percent income high college

|
expense
percent
income
high
college
-------------+--------------------------------------------expense |
1.0000
percent |
0.6509
1.0000
income |
0.6784
0.6733
1.0000
high |
0.3133
0.1413
0.5099
1.0000
college |
0.6400
0.6091
0.7234
0.5319
1.0000
Intepretasi : Dengan rule of thumb 0.8 atau 0.75, maka jika nilai pearson
correlation antar dua variabel lebih dari itu, mengindikasikan bahwa
dua variable itu memiliki hubungan yang kuat (ada multicollinearitas)
ii. Tolerance and variance inflation factor (VIF) :
(output omitted )
vif
Variable
VIF
1/VIF
-------------+---------------------income |
3.21
0.311756
college |
2.73
0.365683
percent |
2.53
0.395603
expense |
2.24
0.445673
high |
1.76
0.568732
-------------+---------------------Mean VIF |
2.49
Intepretasi : Jika nilai VIF lebih besar dari 10 atau tolerance (1/VIF)
adalah .01 atau kurang, mengindikasikan adanya multicollinearitas.
Maka berdasarkanhasil diatas, data kita tidak ada variabel yang
multicollinearitas yang kuat.

Telp.(021)78886252
III.
Koreksi :
Do nothing
If the main purpose of modeling is predicting Y only, then dont worry.
(since ESS is left the same)
Dont worry about multicollinearity if the R-squared from the
regression exceeds the R-squared of any independent variable
regressed on the other independent variables.
First difference, dibuat First difference pada salah satu variabel yang
bermasalah multicol, pada stata dapat dilakukan dengan perintah:
gen [nama variabel first difference] = D.[variabel awal]
contoh :
gen fdx1= D.x1
Diubah rumus dalam mendapatkan variabel tersebut, dapat diubah

menjadi ln atau dibuat selisih antar waktu
Menambah jumlah data
Hilangkan salah satu variabel yang berkaitan erat, dapat dilihat pada
perinta corr, yaitu Pearson correlation coefficient yang lebih dari 0.8
atau 0.75
b. Uji Heteroskedastisitas
Ketika terjadi heteroscedastisitas OLS estimators akan unbiased karena hasil
estimator akan mempunyai pergeakan error yang berpola,Oleh karena itu
OLS tidak tidak efisien, dan S.E. biased.

Telp.(021)78886252
i.
Deteksi :
Residual vs fitted plots

Residual vs fitted plots merupakan prosedur grafik untuk melihat
apakah ada pola antara nilai residual (error) dan fitted values (predicted
values) hasil estimasi regresi. Grafik ini juga dapat menjadi indicator awal
terhadinya
heteroskedastisitas
dalam
model
ekonometrik.
Model
ekonometrik yang baik adalah jika residual vs fitted value plot tidak
menunjukkan sebuah pola.
Residual vs fitted plot dapat dibuat dengan perintah:
rvfplot, yline(0)
Contoh:
Kita melakukan perintah regresi terlebih dahulu:
(output omitted )
rvfplot, yline(0)
Maka akan menghasilkan grafik sebagai berikut :
-50
Residuals
50
100

Telp.(021)78886252
850
900
950
Fitted values
1000
1050
Estimasi yang kita lakukan memilki nilai kesalahan (error) yang hetero
atau tidak dapat dilihat ketika nilai error kita tersebut tersebar diantar
suatu range. Misalnya, seperti output diatas bahwa persebaran nilai error
kita diantara range -50 sampe 50 (sebagian besar)
maka dapat kita
simpulkan bahwa persebaran nilai error kita homokedastis. Namun,

untuk lebih meyakinkan kita dapat melakukan uji Heteroskedastisitas
lebih lanjut, misalnya dengan Breusch-Pagan / Cook-Weisberg test.
Test Heteroskedastisitas :
ii.
Dalam estimasi menggunakan data cross section, masalah yang umum

timbul adalah heteroskedastisitas atau varians residual yang tidak
seragam. Salah satu metode untuk menguji adanya heteroskedastisitas
dalam ekonometrik adalah Cook and Weisbergs test. Stata dapat
melakukan pengujian ini dengan perintah hettest [varlist] [,rhs] atau
szroeter [varlist] [,rhs] setelah melakukan regresi.
Hipotesis:
H0 : Constant Variance
H1 : NO Constant Variance

Telp.(021)78886252
Keputusan: Tolak H0, Jika
atau
Jika p-value < 5%

Contoh:
Kita melakukan perintah regresi terlebih dahulu:
regress csat expense percent income high
college
(output omitted )
hettest
Maka akan muncul output sebagai berikut:
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of csat
chi2(1)
Prob > chi2
=
=
0.01
0.9087
Intepretasi : Berdasarkan hasil uji Breusch-Pagan / Cook-Weisberg,

dimana nilai Prob > chi2 =
0.9087, lebih besar dari alfa (0.05) maka
dapat disimpulkan bahwa estimasi kita terbebas dari masalah

heteroskedastisitas.
iii.
Koreksi :
Ketika variance diketahui: gunakan WLS method
reg csat* expense* percent*.... noconstant
cf. csat* = cssat/ , expense* = expense /
Transformasi logaritma
Robust

Telp.(021)78886252
regress csat expense percent income high college,
robust
Linear regression
Number of obs =
F(
5,
51
45) =
50.90
Prob > F
0.0000
R-squared
0.8243
Root MSE
29.571
----------------------------------------------------------------|
csat
Robust
Coef.
Std. Err.
P>|t|
-------------+--------------------------------------------------expense |
0.70 0.487
-.0062766
.0129823
percent |-2.618177
.2288594 -11.44 0.000
-3.079123
-2.15723
income
.105585
1.207246
0.09 0.931
-2.325933
2.537104
high
| 1.630841
.943318
1.73 0.091
-.2690989
3.530781
college | 2.030894
2.113792
0.96 0.342
-2.226502
6.28829
_cons
57.28743
14.86 0.000
736.1821
966.9477
Perintah
.003352
| 851.5649
robust
.004781
tersebut
akan
secara
otomatis
menghilangkan
heteroskedastisitas dengan jalan membobotkan dengan robust standar

eror. Hasil regresi yang didapat telah dapat dipastikan telah terbebas dari
heteroskedastisitas.
c.
Uji Autokorelasi
Autokorelasi suatu keadan dimana terjadi korelasi eror antar periode waktu.
Adanya autokolareasi akan membuat OLS linear unbiased, consistent dan
asymptotically normally distributed dan tidak lagi efficient (tidak varians
minimum tdk BLUE). Autokorelasi umumnya terjadi pada data time series,
sebelum melakukan regresi kita harus mendefinisikan terlebih dahulu time
variable kita dengan perintah
tsset [timevar].

Telp.(021)78886252
I.
Deteksi :
Create plot
(output omitted )
predict resi, resi
gen lagged resi = resi[_n-1]
plot resi lagged resi
Error saat ini (t), memilki hubungan dengan error sebelumnya (t-1),
atau errosr saat
ini memiliki hubungan dengan error-error
sebelumnya (t-2), dst.

II. Test Autokorelasi 4 :
Durbin Watson statistic
Hipotesis: =
H0 : Tidak ada Autokorelasi
H1 : Ada Autokorelasi
Keputusan : Jika nilai DWstat disekitar 2 atau 1,54<Dwstat<2,5

maka tidak ada cukup bukti untuk menolak H0
Menginat data yang digunakan ini bukanlah data time series, maka penulis tidak dapat memberikan contoh
output pada setiap pengujian. Jadi hanya Ilustrasi, Autokorelasi hanya ada pada data kita yang bersifat TimeSeries.

Telp.(021)78886252
Contoh:
(output omitted )
Dwstat
BreuschGodfrey (BG) Test / LM test
Hipotesis:
H0: 1 = 2 = 3 = Tidak Ada Autokorelasi
H1 : Ada Autokorelasi
Keputusan: Tolak H0,
Jika
atau
Jika p-value < 5%

Contoh:
(output omitted )
bgodfrey
III. Koreksi :
Menggunakan metode GLS (Generalized Least Squares)

Telp.(021)78886252
Estimate : = 1 d/2 (D-W ) or = n (1- d/2) + k /n k (TheilNagar)

Regress dengan transformed variables dan dapatkan new d statistic.
Compare it with dLcritical and dUvalues
First difference, dibuat First difference pada salah satu variabel yang
bermasalah multicol, pada stata dapat dilakukan dengan perintah:
gen [nama variabel first difference] = D.[variabel awal]
Contoh :
gen fdx1= D.x1
Perhitungan Prais-Winsten and Cochrane-Orcutt regression (Prais)

Prais menggunakan metode Generalized Least Squares (GLS) untuk
mengestimasi parameter di dalam model linear regression model,
yang mana errornya mempunyai
serial korelasi. Namun Prais
mengasumsikan error yang terkolerasi pada first order atau dapat

diakatakan Prais hanya mampu menyelesaikan masalah Autokorelasi
pada first order saja. pada stata dapat dilakukan dengan bentuk
perintah:
prais
[dependen
variabel]
[independent
variabel]...[variabel
independent ke-n].
contoh :
prais csat expense percent income high college
Perintah prais akan secara otomatis menghilangkan autokorelasi
dengan jalan menambahkan variabel autoregresion dengan lag yang
ditentukan oleh program stata. Hasil regresi yang didapat telah dapat
dipastikan telah terbebas dari autokorelasi.
Menambah variabel autoregressif (ar)

Telp.(021)78886252
Menambahkan lag dependent variabel atau menambah lag pada

variabel independent.
d. Testing Normality of residuals

(output omitted )
predict e, resid
0.00
0.25
Normal F[(zr-m)/s]
0.50
0.75
1.00
pnorm e
0.00
0.25
0.50
Empirical P[i] = i/(N+1)
0.75
1.00
Ketika titik titik kita teratur seperti diatas, maka dengan visual kita dapat
menyimpulkan residual dari estimasi kita distribusi secara normal. Namun,
jika kita tidak yakin maka kita dapat melakukan pengujian Shapiro-Wilk and
Shapiro-Francia tests for normality, dengan perintah:
Swilk e

Telp.(021)78886252
Shapiro-Wilk W test for normal data
Variable |
Obs
Prob>z
-------------+-------------------------------------------------e |
51
0.96960
1.452
0.797
0.21281
H0 : error term terdistribusi normal.

H1 : error term tidak terdististribusi normal.
Dimana, ketika nilai Prob>z lebih kecil dari alfa ( ), maka variabel tidak
terdistribusi secara normal. Untuk pengujian diatas karena nilai Prob>z =
0.21281, maka dapat disimpulkan bahwa residual (e) terdistribusi secara
normal.
Tambahan!
Prais-Winsten and Cochrane-Orcutt regression dan Robust

Pada
Stata
cara
menggunakan
dapat
menghilangkan
masalah
Heterosekdasitas dan Autokorelasi secara langsung dengan menggabungkan

perintah prais dan robust. Dengan bentuk perintah:
prais [variabel dependent] [variabel independent][variabel independent
ke-n], robust.
Contoh:
prais csat expense percent income high college, robust
(output omitted )
Gabungan perintah prais dan robust akan secara otomatis menghilangkan
Heterosekdasitas dan Autokorelasi pada model kita tersebut.

Telp.(021)78886252
Uji Cameron & Trivedi's

(output omitted )
estat imtest
Cameron & Trivedi's decomposition of IM-test
--------------------------------------------------Source |
chi2
df
---------------------+----------------------------Heteroskedasticity |
18.57
20
0.5499
Skewness |
7.74
0.1710
Kurtosis |
0.35
0.5524
---------------------+----------------------------Total |
26.67
26
0.4270

Telp.(021)78886252
DAFTAR PUSTAKA
Gujarati, Damodar. 2006. Basic Econometrics. McGraw-Hill.
Glick, R., and Andrew Rose. 2001. Does a Currency Union affect Trade?
The Time Series Evidence. European Economic Review.
Hamilton, L. 20 06. Statistics With STATA: Updated for Version9. Belmont: Duxbury
Thomson Learning.
Harris, Mark and Laszlo Matyas. 1998. The econometrics of gravity models.
Melbourne Institute Working Paper no 5/98. Melbourne Institute of Applied
Economic and Social Research.
Manual Stata 11. 2009. Stata Press Publication, College Station, Texas
https://dss.princeton.edu/
https://www.ats.ucla.edu/
Jika ada kritik dan saran atas modul ini, silahkan email ke akbarsuwardi@gmail.com
Segala kritik dan saran sangat berharga bagi penulis.

Modul STATA Akbar 2

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul STATA Akbar 2

Diunggah oleh

Hak Cipta:

Format Tersedia

LABORATORIUM KOMPUTASI

DEPARTEMEN ILMU EKONOMI

STATA: REGRESI LINEAR (OLS)CROSS SECTION

Lab. Komputasi Departemen Ilmu Ekonomi

Lab. Komputasi Departemen Ilmu Ekonomi

x disebut variabel independent, karena nilainya tidak tergantung variabel

y disebut variabel dependent, karena nilainya tergantung nilai x.

a dan b disebut parameter, a adalah intercept dan b adalah slope.

STATA Regersi Linear (OLS) | 1

Lab. Komputasi Departemen Ilmu Ekonomi

STATA Regersi Linear (OLS) | 2

Lab. Komputasi Departemen Ilmu Ekonomi

csat = + 1 exp ense + 2 percent + 3income + 4 high + 5college +

= Per pupil expenditure primary and secondary

= % HS graduates taking SAT

= Median household income

= % adults with HS diploma

= % adults college degree

1. Persiapan, Sebelum me Run data (sebelum Regress)

Indentifikasi hubungan garis lurus antara setiap variabel independent dan

plot csat expense , plot csat percent

STATA Regersi Linear (OLS) | 3

Lab. Komputasi Departemen Ilmu Ekonomi

Cek partial corelation semua variabel independent dengan variabel dependent:

Melihat Deskriptif atau tipe dari data

describe csat expense percent income high college region

STATA Regersi Linear (OLS) | 4

Lab. Komputasi Departemen Ilmu Ekonomi

Mean composite SAT score

Per pupil expenditures prim&sec

% HS graduates taking SAT

Median household income, $1,000

% adults college degree

Cek Deskriptif Statistik data

summarize csat expense percent income high college region

STATA Regersi Linear (OLS) | 5

Lab. Komputasi Departemen Ilmu Ekonomi

Model ke Satu : Menggunakan Dua Variabel

regress csat expense

[95% Conf. Interval]

Hasil estimasi kita menunjukkan bahwa, expense memiliki pengaruh negatif

Model ke Dua : Menggunakan Lebih dari Dua Variabel

STATA Regersi Linear (OLS) | 6

Lab. Komputasi Departemen Ilmu Ekonomi

[95% Conf. Interval]

Hasil estimasi kita menunjukkan bahwa, 1. Expense memiliki pengaruh negatif

Sedangkan nilai R-squared = 0.8243, yang berarti

STATA Regersi Linear (OLS) | 7

Lab. Komputasi Departemen Ilmu Ekonomi

Model ke Tiga : Menggunakan Dummy Variabel

xi: regress csat expense percent income high college

(naturally coded; _Iregion_1 omitted)

[95% Conf. Interval]

Hasil estimasi kita menunjukkan bahwa, 1. Expense memiliki pengaruh negatif

STATA Regersi Linear (OLS) | 8

Lab. Komputasi Departemen Ilmu Ekonomi

STATA Regersi Linear (OLS) | 9

Lab. Komputasi Departemen Ilmu Ekonomi

Model ke Satu : Menggunakan Dua Variabel

model has no omitted variables

Model ke Dua : Menggunakan Lebih dari Dua Variabel

STATA Regersi Linear (OLS) | 10

Lab. Komputasi Departemen Ilmu Ekonomi

Ramsey RESET test using powers of the independent variables