Buku Analisis Regresi Linear PDF
Buku Analisis Regresi Linear PDF
REGRESI LINEAR
Johan Harlan
Analisis Regresi Linear
Penulis : Johan Harlan
Cetakan Pertama, Agustus 2018
Penulis
v
DAFTAR ISI
Kata Pengantar v
Daftar Isi vi
Bab 1 Diagram Tebar dan Garis Regresi 1
Diagram Tebar 1
Garis Regresi 2
vi
Bab 5 Estimasi Koefisien Regresi dan Interpretasi 39
Hasil
Metode Estimasi Koefisien Regresi 39
Tabel Analisis Variansi 40
Tabel Koefisien Regresi 43
Kepustakaan 106
vii
BAB 1
DIAGRAM TEBAR DAN
GARIS REGRESI
Diagram Tebar
Diagram tebar (scatter
scatter diagram
diagram) adalah diagram dua dimensi untuk
sampel pengamatan bivariat. Diagram
iagram tebar merupakan alat bantu yang
penting untuk menilai tipe hubungan antar 2 variabel kontinu.
Gambar 1.1 Rerata suhu tahunan di suatu wilayah dan angka kematian
karena kanker payudara
1
Contoh 1.1:
Garis Regresi
Garis regresi adalah garis lurus di antara titik
titik-titik pada diagram tebar
yang secara terbaik menggambarkan hubungan linear antara kedua variabel
pada diagram tebar tersebut. Garis ini sering pula disebut sebagai garis
dengan kesesuaian terbaik (line
line of best
best-fit), yang memiliki jarak terdekat
dengan seluruh titik-titik
titik pada diagram tebar itu.
Contoh 1.2:
Pada contoh ini, dengan menggunakan file dataset auto_simp.dta
yang sama seperti pada contoh 1.1, akan diperlihatkan perintah Stata mula
mula-
mula untuk memperoleh diagram tebar beserta garis regresinya dan
kemudian hanya diagram garis regresinya.
3
. use “D:\Analisis
Analisis Regresi Linear
Linear\Data\auto_simp.dta”, clear
(1978 Automobile Data)
4
BAB 2
REGRESI LINEAR SEDERHANA
5
` β 0 dan β 1 merupakan parameter dalam populasi yang hendak
diestimasi dalam fitting model. Pada fitting model dengan data sampel akan
diperoleh persamaan garis regresi (gambar 2.1)
2.1):
Yˆi = b 0 + b1 X i ; i = 1, 2, . . . , n
6
Contoh 2.1:
----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
7
Tampak estimasi intersep dan koefisien regresi, masing-masing
sebesar 744.25 dan −0.20. Estimasi intersep menyatakan prediksi nilai
respons, jika prediktor bernilai nol, walaupun hal ini tidak realistis di sini,
yaitu jika enroll bernilai sama dengan nol (tidak ada calon siswa yang
mendaftarkan diri), tidak mungkin kinerja akademik api00 bernilai 744.25.
Perlu dijelaskan bahwa prediksi nilai respons hanya berlaku dalam rentang
nilai-nilai prediktor dalam sampel, yaitu 130 s.d. 1,570.
Contoh 2.2:
8
Source | SS df MS Number of obs = 74
---------+--------------------------- F(1, 72) = 134.62
Model | 1591.9902 1 1591.9902 Prob > F = 0.0000
Residual | 851.469256 72 11.8259619 R-squared = 0.6515
---------+--------------------------- Adj R-squared = 0.6467
Total | 2443.45946 73 33.4720474 Root MSE = 3.4389
--------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------
weight | -.0060087 .0005179 -11.60 0.000 -.0070411 -.0049763
_cons | 39.44028 1.614003 24.44 0.000 36.22283 42.65774
--------------------------------------------------------------
. regress, beta
9
--------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| Beta
-------+------------------------------------------------------
weight | -.0060087 .0005179 -11.60 0.000 -.8071749
_cons | 39.44028 1.614003 24.44 0.000 .
-------------------------------------------------------------
Contoh 2.3:
. tabulate yr_rnd
10
year round |
school | Freq. Percent Cum.
-----------+---------------------------------
No | 308 77.00 77.00
Yes | 92 23.00 100.00
-----------+---------------------------------
Total | 400 100.00
11
-------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------
yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239
_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751
-------------------------------------------------------------
12
BAB 3
REGRESI LINEAR GANDA
Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β k X ki + ε i
Yˆi = b 0 + b1 X1i + b 2 X 2i + . . . + bk X ki ; i = 1, 2, . . . , n
13
Contoh 3.1:
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
14
api
2000
20
avg
class
0 size
k-3
-20
100
pct
50 free
meals
0
100.00
0.00
400 600 800 1000
-20 0 20 0 50 100
15
--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------
16
Regresi Linear Ganda dengan Prediktor
Kategorik Non-Biner
Z1 Z2
X=1 0 0
X=2 1 0
X=3 0 1
Yi = β 0 + β 1 Z1i + β 2 Z 2i + ε i
Contoh 3.2:
. tabulate ses
----------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------
ses |
middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797
high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
|
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
----------------------------------------------------------
19
---------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
_Ises_2 | 4.003135 1.702093 2.35 0.020 .6464741 7.359797
_Ises_3 | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
---------------------------------------------------------------
Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + ε i
Pada model dengan interaksi, suku-suku yang ada pada ruas kanan
persamaan dibedakan menjadi (a) suku variabel tunggal yang tidak
20
menyatakan interaksi, disebut sebagai efek utama (main effects) dan (b)
suku perkalian dua (atau lebih) variabel tunggal yang menyatakan suku
interaksi.
Contoh 3.3:
21
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
-----------------------------------------------------------------
-------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------------+--------------------------------------------------------
usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813
kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808
|
c.usia# |
c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404
|
_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377
-------------------------------------------------------------------------
22
Contoh di bawah ini menunjukkan regresi linear ganda dengan 1
prediktor kontinu, usia, dan 1 prediktor kategorik biner, rokok.
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------------------------------------------------------
usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886
rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724
_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148
-----------------------------------------------------------------
23
--------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------------+-------------------------------------------------------------
usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343
rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693
|
rokok# |
c.usia |
1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555
|
_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803
--------------------------------------------------------------------------
24
-------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+--------------------------------------------------------
usia | .8387384 .420814 1.99 0.049 .0032023 1.674275
|
pend |
2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523
3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482
4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877
5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951
|
_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838
-------------------------------------------------------------------
25
------------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985
|
pend |
2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652
3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221
4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465
5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399
|
pend#c.usia |
2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588
3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838
4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761
5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478
|
_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776
------------------------------------------------------------------------------
26
BAB 4
ASUMSI-ASUMSI PADA
REGRESI LINEAR
Beberapa asumsi pada model regresi linear yaitu:
a. Model adekuat
b. Asumsi linearitas
c. Asumsi independensi dan non-otokorelasi
d. Asumsi normalitas
e. Asumsi homoskedatisitas
f. Asumsi non-multikolinearitas.
Kelima asumsi pertama berlaku untuk regresi linear sederhana
maupun ganda, sedangkan asumsi terakhir hanya berlaku pada regresi linear
ganda. Pada umumnya, seluruh asumsi-asumsi baru dapat dinilai validitasnya
setelah dilakukan fitting model.
Model Adekuat
Uji ini terutama penting pada regresi linear ganda, karena pada
regresi linear sederhana, uji F untuk model pada hakekatnya sama dengan uji
t untuk prediktor tunggalnya.
27
Contoh 4.1:
Asumsi Linearitas
28
Contoh 4.2:
. maxr2
29
SSLF (df) = 5574305.5 (306) MSLF = 18216.684
SSPE (df) = 1682040.3 (92) MSPE = 18283.046
Contoh 4.3:
30
. gen e=api00-yhat
. predict e, residuals
31
Asumsi Normalitas
Contoh 4.4:
. predict e, residuals
. swilk e
32
Asumsi Homoskedatisitas
Asumsi homoskedastisitas menyatakan bahwa suku galat memiliki
variansi konstan. Asumsi ini dapat diperiksa dengan uji Breusch-Pagan dan
uji White, keduanya menguji H0 : Homoskedastisitas vs H1 :
Heteroskedastisitas. Uji Breusch-Pagan ditujukan untuk menguji linear
heteroskedasticity, sedangkan uji White menggunakan H1 : Unrestricted
heteroskedasticity untuk menguji hourglass heteroskedasticity.
Contoh 4.5:
. estat hettest
chi2(1) = 1.91
Prob > chi2 = 0.1665
33
. estat imtest, white
chi2(2) = 3.78
Prob > chi2 = 0.1514
---------------------------------------------
Source | chi2 df p
-------------------+-------------------------
Heteroskedasticity | 3.78 2 0.1514
Skewness | 34.11 1 0.0000
Kurtosis | 26.44 1 0.0000
-------------------+-------------------------
Total | 64.32 4 0.0000
---------------------------------------------
Pada regresi linear ganda, dengan adanya lebih daripada satu variabel
independen, pengujian keempat asumsi di atas harus dilakukan untuk
pasangan variabel dependen dengan tiap variabel independennya satu-per-
satu.
Asumsi Non-Multikolinearitas
Contoh 4.6:
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
35
Matriks korelasi yang disajikan dalam bentuk diagram tebar adalah:
api
2000
20
avg
class
0 size
k-3
-20
100
pct
50 free
meals
0
100.00
0.00
400 600 800 1000
-20 0 20 0 50 100
Fitting model:
36
Source | SS df MS Number of obs = 313
---------+------------------------------ F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+------------------------------ Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153
------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
------------------------------------------------------------------------
Tampak bahwa untuk ketiga variabel independen tidak ada nilai VIF
yang lebih besar daripada 10 atau nilai Tolerance = 1/VIF yang kurang
daripada 0.10, sehingga disimpulkan tidak ada multikolinearitas.
37
BAB 5
ESTIMASI KOEFISIEN REGRESI
DAN INTERPRETASI HASIL
Yˆi = b 0 + b1 X i
∂Q ∂Q
=0 dan =0 (5.2)
∂b0 ∂b1
sehingga diperoleh:
n b 0 + b1 ∑ X i − ∑ Yi =0 (5.3.a)
39
Diperoleh rumus untuk koefisien regresi b1 :
b1 =
∑ ( X i − X )(Yi − Y ) (5.4)
2
∑( Xi − X )
dan b 0 = Y − b1 X (5.5)
Dari model:
Yi = β 0 + β 1 X i + ε i
Rerata
Sumber Variasi Jumlah Kuadrat db
Kuadrat
Model JKR k RKR
Galat JKG n–k–1 RKG
JKT n–1
41
Statistik pengujinya adalah:
JKR k RKR
Fuji = = (5.6)
JKG ( n − k − 1) RKG
adj R 2
=1−
(1 − R2 ) ( n − 1)
(5.8)
n − p −1
JKG
Root MSE = RKG = (5.9)
n − k −1
Nilai ini akan digunakan pada sejumlah uji statistik pasca fitting model
regresi.
42
Tabel Koefisien Regresi
Tabel ini terutama berguna pada analisis regresi ganda. Pada analisis
regresi sederhana dengan hanya satu variabel independen, nilai p untuk uji
signifikansi koefisien regresinya adalah sama dengan nilai p untuk model
pada uji F, tetapi pada analisis regresi ganda, dengan adanya beberapa
variabel independen, tiap variabel independen akan memiliki nilai
kemaknaan sendiri-sendiri, sehingga diperlukan tabel koefisien regresi untuk
melihat kemaknaan masing-masing variabel independen.
bj bj
tuji = = (5.10)
SEˆ b ( j) RKG JKR
43
Contoh 5.1:
----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
Contoh 5.2:
--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------
47
Dari hasil uji Wald dengan uji t untuk ketiga estimasi koefisien
regresi, tampak bahwa acs_k3 tidak jelas bermakna (p = 0.055), meals
jelas bermakna (p = 0.000), dan full tidak bermakna (p = 0.232) terhadap
respons api00.
Kedua kolom terakhir menyatakan nilai batas bawah dan batas atas
interval konfidensi 95%. Jika p > 0.5, maka batas bawah akan bernilai
negatif dan batas atas positif, sedangkan jika p < 0.05, maka batas bawah dan
atas akan keduanya bernilai negatif atau keduanya bernilai positif.
48
BAB 6
KONFAUNDING DAN INTERAKSI
Konfaunding
a. X 2 berpengaruh terhadap Y
49
X 1 terhadap respons Y (dinyatakan dengan koefisien regresinya) pada
berbagai taraf nilai konfaunder X 2 ini adalah sama ataupun hampir sama.
Y = β0 + β1 X1 + ε
c
(6.1)
Y = β0 + β1 X1 + β 2 X 2 + ε
c c
(6.2)
∆b = cr − β 1 − adj − β 1
c
(6.3)
50
Walaupun tak selalu, pada umumnya konfaunder adalah variabel
kategorik, dan dalam keadaan ini perlu diperiksa koefisien regresi prediktor
terhadap respons pada tiap taraf kategori konfaunder, yaitu koefisien regresi
spesifik-kategori. Koefisien regresi spesifik-kategori ini harus hampir sama,
tetapi jelas berbeda dengan koefisien regresi “kasar”. Jika koefisien regresi
spesifik-kategori jelas saling berbeda satu sama lain, hal ini mengindikasikan
kemungkinan adanya interaksi.
Contoh 6.1:
51
Dengan mengendalikan konfaunfer pertama, yaitu faktor Usia
sebagai variabel biner (Usia dewasa > 20 tahun vs Usia anak < 20 tahun)
pada diagram kedua, tampak adanya kecenderungan kenaikan indeks massa
tubuh yang sejalan dengan kenaikan asupan makanan di kedua kelompok
Usia.
52
Contoh 6.2 (Konfaunder kategorik):
53
. tab age_cat
Age |
Categorical | Freq. Percent Cum.
------------+-----------------------------------
< 52 years | 3,309 70.42 70.42
>= 52 years | 1,390 29.58 100.00
------------+-----------------------------------
Total | 4,699 100.00
54
----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407
_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647
----------------------------------------------------------------
---------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
age_cat | 1.279192 .1297432 9.86 0.000 1.024835 1.53355
_cons | 25.25395 .0705055 358.18 0.000 25.11572 25.39217
---------------------------------------------------------------
55
. regress sbp age_cat
-----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+--------------------------------------------------------
age_cat | 17.00044 .6853591 24.81 0.000 15.65682 18.34407
_cons | 127.7377 .3727545 342.69 0.000 127.0069 128.4685
-----------------------------------------------------------------
----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.619515 .0778075 20.81 0.000 1.466959 1.772071
_cons | 86.82944 1.988993 43.65 0.000 82.92966 90.72923
----------------------------------------------------------------
56
. regress sbp bmi if age_cat==1
---------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+--------------------------------------------------------
bmi | 1.524472 .16304 9.35 0.000 1.204639 1.844304
_cons | 104.3127 4.381322 23.81 0.000 95.71796 112.9075
---------------------------------------------------------------
----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------------
bmi | 1.588524 .0737103 21.55 0.000 1.444017 1.733031
age_cat | 15.00111 .6615513 22.68 0.000 13.70416 16.29806
_cons | 87.61209 1.895182 46.23 0.000 83.89664 91.32754
----------------------------------------------------------------
57
Estimasi model adalah
sbp = 87.612 + 1.589.bmi + 15.001.age_cat + e
dengan adj − β 1 = 1.589, yaitu kenaikan 1 satuan bmi akan menyebabkan
kenaikan sbp sebesar 1.589 satuan.
Tampak bahwa:
∆b = cr − β 1 − adj − β 1
c
----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407
_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647
----------------------------------------------------------------
59
----------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
age | .0869364 .0069218 12.56 0.000 .0733663 .1005064
_cons | 21.63002 .3239954 66.76 0.000 20.99484 22.2652
----------------------------------------------------------------
--------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+-------------------------------------------------------
age | 1.057829 .0359468 29.43 0.000 .9873561 1.128301
_cons | 84.06298 1.68302 49.95 0.000 80.76347 87.36249
--------------------------------------------------------------
60
-----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+----------------------------------------------------------
bmi | 1.478067 .0728609 20.29 0.000 1.335225 1.620908
age | .9311772 .0351072 26.52 0.000 .8623506 1.000004
_cons | 52.01112 2.257478 23.04 0.000 47.58541 56.43684
-----------------------------------------------------------------
yang bahkan lebih besar daripada untuk perhitungan age kategorik sebagai
konfaunder potensial di atas, yang dengan “rule of thumb” juga
mengindikasikan adanya konfaunding.
61
Interaksi
Interpretasi interaksi dapat dibedakan menjadi 2 konsep yang berbeda
namun saling berkaitan, yaitu modifikasi efek (effect modification) dan
interaksi statistik (statistical interaction).
Modifikasi Efek
Y = β0 + β1 X1 + ε
c
Y = β0 + β1 X1 + β 2 X 2 + β 3 X1 X 2 + ε
c c c
62
suku interaksi β 3 X 1 X 2 maupun suku pemodifikasi-efeknya β 2 X 2
c c
menjadi:
Y = β0 + β1 X1 + ε
c
Interaksi Statistik
Y = β0 + β1 X1 + β 2 X 2 + ε
c c
Y = β0 + β1 X1 + β 2 X 2 + β 3 X1 X 2 + ε
c c c
Pengujian statistik juga dilakukan dengan uji Wald pada fitting model regresi
terhadap hipotesis H 0 : β 3 = 0, biasanya dengan tingkat signifikansi α =
c
0.25. Seandainya pada uji statistik ini hipotesis nol tidak ditolak maka
interaksi dianggap tidak ada dan tidak hanya suku interaksi β 3 X 1 X 2 yang
c
Y = β0 + β1 X1 + β 2 X 2 + ε
c c
63
Suku interaksi statistik biasanya berisikan perkalian antar dua
variabel kontinu. Pengujian cukup dilakukan dengan uji Wald.
Contoh 6.4:
. tab collcat
64
. tab mealcat
Percentage |
free meals |
in 3 |
categories | Freq. Percent Cum.
------------+-----------------------------------
1 | 131 32.75 32.75
2 | 132 33.00 65.75
3 | 137 34.25 100.00
------------+-----------------------------------
Total | 400 100.00
-------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+--------------------------------------------------------
collcat |
2 | 8.736877 15.57439 0.56 0.575 -21.88315 39.35691
3 | -34.76334 14.90052 -2.33 0.020 -64.05851 -5.468177
|
mealcat |
2 | -227.5643 19.17628 -11.87 0.000 -265.2658 -189.8628
3 | -322.9954 14.03445 -23.01 0.000 -350.5878 -295.4029
|
65
collcat# |
mealcat |
2#2 | 38.51777 24.19532 1.59 0.112 -9.051422 86.08697
2#3 | 6.177537 20.08262 0.31 0.759 -33.3059 45.66097
3#2 | 101.051 22.88808 4.42 0.000 56.05191 146.0501
3#3 | 82.57776 24.43941 3.38 0.001 34.52867 130.6268
|
_cons | 816.9143 11.56373 70.64 0.000 794.1794 839.6492
-------------------------------------------------------------------
ˆ
api00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56
(2.mealcat) – 322 (3.mealcat) + 38.52 (2.collcat)*(2.mealcat)
+ 6.18 (2.collcat)*(3.mealcat) + 101.05
(3.collcat)*(2.mealcat) + 82.58 (3.collcat)*(3.mealcat)
66
ˆ
api00 = 816.91 + 8.74 (1) – 34.76 (0) – 227.56 (1) – 322 (0) +
38.52 (1)*(1) + 101.05 (0)*(1) + 82.58 (0)*(0)
=` 636.61
( 1) 2.collcat = 0
( 2) 3.collcat = 0
F( 2, 391) = 5.44
Prob > F = 0.0047
67
Perbandingan antara 2.mealcat dengan 3.meal.cat:
( 1) 2.mealcat = 0
( 2) 3.mealcat = 0
F( 2, 391) = 264.96
Prob > F = 0.0000
( 1) 2.collcat#2.mealcat = 0
( 2) 2.collcat#3.mealcat = 0
( 3) 3.collcat#2.mealcat = 0
( 4) 3.collcat#3.mealcat = 0
F( 4, 391) = 6.63
Prob > F = 0.0000
. predict pred
(option xb assumed; fitted values)
68
----------------------------------------
| Percentage free meals in 3
| categories
collcat | 1 2 3
----------+-----------------------------
1 | 816.9143 589.35 493.9189
2 | 825.6512 636.6047 508.8333
3 | 782.1509 655.6377 541.7333
----------------------------------------
69
900
800
700
600
500
71
BAB 7
DIAGNOSTIKA REGRESI
Outliers (data pencilan) adalah titik data yang terletak jauh dari garis
regresi (pada regresi linear sederhana) atau dari hyperplane (pada regresi
linear ganda), yang menunjukkan penyimpangan bermakna secara statistik
dari model yang diasumsikan. Secara sederhana, outlier dapat dikatakan
sebagai pengamatan dengan galat yang besar. Pengamatan influensial
(influential observation) adalah titik data yang memiliki dampak yang relatif
besar terhadap estimasi terhadap satu atau lebih parameter regresi. Inklusi
pengamatan influensial tersebut pada fitting model akan menimbulkan
perubahan yang nyata pada estimasi satu atau lebih parameter regresi.
73
Deteksi outliers dan pengamatan influensial dilakukan melalui
pemeriksaan visual dengan menggunakan statistik khusus yang disebut
diagnostika regresi (regression diagnostics). Diagnostika regresi
merupakan statistik per kasus, yaitu akan ada satu nilai diagnostika regresi
bagi tiap anggota dari n anggota sampel.
74
tersebut dapat dihitung dari hasil regresi dengan menggunakan keseluruhan
data.
Leverage
Leverage adalah istilah yang digunakan dalam analisis regresi bagi
observasi (pengamatan) yang memiliki nilai ekstrim pada satu atau lebih
variabel independen. Efek titik-titik demikian yaitu mengharuskan fitting
model mendekati nilai respons yang diobservasi, agar menghasilkan nilai
galat (residual) yang kecil.
ŷ = Hy (7.1)
avplot pred_var
Jarak Cook
Jarak Cook (Cook’s distance) adalah statistik influensial yang
dirancang untuk mengukur perubahan estimasi vektor parameter β
β̂ pada
fitting model regresinya jika suatu observasi tertentu dihilangkan. Jarak Cook
merupakan ukuran gabungan dampak suatu observasi terhadap keseluruhan
koefisien regresi. Jarak Cook untuk observasi ke-i didefinisikan sebagai:
ri2 hi
Di = (7.3)
tr ( H ) 1 − hi
76
Jarak Cook yang lebih besar daripada 1 bagi sebuah observasi
mengindikasikan bahwa observasi tersebut memiliki pengaruh (influence)
yang berlebihan ataupun tak sebanding terhadap estimasi koefisien regresi.
new_var : Nama untuk variabel baru yang memuat nilai-nilai jarak Cook
DFBETA
DFBETA untuk observasi ke-i dan koefisien regresi ke-j adalah
perubahan nilai estimasi koefisien regresi ke-j jika observasi ke-i dihilangkan
dari analisis data. DFBETA dengan perubahan koefisien regresi ke-j dan
penghilangan observasi ke-i adalah:
b j − b j ,−i
DFBETA j ,−i = (7.4)
s−i c jj
. dfbeta
Contoh 7.1:
----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
78
Pertama akan diprediksi nilai-nilai galat dan akan ditentukan
observasi dengan galat terbesar.
. predict e, residuals
. sum e
+--------------------------+
| api00 enroll e |
|--------------------------|
8. | 831 1513 389.148 |
+--------------------------+
. sum lvg
79
Variable | Obs Mean Std. Dev. Min Max
---------+----------------------------------------------
lvg | 400 .005 .0056276 .0025 .0602
+-----------------------------------+
| api00 enroll e lvg |
|-----------------------------------|
210. | 493 1570 62.54047 .0602 |
+-----------------------------------+
Tampak bahwa nilai lvg terbesar adalah 0.0602 dan nilai ini didapat
untuk observasi nomor 210 dengan nilai api00 sama dengan 493 pada
enroll sama dengan 1570, tetapi bukan untuk observasi dengan galat
terbesar. Keputusan apakah observasi nomor 210 perlu dihilangkan dari
dataset sepenuhnya tergantung pada pertimbangan dari segi ranah bidang
ilmu perolehan data.
. lvr2plot
80
.06
.04
Leverage
.02
0
Variabel baru new pada dataset memuat nilai-nilai jarak Cook untuk
tiap observasi.
. sum new
81
. list api00 enroll e lvg new if new>.2521746
+------------------------------------------------+
| api00 enroll e lvg new |
|------------------------------------------------|
8. | 831 1513 389.148 .0543049 .2521747 |
+------------------------------------------------+
. sum DF_pred
+-----------------------------------------------------+
| api00 enroll e lvg new DF_pred |
|-----------------------------------------------------|
8. | 831 1513 389.148 .0543049 .2521747 .700537 |
+-----------------------------------------------------+
82
Nilai DFBETAS terbesar adalah 0.7005, didapatkan untuk observasi
nomor 8. Tampak bahwa penilaian galat terbesar, jarak Cook terbesar, dan
DFBETAS terbesar memberi hasil yang konsisten, yaitu terjadi untuk
observasi nomor 8, sedangkan leverage terbesar terjadi pada observasi
nomor 210.
Contoh 7.2:
--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------
. predict e, residuals
(87 missing values generated)
83
Untuk memperoleh statistik leverage (diagonal matriks hat):
. dfbeta
(87 missing values generated)
_dfbeta_1: dfbeta(acs_k3)
(87 missing values generated)
_dfbeta_2: dfbeta(meals)
(87 missing values generated)
_dfbeta_3: dfbeta(full)
84
Variable | Obs Mean Std. Dev. Min Max
----------+----------------------------------------------
e | 313 -7.68e-08 63.84359 -195.6183 188.8671
lvg_1 | 313 .0127796 .0432135 .0033227 .7687116
distance | 313 .0045331 .0354736 1.39e-08 .626511
_dfbeta_1 | 313 .0038461 .0930495 -.1386698 1.576904
_dfbeta_2 | 313 -.0001792 .0560422 -.2267429 .2701659
----------+----------------------------------------------
_dfbeta_3 | 313 -.0009695 .0601078 -.3692697 .2131358
+-----------------------------------------------------------------------+
| api00 enroll e lvg_1 distance _dfbet~1 _dfbet~2 _dfbet~3 |
|-----------------------------------------------------------------------|
271. | 690 230 188.8671 .012422 .0275976 .0309159 .2310598 .2131358 |
|-----------------------------------------------------------------------|
85
BAB 8
BEBERAPA PENANGANAN
PENYIMPANGAN ASUMSI
87
Estimasi Variansi Robust
Dua asumsi penting dalam regresi linear yaitu asumsi normalitas dan
asumsi homoskedastisitas. Penyimpangan terhadap salah satu atau kedua
asumsi ini akan menyebabkan tak adekuatnya pengendalian terhadap besar
probabilitas kesalahan tipe I. Ketidakadekuatan akibat penyimpangan asumsi
ini pada analisis regresi linear ditemukan antara lain pada uji hipotesis
terhadap parameter regresi yang dihasilkan dengan metode kuadrat terkecil.
Contoh 8.1:
88
Mula-mula diperlihat hasil fitting model dengan metode kuadrat
terkecil seperti telah dilakukan pada contoh 3.3.
----------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+----------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol | .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
----------------------------------------------------------------------
. predict e, residuals
. swilk e
chi2(1) = 0.01
Prob > chi2 = 0.9164
-----------------------------------------------------------------
| Robust
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+-----------------------------------------------------
usia | .8469443 .3538266 2.39 0.019 .1446964 1.549192
kolesterol | .0906782 .0472369 1.92 0.058 -.0030739 .1844303
_cons | 64.97095 21.11918 3.08 0.003 23.05522 106.8867
-----------------------------------------------------------------
90
ols robust
F(2, 97) 4.02 5.00
Prob > F 0.0211 0.0086
R-squared 0.0765 0.0765
Regresi Robust
Regresi robust tidak sama dengan regresi linear dengan estimasi
variansi robust. Regresi robust digunakan jika terdapat pengamatan luar
yang mengubah nilai estimasi koefisien regresi secara substansial (“bad
outlier”).
91
Sintaks regresi robust adalah:
Opsi:
genwt(newvar) : Membuat variabel newvar yang memuat bobot untuk
tiap pengamatan. Pada regresi kuadrat terkecil bobot
untuk tiap pengamatan sama dengan 1.
Contoh 8.2:
-----------------------------------------------------------------
crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+--------------------------------------------------------
poverty | 6.787359 8.988529 0.76 0.454 -11.28529 24.86001
single | 166.3727 19.42291 8.57 0.000 127.3203 205.425
_cons | -1368.189 187.2052 -7.31 0.000 -1744.59 -991.7874
-----------------------------------------------------------------
93
. lvr2plot, mlabel(state)
.6
.4
Leverage
.2
0
+---------------------------------------------+
| state crime poverty single d1 |
|---------------------------------------------|
| ak 761 9.1 14.3 .125475 |
| fl 1206 17.8 10.6 .1425891 |
| ms 434 24.7 14.7 .6138721 |
| dc 2922 26.4 22.1 2.636252 |
+---------------------------------------------+
94
Pengamatan untuk DC dihapus karena nilai Cook’s D-nya lebih besar
daripada satu (mengindikasikan influensial yang berlebihan), selain itu DC
bukan merupakan negara bagian AS.
. gsort -absr1
+------------------+
| state absr1 |
|------------------|
| ms 3.56299 |
| fl 2.902663 |
| dc 2.616447 |
| vt 1.742409 |
| mt 1.460884 |
|------------------|
| me 1.426741 |
| ak 1.397418 |
| nj 1.354149 |
| il 1.338192 |
| md 1.287087 |
+------------------+
95
Huber iteration 1: maximum difference in weights = .66846346
Huber iteration 2: maximum difference in weights = .11288069
Huber iteration 3: maximum difference in weights = .01810715
Biweight iteration 4: maximum difference in weights = .29167992
Biweight iteration 5: maximum difference in weights = .10354281
Biweight iteration 6: maximum difference in weights = .01421094
Biweight iteration 7: maximum difference in weights = .0033545
----------------------------------------------------------------
crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------------
poverty | 10.36971 7.629288 1.36 0.181 -4.978432 25.71786
single | 142.6339 22.17042 6.43 0.000 98.03276 187.235
_cons | -1160.931 224.2564 -5.18 0.000 -1612.076 -709.7849
----------------------------------------------------------------
96
regresi ols regresi robust
No of obs 51 50
F value F (2 , 48) F (2 , 47)
= 57.96 = 31.15
Prob > F 0.0000 0.0000
+----------------+
| state weight |
|----------------|
| dc . |
+----------------+
. sort weight
97
+-----------------------------------------------+
| sid state weight absr1 d1 |
|-----------------------------------------------|
| 25 ms .02638862 3.56299 .6138721 |
| 9 fl .11772218 2.902663 .1425891 |
| 46 vt .59144513 1.742409 .0427155 |
| 26 mt .66441582 1.460884 .016755 |
| 20 md .67960728 1.287087 .0356962 |
|-----------------------------------------------|
| 14 il .69124917 1.338192 .0126569 |
| 21 me .69766511 1.426741 .0223313 |
| 31 nj .74574796 1.354149 .0222918 |
| 19 ma .75392127 1.198541 .016399 |
| 5 ca .80179038 1.015206 .0123064 |
+-----------------------------------------------+
98
Regresi Ridge
Regresi ridge digunakan jika terdapat multikolinearitas pada data.
Sintaks Stata adalah:
Opsi:
orr : Model Ordinary Ridge Regression
grr1 : Model Generalized Ridge Regression
grr2 : Model Iterative Generalized Ridge
grr3 : Model Adaptive Generalized Ridge
Contoh 8.3:
. regress y x1 x2 x3
99
-------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+------------------------------------------------------
x1 | 1.058783 .173579 6.10 0.000 .6908121 1.426754
x2 | .4522435 .6557569 0.69 0.500 -.9378991 1.842386
x3 | .1211505 1.087042 0.11 0.913 -2.183275 2.425576
_cons | 8.132845 8.921103 0.91 0.375 -10.77905 27.04474
-------------------------------------------------------------
. correlate x1 x2 x3
(obs=20)
| x1 x2 x3
-------------+---------------------------
x1 | 1.0000
x2 | 0.7185 1.0000
x3 | 0.9152 0.6306 1.0000
Tampak adanya korelasi yang cukup besar antara variabel x1 dan x3,
yaitu r = 0.92; walaupun demikian masih akan dilakukan uji
multikolinearitas dengan perintah vif.
. vif
100
Tampak bahwa tidak ada variabel independen yang memiliki nilai vif
lebih besar daripada 10 ataupun nilai Tolerance = 1/vif yang kurang
daripada 0.10. Walaupun demikian, sebagai latihan akan dicoba melakukan
fitting model dengan regresi ridge.
====================================================
* (OLS) Ridge Regression - Ordinary Ridge Regression
====================================================
y = x1 + x2 + x3
------------------------------------------------------------------
Ridge k Value = 0.50000 | Ordinary Ridge Regression
------------------------------------------------------------------
Sample Size = 20
Wald Test = 97.9066 | P-Value > Chi2(3) = 0.0000
F-Test = 32.6355 | P-Value > F(3 , 16) = 0.0000
(Buse 1973) R2 = 0.8968 | Raw Moments R2 = 0.9936
(Buse 1973) R2 Adj = 0.8775 | Raw Moments R2 Adj = 0.9924
Root MSE (Sigma) = 6.6848 | Log Likelihood Function = -64.1440
------------------------------------------------------------------
- R2h= 0.9247 R2h Adj= 0.9106 F-Test = 65.53 P-Value > F(3,16) 0.0000
- R2v= 0.6313 R2v Adj= 0.5622 F-Test = 9.13 P-Value > F(3,16) 0.0009
101
-------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+------------------------------------------------------
x1 | .4519515 .2563028 1.76 0.097 -.0913863 .9952892
x2 | 1.483555 .9682758 1.53 0.145 -.5690985 3.536208
x3 | 2.25139 1.605101 1.40 0.180 -1.151273 5.654053
_cons | 10.48659 13.1727 0.80 0.438 -17.43829 38.41146
-------------------------------------------------------------
==================================================================
* OLS Model Selection Diagnostic Criteria - Model= (orr)
==================================================================
- Log Likelihood Function LLF = -64.1440
--------------------------------------------------------------------
- Akaike Information Criterion (1974) AIC = 53.3313
- Akaike Information Criterion (1973) Log AIC = 3.9765
--------------------------------------------------------------------
- Schwarz Criterion (1978) SC = 65.0834
- Schwarz Criterion (1978) Log SC = 4.1757
--------------------------------------------------------------------
- Amemiya Prediction Criterion (1969) FPE = 53.6235
- Hannan-Quinn Criterion (1979) HQ = 55.4454
- Rice Criterion (1984) Rice = 59.5817
- Shibata Criterion (1981) Shibata = 50.0486
- Craven-Wahba Generalized Cross Validation (1979) GCV = 55.8578
--------------------------------------------------------------------
102
=====================================================
*** Multicollinearity Diagnostic Tests - Model= (orr)
=====================================================
* Correlation Matrix
(obs=20)
| x1 x2 x3
----------+---------------------------
x1 | 1.0000
x2 | 0.7185 1.0000
x3 | 0.9152 0.6306 1.0000
* |X'X| Determinant:
|X'X| = 0 Multicollinearity - |X'X| = 1 No Multicollinearity
|X'X| Determinant: (0 < 0.0779 < 1)
------------------------------------------------------
* Multicollinearity Range:
Q = 0 No Multicollinearity - Q = 1 Multicollinearity
- Gleason-Staelin Q0: (0 < 0.7641 < 1)
1- Heo Range Q1: (0 < 0.8581 < 1)
2- Heo Range Q2: (0 < 0.8129 < 1)
3- Heo Range Q3: (0 < 0.7209 < 1)
4- Heo Range Q4: (0 < 0.7681 < 1)
5- Heo Range Q5: (0 < 0.8798 < 1)
6- Heo Range Q6: (0 < 0.7435 < 1)
-----------------------------------------------
104
* Marginal Effect - Elasticity (Model= orr): Linear *
+---------------------------------------------------------------+
| Variable | Marginal_Effect(B) | Elasticity(Es) | Mean |
|----------+--------------------+------------------+------------|
| x1 | 0.4520 | 0.3280 | 52.5840 |
| x2 | 1.4836 | 0.3629 | 17.7245 |
| x3 | 2.2514 | 0.1645 | 5.2935 |
+---------------------------------------------------------------+
Mean of Dependent Variable = 72.4650
x1 1.059 0.452
x2 0.452 1.484
Coef.
x3 0.121 2.251
_cons 8.133 10.487
x1 0.174 0.256
Std. x2 0.656 0.968
Err. x3 1.087 1.605
_cons 8.921 13.173
x1 0.000 0.097
x2 0.500 0.145
P>|t|
x3 0.913 0.180
_cons 0.375 0.438
Tampak hasil yang cukup berbeda antara regresi OLS dengan regresi
ridge.
105
KEPUSTAKAAN
Baddeley MC & Barrowclough DV. 2009. Running Regressions: A
Practical Guide to Quantitative Research in Economics, Finance
and Development Studies. Cambridge University Press, Cambridge.
Bingham NH & Fry JM. 2010. Regression: Linear Models in Statistics.
Springer, London.
Chatterjee S & Hadi AS. 2012. Regression Analysis by Example, 5th Ed.
John Wiley & Sons, Hoboken, New Jersey.
Cook RD & Weisberg S. Residuals and Influence in Regression. 1982.
Chapman and Hall, New York.
Fahrmeir L, Kneib T, Lang S, & Marx B. 2013. Regression: Models,
Methods and Applications. Springer, New York.
Gordon RA. 2015. Regression Analysis for the Social Sciences, 2nd Ed.
Routledge, New York.
Keith TZ. 2015. Multiple Regression and Beyond: An Introduction to
Multiple Regression and Structural Equation Modeling, 2nd Ed.
Routledge, New York.
LaMorte WW. 2018. The Power of Multiple Regression Models. Boston
University School of Public Health. Available from <http://sphweb.
bumc.bu.edu/otlt/MPH-Modules/QuantCore/PH717_MultipleVariable
Regression/index.html>
Mendelhall W & Sincich T. 2012. A Second Course in Statistics:
Regression Analysis, 7th Ed. Prentice Hall, Boston.
Montgomery DC, Peck EA, & Vining GG. 2012. Introduction to Linear
Regression Analysis, 5th Ed. John Wiley & Sons, Hoboken, New
Jersey.
Pardoe I. 2012. Applied Regression Modeling, 2th Ed. John Wiley & Sons,
Hoboken, New Jersey.
Richardson S. 2015. Business Applications of Multiple Regression, 2nd
Ed. Business Expert Press, New York.
Vach W. 2013. Regression Models as A Tool in Medical Research. CRC
Press, Boca Raton, FL.
106
Vittinghoff E, Glidden DV, Shiboski SC, & McCulloch CE. 2012.
Regression Methods in Biostatistics: Linear, Logistic, Survival, and
Repeated Measures Models, 2nd Ed. Springer, New York.
Weisberg S. Applied Linear Regression, 4th Ed. 2014. John Wiley & Sons,
Hoboken, New Jersey.
Xin Y & Xiao GS. 2009. Linear Regression Analysis: Theory and
Computing. World Scientific Publishing, Singapore.
107
Lampiran 1
PEMODELAN DAN SELEKSI
PREDIKTOR
108
a. Seleksi ke depan (forward selection)
Mula-mula dilakukan regresi linear sederhana dengan masing-
masing prediktor, lalu dipilih 1 model dengan prediktor yang nilai
p-nya terkecil. Seleksi ke depan dimulai dengan menambahkan
prediktor kedua yang nilai p-nya terkecil kedua di antara himpunan
regresi linear sederhana mula-mula. Jika nilai p-nya menunjukkan
prediktor baru ini bermakna, seleksi dilanjutkan dengan
menambahkan prediktor yang nilai p-nya terkecil ketiga, dan
seterusnya. Prosedur dilaksanakan sampai prediktor yang terakhir
dimasukkan tak bermakna (nilai p-nya lebih besar daripada 0.05),
maka yang dipilih adalah model yang terakhir yang tiap
prediktornya masih bermakna.
b. Eliminasi ke belakang (backward elimination)
Seleksi dimulai dengan regresi linear ganda yang menginklusikan
semua ‘kandidat’ prediktor. Dipilih prediktor yang nilai p-nya
terbesar dan lebih besar daripada 0.05 untuk dieliminasi dari model.
Jika pada fitting ulangan masih ada prediktor dengan nilai p lebih
besar daripada 0.05, seleksi dilanjutkan dengan mengeliminasikan
prediktor dengan nilai p terbesar, dan seterusnya. Seleksi berakhir
apabila seluruh prediktor sisa masing-masing memiliki nilai p lebih
kecil daripada 0.05.
Perhatikan:
109
‘kemaknaan’ demikian dapat saja diubah menurut pertimbangan peneliti.
Selain itu aspek substantif adakala lebih perlu diperhatikan daripada
aspek statistik. Variabel yang menurut peneliti sangat penting dapat saja
tetap dipertahankan dalam model, walaupun nilai p-nya melebihi 0.05.
110
Lampiran 2
Contoh:
. use “D:\Data\elemapi”
. regress api00 acs_k3 meals full
Source | SS df MS Number of obs = 313
---------+---------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+---------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153
--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
111
--------------------------------------------------------------------
. rvfplot
Grafik rvfplot (residual versus fitted plot) adalah plot galat vs nilai
prediksi respons. Grafik ini terutama bermanfaat untuk mendeteksi data
pencilan (outlier), yang memiliki nilai galat besar.
200
100
Residuals
0
-100
-200
. avplot meals
Grafik avplot (added variable plot) adalah grafik untuk
menunjukkan hubungan antara respons dengan satu variabel independen
yang dispesifikasikan, dengan penyesuaian (adjusted for) terhadap variabel
independen lainnya. Kemiringan (slope) grafik ini menyatakan koefisien
regresi parsial variabel independen yang dispesifikasikan tersebut.
Pengamatan dengan leverage yang tinggi akan tampak sebagai titik yang
berjarak horizontal jauh dari sisa datanya. Sintaks untuk menampilkan grafik
avplot adalah:
112
avplot indepvar
400
200
e( api00 | X )
0
-200
X 2i = v 0 + v1 X1i + fi
maka:
- Sumbu Y: Galat regresi respons terhadap (himpunan) variabel
independen minus variabel independen yang dispesifikasikan = ei
. avplots
Perintah avplots menghasilkan grafik avplot untuk seluruh variabel
independen dalam satu citra.
113
200
400
100
e( api00 | X )
e( api00 | X )
200
0
0
-200 -100
-200
200 100
e( api00 | X )
-200 -100 0
. cprplot acs_ k3
Grafik cprplot (component-plus-residual plot) adalah grafik galat
plus komponen vs variabel independen yang dispesifikasikan. Sintaksnya
adalah:
cprplot indepvar
114
100
Component plus residual
-200 -100 -300 0
Misalkan: Yi = b 0 + b1 X1i + b 2 X 2i + ei
- Sumbu Y: Galat galat plus komponen = ei + b1 X1i
- Sumbu Y: Variabel independen yang dispesifikasikan = X1i
. acprplot full
Grafik acprplot adalah grafik galat parsial tertambah (augmented
component-plus-residual plot) untuk variabel independen tertentu.
Sintaksnya adalah:
acprplot indepvar
115
200
Augmented component plus residual
-100 0 -200 100
116
. rvpplot meals
Grafik rvpplot (residual versus predictor) adalah grafik galat vs
prediktor, mem-plot galat terhadap prediktor spesifik. Sintaksnya adalah:
rvpplot indepvar
200
100
Residuals
0
-100
-200
- Sumbu Y: Galat
- Sumbu X: Variabel independen yang dispesifikasikan
. lvr2plot
Grafik lvr2plot (leverage versus squared residual) adalah grafik
leverage vs galat terstandardisasi kuadrat. Nilai galat terstandardisasi kuadrat
yang besar mengindikasikan respons memiliki nilai yang jauh berbeda dari
yang diprediksikan oleh model. Nilai ekstrim pada sumbu X ataupun
kombinasi nilai yang sangat berbeda pada sumbu X dan Y menunjukkan
pengamatan dengan leverage yang tinggi. Sintaks untuk menampilkan
lvr2plot adalah:
lvr2plot
117
.8
.6
Leverage
.4
.2
0
- Sumbu Y: Leverage
- Sumbu X: Galat terstandarsisasi kuadrat
118