Anda di halaman 1dari 129

ANALISIS

REGRESI LINEAR

Johan Harlan
Analisis Regresi Linear
Penulis : Johan Harlan
Cetakan Pertama, Agustus 2018

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma


Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau


memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
KATA PENGANTAR

Buku Analisis Regresi Linear ini sebagian besar memuat materi


pengajaran Statistika tingkat dasar dengan sedikit pengembangan untuk
tingkat lanjut. Analisis regresi linear memiliki secara teoretis dasar
matematik yang luas dan mendetil, terutama dengan menerapkan aljabar
matriks, namun dalam pembahasan di sini penulis berusaha menghindari
pembahasan yang bersifat matematis dengan lebih banyak membahas
pemahaman praktis disertai contoh-contoh aplikatifnya.

Sesuai dengan perkembangan Statistika pada era Teknologi Informasi


ini yang semakin lama semakin banyak memanfaatkan program komputer
statistik, antara lain sebagai dampak semakin bervariasinya teknik dan
metode baru Statistika yang sangat sulit dan hampir tidak mungkin untuk
diterapkan secara manual, praktis semua metode yang dibahas dalam buku
ini disertakan contoh aplikasinya dengan menggunakan program Stata 15.

Penulis sangat mengharapkan saran-saran yang berguna dari pembaca


untuk memperbaiki kesalahan-kesalahan yang ada dalam isi buku ini serta
meningkatkan kualitas pembahasannya.

Jakarta, Agustus 2018

Penulis

v
DAFTAR ISI

Kata Pengantar v

Daftar Isi vi
Bab 1 Diagram Tebar dan Garis Regresi 1
Diagram Tebar 1
Garis Regresi 2

Bab 2 Regresi Linear Sederhana 5


Regresi Linear Sederhana dengan Prediktor Kontinu 5
Regresi Linear Sederhana dengan Prediktor Indikator 10

Bab 3 Regresi Linear Ganda 13


Regresi Linear Ganda dengan Prediktor Kontinu 13
Regresi Linear Ganda dengan Prediktor Kategorik Non- 17
Biner
Regresi Linear Ganda dengan Interaksi 20

Bab 4 Asumsi-Asumsi pada Regresi Linear 27


Model Adekuat 27
Asumsi Linearitas 28
Asumsi Independensi dan Non-Otokorelasi 30
Asumsi Normalitas 32
Asumsi Homoskedastisitas 33
Asumsi Non-Multikolinearitas 34

vi
Bab 5 Estimasi Koefisien Regresi dan Interpretasi 39
Hasil
Metode Estimasi Koefisien Regresi 39
Tabel Analisis Variansi 40
Tabel Koefisien Regresi 43

Bab 6 Konfaunding dan Interaksi 49


Konfaunding 49
Interaksi 62
- Modifikasi Efek 62
- Interaksi Statistik 63
Konfaunding dan Interaksi 70

Bab 7 Diagnostika Regresi 73


Outliers dan Pengamatan Influensial 73
Leverage 75
Jarak Cook 76
DFBETA 77

Bab 8 Beberapa Penanganan Penyimpangan Asumsi 87


Estimasi Variansi Robust 88
Regresi Robust 91
Regresi Ridge 99

Kepustakaan 106

Lampiran 1 Pemodelan dan Seleksi Prediktor 108

Lampiran 2 Beberapa Grafik Galat 111

vii
BAB 1
DIAGRAM TEBAR DAN
GARIS REGRESI

 Diagram Tebar
Diagram tebar (scatter
scatter diagram
diagram) adalah diagram dua dimensi untuk
sampel pengamatan bivariat. Diagram
iagram tebar merupakan alat bantu yang
penting untuk menilai tipe hubungan antar 2 variabel kontinu.

Gambar 1.1 Rerata suhu tahunan di suatu wilayah dan angka kematian
karena kanker payudara
1
Contoh 1.1:

Pada contoh ini akan diperlihatkan perintah Stata untuk menghasilkan


diagram tebar dengan menggunakan file dataset auto_simp.dta.

. use “D:\Analisis Regresi Linear


Linear\Data\auto_simp.dta”, clear
(1978 Automobile Data)

. scatter mpg weight

 Garis Regresi
Garis regresi adalah garis lurus di antara titik
titik-titik pada diagram tebar
yang secara terbaik menggambarkan hubungan linear antara kedua variabel
pada diagram tebar tersebut. Garis ini sering pula disebut sebagai garis
dengan kesesuaian terbaik (line
line of best
best-fit), yang memiliki jarak terdekat
dengan seluruh titik-titik
titik pada diagram tebar itu.

Tanpa membahas cara perolehan garis regresi (akan dibah


dibahas dalam
bab-bab
bab berikut), di bawah ini diperlihatkan beberapa contoh diagram tebar
2
beserta garis regresinya yang menggambarkan tipe hubungan antar kedua
variabel pada diagram tersebut.

Gambar 1.2 Atas kiri: Hubungan positif; Atas kanan: Hubungan


negatif; Bawah: Tidak ada hubungan

Ketiga tipe hubungan yang terlihat pada gambar 1.2 yaitu:

a. Hubungan positif (kiri atas):: Pe


Pertambahan nilai X (sumbu horizontal)
umumnya disertai dengan pertambahan nilai Y (sumbu vertikal)
b. Hubungan negatif:: Pertambahan nilai X (sumbu horizontal) umumnya
disertai dengan pengurangan nilai Y (sumbu vertikal)
c. Tidak ada hubungan:: Pertambahan nilai X (sumbu horizontal) tidak
jelas memiliki efek terhadap nilai Y (sumbu vertikal).

Contoh 1.2:
Pada contoh ini, dengan menggunakan file dataset auto_simp.dta
yang sama seperti pada contoh 1.1, akan diperlihatkan perintah Stata mula
mula-
mula untuk memperoleh diagram tebar beserta garis regresinya dan
kemudian hanya diagram garis regresinya.

3
. use “D:\Analisis
Analisis Regresi Linear
Linear\Data\auto_simp.dta”, clear
(1978 Automobile Data)

Garis regresi di antara titik--titik pada diagram tebar diperlihatkan


sebagai berikut:

. scatter mpg weight || lfit mpg weight

Perintah twoway lfit menghasilkan hhanya garis regresi:

. twoway lfit mpg weight

4
BAB 2
REGRESI LINEAR SEDERHANA

Regresi linear (linear regression) adalah teknik yang digunakan


untuk memperoleh model hubungan antara 1 variabel dependen dengan 1
atau lebih variabel independen. Jika hanya digunakan 1 variabel independen
dalam model, maka teknik ini disebut sebagai regresi linear sederhana
(simple linear regression), sedangkan jika yang digunakan adalah beberapa
variabel independen, teknik ini disebut regresi linear ganda (multiple linear
regression).

Variabel dependen pada regresi linear disebut juga sebagai respons


atau kriterion, sedangkan variabel independen dikenal pula sebagai
prediktor atau regresor. Kovariat adalah variabel independen yang
berkorelasi dengan prediktor lainnya, juga mempengaruhi respons. Kovariat
umumnya tidak diminati hubungannya dengan respons dan hanya digunakan
untuk pengendalian hubungan prediktor-respons dalam model.

Respons pada regresi linear selalu berupa variabel kontinu,


sedangkan prediktor dapat berupa variabel kontinu, indikator, ataupun
karegorik yang disubstitusikan menjadi variabel indikator.

 Regresi Linear Sederhana dengan Prediktor


Kontinu
Model yang digunakan untuk regresi linear sederhana adalah:
Yi = β 0 + β 1 X i + ε i ; i = 1, 2, . . . , n
Yi : Respons untuk subjek ke-i
Xi : Prediktor untuk subjek ke-i
εi : Galat untuk subjek ke-i

5
` β 0 dan β 1 merupakan parameter dalam populasi yang hendak
diestimasi dalam fitting model. Pada fitting model dengan data sampel akan
diperoleh persamaan garis regresi (gambar 2.1)
2.1):

Yˆi = b 0 + b1 X i ; i = 1, 2, . . . , n

b 0 dinamakan intersep (intercept) atau konstante, menyatakan jarak


dari titik pangkal ke titik potong garis regresi dengan sumbu Y (sumbu
vertikal),, merupakan penaksir untuk β 0 . b1 disebut juga sebagai kemiringan
(slope) atau koefisien regresi, menyatakan kemiringan garis regresi yang
diukur sebagai tangen sudut yang dibentuk oleh garis horizontal dengan garis
regresi dalam arah positif (diukur berlawanan de
dengan perputaran jarum jam),
merupakan penaksir untuk β 1 . ei menyatakan galat untuk anggota sampel
ke-i, sekaligus merupakan penaksir untuk ε i .

Gambar 2.1 Garis regresi

Perintah Stata untuk fitting model regresi linear sederhana adalah:

regress var_dep var_indep


indep [if] [in] [, options]

var_dep : Variabel dependen


var_indep : Variabel independen

6
Contoh 2.1:

File dataset yang digunakan di sini adalah elemapi.dta, yang


menyatakan kinerja akademik sejumlah sekolah di sebuah regio di Amerika
Serikat.

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. sum enroll api00

Variable | Obs Mean Std. Dev. Min Max


---------+--------------------------------------------------
enroll | 400 483.465 226.4484 130 1570
api00 | 400 647.6225 142.249 369 940

enroll : Jumlah siswa


api00 : Kinerja akademik sekolah pada tahun 2000

Selanjutnya dilakukan fitting model regresi linear sederhana.

. regress api00 enroll

Source | SS df MS Number of obs = 400


---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03

----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------

7
Tampak estimasi intersep dan koefisien regresi, masing-masing
sebesar 744.25 dan −0.20. Estimasi intersep menyatakan prediksi nilai
respons, jika prediktor bernilai nol, walaupun hal ini tidak realistis di sini,
yaitu jika enroll bernilai sama dengan nol (tidak ada calon siswa yang
mendaftarkan diri), tidak mungkin kinerja akademik api00 bernilai 744.25.
Perlu dijelaskan bahwa prediksi nilai respons hanya berlaku dalam rentang
nilai-nilai prediktor dalam sampel, yaitu 130 s.d. 1,570.

Estimasi koefisien regresi bernilai negatif sebesar −0.20 dan


bermakna secara statistik dengan p = 0.00, menyatakan bahwa setiap
pertambahan 1 siswa yang mendaftar akan menurunkan kinerja akademik
sekolah sebesar −0.20 satuan.

Model estimasi adalah:


api00 = 744.25 – 0.20 enroll + e

Contoh 2.2:

File yang digunakan di sini merupakan penyederhanaan terhadap file


auto.dta, yang sering digunakan pada berbagai contoh perintah Stata.
Sesuai dengan topik pada bab ini, yang disisakan pada file auto_simp.dta
hanya variabel mpg dan weight yang akan digunakan dalam model regresi
linear sederhana di sini.

. use “D:\Analisis Regresi Linear\Data\auto_simp.dta”, clear


(1978 Automobile Data)

Perintah berikut adalah untuk fitting model regresi linear sederhana:

. regress mpg weight

8
Source | SS df MS Number of obs = 74
---------+--------------------------- F(1, 72) = 134.62
Model | 1591.9902 1 1591.9902 Prob > F = 0.0000
Residual | 851.469256 72 11.8259619 R-squared = 0.6515
---------+--------------------------- Adj R-squared = 0.6467
Total | 2443.45946 73 33.4720474 Root MSE = 3.4389

--------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------
weight | -.0060087 .0005179 -11.60 0.000 -.0070411 -.0049763
_cons | 39.44028 1.614003 24.44 0.000 36.22283 42.65774
--------------------------------------------------------------

Model estimasi adalah:


mpg = 39.44 – 0.01 weight + e

Tampak bahwa nilai koefisien determinasi R 2 adalah 0.6515,


menunjukkan bahwa 65% variasi respons mpg dapat “dijelaskan” oleh
prediktor weight. Prediktor weight tampak bermakna dengan nilai p =
0.000. Untuk fitting model regresi yang melalui titik pangkal (tanpa
intersep), perintahnya adalah:

. regress, beta

Source | SS df MS Number of obs = 74


---------+--------------------------- F(1, 72) = 134.62
Model | 1591.9902 1 1591.9902 Prob > F = 0.0000
Residual | 851.469256 72 11.8259619 R-squared = 0.6515
---------+--------------------------- Adj R-squared = 0.6467
Total | 2443.45946 73 33.4720474 Root MSE = 3.4389

9
--------------------------------------------------------------
mpg | Coef. Std. Err. t P>|t| Beta
-------+------------------------------------------------------
weight | -.0060087 .0005179 -11.60 0.000 -.8071749
_cons | 39.44028 1.614003 24.44 0.000 .
-------------------------------------------------------------

Model estimasi untuk model tanpa intersep menjadi:


mpg = −81 weight + e

 Regresi Linear Sederhana dengan Prediktor


Indikator
Model untuk regresi linear sederhana dengan prediktor indikator
(variabel dummy) adalah:
Yi = β 0 + β 1 X i + ε i ; X = {0, 1}

Xi : Prediktor indikator (variabel dummy). Indikator adalah variabel


kategorik biner yang hanya dapat bernilai 0 atau 1.

Perhatikan bahwa indikator tidak diberikan nilai 1 atau 2. Variabel


kategorik biner yang bernilai 1 dan 2 terlebih dahulu dikonversi menjadi
indikator yang bernilai 0 atau 1 sebelum dilakukan fitting model.

Contoh 2.3:

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. tabulate yr_rnd

10
year round |
school | Freq. Percent Cum.
-----------+---------------------------------
No | 308 77.00 77.00
Yes | 92 23.00 100.00
-----------+---------------------------------
Total | 400 100.00

. tabulate yr_rnd, nolabel


year round |
school | Freq. Percent Cum.
-----------+---------------------------------
0 | 308 77.00 77.00
1 | 92 23.00 100.00
-----------+---------------------------------
Total | 400 100.00

yr_rnd (year round school) adalah variabel indikator dengan nilai


0 atau 1. Selanjutnya akan dilakukan fitting model dengan api00 sebagai
respons dan yr_rnd sebagai prediktor indikator.

. regress api00 yr_rnd

Source | SS df MS Number of obs = 400


--------+------------------------- F( 1, 398) = 116.24
Model |1825000.56 1 1825000.56 Prob > F = 0.0000
Residual|6248671.43 398 15700.1795 R-squared = 0.2260
--------+------------------------- Adj R-squared = 0.2241
Total |8073672 399 20234.7669 Root MSE = 125.3

11
-------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+-----------------------------------------------------
yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239
_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751
-------------------------------------------------------------

. Model estimasi adalah:


api00 = 684.54 – 160.51 yr_rnd + e

Prediktor yr_rnd bermakna secara statistik (p = 0.000). Untuk


yr_rnd = 0, api00 bernilai 684.54 (sama dengan estimasi intersep),
sedangkan untuk yr_rnd = 1, api00 adalah (684.54 − 160.51) ≈ 524.03.

12
BAB 3
REGRESI LINEAR GANDA

Regresi linear ganda (multiple linear regression) adalah model


regresi linear dengan 1 variabel dependen kontinu beserta k (dua atau lebih)
variabel independen kontinu dan/atau kategorik.

 Regresi Linear Ganda dengan Prediktor


Kontinu

Model untuk regresi linear ganda yaitu:

Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β k X ki + ε i

Perintah Stata untuk fitting regresi linear ganda dengan prediktor


kontinu adalah
regress var_dep vars_indep [if] [in] [, options]

var_dep : Variabel dependen

vars_indep : Himpunan variabel independen kontinu

β 0 , β 1 , β 2 , . . . , β k adalah nilai-nilai parameter yang akan


diestimasi dengan perintah Stata tersebut. Sebagai keluaran akan diperoleh
estimasi persamaan garis regresi linear ganda:

Yˆi = b 0 + b1 X1i + b 2 X 2i + . . . + bk X ki ; i = 1, 2, . . . , n

13
Contoh 3.1:

. use “D:\Analisis Regresi Linear\Data\elemapi”, clear

Variabel-variabel yang akan digunakan dalam contoh ini yaitu:

api00 : Kinerja akademik sekolah tahun 2000


acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3
meals : Persentase siswa yang mendapat makan gratis (indikator
kemiskinan)
full : Persentase guru yang memiliki akreditasi penuh untuk
mengajar

Sebagai gambaran, diperlihatkan sebagian nilai-nilai tersebut pada


dataset:

. list api00 acs_k3 meals full in 1/7

+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+

Diagram tebar untuk tiap pasangan variabel tersebut dalam bentuk


matriks adalah:
. graph matrix api00 acs_k3 meals full, half

14
api
2000

20
avg
class
0 size
k-3
-20
100

pct
50 free
meals
0
100.00

50.00 pct full


credential

0.00
400 600 800 1000
-20 0 20 0 50 100

Matriks korelasi diperoleh dengan perintah:

. correlate api00 acs_k3 meals full


(obs=313)

| api00 acs_k3 meals full


-------------+------------------------------------
api00 | 1.0000
acs_k3 | -0.0641 1.0000
meals | -0.8184 0.0097 1.0000
full | 0.2328 0.1789 -0.2518 1.0000

Selanjutnya dilakukan fitting model regresi linear ganda:

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313


---------+---------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+---------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

15
--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------

Interpretasi terhadap keluaran berikut adalah:

-` Variabel rerata ukuran kelas acs_k3 dengan koefisien regresi b = −2.68


tidak jelas kebermaknaannya (p = 0.055). Koefisien regresi yang negatif
menyatakan bahwa ukuran kelas yang lebih besar terkait dengan kinerja
akademik lebih rendah.

- Efek meals dengan koefisien regresi b = −3.70 (p = 0.000) tampak


bermakna. Koefisien regresi yang negatif mengindikasikan bahwa
semakin besar proporsi siswa penerima makanan gratis, semakin rendah
kinerja akademik.
Ini tidak berarti bahwa makanan gratis menyebabkan kinerja akademik
yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan
berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang
lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.

- Persentase guru dengan akreditasi penuh full dengan koefisien regresi b =


0.11 (p = 0.232) tak terkait dengan kinerja akademik. Ini
mengindikasikan bahwa persentase guru dengan akreditasi penuh bukan
merupakan faktor penting untuk memprediksi kinerja akademik sekolah.

16
 Regresi Linear Ganda dengan Prediktor
Kategorik Non-Biner

Misalkan dimiliki variabel ramdom kontinu Y dan variabel kategorik


X dengan 3 kategori, X = {1, 2, 3}. Misalkan pula hendak dilakukan regresi X
terhadap Y, maka X harus terlebih dahulu ditransformasikan menjadi 2
variabel indikator Z1 dan Z 2 ; Z1 = {0, 1} dan Z 2 = {0, 1}.

Pada Stata, transformasi variabel kategorik menjadi variabel indikator


dilakukan dengan menggunakan operator i. Tiap variabel kategorik X dengan
p taraf oleh operator i., yaitu i.X ditransformasikan menjadi (p – 1) indikator
Z. Misalnya variabel kategorik X dengan 3 taraf ditransformasikan menjadi 2
variabel indikator Z1 dan Z 2 .

Z1 Z2
X=1 0 0
X=2 1 0
X=3 0 1

Model yang diinginkan untuk regresi X terhadap Y menjadi regresi


linear Z terhadap Y, yaitu:

Yi = β 0 + β 1 Z1i + β 2 Z 2i + ε i

Model regresi linear dengan satu prediktor kategorik non-biner


(dengan taraf lebih daripada dua) dapat dianggap sebagai regresi linear
ganda, karena pada fitting modell diperlakukan memiliki (p – 1) variabel
independen indikator dengan (p – 1) estimator koefisien regresi.

Perintah Stata untuk regresi linear ganda dengan prediktor kategorik


(non-biner) adalah:
regress depvar i.indepvar(s) [if] [in] [, options]
17
Tanpa operator i., prediktor akan dianggap sebagai variabel kontinu.
Variabel indikator yang terbentuk dengan operator i. dan digunakan untuk
fitting model tidak tersimpan dalam dataset. Jika diinginkan (p – 1) variabel
indikator yang terbentuk tersimpan dalam dataset, perintah Stata adalah:
xi: regress depvar i.indepvar(s) [if] [in] [, options]

Contoh 3.2:

. use “D:\Analisis Regresi Linear\Data\hsb2.dta”, clear


(highschool and beyond (200 cases))

. tabulate ses

ses | Freq. Percent Cum.


------------+-----------------------------------
low | 47 23.50 23.50
middle | 95 47.50 71.00
high | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00

. tabulate ses, nolabel

ses | Freq. Percent Cum.


------------+-----------------------------------
1 | 47 23.50 23.50
2 | 95 47.50 71.00
3 | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00

Selanjutkan dilakukan fitting model. Variabel kategorik ses dengan


3 taraf akan direpresentasikan oleh 2 variabel indikator yang dibentuk oleh
i.ses (X = 1 menjadi baseline).

. regress science i.ses


18
Source | SS df MS Number of obs = 200
---------+-------------------------- F( 2, 197) = 8.57
Model | 1561.57802 2 780.789008 Prob > F = 0.0003
Residual | 17945.922 197 91.0960507 R-squared = 0.0801
---------+-------------------------- Adj R-squared = 0.0707
Total | 19507.5 199 98.0276382 Root MSE = 9.5444

----------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------
ses |
middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797
high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
|
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
----------------------------------------------------------

Dengan awalan perintah (command prefix) xi:

. xi: regress science i.ses

i.ses _Ises_1-3 (naturally coded; _Ises_1 omitted)

Source | SS df MS Number of obs = 200


---------+---------------------------- F(2, 197) = 8.57
Model | 1561.57802 2 780.789008 Prob > F = 0.0003
Residual | 17945.922 197 91.0960507 R-squared = 0.0801
---------+---------------------------- Adj R-squared = 0.0707
Total | 19507.5 199 98.0276382 Root MSE = 9.5444

19
---------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
_Ises_2 | 4.003135 1.702093 2.35 0.020 .6464741 7.359797
_Ises_3 | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
---------------------------------------------------------------

Taraf low pada variabel kategorik ses menjadi baseline untuk


kontras (middle vs low dan high vs low). Tampak bahwa baik kontras ses
untuk middle vs low maupun untuk high vs low, keduanya bermakna,
masing-masing dengan nilai p = 0.02 dan p = 0.00. Tampak pula bahwa
untuk middle = 0 dan high = 0, nilai science adalah 47.70, sedangkan jika
middle = 0 dan high = 1, nilai science menjadi (47.70 + 7.75) = 55.45.

Perhatikan pula bahwa tidak mungkin terjadi kombinasi nilai middle


= 1 dan high = 1.

 Regresi Linear Ganda dengan Interaksi

Misalkan hendak diregresikan variabel random X 1 dan X2


besertanya interaksinya terhadap variabel random kontinu Y dengan model:

Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + ε i

Untuk model regresi dengan interaksi ini, selain operator i. yang


mentransformasikan variabel kategorik dengan k taraf menjadi (k – 1)
variabel indikator, akan diperkenalkan pula operator c. yang kegunaannya
akan dibahas di bawah ini.

Pada model dengan interaksi, suku-suku yang ada pada ruas kanan
persamaan dibedakan menjadi (a) suku variabel tunggal yang tidak
20
menyatakan interaksi, disebut sebagai efek utama (main effects) dan (b)
suku perkalian dua (atau lebih) variabel tunggal yang menyatakan suku
interaksi.

Yang dapat dijadikan efek utama adalah variabel indikator, variabel


kontinu, atau variabel kategorik dengan operator i.; menjadi i.varname.

Yang dapat dimasukkan dalam suku interaksi adalah variabel


indikator, variabel kategorik, atau variabel kontinu dengan operator c.;
menjadi c.varname.

Contoh 3.3:

. use “D:\Analisis Regresi Linear\Data\honolulu.dta”, clear

Berikut diperlihatkan beberapa contoh regresi linear ganda. Contoh


pertama adalah regresi linear ganda dengan 2 prediktor kontinu, yaitu usia
dan kolesterol.

. regress tek_darah usia kolesterol

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 2, 97) = 4.02
Model | 3404.78195 2 1702.39098 Prob > F = 0.0211
Residual | 41118.218 97 423.899155 R-squared = 0.0765
---------+--------------------------- Adj R-squared = 0.0574
Total | 44523 99 449.727273 Root MSE = 20.589

21
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
-----------------------------------------------------------------

Contoh berikut ini menunjukkan regresi linear ganda dengan 2


prediktor kontinu, usia dan kolesterol, serta interaksi antara keduanya.
Variabel kontinu dalam suku interaksi harus mendapat operator c. agar tidak
dianggap sebagai variabel kategorik dalam suku interaksi.

. regress tek_darah usia kolesterol c.usia#c.kolesterol

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 3, 96) = 3.27
Model | 4127.36425 3 1375.78808 Prob > F = 0.0246
Residual | 40395.6358 96 420.787872 R-squared = 0.0927
---------+--------------------------- Adj R-squared = 0.0643
Total | 44523 99 449.727273 Root MSE = 20.513

-------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------------+--------------------------------------------------------
usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813
kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808
|
c.usia# |
c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404
|
_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377
-------------------------------------------------------------------------

22
Contoh di bawah ini menunjukkan regresi linear ganda dengan 1
prediktor kontinu, usia, dan 1 prediktor kategorik biner, rokok.

. regress tek_darah usia rokok

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 2, 97) = 2.87
Model | 2485.12693 2 1242.56346 Prob > F = 0.0617
Residual | 42037.8731 97 433.380135 R-squared = 0.0558
---------+--------------------------- Adj R-squared = 0.0363
Total | 44523 99 449.727273 Root MSE = 20.818

-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------------------------------------------------------
usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886
rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724
_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148
-----------------------------------------------------------------

Contoh selanjutnya memperlihatkan regresi linear ganda dengan 1


prediktor kontinu usia, 1 prediktor kategorik biner rokok, serta interaksi
antara keduanya. Variabel kontinu usia dalam suku interaksi diberi operator
c.

. regress tek_darah usia rokok c.usia#rokok


Source | SS df MS Number of obs = 100
---------+--------------------------- F( 3, 96) = 1.93
Model | 2531.81794 3 843.939314 Prob > F = 0.1300
Residual | 41991.1821 96 437.408146 R-squared = 0.0569
---------+--------------------------- Adj R-squared = 0.0274
Total | 44523 99 449.727273 Root MSE = 20.914

23
--------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------------+-------------------------------------------------------------
usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343
rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693
|
rokok# |
c.usia |
1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555
|
_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803
--------------------------------------------------------------------------

Sekarang diperlihatkan regresi linear ganda dengan 1 prediktor


kontinu, usia, dan 1 prediktor kategorik, pend. Variabel kategorik non-
biner yang dijadikan efek utama harus diberi operator i. menjadi i.pend
untuk mengkonversinya menjadi variabel indikator.

. regress tek_darah usia i.pend

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 5, 94) = 1.68
Model | 3658.43513 5 731.687027 Prob > F = 0.1462
Residual | 40864.5649 94 434.729413 R-squared = 0.0822
---------+--------------------------- Adj R-squared = 0.0333
Total | 44523 99 449.727273 Root MSE = 20.85

24
-------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+--------------------------------------------------------
usia | .8387384 .420814 1.99 0.049 .0032023 1.674275
|
pend |
2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523
3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482
4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877
5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951
|
_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838
-------------------------------------------------------------------

Berikut ini adalah contoh regresi linear ganda dengan 1 prediktor


kontinu dan 1 prediktor kategorik non-biner. Sebagai efek utama, variabel
kategorik pend harus diberi operator i. menjadi i.pend, sedangkan dalam
suku interaksi, variabel kontinu usia yang harus diberi operator c. menjadi
c.usia.

. regress tek_darah usia i.pend c.usia#pend

Source | SS df MS Number of obs = 100


---------+----------------------------- F( 9, 90) = 1.25
Model | 4941.84363 9 549.093736 Prob > F = 0.2762
Residual | 39581.1564 90 439.790626 R-squared = 0.1110
---------+----------------------------- Adj R-squared = 0.0221
Total | 44523 99 449.727273 Root MSE = 20.971

25
------------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985
|
pend |
2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652
3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221
4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465
5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399
|
pend#c.usia |
2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588
3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838
4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761
5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478
|
_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776
------------------------------------------------------------------------------

26
BAB 4
ASUMSI-ASUMSI PADA
REGRESI LINEAR
Beberapa asumsi pada model regresi linear yaitu:
a. Model adekuat
b. Asumsi linearitas
c. Asumsi independensi dan non-otokorelasi
d. Asumsi normalitas
e. Asumsi homoskedatisitas
f. Asumsi non-multikolinearitas.
Kelima asumsi pertama berlaku untuk regresi linear sederhana
maupun ganda, sedangkan asumsi terakhir hanya berlaku pada regresi linear
ganda. Pada umumnya, seluruh asumsi-asumsi baru dapat dinilai validitasnya
setelah dilakukan fitting model.

 Model Adekuat

Asumsi ini menyatakan bahwa model yang diajukan peneliti harus


adekuat untuk memprediksi respons. Asumsi ini dinilai dengan uji goodness-
of-fit, yaitu uji F dengan hipotesis H 0 : β i = 0 untuk seluruh i (i = 1, 2, . . . ,
k) vs H1 : H 0 tidak benar (paling sedikit satu β i ≠ 0). Hasil uji F ini
ditampilkan pada perintah regress Stata.

Uji ini terutama penting pada regresi linear ganda, karena pada
regresi linear sederhana, uji F untuk model pada hakekatnya sama dengan uji
t untuk prediktor tunggalnya.

27
Contoh 4.1:

Lihat kembali data dan hasil keluaran pada contoh 2.1.

. use “ D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

. regress api00 enroll

Source | SS df MS Number of obs = 400


---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03

Tampak nilai p untuk uji F adalah adalah 0.0000, sehingga hipotesis


H 0 : β 1 = 0 ditolak dan model dianggap adekuat untuk memprediksi
respons. Koefisien determinasi R 2 = 0.1012 menunjukkan bahwa prediktor
enroll hanya “menjelaskan” 10% variasi pada respons.

 Asumsi Linearitas

Asumsi linearitas menyatakan bahwa hubungan antara X dan Y linear.


Secara kasar linearitas hubungan ini dapat dinilai dari diagram tebar X-Y,
sedangkan penilaian secara lebih eksak adalah dengan uji lack-of-fit dengan
H 0 : Tidak ada lack-of-fit vs H1 : Ada lack-of-fit.

28
Contoh 4.2:

Lihat kembali data pada contoh 2.1.

. graph twoway scatter api00 enroll || lfit api00 enroll


1000
800
600
400

0 500 1000 1500


number of students

api 2000 Fitted values

Tampak bahwa tebaran titik-titik tidak terlalu jelas mengikuti garis


regresi yang diestimasikan. Selanjutnya pemeriksaan asumsi linearitas
diteruskan dengan uji lack-of-fit.

. regress api00 enroll

. maxr2

maximum R-square = 0.7917


relative R-square = 0.1279
actual adjusted R-square = 0.0990
relative adjusted R-square = 0.1257

29
SSLF (df) = 5574305.5 (306) MSLF = 18216.684
SSPE (df) = 1682040.3 (92) MSPE = 18283.046

F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)


prob > F = 0.5206

number of covariate patterns = 308


as ratio of observations = 0.770

Dengan nilai p = 0.5206, hipotesis H 0 : Tidak ada lack-of-fit tidak ditolak.

 Asumsi Independensi dan Non-Otokorelasi

Asumsi independensi dan non-otokorelasi menyatakan bahwa suku


galat saling independen dan tak saling berkorelasi. Untuk data dari studi
cross-sectional, asumsi ini dianggap telah terpenuhi jika data diperoleh
melalui sampling acak (random sampling), walaupun independensi dapat
lebih jelas dilihat dari grafik galat-respons.

Pada data runtun waktu (time-series), asumsi non-otokorelasi


diperiksa dengan uji Durbin-Watson, yang tak akan dibahas di sini.

Contoh 4.3:

Lihat data pada contoh 2.1.

. regress api00 enroll

Suku galat diperoleh dengan perintah berikut.


. predict yhat

30
. gen e=api00-yhat

Secara langsung, suku galat diperoleh dengan perintah:

. predict e, residuals

Perintah Stata berikut menampilkan plot residual (galat) vs prediktor:


. rvpplot enroll, yline(0)
400
200
Residuals
0-200
-400

Tampak bahwa residual (galat) tersebar secara acak di atas dan di


bawah garis horizontal 0, mengindikasikan bahwa residual (dan juga
respons) saling independen.

31
 Asumsi Normalitas

Asumsi normalitas menyatakan bahwa suku galat berdistribusi


normal dengan rerata nol. Asumsi ini dapat diperiksa dengan uji normalitas
Kolmogorov-Smirnov atau uji Shapiro-Wilk untuk menguji hipotesis H 0 :
Suku galat berdistribusi normal vs H1 : Suku galat tidak berdistribusi normal.

Contoh 4.4:

Lihat data pada contoh 2.1.

. regress api00 enroll

. predict e, residuals

Dilakukan uji Shapiro-Wilk untuk menguji normalitas suku galat.

. swilk e

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


---------+--------------------------------------------
e | 400 0.97083 8.030 4.957 0.00000

Dengan nilai p = 0.0000 hipotesis H 0 : Suku galat berdistribusi


normal ditolak.

32
 Asumsi Homoskedatisitas
Asumsi homoskedastisitas menyatakan bahwa suku galat memiliki
variansi konstan. Asumsi ini dapat diperiksa dengan uji Breusch-Pagan dan
uji White, keduanya menguji H0 : Homoskedastisitas vs H1 :
Heteroskedastisitas. Uji Breusch-Pagan ditujukan untuk menguji linear
heteroskedasticity, sedangkan uji White menggunakan H1 : Unrestricted
heteroskedasticity untuk menguji hourglass heteroskedasticity.

Contoh 4.5:

Lihat data pada contoh 2.1.

. regress api00 enroll

Uji Breusch-Pagan (untuk linear heteroskedasticity) adalah sebagai


berikut:

. estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity


Ho: Constant variance
Variables: fitted values of api00

chi2(1) = 1.91
Prob > chi2 = 0.1665

Dengan p = 0.1665 hipotesis H 0 : Homoskedastisitas tidak ditolak


(tidak ada linear heteroskedasticity). Selanjutnya dilakukan uji White (untuk
menguji glasshour heteroskedasticity):

33
. estat imtest, white

White's test for Ho: homoskedasticity


against Ha: unrestricted heteroskedasticity

chi2(2) = 3.78
Prob > chi2 = 0.1514

Cameron & Trivedi's decomposition of IM-test

---------------------------------------------
Source | chi2 df p
-------------------+-------------------------
Heteroskedasticity | 3.78 2 0.1514
Skewness | 34.11 1 0.0000
Kurtosis | 26.44 1 0.0000
-------------------+-------------------------
Total | 64.32 4 0.0000
---------------------------------------------

Dengan p = 0.1514, hipotesis H 0 : Homoskedastisitas tidak ditolak


(tidak ada glasshour heteroskedasticity).

Pada regresi linear ganda, dengan adanya lebih daripada satu variabel
independen, pengujian keempat asumsi di atas harus dilakukan untuk
pasangan variabel dependen dengan tiap variabel independennya satu-per-
satu.

 Asumsi Non-Multikolinearitas

Asumsi non-multikoliearitas (hanya untuk regresi linear ganda)


menyatakan bahwa tidak boleh ada korelasi yang “hampir sempurna” antar
tiap pasangan variabel independen. Ada korelasi yang “hampir sempurna”
dapat dinilai dengan memeriksa matriks korelasi antar variabel independen,
34
atau secara kuantitatif dengan menghitung nilai VIF (variance inflation
factor) ataupun inversinya Tolerance = 1/VIF. Nilai VIF yang lebih besar
daripada 10 atau nilai Tolerance yang kurang daripada 0.10
mengindikasikan adanya multi kolinearitas.

Contoh 4.6:

. use “D:\Analisis Regresi Linear\Data\elemapi.dta”, clear

Variabel-variabel pada dataset ini adalah:

api00 : Kinerja akademik sekolah tahun 2000


acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3
meals : Persentase siswa yang mendapat makan gratis (indikator
kemiskinan)
full : Persentase guru yang memiliki akreditasi penuh untuk
mengajar

Sebagian dari nilai-nilai pada dataset diperlihatkan sebagai berikut:

. list api00 acs_k3 meals full in 1/7

+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
35
Matriks korelasi yang disajikan dalam bentuk diagram tebar adalah:

. graph matrix api00 acs_k3 meals full, half

api
2000

20
avg
class
0 size
k-3
-20
100

pct
50 free
meals
0
100.00

50.00 pct full


credential

0.00
400 600 800 1000
-20 0 20 0 50 100

Matriks korelasi diperoleh dengan perintah berikut:

. correlate api00 acs_k3 meals full


(obs=313)

| api00 acs_k3 meals full


-------------+------------------------------------
api00 | 1.0000
acs_k3 | -0.0641 1.0000
meals | -0.8184 0.0097 1.0000
full | 0.2328 0.1789 -0.2518 1.0000

Fitting model:

. regress api00 acs_k3 meals full

36
Source | SS df MS Number of obs = 313
---------+------------------------------ F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+------------------------------ Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
------------------------------------------------------------------------

Dilakukan uji multikolinearitas dengan perintah vif, perintah ini


harus langsung diberikan setelah perintah regress:
. vif

Variable | VIF 1/VIF


-------------+----------------------
full | 1.11 0.903713
meals | 1.07 0.933517
acs_k3 | 1.04 0.964781
-------------+----------------------
Mean VIF | 1.07

Tampak bahwa untuk ketiga variabel independen tidak ada nilai VIF
yang lebih besar daripada 10 atau nilai Tolerance = 1/VIF yang kurang
daripada 0.10, sehingga disimpulkan tidak ada multikolinearitas.

37
BAB 5
ESTIMASI KOEFISIEN REGRESI
DAN INTERPRETASI HASIL

 Metode Estimasi Koefisien Regresi


Metode estimasi yang paling umum digunakan untuk mengestimasi
koefisien regresi linear adalah metode Kuadrat Terkecil (Ordinary Least
Squares; OLS). Di sini hanya akan dibahas metode kuadrat terkecil untuk
regresi linear sederhana.

Misalkan dimiliki estimasi garis regresi untuk model regresi


sederhana:

Yˆi = b 0 + b1 X i

Misalkan pula Q menyatakan jumlah kuadrat galat, yaitu:


n
Q= ∑ ei2 (5.1)
i =1

Metode kuadrat terkecil meminimumkan jumlah kuadrat galat Q


dengan syarat derivat partial Q terhadap b 0 dan b1 masing-masing sama
dengan nol:

∂Q ∂Q
=0 dan =0 (5.2)
∂b0 ∂b1

sehingga diperoleh:

n b 0 + b1 ∑ X i − ∑ Yi =0 (5.3.a)

dan b0 ∑ Xi + b1 ∑ X i2 − ∑ X iYi = 0 (5.3.b)

39
Diperoleh rumus untuk koefisien regresi b1 :

b1 =
∑ ( X i − X )(Yi − Y ) (5.4)
2
∑( Xi − X )
dan b 0 = Y − b1 X (5.5)

 Tabel Analisis Variansi

Keluaran hasil analisis regresi dengan Stata akan menampilkan dua


tabel, yaitu tabel analisis variansi dengan hasil pelengkapnya dan tabel
koefisien regresi.

Dari model:
Yi = β 0 + β 1 X i + ε i

diperoleh estimasi model:


Yi = b 0 + b1 X i + ei

sehingga: Var (Yi ) = Var ( b 0 + b1 X i + e i )

dan: Var (Yi ) = Var ( b 0 ) + Var ( b1 X i ) + Var ( ei )

b 0 adalah konstante, sehingga Var ( b 0 ) = 0 dan:

Var (Yi ) = Var ( b1 X i ) + Var ( ei )

Pada tabel analisis variansi (tabel ANOVA), variansi variabel


dependen Var (Yi ) diestimasi oleh jumlah kuadrat total (JKT).
Penguraiannya dirinci pada tabel analisis variansi (tabel ANOVA) menjadi:

1. Jumlah kuadrat regresi (JKR) sebagai estimator untuk Var ( b1 X i ) :


Menyatakan komponen variansi yang berkaitan dengan (“dijelaskan
oleh”) model regresi; beserta
40
2. Jumlah kuadrat galat (jumlah kuadrat residual; JKG) sebagai
estimator untuk Var ( e i ) : Menyatakan komponen variansi sisanya yang
“tidak dijelaskan” oleh model.

Jumlah kuadrat dibagi dengan derajat bebasnya menghasilkan rerata


kuadrat, masing-masing yaitu “rerata kuadrat regresi” dan “rerata
kuadrat galat” yang nilai-nilainya digunakan untuk uji F di bawah ini.

Bentuk umum tabel analisis variansi ini adalah:

Rerata
Sumber Variasi Jumlah Kuadrat db
Kuadrat
Model JKR k RKR
Galat JKG n–k–1 RKG
JKT n–1

JKR : Jumlah Kuadrat Regresi


JKG : Jumlah Kuadrat Galat (Jumlah Kuadrat Residual)
JKT : Jumlah Kuadrat Total ; JKT = JKR + JKG
db : derajat bebas ; db JKR = k
db JKG = n – k – 1
db JKT = (db JKR) + (db JKG)
=n–1
RKR : Rerata Kuadrat Regresi ; RKR = JKR / k
RKG : Rerata Kuadrat Galat ; RKG = JKG / (n – k – 1)
n : ukuran sampel
k : jumlah variabel independen

Sebagai pelengkap tabel analisis variansi, diperoleh pula hasil dan


nilai estimasi:
 Uji F, yaitu uji statistik untuk keadekuatan model yang diajukan
peneliti beserta nilai p-nya.
Uji F menguji hipotesis H 0 : Model tak adekuat vs H1 : Model adekuat.

41
Statistik pengujinya adalah:

JKR k RKR
Fuji = = (5.6)
JKG ( n − k − 1) RKG

yang berdistribusi F dengan derajat bebas pembilang (numerator) = k


dan derajat bebas penyebut (denominator) = n – k – 1; n menyatakan
ukuran sampel; k menyatakan jumlah variabel independen.

Perhatikan bahwa model yang “adekuat” belum tentu merupakan model


yang “terbaik”.

 Koefisien determinasi R 2 (R-squared), yaitu proporsi variansi yang


“dijelaskan oleh” model. Estimasinya adalah: yaitu: dan estimasi
“penyesuaian”-nya adj R 2 (adjusted R 2 ), masing-masing yaitu:

JKR JKT - JKG


R2 = = (5.7)
JKT JKT

Sebagian ahli menganggap nilai R 2 sebagai estimasi yang bias


terhadap proporsi variansi yang “dijelaskan oleh” model, sehingga
diperlukan penyesuaian menjadi adjusted R-squared:

adj R 2
=1−
(1 − R2 ) ( n − 1)
(5.8)
n − p −1

p menyatakan jumlah variabel independen dalam model.

 Root MSE, yaitu akar RKG.

JKG
Root MSE = RKG = (5.9)
n − k −1

Nilai ini akan digunakan pada sejumlah uji statistik pasca fitting model
regresi.

42
 Tabel Koefisien Regresi

Tabel ini terutama berguna pada analisis regresi ganda. Pada analisis
regresi sederhana dengan hanya satu variabel independen, nilai p untuk uji
signifikansi koefisien regresinya adalah sama dengan nilai p untuk model
pada uji F, tetapi pada analisis regresi ganda, dengan adanya beberapa
variabel independen, tiap variabel independen akan memiliki nilai
kemaknaan sendiri-sendiri, sehingga diperlukan tabel koefisien regresi untuk
melihat kemaknaan masing-masing variabel independen.

Bentuk umum tabel koefisien regresi adalah:

Y Koeff SE t nilai p Int Konf 95%


X1 b1 SEˆ ( b1 ) t1 p1 b1−low b1−high

X2 b2 SEˆ ( b 2 ) t2 p2 b 2−low b 2−high


... ... ... ... ... ... ...
Xk bk SEˆ ( bk ) tk pk bk −low bk −high

Intersep b0 SEˆ ( b 0 ) t0 p0 b 0 −low b 0−high

Kemaknaan tiap estimasi koefisien regresi diuji dengan uji Wald


yang menggunakan uji t dengan statistik penguji:

bj bj
tuji = = (5.10)
SEˆ b ( j) RKG JKR

yang berdistribusi t dengan derajat bebas (n – k – 1).

43
Contoh 5.1:

Lihat kembali contoh 2.1 dengan file data elemapi.dta, yang


memuat data tentang kinerja akademik 400 sekolah di sebuah regio di
Amerika Serikat. Perintah Stata regress menampilkan hasil tabel analisis
variansi berserta pelengkapnya dan variabel koefisien regresi. Tabel analisis
variansi beserta pelengkapnya adalah:

Source | SS df MS Number of obs = 400


---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03

Tampak nilai JKT (Jumlah Kuadrat Total; Total) sebesar


8,073,672.00 dengan derajat bebas n – 1 = 399, yang dapat dijabarkan
menjadi JKR (Jumlah Kuadrat Regresi) dan JKG (Jumlah Kuadrat Galat).
JKR (SS Model) adalah 817,326.293 dengan derajat bebas k = 1 dan JKG
(SS Residual) adalah 7,256,345.70 dengan derajat bebas n – k – 1 = 398.

Pembagian tiap nilai Jumlah Kuadrat dengan derajat bebasnya


(degree of freedom; df) menghasilkan nilai Rerata Kuadrat (MS). RKR
(Rerata Kuadrat Regresi; MS Model) adalah 817,326.293 dan RKG (Rerata
Kuadrat Galat; MS Residual) adalah 18,232.0244. Pembagian RKR
dengan RKG menghasilkan statistik penguji [F(1, 398)] sebesar 44.83
dengan nilai-p (Prob > F) 0.0000, yang menyatakan hasil yang sangat
bermakna, sehingga hipotesis H 0 : Model tak adekuat ditolak (paling sedikit
salah satu prediktor bermakna untuk memprediksi respons).

Koefisien determinasi (R-squared) adalah 0.1012,


mengindikasikan bahwa model dengan 1 prediktor enroll (jumlah siswa)
hanya dapat menjelaskan 10.12% variansi respons api00 (kinerja akademik
sekolah pada tahun 2000). Penyesuaian koefisien variansi (Adj R-
44
squared) sebesar 0.0990 hanya menghasilkan sedikit perubahan, yaitu
model tetap hanya dapat menjelaskan 9.90% variansi respons api00.

Nilai Root MSE yaitu akar MS Residual adalah 135.03.


Selanjutnya diperlihatkan tabel koefisien regresi, yaitu:

----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------

Dari tabel ini tampak bahwa respons adalah api00, sedangkan


prediktor hanya ada 1 yaitu enroll. Dengan nilai-nilai estimasi yang ada
untuk koefisien regresi (Coef.), maka estimasi model adalah:

api00 = 744 – 0.200 enroll + e

Pembagian tiap nilai estimasi koefisien regresi (Coef.) dengan


standard error-nya (Std. Err.) menghasilkan nilai t (t), yaitu statistik
penguji untuk tiap hipotesis H 0 : bj = 0 (uji Wald untuk tiap koefisien
regresi) dengan nilai p-nya (P>|t|) masing-masing. Hasil uji bahwa
hipotesis nol tidak ditolak mengindikasikan bahwa koefisien regresi
bersangkutan “dapat dianggap” sama dengan nol, sehingga prediktor yang
bersangkutan dapat dikeluarkan dari model.

Nilai p untuk enroll adalah 0.000 yang sangat bermakna, sehingga


prediktor enroll dapat dianggap sangat bermakna dalam memprediksi
kinerja akademik sekolah.

Estimasi untuk β 1 (Coef. enroll) adalah −0.200 dengan interval


konfidensi 95% ([95% Conf. Interval]) untuk estimasi koefisien
45
regresi β 1 adalah [−0.259 ; −0.141]. Bagi estimasi koefisien regresi enroll
yang bernilai negatif ini dapat diinterpretasikan bahwa tiap penambahanan 1
orang siswa (1 unit enroll) akan menurunkan kinerja akademik sekolah
sebesar 0.200 satuan.

Contoh 5.2:

Lihat kembali contoh 3.1 yang juga menggunakan file data


elemapi.dta dengan respons yang sama api00, tetapi pada model regresi
linear ganda dengan 3 prediktor, yaitu acs_k3, meals, dan full.

Tabel analisis variansi adalah:

Source | SS df MS Number of obs = 313


---------+---------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+---------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

Ukuran sampel (Number of Obs) adalah n = 313 dan jumlah


variabel independen (prediktor) adalah k = 3.

Tampak nilai Jumlah Kuadrat Total (SS Total) sebesar


3,906,597.47 dengan derajat bebas (df Total) n – 1 = 312. Pada
penguraiannya diperoleh Jumlah Kuadrat Regresi (SS Model) 2,634,884.26
dengan derajat bebas (df Model) k = 3 dan Jumlah Kuadrat Galat (SS
Residual) 1,271,713.21 dengan derajat bebas (df Residual) n – k – 1
= 309.

Pembagian Jumlah Kuadrat dengan derajat bebas menghasilkan


Rerata Kuadrat, masing-masing yaitu Rerata Kuadrat Regresi (MS Model)
sebesar 878,294.754 dan Rerata Kuadrat Galat (MS Residual) sebesar
46
4,115.577. Pembagian Rerata Kuadrat Regresi dengan Rerata Kuadrat Galat
menghasilkan nilai statistik penguji untuk uji F [F( 3, 309)] untuk
menguji hipotesis H 0 : Model tak adekuat vs H1 : Model adekuat, yaitu
213.41, yang berdistribusi F dengan derajat bebas pembilang 3 dan derajat
bebas penyebut 309). Uji F ini menghasilkan nilai p (Prob > F) 0.000,
sehingga hipotesis H 0 : Model tak adekuat ditolak (model dianggap adekuat).

Koefisien determinasi R2 (R-squared) adalah 0.674,


mengindikasikan bahwa 67.4% variansi respons api00 yang dapat
“dijelaskan” oleh model. Penyesuaiannya menjadi adj R 2 (Adj R-
squared) sebesar 0.671 atau 67.1%.

Akar JKG (MS Residual) adalah Root MSE, yaitu 64.153.


Selanjutnya tabel koefisien regresi adalah:

--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------

Tabel menunjukkan bahwa variabel respons adalah api00 dengan 3


prediktor, acs_k3, meals, dan full. Model estimasi adalah:

api00 = 906.74 – 2.68 acs_k3 – 3.70 meals + 0.11 full + e

Seandainya acs_k3 (rerata ukuran kelas), meals (persentasi siswa


yang mendapat makan gratis), dan full (persentasi guru dengan akreditasi
penuh) seluruhnya bernilai nol, maka api00 (kinerja akademik sekolah) akan
bernilai 906.74.

47
Dari hasil uji Wald dengan uji t untuk ketiga estimasi koefisien
regresi, tampak bahwa acs_k3 tidak jelas bermakna (p = 0.055), meals
jelas bermakna (p = 0.000), dan full tidak bermakna (p = 0.232) terhadap
respons api00.

Kedua kolom terakhir menyatakan nilai batas bawah dan batas atas
interval konfidensi 95%. Jika p > 0.5, maka batas bawah akan bernilai
negatif dan batas atas positif, sedangkan jika p < 0.05, maka batas bawah dan
atas akan keduanya bernilai negatif atau keduanya bernilai positif.

48
BAB 6
KONFAUNDING DAN INTERAKSI

 Konfaunding

Misalkan pada hubungan antara prediktor X 1 dan respons Y ,


dimiliki prediktor lain X 2 yang juga mempengaruhi respons Y . Jika
seandainya pengendalian terhadap X 2 (dengan menginkorporasikan X 2 ke
dalam model) mengakibatkan perubahan besar hubungan antara prediktor
pertama X 1 dengan Y , maka X 2 dikatakan sebagai konfaunder
(confounder) dan fenomena ini dikatakan sebagai konfaunding
(confounding) pada hubungan antara X 1 dan Y . Syarat konfaunding yaitu:

a. X 2 berpengaruh terhadap Y

b. X 2 juga berpengaruh terhadap X 1 .

Model konfaunding yang paling sederhana dan paling lazim


ditemukan demikian diperlihatkan pada gambar 6.1, yang sering juga
disajikan sebagai X 1 ← X 2 → Y .

Gambar 6.1 Model konfaunding

Konfaunder X 2 umumnya merupakan variabel kategorik. Peristiwa


konfaunding terjadi karena distribusi prediktor X 1 tak homogen pada
berbagai taraf nilai konfaunder X 2 , walaupun demikian besar efek prediktor

49
X 1 terhadap respons Y (dinyatakan dengan koefisien regresinya) pada
berbagai taraf nilai konfaunder X 2 ini adalah sama ataupun hampir sama.

Misalkan dimiliki prediktor X 1 dan respons Y dengan model regresi


sederhana sebagai berikut:

Y = β0 + β1 X1 + ε
c
(6.1)

Misalkan dimiliki pula konfaunder potensial X 2 , sehingga dengan


inkorporasinya model regresi menjadi tersebut menjadi:

Y = β0 + β1 X1 + β 2 X 2 + ε
c c
(6.2)

Koefisien regresi β 1 pada model pertama disebut sebagai “koefisien


c

regresi kasar” (crude coefficient of regression), selanjutnya dinyatakan


sebagai cr − β 1 , sedangkan koefisien regresi β 1 pada model kedua adalah
c c

‘koefisien regresi suaian” (adjusted coefficient of regression), dinyatakan


sebagai adj − β 1 .

Besar konfaunding adalah selisih antara estimasi koefisien regresi


kasar dengan estimasi suaiannya, yaitu:

∆b = cr − β 1 − adj − β 1
c
(6.3)

Keberadaan konfaunding tidak ditentukan berdasarkan uji statistik,


melainkan berdasarkan penilaian substantif ranah bidang penelitian yang
bersangkutan, akan tetapi dengan “rule of thumb” (aturan berdasarkan
pengalaman), dapat dinyatakan bahwa konfaunding ada jika ∆b adj − β 1
lebih besar daripada 10%.

50
Walaupun tak selalu, pada umumnya konfaunder adalah variabel
kategorik, dan dalam keadaan ini perlu diperiksa koefisien regresi prediktor
terhadap respons pada tiap taraf kategori konfaunder, yaitu koefisien regresi
spesifik-kategori. Koefisien regresi spesifik-kategori ini harus hampir sama,
tetapi jelas berbeda dengan koefisien regresi “kasar”. Jika koefisien regresi
spesifik-kategori jelas saling berbeda satu sama lain, hal ini mengindikasikan
kemungkinan adanya interaksi.

Untuk pemeriksaan konfaunder kontinu, cukup diperiksa dan


diperbandingkan koefisien regresi “kasar” dan koefisien regresi “suaian”nya.
Nilai yang jelas berbeda antar keduanya mengindikasikan kemungkinan
konfaunding, dengan syarat tidak ada interaksi.

Contoh 6.1:

Konfaunder dalam suatu model regresi mungkin lebih daripada satu,


sebagaimana diperlihatkan pada contoh di sini dengan hanya menggunakan
diagram tebar. Pada diagram tebar pertama di bawah ini, tidak terlihat jelas
adanya hubungan antara Skor Diet (banyaknya asupan makanan) dengan
BMI (indeks massa tubuh).

51
Dengan mengendalikan konfaunfer pertama, yaitu faktor Usia
sebagai variabel biner (Usia dewasa > 20 tahun vs Usia anak < 20 tahun)
pada diagram kedua, tampak adanya kecenderungan kenaikan indeks massa
tubuh yang sejalan dengan kenaikan asupan makanan di kedua kelompok
Usia.

Dengan mengendalikan faktor usia, yaitu mengkategorikan anggota


sampel ke dalam dua kelompok usia, masing-masing “lebih daripada 20
tahun” serta “kurang daripada atau sama dengan 20 tahun”, tampak adanya
hubungan linear antara asupan makanan dengan indeks massa tubuh di
masing-masing kategori.

Pengendalian konfaunder kedua, yaitu Jenis Kelamin (Pria vs Wanita)


lebih memperjelas hubungan antara banyak asupan makanan dengan indeks
massa tubuh (diagram ketiga di bawah ini), sedangkan besar hubungan di
tiap kategori konfaunder (dinilai dengan koefisien regresinya) adalah kurang
lebih sama.

52
Contoh 6.2 (Konfaunder kategorik):

Sebagai contoh konfaunding di sini akan digunakan dataset


Framingham.dta yang memuat data tentang 4,690 subjek dewasa berusia
30 s.d. 68 tahun. Variabel dependen adalah tekanan darah sistolik (sbp)
dengan prediktor indeks massa tubuh (bmi) dan variabel kategorik biner
age.cat sebagai konfaunder potensial.

. use "D:\Analisis Regresi Linear\Data\framingham_confounding


.dta", clear

. sum sbp bmi

Variable | Obs Mean Std. Dev. Min Max


---------+--------------------------------------------
sbp | 4,699 132.7665 22.8011 80 270
bmi | 4,690 25.63171 4.094672 16.2 57.6

53
. tab age_cat

Age |
Categorical | Freq. Percent Cum.
------------+-----------------------------------
< 52 years | 3,309 70.42 70.42
>= 52 years | 1,390 29.58 100.00
------------+-----------------------------------
Total | 4,699 100.00

. tab age_cat, nolabel


Age |
Categorical | Freq. Percent Cum.
------------+-----------------------------------
0 | 3,309 70.42 70.42
1 | 1,390 29.58 100.00
------------+-----------------------------------
Total | 4,699 100.00

Untuk memperoleh koefisien regresi kasar bmi, variabel dependen


sbp diregresikan terhadap bmi. Jika ditemukan konfaunder, harus dihitung
korefisien regresi suaiannya, sedangkan jika tidak ditemukan konfaunder,
koefisien regresi kasar ini akan menjadi koefisien regresi akhir.

. regress sbp bmi

Source | SS df MS Number of obs = 4,690


---------+----------------------------- F(1, 4688) = 565.07
Model | 262347.407 1 262347.407 Prob > F = 0.0000
Residual | 2176529.37 4,688 464.276742 R-squared = 0.1076
---------+----------------------------- Adj R-squared = 0.1074
Total | 2438876.78 4,689 520.127271 Root MSE = 21.547

54
----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407
_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647
----------------------------------------------------------------

Diperoleh koefiesien regresi kasar sementara cr − β 1 = 1.827,


c

sehingga estimasi model adalah:

sbp = 85.936 + 1.827.bmi + e

Koefisien regresi kasar cr − β 1 = 1.827 mengindikasikan bahwa kenaikan 1


c

satuan bmi akan menyebabkan kenaikan sbp sebesar 1.827 satuan.

Syarat bagi age_cat sebagai konfaunder yaitu variabel ini harus


memiliki hubungan baik prediktor bmi maupun respons sbp.

. regress bmi age_cat

Source | SS df MS Number of obs = 4,690


---------+------------------------------ F(1, 4688) = 97.21
Model | 1597.05562 1 1597.05562 Prob > F = 0.0000
Residual | 77020.3199 4,688 16.4292491 R-squared = 0.0203
---------+------------------------------ Adj R-squared = 0.0201
Total | 78617.3755 4,689 16.7663415 Root MSE = 4.0533

---------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
age_cat | 1.279192 .1297432 9.86 0.000 1.024835 1.53355
_cons | 25.25395 .0705055 358.18 0.000 25.11572 25.39217
---------------------------------------------------------------

55
. regress sbp age_cat

Source | SS df MS Number of obs = 4,699


---------+------------------------------ F(1, 4697) = 615.30
Model | 282895.911 1 282895.911 Prob > F = 0.0000
Residual | 2159548.99 4,697 459.77198 R-squared = 0.1158
---------+------------------------------ Adj R-squared = 0.1156
Total | 2442444.9 4,698 519.890358 Root MSE = 21.442

-----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+--------------------------------------------------------
age_cat | 17.00044 .6853591 24.81 0.000 15.65682 18.34407
_cons | 127.7377 .3727545 342.69 0.000 127.0069 128.4685
-----------------------------------------------------------------

Tampak bahwa age_cat memiliki hubungan bermakna, baik dengan


bmi maupun sbp. Selanjutnya akan diperlihatkan bahwa koefisien regresi
prediktor bmi tidak berbeda bermakna antar berbagai taraf kategori
konfaunder.

. regress sbp if age_cat==0

Source | SS df MS Number of obs = 3,305


---------+------------------------------ F(1, 3303) = 433.24
Model | 136140.952 1 136140.952 Prob > F = 0.0000
Residual | 1037934.6 3,303 314.239962 R-squared = 0.1160
---------+------------------------------ Adj R-squared = 0.1157
Total | 1174075.55 3,304 355.349742 Root MSE = 17.727

----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.619515 .0778075 20.81 0.000 1.466959 1.772071
_cons | 86.82944 1.988993 43.65 0.000 82.92966 90.72923
----------------------------------------------------------------

56
. regress sbp bmi if age_cat==1

Source | SS df MS Number of obs = 1,385


---------+------------------------------ F(1, 1383) = 87.43
Model | 58365.6713 1 58365.6713 Prob > F = 0.0000
Residual | 923271.701 1,383 667.58619 R-squared = 0.0595
---------+------------------------------ Adj R-squared = 0.0588
Total | 981637.372 1,384 709.275558 Root MSE = 25.838

---------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+--------------------------------------------------------
bmi | 1.524472 .16304 9.35 0.000 1.204639 1.844304
_cons | 104.3127 4.381322 23.81 0.000 95.71796 112.9075
---------------------------------------------------------------

Tampak bahwa kedua koefisien regresi tidak banyak berbeda,


masing-masing yaitu 1.620 dan 1.524. Jika keduanya jelas berbeda, perlu
dipertimbangkan kemungkinan interaksi. Setelah ditetapkan status age_cat
sebagai konfaunder, langkah terakhir adalah menghitung koefisien regresi
suaian.

. regress sbp bmi age_cat

Source | SS df MS Number of obs = 4,690


---------+------------------------------ F(2, 4687) = 570.55
Model | 477517.59 2 238758.795 Prob > F = 0.0000
Residual | 1961359.19 4,687 418.46793 R-squared = 0.1958
---------+------------------------------ Adj R-squared = 0.1955
Total | 2438876.78 4,689 520.127271 Root MSE = 20.456

----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------------
bmi | 1.588524 .0737103 21.55 0.000 1.444017 1.733031
age_cat | 15.00111 .6615513 22.68 0.000 13.70416 16.29806
_cons | 87.61209 1.895182 46.23 0.000 83.89664 91.32754
----------------------------------------------------------------
57
Estimasi model adalah
sbp = 87.612 + 1.589.bmi + 15.001.age_cat + e
dengan adj − β 1 = 1.589, yaitu kenaikan 1 satuan bmi akan menyebabkan
kenaikan sbp sebesar 1.589 satuan.

Tampak bahwa:
∆b = cr − β 1 − adj − β 1
c

= 1.827 – 1.589 = 0.238


∆b 0.238
dan: = = 0.150 = 15.0%
b adj
c
1.589

yang dengan “rule of thumb” mengindikasikan adanya konfaunding.

Dalam penilaian secara substantif, kenaikan bmi sebesar 1 satuan


yang tampaknya cukup bermakna bagi massa tubuh, ternyata hanya
menghasilkan kenaikan tekanan darah sistolik “kasar” sebesar 1.827 mm Hg
ataupun kenaikan “suaian” sebesar 1.589 mm Hg, keduanya relatif tak
bermakna secara substantif, apalagi perubahannya karena koreksi
konfaunding yang hanya sebesar (1.827 – 1.589) mm Hg = 0.238 mm Hg.
Maka walaupun secara kuantitatif didapatkan adanya konfaunding, secara
substantif fenomena konfaunding relatif tak penting untuk diperhitungkan
ataupun dikoreksi.

Contoh 6.3 (konfaunder kontinu):

Pada contoh ini akan digunakan dataset


framingham_confounding.dta yang sama seperti seperti pada Contoh
6.2, tetapi dengan memeriksa variabel age sebagai konfaunder potensial
kontinu.

. use “D:\Analisis Regresi Linear\Data\framingham


_confounding.dta”, clear
58
. sum sbp bmi age

Variable | Obs Mean Std. Dev. Min Max


---------+------------------------------------------------
sbp | 4,699 132.7665 22.8011 80 270
bmi | 4,690 25.63171 4.094672 16.2 57.6
age | 4,699 46.04107 8.504363 30 68

. regress sbp bmi

Source | SS df MS Number of obs = 4,690


---------+----------------------------- F(1, 4688) = 565.07
Model | 262347.407 1 262347.407 Prob > F = 0.0000
Residual | 2176529.37 4,688 464.276742 R-squared = 0.1076
---------+----------------------------- Adj R-squared = 0.1074
Total | 2438876.78 4,689 520.127271 Root MSE = 21.547

----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
bmi | 1.82675 .0768474 23.77 0.000 1.676093 1.977407
_cons | 85.93592 1.9947 43.08 0.000 82.02537 89.84647
----------------------------------------------------------------

Koefisien regresi kasar bmi adalah 1.827.

. regress bmi age

Source | SS df MS Number of obs = 4,690


---------+------------------------------ F(1, 4688) = 157.75
Model | 2559.28728 1 2559.28728 Prob > F = 0.0000
Residual | 76058.0882 4,688 16.2239949 R-squared = 0.0326
---------+------------------------------ Adj R-squared = 0.0323
Total | 78617.3755 4,689 16.7663415 Root MSE = 4.0279

59
----------------------------------------------------------------
bmi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+---------------------------------------------------------
age | .0869364 .0069218 12.56 0.000 .0733663 .1005064
_cons | 21.63002 .3239954 66.76 0.000 20.99484 22.2652
----------------------------------------------------------------

. regress sbp age

Source | SS df MS Number of obs = 4,699


---------+------------------------------ F(1, 4697) = 865.99
Model | 380213.315 1 380213.315 Prob > F = 0.0000
Residual | 2062231.59 4,697 439.052924 R-squared = 0.1557
---------+------------------------------ Adj R-squared = 0.1555
Total | 2442444.9 4,698 519.890358 Root MSE = 20.954

--------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+-------------------------------------------------------
age | 1.057829 .0359468 29.43 0.000 .9873561 1.128301
_cons | 84.06298 1.68302 49.95 0.000 80.76347 87.36249
--------------------------------------------------------------

Tampak bahwa age memiliki hubungan bermakna, baik dengan bmi


maupun sbp.

. regress sbp bmi age

Source | SS df MS Number of obs = 4,690


---------+------------------------------ F(2, 4687) = 676.63
Model | 546405.806 2 273202.903 Prob > F = 0.0000
Residual | 1892470.97 4,687 403.770209 R-squared = 0.2240
---------+------------------------------ Adj R-squared = 0.2237
Total | 2438876.78 4,689 520.127271 Root MSE = 20.094

60
-----------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+----------------------------------------------------------
bmi | 1.478067 .0728609 20.29 0.000 1.335225 1.620908
age | .9311772 .0351072 26.52 0.000 .8623506 1.000004
_cons | 52.01112 2.257478 23.04 0.000 47.58541 56.43684
-----------------------------------------------------------------

Diperoleh koefisien regresi suaian bmi sebesar 1.478. Tampak


bahwa:
∆b = cr − β 1 − adj − β 1
c

= 1.827 – 1.478 = 0.349


∆b 0.349
dan: = = 0.236 = 23.6%
b adj
c
1.478

yang bahkan lebih besar daripada untuk perhitungan age kategorik sebagai
konfaunder potensial di atas, yang dengan “rule of thumb” juga
mengindikasikan adanya konfaunding.

Walaupun demikian, pada penilaian secara substantif, 1 satuan bmi


sebesar relatif cukup bermakna bagi massa tubuh, hanya menghasilkan
kenaikan tekanan darah sistolik “kasar” sebesar 1.827 mm Hg, kenaikan
“suaian” sebesar 1.478 mm Hg, maupun perubahannya karena koreksi
konfaunding sebesar 0.349 mm Hg, yang kesemuanya relatif tak bermakna
secara substantif. Maka walaupun dengan konfaunder kontinu di sini secara
kuantitatif didapatkan adanya konfaunding, secara substantif fenomena
konfaunding tetap tak perlu untuk diperhitungkan ataupun dikoreksi.

61
 Interaksi
Interpretasi interaksi dapat dibedakan menjadi 2 konsep yang berbeda
namun saling berkaitan, yaitu modifikasi efek (effect modification) dan
interaksi statistik (statistical interaction).

 Modifikasi Efek

Misalkan dimiliki hubungan antara prediktor X 1 dengan respons Y


dalam model regresi sederhana:

Y = β0 + β1 X1 + ε
c

Misalkan dimiliki pula variabel kategorik X 2 , sedemikian hingga besar


hubungan antara X 1 dengan Y tidak tidak sama pada berbagai taraf nilai
X 2 , maka peristiwa ini disebut sebagai modifikasi efek dengan X 2 sebagai
pemodifikasi efek (effect modifier) –nya.

Pada umumnya, perbedaan efek antara prediktor dengan respons pada


berbagai taraf pemodifikasi efeknya ini dapat “dijelaskan secara substantif”
sesuai dengan ranah bidang ilmu penelitian. Dengan adanya dugaan
peristiwa modifikasi efek oleh X 2 ini, model yang perlu diuji menjadi:

Y = β0 + β1 X1 + β 2 X 2 + β 3 X1 X 2 + ε
c c c

Perhatikan bahwa pada inklusi suku interaksi β 3 X 1 X 2 , aturan hirarki


c

interaksi mensyaratkan pula pemasukan suku β 2 X 2 dalam model.


c

Pengujian modifikasi efek secara statistik dapat dilakukan dengan uji


Wald pada fitting model regresi, yang menguji hipotesis H 0 : β 3 = 0.
c

Adanya modifikasi efek disimpulkan dengan tingkat kemaknaan yang


umumnya lebih besar daripada tingkat kemaknaan untuk koefisien regresi
biasa, yaitu dengan α = 0.25. Seandainya tidak ditemukan modifikasi efek,
maka model regresi dikembalikan ke model semula dengan menghapus baik

62
suku interaksi β 3 X 1 X 2 maupun suku pemodifikasi-efeknya β 2 X 2
c c

menjadi:
Y = β0 + β1 X1 + ε
c

Walaupun tidak selalu, pemodifikasi efek umumnya adalah variabel


kategorik, dan dalam hal in model estimasi akhir harus dinyatakan secara
terpisah untuk tiap taraf kategori pemodifikasi efek.

 Interaksi Statistik

Misalkan dimiliki dua prediktor X 1 dan X 2 dengan respons Y


dalam model regresi:

Y = β0 + β1 X1 + β 2 X 2 + ε
c c

Interaksi statistik antara prediktor X 1 dan X 2 dinyatakan ada jika


penjumlahan efek X 1 terhadap Y dan efek X 2 terhadap Y (efek harapan;
expected effect) tidak sama dengan efek bersama X 1 dan X 2 terhadap Y
(efek pengamatan; observed effect). Selisih antara keduanya menyatakan
besar efek interaksi statistik X 1 dan X 2 terhadap Y , yang keberadaannya
secara substantif tak selalu dapat dijelaskan menurut ranah bidang ilmu yang
diteliti.

Di sini model yang akan diuji interaksi statistiknya adalah:

Y = β0 + β1 X1 + β 2 X 2 + β 3 X1 X 2 + ε
c c c

Pengujian statistik juga dilakukan dengan uji Wald pada fitting model regresi
terhadap hipotesis H 0 : β 3 = 0, biasanya dengan tingkat signifikansi α =
c

0.25. Seandainya pada uji statistik ini hipotesis nol tidak ditolak maka
interaksi dianggap tidak ada dan tidak hanya suku interaksi β 3 X 1 X 2 yang
c

dikeluarkan dari model menjadi:

Y = β0 + β1 X1 + β 2 X 2 + ε
c c

63
Suku interaksi statistik biasanya berisikan perkalian antar dua
variabel kontinu. Pengujian cukup dilakukan dengan uji Wald.

Contoh 6.4:

Dalam contoh ini akan diperlihatkan interaksi antar variabel


kategorik dengan menggunakan dataset elemapi2.dta, yang memuat data
mengenai 400 sekolah di Amerika Serikat. Variabel dependen adalah
penampilan akademik sekolah pada tahun 2000 (api00) dengan dua
prediktor kategorik, yaitu kategori kolese sekolah (collcat) serta kategori
persentase siswa di sekolah yang mendapat makanan gratis (mealcat).
Prediktor terakhir dapat dianggap sebagai indikator tingkat kemiskinan siswa
sekolah.

. use "D:\Analisis Regresi Linear\Data\elemapi2.dta", clear


. sum api00

Variable | Obs Mean Std. Dev. Min Max


---------+--------------------------------------
api00 | 400 647.6225 142.249 369 940

. tab collcat

collcat | Freq. Percent Cum.


------------+-----------------------------------
1 | 129 32.25 32.25
2 | 134 33.50 65.75
3 | 137 34.25 100.00
------------+-----------------------------------
Total | 400 100.00

64
. tab mealcat

Percentage |
free meals |
in 3 |
categories | Freq. Percent Cum.
------------+-----------------------------------
1 | 131 32.75 32.75
2 | 132 33.00 65.75
3 | 137 34.25 100.00
------------+-----------------------------------
Total | 400 100.00

. regress api00 i.collcat i.mealcat collcat#mealcat

Source | SS df MS Number of obs = 400


---------+---------------------------- F(8, 391) = 166.76
Model | 6243714.81 8 780464.351 Prob > F = 0.0000
Residual | 1829957.19 391 4680.19741 R-squared = 0.7733
---------+---------------------------- Adj R-squared = 0.7687
Total | 8073672 399 20234.7669 Root MSE = 68.412

-------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+--------------------------------------------------------
collcat |
2 | 8.736877 15.57439 0.56 0.575 -21.88315 39.35691
3 | -34.76334 14.90052 -2.33 0.020 -64.05851 -5.468177
|
mealcat |
2 | -227.5643 19.17628 -11.87 0.000 -265.2658 -189.8628
3 | -322.9954 14.03445 -23.01 0.000 -350.5878 -295.4029
|

65
collcat# |
mealcat |
2#2 | 38.51777 24.19532 1.59 0.112 -9.051422 86.08697
2#3 | 6.177537 20.08262 0.31 0.759 -33.3059 45.66097
3#2 | 101.051 22.88808 4.42 0.000 56.05191 146.0501
3#3 | 82.57776 24.43941 3.38 0.001 34.52867 130.6268
|
_cons | 816.9143 11.56373 70.64 0.000 794.1794 839.6492
-------------------------------------------------------------------

Estimasi model adalah:

ˆ
api00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56
(2.mealcat) – 322 (3.mealcat) + 38.52 (2.collcat)*(2.mealcat)
+ 6.18 (2.collcat)*(3.mealcat) + 101.05
(3.collcat)*(2.mealcat) + 82.58 (3.collcat)*(3.mealcat)

Dengan batasan p < 0.25 sebagai batas kemaknaan interaksi, estimasi


persamaan regresi menjadi:
ˆ
api00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56
(2.mealcat) – 322 (3.mealcat) + 38.52
(2.collcat)*(2.mealcat) + 101.05 (3.collcat)*(2.mealcat) +
82.58 (3.collcat)*(3.mealcat)

Nilai prediksi respons harus dinyatakan pada tiap taraf interaksi:


- collcat = 2 (2.collcat = 1) dan mealcat = 2 (2.mealcat = 1)
Nilai prediksi api00 adalah
ˆ
api00 = 816.91 + 8.74 (2.collcat) – 34.76 (3.collcat) – 227.56
(2.mealcat) – 322 (3.mealcat) + 38.52
(2.collcat)*(2.mealcat) + 101.05 (3.collcat)*(2.mealcat) +
82.58 (3.collcat)*(3.mealcat)

66
ˆ
api00 = 816.91 + 8.74 (1) – 34.76 (0) – 227.56 (1) – 322 (0) +
38.52 (1)*(1) + 101.05 (0)*(1) + 82.58 (0)*(0)
=` 636.61

- collcat = 2 (2.collcat = 1) dan mealcat = 3 (3.mealcat = 1)


Nilai prediksi api00 adalah:
ˆ
api00 = 816.91 + 8.74 (1) – 34.76 (0) – 227.56 (0) – 322 (1) +
38.52 (1)*(0) + 101.05 (0)*(0) + 82.58 (0)*(1)
= 503.65

- collcat = 3 (3.collcat = 1) dan mealcat = 2 (2.mealcat = 1)


Nilai prediksi api00 adalah:
ˆ
api00 = 816.91 + 8.74 (0) – 34.76 (1) – 227.56 (1) – 322 (0) + 38.52
(0)*(1) + 101.05 (1)*(1) + 82.58 (0)*(0)
= 655.64

- collcat = 3 (3.collcat = 1) dan mealcat = 3 (3.mealcat = 1)


Nilai prediksi api00 adalah:
ˆ
api00 = 816.91 + 8.74 (0) – 34.76 (1) – 227.56 (0) – 322 (1) + 38.52
(0)*(0) + 101.05 (1)*(0) + 82.58 (1)*(1)
= 643.78

Perbandingan antara 2.collcat dengan 3.collcat:

. test 2.collcat 3.collcat

( 1) 2.collcat = 0
( 2) 3.collcat = 0

F( 2, 391) = 5.44
Prob > F = 0.0047

67
Perbandingan antara 2.mealcat dengan 3.meal.cat:

. test 2.mealcat 3.mealcat

( 1) 2.mealcat = 0
( 2) 3.mealcat = 0

F( 2, 391) = 264.96
Prob > F = 0.0000

Pengujian untuk beberapa suku interaksi:

. test 2.collcat#2.mealcat 2.collcat#3.mealcat 3.collcat#2.mealcat


3.collcat#3.mealcat

( 1) 2.collcat#2.mealcat = 0
( 2) 2.collcat#3.mealcat = 0
( 3) 3.collcat#2.mealcat = 0
( 4) 3.collcat#3.mealcat = 0

F( 4, 391) = 6.63
Prob > F = 0.0000

Prediksi nilai-nilai respons diperoleh dengan perintah:

. predict pred
(option xb assumed; fitted values)

Perintah selanjutnya adalah untuk memperoleh rerata prediksi


respons pada berbagai taraf interaksi:

. table collcat mealcat, contents(mean pred)

68
----------------------------------------
| Percentage free meals in 3
| categories
collcat | 1 2 3
----------+-----------------------------
1 | 816.9143 589.35 493.9189
2 | 825.6512 636.6047 508.8333
3 | 782.1509 655.6377 541.7333
----------------------------------------

Perintah separate adalah untuk memisahkan variabel pred yang


sebelumnya baru terbentuk dengan perintah predict menjadi 3 variabel
berdasarkan taraf kategori collcat.

. separate pred, by(collcat)

storage display value


variable name type format label variable label
-------------------------------------------------------------
pred1 float %9.0g pred, collcat == 1
pred2 float %9.0g pred, collcat == 2
pred3 float %9.0g pred, collcat == 3

Sekarang dapat dibuat grafik pred1, pred2, dan pred3 berdasarkan


ketiga kategori mealcat.

. graph twoway scatter pred1 pred2 pred3 mealcat, c(l l l)


xlabel(1 2 3) sort

69
900
800
700
600
500

 Konfaunding dan Interaksi


Skema pemeriksaan konfaunding dan interaksi untuk 1 respons
kontinu, 1 prediktor kontinu, dan 1 konfaunder potensial biner diperlihatkan
pada gambar 6.2. Penjelasannya adalah sebagai berikut:

1. Hitung estimasi koefisien regresi stratum-spesifik prediktor terhadap


respons.
2. Estimasi koefisien regresi stratum-spesifik pada kedua strata mungkin
sama (atau hampir sama) ataupun jelas berbeda.
3. Jika keduanya sama atau hampir sama, yang perlu dipertimbangkan
adalah konfaunding. Interaksi tidak mungkin ada.
4. Hitung estimasi koefisien regresi kasar dan suaian.
5. Estimasi koefisien regresi kasar dan suaian yang sama atau hampir
sama mengindikasikan bahwa tidak ada konfaunding dan tidak ada
interaksi.
70
6. Estimasi koefisien regresi dan kasar yang berbeda mengindikasikan
adanya konfaunding.

Gambar 6.2 Pemeriksaan konfaunding dan interaksi

7. Jika estimasi koefisien regresi stratum


stratum-spesifik pada kedua strata jelas
berbeda, hal ini mengindikasikan adanya interaksi.
Seandainya interaksi ada, konfaunding tidak perlu (dan tidak dapat)
diperiksa keberadaannya.

71
BAB 7
DIAGNOSTIKA REGRESI

Diagnostika regresi (regression diagnostics) adalah sekumpulan


statistik yang digunakan setelah proses fitting model terhadap data
pengamatan, bertujuan memeriksa apakah model peneliti beserta asumsi-
asumsi yang diberlakukan konsisten dengan data pengamatan. Statistik dasar
untuk pemeriksaan tersebut adalah galat (residual) dan adakalanya juga galat
terskala-ulang (rescaled residuals).

Galat adalah selisih antara nilai prediksi respons berdasarkan model


peneliti dengan nilai respons aktual atau nilai pengamatan. Perolehan
himpunan nilai galat yang tak relevan akan menimbulkan keraguan terhadap
model peneliti ataupun asumsi yang diberlakukan. Dalam beberapa keadaan
tertentu, keyakinan akan kebenaran model peneliti ataupun asumsi yang
diberlakukan dapat dipulihkan dengan membuang beberapa kasus yang
disebut pengamatan influensial (influential; berpengaruh) dari dataset.

 Outliers dan Pengamatan Influensial

Outliers (data pencilan) adalah titik data yang terletak jauh dari garis
regresi (pada regresi linear sederhana) atau dari hyperplane (pada regresi
linear ganda), yang menunjukkan penyimpangan bermakna secara statistik
dari model yang diasumsikan. Secara sederhana, outlier dapat dikatakan
sebagai pengamatan dengan galat yang besar. Pengamatan influensial
(influential observation) adalah titik data yang memiliki dampak yang relatif
besar terhadap estimasi terhadap satu atau lebih parameter regresi. Inklusi
pengamatan influensial tersebut pada fitting model akan menimbulkan
perubahan yang nyata pada estimasi satu atau lebih parameter regresi.

73
Deteksi outliers dan pengamatan influensial dilakukan melalui
pemeriksaan visual dengan menggunakan statistik khusus yang disebut
diagnostika regresi (regression diagnostics). Diagnostika regresi
merupakan statistik per kasus, yaitu akan ada satu nilai diagnostika regresi
bagi tiap anggota dari n anggota sampel.

Statistik influensial adalah sejumlah statistik yang dirancang untuk


menilai efek atau pengaruh (influence) suatu observasi dalam penentuan hasil
analisis regresi. Pada gambar 7.1 tampak diagram tebar untuk data hipotetis
Anscombe (1973), fitting model sepenuhnya ditentukan titik pencilan yang
ada di sudut kanan atas diagram. Jika observasi ini dihilangkan, maka
estimasi kemiringan garis regresi (estimasi koefisien regresi) tak dapat
ditentukan. Dengan demikian, observasi ini merupakan pengamatan
influensial yang sangat berpengaruh terhadap fitting model regresi.

Gambar 7.1 Contoh diagram tebar untuk data Anscombe (1973)

Pendekatan yang umumnya diadopsi untuk mendeteksi observasi


influensial ini adalah dengan memeriksa perubahan yang terjadi pada
koefisien regresi jika suatu observasi dihilangkan. Statistik influensial yang
digunakan dapat berbeda-beda, tergantung pada statistik hasil regresi yang
diukur perubahannya ataupun standardisasi yang digunakan agar hasilnya
dapat diperbandingkan antar pengamatan. Seluruh statistik influensial

74
tersebut dapat dihitung dari hasil regresi dengan menggunakan keseluruhan
data.

Observasi influensial dapat terjadi jika observasi tersebut merupakan


data pencilan, atau memiliki nilai leverage yang tinggi, ataupun keduanya.

 Leverage
Leverage adalah istilah yang digunakan dalam analisis regresi bagi
observasi (pengamatan) yang memiliki nilai ekstrim pada satu atau lebih
variabel independen. Efek titik-titik demikian yaitu mengharuskan fitting
model mendekati nilai respons yang diobservasi, agar menghasilkan nilai
galat (residual) yang kecil.

Ukuran leverage adalah matriks H, yaitu matriks yang terbentuk pada


regresi ganda, digunakan untuk memperoleh prediksi nilai respons yang
terkait dengan nilai-nilai observasi melalui persamaan:

ŷ = Hy (7.1)

ŷ : Vektor prediksi respons


y : Vektor respons observasi

Matriks H yang disebut sebagai matriks hat (hatmatrix), merupakan


matriks yang simetrik dan idempoten. Dinyatakan dalam X, H adalah:
-1
H = X(X’X) X (7.2)

Elemen diagonal matriks H seringkali berguna untuk secara


diagnostik dalam menilai hasil analisis.

Dengan Stata, perintah untuk mendapatkan leverage diberikan


langsung setelah perintah regress, yaitu:
75
predict lev_name, hat

lev_name : Nama variabel baru untuk prediksi nilai-nilai leverage pada


dataset

Grafik untuk leverage (leverage plot) diperoleh dengan perintah:

avplot pred_var

pred_var : Variabel prediktor

 Jarak Cook
Jarak Cook (Cook’s distance) adalah statistik influensial yang
dirancang untuk mengukur perubahan estimasi vektor parameter β
β̂ pada
fitting model regresinya jika suatu observasi tertentu dihilangkan. Jarak Cook
merupakan ukuran gabungan dampak suatu observasi terhadap keseluruhan
koefisien regresi. Jarak Cook untuk observasi ke-i didefinisikan sebagai:

ri2 hi
Di = (7.3)
tr ( H ) 1 − hi

ri : Galat terstandardisasi (standardized residual) untuk observasi ke-i


Jika dimiliki galat berdistribusi normal dengan rerata 0 dan variansi
σ ε2 , maka galat terstandardisasi adalah:
ei
ri = (7.3.a)
σε
hi : elemen diagonal ke-i matriks hat
H : matriks hat, diperoleh dari analisis regresi

76
Jarak Cook yang lebih besar daripada 1 bagi sebuah observasi
mengindikasikan bahwa observasi tersebut memiliki pengaruh (influence)
yang berlebihan ataupun tak sebanding terhadap estimasi koefisien regresi.

Dengan Stata, perintah untuk mendapatkan jarak Cook diberikan


langsung setelah perintah regress, yaitu:

predict new_var, cooksd

new_var : Nama untuk variabel baru yang memuat nilai-nilai jarak Cook

 DFBETA
DFBETA untuk observasi ke-i dan koefisien regresi ke-j adalah
perubahan nilai estimasi koefisien regresi ke-j jika observasi ke-i dihilangkan
dari analisis data. DFBETA dengan perubahan koefisien regresi ke-j dan
penghilangan observasi ke-i adalah:

b j − b j ,−i
DFBETA j ,−i = (7.4)
s−i c jj

bj : Estimasi koefisien regresi ke-j

b j ,−i : Estimasi koefisien regresi ke-j dengan menghilangkan observasi


ke-j
s− i : Estimasi standard error dengan menghilangkan observasi ke-i
−1
c jj : Unsur diagonal matriks ( X'X )

Untuk mendeteksi observasi influensial, nilai batas DFBETA adalah


2 n . Dalam keadaan moderat dan ukuran sampel kecil, cukup digunakan
nilai batas + 2.
77
Dengan Stata, perintah untuk mendapatkan nilai-nilai DFBETA
diberikan langsung setelah perintah regress, yaitu:

predict DF_pred, dfbeta(pred_var)

DF_pred : Variabel baru untuk nilai-nilai DFBETA

pred_var : Variabel prediktor

Jika ada beberapa prediktor, untuk DFBETAS pada regresi dengan


seluruh prediktor:

. dfbeta

Contoh 7.1:

Lihat kembali contoh 2.1, yang menggunakan file data elemapi.dta.

. regress api00 enroll

Source | SS df MS Number of obs = 400


---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03

----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------

78
Pertama akan diprediksi nilai-nilai galat dan akan ditentukan
observasi dengan galat terbesar.

. predict e, residuals

. sum e

Variable | Obs Mean Std. Dev. Min Max


---------+-------------------------------------------------
e | 400 1.08e-07 134.8567 -285.4997 389.148

. list api00 enroll e if e>389.147

+--------------------------+
| api00 enroll e |
|--------------------------|
8. | 831 1513 389.148 |
+--------------------------+

Didapatkan galat terbesar adalah untuk observasi nomor 8. Untuk


memperoleh statistik leverage (diagonal matriks hat):

. predict lvg, hat

Diperoleh variabel baru lvg pada dataset, yang memuat nilai-nilai


leverage untuk tiap observasi.

. sum lvg

79
Variable | Obs Mean Std. Dev. Min Max
---------+----------------------------------------------
lvg | 400 .005 .0056276 .0025 .0602

. list api00 enroll e lvg if lvg>.0601

+-----------------------------------+
| api00 enroll e lvg |
|-----------------------------------|
210. | 493 1570 62.54047 .0602 |
+-----------------------------------+

Tampak bahwa nilai lvg terbesar adalah 0.0602 dan nilai ini didapat
untuk observasi nomor 210 dengan nilai api00 sama dengan 493 pada
enroll sama dengan 1570, tetapi bukan untuk observasi dengan galat
terbesar. Keputusan apakah observasi nomor 210 perlu dihilangkan dari
dataset sepenuhnya tergantung pada pertimbangan dari segi ranah bidang
ilmu perolehan data.

Grafik leverage versus kuadrat galat ternormalisasi adalah:

. lvr2plot

80
.06
.04
Leverage
.02
0

Pada grafik terlihat juga bahwa observasi dengan leverage terbesar


tidak sama dengan observasi dengan kuadrat galat ternormalisasi terbesar.

Perintah untuk mendapatkan nilai Cook’s Distance D adalah:

. predict new, cooksd

Variabel baru new pada dataset memuat nilai-nilai jarak Cook untuk
tiap observasi.

. sum new

Variable | Obs Mean Std. Dev. Min Max


---------+------------------------------------------------
new | 400 .0026611 .0127133 5.64e-10 .2521747

81
. list api00 enroll e lvg new if new>.2521746

+------------------------------------------------+
| api00 enroll e lvg new |
|------------------------------------------------|
8. | 831 1513 389.148 .0543049 .2521747 |
+------------------------------------------------+

Tampak bahwa nilai jarak Cook terbesar yaitu 0.252 didapatkan


untuk observasi nomor 8, yang juga merupakan observasi dengan nilai galat
terbesar.

Untuk memperoleh nilai DFBETAS pada regresi dengan prediktor


enroll:

. predict DF_pred, dfbeta(enroll)

. sum DF_pred

Variable | Obs Mean Std. Dev. Min Max


---------+----------------------------------------------
DF_pred | 400 .0000925 .053313 -.1519209 .700537

. list api00 enroll e lvg new DF_pred if DF_pred>.7005

+-----------------------------------------------------+
| api00 enroll e lvg new DF_pred |
|-----------------------------------------------------|
8. | 831 1513 389.148 .0543049 .2521747 .700537 |
+-----------------------------------------------------+

82
Nilai DFBETAS terbesar adalah 0.7005, didapatkan untuk observasi
nomor 8. Tampak bahwa penilaian galat terbesar, jarak Cook terbesar, dan
DFBETAS terbesar memberi hasil yang konsisten, yaitu terjadi untuk
observasi nomor 8, sedangkan leverage terbesar terjadi pada observasi
nomor 210.

Contoh 7.2:

Lihat kembali contoh analisis regresi ganda pada contoh 3.1.

. regress api00 acs_k3 meals full

Source | SS df MS Number of obs = 313


---------+---------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+---------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------

Untuk memperoleh nilai-nilai galat:

. predict e, residuals
(87 missing values generated)

83
Untuk memperoleh statistik leverage (diagonal matriks hat):

. predict lvg_1, hat


(87 missing values generated)

Perintah untuk mendapatkan nilai-nilai jarak Cook adalah:

. predict distance, cooksd


(87 missing values generated)

Variabel baru distance memuat nilai-nilai jarak Cook. Estimasi


nilai-nilai DFBETA untuk seluruh prediktor diperoleh dengan:

. dfbeta
(87 missing values generated)
_dfbeta_1: dfbeta(acs_k3)
(87 missing values generated)
_dfbeta_2: dfbeta(meals)
(87 missing values generated)
_dfbeta_3: dfbeta(full)

Diperoleh 3 variabel baru pada dataset, yaitu _dfbeta_1, _dfbeta_2,


dan _dfbeta_3, masing-masing memuat nilai-nilai DFBETA untuk prediktor
acs_k3, meals, dan full. Nilai terbesar untuk galat, leverage, jarak Cook,
dan DFBETAS adalah:

. sum e lvg_1 distance _dfbeta_1 _dfbeta_2 _dfbeta_3

84
Variable | Obs Mean Std. Dev. Min Max
----------+----------------------------------------------
e | 313 -7.68e-08 63.84359 -195.6183 188.8671
lvg_1 | 313 .0127796 .0432135 .0033227 .7687116
distance | 313 .0045331 .0354736 1.39e-08 .626511
_dfbeta_1 | 313 .0038461 .0930495 -.1386698 1.576904
_dfbeta_2 | 313 -.0001792 .0560422 -.2267429 .2701659
----------+----------------------------------------------
_dfbeta_3 | 313 -.0009695 .0601078 -.3692697 .2131358

. list api00 enroll e lvg_1 distance _dfbeta_1 _dfbeta_2


_dfbeta_3 if e>188.8671

+-----------------------------------------------------------------------+
| api00 enroll e lvg_1 distance _dfbet~1 _dfbet~2 _dfbet~3 |
|-----------------------------------------------------------------------|
271. | 690 230 188.8671 .012422 .0275976 .0309159 .2310598 .2131358 |
|-----------------------------------------------------------------------|

Tampak bahwa untuk observasi nomor 271 dengan galat terbesar,


nilai-nilai leverage, jarak Cook, dan DFBETAS tak ada yang mencapai nilai
maksimum.

85
BAB 8
BEBERAPA PENANGANAN
PENYIMPANGAN ASUMSI

Dalam berbagai situasi dan kondisi pengumpulan data sampel


seringkali menghasilkan data yang tak memenuhi persyaratan asumsi untuk
melakukan analisis regresi linear. Dalam keadaan demikian tindakan pada
tahap pertama adalah memeriksa ulang proses pengumpulan dan pengukuran
data. Jika tahap pertama ini tak dapat dikerjakan atau tidak memberi hasil
yang diharapkan, pilihan yang dapat dilakukan pada tahap kedua adalah
melakukan transformasi data. Jika tahap kedua ini juga tidak memberi hasil
atau tidak ingin dikerjakan peneliti, pilihan terakhir adalah memperlunak
asumsi yang akan dibahas di sini.

Penyebab utama penyimpangan asumsi pada regresi linear umumnya


disebabkan oleh adanya: (1) Heteroskedatisitas; (2) Kemencengan
(skewness) yang menyebabkan ketidaknormalan distribusi data; dan (3)
Adanya data pencilan (outliers). Penyimpangan asumsi pertama dan kedua
ditangani dengan penggunaan estimasi variansi robust, sedangkan kelainan
terakhir ditangani dengan metode regresi robust. Ketidakadekuatan akibat
penyimpangan asumsi ini pada analisis regresi linear ditemukan antara lain
pada uji hipotesis terhadap parameter regresi yang dihasilkan dengan metode
kuadrat terkecil.

Pada regresi linear ganda dapat ditemukan penyimpangan asumsi


berupa multikolinearitas. Penanganannya dapat dilakukan dengan
menghapus 1 atau lebih prediktor dari model, tetapi jika hal ini tak dapat
dikerjakan, dapat dilakukan fitting model dengan metode regresi ridge.

87
 Estimasi Variansi Robust
Dua asumsi penting dalam regresi linear yaitu asumsi normalitas dan
asumsi homoskedastisitas. Penyimpangan terhadap salah satu atau kedua
asumsi ini akan menyebabkan tak adekuatnya pengendalian terhadap besar
probabilitas kesalahan tipe I. Ketidakadekuatan akibat penyimpangan asumsi
ini pada analisis regresi linear ditemukan antara lain pada uji hipotesis
terhadap parameter regresi yang dihasilkan dengan metode kuadrat terkecil.

Upaya untuk mengatasinya dapat dilakukan dengan menggunakan


estimasi variansi robust, sebagai alternatif terhadap estimasi variansi OLS
(ordinary least squares). Estimasi variansi robust diperoleh dengan metode
yang tak sensitif terhadap penyimpangan ringan terhadap asumsi normalitas
galat dan homogenitas variansi model. Tak ada batasan jelas mengenai berat
penyimpangan asumsi yang mengindikasikan digunakannya prosedur
estimasi robust.

Dalam Stata, sintaks untuk melakukan estimasi variansi robust yaitu:

regress depvar indepvars [if] [in], robust [options]

depvar : Variabel dependen


indepvars : Himpunan variabel independen
robust : Opsi robust untuk estimasi variansi. Jika opsi metode
estimasi variansi tidak dispesifikasikan, default-nya adalah
metode kuadrat terkecil (ordinary least squares; ols)

Contoh 8.1:

Lihat kembali file data pada contoh 3.3.

. use “D:\Analisis Regresi Linear\Data\honolulu.dta”, clear

88
Mula-mula diperlihat hasil fitting model dengan metode kuadrat
terkecil seperti telah dilakukan pada contoh 3.3.

. regress tek_darah usia kolesterol

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 2, 97) = 4.02
Model | 3404.78195 2 1702.39098 Prob > F = 0.0211
Residual | 41118.218 97 423.899155 R-squared = 0.0765
---------+--------------------------- Adj R-squared = 0.0574
Total | 44523 99 449.727273 Root MSE = 20.589

----------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+----------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol | .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
----------------------------------------------------------------------

Pemeriksaan asumsi normalitas:

. predict e, residuals

. swilk e

Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z


---------+----------------------------------------------
e | 100 0.94108 4.865 3.509 0.00022

Dengan p = 0.00022, hipotesis H 0 : Galat berdistribusi normal


ditolak. Selanjutnya diperiksa asumsi homogenitas variansi:
89
. estat hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity


Ho: Constant variance
Variables: fitted values of tek_darah

chi2(1) = 0.01
Prob > chi2 = 0.9164

Dengan p = 0.9164, hipotesis H 0 : Homogenitas variansi tidak


ditolak. Selanjutnya akan dilakukan fitting model dengan metode estimasi
variansi robust.

. regress tek_darah usia kolesterol, robust

Linear regression Number of obs = 100


F(3, 309) = 5.00
Prob > F = 0.0086
R-squared = 0.0765
Root MSE = 20.589

-----------------------------------------------------------------
| Robust
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-----------+-----------------------------------------------------
usia | .8469443 .3538266 2.39 0.019 .1446964 1.549192
kolesterol | .0906782 .0472369 1.92 0.058 -.0030739 .1844303
_cons | 64.97095 21.11918 3.08 0.003 23.05522 106.8867
-----------------------------------------------------------------

Perbandingan beberapa statistik yang diperoleh pada fitting model


dengan metode ols dan robust diperlihatkan sebagai berikut.

90
ols robust
F(2, 97) 4.02 5.00
Prob > F 0.0211 0.0086
R-squared 0.0765 0.0765

usia 0.847 0.847


Coef. kolesterol 0.091 0.091
_cons 64.971 64.971

usia 0.408 0.354


Std.
kolesterol 0.054 0.047
Err.
_cons 64.971 21.119

usia 0.041 0.019


P>|t| kolesterol 0.094 0.058
_cons 0.007 0.003

Tampak adanya perbedaan nilai statistik penguji F, walaupun dengan


kedua metode hasilnya sama-sama bermakna; sedangkan estimasi koefisien
determinasi R 2 dengan kedua metode sama.

Untuk estimasi koefisien regresi, tampak bahwa estimasi


koefisiennya tetap sama, tetapi estimasi standard error dan nilai p-nya yang
berbeda, yaitu batas kemaknaan suatu prediktor akan lebih mudah tercapai
pada estimasi variansi robust.

 Regresi Robust
Regresi robust tidak sama dengan regresi linear dengan estimasi
variansi robust. Regresi robust digunakan jika terdapat pengamatan luar
yang mengubah nilai estimasi koefisien regresi secara substansial (“bad
outlier”).

91
Sintaks regresi robust adalah:

rreg depvar indepvars [if] [in] [, options]

Opsi:
genwt(newvar) : Membuat variabel newvar yang memuat bobot untuk
tiap pengamatan. Pada regresi kuadrat terkecil bobot
untuk tiap pengamatan sama dengan 1.

Pada regresi robust, pengamatan dengan Cook’s D lebih besar


daripada 1 secara otomatis dikeluarkan dari fitting model.

Contoh 8.2:

File data yang digunakan adalah crime.dta, yang memuat nilai


angka kejahatan pada 51 negara bagian di AS.

. use “D:\Analisis Regresi Linear\Data\crime.dta”, clear


(crime data from agresti & finlay - 1997)

Variabel-variabel dalam penelitian ini adalah:


- sid : Nomor identitas negara bagian (state id)
- state : Nama negara bagian
- crime : Angka kejahatan per 100,000 penduduk
- murder : Angka pembunuhan per 1,000,000 penduduk
- pctmetro : Persentase penduduk yang tinggal di area metropolitan
- pctwhite : Persentase penduduk kulit putih
- pcths : Persentase penduduk berpendidikan SLTA (high school)
ke atas
- poverty : Persentase penduduk di bawah garis kemiskinan
- single : Persentase penduduk yang menjadi single parent
92
Akan digunakan prediktor poverty dan single untuk memprediksi
crime.

. summarize crime poverty single

Variable | Obs Mean Std. Dev. Min Max


---------+----------------------------------------------
crime | 51 612.8431 441.1003 82 2922
poverty | 51 14.25882 4.584242 8 26.4
single | 51 11.32549 2.121494 8.4 22.1

Pada umumnya regresi linear dimulai dengan metode kuadrat terkecil


yang dilanjutkan dengan beberapa prosedur diagnostika regresi untuk
memeriksa keberadaan data pencilan.

. regress crime poverty single

Source | SS df MS Number of obs = 51


---------+---------------------------- F(2, 48) = 57.96
Model | 6879872.44 2 3439936.22 Prob > F = 0.0000
Residual | 2848602.3 48 59345.8813 R-squared = 0.7072
---------+---------------------------- Adj R-squared = 0.6950
Total | 9728474.75 50 194569.495 Root MSE = 243.61

-----------------------------------------------------------------
crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+--------------------------------------------------------
poverty | 6.787359 8.988529 0.76 0.454 -11.28529 24.86001
single | 166.3727 19.42291 8.57 0.000 127.3203 205.425
_cons | -1368.189 187.2052 -7.31 0.000 -1744.59 -991.7874
-----------------------------------------------------------------

Perintah lvr2plot berikut menghasilkan grafik galat terstandardisasi


kuadrat dan leverage.

93
. lvr2plot, mlabel(state)

.6
.4
Leverage
.2
0

Tampak negara bagian DC, Florida, dan Missisippi memiliki nilai


leverage yang tinggi ataupun galat yang besar. Selanjutnya akan dihitung
Cook’s D dan diperlihatkan pengamatan dengan nilai Cook’s D yang besar.

. predict d1, cooksd

. list state crime poverty single d1 if d1>4/51, noobs

+---------------------------------------------+
| state crime poverty single d1 |
|---------------------------------------------|
| ak 761 9.1 14.3 .125475 |
| fl 1206 17.8 10.6 .1425891 |
| ms 434 24.7 14.7 .6138721 |
| dc 2922 26.4 22.1 2.636252 |
+---------------------------------------------+

94
Pengamatan untuk DC dihapus karena nilai Cook’s D-nya lebih besar
daripada satu (mengindikasikan influensial yang berlebihan), selain itu DC
bukan merupakan negara bagian AS.

. predict r1, rstandard

. gen absr1 = abs(r1)

Sekarang data diurutkan dengan perintah gsort, perintah untuk


mengurutkan nilai negatif abs(r1) dari besar ke kecil (descending).

. gsort -absr1

. list state absr1 in 1/10, noobs

+------------------+
| state absr1 |
|------------------|
| ms 3.56299 |
| fl 2.902663 |
| dc 2.616447 |
| vt 1.742409 |
| mt 1.460884 |
|------------------|
| me 1.426741 |
| ak 1.397418 |
| nj 1.354149 |
| il 1.338192 |
| md 1.287087 |
+------------------+

Sekarang akan dilakukan regresi robust dengan perintah rreg disertai


opsi gen(weight) untuk membentuk variabel baru weight yang memuat
bobot final untuk tiap pengamatan.

. rreg crime poverty single, gen(weight)

95
Huber iteration 1: maximum difference in weights = .66846346
Huber iteration 2: maximum difference in weights = .11288069
Huber iteration 3: maximum difference in weights = .01810715
Biweight iteration 4: maximum difference in weights = .29167992
Biweight iteration 5: maximum difference in weights = .10354281
Biweight iteration 6: maximum difference in weights = .01421094
Biweight iteration 7: maximum difference in weights = .0033545

Robust regression Number of obs = 50


F( 2, 47) = 31.15
Prob > F = 0.0000

----------------------------------------------------------------
crime | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-------------------------------------------------------
poverty | 10.36971 7.629288 1.36 0.181 -4.978432 25.71786
single | 142.6339 22.17042 6.43 0.000 98.03276 187.235
_cons | -1160.931 224.2564 -5.18 0.000 -1612.076 -709.7849
----------------------------------------------------------------

Pengamatan untuk DC dihapus karena nilai Cook’s D-nya lebih besar


daripada satu (mengindikasikan influensial yang berlebihan), selain itu DC
juga bukan merupakan negara bagian AS. Tampak dihasilkannya estimasi
koefisien regresi yang berbeda dengan regresi kuadrat terkecil. Selain itu
tidak ada tampilan koefisien determinasi R-squared, koefisien determinasi
suaian adj R-squared, ataupun estimasi root MSE.

Perbandingan estimasi fitting model dengan regresi OLS dan regresi


robust diperlihatkan sebagai berikut:

96
regresi ols regresi robust
No of obs 51 50
F value F (2 , 48) F (2 , 47)
= 57.96 = 31.15
Prob > F 0.0000 0.0000

poverty 6.787 10.370


Coef. single 166.373 142.634
_cons −1368.189 −1160.931

poverty 8.989 7.629


Std.
single 19.423 22.170
Err.
_cons 187.205 224.256

poverty 0.454 0.181


P>|t| single 0.000 0.000
_cons 0.007 0.000

Tampak hasil-hasil yang cukup berbeda antara kedua metode regresi.

. list state weight if state =="dc", noobs

+----------------+
| state weight |
|----------------|
| dc . |
+----------------+

Tampak bahwa negara bagian DC memang memiliki bobot 0,


sehingga tidak diperhitungkan dalam analisis data.

. sort weight

. list sid state weight absr1 d1 in 1/10, noobs

97
+-----------------------------------------------+
| sid state weight absr1 d1 |
|-----------------------------------------------|
| 25 ms .02638862 3.56299 .6138721 |
| 9 fl .11772218 2.902663 .1425891 |
| 46 vt .59144513 1.742409 .0427155 |
| 26 mt .66441582 1.460884 .016755 |
| 20 md .67960728 1.287087 .0356962 |
|-----------------------------------------------|
| 14 il .69124917 1.338192 .0126569 |
| 21 me .69766511 1.426741 .0223313 |
| 31 nj .74574796 1.354149 .0222918 |
| 19 ma .75392127 1.198541 .016399 |
| 5 ca .80179038 1.015206 .0123064 |
+-----------------------------------------------+

. twoway (scatter crime single [weight=weight], msymbol(oh)) if


state !="dc"
(analytic weights assumed)
1500 1000
violent crime rate
500 0

98
 Regresi Ridge
Regresi ridge digunakan jika terdapat multikolinearitas pada data.
Sintaks Stata adalah:

ridgereg depvar indepvars [if] [in] , model(orr|grr1|grr2|grr3)

Opsi:
orr : Model Ordinary Ridge Regression
grr1 : Model Generalized Ridge Regression
grr2 : Model Iterative Generalized Ridge
grr3 : Model Adaptive Generalized Ridge

Contoh 8.3:

. use “D:\Analisis Regresi Linear\Data\ridgereg1.dta”, clear

Mula-mula dilakukan regresi OLS seperti biasa.

. regress y x1 x2 x3

Source | SS df MS Number of obs = 20


---------+----------------------------- F(3, 16) = 107.37
Model | 6601.91542 3 2200.63847 Prob > F = 0.0000
Residual | 327.9304 16 20.49565 R-squared = 0.9527
---------+----------------------------- Adj R-squared = 0.9438
Total | 6929.84582 19 364.728727 Root MSE = 4.5272

99
-------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+------------------------------------------------------
x1 | 1.058783 .173579 6.10 0.000 .6908121 1.426754
x2 | .4522435 .6557569 0.69 0.500 -.9378991 1.842386
x3 | .1211505 1.087042 0.11 0.913 -2.183275 2.425576
_cons | 8.132845 8.921103 0.91 0.375 -10.77905 27.04474
-------------------------------------------------------------

Untuk pemeriksaan asumsi non-multikolinearitas, pertama-tama akan


diperiksa matriks korelasi antar variabel independen.

. correlate x1 x2 x3
(obs=20)

| x1 x2 x3
-------------+---------------------------
x1 | 1.0000
x2 | 0.7185 1.0000
x3 | 0.9152 0.6306 1.0000

Tampak adanya korelasi yang cukup besar antara variabel x1 dan x3,
yaitu r = 0.92; walaupun demikian masih akan dilakukan uji
multikolinearitas dengan perintah vif.

. vif

Variable | VIF 1/VIF


-------------+----------------------
x1 | 7.73 0.129285
x3 | 6.21 0.160959
x2 | 2.09 0.479345
-------------+----------------------
Mean VIF | 5.34

100
Tampak bahwa tidak ada variabel independen yang memiliki nilai vif
lebih besar daripada 10 ataupun nilai Tolerance = 1/vif yang kurang
daripada 0.10. Walaupun demikian, sebagai latihan akan dicoba melakukan
fitting model dengan regresi ridge.

Dalam perintah ridgereg berikut, opsi kr(#) menyatakan Ridge k


Value dengan rentang nilai (0 < k < 1); mfx(lin) menyatakan bentuk
fungsional adalah model linear, lmcol menyatakan permintaan untuk uji
diagnostik multikolinearitas; dan diag menyatakan untuk menyatakan
kriteria diagnostik seleksi model.

Pada contoh regresi ridge di sini akan ditampilkan berturut-turut hasil


fitting model dengan Ordinary Ridge Regression, beberapa nilai kriteria
diagnostik untuk model, beberapa hasil uji diagnostik multikolinearitas

. ridgereg y x1 x2 x3 , model(orr) kr(0.5) mfx(lin) lmcol diag

Hasil fitting model dengan Ordinary Ridge Regression:

====================================================
* (OLS) Ridge Regression - Ordinary Ridge Regression
====================================================
y = x1 + x2 + x3
------------------------------------------------------------------
Ridge k Value = 0.50000 | Ordinary Ridge Regression
------------------------------------------------------------------
Sample Size = 20
Wald Test = 97.9066 | P-Value > Chi2(3) = 0.0000
F-Test = 32.6355 | P-Value > F(3 , 16) = 0.0000
(Buse 1973) R2 = 0.8968 | Raw Moments R2 = 0.9936
(Buse 1973) R2 Adj = 0.8775 | Raw Moments R2 Adj = 0.9924
Root MSE (Sigma) = 6.6848 | Log Likelihood Function = -64.1440
------------------------------------------------------------------
- R2h= 0.9247 R2h Adj= 0.9106 F-Test = 65.53 P-Value > F(3,16) 0.0000
- R2v= 0.6313 R2v Adj= 0.5622 F-Test = 9.13 P-Value > F(3,16) 0.0009

101
-------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
------+------------------------------------------------------
x1 | .4519515 .2563028 1.76 0.097 -.0913863 .9952892
x2 | 1.483555 .9682758 1.53 0.145 -.5690985 3.536208
x3 | 2.25139 1.605101 1.40 0.180 -1.151273 5.654053
_cons | 10.48659 13.1727 0.80 0.438 -17.43829 38.41146
-------------------------------------------------------------

Beberapa nilai kriteria diagnostik untuk model yang digunakan:

==================================================================
* OLS Model Selection Diagnostic Criteria - Model= (orr)
==================================================================
- Log Likelihood Function LLF = -64.1440
--------------------------------------------------------------------
- Akaike Information Criterion (1974) AIC = 53.3313
- Akaike Information Criterion (1973) Log AIC = 3.9765
--------------------------------------------------------------------
- Schwarz Criterion (1978) SC = 65.0834
- Schwarz Criterion (1978) Log SC = 4.1757
--------------------------------------------------------------------
- Amemiya Prediction Criterion (1969) FPE = 53.6235
- Hannan-Quinn Criterion (1979) HQ = 55.4454
- Rice Criterion (1984) Rice = 59.5817
- Shibata Criterion (1981) Shibata = 50.0486
- Craven-Wahba Generalized Cross Validation (1979) GCV = 55.8578
--------------------------------------------------------------------

Beberapa hasil uji diagnostik multikolinearitas:

102
=====================================================
*** Multicollinearity Diagnostic Tests - Model= (orr)
=====================================================

* Correlation Matrix
(obs=20)

| x1 x2 x3
----------+---------------------------
x1 | 1.0000
x2 | 0.7185 1.0000
x3 | 0.9152 0.6306 1.0000

* Multicollinearity Diagnostic Criteria


+-----------------------------------------------------------------+
| Var | Eigenval | C_Number | C_Index | VIF | 1/VIF | R2_xi,X |
|-----+----------+----------+---------+--------+--------+---------|
| x1 | 2.5160 | 1.0000 | 1.0000 | 7.7349 | 0.1293 | 0.8707 |
| x2 | 0.4081 | 6.1651 | 2.4830 | 2.0862 | 0.4793 | 0.5207 |
| x3 | 0.0758 | 33.1767 | 5.7599 | 6.2127 | 0.1610 | 0.8390 |
+-----------------------------------------------------------------+

* Farrar-Glauber Multicollinearity Tests


Ho: No Multicollinearity - Ha: Multicollinearity
--------------------------------------------------

* (1) Farrar-Glauber Multicollinearity Chi2-Test:


Chi2 Test = 43.8210 P-Value > Chi2(3) 0.0000

* (2) Farrar-Glauber Multicollinearity F-Test:


+------------------------------------------------------+
| Variable | F_Test | DF1 | DF2 | P_Value |
|-----------+----------+----------+---------+----------|
| x1 | 57.246 | 17.000 | 3.000 | 0.003 |
| x2 | 9.233 | 17.000 | 3.000 | 0.046 |
| x3 | 44.308 | 17.000 | 3.000 | 0.005 |
+------------------------------------------------------+
103
* (3) Farrar-Glauber Multicollinearity t-Test:
+-------------------------------------+
| Variable | x1 | x2 | x3 |
|----------+--------+--------+--------|
| x1 | . | | |
| x2 | 4.259 | . | |
| x3 | 9.362 | 3.350 | . |
+-------------------------------------+

* |X'X| Determinant:
|X'X| = 0 Multicollinearity - |X'X| = 1 No Multicollinearity
|X'X| Determinant: (0 < 0.0779 < 1)
------------------------------------------------------

* Theil R2 Multicollinearity Effect:


R2 = 0 No Multicollinearity - R2 = 1 Multicollinearity
- Theil R2: (0 < 0.9529 < 1)
--------------------------------------------------------

* Multicollinearity Range:
Q = 0 No Multicollinearity - Q = 1 Multicollinearity
- Gleason-Staelin Q0: (0 < 0.7641 < 1)
1- Heo Range Q1: (0 < 0.8581 < 1)
2- Heo Range Q2: (0 < 0.8129 < 1)
3- Heo Range Q3: (0 < 0.7209 < 1)
4- Heo Range Q4: (0 < 0.7681 < 1)
5- Heo Range Q5: (0 < 0.8798 < 1)
6- Heo Range Q6: (0 < 0.7435 < 1)
-----------------------------------------------

104
* Marginal Effect - Elasticity (Model= orr): Linear *

+---------------------------------------------------------------+
| Variable | Marginal_Effect(B) | Elasticity(Es) | Mean |
|----------+--------------------+------------------+------------|
| x1 | 0.4520 | 0.3280 | 52.5840 |
| x2 | 1.4836 | 0.3629 | 17.7245 |
| x3 | 2.2514 | 0.1645 | 5.2935 |
+---------------------------------------------------------------+
Mean of Dependent Variable = 72.4650

Perbandingan hasil fitting model dengan regresi OLS dan regresi


ridge diperlihatkan sebagai berikut:

regresi ols regresi ridge


F (3, 16) 107.37 32.635
Prob > F 0.0000 0.0000

x1 1.059 0.452
x2 0.452 1.484
Coef.
x3 0.121 2.251
_cons 8.133 10.487

x1 0.174 0.256
Std. x2 0.656 0.968
Err. x3 1.087 1.605
_cons 8.921 13.173

x1 0.000 0.097
x2 0.500 0.145
P>|t|
x3 0.913 0.180
_cons 0.375 0.438

Tampak hasil yang cukup berbeda antara regresi OLS dengan regresi
ridge.

105
KEPUSTAKAAN
Baddeley MC & Barrowclough DV. 2009. Running Regressions: A
Practical Guide to Quantitative Research in Economics, Finance
and Development Studies. Cambridge University Press, Cambridge.
Bingham NH & Fry JM. 2010. Regression: Linear Models in Statistics.
Springer, London.
Chatterjee S & Hadi AS. 2012. Regression Analysis by Example, 5th Ed.
John Wiley & Sons, Hoboken, New Jersey.
Cook RD & Weisberg S. Residuals and Influence in Regression. 1982.
Chapman and Hall, New York.
Fahrmeir L, Kneib T, Lang S, & Marx B. 2013. Regression: Models,
Methods and Applications. Springer, New York.
Gordon RA. 2015. Regression Analysis for the Social Sciences, 2nd Ed.
Routledge, New York.
Keith TZ. 2015. Multiple Regression and Beyond: An Introduction to
Multiple Regression and Structural Equation Modeling, 2nd Ed.
Routledge, New York.
LaMorte WW. 2018. The Power of Multiple Regression Models. Boston
University School of Public Health. Available from <http://sphweb.
bumc.bu.edu/otlt/MPH-Modules/QuantCore/PH717_MultipleVariable
Regression/index.html>
Mendelhall W & Sincich T. 2012. A Second Course in Statistics:
Regression Analysis, 7th Ed. Prentice Hall, Boston.
Montgomery DC, Peck EA, & Vining GG. 2012. Introduction to Linear
Regression Analysis, 5th Ed. John Wiley & Sons, Hoboken, New
Jersey.
Pardoe I. 2012. Applied Regression Modeling, 2th Ed. John Wiley & Sons,
Hoboken, New Jersey.
Richardson S. 2015. Business Applications of Multiple Regression, 2nd
Ed. Business Expert Press, New York.
Vach W. 2013. Regression Models as A Tool in Medical Research. CRC
Press, Boca Raton, FL.

106
Vittinghoff E, Glidden DV, Shiboski SC, & McCulloch CE. 2012.
Regression Methods in Biostatistics: Linear, Logistic, Survival, and
Repeated Measures Models, 2nd Ed. Springer, New York.
Weisberg S. Applied Linear Regression, 4th Ed. 2014. John Wiley & Sons,
Hoboken, New Jersey.
Xin Y & Xiao GS. 2009. Linear Regression Analysis: Theory and
Computing. World Scientific Publishing, Singapore.

107
Lampiran 1
PEMODELAN DAN SELEKSI
PREDIKTOR

Tujuan pemodelan adalah mendapatkan model dengan fitting terbaik


dan paling parsimoni (hemat prediktor), namun juga secara masuk akal
(reasonably) mampu menjelaskan hubungan substantif antara himpunan
prediktor dengan respons sesuai dengan ranah bidang ilmu yang
bersangkutan. Tiap penambahan prediktor baru ke dalam model akan
memperbesar koefisien determinasi R 2 yang merupakan proporsi variansi
respons yang ‘dijelaskan’ oleh himpunan prediktor, tetapi juga semakin
menjauhkan model dari prinsip parsimoni.
Dengan demikian jika jumlah ‘kandidat’ prediktor relatif besar,
diperlukan prosedur seleksi variabel independen untuk pemodelan. Prosedur
seleksi variabel dibedakan menjadi:
1. Seluruh kemungkinan regresi (all possible regressions):
Dilakukan pemodelan dengan tiap kemungkinan kombinasi variabel
independen, lalu dari seluruh model tersebut dipilih 1 model yang
terbaik.
Prosedur ini hanya dapat dikerjakan jika jumlah ‘kandidat’ prediktor
tidak terlalu besar. Jika dimiliki k ‘kandidat’ prediktor, maka jumlah
model regresi yang mungkin dibuat adalah 2k − 1 . Misalkan dimiliki 10
‘kandidat’ prediktor, maka jumlah model yang harus diperiksa adalah
210 − 1 = 1023 model. Harus bahwa penilaian model tidak hanya
mencakup aspek statistiknya, tetapi juga aspek substantif ranah bidang
ilmu yang bersangkutan
2. Prosedur stepwise:
Prosedur stepwise dapat dilaksanakan dengan 2 cara, yaitu seleksi ke
depan atau eliminasi ke belakang.

108
a. Seleksi ke depan (forward selection)
Mula-mula dilakukan regresi linear sederhana dengan masing-
masing prediktor, lalu dipilih 1 model dengan prediktor yang nilai
p-nya terkecil. Seleksi ke depan dimulai dengan menambahkan
prediktor kedua yang nilai p-nya terkecil kedua di antara himpunan
regresi linear sederhana mula-mula. Jika nilai p-nya menunjukkan
prediktor baru ini bermakna, seleksi dilanjutkan dengan
menambahkan prediktor yang nilai p-nya terkecil ketiga, dan
seterusnya. Prosedur dilaksanakan sampai prediktor yang terakhir
dimasukkan tak bermakna (nilai p-nya lebih besar daripada 0.05),
maka yang dipilih adalah model yang terakhir yang tiap
prediktornya masih bermakna.
b. Eliminasi ke belakang (backward elimination)
Seleksi dimulai dengan regresi linear ganda yang menginklusikan
semua ‘kandidat’ prediktor. Dipilih prediktor yang nilai p-nya
terbesar dan lebih besar daripada 0.05 untuk dieliminasi dari model.
Jika pada fitting ulangan masih ada prediktor dengan nilai p lebih
besar daripada 0.05, seleksi dilanjutkan dengan mengeliminasikan
prediktor dengan nilai p terbesar, dan seterusnya. Seleksi berakhir
apabila seluruh prediktor sisa masing-masing memiliki nilai p lebih
kecil daripada 0.05.
Perhatikan:

- Pemodelan tidak boleh dilakukan dengan meregresikan respons terhadap


himpunan seluruh ‘kandidat’ prediktor, lalu sekaligus mengeliminasikan
semua prediktor yang nilai p-nya lebih besar daripada 0.05. Eliminasi
tidak boleh dilakukan secara bersamaan sekaligus, karena dalam model
dengan beberapa prediktor yang tak bermakna demikian, eliminasi 1
prediktor saja dengan nilai p terbesar adakalanya mengakibatkan seluruh
prediktor tersisa menjadi bermakna.

- Seluruh prosedur di atas dilaksanakan dengan asumsi batas ‘kemaknaan’


adalah 0.05. Asumsi demikian dibutuhkan sebagai dasar untuk
pelaksanaan langkah-langkah seleksi. Dalam kenyataannya besar batas

109
‘kemaknaan’ demikian dapat saja diubah menurut pertimbangan peneliti.
Selain itu aspek substantif adakala lebih perlu diperhatikan daripada
aspek statistik. Variabel yang menurut peneliti sangat penting dapat saja
tetap dipertahankan dalam model, walaupun nilai p-nya melebihi 0.05.

- Pada tahap akhir, perlu diperhatikan pula pemenuhan asumsi non-


multikolinearitas. Pasangan prediktor yang merupakan pasangan
kolinearitas adakalanya perlu dikeluarkan salah satu di antaranya dari
model.

110
Lampiran 2

BEBERAPA GRAFIK GALAT

Dalam regresi linear, terdapat sejumlah grafik galat, yang terutama


digunakan dalam diagnostika regresi. Dalam Stata kumpulan grafik galat
tersebut dikenal sebagai residual plots, yang hanya dapat ditampilkan setelah
perintah regress, dan karena itu dikelompokkan sebagai regress
postestimation plots.
Beberapa grafik galat yang akan diperlihatkan di sini adalah:
- rvfplot - acprplot
- avplot - rvpplot
- avplots - lvr2plot
- cprplot

Contoh:
. use “D:\Data\elemapi”
. regress api00 acs_k3 meals full
Source | SS df MS Number of obs = 313
---------+---------------------------- F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+---------------------------- Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555

111
--------------------------------------------------------------------

. rvfplot
Grafik rvfplot (residual versus fitted plot) adalah plot galat vs nilai
prediksi respons. Grafik ini terutama bermanfaat untuk mendeteksi data
pencilan (outlier), yang memiliki nilai galat besar.
200
100
Residuals
0
-100
-200

- Sumbu Y: Galat (residuals) = ei


- Sumbu X: Prediksi respons (fitted values) = Yˆi

. avplot meals
Grafik avplot (added variable plot) adalah grafik untuk
menunjukkan hubungan antara respons dengan satu variabel independen
yang dispesifikasikan, dengan penyesuaian (adjusted for) terhadap variabel
independen lainnya. Kemiringan (slope) grafik ini menyatakan koefisien
regresi parsial variabel independen yang dispesifikasikan tersebut.
Pengamatan dengan leverage yang tinggi akan tampak sebagai titik yang
berjarak horizontal jauh dari sisa datanya. Sintaks untuk menampilkan grafik
avplot adalah:

112
avplot indepvar

400
200
e( api00 | X )
0
-200

Misalkan: Yi = b 0 + b1 X1i + ei dan

X 2i = v 0 + v1 X1i + fi

maka:
- Sumbu Y: Galat regresi respons terhadap (himpunan) variabel
independen minus variabel independen yang dispesifikasikan = ei

- Sumbu X: Galat regresi variabel independen yang dispesifikasikan


terhadap (himpunan) variabel independen sisa = fi

. avplots
Perintah avplots menghasilkan grafik avplot untuk seluruh variabel
independen dalam satu citra.

113
200

400
100
e( api00 | X )

e( api00 | X )
200
0

0
-200 -100

-200
200 100
e( api00 | X )
-200 -100 0

. cprplot acs_ k3
Grafik cprplot (component-plus-residual plot) adalah grafik galat
plus komponen vs variabel independen yang dispesifikasikan. Sintaksnya
adalah:
cprplot indepvar

114
100
Component plus residual
-200 -100 -300 0

Misalkan: Yi = b 0 + b1 X1i + b 2 X 2i + ei
- Sumbu Y: Galat galat plus komponen = ei + b1 X1i
- Sumbu Y: Variabel independen yang dispesifikasikan = X1i

. acprplot full
Grafik acprplot adalah grafik galat parsial tertambah (augmented
component-plus-residual plot) untuk variabel independen tertentu.
Sintaksnya adalah:
acprplot indepvar

115
200
Augmented component plus residual
-100 0 -200 100

Grafik ini merupakan pengembangan dari cprplot dengan


menambahkan komponen kuadrat prediktor. Opsi lowess digunakan untuk
mendeteksi adanya penyimpangan dari asumsi linearitas.
. acprplot full, lowess
200
Augmented component plus residual
-100 0 -200 100

116
. rvpplot meals
Grafik rvpplot (residual versus predictor) adalah grafik galat vs
prediktor, mem-plot galat terhadap prediktor spesifik. Sintaksnya adalah:
rvpplot indepvar
200
100
Residuals
0
-100
-200

- Sumbu Y: Galat
- Sumbu X: Variabel independen yang dispesifikasikan

. lvr2plot
Grafik lvr2plot (leverage versus squared residual) adalah grafik
leverage vs galat terstandardisasi kuadrat. Nilai galat terstandardisasi kuadrat
yang besar mengindikasikan respons memiliki nilai yang jauh berbeda dari
yang diprediksikan oleh model. Nilai ekstrim pada sumbu X ataupun
kombinasi nilai yang sangat berbeda pada sumbu X dan Y menunjukkan
pengamatan dengan leverage yang tinggi. Sintaks untuk menampilkan
lvr2plot adalah:
lvr2plot

117
.8
.6
Leverage
.4
.2
0

- Sumbu Y: Leverage
- Sumbu X: Galat terstandarsisasi kuadrat

118

Anda mungkin juga menyukai