Anda di halaman 1dari 51

REGRESI BERGANDA

PENDAHULUAN
 Apakah Konsumsi hanya dipengaruhi oleh
Pendapatan saja?
 Ada beberapa variabel lain yang berpengaruh,
seperti jumlah anggota keluarga, umur anggota
keluarga, selera pribadi, dan sebagainya.
 Bila dianggap variabel lain perlu diakomodasikan
dalam menganalisis konsumsi, maka Regresi
Sederhana dikembangkan menjadi Regresi
Berganda.
MODEL

Yi = 0 + 1X1i + 2X2i + 3X3i + ........+ kXki + ui


i = 1,2,3,......., N (banyaknya observasi)

Contoh Aplikasi:
Yi = 0 + 1X1 + 2X2 + 3X3 + ui
Y: Konsumsi
X1 : Pendapatan
X2 : Umur
X3 : Jumlah tanggungan
ESTIMASI
 Teknik Estimasi: Ordinary Least Square
 Estimator:
b = (XTX)-1 XTY

Bentuk tersebut merupakan persamaan matriks,


dimana:
X adalah matriks data variabel bebas
XT adalah bentuk transpose matriks X
(XTX)-1 adalah inverse perkalian matriks XT dan X
Y merupakan vektor data variabel terikat
Pemeriksaan Persamaan Regresi

 Standard Error Koefisien


 Interval Kepercayaan
 Koefisien Determinasi
 Nilai-nilai ekstrim
 Uji Hipotesis:
– Uji t
– Uji F
Uji Hipotesis
 Uji-F
Diperuntukkan guna melakukan uji hipotesis koefisien (slop)
regresi secara bersamaan.
H0 : 1 = 2 = 3 = 4 =............= k = 0
H1 : Tidak demikian (paling tidak ada satu slop yang  0)
Dimana: k adalah banyaknya variabel bebas.

 Regresi sederhana:
H0 : 1 = 0
H1 :  1  0

 Pengujian: Tabel ANOVA (Analysis of Variance).


Uji-F

 Observasi: Yi = 0 + 1 Xi + ei
 Regresi: Ŷi = b0 + b1 Xi (catatan: Ŷi merupakan estimasi dari Yi).

 Bila kedua sisi dikurangi maka:


Y
Yi  Y  Y  Y  ei
Selanjutnya kedua sisi dikomulatifkan:

 (Y  Y )   (Y  Y  e )
i
2
i i
2

SST
(Y  Y )  
i (
SSR
  Y)  e
Y2
SSE i
2
i
2

 SST : Sum of Squared Total


 SSR : Sum of Squared Regression
 SSE : Sum of Squared Error/Residual
Uji F

Tabel ANOVA
Sumber Sum of Square df Mean Squares F Hitung
Regresi SSR k MSR = SSR/k F = MSR
Error SSE n-k-1 MSE= SSE/(n-k-1) MSE
Total SST n-1

 Dimana df adalah degree of freedom, k adalah jumlah variabel


bebas (koefisien slop), dan n jumlah observasi (sampel).
 Bandingkan F Hit dengan Fα(k,n-k-1)
Asumsi-asumsi yang mendasari OLS

Pendugaan OLS akan bersifat BLUE (Best


Linier Unbiased Estimate) jika memenuhi 3
asumsi utama, yaitu:
– Tidak ada multikolinieritas
– Tidak mengandung Heteroskedastisitas
– Bebas dari otokorelasi
Multikolinieritas

 Multikolinieritas: adanya hubungan linier antara


regressor. Berkolerasinya variable bebas. Bila 2
variable bebas menjelaskan hal yang sama, maka
gunakan salah satunya saja
Misalkan terdapat dua buah regressor, X1 dan X2.
Jika X1 dapat dinyatakan sebagai fungsi linier dari X2,
misal : X1 =  X2, maka ada kolinieritas antara X1 dan
X2. Akan tetapi, bila hubungan antara X1 dan X2 tidak
linier, misalnya X1 = X22 atau X1 = log X2, maka X1
dan X2 tidak kolinier.
Ilustrasi
 Yi = 0 + 1X1 + 2X2 + 3X3 + ui

Y : Konsumsi
X1 : Total Pendapatan
X2 : Pendapatan dari upah
X3 : Pendapatan bukan dari upah

 Secara substansi: total pendapatan (X1) = pendapatan dari


upah (X2) + pendapatan bukan dari upah (X3). Bila model ini
ditaksir menggunakan Ordinary Least Square (OLS), maka i
tidak dapat diperoleh, karena terjadi perfect multicollinearity.
Tidak dapatnya  diperoleh karena ( XT X )-1, tidak bisa dicari.
Data Perfect Multikolinieritas

X1 X2 X3
12 48 51
16 64 65
19 76 82
23 92 96
29 116 118
Nilai-nilai yang tertera dalam tabel menunjukan bahwa Antara X1 dan X2
mempunyai hubungan: X2 = 4X1. Hubungan seperti inilah yang disebut
dengan perfect multicollinearity.
Akibat Multikolinieritas

 Varians besar (dari taksiran OLS)


 Interval kepercayaan lebar (variansi besar 
Standar Error besar  Interval kepercayaan lebar)
 R2 tinggi tetapi tidak banyak variabel yang
signifikan dari uji t. banyak variable yg tidak
signifikan
 Terkadang taksiran koefisien yang didapat akan
mempunyai nilai yang tidak sesuai dengan
substansi, sehingga dapat menyesatkan
interpretasi.
Kesalahan Interpretasi

“Interpretasi dari persamaan regresi ganda secara


implisit bergantung pada asumsi bahwa variabel-
variabel bebas dalam persamaan tersebut tidak saling
berkorelasi. Koefisien-koefisien regresi biasanya
diinterpretasikan sebagai ukuran perubahan variabel
terikat jika salah satu variabel bebasnya naik sebesar
satu unit dan seluruh variabel bebas lainnya dianggap
tetap. Namun, interpretasi ini menjadi tidak benar
apabila terdapat hubungan linier antara variabel bebas”
(Chatterjee and Price, 1977).
Ilustrasi

Konsumsi (Y) Pendapatan (X1) Kekayaan (X2)


40 50 500
50 65 659
65 80 856
90 110 1136
85 100 1023
100 120 1234
110 140 1456
135 190 1954
140 210 2129
160 220 2267
Ilustrasi

 Model:
Y = 12,8 – 1,414X1 + 0,202 X2
SE (4,696) (1,199) (0,117)
t (2,726) (-1,179) (1,721)
R2 = 0,982

 R2 relatif tinggi, yaitu 98,2%. Artinya?


 Uji t tidak signifikan. Artinya?
 Koefisien X1 bertanda negatif. Artinya?
Ilustrasi: Model dipecah
 Dampak Pendapatan pada Konsumsi
Y = 14,148 + 0,649X1
SE (5,166) (0,037)
t (2,739) (17,659)
R2 = 0,975
R2 tinggi, Uji t signifikan, dan tanda X 1 positif.

 Dampak Kekayaan pada Konsumsi


Y = 13,587 + 0,0635X2
SE (4,760) (0,003)
t (2,854) (19,280)
R = 0,979
2

 R2 tinggi, Uji t signifikan, dan tanda X 2 positif.

 X1 dan X2 menerangkan variasi yang sama. Bila 1 variabel saja cukup,


kenapa harus dua?
Mendeteksi Multikolinieritas dengan
Uji Formal

1. Eigenvalues dan Conditional Index


 Aturan yang digunakan adalah: Multikolinieritas ditengarai
ada didalam persamaan regresi bila nilai Eigenvalues
mendekati 0.
 Hubungan antara Eigenvalues dan Conditional Index (CI)
adalah sebagai berikut:

max eigenvalues
CI 
min eigenvalues
Jika CI berada antara nilai 10 sampai 30:
kolinieritas moderat.
Bila CI mempunyai nilai diatas 30: kolinieritas
yang kuat. Age vaes
2. VIF dan Tolerance

1
VIFj  ; j = 1,2,……,k
(1  R 2j )
k adalah banyaknya variabel bebas
R 2j adalah koefisien determinasi antara variabel bebas ke-j dengan
variabel bebas lainnya.
2
Jika R j = 0 atau antar variabel bebas tidak berkorelasi, maka nilai VIF = 1.

Jika R 2j ≠ 0 atau ada korelasi antar variabel bebas, maka nilai VIF > 1.
Oleh karena itu, dapat disimpulkan bahwa kolinieritas tidak ada
jika nilai VIF mendekati angka 1
Tolerance

 VIF ini mempunyai hubungan dengan


Tolerance (TOL), dimana hubungannya
adalah sebagai berikut:
1
TOL j 
VIF

 1  R 2j 
Variabel bebas dinyatakan tidak multikolinieritas jika
TOL mendekati 1
Mengatasi kolinieritas

 Melihat informasi sejenis yang ada


 Tidak mengikutsertakan salah satu variabel yang
kolinier
– Banyak dilakukan.
– Hati-hati, karena dapat menimbulkan specification bias
yaitu salah spesifikasi kalau variabel yang dibuang
merupakan variabel yang sangat penting.
 Mentransformasikan variabel
 Mencari data tambahan
Heteroskedastisitas (Heteroscedasticity)

 Variasi Error tidak konstan. Umumnya terjadi pada data cross


section. Misal data konsumsi dan pendapatan, atau data
keuntungan dan asset perusahaan
Pola Data Heteroskedastis
120

100

80

60

40

20

0 20 40 60
Data Heteroskedastisitas

 Fakta:
– hubungan positif antara X dan Y, dimana nilai Y
meningkat searah dengan nilai X.
– semakin besar nilai variabel bebas (X) dan
variabel bebas (Y), semakin jauh koordinat (x,y)
dari garis regresi (Error makin membesar)
– besarnya variasi seiring dengan membesarnya
nilai X dan Y. Atau dengan kata lain, variasi data
yang digunakan untuk membuat model tidak
konstan.
Pemeriksaan Heteroskedastisitas

1. Metode Grafik
 Prinsip: memeriksa pola residual (ui2)
terhadap taksiran Yi.
 Langkah-langkah:
– Run suatu model regresi
– Dari persamaan regresi, hitung ui2
– Buat plot antara ui2 dan taksiran Yi
Pola Grafik

u i2


Yi


Yi
Pengamatan:
1.Tidak adanya pola yang sistematis.
2.Berapapun nilai Y prediksi, residual kuadratnya relatif sama.
3.Variansi konstan, dan data homoskedastis.
Pola Adanya Heteroskedastisitas

ui2 ui2


 Yi
Yi
Pola sistematis
Uji Park

 Prinsip: memanfaatkan bentuk regresi untuk melihat


adanya heteroskedastisitas.
 Langkah-langkah yang dikenalkan Park:
1. Run regresi Yi = 0 + 0Xi + ui
2. Hitung ln ui2
3. Run regresi ln ui2 =  +  ln Xi + vi

4. Lakukan uji-t. Bila  signifikan, maka ada


heteroskedastisitas dalam data.
Ilustrasi
Sales Sales Sales
X Y X Y X Y
man man man
1 2 10 11 15 80 21 32 180
2 3 15 12 17 90 22 33 185
3 4 20 13 18 95 23 34 190
4 5 25 14 19 100 24 37 205
5 7 35 15 20 105 25 39 215
6 8 40 16 22 120 26 40 220
7 10 50 17 23 125 27 42 230
8 11 60 18 25 135 28 43 235
9 12 65 19 27 145 29 44 240
10 13 70 20 30 160 30 45 245

Y = rata-rata bonus (dalam ribuan rupiah)


X = rata-rata sepatu terjual (dalam unit)
Ilustrasi
 Y = -3,1470 + 5,5653 X
SE (0,0305) R2 = 0,9992
 slope signifikan: Bila sepatu terjual naik 1 unit, maka bonus
akan naik Rp.5.563.
 Apakah ada heteroskedastisitas ?

 Run regresi, didapat:


ln ui2 = 6,0393 – 2,1116 ln Xi
SE (0,0090) R2 = 0,9995

 Menurut uji t,  signifikan sehingga dalam model penjualan


sepatu vs bonus di atas ada heteroskedastisitas.
Uji Goldfeld – Quandt
 Metode Goldfeld – Quandt sangat populer untuk digunakan, namun
agak merepotkan, terutama untuk data yang besar.
 Langkah-langkah pada metode ini:
– Urutkan nilai X dari kecil ke besar
– Abaikan beberapa pengamatan sekitar median, katakanlah sebanyak c
pengamatan. Sisanya, masih ada (N – c) pengamatan
– Lakukan regresi pada pengamatan 1, dan hitung SSE 1
– Lakukan regresi pada pengamatan 2 dan hitung SSE 2.
– Hitung df = jumlah pengamatan dikurangi jumlah parameter
– Lakukan uji F sbb.

RSS 2 / df 2

RSS1 / df1
Bila  > F tabel, kita tolak hipotesis yang mengatakan data mempunyai variansi
yang homoskedastis
Ilustrasi
 Ada 30 pengamatan penjualan sepatu dan bonus. Sebanyak 4
pengamatan yang di tengah diabaikan sehingga tinggal 13
pengamatan pertama (Kelompok I) dan 13 pengamatan kedua
(Kelompok II).

 Regresi berdasarkan pengamatan pada kelompok I:


Y = -1,7298 + 5,4199 X R2 = 0,9979
RSS1 = 28192,66 df1 = 11

 Regresi berdasarkan pengamatan pada kelompok II:


Y = -0,8233 + 5,5110 X R2 = 0,9941
RSS2 = 354397,6 df2 = 11
Ilustrasi

RSS 2 / df 2 = 354397,6/11 = 12,5706



RSS1 / df 1 28192,66/11

Dari tabel F, didapat F = 2,82 sehingga  > F

Kesimpukan: ada heteroskedastisitas dalam data


Mengatasi heteroskedastisitas

1. Transformasi dengan Logaritma


Transformasi ini ditujukan untuk memperkecil
skala antar variabel bebas. Dengan semakin
‘sempitnya’ range nilai observasi, diharapkan
variasi error juga tidak akan berbeda besar
antar kelompok observasi.
Adapun model yang digunakan adalah:
Ln Yj = β0 + β1 Ln Xj + uj
2. Metode Generalized Least Squares
(GLS)

Perhatikan model berikut :


Yj = 1 + 2 Xj + uj dengan Var (uj) = j2
1
Masing-masing dikalikan  j

Yj  1  X j   uj 
 1    2     
j  j    j   j 

Maka diperoleh transformed model sebagai berikut :


Yi* = 1* + 2Xi* + ui*
GLS

 Kita periksa dulu apakah ui* homoskedastis ?

 ui2 
E(ui*2) = E 2   12 E (u i 2 )  12 ( i 2 )  1 konstan
 
 i  i i
Transformasi

Oleh karena mencari j2 hampir tidak pernah diketahui, maka


biasanya digunakan asumsi untuk mendapat nilai j2. Asumsi ini
dapat dilakukan dengan mentransformasikan variabel. Ada
beberapa jenis, yaitu:
1
1. Transformasi dengan
Xj
Asumsi: j 2 =  
E u 2j   2 X 2j
Yj  1   uj 
Akibat transformasi, model menjadi:  0    1   
Xj X  X 
 j   j 
atau dapat ditulis dengan: Yi* = 0 X* + 1 + vi
Transformasi
 Apakah sudah homoskedastis? Perhatikan bukti berikut:

 u j2 
E(vi2) = E 2   1 E (u 2 )  1 ( 2 X 2 )   2 konstan
X  X 2 j
X
2 j
 j  j j

1
2. Transformasi dengan Xi
Asumsi:  
j2 = E u 2j   2 X j

3. Transformasi dengan E(Yi)


Asumsi: j 2 =  
E u 2j   2 [E(Yj )]2
Otokorelasi

 Otokorelasi: korelasi antara variabel itu


sendiri, pada pengamatan yang berbeda
waktu atau individu. Umumnya kasus
otokorelasi banyak terjadi pada data time
series Kondisi sekarang dipengaruhi waktu
lalu. Misal: Tinggi badan, upah, dsbnya.
 Salah satu alat deteksi: melihat pola
hubungan antara residual (ui) dan variabel
bebas atau waktu (X).
Mendeteksi Otokorelasi
 Pola Autokorelasi

 ui ui
 *
 * **
 * * * ***
 * * * **
 * * * Waktu/X * **
Waktu/X
 * * * *
***
 *

 Gambar nomor (1) menunjukan adanya siklus, sedang nomor (2)
menunjukan garis linier. Kedua pola ini menunjukan adanya
otokorelasi.
Uji Durbin-Watson ( Uji d)

Statistik Uji N

 t t 1
(
t2

u  
u ) 2

d N

 t

u
t 1
2

Dalam Paket Program SPSS/EViews Sudah dihitungkan


Aturan main menggunakan uji Durbin-
Watson :

Bandingkan nilai d yang dihitung dengan nilai dL


dan dU dari tabel dengan aturan berikut :
– Bila d < dL  tolak H0; Berarti ada korelasi yang positif atau
kecenderungannya  = 1
– Bila dL  d  dU  kita tidak dapat mengambil kesimpulan
apa-apa
– Bila dU < d < 4 – dU  jangan tolak H0; Artinya tidak ada
korelasi positif maupun negatif
– Bila 4 – dU  d  4 – dL  kita tidak dapat mengambil
kesimpulan apa-apa
– Bila d > 4 – dL  tolak H0; Berarti ada korelasi negatif
Gambar aturan main menggunakan uji
Durbin-Watson

Tidak tahu Tidak tahu

Korelasi positif Tidak ada korelasi Korelasi negatif

0 dL dU 4-dU 4-dL 4
Mengatasi Otokorelasi: Metode Pembedaan
Umum (Generalized Differences)

 Yt = β0 + β1Xt + ut dan ut = ρ ut-1 + vt


 Untuk waktu ke- t-1: Yt-1 = β0 + β1Xt-1 + ut-1
 Bila kedua sisi persamaan dikali dengan ρ, maka:
ρ Yt-1 = ρ β0 + ρ β1Xt-1 + ρ ut-1 Idealnya kita
 Sekarang kita kurangkan dengan persamaan Model harus dapat
Yt - ρ Yt-1 = (β0 - ρ β0) + β1(Xt - ρ Xt-1) + (ut - ρ ut-1) mencari nilai ρ.
 Persamaan tersebut dapat dituliskan sebagai: Tapi dalam
banyak kasus,
Yt* = β0 (1 - ρ) + β1Xt* + vt diasumsikan
ρ = 1,
Dimana: Yt* = Yt - ρ Yt-1 dan Xt* = Xt - ρ Xt-1 sehingga:
Yt* = Yt - Yt-1
Xt* = Xt - Xt-1
Pemilihan Model
 1. R2 Adjusted
Perhatikan Model:
(i) LABA = 5053,712 + 0,049 KREDIT; R2 = 80,6%
(ii) LABA = 45748,484 + 0,0106 ASET + 0,0081 KREDIT; R2= 87,4%.
 Model manakah yang lebih baik ditinjau dari koefisien
determinasi-nya?.
Sekarang kita perhatikan kembali formula untuk menghitung R2

2
R 
SSR
 1
SSE
 1
 i
u 2

 Y 
2
SST SST Y
i
R2 Adjusted
 SST sama sekali tidak dipengaruhi oleh jumlah variabel bebas,
karena formulasinya hanya memperhitungkan variabel terikat
 SSE dipengaruhi oleh variabel bebas, dimana semakin banyak
variabel bebas, maka nilai SSE cenderung semakin kecil, atau
paling tidak tetap. SSE kecil, maka nilai SSR akan besar.
 Akibat kedua hal tersebut, maka semakin banyak variabel
bebas yang dimasukkan dalam model, maka nilai R2 akan
semakin besar.

R2  1
 i /(n  k )
u 2

 (Y i  Y ) /(n  1)
Pemilihan Model

2. Akaike Information Criterion (AIC)

AIC  e 2k/n  i
u 2

e 2k/n SSE
n n

 2k   RSS 
ln AIC     ln 
 n   n 
Bila kita membandingkan dua buah regresi atau lebih, maka model yang
mempunyai nilai AIC terkecil merupakan model yang lebih baik.
Ilustrasi

 LABA = 5053,712 + 0,049 KREDIT; SSE = 3,28E+12


 LABA = 58260,461 + 0,013 ASET; SSE = 2,1E+12
 LABA = 45748,484 + 0,0106 ASET + 0,0081 KREDIT; SSE =
2,17E+12

 2k   RSS   2x2   3,28E  12 


ln AIC(i)     ln 
    ln    24,9868
 n   n   50   50 

 2k   RSS   2x2   2,1E  12 


ln AIC(ii)     ln 
    ln    24,5409
 n   n   50   50 

 2k   RSS   2x3   2,17E  12 


ln AIC(iii)     ln    ln   24,6137
n
   n   50   50 
Pemilihan Model

3. Schwarz Information Criterion (SIC)

SIC  n k/n  i
u 2

n k/n SSE
n n

k  RSS 
ln SIC    ln n  ln 
n  n 
Sama dengan AIC, model yang mempunyai nilai SIC terkecil merupakan
model yang lebih baik.
Ilustrasi

k  RSS   2   3,28E  12 


ln SIC (i)    ln n  ln 
   ln 50  ln    25,06
n  n   50   50 

k  RSS   2   2,1E  12 


ln SIC (ii)    ln n  ln     ln 50  ln   24,62
n  n   50   50 

k  RSS   3   2,17 E  12 


ln SIC (iii)    ln n  ln 
   ln 50  ln    24,73
n  n   50   50 
Standarisasi Variabel

Kegunaan untuk perbandingan kontribusi antar variabel bebas


untuk menerangkan variabel terikat
Yi  Y Xi  X
Yi*  X *i 
SY SX
Akibat standarisasi:

Y 
Yi  Y
* *
= Yi 
Y i Y

0
0 (nilai tengah = 0)
i
SY n SY n SY

S 2

 Y
i Y  /(n  1)  n  1S
2
2
Y /(n  1)
 1 (varian = 1)
Y* 2 2
S Y S Y
Standarisasi Variabel

 Model regresi yang menggunakan variabel


yang telah distandarisasi tidak akan
mempunyai intersep
 Notasi yang diberikan untuk koefisien
tersebut adalah BETA.
 Standarisasi variabel lebih berguna untuk
analisis pada model regresi berganda.

Anda mungkin juga menyukai