6 ANALIS REGRESI
Materi pada bab ini meliputi pengujian parameter pada model regresi, pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpanganpenyimpangan asumsi dan cara mengatasinya. 6.1. KOMPETENSI KHUSUS Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi sebagai berikut: a. Dapat menduga parameter model regresi melalui pengujian parameter model regresi, baik secara serentak maupun individu b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik. c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi. d. Mahasiswa dapat mengatasi penyimpangan pada model regresi. 6.2. URAIAN MATERI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah:
y = f ( x; ) +
Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model:
83
y = 0 + 1 x1 + 2 x2 + L + p x p +
y = X +
atau
y1 1 x11 ... x p1 0 1 y 1 x ... x2 p 21 1 + 2 2 = M M M O M M M yn 1 xn1 ... xnp p n
Nilai vektor dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :
= ( X'X )
dengan
( X'y )
n 0 n x 1 ; ( X'X ) = i =1 1i = M M n p i =1 x pi
x x
2 1i
n i =1 1i
... ... O M
i =1 1i
x x pi
n yi x pi i =1 n n x x x y i =1 1i pi ; X'Y = i =1 1i i ( ) M ... n 2 x x y pi i =1 pi i
n i =1
Pengujian terhadap vektor dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu.
Hipotesis :
H0 : = 0 H1 : 0
84
(Y Y ) (Y Y )
(Y Y )
(Y Y ) (Y Y )
/p
/( n p 1)
MS . Re gresi MS . Re sidual
Residual Total
n-p-1 n-1
Hipotesis
H0 : j = 0 H1 : j 0 s Statistik uji: t = j j
Tolak Ho jika t > t
( )
2 ; n -p-1
Kegiatan Praktikum
Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam:
y = 0 + 1 ln ( gdp _ cap ) + 2 ln ( density )
Penyelesaian :
a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik
transform+ compute]
85
86
Model Summary Model 1 R R Square .840a .706 Adjusted R Square .700 Std. Error of the Estimate 5.788
ANOVAb Model 1 Sum of Squares 8519.080 3551.268 12070.349 df 2 106 108 Mean Square 4259.540 33.503 F 127.141 Sig. .000a
a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy
Coefficientsa Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390 Standardized Coefficients Beta .123 .831
Model 1
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :
y = 17 ,981 + 6,150 ln ( gdp _ cap ) + 0 ,904 ln ( density )
dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti
(significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria
87
model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan Tabel 6.2. Tabel 6.1. Kriteria Model Terbaik pada Regresi
No
1 2 3 4
Kriteria
SSE MSE R
2
n i =1 i
Formula
y) (y
i 2
Optimum
Minimum Minimum Maksimum
1 n 2 yi ) ( yi i =1 1 n p ( )
y y) ( (y y)
n n i =1 i =1 i i
2 2
100%
Adjusted R2
1 (1 R 2 )
( n 1) (n p)
Maksimum
Cp Mallow
6 7
AIC SBC
Metode
Backward
Penjelasan
Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,,p variabel independent.
Forward
StepSwise
88
Kegiatan Praktikum
Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik analyze+regression+linear]
89
ANOVA Model 1 Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459 df 1 72 73 2 71 73 3 70 73 4 69 73 Mean Square 7229.894 32.466 4103.154 19.171 2968.915 9.439 2254.447 7.966 F 222.690 Sig. .000
Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total
214.028
.000
314.544
.000
282.999
.000
Model Summary Model 1 2 3 4 R R Square .869a .756 .926b .858 .965c .931 d .971 .943 Adjusted R Square .752 .854 .928 .939 Std. Error of the Estimate 5.698 4.378 3.072 2.822
a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake
90
a Coefficients
Model 1 (Constant) People who read (% 2 (Constant) People who read (% Death rate per 1000 people 3 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita 4 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita Daily calorie intake
Unstandardized Standardized Coefficients Coefficients B Std. Error Beta 36.226 2.275 .430 .029 .869 53.279 2.961 .330 .026 .667 -.966 62.740 .192 -1.211 .001 54.214 .172 -1.136 .000 .004 .135 2.350 .024 .099 .000 3.143 .023 .093 .000 .001 -.378
t 15.924 14.923 17.995 12.606 -7.137 26.699 7.890 -12.214 8.614 17.252 7.456 -12.178 5.170 3.734
Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000
dengan R2= 0.943 b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]
Response is LIFEEXPF L I T E R A C Y X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X G D P _ C A P C A L O R I E S D E A T H _ R T
Vars R-Sq R-Sq(adj) 1 1 1 2 2 2 3 3 3 4 4 4 5 75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4 75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0
C-p 225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0
S 5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112
U R B A N
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise
y = 0 + 1 x1 + 2 x2 + L + p x p +
Asumsi yang diperlukan untuk model ini adalah: a. ~ N ( 0, 2 )
b. var ( i ) = 2 untuk semua i c. cov ( i , j ) = 0 untuk ij d. Antar variabel independen saling bebas
92
Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkahlangkah pada Tabel 6.3. berikut ini: Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya
No. Masalah Deteksi Penyelesaian
Hetroscedastivity
var ( i ) 2
Autocorrelation
cov ( i , j ) 0
Regresi beda, Regresi ratio, Memasukkan trend, Cochrane Orcutt, Hildreth-Lu, Durbin, Prais-Winsten
untuk ij
Multicollinearity
r ( X i , X j ) tinggi,
VIF > 10, X ' X 0 R2 tinggi tetapi tidak ada yang significant
Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :
var( i ) = i2 = 2 i Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual , jika scatter plot membentuk gambar seperti yang sudah dibakukan dengan nilai y pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika
93
membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.
(a)
(b)
Gambar 6.1. Plot Untuk Uji Homogenitas Varians Selain dengan menggunakan scatter-plot seperti di atas, keberadaan
hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara
meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau: Jika e = k.x1 . maka dilakukan transformasi sebagai berikut :
x x x y 1 = 0 + 1 1 + 2 2 + 3 3 + ... x1 x1 x1 x1 x1
atau
* * * y * = 1 + 0 x1 + 2 x2 + 3 x3 + ...
Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh:
* * * y * = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh : y = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
94
Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan metode weighted least-squares yaitu:
= ( X'-1 X )1 X-1y
dengan adalah matriks diagonal dengan unsur diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel
independent,
jika
korelasi
ini
significant
maka
cenderung
terjadi
kasus
hetroscedasticity.
Koefisien korelasi Spearman dihitung dengan cara :
r = 1 6 D 2 n(n 2 1)
Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut:
Year 1 2 3 4 5 6 7 8 9 10 11
Saving 264 105 90 131 122 107 406 503 431 588 898
Income 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730
Year 12 13 14 15 16 17 18 19 20 21 22
Saving 950 779 819 1222 1702 1578 1654 1400 1829 2200 2017
Income 17663 18575 19635 21163 22880 24127 25604 26500 27670 28300 27430
Year 23 24 25 26 27 28 29 30 31
Saving 2105 1600 2250 2420 2570 1720 1900 2100 2300
Income 29560 28150 32100 32500 35250 33500 36000 36200 38200
Penyelesaian :
95
MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12.
The regression equation is saving = - 648 + 0.0847 income Predictor Constant income S = 247.6 Coef -648.1 0.084665 SE Coef 118.2 0.004882 T -5.49 17.34 P 0.000 0.000
R-Sq = 91.2%
R-Sq(adj) = 90.9%
R-Sq = 43.6%
R-Sq(adj) = 41.7%
Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak
residual
dengan
variabel
income
sehingga
terjadi
kasus
heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model :
( saving
dengan cara :
MTB MTB MTB MTB > > > >
income ) = 0 + 1 (1 income ) +
Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan
let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*';
96
R-Sq = 77.5%
R-Sq(adj) = 76.7%
S = 0.005465
R-Sq = 0.3%
R-Sq(adj) = 0.0%
Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak
97
Gambar 6.2. Hasil Uji Kenormalan Data Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal. Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah:
y* = 0.0881 723 x*
atau
( saving
6.2.3.2. Autokorelasi
Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak
saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan metode-metode berikut ini: a) Statistik uji Durbin-Watson :
d=
(e
i =2
i n
ei 1 ) 2
2 i
e
i =1
98
b) ACF plot, ada nilai r ( et ,et k ) melampaui batas 0 2 saling independent c) Statistik uji Ljung-Box Q = n(n + 2)
j =1 k
r j2 n j
pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat diatasi dengan: a. Regresi beda y t y t 1 = 0 + 1 ( xt xt 1 ) + t b. Regresi Nisbah
yt x = 0 + 1 t + t y t 1 xt 1
yt .yt 1 = 0 + 1( xt xt 1 ) + t
Kegiatan Praktikum
tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 export 102 105 105 105 104 104 106 106 105 106 gdp 255 261 261 260 257 257 261 260 257 259 tahun 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 export 106 106 106 106 108 108 109 110 113 113 gdp 259 258 257 257 261 261 262 264 271 271 tahun 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 export 112 114 113 112 114 113 117 117 117 117 gdp 268 271 269 266 270 267 276 276 276 275
Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.
Penyelesaian
99
MTB > regr gdp 1 export; SUBC > resid c5. The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549 Coef 110.354 1.40664 SE Coef 6.839 0.06251 T 16.14 22.50 P 0.000 0.000
R-Sq = 94.8%
R-Sq(adj) = 94.6%
Gambar 6.3. Plot Autokorelasi (ACF) Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent. b. Mengatasi autocorrelation dengan regresi beda
MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.
100
The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Coef SE Coef T Constant -0.48789 0.09875 -4.94 dif_xprt 2.27658 0.06924 32.88 S = 0.4956 R-Sq = 97.6%
P 0.000 0.000
R-Sq(adj) = 97.5%
P 0.068 0.000
R-Sq(adj) = 97.3%
101
6.2.3.3. Multikolinearitas
Multicollinearity adalah Adanya hubungan linear antar variabel independent. Multicollinearity dapat dideteksi dengan cara berikut:
a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c. X ' X 0 d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda
regression adalah
102
xx s
1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin 2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi
multicollinearity
Penyelesaian
103
b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]
Correlations Gross domestic product / capita .550** 1 .285 .617** .581** People living in cities (%) .500* .285 1 .578** .542* Males who read (%) .756** .581** .542* .956** 1
Average female life expectancy Average female life expectancy Gross domestic product / it living in cities (%) People Females who read (%) Males who read (%) 1 .550** .500* .833** .756**
**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).
104
Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus multicollinearity dengan VIF klik [analyze+regression+linear]
105
Coefficientsa Unstandardized Coefficients B Std. Error 45.921 8.483 .000 .011 -.273 .594 .001 .068 .274 .238 Collinearity Statistics VIF 1.640 1.525 11.573 13.289
(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk
males who read negatif sedangkan koefisien korelasinya positif sehingga memang
ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression
Model 1
t 7.684 6.557
106
Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:
107
Gambar 6.6. Iterasi pada Regresi Ridge f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable GDP_CAP URBAN LIT_MALE LIT_FEMA 2.8278 0.707 0.707 PC1 -0.435 -0.414 -0.560 -0.571 0.7163 0.179 0.886 PC2 0.655 -0.755 0.028 0.022 0.4141 0.104 0.990 PC3 -0.616 -0.506 0.478 0.368 0.0419 0.010 1.000 PC4 0.049 0.046 0.676 -0.734
2. Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1
MTB > regr 'lifeexpf' 1 'w1'
108
109