Bab 6 (1) - Analisis Regresi

BAB
6 ANALIS REGRESI
Materi pada bab ini meliputi pengujian parameter pada model regresi, pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpanganpenyimpangan asumsi dan cara mengatasinya. 6.1. KOMPETENSI KHUSUS Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi sebagai berikut: a. Dapat menduga parameter model regresi melalui pengujian parameter model regresi, baik secara serentak maupun individu b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik. c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi. d. Mahasiswa dapat mengatasi penyimpangan pada model regresi. 6.2. URAIAN MATERI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah:
y = f ( x; ) +
Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model:
83
BAB 6. ANALISIS REGRESI
y = 0 + 1 x1 + 2 x2 + L + p x p +
Dalam bentuk matriks, model regresi linear dapat ditulis dalam:
y = X +
atau
y1 1 x11 ... x p1 0 1 y 1 x ... x2 p 21 1 + 2 2 = M M M O M M M yn 1 xn1 ... xnp p n
Nilai vektor dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :
= ( X'X )
dengan
( X'y )
n 0 n x 1 ; ( X'X ) = i =1 1i = M M n p i =1 x pi
x x
2 1i
n i =1 1i
... ... O M
i =1 1i
x x pi
n yi x pi i =1 n n x x x y i =1 1i pi ; X'Y = i =1 1i i ( ) M ... n 2 x x y pi i =1 pi i
n i =1
Pengujian terhadap vektor dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu.
6.2.1. Pengujian Parameter Regresi Pengujian secera serentak
Hipotesis :
H0 : = 0 H1 : 0
84
Statistik Uji Sumber Variasi Regresi p

df Sum of Squares MS
(Y Y ) (Y Y )
(Y Y )
(Y Y ) (Y Y )
/p
/( n p 1)
MS . Re gresi MS . Re sidual
Residual Total
n-p-1 n-1
Tolak Ho jika F > F , p , n p 1 .
Pengujian secara individu
Hipotesis
H0 : j = 0 H1 : j 0 s Statistik uji: t = j j
Tolak Ho jika t > t
( )
2 ; n -p-1
Kegiatan Praktikum
Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam:
y = 0 + 1 ln ( gdp _ cap ) + 2 ln ( density )
Penyelesaian :
a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik
transform+ compute]
85
b) Melakukan analisis regresi ;[klik+analyze+regression+linear]
86
dan hasilnya adalah :
Model Summary Model 1 R R Square .840a .706 Adjusted R Square .700 Std. Error of the Estimate 5.788
a. Predictors: (Constant), ln_gdp, ln_dens
ANOVAb Model 1 Sum of Squares 8519.080 3551.268 12070.349 df 2 106 108 Mean Square 4259.540 33.503 F 127.141 Sig. .000a
Regression Residual Total
a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy
Coefficientsa Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390 Standardized Coefficients Beta .123 .831
Model 1
(Constant) ln_dens ln_gdp
t 5.136 2.332 15.766
Sig. .000 .022 .000
a. Dependent Variable: Average female life expectancy
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :
y = 17 ,981 + 6,150 ln ( gdp _ cap ) + 0 ,904 ln ( density )
6.2.2. Pemilihan Model Terbaik

Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel
dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti
(significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria
87
model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan Tabel 6.2. Tabel 6.1. Kriteria Model Terbaik pada Regresi
No
1 2 3 4
Kriteria
SSE MSE R
2
n i =1 i
Formula
y) (y
i 2
Optimum
Minimum Minimum Maksimum
1 n 2 yi ) ( yi i =1 1 n p ( )
y y) ( (y y)
n n i =1 i =1 i i
2 2
100%
Adjusted R2
1 (1 R 2 )
( n 1) (n p)
Maksimum
Cp Mallow
6 7
AIC SBC
SSE (n 2 p) MSE ln ( SSE n ) + ( 2 p n ) ln ( SSE n ) + ( p n ) ln ( n )
Minimum Minimum Minimum
Tabel 6.2. Metode untuk Mendapatkan Model Terbaik
Metode
Backward
Penjelasan
Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,,p variabel independent.
Forward
StepSwise
Best subset regression
88
Kegiatan Praktikum
Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik analyze+regression+linear]
atau melalui syntax berikut ini:

REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt.
dan hasilnya adalah:
89
ANOVA Model 1 Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459 df 1 72 73 2 71 73 3 70 73 4 69 73 Mean Square 7229.894 32.466 4103.154 19.171 2968.915 9.439 2254.447 7.966 F 222.690 Sig. .000
Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total
214.028
.000
314.544
.000
282.999
.000
Model Summary Model 1 2 3 4 R R Square .869a .756 .926b .858 .965c .931 d .971 .943 Adjusted R Square .752 .854 .928 .939 Std. Error of the Estimate 5.698 4.378 3.072 2.822
a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake
90
a Coefficients
Model 1 (Constant) People who read (% 2 (Constant) People who read (% Death rate per 1000 people 3 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita 4 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita Daily calorie intake
Unstandardized Standardized Coefficients Coefficients B Std. Error Beta 36.226 2.275 .430 .029 .869 53.279 2.961 .330 .026 .667 -.966 62.740 .192 -1.211 .001 54.214 .172 -1.136 .000 .004 .135 2.350 .024 .099 .000 3.143 .023 .093 .000 .001 -.378
t 15.924 14.923 17.995 12.606 -7.137 26.699 7.890 -12.214 8.614 17.252 7.456 -12.178 5.170 3.734
Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000
.389 -.474 .363
.347 -.444 .252 .186
Sehingga model terbaiknya adalah :

lifeexp = 54, 214 + 0,172 ( literacy ) 1,136 ( death_rt ) + 0 , 000 ( gdp_cap ) + 0 , 004 ( calorie )
dengan R2= 0.943 b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]
sehingga diperoleh hasil sebagai berikut: 91
Response is LIFEEXPF L I T E R A C Y X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X G D P _ C A P C A L O R I E S D E A T H _ R T
Vars R-Sq R-Sq(adj) 1 1 1 2 2 2 3 3 3 4 4 4 5 75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4 75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0
C-p 225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0
S 5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112
U R B A N
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise
6.2.3. Asumsi dalam Analisis Regresi

Model linear yang menggambarkan hubungan antara variabel independent dan variabel dependent adalah :
y = 0 + 1 x1 + 2 x2 + L + p x p +
Asumsi yang diperlukan untuk model ini adalah: a. ~ N ( 0, 2 )
b. var ( i ) = 2 untuk semua i c. cov ( i , j ) = 0 untuk ij d. Antar variabel independen saling bebas
92
Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkahlangkah pada Tabel 6.3. berikut ini: Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya
No. Masalah Deteksi Penyelesaian
Residual tidak Berdistribusi normal
Normal probability plot Uji kenormalan, misalnya uji KS

Plot e dengan y Uji Glesjer, White Uji Golfeld-Quandt Plot e dengan y Uji Durbin Watson ACF plot
Tranformasi variabel Regresi bootstrap

Transformasi variabel Weighted Least Squares
Hetroscedastivity
var ( i ) 2
Autocorrelation
cov ( i , j ) 0
Regresi beda, Regresi ratio, Memasukkan trend, Cochrane Orcutt, Hildreth-Lu, Durbin, Prais-Winsten
untuk ij
Multicollinearity
r ( X i , X j ) tinggi,
stepwise Principal component reg. Ridge regression
VIF > 10, X ' X 0 R2 tinggi tetapi tidak ada yang significant
6.2.3.1. Heteroscedastisitas dan Normalitas
Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :
var( i ) = i2 = 2 i Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual , jika scatter plot membentuk gambar seperti yang sudah dibakukan dengan nilai y pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika
93
membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.
(a)
(b)
Gambar 6.1. Plot Untuk Uji Homogenitas Varians Selain dengan menggunakan scatter-plot seperti di atas, keberadaan
hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara
meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau: Jika e = k.x1 . maka dilakukan transformasi sebagai berikut :
x x x y 1 = 0 + 1 1 + 2 2 + 3 3 + ... x1 x1 x1 x1 x1
atau
* * * y * = 1 + 0 x1 + 2 x2 + 3 x3 + ...
Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh:
* * * y * = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh : y = b1 + b0 x1 + b2 x 2 + b3 x3 + ...
94
Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan metode weighted least-squares yaitu:
= ( X'-1 X )1 X-1y
dengan adalah matriks diagonal dengan unsur diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel
independent,
jika
korelasi
ini
significant
maka
cenderung
terjadi
kasus
hetroscedasticity.
Koefisien korelasi Spearman dihitung dengan cara :
r = 1 6 D 2 n(n 2 1)
dengan D adalah selisih rank antar dua variabel.

Kegiatan Praktikum :
Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut:
Year 1 2 3 4 5 6 7 8 9 10 11
Saving 264 105 90 131 122 107 406 503 431 588 898
Income 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730
Year 12 13 14 15 16 17 18 19 20 21 22
Saving 950 779 819 1222 1702 1578 1654 1400 1829 2200 2017
Income 17663 18575 19635 21163 22880 24127 25604 26500 27670 28300 27430
Year 23 24 25 26 27 28 29 30 31
Saving 2105 1600 2250 2420 2570 1720 1900 2100 2300
Income 29560 28150 32100 32500 35250 33500 36000 36200 38200
Penyelesaian :
Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara:
95
MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12.
The regression equation is saving = - 648 + 0.0847 income Predictor Constant income S = 247.6 Coef -648.1 0.084665 SE Coef 118.2 0.004882 T -5.49 17.34 P 0.000 0.000
R-Sq = 91.2%
R-Sq(adj) = 90.9%
Untuk melakukan uji Glejser, dilakukan perintah :

MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income S = 100.0 Coef -7.69 0.009346 SE Coef 47.73 0.001972 T -0.16 4.74 P 0.873 0.000
R-Sq = 43.6%
R-Sq(adj) = 41.7%
Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak
residual
dengan
variabel
income
sehingga
terjadi
kasus
heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model :
( saving
dengan cara :
MTB MTB MTB MTB > > > >
income ) = 0 + 1 (1 income ) +
Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan
let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*';
96
SUBC> resid c21.

The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051 Coef 0.088139 -722.50 SE Coef 0.004372 72.36 T 20.16 -9.98 P 0.000 0.000
R-Sq = 77.5%
R-Sq(adj) = 76.7%
Pengujian adanya heteroscedasticity dengan uji Glejser

MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income'
Hasil pengujian Glejser

The regression equation is absres = 0.00793 +0.000000 income Predictor Constant income Coef 0.007931 0.00000003 SE Coef 0.002608 0.00000011 T 3.04 0.31 P 0.005 0.760
S = 0.005465
R-Sq = 0.3%
R-Sq(adj) = 0.0%
Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak
residual dengan income atau varians residual cenderung sudah homogen.

Sedangkan asumsi kenormalan residual dapat diuji dengan cara :
MTB > %NormPlot C21; SUBC> Kstest.
Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :
97
Gambar 6.2. Hasil Uji Kenormalan Data Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal. Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah:
y* = 0.0881 723 x*
atau
( saving
income ) = 0 , 0881 723 (1 income )
Ruas kiri dan kanan digandakan dengan income maka diperoleh :
saving = 723 + 0, 0881 income
6.2.3.2. Autokorelasi
Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak
saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan metode-metode berikut ini: a) Statistik uji Durbin-Watson :
d=
(e
i =2
i n
ei 1 ) 2
2 i
e
i =1
98
b) ACF plot, ada nilai r ( et ,et k ) melampaui batas 0 2 saling independent c) Statistik uji Ljung-Box Q = n(n + 2)
j =1 k
maka residual tidak
r j2 n j
2 Tolak Ho atau residual saling independent jika Q > ;k .
pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat diatasi dengan: a. Regresi beda y t y t 1 = 0 + 1 ( xt xt 1 ) + t b. Regresi Nisbah
yt x = 0 + 1 t + t y t 1 xt 1
yt .yt 1 = 0 + 1( xt xt 1 ) + t
Kegiatan Praktikum
tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 export 102 105 105 105 104 104 106 106 105 106 gdp 255 261 261 260 257 257 261 260 257 259 tahun 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 export 106 106 106 106 108 108 109 110 113 113 gdp 259 258 257 257 261 261 262 264 271 271 tahun 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 export 112 114 113 112 114 113 117 117 117 117 gdp 268 271 269 266 270 267 276 276 276 275
Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.
Penyelesaian
a. Penentuan model regresi dan pemeriksaan asumsi independent residual
99
MTB > regr gdp 1 export; SUBC > resid c5. The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549 Coef 110.354 1.40664 SE Coef 6.839 0.06251 T 16.14 22.50 P 0.000 0.000
R-Sq = 94.8%
R-Sq(adj) = 94.6%
MTB > %acf c5
Gambar 6.3. Plot Autokorelasi (ACF) Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent. b. Mengatasi autocorrelation dengan regresi beda
MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.
100
The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Coef SE Coef T Constant -0.48789 0.09875 -4.94 dif_xprt 2.27658 0.06924 32.88 S = 0.4956 R-Sq = 97.6%
P 0.000 0.000
R-Sq(adj) = 97.5%
MTB > %acf c9
Gambar 6.4. Plot Autokorelasi (ACF)
residual sudah saling independent, sehingga model regresinya adalah:

( gdpt gdpt 1 ) = 0.488 + 2.28(exp ort t exp ort t 1 ) c. Mengatasi autocorrelation dengan regresi nisbah
MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13. The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Coef SE Coef T Constant 0.05627 0.02957 1.90 C11 0.94186 0.02942 32.01 S = 0.001930 R-Sq = 97.4%
P 0.068 0.000
R-Sq(adj) = 97.3%
101
MTB > %acf c13
Gambar 6.5. Plot Autokorelasi (ACF)
residual sudah saling independent, sehingga model regresinya adalah

gdpt exp ort t = 0.0563 + 0.942 gdpt 1 exp ort t 1
6.2.3.3. Multikolinearitas
Multicollinearity adalah Adanya hubungan linear antar variabel independent. Multicollinearity dapat dideteksi dengan cara berikut:
a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c. X ' X 0 d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda
Multicollinearity dapat diatasi dengan metode berikut ini:

a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise. b. Ridge Regression. Penaksiran koefisien parameter model regresi pada ridge
regression adalah
102
= ( X'X + k I )1 X'y , untuk 0 < k < 1 .

c. Principal Component Regression (PCR). Langkah-langkah dari metode PCR adalah sebagai berikut:
Melakukan pembakuan (pen-stadar-an) data : z =
xx s
Membangkitkan variabel baru yang saling independent

w1 = a11 x1 + a12 x2 + L + a1 p x p w2 = a21 x1 + a22 x2 + L + a2 p x p wp = a p x1 + a p 2 x2 + L + a pp x p
atau
w i = ai x , dengan ai adalah eigen-vector dari eigen-value ke-i yang dihitung

dari matriks korelasi antar variabel independent
Melakukan regresi y dengan w dan mensubstitusi mundur ke dalam model asal,

yaitu model y dengan x.
6.3. KEGIATAN PRAKTIKUM
1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin 2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi
multicollinearity
Penyelesaian
a. Memilih data dari region Amerika Latin klik [ data+select cases+if ]
103
b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]
Correlations Gross domestic product / capita .550** 1 .285 .617** .581** People living in cities (%) .500* .285 1 .578** .542* Males who read (%) .756** .581** .542* .956** 1
Average female life expectancy Average female life expectancy Gross domestic product / it living in cities (%) People Females who read (%) Males who read (%) 1 .550** .500* .833** .756**
Females who read (%) .833** .617** .578** 1 .956**
**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).
104
Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus multicollinearity dengan VIF klik [analyze+regression+linear]
kemudian klik [statistics]
105
Coefficientsa Unstandardized Coefficients B Std. Error 45.921 8.483 .000 .011 -.273 .594 .001 .068 .274 .238 Collinearity Statistics VIF 1.640 1.525 11.573 13.289
(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)
t 5.413 .320 .159 -.997 2.498
Sig. .000 .753 .875 .334 .024
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk
males who read negatif sedangkan koefisien korelasinya positif sehingga memang
ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression
+ linear + method stepwise]

Coefficientsa Unstandardized Coefficients B Std. Error 39.013 5.077 .406 .062 Collinearity Statistics VIF 1.000
Model 1
(Constant) Females who read (%)
t 7.684 6.557
Sig. .000 .000
e. Mengatasi multicollinearity dengan ridge regression : klik [file + new + syntax]
106
klik [Run +All]

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K ______ .00000 .05000 .10000 .15000 .20000 .25000 .30000 .35000 .40000 .45000 .50000 .55000 .60000 .65000 .70000 .75000 .80000 .85000 .90000 .95000 1.0000 RSQ ______ .71418 .69610 .68316 .67496 .66894 .66400 .65966 .65564 .65182 .64811 .64445 .64083 .63722 .63360 .62999 .62637 .62273 .61909 .61544 .61179 .60813 GDP_CAP ________ .054792 .094060 .108722 .116972 .122256 .125810 .128228 .129847 .130880 .131470 .131719 .131700 .131470 .131071 .130537 .129895 .129165 .128365 .127509 .126608 .125671 URBAN ________ .026292 .064195 .079079 .087904 .093883 .098171 .101326 .103668 .105402 .106666 .107560 .108158 .108517 .108681 .108683 .108551 .108309 .107975 .107564 .107088 .106558 LIT_FEMA ________ 1.216924 .727695 .576309 .499551 .451628 .418018 .392635 .372467 .355839 .341745 .329540 .318790 .309190 .300520 .292617 .285355 .278639 .272392 .266551 .261068 .255901 LIT_MALE ________ -.453266 -.027707 .089996 .141542 .168551 .183994 .193180 .198665 .201821 .203441 .204016 .203861 .203186 .202137 .200817 .199298 .197636 .195871 .194033 .192146 .190227
Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:
107
Gambar 6.6. Iterasi pada Regresi Ridge f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.
Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable GDP_CAP URBAN LIT_MALE LIT_FEMA 2.8278 0.707 0.707 PC1 -0.435 -0.414 -0.560 -0.571 0.7163 0.179 0.886 PC2 0.655 -0.755 0.028 0.022 0.4141 0.104 0.990 PC3 -0.616 -0.506 0.478 0.368 0.0419 0.010 1.000 PC4 0.049 0.046 0.676 -0.734
2. Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1
MTB > regr 'lifeexpf' 1 'w1'
The regression equation is LIFEEXPF = 71.8 - 3.51 w1

Predictor Constant w1 Coef 71.7619 -3.5140 SE Coef 0.9930 0.6051 T 72.26 -5.81 P 0.000 0.000
108
3. Menyatakan model regresi ke dalam variabel asal
y = 71,8 3,51 w1 y = 71,8 3,51 ( 0.435 z1 0.414 z2 0.560 z3 0.571 z4 )

y = 71,8 + 1,53 z1 + 1, 45 z2 + 1,97 z3 + 2, 00 z4 x x3 x x x x2 x x4 y = 71.8 + 1.53 1 1 + 1.45 2 +2 4 + 1.97 3 s x1 s x2 s x3 s x4
109

Bab 6 (1) - Analisis Regresi

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 6 (1) - Analisis Regresi

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB

BAB 6. ANALISIS REGRESI

Dalam bentuk matriks, model regresi linear dapat ditulis dalam:

6.2.1. Pengujian Parameter Regresi Pengujian secera serentak

BAB 6. ANALISIS REGRESI

Statistik Uji Sumber Variasi Regresi p

Tolak Ho jika F > F , p , n p 1 .

Pengujian secara individu

BAB 6. ANALISIS REGRESI

b) Melakukan analisis regresi ;[klik+analyze+regression+linear]

BAB 6. ANALISIS REGRESI

dan hasilnya adalah :

a. Predictors: (Constant), ln_gdp, ln_dens

Regression Residual Total

(Constant) ln_dens ln_gdp

t 5.136 2.332 15.766

Sig. .000 .022 .000

a. Dependent Variable: Average female life expectancy

6.2.2. Pemilihan Model Terbaik

BAB 6. ANALISIS REGRESI

SSE (n 2 p) MSE ln ( SSE n ) + ( 2 p n ) ln ( SSE n ) + ( p n ) ln ( n )

Minimum Minimum Minimum

Tabel 6.2. Metode untuk Mendapatkan Model Terbaik

Best subset regression

BAB 6. ANALISIS REGRESI

atau melalui syntax berikut ini:

dan hasilnya adalah:

BAB 6. ANALISIS REGRESI

BAB 6. ANALISIS REGRESI

.389 -.474 .363

.347 -.444 .252 .186

a. Dependent Variable: Average female life expectancy

Sehingga model terbaiknya adalah :

sehingga diperoleh hasil sebagai berikut: 91

BAB 6. ANALISIS REGRESI

6.2.3. Asumsi dalam Analisis Regresi

BAB 6. ANALISIS REGRESI

Residual tidak Berdistribusi normal

Normal probability plot Uji kenormalan, misalnya uji KS

Tranformasi variabel Regresi bootstrap

stepwise Principal component reg. Ridge regression

6.2.3.1. Heteroscedastisitas dan Normalitas

BAB 6. ANALISIS REGRESI

BAB 6. ANALISIS REGRESI

dengan D adalah selisih rank antar dua variabel.

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara:

BAB 6. ANALISIS REGRESI

dan hasilnya adalah:

Untuk melakukan uji Glejser, dilakukan perintah :

BAB 6. ANALISIS REGRESI

SUBC> resid c21.

dan hasilnya adalah:

Pengujian adanya heteroscedasticity dengan uji Glejser

Hasil pengujian Glejser

residual dengan income atau varians residual cenderung sudah homogen.

Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

BAB 6. ANALISIS REGRESI

income ) = 0 , 0881 723 (1 income )

Ruas kiri dan kanan digandakan dengan income maka diperoleh :

saving = 723 + 0, 0881 income

BAB 6. ANALISIS REGRESI

maka residual tidak

Females who read (%) .833 .617 .578 1 .956