Anda di halaman 1dari 27

BAB

6 ANALIS REGRESI

Materi pada bab ini meliputi pengujian parameter pada model regresi, pemilihan model terbaik, asumsi-asumsi pada analisis regresi, serta penyimpanganpenyimpangan asumsi dan cara mengatasinya. 6.1. KOMPETENSI KHUSUS Setelah mempelajari bab ini, mahasiswa diharapkan memiliki kompetensi sebagai berikut: a. Dapat menduga parameter model regresi melalui pengujian parameter model regresi, baik secara serentak maupun individu b. Mahasiswa mengetahui dan dapat menggunakan metode pemilihan model terbaik. c. Mahasiswa dapat menguji asumsi-asumsi pada model regresi. d. Mahasiswa dapat mengatasi penyimpangan pada model regresi. 6.2. URAIAN MATERI Analisis regresi adalah analisis statistika yang bertujuan untuk memodelkan hubungan antara variabel independent dengan variabel dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah:
y = f ( x; ) +

Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model:

83

BAB 6. ANALISIS REGRESI

y = 0 + 1 x1 + 2 x2 + L + p x p +

Dalam bentuk matriks, model regresi linear dapat ditulis dalam:

y = X +
atau
y1 1 x11 ... x p1 0 1 y 1 x ... x2 p 21 1 + 2 2 = M M M O M M M yn 1 xn1 ... xnp p n

Nilai vektor dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara :

= ( X'X )
dengan

( X'y )

n 0 n x 1 ; ( X'X ) = i =1 1i = M M n p i =1 x pi

x x
2 1i

n i =1 1i

... ... O M

i =1 1i

x x pi

n yi x pi i =1 n n x x x y i =1 1i pi ; X'Y = i =1 1i i ( ) M ... n 2 x x y pi i =1 pi i
n i =1

Pengujian terhadap vektor dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu.

6.2.1. Pengujian Parameter Regresi Pengujian secera serentak

Hipotesis :
H0 : = 0 H1 : 0

84

BAB 6. ANALISIS REGRESI

Statistik Uji Sumber Variasi Regresi p


df Sum of Squares MS

(Y Y ) (Y Y )
(Y Y )

(Y Y ) (Y Y )

/p
/( n p 1)

MS . Re gresi MS . Re sidual

Residual Total

n-p-1 n-1

Tolak Ho jika F > F , p , n p 1 .

Pengujian secara individu

Hipotesis
H0 : j = 0 H1 : j 0 s Statistik uji: t = j j
Tolak Ho jika t > t

( )

2 ; n -p-1

Kegiatan Praktikum
Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam:
y = 0 + 1 ln ( gdp _ cap ) + 2 ln ( density )

Penyelesaian :
a) Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara [klik

transform+ compute]

85

BAB 6. ANALISIS REGRESI

b) Melakukan analisis regresi ;[klik+analyze+regression+linear]

86

BAB 6. ANALISIS REGRESI

dan hasilnya adalah :

Model Summary Model 1 R R Square .840a .706 Adjusted R Square .700 Std. Error of the Estimate 5.788

a. Predictors: (Constant), ln_gdp, ln_dens

ANOVAb Model 1 Sum of Squares 8519.080 3551.268 12070.349 df 2 106 108 Mean Square 4259.540 33.503 F 127.141 Sig. .000a

Regression Residual Total

a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy

Coefficientsa Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390 Standardized Coefficients Beta .123 .831

Model 1

(Constant) ln_dens ln_gdp

t 5.136 2.332 15.766

Sig. .000 .022 .000

a. Dependent Variable: Average female life expectancy

Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model :
y = 17 ,981 + 6,150 ln ( gdp _ cap ) + 0 ,904 ln ( density )

6.2.2. Pemilihan Model Terbaik


Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel

dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti
(significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria

87

BAB 6. ANALISIS REGRESI

model terbaik dan metode untuk mendapatkannya disajikan pada Tabel 6.1. dan Tabel 6.2. Tabel 6.1. Kriteria Model Terbaik pada Regresi

No
1 2 3 4

Kriteria
SSE MSE R
2
n i =1 i

Formula
y) (y
i 2

Optimum
Minimum Minimum Maksimum

1 n 2 yi ) ( yi i =1 1 n p ( )

y y) ( (y y)
n n i =1 i =1 i i

2 2

100%

Adjusted R2

1 (1 R 2 )

( n 1) (n p)

Maksimum

Cp Mallow

6 7

AIC SBC

SSE (n 2 p) MSE ln ( SSE n ) + ( 2 p n ) ln ( SSE n ) + ( p n ) ln ( n )

Minimum Minimum Minimum

Tabel 6.2. Metode untuk Mendapatkan Model Terbaik

Metode
Backward

Penjelasan
Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant Variabel independent yang pertama kali masuk ke dalam model adalah variabel yang mempunyai korelasi tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant, setelah variabel tertentu masuk ke dalam model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Metode ini tersedia di dalam program paket MINITAB. Metode ini menyajikan k buah model terbaik untuk model dengan 1,2,,p variabel independent.

Forward

StepSwise

Best subset regression

88

BAB 6. ANALISIS REGRESI

Kegiatan Praktikum
Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan pendapatan perkapita (gdp_cap), persentase penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt), rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : a) Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara [klik analyze+regression+linear]

atau melalui syntax berikut ini:


REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt.

dan hasilnya adalah:

89

BAB 6. ANALISIS REGRESI

ANOVA Model 1 Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459 df 1 72 73 2 71 73 3 70 73 4 69 73 Mean Square 7229.894 32.466 4103.154 19.171 2968.915 9.439 2254.447 7.966 F 222.690 Sig. .000

Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total

214.028

.000

314.544

.000

282.999

.000

Model Summary Model 1 2 3 4 R R Square .869a .756 .926b .858 .965c .931 d .971 .943 Adjusted R Square .752 .854 .928 .939 Std. Error of the Estimate 5.698 4.378 3.072 2.822

a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake

90

BAB 6. ANALISIS REGRESI

a Coefficients

Model 1 (Constant) People who read (% 2 (Constant) People who read (% Death rate per 1000 people 3 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita 4 (Constant) People who read (% Death rate per 1000 people Gross domestic product / capita Daily calorie intake

Unstandardized Standardized Coefficients Coefficients B Std. Error Beta 36.226 2.275 .430 .029 .869 53.279 2.961 .330 .026 .667 -.966 62.740 .192 -1.211 .001 54.214 .172 -1.136 .000 .004 .135 2.350 .024 .099 .000 3.143 .023 .093 .000 .001 -.378

t 15.924 14.923 17.995 12.606 -7.137 26.699 7.890 -12.214 8.614 17.252 7.456 -12.178 5.170 3.734

Sig. .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000 .000

.389 -.474 .363

.347 -.444 .252 .186

a. Dependent Variable: Average female life expectancy

Sehingga model terbaiknya adalah :


lifeexp = 54, 214 + 0,172 ( literacy ) 1,136 ( death_rt ) + 0 , 000 ( gdp_cap ) + 0 , 004 ( calorie )

dengan R2= 0.943 b) Dengan menggunakan best subset regression :[klik stat+regression+best subset]

sehingga diperoleh hasil sebagai berikut: 91

BAB 6. ANALISIS REGRESI

Response is LIFEEXPF L I T E R A C Y X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X G D P _ C A P C A L O R I E S D E A T H _ R T

Vars R-Sq R-Sq(adj) 1 1 1 2 2 2 3 3 3 4 4 4 5 75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4 75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0

C-p 225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0

S 5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112

U R B A N

Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise

6.2.3. Asumsi dalam Analisis Regresi


Model linear yang menggambarkan hubungan antara variabel independent dan variabel dependent adalah :

y = 0 + 1 x1 + 2 x2 + L + p x p +
Asumsi yang diperlukan untuk model ini adalah: a. ~ N ( 0, 2 )

b. var ( i ) = 2 untuk semua i c. cov ( i , j ) = 0 untuk ij d. Antar variabel independen saling bebas

92

BAB 6. ANALISIS REGRESI

Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan langkahlangkah pada Tabel 6.3. berikut ini: Tabel 6.3. Penyimpangan Asumsi pada Model Regresi dan Cara Mengatasinya
No. Masalah Deteksi Penyelesaian

Residual tidak Berdistribusi normal

Normal probability plot Uji kenormalan, misalnya uji KS


Plot e dengan y Uji Glesjer, White Uji Golfeld-Quandt Plot e dengan y Uji Durbin Watson ACF plot

Tranformasi variabel Regresi bootstrap


Transformasi variabel Weighted Least Squares

Hetroscedastivity
var ( i ) 2

Autocorrelation
cov ( i , j ) 0

Regresi beda, Regresi ratio, Memasukkan trend, Cochrane Orcutt, Hildreth-Lu, Durbin, Prais-Winsten

untuk ij

Multicollinearity

r ( X i , X j ) tinggi,

stepwise Principal component reg. Ridge regression

VIF > 10, X ' X 0 R2 tinggi tetapi tidak ada yang significant

6.2.3.1. Heteroscedastisitas dan Normalitas

Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau :

var( i ) = i2 = 2 i Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual , jika scatter plot membentuk gambar seperti yang sudah dibakukan dengan nilai y pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika

93

BAB 6. ANALISIS REGRESI

membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.

(a)

(b)

Gambar 6.1. Plot Untuk Uji Homogenitas Varians Selain dengan menggunakan scatter-plot seperti di atas, keberadaan
hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara

meregresikan kuadrad atau harga mutlak residual dengan variabel independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau: Jika e = k.x1 . maka dilakukan transformasi sebagai berikut :
x x x y 1 = 0 + 1 1 + 2 2 + 3 3 + ... x1 x1 x1 x1 x1

atau
* * * y * = 1 + 0 x1 + 2 x2 + 3 x3 + ...

Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh:
* * * y * = b1 + b0 x1 + b2 x 2 + b3 x3 + ...

Kemudian model ini dikembalikan ke variabel asal dengan menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh : y = b1 + b0 x1 + b2 x 2 + b3 x3 + ...

94

BAB 6. ANALISIS REGRESI

Secara umum masalah heterocedasticity dapat diatasi dengan mengguna-kan metode weighted least-squares yaitu:

= ( X'-1 X )1 X-1y
dengan adalah matriks diagonal dengan unsur diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel

independent,

jika

korelasi

ini

significant

maka

cenderung

terjadi

kasus

hetroscedasticity.
Koefisien korelasi Spearman dihitung dengan cara :
r = 1 6 D 2 n(n 2 1)

dengan D adalah selisih rank antar dua variabel.


Kegiatan Praktikum :

Dengan menggunakan uji Glejser, periksalah adanya kasus heteroscedasticity untuk data berikut:

Year 1 2 3 4 5 6 7 8 9 10 11

Saving 264 105 90 131 122 107 406 503 431 588 898

Income 8777 9210 9954 10508 10979 11912 12747 13499 14269 15522 16730

Year 12 13 14 15 16 17 18 19 20 21 22

Saving 950 779 819 1222 1702 1578 1654 1400 1829 2200 2017

Income 17663 18575 19635 21163 22880 24127 25604 26500 27670 28300 27430

Year 23 24 25 26 27 28 29 30 31

Saving 2105 1600 2250 2420 2570 1720 1900 2100 2300

Income 29560 28150 32100 32500 35250 33500 36000 36200 38200

Penyelesaian :

Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara:

95

BAB 6. ANALISIS REGRESI

MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12.

dan hasilnya adalah:

The regression equation is saving = - 648 + 0.0847 income Predictor Constant income S = 247.6 Coef -648.1 0.084665 SE Coef 118.2 0.004882 T -5.49 17.34 P 0.000 0.000

R-Sq = 91.2%

R-Sq(adj) = 90.9%

Untuk melakukan uji Glejser, dilakukan perintah :


MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income S = 100.0 Coef -7.69 0.009346 SE Coef 47.73 0.001972 T -0.16 4.74 P 0.873 0.000

R-Sq = 43.6%

R-Sq(adj) = 41.7%

Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak

residual

dengan

variabel

income

sehingga

terjadi

kasus

heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model :

( saving
dengan cara :
MTB MTB MTB MTB > > > >

income ) = 0 + 1 (1 income ) +

Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan

let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*';

96

BAB 6. ANALISIS REGRESI

SUBC> resid c21.

dan hasilnya adalah:


The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051 Coef 0.088139 -722.50 SE Coef 0.004372 72.36 T 20.16 -9.98 P 0.000 0.000

R-Sq = 77.5%

R-Sq(adj) = 76.7%

Pengujian adanya heteroscedasticity dengan uji Glejser


MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income'

Hasil pengujian Glejser


The regression equation is absres = 0.00793 +0.000000 income Predictor Constant income Coef 0.007931 0.00000003 SE Coef 0.002608 0.00000011 T 3.04 0.31 P 0.005 0.760

S = 0.005465

R-Sq = 0.3%

R-Sq(adj) = 0.0%

Nilai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak

residual dengan income atau varians residual cenderung sudah homogen.


Sedangkan asumsi kenormalan residual dapat diuji dengan cara :
MTB > %NormPlot C21; SUBC> Kstest.

Hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :

97

BAB 6. ANALISIS REGRESI

Gambar 6.2. Hasil Uji Kenormalan Data Hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal. Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah:
y* = 0.0881 723 x*

atau

( saving

income ) = 0 , 0881 723 (1 income )

Ruas kiri dan kanan digandakan dengan income maka diperoleh :

saving = 723 + 0, 0881 income

6.2.3.2. Autokorelasi

Autocorrelation berarti ada hubungan antar residual atau residual bersifat tidak
saling independent, kasus ini sering dijumpai pada data time series. Autocorrelation dapat dideteksi dengan metode-metode berikut ini: a) Statistik uji Durbin-Watson :

d=

(e
i =2

i n

ei 1 ) 2
2 i

e
i =1

98

BAB 6. ANALISIS REGRESI

b) ACF plot, ada nilai r ( et ,et k ) melampaui batas 0 2 saling independent c) Statistik uji Ljung-Box Q = n(n + 2)
j =1 k

maka residual tidak

r j2 n j

2 Tolak Ho atau residual saling independent jika Q > ;k .

pelanggaran asumsi model regresi, yaitu residual yang saling dependent dapat diatasi dengan: a. Regresi beda y t y t 1 = 0 + 1 ( xt xt 1 ) + t b. Regresi Nisbah

yt x = 0 + 1 t + t y t 1 xt 1
yt .yt 1 = 0 + 1( xt xt 1 ) + t

Kegiatan Praktikum
tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 export 102 105 105 105 104 104 106 106 105 106 gdp 255 261 261 260 257 257 261 260 257 259 tahun 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 export 106 106 106 106 108 108 109 110 113 113 gdp 259 258 257 257 261 261 262 264 271 271 tahun 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 export 112 114 113 112 114 113 117 117 117 117 gdp 268 271 269 266 270 267 276 276 276 275

Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.

Penyelesaian

a. Penentuan model regresi dan pemeriksaan asumsi independent residual

99

BAB 6. ANALISIS REGRESI

MTB > regr gdp 1 export; SUBC > resid c5. The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549 Coef 110.354 1.40664 SE Coef 6.839 0.06251 T 16.14 22.50 P 0.000 0.000

R-Sq = 94.8%

R-Sq(adj) = 94.6%

MTB > %acf c5

Gambar 6.3. Plot Autokorelasi (ACF) Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent. b. Mengatasi autocorrelation dengan regresi beda
MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9.

100

BAB 6. ANALISIS REGRESI

The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Coef SE Coef T Constant -0.48789 0.09875 -4.94 dif_xprt 2.27658 0.06924 32.88 S = 0.4956 R-Sq = 97.6%

P 0.000 0.000

R-Sq(adj) = 97.5%

MTB > %acf c9

Gambar 6.4. Plot Autokorelasi (ACF)

residual sudah saling independent, sehingga model regresinya adalah:


( gdpt gdpt 1 ) = 0.488 + 2.28(exp ort t exp ort t 1 ) c. Mengatasi autocorrelation dengan regresi nisbah
MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13. The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Coef SE Coef T Constant 0.05627 0.02957 1.90 C11 0.94186 0.02942 32.01 S = 0.001930 R-Sq = 97.4%

P 0.068 0.000

R-Sq(adj) = 97.3%

101

BAB 6. ANALISIS REGRESI

MTB > %acf c13

Gambar 6.5. Plot Autokorelasi (ACF)

residual sudah saling independent, sehingga model regresinya adalah


gdpt exp ort t = 0.0563 + 0.942 gdpt 1 exp ort t 1

6.2.3.3. Multikolinearitas

Multicollinearity adalah Adanya hubungan linear antar variabel independent. Multicollinearity dapat dideteksi dengan cara berikut:
a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c. X ' X 0 d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda

Multicollinearity dapat diatasi dengan metode berikut ini:


a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise. b. Ridge Regression. Penaksiran koefisien parameter model regresi pada ridge

regression adalah

102

BAB 6. ANALISIS REGRESI

= ( X'X + k I )1 X'y , untuk 0 < k < 1 .


c. Principal Component Regression (PCR). Langkah-langkah dari metode PCR adalah sebagai berikut:

Melakukan pembakuan (pen-stadar-an) data : z =

xx s

Membangkitkan variabel baru yang saling independent


w1 = a11 x1 + a12 x2 + L + a1 p x p w2 = a21 x1 + a22 x2 + L + a2 p x p wp = a p x1 + a p 2 x2 + L + a pp x p
atau

w i = ai x , dengan ai adalah eigen-vector dari eigen-value ke-i yang dihitung


dari matriks korelasi antar variabel independent

Melakukan regresi y dengan w dan mensubstitusi mundur ke dalam model asal,


yaitu model y dengan x.

6.3. KEGIATAN PRAKTIKUM

1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin 2. Jika ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi

multicollinearity
Penyelesaian

a. Memilih data dari region Amerika Latin klik [ data+select cases+if ]

103

BAB 6. ANALISIS REGRESI

b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent, klik [analyze+correlate+bivariate]

Correlations Gross domestic product / capita .550** 1 .285 .617** .581** People living in cities (%) .500* .285 1 .578** .542* Males who read (%) .756** .581** .542* .956** 1

Average female life expectancy Average female life expectancy Gross domestic product / it living in cities (%) People Females who read (%) Males who read (%) 1 .550** .500* .833** .756**

Females who read (%) .833** .617** .578** 1 .956**

**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).

104

BAB 6. ANALISIS REGRESI

Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus multicollinearity dengan VIF klik [analyze+regression+linear]

kemudian klik [statistics]

105

BAB 6. ANALISIS REGRESI

Coefficientsa Unstandardized Coefficients B Std. Error 45.921 8.483 .000 .011 -.273 .594 .001 .068 .274 .238 Collinearity Statistics VIF 1.640 1.525 11.573 13.289

(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)

t 5.413 .320 .159 -.997 2.498

Sig. .000 .753 .875 .334 .024

a. Dependent Variable: Average female life expectancy

Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk

males who read negatif sedangkan koefisien korelasinya positif sehingga memang
ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik [analyze + regression

+ linear + method stepwise]


Coefficientsa Unstandardized Coefficients B Std. Error 39.013 5.077 .406 .062 Collinearity Statistics VIF 1.000

Model 1

(Constant) Females who read (%)

t 7.684 6.557

Sig. .000 .000

a. Dependent Variable: Average female life expectancy

e. Mengatasi multicollinearity dengan ridge regression : klik [file + new + syntax]

106

BAB 6. ANALISIS REGRESI

klik [Run +All]


R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K ______ .00000 .05000 .10000 .15000 .20000 .25000 .30000 .35000 .40000 .45000 .50000 .55000 .60000 .65000 .70000 .75000 .80000 .85000 .90000 .95000 1.0000 RSQ ______ .71418 .69610 .68316 .67496 .66894 .66400 .65966 .65564 .65182 .64811 .64445 .64083 .63722 .63360 .62999 .62637 .62273 .61909 .61544 .61179 .60813 GDP_CAP ________ .054792 .094060 .108722 .116972 .122256 .125810 .128228 .129847 .130880 .131470 .131719 .131700 .131470 .131071 .130537 .129895 .129165 .128365 .127509 .126608 .125671 URBAN ________ .026292 .064195 .079079 .087904 .093883 .098171 .101326 .103668 .105402 .106666 .107560 .108158 .108517 .108681 .108683 .108551 .108309 .107975 .107564 .107088 .106558 LIT_FEMA ________ 1.216924 .727695 .576309 .499551 .451628 .418018 .392635 .372467 .355839 .341745 .329540 .318790 .309190 .300520 .292617 .285355 .278639 .272392 .266551 .261068 .255901 LIT_MALE ________ -.453266 -.027707 .089996 .141542 .168551 .183994 .193180 .198665 .201821 .203441 .204016 .203861 .203186 .202137 .200817 .199298 .197636 .195871 .194033 .192146 .190227

Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut:

107

BAB 6. ANALISIS REGRESI

Gambar 6.6. Iterasi pada Regresi Ridge f. Mengatasi multicollinearity dengan principal component regression 1. Menentukan skor komponen (w1, w2,)
MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54.

Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative Variable GDP_CAP URBAN LIT_MALE LIT_FEMA 2.8278 0.707 0.707 PC1 -0.435 -0.414 -0.560 -0.571 0.7163 0.179 0.886 PC2 0.655 -0.755 0.028 0.022 0.4141 0.104 0.990 PC3 -0.616 -0.506 0.478 0.368 0.0419 0.010 1.000 PC4 0.049 0.046 0.676 -0.734

2. Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1
MTB > regr 'lifeexpf' 1 'w1'

The regression equation is LIFEEXPF = 71.8 - 3.51 w1


Predictor Constant w1 Coef 71.7619 -3.5140 SE Coef 0.9930 0.6051 T 72.26 -5.81 P 0.000 0.000

108

BAB 6. ANALISIS REGRESI

3. Menyatakan model regresi ke dalam variabel asal

y = 71,8 3,51 w1 y = 71,8 3,51 ( 0.435 z1 0.414 z2 0.560 z3 0.571 z4 )


y = 71,8 + 1,53 z1 + 1, 45 z2 + 1,97 z3 + 2, 00 z4 x x3 x x x x2 x x4 y = 71.8 + 1.53 1 1 + 1.45 2 +2 4 + 1.97 3 s x1 s x2 s x3 s x4

109

Anda mungkin juga menyukai