Regresi
Diketahui satu set data mengenai hasil pertanian dan 7 ukuran sumber daya untuk 22 negara
sekitar tahun 1950 (Agricultural Output and 7 Measures of Resource Use for 22 Countries circa
1950) di dapat dari http://www.stat.ufl.edu/~winner/data/worldagprod.dat. Berdasarkan data
tersebut ingin diketahui model terbaik, hubungan antar variable, dan pengaruh antara Net
Agricultural Output terhadap 7 variabel lainnya yang dijelaskan sebagai berikut :
Country
nao
paa
ale
crp
pl
ws
fc
nta
U.S.
17346
8851 468033
0.02
77474
825 3952.1 3550000
Canada
1935
1272 91266
0.02
7655
1796
192.1 367828
U.K.
2102
1221 18960
0.02
9604
625
765.9 308540
Norway
290
495
2018
0.02
1251
198
99.6
9506
France
3137
7490 52796
0.02
26070
2613
870.8 122624
W. Germany
1790
4247 21399
0.02
10202
1628 1283.6 109776
Argentina
1373
1570 79789
0.02
32294
772
13.9
25000
Denmark
614
540
6656
0.02
2903
532
198.6
12257
Netherlands
610
746
2760
0.02
2122
276
368.5
15950
South Africa
438
2651 25071
0.05
13690
158
90
39500
Ireland
388
594
3877
0.02
3661
526
60
9480
Poland
2769
7035 41755
0.02
6467
2541
158.4
14500
Chile
185
732 14688
0.02
2699
613
35.4
6000
Puerto Rico
160
246
1023
0.05
336
60
65.4
2150
Japan
2346
18623 14852
0.02
1094
1989
628.6
1810
Italy
3348
9127 38337
0.02
8700
1932
346.3
50590
Mexico
604
3803 29640
0.02
12906
6583
13.8
32000
Greece
411
1507
8255
0.02
1645
793
38.1
2869
Turkey
1199
5724 37552
0.01
12664
3915
6.3
3959
Egypt
885
7558
6039
0.01
4416
2406
97.5
5400
Peru
286
1777
4718
0.02
4440
1141
47.7
2400
India
9297
90523 336266
0.05
83328 75373
64.3
7500
Jawab :
Fstatistic=142.6
=0.05 , maka
pvalue<
sehingga
ditolak yang artinya bahwa terdapat hubungan secara simultan antara variabel respon (Net
Agricultural
Output)
dengan
Multiple RSquared=0.9862
(enam)
variabel
eksplanatori
nya.
Nilai
pada tahun 1950 dapat dijelaskan oleh 6 variabel lainnya secara simultan sebesar 98.62%,
sedangkan sisanya dijelaskan oleh variabel lain di luar model yang tidak diteliti.
Uji Signifikansi Model Secara Parsial
> model1=lm(nao~paa)
> summary(model1)
Call:
lm(formula = nao ~ paa)
Residuals:
Min
1Q Median
3Q
Max
-1448.3 -1325.5 -1026.0 141.2 14923.1
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.561e+03 8.162e+02 1.913 0.0702 .
paa
9.734e-02 4.046e-02 2.406 0.0259 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3513 on 20 degrees of freedom
Multiple R-squared: 0.2244,
Adjusted R-squared: 0.1856
F-statistic: 5.787 on 1 and 20 DF, p-value: 0.02594
=0.05 , maka
pvalue<
sehingga
H0
ditolak yang artinya terdapat hubungan antara variabel respon (Net Agricultural Output) dengan
Multiple RSquared=0.2244
menunjukkan bahwa besarnya hasil pertanian selama pada tahun 1950 dapat dijelaskan melalui
populasi pertanian yang aktif sebesar 22.44%, sedangkan sisanya dijelaskan oleh variabel lain di
luar model yang tidak diteliti.
> model2=lm(nao~ale)
> summary(model2)
Call:
lm(formula = nao ~ ale)
Residuals:
Min
1Q Median
3Q
Max
-2044.9 -637.1 -169.2 920.1 1721.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.124e+02 2.571e+02 1.604 0.124
ale
3.250e-02 2.018e-03 16.110 6.41e-13 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1067 on 20 degrees of freedom
Multiple R-squared: 0.9284,
Adjusted R-squared: 0.9249
F-statistic: 259.5 on 1 and 20 DF, p-value: 6.408e-13
=0.05 , maka
pvalue<
sehingga
ditolak yang artinya terdapat hubungan antara variabel respon (Net Agricultural Output)
Multiple RSquared=0.9284
menunjukkan bahwa besarnya hasil pertanian selama pada tahun 1950 dapat dijelaskan melalui
lahan yang tersedia sebesar 92.84%, sedangkan sisanya dijelaskan oleh variabel lain di luar
model yang tidak diteliti.
> model3=lm(nao~crp)
> summary(model3)
Fstatistic=0.2994
=0.05 , maka
pvalue>
sehingga
diterima yang artinya tidak terdapat hubungan antara variabel respon (Net Agricultural
. Nilai
tahun 1950 hanya dapat dijelaskan melalui rasio lahan yang digarap sebesar 0.14%, sedangkan
sisanya dijelaskan oleh variabel lain di luar model yang tidak diteliti.
> model4=lm(nao~pl)
> summary(model4)
Call:
lm(formula = nao ~ pl)
Residuals:
Min
1Q Median
3Q
Max
-3597.7 -740.5 19.7 449.7 5584.7
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 116.91330 492.93587 0.237 0.815
pl
0.15030 0.01849 8.128 9.11e-08 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1923 on 20 degrees of freedom
Fstatistic=66.07
=0.05 , maka
pvalue<
sehingga
ditolak yang artinya terdapat hubungan antara variabel respon (Net Agricultural Output)
Multiple RSquared=0.7676
menunjukkan bahwa besarnya hasil pertanian selama pada tahun 1950 dapat dijelaskan melalui
ternak yang produktif sebesar 76.76%, sedangkan sisanya dijelaskan oleh variabel lain di luar
model yang tidak diteliti.
> model5=lm(nao~ws)
> summary(model5)
Call:
lm(formula = nao ~ ws)
Residuals:
Min
1Q Median
3Q
Max
-1903.5 -1532.3 -1132.4 154.3 15398.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.867e+03 8.191e+02 2.279 0.0338 *
ws
9.733e-02 5.055e-02 1.926 0.0685 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3664 on 20 degrees of freedom
Multiple R-squared: 0.1564,
Adjusted R-squared: 0.1142
F-statistic: 3.708 on 1 and 20 DF, p-value: 0.0685
=0.05 , maka
pvalue>
sehingga
H0
diterima yang artinya tidak terdapat hubungan antara variabel respon (Net Agricultural Output)
dengan variabel eksplanatori Work Stock. Nilai
Multiple RSquared=0.1564
menunjukkan
bahwa besarnya hasil pertanian selama pada tahun 1950 hanya dapat dijelaskan melalui lapangan
pekerjaan sebesar 15.64%, sedangkan sisanya dijelaskan oleh variabel lain di luar model yang
tidak diteliti.
> model6=lm(nao~fc)
> summary(model6)
Call:
lm(formula = nao ~ fc)
Residuals:
Min
1Q Median
3Q
Max
-3769.1 -822.1 -602.1 467.0 8318.6
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 736.8172 537.8327 1.370 0.186
fc
3.7569
0.5726 6.561 2.16e-06 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
H0
=0.05 , maka
pvalue<
sehingga
ditolak yang artinya terdapat hubungan antara variabel respon (Net Agricultural Output)
Multiple RSquared=0.6828
H0
dengan
=0.05 , maka
pvalue<
sehingga
ditolak yang artinya terdapat hubungan antara variabel respon (Net Agricultural Output)
variabel
eksplanatori
Multiple RSquared=0.7414
Number
of
Tractors
in
Agriculture.
Nilai
tahun 1950 dapat dijelaskan melalui jumlah traktor sebesar 74.14%, sedangkan sisanya
dijelaskan oleh variabel lain di luar model yang tidak diteliti.
Uji Asumsi Klasik
Kriteria Uji:
Tolak
H0
jika nilai
pvalue=0.01125 , maka
sehingga
H0
residual tidak berdistribusi normal yang menyebabkan adanya pelanggaran dalam asumsi klasik.
2. Uji Heteroskedastiditas
Model regresi linier multiple dikatakan model yang baik apabila residual dari model
memiliki varians yang konstan atau bersifat homoskedastisitas. Dalam analisis ini digunakan
pengujian Breusch-Pagan/Godfrey untuk melihat apakah data residual memenuhi asumsi
homoskedastisitas.
Hipotesis Uji:
H 0 : 1=0 {Data residual bersifat homoskedastisitas}
H 0 : 1 0
:0.05
> library(lmtest)
> bptest(model)
studentized Breusch-Pagan test
data: model
BP = 9.2937, df = 7, p-value = 0.2323
Kriteria Uji:
Tolak
H0
jika nilai
sehingga
H0
> library(car)
> vif(model)
paa
ale
crp
pl
ws
fc
nta
35.328508 101.142385 1.357983 23.926065 38.121942 14.520766 69.921485
Berdasarkan hasil output diperoleh bahwa hanya ada satu variabel prediktor mempunyai
nilai VIF< 10 sehingga model dapat diasumsikan terdapat multikolinearitas.
4. Uji Autokorelasi
Model regresi linier multiple dikatakan model yang baik apabila residual dari model tidak
memiliki autokorelasi terhadap data itu sendiri. Dalam analisis ini digunakan pengujian DurbinWatson untuk meguji ada tidaknya autokorelasi pada data residual.
Hipotesis Uji:
H 0 : =0
Kriteria Uji:
Tolak
H0
jika nilai
pvalue=0.9152 , maka
pvalue>
sehingga
H0
diperoleh nilai
Berdasarkan hasil output tersebut di atas maka dapat disimpulkan bahwa data tersebut
terdapat pelanggaran asumsi yaitu data tidak berdistribusi normal dan terdapat multikoliniearitas.
Pada pengujian selanjutnya akan digunakan metode PCR (Principal Component Regression)
untuk menanggulangi terjadinya multikolinearitas. Adapun jika menggunakan metode PCR
(Principal Component Regression) maka jika data tidak tidak berdistribusi normal maka akan
diabaikan sehingga tidak perlu dilakukan penanggulangan data tidak berdistribusi normal.
Berikut perhitungan dengan menggunakan metode PCR dengan menggunakan R :
local({
.PC <- princomp(~ale+crp+fc+nta+paa+pl+ws, cor=TRUE, data=Dataset)
cat("\nComponent loadings:\n")
print(unclass(loadings(.PC)))
cat("\nComponent variances:\n")
print(.PC$sd^2)
cat("\n")
print(summary(.PC))
Dataset <<- within(Dataset, {
PC2 <- .PC$scores[,2]
PC1 <- .PC$scores[,1]
})
})
Component loadings:
Comp.1
Comp.2
Comp.3
Comp.4
Comp.5
Comp.6
Variabel prediktor yang dilibatkan ada 7 variabel dimana seluruh variabel terlebih dahulu
di transformasi ke dalam bentuk z score, sehingga akan ada 7 komponen yang diusulkan seperti
pada hasil output yang diperoleh. Kemampuan setiap komponen mewakili variabel-variabel yang
dianalisis ditunjukkan oleh besarnya varians yang dijelaskan, yang disebut dengan eigenvalue.
Eigenvalues menunjukkan kepentingan relatif masing-masing komponen dalam menghitung
varians ketiga variabel yang dianalisis. Dari output diatas, komponen utama yang mempunyai
nilai eigen > 1 dapat dilibatkan dalam analisis regresi komponen utama (Draper & Smith, 1992)
dan dapat menjelaskan keragaman cukup tinggi (80%-90%) (Johnson & Wichern, 1996, hal.
359), maka dalam kasus ini terdapat dua komponen utama. Komponen 1 memiliki eigenvalue
sebesar 3.827985393 dan Komponen 2 yang memiliki eigenvalue sebesar 2.310681253, artinya
Komponen 1 terdiri dari variabel-variabel yang telah distandarkan X1, X2,,X7 dan
Komponen 2 terdiri dari X1, X2, X3, X4, X5, X7. Dengan nilai-nilai komponen utama nya untuk
masing-masing komponen yang terbentuk adalah sebagai berikut.
comp
1
5.848
19
0.302
071
0.419
635
1.083
6
0.224
52
0.211
195
0.038
148
0.980
comp
2
5.027
87
0.343
37
0.589
49
0.001
7
0.378
26
0.672
13
0.023
52
-
0.057
64
0.158
69
0.986
733
0.030
69
0.121
09
0.039
848
1.002
854
0.123
807
0.017
929
0.254
999
0.070
755
0.095
87
0.113
5
0.085
257
4.728
074
Dengan demikian, model regresi komponen utama yang dibangun untuk kasus ini adalah:
Z^ y =0. 1779 K 1
dimana,
Adjusted R2
0.9676
Standard Error
700.3
Dari tabel tersebut dapat dilihat nilai Adjusted R2 sebesar 0.9676 yang artinya sebesar
^
96.76% variasi Z y
K1
Fstatistic=315
H0
ditolak. Nilai
pvalue
=0.05 , maka
pvalue<
pvalue
sehingga
pada model
secara serentak atau simultan antara variabel respon dengan dua komponen utama yang
terbentuk.
Uji Parameter Parsial (Uji Signifikansi t)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
Dari hasil output diperoleh nilai t-value semua komponen signifikan sehingga model
regresi komponen utama yang terbentuk melibatkan seluruh komponen.
Kriteria Uji:
Tolak
jika nilai
pvalue=0.001145
maka
pvalue<
sehingga
H0
residual tidak berdistribusi normal yang menyebabkan adanya pelanggaran dalam asumsi klasik.
Hal ini dapat diabaikan dikarenakan model regresi komponen utama tidak mengutamakan
adanya asumsi residual berdistribusi normal.
Uji Heteroskedastisitas
Hipotesis Uji:
H 0 : 1=0 {Data residual bersifat homoskedastisitas}
H 0 : 1 0
:0.05
Kriteria Uji:
Tolak
jika nilai
pvalue>
H0
sehingga
bersifat homoskedastisitas.
Uji Autokorelasi
Hipotesis Uji:
H 0 : =0
Kriteria Uji:
Tolak
H0
jika nilai
pvalue=0.2 88 , maka
tidak mempunyai autokorelasi.
Uji Multikolinearitas
> vif(RegModel)
Comp1 Comp2
1
1
pvalue>
sehingga
H0
VIF< 10
Kesimpulan
Dimana model ini signifikan secara overall namun secara partial, parameter untuk tiap
variabel tidak signifikan terhadap model kecuali variable x3, hal ini mengindikasikan
terjadinya multikolinearitas pada variabel prediktor yang dibuktikan dengan nilai Variance
Inflation Factor (VIF) yang lebih dari sepuluh. Penanggulan model yang terindikasi terdapat
multikolinearitas dapat menggunakan Principal Component Regression.
Model
regresi
komponen
utama
yang
terbentuk
untuk
menanggulangi
masalah
multikolinearitas yaitu:
Z^ y =0.1779 K 1
dimana,
K 1=0.4932735 Zx 1 0.1989549 Zx 20.3059733 Zx 30.3307085 Zx 40.3757870 Zx 50.0 .4860368
Model ini masih dalam bentuk taksiran yang distandarkan, sehingga untuk mendapatkan
model taksiran yang sesungguhnya diperlukan transformasi kembali dari bentuk data yang
distandarkan menjadi data awal.
^
di kembalikan ke dalam bentuk Y
X 1 X 1
X 2 X 2
X 7 X 7
Y^ =0.087
+ 0.4841
+ +0.0633
regresi
komponen
utama
yang
dihasilkan
adalah
metode
ini
merupakan
model
useful
untuk
menanggulangi
permasalahan
multikolinearitas tanpa perlu membuang variabel bebas yang berkolinear tinggi. Hal ini
dibuktikan dengan hasil pengujian multikolinearitas dimana nilai VIF menjadi kurang dari
sepuluh. Dengan metode Principal Component Analysis sebagai metode untuk mereduksi
variabel prediktor, dapat diperoleh variabel prediktor baru yang tidak berkorelasi, bebas satu
sama lainnya, lebih sedikit jumlahnya daripada variabel asli, akan tetapi dapat menyerap
sebagian besar informasi yang terkandung dalam variabel asli atau yang bias memberikan
kontribusi tergadap varian seluruh variabel. Variabel prediktor baru inilah yang digunakan untuk
menentukan model pengaruh dari variabel respon dan variabel prediktor dengan menggunakan
analisis regresi linear.