Anda di halaman 1dari 10

1.

Teori Regresi Best Subset


Regresi best subset berfungsi mengidentifikasi model-model yang mempunyai R2
tertinggi dari kombinasi variabel prediktor yang dihasilkan. Regresi best subset adalah suatu
metode yang efisien dalam menghasilkan model yang mempunyai akurasi tinggi dengan
sesedikit mungkin variabel prediktor.
2

( y i^y i )
SS Error
R =1
=1
2
SS Total
( y y )
2

Keterangan:
yi
= nilai observasi respons ke-i
y

= mean respons

^y i

= nilai taksiran ke-i

Adjusted R2, berguna dalam membandingkan model dengan jumlah predictor yang berbeda.
Rumus untuk menghitung adjusted R2 adalah:
MS Error
R =1
=1
MS Total
2
adj

( y i ^y i )2
2
( y i y )

() nn1p1 )

Keterangan:
yi
= nilai observasi respons ke-i
y

= mean respons

^y i

= nilai taksiran ke-i

n = banyak observasi
p = banyak prediktor masing-masing model
Cp Mallows adalah ukuran kebaikan prediksi. Suatu variabel yang nilai Cp Mallowsnya
kecil dan semakin mendekati p maka model tersebut semakin baik. Rumus untuk
memperoleh Cp Mallows adalah:
Cp=

SSEp
(n2 p)
MSEm

Keterangan:
SSEp adalah SSE tiap-tiap model yang diperoleh
MSEm adalah MSE model dengan semua variabel prediktor dimasukkan
n adalah banyaknya observasi
p adalah banyaknya term di dalam model termasuk konstanta.
1

2. Contoh Kasus:
Data diambil dari buku Applied Linear Statistical Models oleh Neter et al.(1996).
Data ini dikumpulkan bertujuan untuk mempelajari hubungan antara banyaknya lemak pada
tubuh (Y) dengan beberapa variabel penjelas yang mungkin berpengaruh, berdasarkan sampel
20 wanita sehat berusia 25-34 tahun. Variabel-variabel tersebut antara lain ketebalan lipatan
kulit trisep (X1), ukuran lingkar paha (X2), dan lingkar lengan (X3).

Tabel 1. Data

x1

x2

19.5
24.7
30.7
29.8
19.1
25.6
31.4
27.9
22.1
25.5
31.1
30.4
18.7
19.7
14.6
29.5
27.7
30.2
22.7
25.2

43.1
49.8
51.9
54.3
42.2
53.9
58.5
52.1
49.9
53.5
56.6
56.7
46.5
44.2
42.7
54.4
55.3
58.6
48.2
51

x3
29.1
28.2
37
31.1
30.9
23.7
27.6
30.6
23.2
24.8
30
28.3
23
28.6
21.3
30.1
25.7
24.6
27.1
27.5

y
11.9
22.8
18.7
20.1
12.9
21.7
27.1
25.4
21.3
19.3
25.4
27.2
11.7
17.8
12.8
23.9
22.6
25.4
14.8
21.1

Keterangan:
X1
: Ketebalan Lipatan Kulit Trisep
X2
: Lingkar Paha
X3
: Lingkar Lengan
Y
: Lemak Tubuh
3. Penyelesaian Kasus dengan software MINITAB

Langkah pertama kali yang dilakukan adalah meregresikan antara variabel respon
dengan ketiga variabel prediktor. Dengan menggunakan software MINITAB maka dihasilkan
output seperti berikut ini.
Regression Analysis: y versus x1. x2. x3
The regression equation is
y = 117 + 4.33 x1 - 2.86 x2 - 2.19 x3
Predictor
Constant
x1
x2
x3

Coef
117.08
4.334
-2.857
-2.186

S = 2.47998

SE Coef
99.78
3.016
2.582
1.595

R-Sq = 80.1%

T
1.17
1.44
-1.11
-1.37

P
0.258
0.170
0.285
0.190

VIF
708.843
564.343
104.606

R-Sq(adj) = 76.4%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
3
16
19

SS
396.98
98.40
495.39

MS
132.33
6.15

F
21.52

P
0.000

Berdasarkan output regresi linier berganda maka didapatkan model : Y = 117 + 4.33
X1 2.86 X2 2.19 X3. Model tersebut dapat diartikan bahwa apabila ketebalan lipatan kulit
trisep naik sebesar 1 satuan maka lemak tubuh cenderung naik sebesar 4.33 satuan dengan
asumsi variabel lainnya adalah konstan. Sedangkan jika ukuran lingkar paha naik sebesar 1
satuan maka lemak tubuh cenderung turun sebesar 2.86 satuan dengan asumsi variabel
lainnya adalah konstan. Apabila ukuran lingkar lengan naik sebesar 1 satuan maka lemak
tubuh akan cenderung turun sebesar 2.19 satuan.
Pada persamaan regresi yang didapat terlihat bahwa lingkar paha dan lingkar lengan
memiliki hubungan negatif terhadap jumlah lemak dalam tubuh. Padahal secara logika
hubungan keduanya pasti positif. Selain itu nilai VIF pada semua variabel sangat besar yaitu
di atas 100. Secara teori apabila nilai VIF lebih dari 10 maka terindikasi adanya
multikolinieritas pada model regresi tersebut. Tanda-tanda adanya multikolinieritas pada data
di atas juga terlihat dari nilai R2 yang cukup tinggi yaitu 80,1% dan secara overall
parameternya signifikan (ditunjukkan oleh nilai p pada Regression), tetapi tidak ada satupun
variabel yang signifikan pada pengujian individu. Oleh karena itu diperlukan cara untuk
mengatasi adanya multikolinieritas ini salah satunya adalah dengan cara regresi best subset.
Berikut ini hasil regresi best subset dari data jumlah lemak tubuh dengan menggunakan
software Minitab dan SAS.
4. Best Subset Regression Dengan Minitab
Dengan menggunakan program MINITAB. langkah-langkah yang dilakukan adalah
mengklik Stat> Regression> Best subset> Minimal 1> Models of each size to print=3.
diperoleh output seperti berikut:

Best Subsets Regression: y versus x1. x2.


x3
Response is y
Vars
1
1
1
2
2
2
3

R-Sq
77.1
71.1
2.0
78.6
77.8
77.6
80.1

Mallows
Cp
2.4
7.3
62.9
3.2
3.9
4.1
4.0

R-Sq(adj)
75.8
69.5
0.0
76.1
75.2
74.9
76.4

S
2.5102
2.8198
5.1926
2.4963
2.5432
2.5565
2.4800

x x x
1 2 3
X
X
X
X
X
X X
X X
X X X

Pada regresi best subset, nilai R2 yang tinggi dan nilai cp-mallow yang mendekati
jumlah parameter merupakan model yang terbaik. Pada output regresi best subset di atas,
model regresi dengan hanya menggunakan variabel X2 yaitu ukuran lingkar paha sudah
memberikan nilai R2 yang cukup tinggi yaitu sebesar 77,1% dan nilai cp-nya mendekati
jumlah parameternya yaitu 2. Menurut prinsip parsimoni, sebaik-baiknya model adalah model
yang jumlah variabelnya sekecil mungkin dengan R2 sebesar mungkin. Sedangkan R2 ketika
menggunakan dua variabel yaitu lipatan trisep dan lingkar lengan adalah sebesar 78,6%,
hanya bertambah 1,5% dari R2 ketika hanya menggunakan satu variabel yaitu lingkar paha.
Untuk mempermudah analisis, maka dibuat plot antara p dan cp seperti pada gambar berikut.
Scatterplot of cp vs p
x1,x2,x3 (4)

4.00
3.75

cp_ 1

3.50
3.25

x1,x3 (3.2)

3.00
2.75
2.50

x2(2.4)

2.0

2.5

3.0
p

3.5

4.0

Berdasarkan plot antara p dan cp terlihat bahwa memang yang lebih dekat dengan
jumlah parameternya adalah regresi dengan menggunakan dua variabel yaitu X1 (lipatan
trisep) dan X3(lingkar lengan). Akan tetapi pemilihan model terbaik bukan hanya
berdasarkan cp yang mendekati jumlah parameter, tapi juga memperhatikan nilai R 2-nya. Jadi
yeng dipilih adalah regresi jumlah lemak tubuh dengan hanya menggunakan variabel X2
(lingkar paha). Berikut ini adalah hasil regresinya.

Regression Analysis: y versus x2


The regression equation is
Banyak lemak pada tubuh = - 23.6 + 0.857 ukuran lingkar paha
Predictor
Coef
Constant
-23.634
Ukuran lingkar paha 0.8565
S = 2.51024

R-Sq = 77.1%

SE Coef
5.657
0.1100

T
-4.18
7.79

P
0.001
0.000

VIF
1.000

R-Sq(adj) = 75.8%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
18
19

SS
381.97
113.42
495.39

MS
381.97
6.30

F
60.62

P
0.000

Berdasarkan hasil regresi yang didapat, dapat diinterpretasikan bahwa apabila ukuran
lingkar paha bertambah 1 satuan maka lemak pada tubuh akan meningkat sebanyak 0,857
satuan. Nilai VIF pada hasil regresi di atas juga sudah 1 artinya tidak ada multikolinieritas
dalam model. Nilai R2 dapat dikatakn tinggi yaitu sebesar 77,1%. Pengaruh ukuran lingkar
paha juga signifikan terhadap banyak lemak tubuh ditunjukkan oleh nilai p-value yang
kurang dari alpha 0,05.
5. Regresi Best Subset dengan software SAS
Langkah-Langkah Regresi Best Subset dengan software SAS yaitu:
1.
Pada menu bar klik icon Solution-Analysis-Analyst.
2.
Mengklik File Import Data - Memasukkan data variabel respon (y) dan prediktor
(x1,x2,x3) pada SAS dengan mengimport file yang berisi data kasus pada excel, file
disimpan pada excel 97-2003 Workbook.
3.
Dalam melakukan pengolahan data melalui pemilihan model regresi terbaik pertama
meregresikan variabel prediktor pada bagian explanatory dan variabel respon pada
dependent variabel.
4.
Selanjutnya dilanjutkan dengan mengeklik Statistics Regression Linear. Pada sub
menu model dilakukan pemilihan Mallows Cp dan pada bagian menu bar klik statisctic
dan centang Mallows Cp statistics serta Adjusted R-Sq akhiri dengan klik OK. Sehingga
dihasilkan output seperti di bawah ini, dan dilakukan analisis pembahasan berdasarkan
output yang diperoleh.
Pemilihan model regresi terbaik melalui metode best subset regression memiliki
beberapa kriteria, kriteria dalam pemilihan model tersebut terbagi menjadi empat yaitu :
1. nilai koefisien determinasi R2 tinggi
2. nilai koefisien R-Adj tinggi
3. nilai statistics Cp-Mallow mendekati nilai parameternya
4. prinsip Parsimony
Langkah pertama yang dilakukan adalah meregresikan antara variabel respon dengan
semua variabel prediktor dan berikut adalah output SAS.
5

Berdasarkan output SAS tersebut maka dapat dilihat hasil regresi linier berganda
menghasilkan model : Y=117,08 + 4,334X1 -2,856X2 -2,186X3. Apabila ketiga variabel
prediktor diuji secara overall maka dihasilkan nilai p-value yang kurang dari 0,0001 sehingga
disimpulkan bahwa terdapat minimal 1 variabel prediktor yang mempengaruhi variabel
respon. Kemudian dilakukan uji individu yang dihasilkan nilai p-value > alpha (5%) sehingga
pengujian individu menghasilkan kesimpulan bahwa semua variabel prediktor tidak ada yang
signifikan dalam model. Dengan R2 yang cukup tinggi yaitu 80,1% dan tidak ada variabel
yang signifikan maka terindikasi adanya ill conditional yaitu multikolinieritas. Oleh karena
itu dilakukan pemilihan model terbaik dengan menggunakan metode Best Subset Regression
seperti di bawah ini.
Pemilihan model yang paling sesuai melalui Best Subset Regression dipilih melalui
output di bawah ini.

Berdasarkan output di atas terlihat nilai Cp yang mendekati dengan jumlah parameter
adalah nilai Cp sebesar 2,4420 dan memiliki nilai koefisien determinasi tertinggi kedua
sebesar 77,10% merupakan model dengan satu prediktor yaitu X2. Sebenarnya nilai Cp
mallow yang mendekati nilai parameter adalah dengan Cp 3,2242 (mendekati 3) tetapi
dengan menambah satu variabel nilai R-sq hanya bertambah 1,52% maka tidak dipilih
berdasarkan pertimbangan prinsip parsimony. Setelah diperoleh bahwa variabel yang
6

digunakan dalam model adalah X2 maka selanjutnya diberikan hasil regresi antara dan lemak
tubuh dan ukuran lingkar paha.

Dengan memasukkan variabel prediktor ukuran lingkar paha ke dalam model


didapatkan bahwa nilai P-value < alpha (0,05) artinya variabel lingkar paha berpengaruh
signifikan terhadap lemak tubuh. Nilai R2 model cukup tinggi yaitu 77,10%. Terlihat pula
bahwa nilai variance inflation factor
menunjukkan angka 1, sehingga terjadi
multikolinearitas dalam model.
6. Pengujian Asumsi Residual Model Regresi Terpilih (Menggunakan Variabel
Independen Lingkar Paha)
Berikut ini adalah plot residual dari model regresi yang terpilih.
Residual Plots for banyaknya lemak pada tubuh
Versus Fits
5.0

90

2.5

Residual

Percent

Normal Probability Plot


99

50
10
1

0.0
-2.5
-5.0

-5.0

-2.5

0.0
Residual

2.5

5.0

12

16

Histogram

28

Versus Order

2.5

Residual

Frequency

24

5.0

2
1
0

20
Fitted Value

0.0
-2.5
-5.0

-4

-2

0
Residual

8 10 12 14
Observation Order

16

18

20

Berdasarkan plot residual diatas dapat dilakukan uji asumsi IIDN untuk residual
secara visual. Untuk Distribusi Normal maka dapat dilihat pada Normal Probability Plot yang
terlihat titik-titik scatternya mengikuti garis linier. Sedangkan asumsi Identik terpenuhi dapat
diuji secara visual dari Residual vs Fitted values yang menyebar secara random acak. Asumsi
Independen juga terlihat terpenuhi karena plot antara residual versus order juga acak serta
tidak membentuk suatu pola.
Setelah diperoleh model regresi terbaik menggunakan best subset, kemudian diuji
asumsi residual yang dihasilkan. yaitu asumsi identik, independen dan distribusi normal.

6.1 Asumsi Identik


Asumsi identik diuji dengan menggunakan uji glejser. Berikut ini adalah hasil output
uji glejser dengan menggunakan eviews.

Hipotesis:
H0 : Tidak ada heterokedastisitas
H1 : Ada heterekodastisitas
Hasil output menunjukkan nilai Obs*R-squared adalah sebesar 0,375 sedangkan nilai
probabilitas (chi-square) adalah 0.5402. Karena probabilitas (chi-square) > (0.05) dengan
demikian gagal tolak H0. artinya residual tidak terjadi heteroskedastisitas.
6.2 Asumsi Independen
Hipotesis:
H0 : tidak ada autokorelasi antara residual sekarang dengan periode sebelumnya (

s =0

s
H1 : ada korelasi autoantara residual sekarang dengan periode sebelumnya ( s =

Statistik uji : DW = 2.5


Untuk = 0.05 n= 20 dan k=1 maka dL = 1.2015 dan dU = 1.4107
Kesimpulan : karena DW terletak antara dU dan (4-dU), maka gagal tolak H0. Artinya tidak
terdapat autokorelasi antara residualnya.

6.3 Asumsi Distribusi Normal


Pengujian residual apakah berdistribusi normal atau tidak dilakukan dengan
menggunakan uji Kolmogorov Smirnov. Berikut ini adalah plot hasil uji Kolmogorov
Smirnov.
Probability Plot of RESIDUAL
Normal
99

Mean
StDev
N
KS
P-Value

95
90

4.796163E-15
2.443
20
0.084
>0.150

Percent

80
70
60
50
40
30
20
10
5

-5.0

-2.5

0.0
RESI1

2.5

5.0

H0 : residual berdistribusi normal


H1 : residual tidak berdistribusi normal
= 0.05
Statistik uji : P-value > 0.15
Titik kritis : Tolak H0 jika P-value <
Kesimpulan : P-value > maka gagal tolak H0. Artinya residual berdistribusi normal.
Berdasarkan pengujian di atas. asumsi normal untuk residual telah terpenuhi.

10

Anda mungkin juga menyukai