5 - Analisis Regresi Terbaik
5 - Analisis Regresi Terbaik
Agar persamaan bermanfaat bagi tujuan peramalan atau pendugaan, biasanya ingin
memasukkan sebanyak mungkin variabel bebas Xi sehingga diperoleh nilai ramalan
atau dugaan yang dapat diandalkan.
2).
Karena untuk memperoleh informasi dari sebanyak mungkin variabel bebas Xi serta
pemonitornya seringkali diperlukan biaya yang cukup tinggi, maka diperlukan agar
persamaan regresi penduganya mencakup sesedikit mungkin variabel bebas Xi yang
dimasukkan dalam persamaan.
Kompromi antara kedua ketentuan 1) dan 2) di atas yang biasanya disebut pemilihan
persamaan regresi penduga yang terbaik, maka dalam mengambil keputusan untuk hal-hal
seperti tersebut tidak ada satu prosedur statistikapun yang dapat dipakai sebagai pedoman
2
untuk hal di atas.
Kalau telah diketahui besarnya (Ragam Regresi Residual
sesungguhnya) maka untuk masalah pemilihan persamaan regresi penduga terbaik akan
jauh lebih mudah. Sayangnya, dalam kenyataan ini tidak pernah terjadi, sehingga penilaian
yang bersifat pribadi merupakan suatu hal yang tidak terelakkan dari metode-metode
analisis pemilihan regresi penduga yang terbaik.
Prosedur yang akan digunakan dalam pemilihan persamaan regresi terbaik adalah:
1).
2).
3).
3).
4).
5).
6).
semua kemungkinan regresi yang dapat dibuat (all possible regression) dengan
2
2
menggunakan tiga kriteria yaitu: R , S , dan Cp Mallow;
regresi himpunan bagian terbaik (best subset regression) dengan menggunakan
2
2
standar R , R (terkoreksi), Cp Mallow; dan eliminasi langkah mundur;
regresi bertatar (stepwise regression);
regresi gulud (ridge regression);
regresi komponen utama (principal components regression);
regresi akar ciri (latent root regression); dan
regresi bertahap (stagewise regression).
Dalam pembicaraan selanjutnya, akan dijelaskan hanya beberapa prosedur saja yang
banyak digunakan. Akan tetapi, sering membingunkan, karena metode-metode yang
apabila diterapkan pada masalah yang sama tidak selalu menghasilkan jawaban yang
sama. Hal ini jelas membingungkan.
124
Apabila penyelesaian perhitungan regresi pada data yang tidak dirancang terlebih dahulu
atau data yang diperoleh dari operasi yang sedang berjalan atau survei, dan data bukan
yang berasal dari suatu percobaan yang terancang, maka beberapa masalah yang secara
potensial akan dapat timbul. Masalah yang timbul seperti yang dibicarakan oleh G.E.P.
Box di dalam "Use and abuse of regression", Technometrics (1966). Sehingga, Residual
atau Galat Regresi dalam model mungkin tidak bersifat acak, namun merupakan pengaruh
hubungan beberapa variabel yang tidak disertakan dalam persamaan regresi atau bahkan
tidak diukur, yang sering diistilahkan dengan variabel latent atau variabel bentukan atau
variabel tersembunyi.
Kelemahan dalam adanya variabel laten yaitu:
1). Kemungkinan terjadinya bias dalam masalah dugaan koefisien regresi bi yang disebut
pengaruh palsu suatu variabel bebas X. Pengaruh palsu suatu variabel bebas X
mungkin saja disebabkan oleh variabel laten yang tidak terukur. Akan tetapi, karena
variabel laten tidak terukur, perubahan yang terjadi tidak diketahui atau dicatat.
Perubahan yang terjadi ini mungkin saja menyebabkan persamaan regresinya menjadi
tidak terandalkan.
2). Kekurangan lain pada data yang tidak dirancang dengan baik adalah bahwa seringkali
variabel peramal Xi yang paling efektif dikendalikan agar berada dalam kisaran yang
sangat sempit untuk mempertahankan respon Y agar tetap berada dalam batas-batas
spesifikasi yang dikehendaki. Kisaran yang terlalu kecil pada gilirannya akan
menyebabkan koefisien regresinya bi tidak nyata (non significant), suatu kesimpulan
yang dianggap lucu, karena pada dasarnya variabel tersebut adalah efektif. Hal Ini
mudah dipahami, sebab jika suatu variabel bebas X yang efektif tidak banyak
divariasikan, maka pengaruhnya akan kecil sekali atau bahkan tidak terlihat.
3). Masalah lain dengan data yang tidak dirancang adalah bahwa aturan
pengoperasiannya misalnya jika Xi terlalu tinggi pengaruhnya, turunkan X2 untuk
mengimbanginya sehingga sering menyebabkan korelasi yang tinggi diantara variabelvariabel peramal X tersebut. Ini membuat tidak mungkin untuk melihat apakah
perubahan dalam Y berkaitan dengan X1 atau X2 atau keduanya. Percobaan yang
dirancang secara seksama dapat menghapuskan ketidakjelasan seperti tersebut di
atas.
125
Jadi, jika p = 3, di mana p adalah jumlah variabel bebas Xi, tidak termasuk X0 maka jumlah
3
persamaan yang mungkin dapat dibuat dari p = 3 adalah sebanyak 2 = 8 seperti berikut:
1).
2).
3).
4).
=
=
=
=
b0
b0 + b1 X1
b0 + b2 X2
b0 + b3 X3
5). = b0 + b1 X1 + b2 X2
6). = b0 + b1 X1 + b3 X3
7). = b0 + b2 X2 + b3 X3
8). = b0 + b1 X1 + b2 X2 + b3 X3
Apabila jumlah variabel bebas Xi sebanyak p = 10, maka dapat dibuat jumlah persamaan
10
penduga yang cukup besar yaitu sebanyak 2 = 1024 buah persamaan yang dapat dibuat;
suatu hal yang luar biasa dan tidak mungkin ditelaah secara teoritis.
Untuk memilih persamaan penduga yang terbaik, maka seharusnya setiap persamaan
regresi penduga dievaluasi menurut kriteria tertentu; dengan kriteria yang telah disebutkan
dimuka yaitu:
1).
2).
3).
(1)
kelompok A yang terdiri atas satu persamaan regresi dengan hanya melibatkan nilai
tengah yaitu (E(Y) = o);
(2)
kelompok B yang terdiri atas empat persamaan regresi dengan satu variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi);
(3)
kelompok C yang terdiri atas enam persamaan regresi dengan dua variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj;
126
(4)
kelompok D yang terdiri atas empat persamaan regresi dengan tiga variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk; dan
(5)
kelompok E yang terdiri atas satu persamaan regresi dengan empat variabel peramal
Xi seperti persamaan (E(Y) = o + i Xi + j Xj.+ k Xk + l Xl.
[B]. Urutkan persamaan regresi dalam setiap kelompok menurut besarnya kuadrat oefisien
2
korelasi berganda atau koefisien determinasi R yang di capai.
[C]. Periksalah persamaan regresi dari urutan pertama dalam setiap kelompok dan lihatlah
apakah ada suatu pola variabel yang terurut secara konsisten dalam persamaanpersamaan tersebut.
Tabel 5.1
No,
1
2
3
4
5
6
7
8
9
10
11
12
13
Rata-rata
Data pengamatan
X1
7,000
1,000
11,000
11,000
7,000
11,000
3,000
1,000
2,000
21,000
1,000
11,000
10,000
7,462
X2
26,000
29,000
56,000
31,000
52,000
55,000
71,000
31,000
54,000
47,000
40,000
66,000
68,000
48,154
X3
6,000
15,000
8,000
8,000
6,000
9,000
17,000
22,000
18,000
4,000
23,000
9,000
8,000
11,769
X4
Y = X5
60,000
52,000
20,000
47,000
33,000
22,000
6,000
44,000
22,000
26,000
34,000
12,000
12,000
30,000
78,500
74,300
104,300
87,600
95,900
109,200
102,700
72,500
93,100
115,900
83,800
113,300
109,400
95,423
R
2
R
2
R
2
R
2
R
2
R
=
=
=
=
=
=
127
97,9
97,2
93,5
84,7
68,0
54,8
R
2
R
2
R
2
R
=
=
=
=
98,2
98,2
98,1
97,3
2
R = 98,2
Untuk contoh olahan di atas persamaan regresi yang menduduki posisi utama dalam setiap
kelompok dan terurut seperti pada Tabel 5.2 berikut.
Tabel 5.2 Variabel dalam Persamaan Regresi
Kelompok
B
C
D
E
=
=
=
=
=
f (X4)
f(X1, X2) dan
f(X1, X4)
f(X1, X2, X4)
f(X1, X2, X3, X4)
(%) R
67,5%
97,5%
97,2%
98,2%
98,2%
Dari uraian di atas terlihat bahwa dalam kelompok C yang terdiri ats dua persamaan yang
2
mempunyai nilai R yang relatif sama. Kalau disimak lebih lanjut hasil tersebut maka akan
terlihat bahwa setelah dua variabel masuk ke dalam persamaan regresi penduga, maka
2
tambahan besarnya R sangat kecil.
Pemeriksaan matriks korelasi data tersebut
memperlihatkan bahwa (X1 dan X3) serta (X2 dan X4) mempunyai korelasi yang tinggi
yaitu r13 = - 0,8241 dan r24 = - 0,9730 seperti Tabel 5.3 berikut di bawah ini.
Tabel 5.3 Matriks Koefisien Korelasi
X1
X2
X3
X4
X5
X1
1,0000
,2285
-,8241
-,2454
.7307
X2
X3
X4
X5
1,0000
-,1392
-,9730
.,8163
1,0000
,0295
-,5357
1,0000
-,6213
1,0000
128
Prosedur pemiliahan dan pemeriksaan persamaan regresi penduga yang mungkin terjadi
ternyata tidak memberikan jawaban yang tegas bagi masalah pemilihan regresi terbaik
seperti diuraikan tersebut di atas. Informasi lain seperti pengetahuan tentang ciri-ciri produk
yang diteliti dan peranan sifat fisik variabel-variabel Xi harus ditambahkan untuk dapat
mengambil keputusan yang tepat dalam pemilihan persamaan regresi penduga yang terbaik
dan yang berguna. Cara pemilihan persamaan regresi yang cepat adalah melalui seluruh
kemungkinan kelompok persamaan regresi yang ada untuk menemukan persamaan regresi
2
yang mempunyai koefisien korelasi berganda R yang terbesar dalam setiap kelompoknya.
2
Bila jumlah sampel cukup besar evaluasi terhadap rata-rata Kuadrat Tengah Sisa (S )
untuk setiap kelompok seringkali dapat menunjukkan titik pemisah bagi banyaknya variabel
yang sebaiknya diikut sertakan dalam persamaa regresi. Berdasarkan pada analisis di atas
berbagai Kuadrat Tengah Sisa untuk masing-masing kelompok dengan k variabel, di mana
k adalah banyaknya parameter yang ada dalam model termasuk 0. Di mana k = p + 1;
seperti Tabel 5.4 di bawah ini.
Tabel 5.4 Nilai Kuadrat Tengah Sisa dan Rata-ratanya
2
Rata-rata S (p)
113,53
47,00
5,35;
5,33;
5,65;
8,.20
5,98
6,13
5,98
Misalnya 17,57 adalah Kuadrat Tengah Sisa yang diperoleh dari model yang mengandung X3 dan X5.
Bila jumlah variabel bebas Xi yang potensial dalam model cukup besar, misalnya p lebih
besar dari sepuluh, dan jika banyaknya sampel pengamatan jauh lebih besar dari p,
2
misalnya 5p atau l0p, maka sebaran S (p) seringkali sangat informatif. Pendugaan
persamaan regresi yang melibatkan lebih banyak variabel peramal Xi daripada yang
dibutuhkan untuk memperoleh persamaan yang memuaskan disebut overfitting. Semakin
banyak variabel peramal Xi ditambahkan ke dalam persamaan yang telah overfitted,
Kuadrat Tengah Sisanya akan cenderung stabil dan mendekati nilai Jumlah Kuadrat Sisa
2
Regresi yang sebenarnya, asalkan semua variabel yang penting telah disertakan dalam
model dan jumlah pengamatan jauh lebih besar daripada banyaknya variabel peramal Xi
yang ada dalam persamaan regresi penduga.
Sebaliknya, untuk jumlah sampel yang tidak begitu banyak tidak boleh terlalu berharap
bahwa persyaratan yang dikemukakan di atas dapat diterapkan secara efektif. Namun
2
dapat dipakai petunjuk kasar bahwa sebaran rata-rara S (p) memperlihatkan gambaran
yang relatif stabil, apabila jumlah variabel relatif banyak.
3. Evaluasi dengan menggunakan Statistika Cp Mallow
Sebuah nilai statistika lain yang dapat menjelaskan pemilihan persamaan regresi penduga
yang terbaik di tahun-tahun belakangan ini adalah Statistika Cp, yang pada awalnya
dikemukakan oleh C.L. Mallows. Staristika ini mempunyai bentuk:
2
Cp = ]K Sk/S - (n - 2k)
129
Dalam hal di atas ]K Sk adalah Jumlah Kuadrat Sisa dari model yang mengandung k
parameter, di mana k adalah banyaknya parameter dalam model termasuk 0, sehingga k =
2
p + 1, dan S adalah Kuadrat Tengah Sisa dari persamaan terbesar yang dipostulatkan
mengandung semua nilai Xi, dan diasumsikan merupakan nilai dugaan takbias yang
2
terandalkan bagi Ragam Galat . Seperti yang dinyatakan oleh R.W. Kennard, bahwa Cp
2
2
2
berkaitan erat dengan statistik koefisien determinasi R terkoreksi (adjusted R = Ra ) dan
2
Statistik ini juga berkaitan dengan statistik koefisien determinasi R .
Jika suatu persamaan dengan p variabel bebas Xi sudah memadai, artinya tidak
2
menderita akibat dari ketidakpasan model, di mana nilai harapan E(JK Sk) = (n - k) .
2
2
2
Karena juga diasumsikan bahwa E(s ) = , maka nisbah JK Sk/S mempunyai nilai
2
2
harapan (n - k) / = n - k, sehingga E(Cp) = k.
Dengan demikian sebaran Cp vs p akan memperlihatkan model-model yang memadai
sebagai titik-titik yang cukup dekat pada garis Cp = p. Persamaan-persamaan regresi yang
kurang baik karena keridakpasan model, dengan kata lain persamaan yang berbias akan
menghasilkan titik-titik yang jauh di atas atau seringkali jauh di atas garis Cp = p.
Nilai yang tinggi dari Cp pada setiap titik sebaran mempunyai arti penting, sebab dapat
menunjukkan atau merupakan nilai dugaan bagi Jumlah Kuadrat Simpangan (Ragam Galat
plus Galat Bias) dari persamaan regresi penduga sebuah model yang sebenarnya
yang tidak diketahui.
Semakin banyak data diikut disertakan dalam model untuk dapat menurunkan nilai JK Sp,
didapatkan nilai dari Cp semakin tinggi. Sehingga model terbaik dapat ditentukan setelah
memeriksa sebaran nilai Cp. Sebenarnya yang dicari adalah persamaan regresi dengan
nilai Cp yang rendah yang sama dengan p. Bilamana yang dipilih tidak jelas, maka
merupakan penilaian yang bersifat pribadi untuk memilih dari persamaan yang diinginkan:
1).
Persamaan yang bias yang tidak mewakili data maupun karena JK Sp-nya lebih besar
(sehingga Cp > p) namun memiliki Cp yang lebih kecil daripada yang lain, sehingga
Cp merupakan nilai dugaan bagi Simpangan Total (Ragam Galat plus Galat Bias) dari
model sebenarnya yang tidak diketahui, atau
2).
Suatu pernyataan dari acuan yang disebutkan terakhir ini adalah bahwa Cp tidak mungkin
diharapkan dapat menghasilkan satu persamaan terbaik bila datanya secara intrinsik
memang tidak memadai untuk mendukung kesimpulan yang kuat. Begitu pula dengan
prosedur seleksi pemilihan persamaan yang terlaik lainnya. Bahwa semua prosedur seleksi
pada hakikatmya adalah metode untuk menunjukkan dan menyimak kembali secara teratur
data yang dimiliki.
Apabila diterapkan prosedur-prosedur itu dengan baik dapat memberikan hasil yang
bermanfaat. Sebaliknya, penerapan secara ceroboh dan atau secara mekanis, mungkin
dapat menyebabkan prosedur itu tidak berguna atau bahkan menyesatkan.
130
Telaahan penggunaan Statistik Cp dari data di atas. Untuk data dengan n = 13 dan
2
s = 5,983 dari model yang menyertakan keempat variabel peramal Xi. Misalnya
untuk model Yi = bo + biXi + e (k = 5 termasuk bo), memperoleh persamaan dengan nilai
Cp manjadi: Cp = 1265,687/5,983 - (13 - 4) = 202,5.
Perhatikan bahwa untuk persamaan dengan semua variabel peramal disertakan
di dalamnya, Cp = p, harusnya demikian menurut definisi, sebab dalam hal ini
2
JK Sp = (n - p)S .
131
Response is Y = X5
Tabel 5.5 Nilai R-Sq, R-Sq (adj), C-P Mallow, dan Sisa Regresi (S)
Vars
R-Sq
Klompok B
1
67,5
1
66,6
1
53,4
1
28,6
Klompok C
2
97,9
2
97,2
2
93,5
2
84,7
Klompok D
3
98,2
3
98,2
3
98,1
3
98,3
Klompok E
4
98,2
R-Sq
(adj)
C-p
Mallows
X
1
64,7
63.8
49,5
22,6
156,2
160,4
228.0
354,7
8,5823
8,6907
10,270
42,713
97,5
96,7
92,4
81,9
2,9
6,1
25,0
60,1
2,2944
2,6070
3,9970
6,1455
X
X
97,7
97,8
97,6
96,5
3,0
3,0
3,6
7,9
2,1903
2,1934
2,2547
2,7169
X
X
X
97,5
5,0
2,3061
X
2
X
3
X
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Keterangan:
R-Sq = R2 = koefisien determinasi
R-Sq (adj) = R 2 = koefisien determinasi terkoreksi
132
Source
DF
SS
MS
Regression
2667,65
889,22
166,34
0,000
X1,X2,X3
Regression
2667,79
889,26
166,83
0,000
X1,X2,X4
Regression
2641,95
880,65
107,38
0,000
X1,X3,X4
Regression
2667,90
666,97
111,48
0,000
X1,X2,X3,X4
Variabel
DF = DB
Ternyata dari Tabel 5.6 di atas dapat diketahui bahwa tambahan JK Regresi yang
disebabkan oleh variabel X3 adalah paling rendah yaitu sebesar 2667,90 2667,79 = 0,11
(lihat pada baris dua dari Tabel 5.6 di atas), sehingga sumbangan X3 dalam regresi
berganda = F(X1,X2,X3,X4) adalah paling rendah, dibandingkan dengan variabel lainnya.
Tabel 5.7 Nilai F-hitung Secara Individual Untuk Setiap Variabel terhadap Y
No.
Persamaan
F-Hitung
Variabel
= X5 = 81,5 + 1,870 X1
12,6
X1
= X5 = 57,4 + 0,789 X2
21,96
X2
= X5 = 110,0 1,260 X3
4,40
X3
= X5 = 118,0 0,738 X4
22,80
X4
Ternyata dari Tabel 5.7 di atas dapat diketahui bahwa pengaruh setiap variabel bebas Xi
secara individual terhadap variabel Y. Ternyata bahwa nilai F-hitung secara individual
untuk variabel X3 = 4,40 yang lebih kecil dari nilai F-tabel dengan = 5%.
Nilai F(0,05; 1; 11) = 4,84; maka X3 berpeluang untuk dikeluarkan dari variabel yang lain. Hal
ini dapat dibuktikan dari nilai F-hitung parial untuk X3 seperti Tabel 5.8 di bawah ini.
133
Source
DF
SS
MS
Regression
2667,90
2667,90
446,137
0,000
X1,X2,X3,X4
X1
1450,08
1450,08
242,489
0,000
X1
X2
1207,78
1207,78
201,970
0,000
X2
X3
9,79
9,79
1,637
0,237
X3
X4
0,25
0,25
0,042
0,82
X4
Residual
47,86
5,98
Total
12
2715,76
Nilai F-hitung parsial X3 = 1,637 yang lebih kecil dari F-tabel (F5%; 1; 8) = 5,32, sehingga X3
tepat dieliminir dari fungsi Y = f(X1, X2, X3, dan X4).
Selanjutnya, hitung persamaan regresi untuk Y = f(X1, X2, dan X4), yang hasilnya seperti
= X5 = 71.6 + 1.45 X1 + 0.416 X2 - 0.237 X5. Nilai-F hitung untuk keseluruhan
persamaan ini adalah F-hitung = 166,83; yang secara statistik nyata karena melebihi Ftabel (5%; 3; 9) = 3,85. Setelah memeriksa persamaan ini untuk kemungkinan dieliminasi,
perlu melihat bahwa X4 mempunyai nilai-F parsial terkecil sehingga menjadi calon untuk
dikeluarkan. Prosedur untuk eliminasi ini serupa dengan prosedur eliminasi sebelumnya
namun dengan satu perubahan; yaitu, nilai-F tabelnya adalah F(0,05; l; 9) = 5,12. Karena
variabel X4 mempunyai nilai-F parsial 1.86 (yang lebih kecil dari 5,12), sehingga X4 dapat
dingeluarkan dari model.
Maka sekarang perlu dihitung persamaan untuk = f(X1,X2), hasil perhitungan regresinya
menjadi: = X5 = 52,6 + 1,47 X1 + 0,662 X2.
Ternyata dari perhitungan tersebut menghasilkan persamaan regresi yang
secara keseluruhan yang nyata dengan nilai-F hitung sebesar 229.50 yang melebihi
nilai F-tabel (2; 10; 0.05) = 4,10. Kedua variabel X1 dan X2 secara statistik nyata,
karena nilai-F parsial masing-masingnya lebih besar dari 4,10. Prosedur seleksi eliminasi
langkah mundur berakhir dan menghasilkan persamaan: = 52,6 + 1,47X1 + 0,66X2.
Prosedur ini memuaskan, khususnya bagi yang ingin melihat semua variabel dalam
persamaan sehingga tidak kehilangan sesuatu. Prosedur ini jauh lebih menghemat waktu
dan tenaga dibandingkan metode semua kemungkinan regresi yang dapat dibuat.
Harus disadari bahwa sekali suatu variabel dikeluarkan dalam prosedur ini, maka ia hilang
untuk selamanya. Jadi, semua model alternatif yang menggunakan variabel yang telah
dikeluarkan tidak tersedia untuk dipertimbangkan kembali.
Hal-hal yang dipertimbangkan dan relevan dalam prosedur di sini adalah.
1).
Beberapa program yang didasarkan pada prosedur ini menggunakan uji-t terhadap
akar nilai-F parsial, bukan uji-F seperti di atas. Ini didasarkan pada kenyataan bahwa
jika niai-F sama dengan F(; 1; db) adalah suatu nilai F dengan derajat bebas, 1 dan
db, maka nilai-t sama menjadi t(; db) adalah suatu nilai-t dengan derajat bebas
sama dengan db.
134
5.2.4
Dalam metode eliminasi langkah mundur dimulai dari mencari regresi terbesar dengan
menggunakan semua variabel bebas Xi, dan secara bertahap mengurangi banyaknya
variabel bebas Xi di dalam persamaan sampai suatu keputusan dicapai untuk
menggunakan persamaan yang didapatkan.
Prosedur seleksi bertatar berusaha mencapai kesimpulan yang serupa namun dengan
menempuh arah yang berlawanan, yaitu menyusupkan variabel bebas Xi, satu demi satu
sampai diperoleh persamaan regresi yang memuaskan. Urutan penyisipannya ditentukan
dengan menggunakan koefisien korelasi parsial sebagai ukuran perlunya variabel bebas Xi
yang masih di luar persamaan untuk dimasukkan ke dalam persamaan.
Sekarang persamaan regresi tersebut harus diuji, yaitu peningkatan nilai R harus
diperhatikan, dan nilai-F parsial untuk kedua variabel yang ada di dalam persamaan bukan
hanya yang baru disusupkan saja. Nilai-F parsial yang terendah kemudian dibandingkan
dengan nilai-F tabel. Variabel bebas Xi bersangkutan dipertahankan atau dikeluarkan dari
persamaan tergantung pada apakah uji-uji tersebut nyata atau tidak. Pengujian variabel
bebas Xi yang ada dalam persamaan regresi yang paling kecil sumbangannya perlu
dilakukan pengujian
pada setiap tahap prosedur bertatar. Variabel peramal yang
sebelumnya pernah menjadi calon terbaik dan disusupkan ke dalam persamaan regresi,
pada tahap berikutnya mungkin dapat dianggap berlebihan karena hubungannya dengan
variabel lain atau adanya kolilieritas yang sekarang ada di dalam regresi.
Untuk memeriksa ini, nilai-F parsial untuk setiap variabel di dalam regresi dihitung, dan
yang paling kecil (mungkin berasal dari variabel yang baru masuk, tetapi mungkin juga dari
yang sudah lama berada dalam persamaan) dibandingkan dengan nilai-F tabel yang telah
ditetapkan sebelumnya. Cara ini menghasilkan penilaian terhadap sumbangan variabel
yang paling kurang bermanfaat pada saat itu, seolah-olah variabel tersebut dimasukkan
paling akhir, walaupun kenyataannya tidak demikian. Bila sumbangan variabel tersebut
tidak nyata, variabel bersangkutan dikeluarkan dari model dan persamaan regresi dihitung
kembali berdasarkan variabel-variabel yang masih ada di dalam model.
135
Selanjutnya, variabel terbaik yang di luar model yang korelasi parsialnya dengan Y tertinggi
diuji, apakah variabel tersebut lulus dari uji-F parsial untuk memasukkan variabel ke dalam
persamaan. Jika lulus, variabel tersebut dimasukkan dan kembali semua nilai-F parsial
variabel yang ada di dalam persamaan regresi diperiksa. Jika gagal, proses pengeluaran
dicoba lagi. Apabila terjadi salah pilih taraf- untuk masuk dan untuk keluar sehingga
5
proses tidak pernah terhenti , jika tidak ada variabel yang dapat dikeluarkan atau
dimasukkan, proses akan berhenti sendiri.
Setiap kali variabel masuk ke dalam persamaan regresi, pengaruhnya terhadap kuadrat
2
koefisien korelasi ganda R selalu bertambah, biasanya dicatat. Sekali lagi, akan
digunakan data di atas untuk mengilustrasikan proses bekerjanya prosedur regresi bertatar.
Aculah keluaran komputer bilamana diperlukan dan ingat bahwa = X5 dan Xi = X1, X2, X3,
dan X4 sebagai variabel bebas. Uji masukan dan keluaran variabel bebas yang dilakukan
pada taraf = 0,10; hasilnya seperti berikut ini.
1).
2).
Regresikan Y terhadap X5. Persamaan regresi kuadrat terkecil yang diperoleh seperti
2
yang ditunjukkan = X5 = 118,0 0,738 X4 dengan R = 67,5. Uji-F keseluruhan
menunjukkan bahwa persamaan regresi ini secara statistik nyata. Jadi X4 dapat
dipertahankan pada persamaan.
3).
Selanjutnya, hitunglah koefisien korelasi parsial semua variabel bebas Xi yang ada di
luar regresi dengan variabel respons Y. Sebagai variabel kedua untuk dimasukkan
ke dalam regresi, ambillah yang koefisien korelasi parsialnya tertinggi. Variabel ini
adalah variabel X1 dengan korelasi parsial: r15.4 = 0,915.
4).
Dengan X4 dan X1 dalam model, persamaan regresi kuadrat terkecil Y = f(X4, X1)
2
adalah dengan persamaan = X5 = 103,0 + 1,44 X1 0,614 X4 dengan R = 97,2.
2
Persamaan ini mempunyai koefisien determinasi R = 97.2% dan nyata, sebab nilai-F
keseluruhannya 176,63 yang melebihi F(0,10; 2; 10) = 5.10. Diketahui bahwa
variabel baru disusupkan X1 menurunkan secara nyata Jumlah Kuadrat Sisa yang
diperlihatkan oleh nilai-F parsialnya = 108,22, yang melebihi F(0.1; 1;10) = 4,95.
Maka variabel bebas X1 dipertahankan dalam persamaan.
Pemeriksa sumbangan X4, seandainya X1 yang dimasukkan lebih dulu. Karena nilai-F
parsialnya adalah 159,295, jauh melebihi F(0,1; l; 10) = 4,95. Sehingga X4 harus
dipertahankan. Di dalam praktek, program komputer tidak diuji kedua variabel tersebut
dengan cara ini, melainkan diuji dengan nilai-F parsial yang paling kecil. Keputusannya
adalah mengeluarkan atau mempertahankan variabel tadi dengan uji F-parsialnya, dan
selanjutnya, menghitung kembali regresi atau mencari variabel bebas Xi berikutnya.
1. Metode bertatar sekarang memilih sebagai variabel bebas berikutnya adalah
yang paling tinggi korelasi-parsialnya dengan variabel respons Y, dalam kondisi bahwa
X4 dan X1 telah ada di dalam persamaan regresi. Ternyata yang terpilih adalah
variabel bebas X2. Kuadrat koefisien korelasi parsial X2 dengan variabel respons Y
2
adalah r 25.41 = 0,358.
136
2. Persamaan baru = f(X4, X1, X2) dengan persamaan regresinya = X5 = 71,6 0,237
2
2
X4 + 1,45 X1 + 0,416 X2 dengan R = 98,2 . Kuadrat koefisien korelasi ganda R
telah naik dari 97.2% menjadi 98.2%. Pada tahap ini, ketiga nilai-F parsial untuk X1,
X2, dan X4 diperiksa kembali dan diuji. Yang nilai-F parsial terkecil adalah F = 1,863
untuk X4 dan karena ini lebih kecil dari F(0,10; 1; 9) = 3,36 berarti X4 harus dikeluarkan
dari persamaan. Persamaan regresi sekarang dihitung kembali dengan X1 dan X2
sebagai variabel peramal yang baru dan keduanya ternyata harus dipertahankan dalam
model karena secara statistik adalah signifikan.
3. Satu-satunya variabel yang perlu diperhitungkan adalah variabel X3 untuk dimasukkan
ke dalam persamaan. Ternyata dalam analisis lanjutan variabel bebas X3 ini kemudian
ditolak, prosedur regresi bertatar terakhir dan berakhirlah proses serta menetapkan
sebagai persamaan regresi terbaiknya dengan dua peubah bebas dengan persamaan
= 52.58 + 1.47 X1 + 6,66 X2.
Dalam pemilihan persamaan regresi rerbaik, merupakan salah satu prosedur untuk
menyeleksi variabel dan direkomendasikan penggunaannya dalam model. Prosedur ini
lebih menghemat waktu-kerja komputer dibandingkan metode-metode yang dibahas
sebelumnya, dan juga mencegah memasukkan lebih banyak variabel X daripada yang
diperlukan sambil memperbaiki persamaannya pada setiap tahap perhitungan.
Seperti halnya semua prosedur lainnya, penilaian yang logis masih tetap diperlukan dalam
pemilihan awal pemilihan variabel-variabel dan dalam pemeriksaan model secara kritis
melalui pemeriksaan Sisaannya. Jika tidak waspada, akan terlalu mudah menyandarkan
diri pada seleksi otomatis yang dilaksanakan oleh komputer.
Tambahan. Perlu diperhatian penjelasan berikut ini. Paket program regresi banyak yang
tidak menghitung koefisien korelasi parsial atau kuadratnya, seperti yang dinyatakan di
atas. Program tersebut menggunakan statistik F to enter (untuk memasuk variabel) untuk
setiap variabel yang berada dl luar persamaan. Pada hakikatnya ini memberikan hasil yang
sama. Variabel yang dicalonkan untuk disusupkan dalam model adalah yang mempunyai
nilai F to enter terbesar. Biasanya paling baik dipilih taraf nyata- yang sama untuk masuk
maupun untuk keluar. Jika nilai- untuk keluar lebih kecil daripada nilai- untuk masuk,
bisa terjadi proses tidak pernah terhenti. Jika nilai- untuk keluar besar, variabel yang
sumbangannya melemah mungkin tetap tertahan di dalam persamaan regresi dan hasil ini
akan membingungkan.
137
Variasi semacam ini sesungguhnya bersifat pribadi, namun digabungkan dengan nilai-F
yang ditentukan mempunyai pengaruh besar pada perilaku prosedur seleksi, serta berapa
banyak variabel peramal dipertahankan di dalam persamaan akhir. Sebagian orang,
bahkan banyak yang mengabaikan nilai-F tabel sama sekali, dan cukup membandingkan
nilai-F parsial dengan suatu bilangan tertentu, misalnya 5.
Untuk anda yang belum memiliki pendapat sendiri yang kokoh, disarankan penggunaan
nilai- = 0,05 atau nilai- = 0,10, baik untuk uji masuk maupun untuk uji keluar, kalau paket
program yang digunakan memungkinkan pemilihan, seperi paket SPSS. Taraf tersebut
dikemudian hari tentu saja dapat diubah sejalan dengan bertambahnya pengalaman dalam
analisis. Sebagaian akan dijelaskan di pasal berikutnya, sesungguhnya nilai- bukanlah
ukuran yang teliti, sehingga penekanan yang berlebihan pada pemilihan nilai- tidak ada
manfaatnya. Pemilihan nilai- = 0,05 sesungguhnya bersifat konservatif, artinya nilai-
sebenarnya jauh lebih besar daripada 0,05 (beberapa studi telah dilakukan dan hasilnya
membenarkan hal ini), sehingga ada kecenderungan memasukkan lebih banyak variabel
bebas X1 daripada yang diantisipasi.
Ada sejumlah paket program regresi bertatar yang banyak digunakan. Khususnya,
SPSS-13, STATISTICA-6, dan MINITAB-14 menghasilkan keluaran yang mempunyai
keistimewaan dan menyediakan sejumlah pilihan untuk solusi analisis regresi bertatar dan
nalisis regresi lainnya.
138